| 资源(129) |
时长( 10:21:45) |
播放量(252699) |
强化学习-学员网上学习行为规范 |
/
|
2529 |
强化学习-课程负责人简介 |
/
|
2492 |
强化学习-课程学习方法与策略 |
/
|
2437 |
强化学习-学习进度表 |
/
|
2441 |
1.1马尔可夫过程 |
00:15:57
|
2433 |
1.2马尔可夫决策过程 |
00:14:51
|
2414 |
1.3环境已知与未知 |
00:10:58
|
2391 |
1.4环境的确定性与随机性 |
00:04:54
|
2432 |
1.5强化学习的应用 |
00:17:57
|
2332 |
第二章_01_MAB问题描述 |
00:08:46
|
2210 |
第二章_02_简单策略和贪婪策略 |
00:16:20
|
2225 |
第二章_03_探索利用平衡 |
00:15:50
|
2235 |
第二章_05_epsilon贪心策略 |
00:13:34
|
2205 |
第三章_01_三连棋游戏第一步走中间 |
00:19:49
|
2209 |
第三章_03_状态价值的定义与思想 |
00:19:17
|
2209 |
第三章_04_策略迭代法 |
00:19:01
|
2177 |
第三章_05_值迭代法 |
00:17:34
|
2196 |
第四章_01_状态-动作价值函数 |
00:18:31
|
2191 |
第四章_02_Sarsa |
00:11:24
|
2172 |
第四章_03_Q-learning |
00:15:56
|
2205 |
第四章_04_Q-learning和Sarsa的对比 |
00:20:47
|
2225 |
第四章_05_DQN |
00:10:07
|
2202 |
第五章_01_Gym简介和环境加载 |
00:20:58
|
2173 |
第五章_02_Gym的使用方法 |
00:13:48
|
2204 |
第六章_01_基于策略的思想 |
00:16:48
|
2175 |
第六章_02_随机性策略梯度方法 |
00:13:06
|
2185 |
第六章_03_策略梯度定理的推导(上) |
00:10:17
|
2199 |
第六章_03_策略梯度定理的推导(下) |
00:13:37
|
2191 |
第六章_04_蒙特卡罗方法 |
00:14:35
|
2207 |
第六章_05_REINFORCE算法 |
00:17:21
|
2210 |
第七章_01_策略梯度方法的缺点 |
00:09:34
|
2213 |
第七章_03_Actor-Critic的算法流程 |
00:16:09
|
2259 |
第七章_04_Actor-Critic with Baseline |
00:20:36
|
2208 |
第七章_05_广义优势函数估计 |
00:16:14
|
2211 |
第七章_11_DDPG的算法流程 |
00:18:44
|
2268 |
2 Q-learning和Sarsa关键知识点 |
/
|
2075 |
3 策略梯度关键知识点 |
/
|
2094 |
案例 Q-learning解决悬崖寻路 |
/
|
2075 |
1 强化学习关键概念 |
/
|
2046 |
案例 REINFORCE算法求解小车爬山游戏 |
/
|
2054 |
案例 迷宫寻宝 |
/
|
2046 |
案例 利用策略迭代和值迭代求解迷宫寻宝问题 |
/
|
2045 |
案例 多臂老虎机问题策略的实现 |
/
|
2052 |
讲义1.1马尔可夫过程 |
/
|
2124 |
讲义1.2马尔可夫决策过程 |
/
|
2089 |
讲义1.4环境的确定性与随机性 |
/
|
2074 |
讲义2.3探索与利用平衡 |
/
|
2065 |
讲义2.5ε贪心策略 |
/
|
2094 |
讲义2.6案例训练 多臂老虎机问题策略实现 |
/
|
2091 |
讲义3.3状态价值的定义与思想 |
/
|
2104 |
讲义3.5值迭代法 |
/
|
2099 |
讲义4.1状态-动作价值函数 |
/
|
2131 |
讲义4.2Sarsa |
/
|
2107 |
讲义4.4Q-learning和Sarsa的对比 |
/
|
2118 |
讲义4.5DQN |
/
|
2127 |
讲义5.1Gym简介和环境加载 |
/
|
2140 |
讲义5.2Gym的使用方法 |
/
|
2125 |
讲义5.3Sarsa和Q-learning在悬崖寻路问题上的实现 |
/
|
2129 |
讲义6.1基于策略的思想 |
/
|
2136 |
讲义6.2随机性策略梯度方法 |
/
|
2119 |
讲义6.4蒙特卡罗方法 |
/
|
2134 |
讲义7.5广义优势函数估计 |
/
|
2125 |
讲义7.6DDPG的算法流程 |
/
|
2172 |
讲义2.4探索与利用的意义 |
/
|
2156 |
讲义7.2Actor-Critic的思想 |
/
|
2151 |
讲义7.3~7.4Actor-Critic的算法流程 |
/
|
2176 |
讲义6.3策略梯度定理的推导 |
/
|
2165 |
讲义6.5REINFORCE算法 |
/
|
2184 |
讲义4.3Q-learning |
/
|
2180 |
讲义3.1三连棋游戏第一步走中间 |
/
|
2246 |
讲义3.2三连棋游戏第一步走角落 |
/
|
2218 |
讲义2.1MAB问题描述 |
/
|
2249 |
讲义2.2简单策略和贪婪策略 |
/
|
2220 |
讲义1.3环境已知与未知 |
/
|
2232 |
讲义1.5强化学习的应用 |
/
|
2238 |
讲义7.1策略梯度方法的缺点 |
/
|
2281 |
讲义3.4策略迭代法 |
/
|
2236 |
案例 AC实现小车倒立摆游戏 |
/
|
2369 |
测试强化学习5.3视频 |
00:19:42
|
2403 |
测试强化学习-7.2视频 |
00:18:44
|
2380 |
第三章_02_三连棋游戏第一步走角落new |
00:11:00
|
2527 |
第二章_04_探索与利用的意义new |
00:19:24
|
2415 |
强化学习-课程考核大纲 (7.4) |
/
|
2432 |
强化学习-课程教学大纲 (7.4) |
/
|
2332 |
强化学习-课程教学设计一体化实施方案 (7.4) |
/
|
2326 |
Actor Critic (v1) |
00:10:18
|
1741 |
Deep Q-Learning (V1) |
00:11:37
|
1732 |
Deep Q-Network(V1) |
00:15:56
|
1717 |
价值函数的近似算法(V1) |
00:11:22
|
1762 |
Deterministic Policy Gradient (V1) |
00:14:31
|
1774 |
Off-policy Actor-Critic(V1) |
00:15:51
|
1785 |
第七单元 Actor-Critic-new |
/
|
1688 |
第四单元 QLearning |
/
|
1695 |
1.1马尔可夫过程 |
/
|
1493 |
1.2马尔可夫决策过程 |
/
|
0 |
1.3环境已知与未知 |
/
|
1505 |
1.4环境的确定性与随机性 |
/
|
1496 |
1.5强化学习的应用 |
/
|
1497 |
2.1 MAB问题描述 |
/
|
0 |
2.2 简单策略和贪婪策略 |
/
|
1491 |
2.3 探索利用平衡 |
/
|
1493 |
2.4 探索与利用的意义 |
/
|
1497 |
2.5 epsilon贪心策略 |
/
|
1496 |
3.1 三连棋游戏第一步走中间 |
/
|
1502 |
3.2 三连棋游戏第一步走角落 |
/
|
1502 |
3.3 状态价值的定义与思想 |
/
|
1500 |
3.4 策略迭代法 |
/
|
1675 |
3.5 值迭代法 |
/
|
1680 |
4.1 状态-动作价值函数 |
/
|
1679 |
4.2 Sarsa |
/
|
1688 |
4.3 Q-learning |
/
|
1697 |
4.4 Q-learning和Sarsa的对比 |
/
|
1701 |
4.5 DQN |
/
|
0 |
5.1 Gym简介和环境加载 |
/
|
0 |
5.2 Gym的使用方法 |
/
|
1699 |
5.3 Sarsa和Q-learning在悬崖寻路问题上的实现 |
/
|
1699 |
6.1 基于策略的思想 |
/
|
1703 |
6.2 随机性策略梯度方法 |
/
|
1711 |
6.3 策略梯度定理的推导 |
/
|
1717 |
6.4 蒙特卡罗方法 |
/
|
1748 |
6.5 REINFORCE算法 |
/
|
1752 |
7.1 策略梯度方法的缺点 |
/
|
1751 |
7.2 Actor-Critic的思想 |
/
|
0 |
7.3_7.4 Actor-Critic的算法流程 |
/
|
1750 |
7.5 广义优势函数估计 |
/
|
1751 |
7.6 DDPG的算法流程 |
/
|
1764 |
强化学习-课程教学大纲202309 |
/
|
1665 |
强化学习-课程教学设计一体化实施方案202309 |
/
|
1663 |
强化学习-课程考核大纲202309 |
/
|
1669 |