| 资源(41) |
时长( 10:21:45) |
播放量(84342) |
1.1马尔可夫过程 |
00:15:57
|
2294 |
1.2马尔可夫决策过程 |
00:14:51
|
2271 |
1.3环境已知与未知 |
00:10:58
|
2250 |
1.4环境的确定性与随机性 |
00:04:54
|
2294 |
1.5强化学习的应用 |
00:17:57
|
2194 |
第二章_01_MAB问题描述 |
00:08:46
|
2077 |
第二章_02_简单策略和贪婪策略 |
00:16:20
|
2085 |
第二章_03_探索利用平衡 |
00:15:50
|
2093 |
第二章_05_epsilon贪心策略 |
00:13:34
|
2072 |
第三章_01_三连棋游戏第一步走中间 |
00:19:49
|
2077 |
第三章_03_状态价值的定义与思想 |
00:19:17
|
2076 |
第三章_04_策略迭代法 |
00:19:01
|
2052 |
第三章_05_值迭代法 |
00:17:34
|
2067 |
第四章_01_状态-动作价值函数 |
00:18:31
|
2065 |
第四章_02_Sarsa |
00:11:24
|
2046 |
第四章_03_Q-learning |
00:15:56
|
2082 |
第四章_04_Q-learning和Sarsa的对比 |
00:20:47
|
2092 |
第四章_05_DQN |
00:10:07
|
2079 |
第五章_01_Gym简介和环境加载 |
00:20:58
|
2054 |
第五章_02_Gym的使用方法 |
00:13:48
|
2082 |
第六章_01_基于策略的思想 |
00:16:48
|
2056 |
第六章_02_随机性策略梯度方法 |
00:13:06
|
2065 |
第六章_03_策略梯度定理的推导(上) |
00:10:17
|
2065 |
第六章_03_策略梯度定理的推导(下) |
00:13:37
|
2071 |
第六章_04_蒙特卡罗方法 |
00:14:35
|
2076 |
第六章_05_REINFORCE算法 |
00:17:21
|
2086 |
第七章_01_策略梯度方法的缺点 |
00:09:34
|
2089 |
第七章_03_Actor-Critic的算法流程 |
00:16:09
|
2137 |
第七章_04_Actor-Critic with Baseline |
00:20:36
|
2084 |
第七章_05_广义优势函数估计 |
00:16:14
|
2090 |
第七章_11_DDPG的算法流程 |
00:18:44
|
2143 |
测试强化学习5.3视频 |
00:19:42
|
2272 |
测试强化学习-7.2视频 |
00:18:44
|
2260 |
第三章_02_三连棋游戏第一步走角落new |
00:11:00
|
2384 |
第二章_04_探索与利用的意义new |
00:19:24
|
2279 |
Actor Critic (v1) |
00:10:18
|
1618 |
Deep Q-Learning (V1) |
00:11:37
|
1613 |
Deep Q-Network(V1) |
00:15:56
|
1598 |
价值函数的近似算法(V1) |
00:11:22
|
1640 |
Deterministic Policy Gradient (V1) |
00:14:31
|
1652 |
Off-policy Actor-Critic(V1) |
00:15:51
|
1662 |