| 资源(55) |
时长( 00:00:00) |
播放量(117659) |
强化学习-学员网上学习行为规范 |
/
|
2533 |
强化学习-课程负责人简介 |
/
|
2495 |
强化学习-课程学习方法与策略 |
/
|
2441 |
强化学习-学习进度表 |
/
|
2446 |
2 Q-learning和Sarsa关键知识点 |
/
|
2079 |
3 策略梯度关键知识点 |
/
|
2096 |
案例 Q-learning解决悬崖寻路 |
/
|
2078 |
1 强化学习关键概念 |
/
|
2051 |
案例 REINFORCE算法求解小车爬山游戏 |
/
|
2058 |
案例 迷宫寻宝 |
/
|
2050 |
案例 利用策略迭代和值迭代求解迷宫寻宝问题 |
/
|
2049 |
案例 多臂老虎机问题策略的实现 |
/
|
2054 |
讲义1.1马尔可夫过程 |
/
|
2129 |
讲义1.2马尔可夫决策过程 |
/
|
2093 |
讲义1.4环境的确定性与随机性 |
/
|
2078 |
讲义2.3探索与利用平衡 |
/
|
2067 |
讲义2.5ε贪心策略 |
/
|
2098 |
讲义2.6案例训练 多臂老虎机问题策略实现 |
/
|
2095 |
讲义3.3状态价值的定义与思想 |
/
|
2107 |
讲义3.5值迭代法 |
/
|
2102 |
讲义4.1状态-动作价值函数 |
/
|
2138 |
讲义4.2Sarsa |
/
|
2112 |
讲义4.4Q-learning和Sarsa的对比 |
/
|
2122 |
讲义4.5DQN |
/
|
2130 |
讲义5.1Gym简介和环境加载 |
/
|
2144 |
讲义5.2Gym的使用方法 |
/
|
2130 |
讲义5.3Sarsa和Q-learning在悬崖寻路问题上的实现 |
/
|
2133 |
讲义6.1基于策略的思想 |
/
|
2139 |
讲义6.2随机性策略梯度方法 |
/
|
2123 |
讲义6.4蒙特卡罗方法 |
/
|
2137 |
讲义7.5广义优势函数估计 |
/
|
2129 |
讲义7.6DDPG的算法流程 |
/
|
2175 |
讲义2.4探索与利用的意义 |
/
|
2160 |
讲义7.2Actor-Critic的思想 |
/
|
2153 |
讲义7.3~7.4Actor-Critic的算法流程 |
/
|
2178 |
讲义6.3策略梯度定理的推导 |
/
|
2168 |
讲义6.5REINFORCE算法 |
/
|
2187 |
讲义4.3Q-learning |
/
|
2185 |
讲义3.1三连棋游戏第一步走中间 |
/
|
2248 |
讲义3.2三连棋游戏第一步走角落 |
/
|
2221 |
讲义2.1MAB问题描述 |
/
|
2253 |
讲义2.2简单策略和贪婪策略 |
/
|
2224 |
讲义1.3环境已知与未知 |
/
|
2234 |
讲义1.5强化学习的应用 |
/
|
2240 |
讲义7.1策略梯度方法的缺点 |
/
|
2284 |
讲义3.4策略迭代法 |
/
|
2239 |
案例 AC实现小车倒立摆游戏 |
/
|
2374 |
强化学习-课程考核大纲 (7.4) |
/
|
2435 |
强化学习-课程教学大纲 (7.4) |
/
|
2337 |
强化学习-课程教学设计一体化实施方案 (7.4) |
/
|
2329 |
第七单元 Actor-Critic-new |
/
|
1690 |
第四单元 QLearning |
/
|
1699 |
强化学习-课程教学大纲202309 |
/
|
1670 |
强化学习-课程教学设计一体化实施方案202309 |
/
|
1667 |
强化学习-课程考核大纲202309 |
/
|
1673 |