江苏开放大学•点石网 - 点石网|江苏终身学习资源库

更多筛选

全部视频音频图片文档 PPT 其它

最新最热最赞

强化学习-课程考核大纲202309

强化学习-课程教学设计一体化实施方案202309

强化学习-课程教学大纲202309

7.6 DDPG的算法流程

7.5 广义优势函数估计

7.3_7.4 Actor-Critic的算法流程

7.1 策略梯度方法的缺点

6.5 REINFORCE算法

6.4 蒙特卡罗方法

6.3 策略梯度定理的推导

6.2 随机性策略梯度方法

6.1 基于策略的思想

5.3 Sarsa和Q-learning在悬崖寻路问题上的实现

5.2 Gym的使用方法

4.4 Q-learning和Sarsa的对比

4.1 状态-动作价值函数

3.5 值迭代法

3.4 策略迭代法

1
2
3
4
5
>
尾页