江苏开放大学•点石网 - 点石网|江苏终身学习资源库

leixy

3
课程

｜

444
资源

6.4 蒙特卡罗方法

7.7 案例训练：利用A2C算法求解钟摆平衡问题

7.6 DDPG的算法流程

7.5 广义优势函数估计

6.3 策略梯度定理的推导

6.6 案例训练利用策略梯度方法求解小车上山问题

6.2 随机性策略梯度方法

6.1 基于策略的思想

5.1 Gym简介和环境加载

5.2 Gym的使用方法

5 强化学习的实验环境与工具

5.4 Tensorflow复习

4.1 状态-动作价值函数

首页
<
19
20
21
22
23
24
25
26
27
28
>
尾页