游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
6.4 蒙特卡罗方法
786
7.7 案例训练:利用A2C算法求解钟摆平衡问题
798
7.6 DDPG的算法流程
799
7.5 广义优势函数估计
755
7 Actor-Critic
751
6.3 策略梯度定理的推导
758
6.6 案例训练 利用策略梯度方法求解小车上山问题
748
6.2 随机性策略梯度方法
724
6.1 基于策略的思想
723
6 策略梯度
715
5.1 Gym简介和环境加载
721
5.2 Gym的使用方法
714
5 强化学习的实验环境与工具
703
5.4 Tensorflow复习
704
4.1 状态-动作价值函数
711
4.2 Sarsa
713
首页
<
19
20
21
22
23
24
25
26
27
28
>
尾页