游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
6.4 蒙特卡罗方法
789
7.7 案例训练:利用A2C算法求解钟摆平衡问题
801
7.6 DDPG的算法流程
803
7.5 广义优势函数估计
759
7 Actor-Critic
754
6.3 策略梯度定理的推导
760
6.6 案例训练 利用策略梯度方法求解小车上山问题
750
6.2 随机性策略梯度方法
726
6.1 基于策略的思想
726
6 策略梯度
718
5.1 Gym简介和环境加载
725
5.2 Gym的使用方法
718
5 强化学习的实验环境与工具
706
5.4 Tensorflow复习
706
4.1 状态-动作价值函数
713
4.2 Sarsa
715
首页
<
19
20
21
22
23
24
25
26
27
28
>
尾页