游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
6.4 蒙特卡罗方法
783
7.7 案例训练:利用A2C算法求解钟摆平衡问题
796
7.6 DDPG的算法流程
796
7.5 广义优势函数估计
753
7 Actor-Critic
749
6.3 策略梯度定理的推导
756
6.6 案例训练 利用策略梯度方法求解小车上山问题
746
6.2 随机性策略梯度方法
722
6.1 基于策略的思想
721
6 策略梯度
713
5.1 Gym简介和环境加载
719
5.2 Gym的使用方法
713
5 强化学习的实验环境与工具
702
5.4 Tensorflow复习
703
4.1 状态-动作价值函数
710
4.2 Sarsa
711
首页
<
19
20
21
22
23
24
25
26
27
28
>
尾页