游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
6.4 蒙特卡罗方法
781
7.7 案例训练:利用A2C算法求解钟摆平衡问题
794
7.6 DDPG的算法流程
793
7.5 广义优势函数估计
751
7 Actor-Critic
747
6.3 策略梯度定理的推导
754
6.6 案例训练 利用策略梯度方法求解小车上山问题
744
6.2 随机性策略梯度方法
720
6.1 基于策略的思想
719
6 策略梯度
711
5.1 Gym简介和环境加载
717
5.2 Gym的使用方法
711
5 强化学习的实验环境与工具
700
5.4 Tensorflow复习
701
4.1 状态-动作价值函数
708
4.2 Sarsa
709
首页
<
19
20
21
22
23
24
25
26
27
28
>
尾页