游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
1 强化学习关键概念
2062
案例 Q-learning解决悬崖寻路
2090
3 策略梯度关键知识点
2112
2 Q-learning和Sarsa关键知识点
2091
第七章_11_DDPG的算法流程
2288
第七章_05_广义优势函数估计
2225
第七章_04_Actor-Critic with Baseline
2229
第七章_01_策略梯度方法的缺点
2229
第六章_05_REINFORCE算法
2224
第六章_04_蒙特卡罗方法
2226
第六章_03_策略梯度定理的推导(下)
2207
第六章_03_策略梯度定理的推导(上)
2216
第六章_02_随机性策略梯度方法
2202
第六章_01_基于策略的思想
2188
第五章_02_Gym的使用方法
2222
第五章_01_Gym简介和环境加载
2188
首页
<
21
22
23
24
25
26
27
28
>
尾页