游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
第七章_01_策略梯度方法的缺点
169
第六章_05_REINFORCE算法
152
第六章_04_蒙特卡罗方法
152
第六章_03_策略梯度定理的推导(下)
153
第六章_03_策略梯度定理的推导(上)
153
第六章_02_随机性策略梯度方法
152
第六章_01_基于策略的思想
150
第五章_02_Gym的使用方法
150
第五章_01_Gym简介和环境加载
150
第四章_05_DQN
146
第四章_04_Q-learning和Sarsa的对比
146
第四章_03_Q-learning
147
第四章_02_Sarsa
146
第四章_01_状态-动作价值函数
146
第三章_05_值迭代法
146
第三章_04_策略迭代法
146
首页
<
15
16
17
18
19
20
21
22
23
24
>
尾页