游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
讲义5.3Sarsa和Q-learning在悬崖寻路问题上的实现
1913
讲义5.2Gym的使用方法
1908
讲义5.1Gym简介和环境加载
1920
讲义4.5DQN
1909
讲义4.4Q-learning和Sarsa的对比
1900
讲义4.2Sarsa
1892
讲义4.1状态-动作价值函数
1911
讲义3.5值迭代法
1882
讲义3.3状态价值的定义与思想
1884
讲义2.6案例训练 多臂老虎机问题策略实现
1877
讲义2.5ε贪心策略
1876
讲义2.3探索与利用平衡
1848
讲义1.4环境的确定性与随机性
1854
讲义1.2马尔可夫决策过程
1869
讲义1.1马尔可夫过程
1891
5.3 Sarsa和Q-learning在悬崖寻路问题上的实现
781
首页
<
18
19
20
21
22
23
24
25
26
27
>
尾页