游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
讲义5.3Sarsa和Q-learning在悬崖寻路问题上的实现
1826
讲义5.2Gym的使用方法
1819
讲义5.1Gym简介和环境加载
1829
讲义4.5DQN
1821
讲义4.4Q-learning和Sarsa的对比
1813
讲义4.2Sarsa
1805
讲义4.1状态-动作价值函数
1818
讲义3.5值迭代法
1794
讲义3.3状态价值的定义与思想
1797
讲义2.6案例训练 多臂老虎机问题策略实现
1788
讲义2.5ε贪心策略
1787
讲义2.3探索与利用平衡
1759
讲义1.4环境的确定性与随机性
1762
讲义1.2马尔可夫决策过程
1777
讲义1.1马尔可夫过程
1798
5.3 Sarsa和Q-learning在悬崖寻路问题上的实现
778
首页
<
18
19
20
21
22
23
24
25
26
27
>
尾页