游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
讲义5.3Sarsa和Q-learning在悬崖寻路问题上的实现
2144
讲义5.2Gym的使用方法
2141
讲义5.1Gym简介和环境加载
2153
讲义4.5DQN
2143
讲义4.4Q-learning和Sarsa的对比
2133
讲义4.2Sarsa
2125
讲义4.1状态-动作价值函数
2151
讲义3.5值迭代法
2114
讲义3.3状态价值的定义与思想
2120
讲义2.6案例训练 多臂老虎机问题策略实现
2106
讲义2.5ε贪心策略
2109
讲义2.3探索与利用平衡
2079
讲义1.4环境的确定性与随机性
2091
讲义1.2马尔可夫决策过程
2103
讲义1.1马尔可夫过程
2141
5.3 Sarsa和Q-learning在悬崖寻路问题上的实现
785
首页
<
18
19
20
21
22
23
24
25
26
27
>
尾页