游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
讲义5.3Sarsa和Q-learning在悬崖寻路问题上的实现
2147
讲义5.2Gym的使用方法
2144
讲义5.1Gym简介和环境加载
2155
讲义4.5DQN
2146
讲义4.4Q-learning和Sarsa的对比
2136
讲义4.2Sarsa
2130
讲义4.1状态-动作价值函数
2155
讲义3.5值迭代法
2117
讲义3.3状态价值的定义与思想
2123
讲义2.6案例训练 多臂老虎机问题策略实现
2109
讲义2.5ε贪心策略
2111
讲义2.3探索与利用平衡
2081
讲义1.4环境的确定性与随机性
2093
讲义1.2马尔可夫决策过程
2106
讲义1.1马尔可夫过程
2143
5.3 Sarsa和Q-learning在悬崖寻路问题上的实现
786
首页
<
18
19
20
21
22
23
24
25
26
27
>
尾页