游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
4 Q-learning
705
2.4 探索与利用的意义
712
2.2 简单策略和贪婪策略
717
2.3 探索利用平衡
710
2.5 epsilon贪心策略
716
2.1 MAB问题描述
720
2 多臂老虎机
704
1.2马尔可夫决策过程
720
1.3环境已知与未知
727
1.4环境的确定性与随机性
721
1.5强化学习的应用
718
1.1马尔可夫过程
722
案例 多臂老虎机问题策略的实现
2059
案例 利用策略迭代和值迭代求解迷宫寻宝问题
2054
案例 迷宫寻宝
2055
案例 REINFORCE算法求解小车爬山游戏
2063
首页
<
20
21
22
23
24
25
26
27
28
>
尾页