游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
4 Q-learning
698
2.4 探索与利用的意义
706
2.2 简单策略和贪婪策略
711
2.3 探索利用平衡
705
2.5 epsilon贪心策略
710
2.1 MAB问题描述
715
2 多臂老虎机
699
1.2马尔可夫决策过程
715
1.3环境已知与未知
718
1.4环境的确定性与随机性
715
1.5强化学习的应用
713
1.1马尔可夫过程
717
案例 多臂老虎机问题策略的实现
1758
案例 利用策略迭代和值迭代求解迷宫寻宝问题
1753
案例 迷宫寻宝
1753
案例 REINFORCE算法求解小车爬山游戏
1756
首页
<
20
21
22
23
24
25
26
27
28
>
尾页