游客
登录
我的空间
使用说明下载
leixy
3
课程
|
444
资源
资源
课程
全部
视频
音频
图片
文档
PPT
其它
4 Q-learning
701
2.4 探索与利用的意义
708
2.2 简单策略和贪婪策略
713
2.3 探索利用平衡
707
2.5 epsilon贪心策略
712
2.1 MAB问题描述
717
2 多臂老虎机
701
1.2马尔可夫决策过程
717
1.3环境已知与未知
722
1.4环境的确定性与随机性
717
1.5强化学习的应用
715
1.1马尔可夫过程
719
案例 多臂老虎机问题策略的实现
1841
案例 利用策略迭代和值迭代求解迷宫寻宝问题
1835
案例 迷宫寻宝
1836
案例 REINFORCE算法求解小车爬山游戏
1840
首页
<
20
21
22
23
24
25
26
27
28
>
尾页