江苏开放大学•点石网 - 点石网|江苏终身学习资源库

leixy

3
课程

｜

444
资源

6.5 REINFORCE算法

6.4 蒙特卡罗方法

6.3 策略梯度定理的推导

6.2 随机性策略梯度方法

6.1 基于策略的思想

5.3 Sarsa和Q-learning在悬崖寻路问题上的实现

5.2 Gym的使用方法

4.4 Q-learning和Sarsa的对比

4.1 状态-动作价值函数

3.5 值迭代法

3.4 策略迭代法

3.3 状态价值的定义与思想

3.2 三连棋游戏第一步走角落

3.1 三连棋游戏第一步走中间

首页
<
10
11
12
13
14
15
16
17
18
19
>
尾页