游客
登录
我的空间
使用说明下载
首页
强化学习
4.2 Sarsa
4.2 Sarsa
引用
分享
手机看
扫码继续查看
leixy
2023-7-28 上传
播放量 1431
目录
1
强化学习-学员网上学习行为规范
2
强化学习-课程负责人简介
3
强化学习-课程学习方法与策略
4
强化学习-学习进度表
5
1.1马尔可夫过程
6
1.2马尔可夫决策过程
7
1.3环境已知与未知
8
1.4环境的确定性与随机性
9
1.5强化学习的应用
10
第二章_01_MAB问题描述
11
第二章_02_简单策略和贪婪策略
12
第二章_03_探索利用平衡
13
第二章_05_epsilon贪心策略
14
第三章_01_三连棋游戏第一步走中间
15
第三章_03_状态价值的定义与思想
16
第三章_04_策略迭代法
17
第三章_05_值迭代法
18
第四章_01_状态-动作价值函数
19
第四章_02_Sarsa
20
第四章_03_Q-learning
21
第四章_04_Q-learning和Sarsa的对比
22
第四章_05_DQN
23
第五章_01_Gym简介和环境加载
24
第五章_02_Gym的使用方法
25
第六章_01_基于策略的思想
26
第六章_02_随机性策略梯度方法
27
第六章_03_策略梯度定理的推导(上)
28
第六章_03_策略梯度定理的推导(下)
29
第六章_04_蒙特卡罗方法
30
第六章_05_REINFORCE算法
31
第七章_01_策略梯度方法的缺点
32
第七章_03_Actor-Critic的算法流程
33
第七章_04_Actor-Critic with Baseline
34
第七章_05_广义优势函数估计
35
第七章_11_DDPG的算法流程
36
2 Q-learning和Sarsa关键知识点
37
3 策略梯度关键知识点
38
案例 Q-learning解决悬崖寻路
39
1 强化学习关键概念
40
案例 REINFORCE算法求解小车爬山游戏
41
案例 迷宫寻宝
42
案例 利用策略迭代和值迭代求解迷宫寻宝问题
43
案例 多臂老虎机问题策略的实现
44
讲义1.1马尔可夫过程
45
讲义1.2马尔可夫决策过程
46
讲义1.4环境的确定性与随机性
47
讲义2.3探索与利用平衡
48
讲义2.5ε贪心策略
49
讲义2.6案例训练 多臂老虎机问题策略实现
50
讲义3.3状态价值的定义与思想
51
讲义3.5值迭代法
52
讲义4.1状态-动作价值函数
53
讲义4.2Sarsa
54
讲义4.4Q-learning和Sarsa的对比
55
讲义4.5DQN
56
讲义5.1Gym简介和环境加载
57
讲义5.2Gym的使用方法
58
讲义5.3Sarsa和Q-learning在悬崖寻路问题上的实现
59
讲义6.1基于策略的思想
60
讲义6.2随机性策略梯度方法
61
讲义6.4蒙特卡罗方法
62
讲义7.5广义优势函数估计
63
讲义7.6DDPG的算法流程
64
讲义2.4探索与利用的意义
65
讲义7.2Actor-Critic的思想
66
讲义7.3~7.4Actor-Critic的算法流程
67
讲义6.3策略梯度定理的推导
68
讲义6.5REINFORCE算法
69
讲义4.3Q-learning
70
讲义3.1三连棋游戏第一步走中间
71
讲义3.2三连棋游戏第一步走角落
72
讲义2.1MAB问题描述
73
讲义2.2简单策略和贪婪策略
74
讲义1.3环境已知与未知
75
讲义1.5强化学习的应用
76
讲义7.1策略梯度方法的缺点
77
讲义3.4策略迭代法
78
案例 AC实现小车倒立摆游戏
79
测试强化学习5.3视频
80
测试强化学习-7.2视频
81
第三章_02_三连棋游戏第一步走角落new
82
第二章_04_探索与利用的意义new
83
强化学习-课程考核大纲 (7.4)
84
强化学习-课程教学大纲 (7.4)
85
强化学习-课程教学设计一体化实施方案 (7.4)
86
Actor Critic (v1)
87
Deep Q-Learning (V1)
88
Deep Q-Network(V1)
89
价值函数的近似算法(V1)
90
Deterministic Policy Gradient (V1)
91
Off-policy Actor-Critic(V1)
92
第七单元 Actor-Critic-new
93
第四单元 QLearning
94
1.1马尔可夫过程
95
1.2马尔可夫决策过程
96
1.3环境已知与未知
97
1.4环境的确定性与随机性
98
1.5强化学习的应用
99
2.1 MAB问题描述
100
2.2 简单策略和贪婪策略
101
2.3 探索利用平衡
102
2.4 探索与利用的意义
103
2.5 epsilon贪心策略
104
3.1 三连棋游戏第一步走中间
105
3.2 三连棋游戏第一步走角落
106
3.3 状态价值的定义与思想
107
3.4 策略迭代法
108
3.5 值迭代法
109
4.1 状态-动作价值函数
110
4.2 Sarsa
111
4.3 Q-learning
112
4.4 Q-learning和Sarsa的对比
113
4.5 DQN
114
5.1 Gym简介和环境加载
115
5.2 Gym的使用方法
116
5.3 Sarsa和Q-learning在悬崖寻路问题上的实现
117
6.1 基于策略的思想
118
6.2 随机性策略梯度方法
119
6.3 策略梯度定理的推导
120
6.4 蒙特卡罗方法
121
6.5 REINFORCE算法
122
7.1 策略梯度方法的缺点
123
7.2 Actor-Critic的思想
124
7.3_7.4 Actor-Critic的算法流程
125
7.5 广义优势函数估计
126
7.6 DDPG的算法流程
127
强化学习-课程教学大纲202309
128
强化学习-课程教学设计一体化实施方案202309
129
强化学习-课程考核大纲202309
详细信息
所属分类:
江开本科 - 人工智能(本科)
知识体系:
工学
主讲老师:
余欣航
版权归属:
江苏开放大学版权
关键词
强化学习
马尔科夫决策
贪心策略
最优控制
Q-learning
策略梯度
Actor-Critic