江苏开放大学•点石网 - 点石网|江苏终身学习资源库

强化学习

《强化学习》是江苏开放大学人工智能（开放本科）专业的选修课程。本课程提供强化学习的入门基础讲解，让学生能够较为全面地了解强化学习这门学科的各类问题和方法论，主要包括强化学习的基本概念、最优控制问题的求解、基于价值的强化学习算法（Sarsa、Q-learning、DQN）、基于策略的强化学习算法（策略梯度）等主要算法。此外，本课程强调学生的动手能力，要求学生通过编程练习和典型应用实例加深理解，同时掌握强化的实验环境Gym和实验工具Tensorflow的使用。要求学生具备基本编程基础，熟悉Python编程语言。

共129个素材 18401 0 0

资源(129)	时长( 10:21:45)	播放量(223818)
强化学习-学员网上学习行为规范	/	2282
强化学习-课程负责人简介	/	2258
强化学习-课程学习方法与策略	/	2201
强化学习-学习进度表	/	2214
1.1马尔可夫过程	00:15:57	2191
1.2马尔可夫决策过程	00:14:51	2167
1.3环境已知与未知	00:10:58	2146
1.4环境的确定性与随机性	00:04:54	2191
1.5强化学习的应用	00:17:57	2091
第二章_01_MAB问题描述	00:08:46	1974
第二章_02_简单策略和贪婪策略	00:16:20	1981
第二章_03_探索利用平衡	00:15:50	1992
第二章_05_epsilon贪心策略	00:13:34	1969
第三章_01_三连棋游戏第一步走中间	00:19:49	1970
第三章_03_状态价值的定义与思想	00:19:17	1973
第三章_04_策略迭代法	00:19:01	1951
第三章_05_值迭代法	00:17:34	1964
第四章_01_状态-动作价值函数	00:18:31	1961
第四章_02_Sarsa	00:11:24	1943
第四章_03_Q-learning	00:15:56	1976
第四章_04_Q-learning和Sarsa的对比	00:20:47	1989
第四章_05_DQN	00:10:07	1976
第五章_01_Gym简介和环境加载	00:20:58	1951
第五章_02_Gym的使用方法	00:13:48	1976
第六章_01_基于策略的思想	00:16:48	1955
第六章_02_随机性策略梯度方法	00:13:06	1962
第六章_03_策略梯度定理的推导(上)	00:10:17	1962
第六章_03_策略梯度定理的推导(下)	00:13:37	1966
第六章_04_蒙特卡罗方法	00:14:35	1970
第六章_05_REINFORCE算法	00:17:21	1982
第七章_01_策略梯度方法的缺点	00:09:34	1984
第七章_03_Actor-Critic的算法流程	00:16:09	2033
第七章_04_Actor-Critic with Baseline	00:20:36	1979
第七章_05_广义优势函数估计	00:16:14	1984
第七章_11_DDPG的算法流程	00:18:44	2038
2 Q-learning和Sarsa关键知识点	/	1853
3 策略梯度关键知识点	/	1865
案例 Q-learning解决悬崖寻路	/	1855
1 强化学习关键概念	/	1829
案例 REINFORCE算法求解小车爬山游戏	/	1835
案例迷宫寻宝	/	1830
案例利用策略迭代和值迭代求解迷宫寻宝问题	/	1830
案例多臂老虎机问题策略的实现	/	1836
讲义1.1马尔可夫过程	/	1886
讲义1.2马尔可夫决策过程	/	1864
讲义1.4环境的确定性与随机性	/	1849
讲义2.3探索与利用平衡	/	1843
讲义2.5ε贪心策略	/	1871
讲义2.6案例训练多臂老虎机问题策略实现	/	1872
讲义3.3状态价值的定义与思想	/	1879
讲义3.5值迭代法	/	1877
讲义4.1状态-动作价值函数	/	1906
讲义4.2Sarsa	/	1887
讲义4.4Q-learning和Sarsa的对比	/	1895
讲义4.5DQN	/	1904
讲义5.1Gym简介和环境加载	/	1915
讲义5.2Gym的使用方法	/	1903
讲义5.3Sarsa和Q-learning在悬崖寻路问题上的实现	/	1908
讲义6.1基于策略的思想	/	1911
讲义6.2随机性策略梯度方法	/	1898
讲义6.4蒙特卡罗方法	/	1908
讲义7.5广义优势函数估计	/	1899
讲义7.6DDPG的算法流程	/	1948
讲义2.4探索与利用的意义	/	1932
讲义7.2Actor-Critic的思想	/	1921
讲义7.3~7.4Actor-Critic的算法流程	/	1945
讲义6.3策略梯度定理的推导	/	1942
讲义6.5REINFORCE算法	/	1955
讲义4.3Q-learning	/	1953
讲义3.1三连棋游戏第一步走中间	/	2015
讲义3.2三连棋游戏第一步走角落	/	1989
讲义2.1MAB问题描述	/	2021
讲义2.2简单策略和贪婪策略	/	1998
讲义1.3环境已知与未知	/	2009
讲义1.5强化学习的应用	/	2014
讲义7.1策略梯度方法的缺点	/	2039
讲义3.4策略迭代法	/	2009
案例 AC实现小车倒立摆游戏	/	2136
测试强化学习5.3视频	00:19:42	2167
测试强化学习-7.2视频	00:18:44	2157
第三章_02_三连棋游戏第一步走角落new	00:11:00	2279
第二章_04_探索与利用的意义new	00:19:24	2178
强化学习-课程考核大纲 (7.4)	/	2199
强化学习-课程教学大纲 (7.4)	/	2105
强化学习-课程教学设计一体化实施方案 (7.4)	/	2105
Actor Critic (v1)	00:10:18	1515
Deep Q-Learning (V1)	00:11:37	1511
Deep Q-Network（V1)	00:15:56	1496
价值函数的近似算法（V1）	00:11:22	1535
Deterministic Policy Gradient （V1）	00:14:31	1549
Off-policy Actor-Critic（V1)	00:15:51	1556
第七单元 Actor-Critic-new	/	1466
第四单元 QLearning	/	1471
1.1马尔可夫过程	/	1272
1.2马尔可夫决策过程	/	0
1.3环境已知与未知	/	1282
1.4环境的确定性与随机性	/	1275
1.5强化学习的应用	/	1274
2.1 MAB问题描述	/	0
2.2 简单策略和贪婪策略	/	1273
2.3 探索利用平衡	/	1274
2.4 探索与利用的意义	/	1277
2.5 epsilon贪心策略	/	1277
3.1 三连棋游戏第一步走中间	/	1279
3.2 三连棋游戏第一步走角落	/	1279
3.3 状态价值的定义与思想	/	1281
3.4 策略迭代法	/	1419
3.5 值迭代法	/	1422
4.1 状态-动作价值函数	/	1424
4.2 Sarsa	/	1428
4.3 Q-learning	/	1439
4.4 Q-learning和Sarsa的对比	/	1442
4.5 DQN	/	0
5.1 Gym简介和环境加载	/	0
5.2 Gym的使用方法	/	1438
5.3 Sarsa和Q-learning在悬崖寻路问题上的实现	/	1443
6.1 基于策略的思想	/	1446
6.2 随机性策略梯度方法	/	1456
6.3 策略梯度定理的推导	/	1459
6.4 蒙特卡罗方法	/	1486
6.5 REINFORCE算法	/	1487
7.1 策略梯度方法的缺点	/	1485
7.2 Actor-Critic的思想	/	0
7.3_7.4 Actor-Critic的算法流程	/	1485
7.5 广义优势函数估计	/	1488
7.6 DDPG的算法流程	/	1502
强化学习-课程教学大纲202309	/	1401
强化学习-课程教学设计一体化实施方案202309	/	1399
强化学习-课程考核大纲202309	/	1401

创建者

leixy

上传：444份资源

创建：3个课程

暂无

详细信息

所属分类：

江开本科 - 人工智能（本科）

知识体系：工学

主持人： 雷晓云,朱祎
主讲老师： 余欣航朱祎
版权归属： 江苏开放大学版权
项目编码：

关键词

强化学习马尔科夫决策贪心策略最优控制 Q-learning 策略梯度 Actor-Critic

创建于：2022-03-28
最近更新：2022-07-06