江苏开放大学•点石网 - 点石网|江苏终身学习资源库

leixy

3
课程

｜

444
资源

1 强化学习关键概念

案例 Q-learning解决悬崖寻路

3 策略梯度关键知识点

2 Q-learning和Sarsa关键知识点

第七章_11_DDPG的算法流程

第七章_05_广义优势函数估计

第七章_04_Actor-Critic with Baseline

第七章_01_策略梯度方法的缺点

第六章_05_REINFORCE算法

第六章_04_蒙特卡罗方法

第六章_03_策略梯度定理的推导(下)

第六章_03_策略梯度定理的推导(上)

第六章_02_随机性策略梯度方法

第六章_01_基于策略的思想

第五章_02_Gym的使用方法

第五章_01_Gym简介和环境加载

首页
<
21
22
23
24
25
26
27
28
>
尾页