江苏开放大学•点石网 - 点石网|江苏终身学习资源库

全部视频音频图片文档 PPT 其它

最新最热最赞

5.1 Gym简介和环境加载

5.2 Gym的使用方法

5 强化学习的实验环境与工具

5.4 Tensorflow复习

4.2 关键词获取

zhangcheng 2220

4.1 状态-动作价值函数

2.4 探索与利用的意义

2.2 简单策略和贪婪策略

2.3 探索利用平衡

2.5 epsilon贪心策略

2.1 MAB问题描述

2 多臂老虎机

1.2马尔可夫决策过程

1.3环境已知与未知

1.4环境的确定性与随机性

1.5强化学习的应用

1.1马尔可夫过程