游客
登录
我的空间
使用说明下载
课程
资源
百度文库
百度视频
百度图片
全部
视频
音频
图片
文档
PPT
其它
最新
最热
最赞
6 策略梯度
leixy
720
5.1 Gym简介和环境加载
leixy
727
5.2 Gym的使用方法
leixy
720
5 强化学习的实验环境与工具
leixy
708
5.4 Tensorflow复习
leixy
708
4.2 关键词获取
zhangcheng
2220
4.1 状态-动作价值函数
leixy
715
4.2 Sarsa
leixy
718
4 Q-learning
leixy
707
2.4 探索与利用的意义
leixy
714
2.2 简单策略和贪婪策略
leixy
719
2.3 探索利用平衡
leixy
711
2.5 epsilon贪心策略
leixy
718
2.1 MAB问题描述
leixy
721
2 多臂老虎机
leixy
705
1.2马尔可夫决策过程
leixy
721
1.3环境已知与未知
leixy
728
1.4环境的确定性与随机性
leixy
722
1.5强化学习的应用
leixy
719
1.1马尔可夫过程
leixy
723
首页
<
500
501
502
503
504
505
506
507
508
509
>
尾页