• 游客
    • 登录
  • 我的空间
  • 使用说明下载
  • 课程
  • 资源
  • 百度文库
  • 百度视频
  • 百度图片
全部 视频 音频 图片 文档 PPT 其它
最新 最热 最赞
6 策略梯度
leixy 720
5.1 Gym简介和环境加载
leixy 727
5.2 Gym的使用方法
leixy 720
5 强化学习的实验环境与工具
leixy 708
5.4 Tensorflow复习
leixy 708
4.2 关键词获取
zhangcheng 2220
4.1 状态-动作价值函数
leixy 715
4.2 Sarsa
leixy 718
4 Q-learning
leixy 707
2.4 探索与利用的意义
leixy 714
2.2 简单策略和贪婪策略
leixy 719
2.3 探索利用平衡
leixy 711
2.5 epsilon贪心策略
leixy 718
2.1 MAB问题描述
leixy 721
2 多臂老虎机
leixy 705
1.2马尔可夫决策过程
leixy 721
1.3环境已知与未知
leixy 728
1.4环境的确定性与随机性
leixy 722
1.5强化学习的应用
leixy 719
1.1马尔可夫过程
leixy 723
  • 首页
  • <
  • 500
  • 501
  • 502
  • 503
  • 504
  • 505
  • 506
  • 507
  • 508
  • 509
  • >
  • 尾页
内容版权均归 江苏开放大学(江苏城市职业学院) 所有 苏ICP备05004218号-2

技术支持:杭州阔知网络科技有限公司