成功加入购物车

去购物车结算 X
人类起源书屋
  • 深入浅出强化学习:原理入门

深入浅出强化学习:原理入门

举报

本店所有商品均为正版二手书,品相九成新以上,经过翻新消毒处理后重新上架销售。下单24小时内发货,正常地区快递一般2-3天。

  • 装帧:    平装
  • 开本:    16开
  • 纸张:    胶版纸
  • 页数:    239页
  • 字数:    99999千字
  • 版次:  1
  • 装帧:  平装
  • 开本:  16开
  • 纸张:  胶版纸
  • 页数:  239页
  • 字数:  99999千字

售价 27.65 3.5折

定价 ¥79.00 

品相 九品

优惠 满包邮

优惠 满减券
    运费
    本店暂时无法向该地区发货

    延迟发货说明

    时间:
    说明:

    上书时间2023-11-07

    数量
    仅1件在售,欲购从速
    微信扫描下方二维码
    微信扫描打开成功后,点击右上角”...“进行转发

    卖家超过10天未登录

    • 商品详情
    • 店铺评价
    手机购买
    微信扫码访问
    • 商品分类:
      教育
      货号:
      9787121329180
      商品描述:
      基本信息
      书名:深入浅出强化学习:原理入门
      定价:79.00元
      作者:郭宪
      出版社:电子工业出版社
      出版日期:2018-01-01
      ISBN:9787121329180
      字数:284000
      页码:239
      版次:1
      装帧:平装
      开本:16开
      商品重量:
      编辑推荐
      从零起步掌握强化学习技术精髓,称霸人工智能领域!《深入浅出强化学习:原理入门》针对初学者的需求,直接分析原理,并辅以编程实践。从解决问题的思路,层层剖析,普及了传统的强化学习基本方法和当前炙手可热的深度强化学习方法,直接将读者带入强化学习的殿堂。读完本书,读者能在熟练掌握原理的基础上,直接上手编程实践。本书的叙述方式简洁、直接、清晰,值得精读!
      内容提要

      目录
      1 绪论 11.1 这是一本什么书 11.2 强化学习可以解决什么问题 21.3 强化学习如何解决问题 41.4 强化学习算法分类及发展趋势 51.5 强化学习仿真环境构建 71.5.1 gym安装及简单的demo示例 81.5.2 深入剖析gym环境构建 101.6 本书主要内容及安排 12第一篇 强化学习基础 172 马尔科夫决策过程 182.1 马尔科夫决策过程理论讲解 182.2 MDP中的概率学基础讲解 262.3 基于gym的MDP实例讲解 292.4 习题 343 基于模型的动态规划方法 363.1 基于模型的动态规划方法理论 363.2 动态规划中的数学基础讲解 473.2.1 线性方程组的迭代解法 473.2.2 压缩映射证明策略评估的收敛性 493.3 基于gym的编程实例 523.4 控制与强化学习比较 543.5 习题 56第二篇 基于值函数的强化学习方法 574 基于蒙特卡罗的强化学习方法 584.1 基于蒙特卡罗方法的理论 584.2 统计学基础知识 674.3 基于Python的编程实例 714.4 习题 745 基于时间差分的强化学习方法 755.1 基于时间差分强化学习算法理论讲解 755.2 基于Python和gym的编程实例 835.3 习题 876 基于值函数逼近的强化学习方法 886.1 基于值函数逼近的理论讲解 886.2 DQN及其变种 946.2.1 DQN方法 946.2.2 Double DQN 1006.2.3 优先回放(Prioritized Replay) 1026.2.4 Dueling DQN 1046.3 函数逼近方法 1056.3.1 基于非参数的函数逼近 1056.3.2 基于参数的函数逼近 1116.3.3 卷积神经网络 1176.4 习题 123第三篇 基于直接策略搜索的强化学习方法 1257 基于策略梯度的强化学习方法 1267.1 基于策略梯度的强化学习方法理论讲解 1267.2 基于gym和TensorFlow的策略梯度算法实现 1347.2.1 安装Tensorflow 1357.2.2 策略梯度算法理论基础 1357.2.3 Softmax策略及其损失函数 1367.2.4 基于TensorFlow的策略梯度算法实现 1387.2.5 基于策略梯度算法的小车倒立摆问题 1417.3 习题 1418 基于置信域策略优化的强化学习方法 1428.1 理论基础 1438.2 TRPO中的数学知识 1538.2.1 信息论 1538.2.2 优化方法 1558.3 习题 1649 基于确定性策略搜索的强化学习方法 1659.1 理论基础 1659.2 习题 17010 基于引导策略搜索的强化学习方法 17110.1 理论基础 17110.2 GPS中涉及的数学基础 17810.2.1 监督相LBFGS优化方法 17810.2.2 ADMM算法 17910.2.3 KL散度与变分推理 18310.3 习题 184第四篇 强化学习研究及前沿 18511 逆向强化学习 18611.1 概述 18611.2 基于边际的逆向强化学习 18711.3 基于熵的逆向强化学习 19411.4 习题 20112 组合策略梯度和值函数方法 20213 值迭代网络 20713.1 为什么要提出值迭代网络 20713.2 值迭代网络 21014 基于模型的强化学习方法:PILCO及其扩展 21414.1 概述 21414.2 PILCO 21614.3 滤波PILCO和探索PILCO 22614.3.1 滤波PILCO算法 22714.3.2 有向探索PILCO算法 23014.4 深度PILCO 232后记 235参考文献 237
      作者介绍

      序言

      配送说明

      ...

      相似商品

      为你推荐

    孔网啦啦啦啦啦纺织女工火锅店第三课

    开播时间:09月02日 10:30

    即将开播,去预约
    直播中,去观看