成功加入购物车

去购物车结算 X
翰林文轩旗舰店
  • 强化学 与phthon实现 软硬件技术 肖智清 新华正版
  • 强化学 与phthon实现 软硬件技术 肖智清 新华正版
  • 强化学 与phthon实现 软硬件技术 肖智清 新华正版
  • 强化学 与phthon实现 软硬件技术 肖智清 新华正版

强化学 与phthon实现 软硬件技术 肖智清 新华正版

举报
  • 版次:    1
  • 装帧:    平装
  • 开本:    16
  • 页数:    239页
  • 出版时间: 
  • 版次:  1
  • 装帧:  平装
  • 开本:  16
  • 页数:  239页

售价 53.25 6.0折

定价 ¥89.00 

品相 全新品相描述

优惠 满包邮

优惠 满减券
    运费
    本店暂时无法向该地区发货

    延迟发货说明

    时间:
    说明:

    上书时间2024-04-17

    数量
    库存4
    微信扫描下方二维码
    微信扫描打开成功后,点击右上角”...“进行转发

    卖家超过10天未登录

    • 商品详情
    • 店铺评价
    手机购买
    微信扫码访问
    • 商品分类:
      计算机与互联网
      货号:
      xhwx_1201916328
      品相描述:全新
      正版特价新书
      商品描述:
      目录:

      前言
      章初识强化学1
      1.1强化学及其关键元素1
      1.2强化学的应用3
      1.3智能体/环境接4
      1.4强化学的分类6
      1.4.1按任务分类6
      1.4.2按算法分类7
      1.5如何学强化学8
      1.5.1学路线9
      1.5.2学资源9
      1.6案例:基于gym库的智能体/环境交互9
      1.6.1安装gym库10
      1.6.2使用gym库10
      1.6.3小车上山12
      1.7本章小结14
      第2章markov决策过程16
      2.1markov决策过程模型16
      2.1.1离散时间markov决策过程16
      2.1.2环境与动力18
      2.1.3智能体与策略19
      2.1.4奖励、回报与价值函数19
      2.2bellman期望方程21
      2.3优策略及其质25
      2.3.1优策略与优价值函数25
      2.3.2bellman优方程25
      2.3.3用bellman优方程求解优策略29
      2.4案例:悬崖寻路31
      2.4.1实验环境使用31
      2.4.2求解bellman期望方程32
      2.4.3求解bellman优方程33
      2.5本章小结35
      第3章有模型数值迭代37
      3.1度量空间与压缩映37
      3.1.1度量空间及其完备37
      3.1.2压缩映与bellman算子38
      3.1.3banach不动点定理39
      3.2有模型策略迭代40
      3.2.1策略评估40
      3.2.2策略改进42
      3.2.3策略迭代44
      3.3有模型价值迭代45
      3.4动态规划46
      3.4.1从动态规划看迭代算法46
      3.4.2异步动态规划47
      3.5案例:冰面滑行47
      3.5.1实验环境使用48
      3.5.2有模型策略迭代求解49
      3.5.3有模型价值迭代求解51
      3.6本章小结52
      第4章回合更新价值迭代54
      4.1同策回合更新54
      4.1.1同策回合更新策略评估54
      4.1.2带起始探索的同策回合更新58
      4.1.3基于柔策略的同策回合更新60
      4.2异策回合更新62
      4.2.1重要采样62
      4.2.2异策回合更新策略评估64
      4.2.3异策回合更新优策略求解65
      4.3案例:21点游戏66
      4.3.1实验环境使用66
      4.3.2同策策略评估67
      4.3.3同策优策略求解70
      4.3.4异策策略评估72
      4.3.5异策优策略求解73
      4.4本章小结74
      第5章时序差分价值迭代76
      5.1同策时序差分更新76
      5.1.1时序差分更新策略评估78
      5.1.2sarsa算法81
      5.1.3期望sarsa算法83
      5.2异策时序差分更新85
      5.2.1基于重要采样的异策算法85
      5.2.2q学86
      5.2.3双重q学87
      5.3资格迹89
      5.3.1λ回报89
      5.3.2td(λ)90
      5.4案例:出租车调度92
      5.4.1实验环境使用93
      5.4.2同策时序差分学调度94
      5.4.3异策时序差分学调度97
      5.4.4资格迹学调度99
      5.5本章小结100
      第6章函数近似方法101
      6.1函数近似101
      6.1.1梯度下降101
      6.1.2半梯度下降103
      6.1.3带资格迹的半梯度下降105
      6.2线近似107
      6.2.1查找表与线近似的关系107
      6.2.2线小二乘策略评估107
      6.2.3线小二乘优策略求解109
      6.3函数近似的收敛109
      6.4深度q学110
      6.4.1经验回放111
      6.4.2带目标网络的深度q学112
      6.4.3双重深度q网络114
      6.4.4对偶深度q网络114
      6.5案例:小车上山115
      6.5.1实验环境使用116
      6.5.2用线近似求解优策略117
      6.5.3用深度q学求解优策略120
      6.6本章小结123
      第7章回合更新策略梯度方法125
      7.1策略梯度算法的125
      7.1.1函数近似与动作偏好125
      7.1.2策略梯度定理126
      7.2同策回合更新策略梯度算法128
      7.2.1简单的策略梯度算法128
      7.2.2带基线的简单策略梯度算法129
      7.3异策回合更新策略梯度算法131
      7.4策略梯度更新和极大似然估计的关系132
      7.5案例:车杆衡132
      7.5.1同策策略梯度算法求解优策略133
      7.5.2异策策略梯度算法求解优策略135
      7.6本章小结137
      第8章执行者/者方法139
      8.1同策执行者/者算法139
      8.1.1动作价值执行者/者算法140
      8.1.2优势执行者/者算法141
      8.1.3带资格迹的执行者/者算法143
      8.2基于代理优势的同策算法143
      8.2.1代理优势144
      8.2.2邻近策略优化145
      8.3信任域算法146
      8.3.1kl散度146
      8.3.2信任域147
      8.3.3自然策略梯度算法148
      8.3.4信任域策略优化151
      8.3.5kronecker因子信任域执行者/者算法152
      8.4重要采样异策执行者/者算法153
      8.4.1基本的异策算法154
      8.4.2带经验回放的异策算法154
      8.5柔执行者/者算法157
      8.5.1熵157
      8.5.2奖励工程和带熵的奖励158
      8.5.3柔执行者/者的网络设计159
      8.6案例:双节倒立摆161
      8.6.1同策执行者/者算法求解优策略162
      8.6.2异策执行者/者算法求解优策略168
      8.7本章小结170
      第9章连续动作空间的确定策略172
      9.1同策确定算法172
      9.1.1策略梯度定理的确定版本172
      9.1.2基本的同策确定执行者/者算法174
      9.2异策确定算法176
      9.2.1基本的异策确定执行者/者算法177
      9.2.2深度确定策略梯度算法177
      9.2.3双重延迟深度确定策略梯度算法178
      9.3案例:倒立摆的控制180
      9.3.1用深度确定策略梯度算法求解181
      9.3.2用双重延迟深度确定算法求解184
      9.4本章小结187
      0章综合案例:电动游戏188
      10.1atari游戏环境188
      10.1.1gym库的完整安装188
      10.1.2游戏环境使用190
      10.2基于深度q学的游戏ai191
      10.2.1算法设计192
      10.2.2智能体的实现193
      10.2.3智能体的训练和测试197
      10.3本章小结198
      1章综合案例:棋盘游戏200
      11.1双人确定棋盘游戏200
      11.1.1五子棋和井字棋200
      11.1.2黑白棋201
      11.1.3围棋202
      11.2alphazero算法203
      11.2.1回合更新树搜索203
      11.2.2深度残差网络206
      11.2.3自我对弈208
      11.2.4算法流程210
      11.3棋盘游戏环境boardgame2210
      11.3.1为gym库扩展自定义环境211
      11.3.2boardgame2设计211
      11.3.3gym环境接的实现214
      11.3.4树搜索接的实现216
      11.4alphazero算法实现218
      11.4.1智能体类的实现218
      11.4.2自我对弈的实现223
      11.4.3训练智能体224
      11.5本章小结225
      2章综合案例:自动驾驶226
      12.1airsim开发环境使用226
      12.1.1安装和运行airsim226
      12.1.2用python访问airsim228
      12.2基于强化学的自动驾驶229
      12.2.1为自动驾驶设计强化学环境230
      12.2.2智能体设计和实现235
      12.2.3智能体的训练和测试237
      12.3本章小结239


      内容简介:

      全书分为三个部分。第壹部分了解强化学应用,了解强化学基本知识,搭建强化学测试环境。该部分包括:强化学的概况、强化学简单示例、强化学算法的常见思想、强化学的应用、强化学测试环境的搭建。第二部分介绍强化学理论与深度强化学算法。强化学理论部分:markov决策过程的数学描述、monte carlo方法和时序差分方法的数学理论;深度强化学算法部分:详细剖析具有重要影响力的深度强化学算法,结合tenorflow实现源码。第三部分介绍强化学综合应用案例。

      配送说明

      ...

      相似商品

      为你推荐

    孔网啦啦啦啦啦纺织女工火锅店第三课

    开播时间:09月02日 10:30

    即将开播,去预约
    直播中,去观看