分布强化学 人工智能 (加)马克·g.贝勒马尔,(美)威尔·达布尼,(英)马克·罗兰
举报
none
-
作者:
(加)马克·g.贝勒马尔,(美)威尔·达布尼,(英)马克·罗兰
-
出版社:
机械工业出版社
-
ISBN:
9787111789642
-
出版时间:
2025-10
-
版次:
1
-
装帧:
平装
-
开本:
16
-
页数:
242页
-
字数:
392千字
-
作者:
(加)马克·g.贝勒马尔,(美)威尔·达布尼,(英)马克·罗兰
-
出版社:
机械工业出版社
-
ISBN:
9787111789642
-
出版时间:
2025-10
-
版次:
1
-
装帧:
平装
-
开本:
16
-
页数:
242页
-
字数:
392千字
售价
¥
57.30
5.8折
定价
¥99.00
品相
全新品相描述
上书时间2025-10-21
卖家超过10天未登录
-
-
商品描述:
-
主编:
本书是关于分布强化学的全面指南,为从概率视角思决策提供了新的数学框架。本书主要介绍分布强化学的关键概念及应用,对于重要的结果均给出了数学证明,从而说明分布强化学有能力解释在人机交互环境中产生的许多复杂且有趣的现象。读者将了解一系列算法和数学理论的发展过程,在这些过程中依次对回报进行特征描述、计算和估计,后基于此做出决策。本书实际问题给出了有效的解决思路,适合机器人学、计算神经科学、心理学、金融(风险管理)等不同领域的技术人员参。
目录:
译者序<br />前言<br />符号表<br />章?导论1<br />1.1?为什么是分布强化学1<br />1.2?示例:kuhn扑克2<br />1.3?分布强化学有何不同3<br />1.4?本书的读者对象和结构5<br />1.5?参文献备注6<br />第2章?回报的分布7<br />2.1?变量及其概率分布7<br />2.2?马尔可夫决策过程8<br />2.3?弹球模型10<br />2.4?回报12<br />2.5?贝尔曼方程16<br />2.6?轨迹的质17<br />2.7?变量贝尔曼方程19<br />2.8?从变量到概率分布22<br />2.9?回报分布的替代概念*26<br />2.10?技术备注26<br />2.11?参文献备注28<br />2.12?练29<br />第3章?学回报分布33<br />3.1?蒙特卡罗方法33<br />3.2?增量学35<br />3.3?时序差分学36<br />3.4?从值到概率38<br />3.5?投影过程39<br />3.6?分类时序差分学42<br />3.7?学控制46<br />3.8?进一步的虑 47<br />3.9?技术备注47<br />3.10?参文献备注48<br />3.11?练49<br />第4章?算子和度量指标51<br />4.1?贝尔曼算子51<br />4.2?收缩映52<br />4.3?分布贝尔曼算子54<br />4.4?回报函数的wasserstein距离57<br />4.5?概率度量和cramér距离60<br />4.6?收缩的充分条件62<br />4.7?域问题65<br />4.8?回报函数的弱收敛*67<br />4.9?变量贝尔曼算子*68<br />4.10?技术备注69<br />4.11?参文献备注70<br />4.12?练71<br />第5章?分布动态规划76<br />5.1?计算模型76<br />5.2?回报-分布函数的表示78<br />5.3?经验表示79<br />5.4?正态表示82<br />5.5?固定大小的经验表示84<br />5.6?投影步骤86<br />5.7?分布动态规划89<br />5.8?扩散引起的误差92<br />5.9?分布动态规划的收敛93<br />5.10?分布近似的质量96<br />5.11?设计分布动态规划算法98<br />5.12?技术备注99<br />5.13?参文献备注102<br />5.14?练103<br />第6章?增量算法107<br />6.1?计算与统计估计107<br />6.2?从算子到增量算法108<br />6.3?分类时序差分学109<br />6.4?分位数时序差分学111<br />6.5?理论分析的算法模板114<br />6.6?合理的步长115<br />6.7?收敛分析概述117<br />6.8?增量算法的收敛*119<br />6.9?时序差分学的收敛*122<br />6.10?分类时序差分学的收敛*124<br />6.11?技术备注126<br />6.12?参文献备注127<br />6.13?练128<br />第7章?控制131<br />7.1?风险中控制131<br />7.2?价值迭代和q-学132<br />7.3?分布值迭代134<br />7.4?分布优算子的动力学135<br />7.5?存在多个优策略时的动态<br />分析*139<br />7.6?风险和风险敏感控制141<br />7.7?风险敏感控制面临的挑战142<br />7.8?条件风险价值*144<br />7.9?技术备注147<br />7.10?参文献备注151<br />7.11?练152<br />第8章?统计泛函155<br />8.1?统计泛函概述155<br />8.2?矩156<br />8.3?贝尔曼封闭159<br />8.4?统计泛函动态规划161<br />8.5?与分布动态规划的关系163<br />8.6?期望分位数动态规划164<br />8.7?统计泛函的无限集合165<br />8.8?矩时序差分学*167<br />8.9?技术备注168<br />8.10?参文献备注169<br />8.11?练170<br />第9章?线函数近似173<br />9.1?函数近似和混叠173<br />9.2?优线价值函数近似175<br />9.3?用于线价值函数近似的投影<br />贝尔曼算子176<br />9.4?半梯度时序差分学179<br />9.5?分布强化学的半梯度算法181<br />9.6?基于带符号分布的算法*184<br />9.7?带符号算法的收敛*187<br />9.8?技术备注189<br />9.9?参文献备注191<br />9.10?练192<br />0章?深度强化学195<br />10.1?深度神经网络学195<br />10.2?基于深度神经网络的分布强化<br />学198<br />10.3?隐式参数化200<br />10.4?深度强化学智能体评估202<br />10.5?预测如何塑造表示206<br />10.6?技术备注207<br />10.7?参文献备注207<br />10.8?练209<br />1章?两个应用和一个结论211<br />11.1?多智能体强化学211<br />11.2?计算神经科学213<br />11.3?结论217<br />11.4?参文献备注218<br />参文献220
内容简介:
本书是关于分布式强化学的全面指南,为从概率视角思决策问题提供了新的数学框架。本书主要介绍分布式强化学的关键概念及应用,对于重要的结果均给出了数学证明,从而说明分布式强化学有能力解释在人机交互环境中产生的许多复杂且有趣的现象。读者将了解一系列算法和数学理论的发展过程,在这些过程中依次对回报进行特征描述、计算和估计,后基于此做出决策。本书实际问题给出了有效的解决思路,适合机器人学、计算神经科学、心理学、金融(风险管理)等不同领域的技术人员参,也适合高校计算机、人工智能等相关专业的阅读。
孔网啦啦啦啦啦纺织女工火锅店第三课
开播时间:09月02日 10:30
即将开播,去预约

直播中,去观看