章概述1
1.1动态规划与强化学习问题2
1.2动态规划与强化学习中的逼近5
1.3关于本书7
第2章动态规划与强化学习介绍9
2.1引言9
2.2马尔可夫决策过程12
2.2.1确定性情况12
2.2.2随机性情况16
2.3值迭代20
2.3.1基于模型的值迭代20
2.3.2模型无关的值迭代与探索的必要性25
2.4策略迭代27
2.4.1基于模型的策略迭代28
2.4.2模型无关的策略迭代33
2.5策略搜索35
2.6总结与讨论38
第3章大规模连续空间中的动态规划与强化学习40
3.1介绍40
3.2大规模连续空间中近似的必要性43
3.3近似框架45
3.3.1带参近似45
3.3.2无参近似48
3.3.3带参与无参逼近器的比较49
3.3.4附注50
3.4近似值迭代51
3.4.1基于模型的带参近似值迭代算法51
3.4.2模型无关的带参近似值迭代算法54
3.4.3无参近似值迭代算法58
3.4.4非扩张近似的作用及收敛性59
3.4.5实例:用于直流电机的近似Q值迭代62
3.5近似策略迭代67
3.5.1用于近似策略评估的类值迭代算法68
3.5.2基于线性带参近似的模型无关策略评估70
3.5.3基于无参近似的策略评估80
3.5.4带回滚的基于模型的近似策略评估80
3.5.5策略改进与近似策略迭代81
3.5.6理论保障84
3.5.7实例:用于直流电机的最小二乘策略迭代86
3.6自动获取值函数逼近器90
3.6.1基函数最优化方法91
3.6.2基函数构造93
3.6.3附注95
3.7近似策略搜索95
3.7.1策略梯度与行动者-评论家算法96
3.7.2梯度无关的策略搜索101
3.7.3实例:用于直流电机问题的梯度无关策略搜索103
3.8近似值迭代、近似策略迭代及近似策略搜索算法的比较106
3.9总结与讨论108
第4章基于模糊表示的近似值迭代110
4.1引言110
4.2模糊Q值迭代112
4.2.1模糊Q值迭代的近似和投影映射112
4.2.2同步和异步模糊Q值迭代116
4.3模糊Q值迭代的分析119
4.3.1收敛性119
4.3.2一致性126
4.3.3计算复杂度131
4.4优化隶属度函数132
4.4.1隶属度函数优化的一般方法132
4.4.2交叉熵优化133
4.4.3基于交叉熵隶属度函数优化的模糊Q值迭代135
4.5实验研究137
4.5.1直流电机:收敛性和一致性研究137
4.5.2双连杆机械臂:动作插值的效果以及与拟合Q值迭代的比较142
4.5.3倒立摆:实时控制146
4.5.4过山车:隶属度函数优化的效果149
4.6总结与讨论152
第5章用于在线学习和连续动作控制的近似策略迭代154
5.1引言154
5.2最小二乘策略迭代的概述155
5.3在线最小二乘策略迭代157
5.4使用先验知识的在线LSPI161
5.4.1使用策略近似的在线LSPI161
5.4.2具有单调策略的在线LSPI162
5.5采用连续动作、多项式近似的LSPI165
5.6实验研究167
5.6.1用于倒立摆的在线LSPI167
5.6.2用于双连杆机械臂的在线LSPI178
5.6.3使用直流电机先验知识的在线LSPI181
5.6.4在倒立摆中使用带有连续动作逼近器的LSPI183
5.7总结与讨论187
第6章基于交叉熵基函数优化的近似策略搜索189
6.1介绍189
6.2交叉熵优化方法190
6.3交叉熵策略搜索192
6.3.1一般方法192
6.3.2基于径向基函数的交叉熵策略搜索197
6.4实验研究199
6.4.1离散时间二重积分199
6.4.2自行车平衡206
6.4.3HIV传染病控制的计划性间断治疗212
6.5总结与讨论215
附录A极端随机树217
附录B交叉熵方法221
缩略语227
参考文献232