成功加入购物车

去购物车结算 X
领会图书
  • ChatGPT原理与架构 大模型的预训练、迁移和中间件编程

ChatGPT原理与架构 大模型的预训练、迁移和中间件编程

举报
  • 出版时间: 
  • 装帧:    平装
  • 开本:    32开
  • ISBN:  9787111739562
  • 出版时间: 
  • 装帧:  平装
  • 开本:  32开

售价 62.00 6.3折

定价 ¥99.00 

品相 全新

优惠 满包邮

优惠 满减券
    运费
    本店暂时无法向该地区发货

    延迟发货说明

    时间:
    说明:

    上书时间2024-04-20

    数量
    库存71
    微信扫描下方二维码
    微信扫描打开成功后,点击右上角”...“进行转发

    卖家超过10天未登录

    • 商品详情
    • 店铺评价
    手机购买
    微信扫码访问
    • 货号:
      1203153871
      商品描述:
      目录
      前言

      第1章 人工智能的新里程碑——ChatGPT/1

      1.1 ChatGPT的发展历程/1

      1.2 ChatGPT的能力/3

      1.3 大语言模型的技术演化/6

      1.3.1 从符号主义到连接主义/6

      1.3.2 Transformer模型/7

      1.3.3 无监督预训练/10

      1.3.4 有监督微调/11

      1.3.5 人类反馈强化学习/11

      1.4 大语言模型的技术栈/12

      1.5 大语言模型带来的影响/13

      1.6 大语言模型复现的壁垒/16

      1.6.1 算力瓶颈/16

      1.6.2 数据瓶颈/17

      1.6.3 工程瓶颈/18

      1.7 大语言模型的局限性/19

      1.8 小结/20

      第2章 深入理解Transformer模型/21

      2.1 Transformer模型简介/21

      2.2 自注意力机制/23

      2.2.1 自注意力机制的计算过程/23

      2.2.2 自注意力机制的本质/26

      2.2.3 自注意力机制的优势与局限性/28

      2.3 多头注意力机制/29

      2.3.1 多头注意力机制的实现/29

      2.3.2 多头注意力机制的作用/31

      2.3.3 多头注意力机制的优化/32

      2.4 前馈神经网络/33

      2.5 残差连接/35

      2.6 层归一化/36

      2.7 位置编码/38

      2.7.1 位置编码的设计与实现/38

      2.7.2 位置编码的变体/40

      2.7.3 位置编码的优势与局限性/41

      2.8 训练与优化/41

      2.8.1 损失函数/41

      2.8.2 优化器/42

      2.8.3 学习率调整策略/42

      2.8.4 正则化/43

      2.8.5 其他训练与优化技巧/44

      2.9 小结/46

      第3章 生成式预训练/47

      3.1 生成式预训练简介/47

      3.2 GPT的模型架构/48

      3.3 生成式预训练过程/50

      3.3.1 生成式预训练的目标/52

      3.3.2 生成式预训练的误差反向传播过程/53

      3.4 有监督微调/55

      3.4.1 有监督微调的原理/55

      3.4.2 有监督微调的特定任务/56

      3.4.3 有监督微调的步骤/58

      3.5 小结/59

      第4章 无监督多任务与零样本学习/61

      4.1 编码器与解码器/61

      4.2 GPT-2的模型架构/64

      4.2.1 层归一化/65

      4.2.2 正交初始化/66

      4.2.3 可逆的分词方法/67

      4.2.4 可学习的相对位置编码/71

      4.3 无监督多任务/72

      4.4 多任务学习与零样本学习的关系/74

      4.5 GPT-2的自回归生成过程/76

      4.5.1 子词单元嵌入/76

      4.5.2 自回归过程/77

      4.6 小结/79

      第5章 稀疏注意力与基于内容的学习/80

      5.1 GPT-3的模型架构/81

      5.2 稀疏注意力模式/83

      5.2.1 Sparse Transformer的特点/83

      5.2.2 局部带状注意力/85

      5.2.3 跨层稀疏连接/85

      5.3 元学习和基于内容的学习/86

      5.3.1 元学习/87

      5.3.2 基于内容的学习/87

      5.4 概念分布的贝叶斯推断/90

      5.4.1 隐式微调/90

      5.4.2 贝叶斯推断/93

      5.5 思维链的推理能力/95

      5.6 小结/99

      第6章 大语言模型的预训练策略/100

      6.1 预训练数据集/100

      6.2 预训练数据的处理/102

      6.3 分布式训练模式/104

      6.3.1 数据并行/105

      6.3.2 模型并行/106

      6.4 分布式训练的技术路线/110

      6.4.1 Pathways/111

      6.4.2 Megatron-LM/113

      6.4.3 ZeRO/116

      6.5 训练策略案例/120

      6.5.1 训练框架/120

      6.5.2 参数稳定性/120

      6.5.3 训练设置的调整/121

      6.5.4 BF16优化/121

      6.5.5 其他因素/122

      6.6 小结/123

      第7章 近端策略优化算法/124

      7.1 传统的策略梯度方法/125

      7.1.1 策略梯度方法的基本原理/125

      7.1.2 重要性采样/127

      7.1.3 优势函数/128

      7.2 Actor-Critic算法/129

      7.2.1 Actor-Critic算法的基本步骤/130

      7.2.2 值函数与策略更新/131

      7.2.3 Actor-Critic算法的问题与挑战/131

      7.3 信任域策略优化算法/132

      7.3.1 TRPO算法的目标/132

      7.3.2 TRPO算法的局限性/133

      7.4 PPO算法的原理/134

      7.5 小结/137

      第8章 人类反馈强化学习/138

      8.1 强化学习在ChatGPT迭代中的作用/138

      8.2 InstructGPT训练数据集/140

      8.2.1 微调数据集的来源/141

      8.2.2 标注标准/142

      8.2.3 数据分析/143

      8.3 人类反馈强化学习的训练阶段/145

      8.3.1 有监督微调阶段/145

      8.3.2 奖励建模阶段/147

      8.3.3 强化学习阶段/148

      8.4 奖励建模算法/149

      8.4.1 算法思想/149

      8.4.2 损失函数/150

      8.5 PPO算法在InstructGPT中的应用/151

      8.6 多轮对话能力/153

      8.7 人类反馈强化学习的必要性/154

      8.8 小结/156

      第9章 大语言模型的低算力领域迁移/157

      9.1 指令自举标注/157

      9.2 人工智能反馈/161

      9.3 低秩自适应/163

      9.3.1 模型训练与部署/164

      9.3.2 秩的选择/165

      9.4 量化:降低部署的算力要求/166

      9.5 SparseGPT剪枝算法/168

      9.6 开源大语言模型的低算力迁移案例/170

      9.6.1 基座模型/170

      9.6.2 自举指令微调的羊驼系列/171

      9.6.3 中文解决方案/172

      9.6.4 医疗领域的迁移实例/174

      9.6.5 司法领域的迁移实例/175

      9.7 小结/178

      第10章 中间件编程/180

      10.1 补齐短板——LangChain恰逢其时/180

      10.2 多模态融合中间件/184

      10.2.1 任务规划/185

      10.2.2 模型选择/187

      10.2.3 任务执行/188

      10.2.4 响应生成/189

      10.3 AutoGPT自主代理与任务规划/189

      10.4 中间件框架的竞品/192

      10.5 小结/194

      第11章 大语言模型的未来之路/195

      11.1 强人工智能之路/195

      11.2 数据资源枯竭/198

      11.3 自回归模型的局限性/200

      11.4 具身智能/202

      11.4.1 具身智能的挑战/203

      11.4.2 PaLM-E/204

      11.4.3 ChatGPT for Robotics/205

      11.5 小结/210


      内容摘要
      这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识;第2~5章深入讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进;6~8章从底层技术实现的角度讲解了大语言模型的训练策略、数据处理方法,以及如何利用策略优化和人类反馈来进一步提升模型的表现;第9~10章首先详细讲解了大语言模型在垂直领域的低算力迁移方法,并给出了医疗和司法领域的迁移案例,然后讲解了大模型的中间件编程;第11章对GPT的未来发展趋势进行预测,探讨数据资源、自回归模型的局限性,以及大语言模型时代具身智能的可行路线。

      主编推荐
      (1)作者背景权威:作者是湘潭大学的博导,是科技部国家重点子课题(大模型相关)的负责人,是资深的大模型技术专家和布道者。
      (2)作者经验丰富:对ChatGPT、Llama2等大模型有深入研究,带领团队成功训练并部署司法领域的大模型。
      (3)全套技术原理:围绕ChatGPT,系统阐述了大模型的工作原理、运行机制、架构设计和底层技术等大模型工程师需要掌握的所有理论知识。
      (4)关键应用主题:从大模型的数据处理、预训练到向垂直领域迁移、微调,再到中间件编程,涵盖当下大模型应用的各项关键技术主题。
      (5)多位专家推荐:阿里、Google、ChatLaw等企业的多位大模型技术专家高度评价并推荐。

      配送说明

      ...

      相似商品

      为你推荐

    孔网啦啦啦啦啦纺织女工火锅店第三课

    开播时间:09月02日 10:30

    即将开播,去预约
    直播中,去观看