成功加入购物车

去购物车结算 X
翰林文轩旗舰店
  • 分布式机器学 系统、工程与实战 人工智能 柳浩 新华正版
  • 分布式机器学 系统、工程与实战 人工智能 柳浩 新华正版
图文详情
  • 分布式机器学 系统、工程与实战 人工智能 柳浩 新华正版
  • 分布式机器学 系统、工程与实战 人工智能 柳浩 新华正版

分布式机器学 系统、工程与实战 人工智能 柳浩 新华正版

举报
  • 装帧:    平装
  • 开本:    16
  • 页数:    592页
  • 字数:    1065.6千字
  • 出版时间: 
  • 版次:  1
  • 装帧:  平装
  • 开本:  16
  • 页数:  592页
  • 字数:  1065.6千字

售价 84.50 6.1折

定价 ¥139.00 

品相 全新品相描述

优惠 满包邮

优惠 满减券
    运费
    本店暂时无法向该地区发货

    延迟发货说明

    时间:
    说明:

    上书时间2024-04-21

    数量
    库存15
    微信扫描下方二维码
    微信扫描打开成功后,点击右上角”...“进行转发

    卖家超过10天未登录

    店铺等级
    拍卖等级
    资质认证
    90天平均
    成功完成
    91.88% (1706笔)
    好评率
    99.92%
    发货时间
    9.94小时
    地址
    江苏省无锡市锡山区
    电话
    • 商品详情
    • 店铺评价
    立即购买 加入购物车 收藏
    手机购买
    微信扫码访问
    • 商品分类:
      计算机与互联网
      货号:
      xhwx_1202985062
      品相描述:全新
      正版特价新书
      商品描述:
      主编:

      "ai的时代可能才刚刚开启,各行各业的生产力也会相继产生。openai已经占据了领先位置,接下来的ai赛道会风起云涌,中国企业势必会在其中扮演极其重要的角,也会在深度学栈和基础设施领域奋起直追。
      “弯道超车”需要建立在技术沉淀和产品实力之上,我们只有切实地扎根于现有的分布式机器学技术体系,并对其进行深耕,才能为更好的创新和发展打下基础。
      分布式机器学——系统、工程与实战是作者在分布式机器学领域学和应用过程中的结和思,能起到抛砖引玉的作用,带领大家走入/熟悉分布式机器学这个领域。"

      目录:

      篇  分布式基础

      章  分布式机器学2

      1.1  机器学概念2

      1.2  机器学的特点3

      1.3  分布式训练的必要3

      1.4  分布式机器学研究领域6

      1.4.1  分布式机器学的目标6

      1.4.2  分布式机器学的分类6

      1.5  从模型角度看如何并行8

      1.5.1  并行方式8

      1.5.2  数据并行9

      1.5.3  模型并行10

      1.5.4  流水线并行11

      1.5.5  比对12

      1.6  从训练并发角度看如何并行12

      1.6.1  参数分布和通信拓扑13

      1.6.2  模型一致和通信模式14

      1.6.3  训练分布19

      1.7  分布式机器学编程接19

      1.7.1  手动同步更新20

      1.7.2  指定任务和位置20

      1.7.3  猴子补丁优化器21

      1.7.4  python作用域21

      1.8  pytorch分布式22

      1.8.1  历史脉络22

      1.8.2  基本概念23

      1.9  结24

      第2章  集合通信26

      2.1  通信模式26

      2.2  点对点通信26

      2.3  集合通信28

      2.3.1  broadcast29

      2.3.2  scatter29

      2.3.3  gather30

      2.3.4  all-gather30

      2.3.5  all-to-all30

      2.3.6  reduce31

      2.3.7  all-reduce31

      2.3.8  reduce-scatter32

      2.4  mpi_allreduce32

      2.5  ring all-reduce33

      2.5.1  特点34

      2.5.2  策略34

      2.5.3  结构35

      2.5.4  reduce-scatter35

      2.5.5  all-gather38

      2.5.6  通信能40

      2.5.7  区别40

      第3章  参数服务器之-lite41

      3.1  参数服务器41

      3.1.1  概念41

      3.1.2  历史渊源42

      3.1.3  问题43

      3.2  基础模块toffice44

      3.2.1  基本逻辑44

      3.2.2  系统启动45

      3.2.3  功能实现47

      3.3  通信模块van51

      3.3.1  功能概述51

      3.3.2  定义51

      3.3.3  初始化52

      3.3.4  接收消息53

      3.4  代理人customer59

      3.4.1  基本思路59

      3.4.2  基础类61

      3.4.3  customer62

      3.4.4  功能函数66

      3.5  应用节点实现67

      3.5.1  simpleapp67

      3.5.2  kvserver68

      3.5.3  kvworker68

      3.5.4  结70

      第2篇  数据并行73

      第4章  pytorch dataparallel74

      4.1  综述74

      4.2  示例76

      4.3  定义77

      4.4  前向传播78

      4.5  计算损失87

      4.6  反向传播88

      4.7  结91

      第5章  pytorch ddp的基础架构93

      5.1  ddp述93

      5.1.1  ddp的运行逻辑93

      5.1.2  ddp的使用94

      5.2  设计理念97

      5.2.1  系统设计97

      5.2.2  梯度归约98

      5.2.3  实施99

      5.3  基础概念101

      5.3.1  初始化方法101

      5.3.2  store类102

      5.3.3  tctore类104

      5.3.4  进程组概念107

      5.3.5  构建进程组109

      5.4  架构和初始化111

      5.4.1  架构与迭代流程111

      5.4.2  初始化ddp114

      第6章  pytorch ddp的动态逻辑122

      6.1  reducer类122

      6.1.1  调用reducer类122

      6.1.2  定义reducer类122

      6.1.3  bucket类124

      6.1.4  bucketreplica类126

      6.1.5  查询数据结构128

      6.1.6  梯度累积相关成员变量131

      6.1.7  初始化135

      6.1.8  静态图141

      6.1.9  join作142

      6.2  前向/反向传播143

      6.2.1  前向传播143

      6.2.2  反向传播149

      第7章  horovod161

      7.1  从使用者角度切入161

      7.1.1  机制概述161

      7.1.2  示例代码162

      7.1.3  运行逻辑163

      7.2  horovodrun167

      7.2.1  入点167

      7.2.2  运行训练job168

      7.2.3  gloo实现169

      7.2.4  mpi实现174

      7.2.5  结174

      7.3  网络基础和driver174

      7.3.1  体架构175

      7.3.2  基础网络服务176

      7.3.3  driver服务177

      7.3.4  task服务178

      7.3.5  结180

      7.4  distributedoptimizer181

      7.4.1  问题点181

      7.4.2  解决思路182

      7.4.3  tensorflow 1.x183

      7.5  融合框架191

      7.5.1  体架构191

      7.5.2  算子类体系192

      7.5.3  后台线程194

      7.5.4  执行线程195

      7.5.5  结196

      7.6  后台线程架构198

      7.6.1  设计要点198

      7.6.2  体代码201

      7.6.3  业务逻辑202

      第3篇  流水线并行

      第8章  gpipe210

      8.1  流水线基本实现210

      8.1.1  流水线并行210

      8.1.2  gpipe概述211

      8.1.3  计算内存213

      8.1.4  计算算力213

      8.1.5  自动并行214

      8.2  梯度累积218

      8.2.1  基本概念218

      8.2.2  pytorch实现219

      8.2.3  gpipe实现223

      8.3  checkpointing225

      8.3.1  问题225

      8.3.2  解决方案225

      8.3.3  openai226

      8.3.4  pytorch实现228

      8.3.5  gpipe实现240

      第9章  pytorch流水线并行243

      9.1  如何划分模型243

      9.1.1  使用方法244

      9.1.2  自动衡245

      9.1.3  模型划分247

      9.2  切分数据和runtime系统249

      9.2.1  分发小批量249

      9.2.2   runtime250

      9.3  前向计算255

      9.3.1  设计255

      9.3.2  执行顺序260

      9.4  计算依赖265

      9.4.1  反向传播依赖266

      9.4.2  前向传播依赖270

      9.5  并行计算274

      9.5.1  体架构274

      9.5.2  并行复制和计算276

      9.5.3  重计算278

      0章  pipedream之基础架构280

      10.1  体思路280

      10.1.1  目前问题280

      10.1.2  1f1b策略概述282

      10.1.3  流水线方案283

      10.2  profile阶段285

      10.3  计算分区阶段288

      10.3.1  构建图288

      10.3.2  构建反链289

      10.3.3  计算分区295

      10.3.4  分析分区302

      10.3.5  输出305

      10.4  转换模型阶段305

      10.4.1  分离子图306

      10.4.2  转换模型307

      10.4.3  融合模型308

      1章  pipedream之动态逻辑312

      11.1  runtime引擎312

      11.1.1  功能312

      11.1.2  体逻辑313

      11.1.3  加载模型314

      11.1.4  实现314

      11.2  通信模块323

      11.2.1  类定义324

      11.2.2  构建325




      11.2.3  发送和接收331




      ……

      内容简介:

      本书主要讲解分布式机器学算法和开源框架,读者既可以从宏观的设计上了解分布式机器学的概念和理论,也可以深入核心技术的细节设计中,对分布式机器学形成深刻而直观的认识,做到学以致用。
      本书共分为5篇,篇是分布式基础,首先介绍了分布式机器学的概念、基础设施,以及机器学并行化技术、框架和软件系统,然后对集合通信和参数服务器lite进行了介绍。第2篇是数据并行,以pytorch和horovod为主对数据并行进行分析,读者可以了解在具体工程领域内实现数据并行有哪些挑战和解决方案。第3篇是流水线并行,讲解了除模型划分之外,还通过引入额外的流水线来提高效率,以gpipe / pytorch / pipedream为例进行分析。第4篇是模型并行,首先对nvidia megatron进行分析,讲解如何进行层内分割模型并行,然后讲解pytorch 如何支持模型并行,后介绍分布式优化器。第5篇是tenorflow分布式,前面几篇以pytorch为纲,结合其他框架/库来穿插完成,本篇带领大家进入tenorflow分布式领域。

      作者简介:

      柳浩,网名“罗西的思”,浙江大学硕士。曾职于多家世界500强企业,主导过多个大型项目,现职于某新能源车企。技术栈广博,有丰富的各种大型软件开发和系统架构经验,对机器学框架、微服务框架、大数据引擎、noql、消息队列、分布式追踪系统、可观测系统、可靠设计、移动开发方案和源码有着深刻的理解和认识。

      精彩书评:

      "浙江大学计算机学院教授、博士生导师  童若锋
      柳浩在分布式机器学领域有着丰富的实践经验,对该领域的前沿知识理解深刻。本书很好地衡了理论介绍和工程实践,不仅对概念、和算法进行了解读,而且结合开源框架的具体代码对其关键之处进行了详细剖析,帮助读者逐一击破难点。全书深入浅出,理论结合实践,让读者可以学以致用。

      爱奇艺首席技术官 刘文峰
      我一直知道我的大学同学柳浩在机器学方面的造诣很深,但没想到他的写作能力也如此出类拔萃。他的新书分布式机器学——系统、工程与实战极具深度和广度,覆盖了分布式机器学的、基础、系统和多个框架下的实践等内容。本书易于理解又有很强的实践,对初学者和专业人士都非常有益。如果你对分布式机器学有兴趣,那么我强烈你阅读这本书。

      tcl实业cto   孙力
      分布式机器学是提升大模型训练速度的必然方式。本书深入浅出地梳理了集合通信、参数服务器、数据并行、模型并行、流水线并行等分布式机器学的几项关键技术,无论是对在校、行业新人,还是对开发者,都很适用。

      北京三星研究院副经理  史媛媛
      尽管市面上关于分布式机器学的书籍越来越多,但目前迫切需要一本书来帮助广大从业者,尤其是开发、部署和利用分布式机器学技术、框架与系统的工程技术人员,深入理解分布式机器学相关技术背后的设计思想、逻辑和作实例。本书鲜明的特点是针对tenorflow、pytorch、horovod等主流开源框架进行了深入解读,同时对大量源码进行了分析和设计反推。期待本书能够帮助读者在这一领域更上一层楼。

      oneflow创始人 袁进辉
      分布式机器学是近十年发展快、迷人的技术方向之一,多位传奇的技术都投身其中,业界涌现了许多高质量开源项目,发表了大量和研究报告。这个方向的发展如此之快,以至于从业者无暇沉淀、结和梳理相关进展。令人欣慰的是,一直有像“罗西的思”这样的公众号稳定更新主流分布式深度学开源项目,从概念、设计和实现等多个层次进行技术解析,甚至结集成书。随着chatgpt的突破,预训练大模型成为焦点,越来越多的人开始关注大模型所需要的分布式技术,这本书可以说恰逢其时,既可以作为系统学分布式机器学的教材,也可以作为手边备查的手册,很高兴向读者这本书。

      阿里巴巴技术专家,计算台事业部,pai 机器学台   李永(九丰)
      如果你是一名机器学工程师,那么你不要错过分布式机器学——系统、工程与实战这本书。作为一本针对分布式深度学引擎的著作,它提供了深度学与神经网络的很好实践案例和使用,同时详细阐述了各种分布式并行策略算法和实现。相信本书能让你对大模型分布式训练理解得更加透彻。"

      配送说明

      ...

      相似商品

      为你推荐

    孔网啦啦啦啦啦纺织女工火锅店第三课

    开播时间:09月02日 10:30

    即将开播,去预约
    直播中,去观看