成功加入购物车

去购物车结算 X
浩子书屋
  • 语音识别基本 kaldi实践与探索 编程语言 汤志远 等 新华正版
  • 语音识别基本 kaldi实践与探索 编程语言 汤志远 等 新华正版
  • 语音识别基本 kaldi实践与探索 编程语言 汤志远 等 新华正版
  • 语音识别基本 kaldi实践与探索 编程语言 汤志远 等 新华正版

语音识别基本 kaldi实践与探索 编程语言 汤志远 等 新华正版

举报

清华语音团队打造,中科院院士作序!

  • 作者: 
  • 出版社:    电子工业出版社
  • ISBN:    9787121404788
  • 出版时间: 
  • 版次:    1
  • 装帧:    平装
  • 开本:    16开
  • 页数:    256页
  • 字数:    307千字
  • 出版时间: 
  • 版次:  1
  • 装帧:  平装
  • 开本:  16开
  • 页数:  256页
  • 字数:  307千字

售价 46.35 5.2折

定价 ¥89.00 

品相 全新品相描述

优惠 满包邮

优惠 满减券
    运费
    本店暂时无法向该地区发货

    延迟发货说明

    时间:
    说明:

    上书时间2023-12-27

    数量
    库存5
    微信扫描下方二维码
    微信扫描打开成功后,点击右上角”...“进行转发

    卖家超过10天未登录

    • 商品详情
    • 店铺评价
    手机购买
    微信扫码访问
    • 商品分类:
      计算机与互联网
      货号:
      xhwx_1202306853
      品相描述:全新
      正版特价新书
      商品描述:
      主编:

      "语音技术全景图速览,覆盖常规语音任务,包括语音识别、说话人识别、语种识别、情绪识别、语音合成;语音识别多方面讲解,包括基本概念和流程,以及应用中的各种实际问题;基于流行的语音工具,结合直观理解与动手实践,适合快速入门与。"

      目录:

      1语音是什么2

      1.1大音希声2

      1.2产生语音4

      1.3看见语音5

      1.4小结8

      2语音识别方9

      2.1体思路10

      2.2声学模型gmm-hmm12

      2.2.1hmm12

      2.2.2gmm14

      2.2.3训练15

      2.3声学模型dnn-hmm16

      2.4语言模型18

      2.4.1n-gram18

      2.4.2rnn语言模型18

      2.5解码器20

      2.6端到端结构22

      2.6.1ctc23

      2.6.2rnn-t26

      2.6.3attention27

      2.6.4self-attention29

      2.6.5ctc+attension31

      2.7开源工具和硬件台32

      2.7.1深度学台32

      2.7.2语音识别工具33

      2.7.3硬件加速34

      2.8小结36

      3完整的语音识别实验37

      3.1语音识别实验的步骤38

      3.2语音识别实验的运行46

      3.3其他语音任务案例47

      3.4小结47

      4前端处理48

      4.1数据准备48

      4.2声学特征提取52

      4.2.1预加重(pre-emphasis)54

      4.2.2加窗(windowing)54

      4.2.3离散傅里叶变换(dft)55

      4.2.4fbank特征56

      4.2.5mfcc特征57

      4.3小结58

      5训练与解码59

      5.1gmm-hmm基本流程60

      5.1.1训练60

      5.1.2解码61

      5.1.3强制对齐62

      5.2dnn-hmm基本流程63

      5.3dnn配置详解64

      5.3.1ponent和ponent-node65

      5.3.2属与描述符66

      5.3.3不同组件的使用方66

      5.3.4lstm配置范例76

      5.4小结81

      6说话人自适应84

      6.1什么是说话人自适应84

      6.2特征域自适应与声道长度规整85

      6.3声学模型自适应:hmm-gmm系统87

      6.3.1基于map的自适应方88

      6.3.2基于mllr的自适应方91

      6.4声学模型自适应:dnn系统93

      6.4.1模型参数自适应学93

      6.4.2基于说话人向量的条件学94

      6.5领域自适应95

      6.6小结95

      7噪声对抗与环境鲁棒97

      7.1环境鲁棒简介97

      7.2前端信号处理方98

      7.2.1语音增强方99

      7.2.2特征域补偿方103

      7.2.3基于dnn的特征映106

      7.3后端模型增强方108

      7.3.1简单模型增强方108

      7.3.2模型自适应方109

      7.3.3多场景学和数据增强方109

      7.4小结110

      8小语种语音识别111

      8.1小语种语音识别面临的主要困难112

      8.2基于音素共享的小语种语音识别113

      8.3基于参数共享的小语种语音识别方118

      8.4其他小语种语音识别方121

      8.4.1grapheme建模121

      8.4.2网络结构与训练方121

      8.4.3数据增强122

      8.5小语种语音识别实践122

      8.5.1音频数据采集122

      8.5.2文本数据采集122

      8.5.3文本正规化123

      8.5.4发音词典设计123

      8.6小结123

      9关键词识别与嵌入式应用125

      9.1基本概念125

      9.2评价指标126

      9.3实现方129

      9.3.1体框架129

      9.3.2基于lvcsr的kws系统130

      9.3.3基于示例的kws132

      9.3.4端到端kws133

      9.3.5滑动窗133

      9.4嵌入式应用134

      9.4.1模型压缩134

      9.4.2迁移学136

      9.4.3网络结构搜索与设计137

      9.5小结137

      10说话人识别140

      10.1什么是说话人识别140

      10.1.1基本概念140

      10.1.2技术难点143

      10.1.3发展历史143

      10.2基于知识驱动的特征设计144

      10.3基于线高斯的统计模型147

      10.3.1高斯混合模型-通用背景模型147

      10.3.2因子分析150

      10.4基于数据驱动的特征学154

      10.4.1模型结构156

      10.4.2训练策略157

      10.4.3多任务学157

      10.5基于端到端的识别模型158

      10.6小结160

      11语种识别161

      11.1什么是语种识别161

      11.2语言的区分特征163

      11.3统计模型方165

      11.3.1基于声学特征的识别方165

      11.3.2基于发音单元的语种识别方167

      11.4深度学方170

      11.4.1基于dnn的统计模型方170

      11.4.2基于dnn的端到端建模172

      11.4.3基于dnn的语言嵌入176

      11.5kaldi中的语种识别178

      11.6小结180

      12语音情绪识别182

      12.1什么是语音情绪识别182

      12.2语音情绪模型185

      12.2.1离散情绪模型186

      12.2.2连续情绪模型186

      12.3语音情绪特征提取187

      12.3.1语音情绪识别中的典型特征187

      12.3.2局部特征与全局特征190

      12.4语音情绪建模192

      12.4.1离散情绪模型192

      12.4.2连续情绪模型195

      12.5深度学方196

      12.5.1基础dnn方196

      12.5.2特征学198

      12.5.3迁移学200

      12.5.4多任务学200

      12.6小结201

      13语音合成203

      13.1激励-响应模型204

      13.2参数合成207

      13.3拼接合成208

      13.4统计模型合成210

      13.5神经模型合成212

      13.6基于注意力机制的合成系统214

      13.7小结216

      参文献217

      索引241


      内容简介:

      语音是新一代人机交互的方式,语音识别是实现这一方式的关键环节,也是实现人工智能的基本步骤之一。本书结合当下使用广泛的kaldi工具,对语音识别的基本概念和流程进行了详细的讲解,包括gmmhmm、dnnhmm、端到端等常用结构,并探讨了语音识别在实际应用中的问题,包括说话人自适应、噪声对抗与环境鲁棒、小语种语音识别、关键词识别与嵌入式应用等方面,也对语音技术的相关前沿课题进行了介绍,包括说话人识别、语种识别、情绪识别、语音合成等方向。本书的写作以让读者快速、直观地理解概念为目标,只展示很基本的数学公式,同时本书注重理解与实践相结合,在对语音技术各个概念的讲解中都展示了相应的kaldi语音处理命令,以便让读者进一步融会贯通。本书适用于语音识别及相关技术的初学者、在校,以及基于kaldi进行产品研发的同仁,也可以作为语音从业者的参书籍。

      作者简介:

      汤志远,学院大学与清华大学联合培养博士,清华博士后。专注于语音技术,研究领域涉及语音识别、声纹识别、语种识别、语测评等,在靠前重要期刊或会议上累计发表数十篇。个人主页:://tangzy.cslt.org。

      精彩书评:

      "序人与人之间很主要的交流方式是语言。要实现人与机器之间更便捷的交互,语言是一种理想的方案。语音识别,是实现这个目标的关键一环。从当下整个人工智能行业来看,语音识别是发展迅猛且接近成熟的领域之一。由于其应用广泛,所以社会对语音识别技术人才的需求相当迫切。不管是面向学校还是自学阅读,系统而通俗地介绍语音识别技术的书籍都会拥有相当多的读者。这本书对语音识别的基本概念和工作流程做了详细的介绍,并搭配使用了一种开源语音工具——kaldi,引导读者从无到有地搭建一套语音识别系统。现实中的生活场景复杂多变,语音识别的应用需要因地制宜、灵活应对,故本书对语音识别在真实使用环境中的若干问题和相关前沿课题也进行了全面的讲解,并配合丰富生动的实践案例,深化读者对概念、理论和算的理解。本书比较注重概念的直观理解和可作,尽量避了繁重的论述,适合初学者快速了解整个语音研究领域的全景图,并且较为深入、具体地了解语音识别技术。相信很多读者会从本书获得启发和切实的帮助。本书作者之一汤志远是我的,他读博时曾到清华大学的语音和语言技术中心交流学,从零开始进入语音识别研究领域,这本书恰恰也可以看作他对整个学过程的结。我很高兴看到这期间他的进步和成长。张景中学院院士2020年12月30"

      配送说明

      ...

      相似商品

      为你推荐

    孔网啦啦啦啦啦纺织女工火锅店第三课

    开播时间:09月02日 10:30

    即将开播,去预约
    直播中,去观看