成功加入购物车

去购物车结算 X
北京博远慧达书店
  • 语音识别基本法9787121404788电子工业出版社汤志远等
图文详情

语音识别基本法9787121404788电子工业出版社汤志远等

举报
  • 出版时间: 
  • 装帧:    平装
  • 开本:    16开
  • ISBN:  9787121404788
  • 出版时间: 
  • 装帧:  平装
  • 开本:  16开

售价 40.04 4.5折

定价 ¥89.00 

品相 全新

优惠 满包邮

优惠 满减券
    运费
    本店暂时无法向该地区发货

    延迟发货说明

    时间:
    说明:

    上书时间2024-05-25

    数量
    库存3
    微信扫描下方二维码
    微信扫描打开成功后,点击右上角”...“进行转发

    卖家超过10天未登录

    店铺等级
    资质认证
    90天平均
    成功完成
    93.49% (2564笔)
    好评率
    100%
    发货时间
    9.03小时
    地址
    北京市海淀区
    • 商品详情
    • 店铺评价
    立即购买 加入购物车 收藏
    手机购买
    微信扫码访问
    • 货号:
      9787121404788
      商品描述:
      作者简介


      目录
      1语音是什么2

      1.1大音希声2

      1.2产生语音4

      1.3看见语音5

      1.4小结8

      2语音识别方法9

      2.1总体思路10

      2.2声学模型GMM-HMM12

      2.2.1HMM12

      2.2.2GMM14

      2.2.3训练15

      2.3声学模型DNN-HMM16

      2.4语言模型18

      2.4.1N-Gram18

      2.4.2RNN语言模型18

      2.5解码器20

      2.6端到端结构22

      2.6.1CTC23

      2.6.2RNN-T26

      2.6.3Attention27

      2.6.4Self-Attention29

      2.6.5CTC+Attension31

      2.7开源工具和硬件平台32

      2.7.1深度学习平台32

      2.7.2语音识别工具33

      2.7.3硬件加速34

      2.8小结36

      3完整的语音识别实验37

      3.1语音识别实验的步骤38

      3.2语音识别实验的运行46

      3.3其他语音任务案例47

      3.4小结47

      4前端处理48

      4.1数据准备48

      4.2声学特征提取52

      4.2.1预加重(Pre-Emphasis)54

      4.2.2加窗(Windowing)54

      4.2.3离散傅里叶变换(DFT)55

      4.2.4FBank特征56

      4.2.5MFCC特征57

      4.3小结58

      5训练与解码59

      5.1GMM-HMM基本流程60

      5.1.1训练60

      5.1.2解码61

      5.1.3强制对齐62

      5.2DNN-HMM基本流程63

      5.3DNN配置详解64

      5.3.1component和component-node65

      5.3.2属性与描述符66

      5.3.3不同组件的使用方法66

      5.3.4LSTM配置范例76

      5.4小结81

      6说话人自适应84

      6.1什么是说话人自适应84

      6.2特征域自适应与声道长度规整85

      6.3声学模型自适应:HMM-GMM系统87

      6.3.1基于MAP的自适应方法88

      6.3.2基于MLLR的自适应方法91

      6.4声学模型自适应:DNN系统93

      6.4.1模型参数自适应学习93

      6.4.2基于说话人向量的条件学习94

      6.5领域自适应95

      6.6小结95

      7噪声对抗与环境鲁棒性97

      7.1环境鲁棒性简介97

      7.2前端信号处理方法98

      7.2.1语音增强方法99

      7.2.2特征域补偿方法103

      7.2.3基于DNN的特征映射106

      7.3后端模型增强方法108

      7.3.1简单模型增强方法108

      7.3.2模型自适应方法109

      7.3.3多场景学习和数据增强方法109

      7.4小结110

      8小语种语音识别111

      8.1小语种语音识别面临的主要困难112

      8.2基于音素共享的小语种语音识别113

      8.3基于参数共享的小语种语音识别方法118

      8.4其他小语种语音识别方法121

      8.4.1Grapheme建模121

      8.4.2网络结构与训练方法121

      8.4.3数据增强122

      8.5小语种语音识别实践122

      8.5.1音频数据采集122

      8.5.2文本数据采集122

      8.5.3文本正规化123

      8.5.4发音词典设计123

      8.6小结123

      9关键词识别与嵌入式应用125

      9.1基本概念125

      9.2评价指标126

      9.3实现方法129

      9.3.1总体框架129

      9.3.2基于LVCSR的KWS系统130

      9.3.3基于示例的KWS132

      9.3.4端到端KWS133

      9.3.5滑动窗口133

      9.4嵌入式应用134

      9.4.1模型压缩134

      9.4.2迁移学习136

      9.4.3网络结构搜索与设计137

      9.5小结137

      10说话人识别140

      10.1什么是说话人识别140

      10.1.1基本概念140

      10.1.2技术难点143

      10.1.3发展历史143

      10.2基于知识驱动的特征设计144

      10.3基于线性高斯的统计模型147

      10.3.1高斯混合模型-通用背景模型147

      10.3.2因子分析150

      10.4基于数据驱动的特征学习154

      10.4.1模型结构156

      10.4.2训练策略157

      10.4.3多任务学习157

      10.5基于端到端的识别模型158

      10.6小结160

      11语种识别161

      11.1什么是语种识别161

      11.2语言的区分性特征163

      11.3统计模型方法165

      11.3.1基于声学特征的识别方法165

      11.3.2基于发音单元的语种识别方法167

      11.4深度学习方法170

      11.4.1基于DNN的统计模型方法170

      11.4.2基于DNN的端到端建模172

      11.4.3基于DNN的语言嵌入176

      11.5Kaldi中的语种识别178

      11.6小结180

      12语音情绪识别182

      12.1什么是语音情绪识别182

      12.2语音情绪模型185

      12.2.1离散情绪模型186

      12.2.2连续情绪模型186

      12.3语音情绪特征提取187

      12.3.1语音情绪识别中的典型特征187

      12.3.2局部特征与全局特征190

      12.4语音情绪建模192

      12.4.1离散情绪模型192

      12.4.2连续情绪模型195

      12.5深度学习方法196

      12.5.1基础DNN方法196

      12.5.2特征学习198

      12.5.3迁移学习200

      12.5.4多任务学习200

      12.6小结201

      13语音合成203

      13.1激励-响应模型204

      13.2参数合成207

      13.3拼接合成208

      13.4统计模型合成210

      13.5神经模型合成212

      13.6基于注意力机制的合成系统214

      13.7小结216

      参考文献217

      索引241


      内容摘要
      语音是新一代人机交互的方式,语音识别是实现这一方式的关键环节,也是实现人工智能的基本步骤之一。本书结合当下使用广泛的Kaldi工具,对语音识别的基本概念和流程进行了详细的讲解,包括GMM-HMM、DNN-HMM、端到端等常用结构,并探讨了语音识别在实际应用中的问题,包括说话人自适应、噪声对抗与环境鲁棒性、小语种语音识别、关键词识别与嵌入式应用等方面,也对语音技术的相关前沿课题进行了介绍,包括说话人识别、语种识别、情绪识别、语音合成等方向。本书的写作以让读者快速、直观地理解概念为目标,只展示很基本的数学公式,同时本书注重理解与实践相结合,在对语音技术各个概念的讲解中都展示了相应的Kaldi语音处理命令,以便让读者进一步融会贯通。本书适用于语音识别及相关技术的初学者、在校学生,以及基于Kaldi进行产品研发的同仁,也可以作为语音从业者的参考书籍。

      主编推荐
      "语音技术全景图速览,覆盖常规语音任务,包括语音识别、说话人识别、语种识别、情绪识别、语音合成;
      语音识别多方面讲解,包括基本概念和流程,以及应用中的各种实际问题;
      基于流行的语音工具,结合直观理解与动手实践,适合快速入门与进阶。"

      媒体评论
      "推荐序
      人与人之间很主要的交流方式是语言。要实现人与机器之间更便捷的交互,语言是一种理想的方案。语音识别,是实现这个目标的关键一环。
      从当下整个人工智能行业来看,语音识别是发展迅猛且接近成熟的领域之一。由于其应用广泛,所以社会对语音识别技术人才的需求相当迫切。不管是面向学校教学还是自学阅读,系统而通俗地介绍语音识别技术的书籍都会拥有相当多的读者。
      这本书对语音识别的基本概念和工作流程做了详细的介绍,并搭配使用了一种开源语音工具——Kaldi,引导读者从无到有地搭建一套语音识别系统。现实中的生活场景复杂多变,语音识别的应用需要因地制宜、灵活应对,故本书对语音识别在真实使用环境中的若干问题和相关前沿课题也进行了全面的讲解,并配合丰富生动的实践案例,深化读者对概念、理论和算法的理解。
      本书比较注重概念的直观理解和可操作性,尽量避免了繁重的论述,适合初学者快速了解整个语音研究领域的全景图,并且较为深入、具体地了解语音识别技术。相信很多读者会从本书获得启发和切实的帮助。
      本书作者之一汤志远是我的学生,他读博时曾到清华大学的语音和语言技术中心交流学习,从零开始进入语音识别研究领域,这本书恰恰也可以看作他对整个学习过程的总结。我很高兴看到这期间他的进步和成长。
      张景中
      中国科学院院士
      2020 年12 月30 日"

      配送说明

      ...

      相似商品

      为你推荐

    孔网啦啦啦啦啦纺织女工火锅店第三课

    开播时间:09月02日 10:30

    即将开播,去预约
    直播中,去观看