语音识别基本法9787121404788电子工业出版社汤志远等
举报
-
作者:
汤志远等
-
出版社:
电子工业出版社
-
ISBN:
9787121404788
-
出版时间:
2021-02
-
装帧:
平装
-
开本:
16开
-
ISBN:
9787121404788
-
出版时间:
2021-02
售价
¥
40.04
4.5折
定价
¥89.00
品相
全新
上书时间2024-05-25
卖家超过10天未登录
-
-
商品描述:
-
作者简介
目录
1语音是什么2
1.1大音希声2
1.2产生语音4
1.3看见语音5
1.4小结8
2语音识别方法9
2.1总体思路10
2.2声学模型GMM-HMM12
2.2.1HMM12
2.2.2GMM14
2.2.3训练15
2.3声学模型DNN-HMM16
2.4语言模型18
2.4.1N-Gram18
2.4.2RNN语言模型18
2.5解码器20
2.6端到端结构22
2.6.1CTC23
2.6.2RNN-T26
2.6.3Attention27
2.6.4Self-Attention29
2.6.5CTC+Attension31
2.7开源工具和硬件平台32
2.7.1深度学习平台32
2.7.2语音识别工具33
2.7.3硬件加速34
2.8小结36
3完整的语音识别实验37
3.1语音识别实验的步骤38
3.2语音识别实验的运行46
3.3其他语音任务案例47
3.4小结47
4前端处理48
4.1数据准备48
4.2声学特征提取52
4.2.1预加重(Pre-Emphasis)54
4.2.2加窗(Windowing)54
4.2.3离散傅里叶变换(DFT)55
4.2.4FBank特征56
4.2.5MFCC特征57
4.3小结58
5训练与解码59
5.1GMM-HMM基本流程60
5.1.1训练60
5.1.2解码61
5.1.3强制对齐62
5.2DNN-HMM基本流程63
5.3DNN配置详解64
5.3.1component和component-node65
5.3.2属性与描述符66
5.3.3不同组件的使用方法66
5.3.4LSTM配置范例76
5.4小结81
6说话人自适应84
6.1什么是说话人自适应84
6.2特征域自适应与声道长度规整85
6.3声学模型自适应:HMM-GMM系统87
6.3.1基于MAP的自适应方法88
6.3.2基于MLLR的自适应方法91
6.4声学模型自适应:DNN系统93
6.4.1模型参数自适应学习93
6.4.2基于说话人向量的条件学习94
6.5领域自适应95
6.6小结95
7噪声对抗与环境鲁棒性97
7.1环境鲁棒性简介97
7.2前端信号处理方法98
7.2.1语音增强方法99
7.2.2特征域补偿方法103
7.2.3基于DNN的特征映射106
7.3后端模型增强方法108
7.3.1简单模型增强方法108
7.3.2模型自适应方法109
7.3.3多场景学习和数据增强方法109
7.4小结110
8小语种语音识别111
8.1小语种语音识别面临的主要困难112
8.2基于音素共享的小语种语音识别113
8.3基于参数共享的小语种语音识别方法118
8.4其他小语种语音识别方法121
8.4.1Grapheme建模121
8.4.2网络结构与训练方法121
8.4.3数据增强122
8.5小语种语音识别实践122
8.5.1音频数据采集122
8.5.2文本数据采集122
8.5.3文本正规化123
8.5.4发音词典设计123
8.6小结123
9关键词识别与嵌入式应用125
9.1基本概念125
9.2评价指标126
9.3实现方法129
9.3.1总体框架129
9.3.2基于LVCSR的KWS系统130
9.3.3基于示例的KWS132
9.3.4端到端KWS133
9.3.5滑动窗口133
9.4嵌入式应用134
9.4.1模型压缩134
9.4.2迁移学习136
9.4.3网络结构搜索与设计137
9.5小结137
10说话人识别140
10.1什么是说话人识别140
10.1.1基本概念140
10.1.2技术难点143
10.1.3发展历史143
10.2基于知识驱动的特征设计144
10.3基于线性高斯的统计模型147
10.3.1高斯混合模型-通用背景模型147
10.3.2因子分析150
10.4基于数据驱动的特征学习154
10.4.1模型结构156
10.4.2训练策略157
10.4.3多任务学习157
10.5基于端到端的识别模型158
10.6小结160
11语种识别161
11.1什么是语种识别161
11.2语言的区分性特征163
11.3统计模型方法165
11.3.1基于声学特征的识别方法165
11.3.2基于发音单元的语种识别方法167
11.4深度学习方法170
11.4.1基于DNN的统计模型方法170
11.4.2基于DNN的端到端建模172
11.4.3基于DNN的语言嵌入176
11.5Kaldi中的语种识别178
11.6小结180
12语音情绪识别182
12.1什么是语音情绪识别182
12.2语音情绪模型185
12.2.1离散情绪模型186
12.2.2连续情绪模型186
12.3语音情绪特征提取187
12.3.1语音情绪识别中的典型特征187
12.3.2局部特征与全局特征190
12.4语音情绪建模192
12.4.1离散情绪模型192
12.4.2连续情绪模型195
12.5深度学习方法196
12.5.1基础DNN方法196
12.5.2特征学习198
12.5.3迁移学习200
12.5.4多任务学习200
12.6小结201
13语音合成203
13.1激励-响应模型204
13.2参数合成207
13.3拼接合成208
13.4统计模型合成210
13.5神经模型合成212
13.6基于注意力机制的合成系统214
13.7小结216
参考文献217
索引241
内容摘要
语音是新一代人机交互的方式,语音识别是实现这一方式的关键环节,也是实现人工智能的基本步骤之一。本书结合当下使用广泛的Kaldi工具,对语音识别的基本概念和流程进行了详细的讲解,包括GMM-HMM、DNN-HMM、端到端等常用结构,并探讨了语音识别在实际应用中的问题,包括说话人自适应、噪声对抗与环境鲁棒性、小语种语音识别、关键词识别与嵌入式应用等方面,也对语音技术的相关前沿课题进行了介绍,包括说话人识别、语种识别、情绪识别、语音合成等方向。本书的写作以让读者快速、直观地理解概念为目标,只展示很基本的数学公式,同时本书注重理解与实践相结合,在对语音技术各个概念的讲解中都展示了相应的Kaldi语音处理命令,以便让读者进一步融会贯通。本书适用于语音识别及相关技术的初学者、在校学生,以及基于Kaldi进行产品研发的同仁,也可以作为语音从业者的参考书籍。
主编推荐
"语音技术全景图速览,覆盖常规语音任务,包括语音识别、说话人识别、语种识别、情绪识别、语音合成;
语音识别多方面讲解,包括基本概念和流程,以及应用中的各种实际问题;
基于流行的语音工具,结合直观理解与动手实践,适合快速入门与进阶。"
媒体评论
"推荐序
人与人之间很主要的交流方式是语言。要实现人与机器之间更便捷的交互,语言是一种理想的方案。语音识别,是实现这个目标的关键一环。
从当下整个人工智能行业来看,语音识别是发展迅猛且接近成熟的领域之一。由于其应用广泛,所以社会对语音识别技术人才的需求相当迫切。不管是面向学校教学还是自学阅读,系统而通俗地介绍语音识别技术的书籍都会拥有相当多的读者。
这本书对语音识别的基本概念和工作流程做了详细的介绍,并搭配使用了一种开源语音工具——Kaldi,引导读者从无到有地搭建一套语音识别系统。现实中的生活场景复杂多变,语音识别的应用需要因地制宜、灵活应对,故本书对语音识别在真实使用环境中的若干问题和相关前沿课题也进行了全面的讲解,并配合丰富生动的实践案例,深化读者对概念、理论和算法的理解。
本书比较注重概念的直观理解和可操作性,尽量避免了繁重的论述,适合初学者快速了解整个语音研究领域的全景图,并且较为深入、具体地了解语音识别技术。相信很多读者会从本书获得启发和切实的帮助。
本书作者之一汤志远是我的学生,他读博时曾到清华大学的语音和语言技术中心交流学习,从零开始进入语音识别研究领域,这本书恰恰也可以看作他对整个学习过程的总结。我很高兴看到这期间他的进步和成长。
张景中
中国科学院院士
2020 年12 月30 日"
孔网啦啦啦啦啦纺织女工火锅店第三课
开播时间:09月02日 10:30
即将开播,去预约
直播中,去观看