语音识别基本 kaldi实践与探索编程语言汤志远等新华正版

清华语音团队打造，中科院院士作序！

作者: 汤志远等
出版社: 电子工业出版社
ISBN: 9787121404788
出版时间: 2021-02
版次: 1

装帧: 平装
开本: 16开
页数: 256页
字数: 307千字

作者: 汤志远等
出版社: 电子工业出版社
ISBN: 9787121404788

出版时间: 2021-02
版次: 1
装帧: 平装

开本: 16开
页数: 256页
字数: 307千字

售价 46.35 5.2折

定价￥89.00

品相全新品相描述

优惠

运费

本店暂时无法向该地区发货

延迟发货说明

时间：

说明：

上书时间2023-12-27

数量: 库存5件

立即购买加入购物车收藏

卖家超过10天未登录

商品详情
店铺评价

手机购买

微信扫码访问

商品分类：

计算机与互联网

货号：

xhwx_1202306853

品相描述：全新

正版特价新书

商品描述：

主编：

"语音技术全景图速览，覆盖常规语音任务，包括语音识别、说话人识别、语种识别、情绪识别、语音合成；语音识别多方面讲解，包括基本概念和流程，以及应用中的各种实际问题；基于流行的语音工具，结合直观理解与动手实践，适合快速入门与。"

目录：

1语音是什么2

1.1大音希声2

1.2产生语音4

1.3看见语音5

1.4小结8

2语音识别方9

2.1体思路10

2.2声学模型gmm-hmm12

2.2.1hmm12

2.2.2gmm14

2.2.3训练15

2.3声学模型dnn-hmm16

2.4语言模型18

2.4.1n-gram18

2.4.2rnn语言模型18

2.5解码器20

2.6端到端结构22

2.6.1ctc23

2.6.2rnn-t26

2.6.3attention27

2.6.4self-attention29

2.6.5ctc+attension31

2.7开源工具和硬件台32

2.7.1深度学台32

2.7.2语音识别工具33

2.7.3硬件加速34

2.8小结36

3完整的语音识别实验37

3.1语音识别实验的步骤38

3.2语音识别实验的运行46

3.3其他语音任务案例47

3.4小结47

4前端处理48

4.1数据准备48

4.2声学特征提取52

4.2.1预加重（pre-emphasis）54

4.2.2加窗（windowing）54

4.2.3离散傅里叶变换（dft）55

4.2.4fbank特征56

4.2.5mfcc特征57

4.3小结58

5训练与解码59

5.1gmm-hmm基本流程60

5.1.1训练60

5.1.2解码61

5.1.3强制对齐62

5.2dnn-hmm基本流程63

5.3dnn配置详解64

5.3.1ponent和ponent-node65

5.3.2属与描述符66

5.3.3不同组件的使用方66

5.3.4lstm配置范例76

5.4小结81

6说话人自适应84

6.1什么是说话人自适应84

6.2特征域自适应与声道长度规整85

6.3声学模型自适应：hmm-gmm系统87

6.3.1基于map的自适应方88

6.3.2基于mllr的自适应方91

6.4声学模型自适应：dnn系统93

6.4.1模型参数自适应学93

6.4.2基于说话人向量的条件学94

6.5领域自适应95

6.6小结95

7噪声对抗与环境鲁棒97

7.1环境鲁棒简介97

7.2前端信号处理方98

7.2.1语音增强方99

7.2.2特征域补偿方103

7.2.3基于dnn的特征映106

7.3后端模型增强方108

7.3.1简单模型增强方108

7.3.2模型自适应方109

7.3.3多场景学和数据增强方109

7.4小结110

8小语种语音识别111

8.1小语种语音识别面临的主要困难112

8.2基于音素共享的小语种语音识别113

8.3基于参数共享的小语种语音识别方118

8.4其他小语种语音识别方121

8.4.1grapheme建模121

8.4.2网络结构与训练方121

8.4.3数据增强122

8.5小语种语音识别实践122

8.5.1音频数据采集122

8.5.2文本数据采集122

8.5.3文本正规化123

8.5.4发音词典设计123

8.6小结123

9关键词识别与嵌入式应用125

9.1基本概念125

9.2评价指标126

9.3实现方129

9.3.1体框架129

9.3.2基于lvcsr的kws系统130

9.3.3基于示例的kws132

9.3.4端到端kws133

9.3.5滑动窗133

9.4嵌入式应用134

9.4.1模型压缩134

9.4.2迁移学136

9.4.3网络结构搜索与设计137

9.5小结137

10说话人识别140

10.1什么是说话人识别140

10.1.1基本概念140

10.1.2技术难点143

10.1.3发展历史143

10.2基于知识驱动的特征设计144

10.3基于线高斯的统计模型147

10.3.1高斯混合模型-通用背景模型147

10.3.2因子分析150

10.4基于数据驱动的特征学154

10.4.1模型结构156

10.4.2训练策略157

10.4.3多任务学157

10.5基于端到端的识别模型158

10.6小结160

11语种识别161

11.1什么是语种识别161

11.2语言的区分特征163

11.3统计模型方165

11.3.1基于声学特征的识别方165

11.3.2基于发音单元的语种识别方167

11.4深度学方170

11.4.1基于dnn的统计模型方170

11.4.2基于dnn的端到端建模172

11.4.3基于dnn的语言嵌入176

11.5kaldi中的语种识别178

11.6小结180

12语音情绪识别182

12.1什么是语音情绪识别182

12.2语音情绪模型185

12.2.1离散情绪模型186

12.2.2连续情绪模型186

12.3语音情绪特征提取187

12.3.1语音情绪识别中的典型特征187

12.3.2局部特征与全局特征190

12.4语音情绪建模192

12.4.1离散情绪模型192

12.4.2连续情绪模型195

12.5深度学方196

12.5.1基础dnn方196

12.5.2特征学198

12.5.3迁移学200

12.5.4多任务学200

12.6小结201

13语音合成203

13.1激励-响应模型204

13.2参数合成207

13.3拼接合成208

13.4统计模型合成210

13.5神经模型合成212

13.6基于注意力机制的合成系统214

13.7小结216

参文献217

索引241

内容简介：

语音是新一代人机交互的方式，语音识别是实现这一方式的关键环节，也是实现人工智能的基本步骤之一。本书结合当下使用广泛的kaldi工具，对语音识别的基本概念和流程进行了详细的讲解，包括gmmhmm、dnnhmm、端到端等常用结构，并探讨了语音识别在实际应用中的问题，包括说话人自适应、噪声对抗与环境鲁棒、小语种语音识别、关键词识别与嵌入式应用等方面，也对语音技术的相关前沿课题进行了介绍，包括说话人识别、语种识别、情绪识别、语音合成等方向。本书的写作以让读者快速、直观地理解概念为目标，只展示很基本的数学公式，同时本书注重理解与实践相结合，在对语音技术各个概念的讲解中都展示了相应的kaldi语音处理命令，以便让读者进一步融会贯通。本书适用于语音识别及相关技术的初学者、在校，以及基于kaldi进行产品研发的同仁，也可以作为语音从业者的参书籍。

作者简介：

汤志远，学院大学与清华大学联合培养博士，清华博士后。专注于语音技术，研究领域涉及语音识别、声纹识别、语种识别、语测评等，在靠前重要期刊或会议上累计发表数十篇。个人主页：://tangzy.cslt.org。

精彩书评：

"序人与人之间很主要的交流方式是语言。要实现人与机器之间更便捷的交互，语言是一种理想的方案。语音识别，是实现这个目标的关键一环。从当下整个人工智能行业来看，语音识别是发展迅猛且接近成熟的领域之一。由于其应用广泛，所以社会对语音识别技术人才的需求相当迫切。不管是面向学校还是自学阅读，系统而通俗地介绍语音识别技术的书籍都会拥有相当多的读者。这本书对语音识别的基本概念和工作流程做了详细的介绍，并搭配使用了一种开源语音工具——kaldi，引导读者从无到有地搭建一套语音识别系统。现实中的生活场景复杂多变，语音识别的应用需要因地制宜、灵活应对，故本书对语音识别在真实使用环境中的若干问题和相关前沿课题也进行了全面的讲解，并配合丰富生动的实践案例，深化读者对概念、理论和算的理解。本书比较注重概念的直观理解和可作，尽量避了繁重的论述，适合初学者快速了解整个语音研究领域的全景图，并且较为深入、具体地了解语音识别技术。相信很多读者会从本书获得启发和切实的帮助。本书作者之一汤志远是我的，他读博时曾到清华大学的语音和语言技术中心交流学，从零开始进入语音识别研究领域，这本书恰恰也可以看作他对整个学过程的结。我很高兴看到这期间他的进步和成长。张景中学院院士2020年12月30"
配送说明

...
相似商品
为你推荐

孔网分类

图书

图书

语音识别基本 kaldi实践与探索 编程语言 汤志远 等 新华正版

孔网啦啦啦啦啦纺织女工火锅店第三课

语音识别基本 kaldi实践与探索编程语言汤志远等新华正版