本書系統(tǒng)地闡述語(yǔ)音信號(hào)處理的原理、方法、技術(shù)和應(yīng)用,同時(shí)給出部分內(nèi)容對(duì)應(yīng)的MATLAB程序。全書共14章,第1~7章是基本理論部分,包括緒論、語(yǔ)音信號(hào)的數(shù)字模型、語(yǔ)音信號(hào)短時(shí)時(shí)域分析、語(yǔ)音信號(hào)短時(shí)頻域分析、語(yǔ)音信號(hào)倒譜分析、語(yǔ)音信號(hào)線性預(yù)測(cè)分析和矢量量化;第8~14章是應(yīng)用部分,包括語(yǔ)音編碼原理及應(yīng)用、語(yǔ)音識(shí)別原理及應(yīng)用、神經(jīng)網(wǎng)絡(luò)原理及應(yīng)用、語(yǔ)音合成原理及應(yīng)用、語(yǔ)音情感識(shí)別原理及應(yīng)用、語(yǔ)音增強(qiáng)原理及應(yīng)用、語(yǔ)音質(zhì)量評(píng)價(jià)和可懂度評(píng)價(jià)。本書內(nèi)容全面,重點(diǎn)突出,原理闡述深入淺出,注重理論與實(shí)際應(yīng)用的結(jié)合,可讀性強(qiáng)。
張雪英,太原理工大學(xué)教授、博士生導(dǎo)師,從事本科生和研究生的語(yǔ)音信號(hào)處理、DSP應(yīng)用及多媒體通信等的教學(xué)和科研工作,主要研究方向?yàn)檎Z(yǔ)音編碼、抗噪語(yǔ)音識(shí)別和DSP應(yīng)用及嵌入式系統(tǒng)開發(fā)及應(yīng)用。
第1章 緒論1
1.1 語(yǔ)音信號(hào)處理的發(fā)展1
1.1.1 語(yǔ)音合成1
1.1.2 語(yǔ)音編碼2
1.1.3 語(yǔ)音識(shí)別4
1.2 語(yǔ)音信號(hào)處理的應(yīng)用7
1.3 語(yǔ)音信號(hào)處理的過程8
1.4 MATLAB在數(shù)字語(yǔ)音信號(hào)處理中的應(yīng)用9
習(xí)題110
第2章 語(yǔ)音信號(hào)的數(shù)字模型11
2.1 語(yǔ)音的發(fā)聲機(jī)理11
2.1.1 人的發(fā)聲器官11
2.1.2 語(yǔ)音生成12
2.2 語(yǔ)音的聽覺機(jī)理13
2.2.1 聽覺器官13
2.2.2 聽覺掩蔽效應(yīng)14
2.2.3 臨界帶寬與頻率群15
2.2.4 耳蝸的信號(hào)處理機(jī)制16
2.2.5 語(yǔ)音信號(hào)聽覺模型17
2.3 語(yǔ)音信號(hào)的數(shù)字模型18
2.3.1 激勵(lì)模型18
2.3.2 聲道模型20
2.3.3 輻射模型22
2.3.4 數(shù)字模型22
2.3.5 模型局限性23
習(xí)題223
第3章 語(yǔ)音信號(hào)短時(shí)時(shí)域分析24
3.1 語(yǔ)音信號(hào)的預(yù)處理24
3.1.1 語(yǔ)音信號(hào)的預(yù)加重處理24
3.1.2 語(yǔ)音信號(hào)的加窗處理26
3.2 短時(shí)平均能量29
3.3 短時(shí)平均幅度32
3.4 短時(shí)平均過零率34
3.5 短時(shí)自相關(guān)分析36
3.5.1 短時(shí)自相關(guān)函數(shù)36
3.5.2 語(yǔ)音信號(hào)的短時(shí)自相關(guān)函數(shù)36
3.5.3 修正的短時(shí)自相關(guān)函數(shù)41
3.5.4 短時(shí)平均幅度差函數(shù)44
3.6 基于能量和過零率的語(yǔ)音端點(diǎn)檢測(cè)45
3.7 基音周期估值47
3.7.1 基于短時(shí)自相關(guān)法的基音周期估值47
3.7.2 基于短時(shí)平均幅度差函數(shù)法的基音周期估值51
3.7.3 基音周期估值的后處理53
3.7.4 基音周期估值后處理的MATLAB實(shí)現(xiàn)54
習(xí)題357
第4章 語(yǔ)音信號(hào)短時(shí)頻域分析59
4.1 傅里葉變換的解釋59
4.1.1 短時(shí)傅里葉變換59
4.1.2 窗函數(shù)的作用60
4.2 濾波器的解釋65
4.2.1 短時(shí)傅里葉變換的濾波器實(shí)現(xiàn)形式一65
4.2.2 短時(shí)傅里葉變換的濾波器實(shí)現(xiàn)形式二66
4.3 短時(shí)合成的兩種方法67
4.3.1 短時(shí)合成的濾波器組相加法原理67
4.3.2 短時(shí)合成的濾波器組相加法的MATLAB實(shí)現(xiàn)69
4.3.3 短時(shí)合成的疊接相加法原理及其MATLAB實(shí)現(xiàn)75
習(xí)題478
第5章 語(yǔ)音信號(hào)倒譜分析80
5.1 復(fù)倒譜和倒譜的定義及性質(zhì)80
5.1.1 定義80
5.1.2 復(fù)倒譜的性質(zhì)80
5.2 語(yǔ)音信號(hào)倒譜分析及應(yīng)用83
5.2.1 語(yǔ)音信號(hào)倒譜分析原理83
5.2.2 語(yǔ)音信號(hào)倒譜應(yīng)用85
5.3 Mel頻率倒譜參數(shù)91
5.3.1 Mel頻率濾波器組91
5.3.2 MFCC提取93
5.3.3 MFCC提取的MATLAB實(shí)現(xiàn)94
習(xí)題595
第6章 語(yǔ)音信號(hào)線性預(yù)測(cè)分析97
6.1 LPC的基本原理97
6.1.1 LPC的實(shí)現(xiàn)方法97
6.1.2 語(yǔ)音信號(hào)模型和LPC之間的關(guān)系99
6.1.3 模型增益G的確定100
6.2 LPC系數(shù)的解法101
6.2.1 自相關(guān)法101
6.2.2 協(xié)方差法102
6.2.3 自相關(guān)法的MATLAB實(shí)現(xiàn)103
6.3 線譜對(duì)(LSP)分析104
6.3.1 LSP的定義和特點(diǎn)105
6.3.2 LPC系數(shù)到LSP系數(shù)的轉(zhuǎn)換及MATLAB實(shí)現(xiàn)108
6.3.3 LSP系數(shù)到LPC系數(shù)的轉(zhuǎn)換及MATLAB實(shí)現(xiàn)111
6.4 LPC的幾種推演參數(shù)113
6.4.1 反射系數(shù)113
6.4.2 對(duì)數(shù)面積比(LAR)系數(shù)113
6.4.3 預(yù)測(cè)器多項(xiàng)式的根114
6.4.4 預(yù)測(cè)誤差濾波器的沖激響應(yīng)及其自相關(guān)函數(shù)114
6.5 LPC的兩個(gè)應(yīng)用實(shí)例114
6.5.1 LPC倒譜及MATLAB實(shí)現(xiàn)115
6.5.2 LPC基音周期檢測(cè)及MATLAB實(shí)現(xiàn)117
習(xí)題6124
第7章 矢量量化126
7.1 矢量量化基本原理127
7.1.1 矢量量化的定義127
7.1.2 失真測(cè)度128
7.1.3 矢量量化器129
7.2 最佳矢量量化器130
7.3 矢量量化器的設(shè)計(jì)算法及MATLAB實(shí)現(xiàn)131
7.3.1 LBG算法131
7.3.2 初始碼書的選取與空胞腔的處理133
7.3.3 已知訓(xùn)練序列的LBG算法的MATLAB實(shí)現(xiàn)134
7.3.4 樹形搜索矢量量化器136
習(xí)題7139
第8章 語(yǔ)音編碼原理及應(yīng)用140
8.1 語(yǔ)音編碼的分類及特性140
8.1.1 波形編碼140
8.1.2 參數(shù)編碼141
8.1.3 混合編碼141
8.2 語(yǔ)音編碼性能的評(píng)價(jià)指標(biāo)141
8.2.1 編碼速率141
8.2.2 編碼語(yǔ)音質(zhì)量評(píng)價(jià)142
8.2.3 編解碼延時(shí)142
8.2.4 算法復(fù)雜度142
8.3 語(yǔ)音信號(hào)波形編碼143
8.3.1 脈沖編碼調(diào)制(PCM)143
8.3.2 自適應(yīng)預(yù)測(cè)編碼(APC)147
8.3.3 G.721標(biāo)準(zhǔn)及算法實(shí)現(xiàn)149
8.4 語(yǔ)音信號(hào)參數(shù)編碼161
8.4.1 LPC聲碼器原理161
8.4.2 LPC-10聲碼器162
8.5 語(yǔ)音信號(hào)混合編碼165
8.5.1 合成分析技術(shù)和感覺加權(quán)濾波器165
8.5.2 激勵(lì)模型的演變167
8.5.3 G.728標(biāo)準(zhǔn)簡(jiǎn)介167
8.6 語(yǔ)音信號(hào)寬帶變速率編碼168
習(xí)題8169
第9章 語(yǔ)音識(shí)別原理及應(yīng)用170
9.1 語(yǔ)音識(shí)別系統(tǒng)概述170
9.1.1 語(yǔ)音信號(hào)預(yù)處理170
9.1.2 語(yǔ)音識(shí)別特征提取171
9.1.3 語(yǔ)音訓(xùn)練識(shí)別網(wǎng)絡(luò)172
9.2 支持向量機(jī)在語(yǔ)音識(shí)別中的應(yīng)用175
9.2.1 支持向量機(jī)分類原理175
9.2.2 支持向量機(jī)的模型參數(shù)選擇問題180
9.2.3 支持向量機(jī)用于語(yǔ)音識(shí)別的MATLAB實(shí)現(xiàn)181
習(xí)題9185
第10章 神經(jīng)網(wǎng)絡(luò)原理及應(yīng)用186
10.1 人工神經(jīng)網(wǎng)絡(luò)186
10.1.1 神經(jīng)元186
10.1.2 神經(jīng)網(wǎng)絡(luò)的分類187
10.2 深度神經(jīng)網(wǎng)絡(luò)188
10.2.1 深度學(xué)習(xí)188
10.2.2 卷積神經(jīng)網(wǎng)絡(luò)189
10.2.3 長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)190
10.3 神經(jīng)網(wǎng)絡(luò)在語(yǔ)音信號(hào)處理中的應(yīng)用191
10.3.1 RBF網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用及MATLAB實(shí)現(xiàn)191
10.3.2 SOFM網(wǎng)絡(luò)在語(yǔ)音編碼中的應(yīng)用及MATLAB實(shí)現(xiàn)197
10.3.3 深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用200
習(xí)題10202
第11章 語(yǔ)音合成原理及應(yīng)用203
11.1 語(yǔ)音合成系統(tǒng)概述203
11.1.1 文本分析204
11.1.2 韻律控制206
11.1.3 語(yǔ)音合成方法206
11.2 傳統(tǒng)語(yǔ)音合成207
11.2.1 共振峰合成208
11.2.2 線性預(yù)測(cè)分析合成210
11.2.3 基音同步疊加212
11.2.4 統(tǒng)計(jì)參數(shù)語(yǔ)音合成219
11.3 基于深度學(xué)習(xí)的端到端語(yǔ)音合成223
11.3.1 基于WaveNet的語(yǔ)音合成223
11.3.2 基于FastSpeech的語(yǔ)音合成225
習(xí)題11226
第12章 語(yǔ)音情感識(shí)別原理及應(yīng)用227
12.1 情感的劃分227
12.1.1 離散情感劃分227
12.1.2 情感維度空間228
12.1.3 其他情感模型231
12.2 情感語(yǔ)音數(shù)據(jù)庫(kù)232
12.2.1 情感語(yǔ)音數(shù)據(jù)庫(kù)建立原則與方法232
12.2.2 常用情感語(yǔ)音數(shù)據(jù)庫(kù)233
12.3 語(yǔ)音情感特征及識(shí)別模型的應(yīng)用234
12.3.1 傳統(tǒng)語(yǔ)音情感特征234
12.3.2 基于經(jīng)驗(yàn)?zāi)B(tài)分解的特征238
12.3.3 語(yǔ)音情感的非線性特征242
12.3.4 深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音情感識(shí)別中的應(yīng)用249
習(xí)題12251
第13章 語(yǔ)音增強(qiáng)原理及應(yīng)用252
13.1 語(yǔ)音特性和數(shù)據(jù)庫(kù)252
13.1.1 語(yǔ)音和噪聲的主要特性252
13.1.2 語(yǔ)音和噪聲數(shù)據(jù)庫(kù)253
13.2 語(yǔ)音增強(qiáng)算法的分類254
13.2.1 無監(jiān)督語(yǔ)音增強(qiáng)算法254
13.2.2 有監(jiān)督語(yǔ)音增強(qiáng)算法255
13.3 傳統(tǒng)語(yǔ)音增強(qiáng)算法及MATLAB實(shí)現(xiàn)257
13.3.1 譜減法257
13.3.2 維納濾波法260
13.3.3 最小均方誤差法263
13.4 基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)算法266
13.4.1 基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)267
13.4.2 基于長(zhǎng)短期記憶網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)273
13.4.3 基于生成對(duì)抗網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)275
習(xí)題13278
第14章 語(yǔ)音質(zhì)量評(píng)價(jià)和可懂度評(píng)價(jià)279
14.1 語(yǔ)音質(zhì)量與可懂度279
14.2 語(yǔ)音質(zhì)量的主觀評(píng)價(jià)方法279
14.3 語(yǔ)音可懂度的主觀評(píng)價(jià)方法281
14.4 語(yǔ)音質(zhì)量客觀評(píng)價(jià)方法283
14.4.1 時(shí)域和頻域分段信噪比方法及MATLAB實(shí)現(xiàn)283
14.4.2 基于LPC客觀評(píng)價(jià)方法及MATLAB實(shí)現(xiàn)287
14.4.3 語(yǔ)音質(zhì)量的感知(PESQ)評(píng)價(jià)方法及MATLAB實(shí)現(xiàn)290
14.5 語(yǔ)音可懂度客觀評(píng)價(jià)方法294
14.5.1 頻域加權(quán)分段信噪比評(píng)價(jià)方法及MATLAB實(shí)現(xiàn)294
14.5.2 歸一化協(xié)方差(NCM)評(píng)價(jià)方法及MATLAB實(shí)現(xiàn)298
習(xí)題14301
參考文獻(xiàn)302