关于我们
![]() ![]() |
现代语言信号处理
本书系统介绍了语音信号处理的基础、原理、方法、应用、新理论、新成果与新技术,以及该研究领域的背景知识、研究现状、应用前景和发展趋势。
全书分三篇共17章。第一篇语音信号处理基础,包括第1章绪论,第2章语音信号处理的基础知识;第二篇语音信号分析,包括第3章时域分析,第4章短时傅里叶分析,第5章倒谱分析与同态滤波,第6章线性预测分析,第7章语音信号的非线性分析,第8章语音特征参数检测与估计,第9章矢量量化,第10章隐马尔可夫模型;第三篇语音信号处理技术与应用,包括第11章语音编码,第12章语音合成,第13章语音识别,第14章说话人识别和语种辨识,第15章智能信息处理技术在语音信号处理中的应用,第16章语音增强,第17章基于麦克风阵列的语音信号处理。 本书体系完整,结构严谨;系统性强,层次分明;内容深入浅出,原理阐述透彻;取材广泛,繁简适中;内容丰富而新颖;联系实际应用。
目 录
第一篇 语音信号处理基础 第1章 绪论 1 1.1 语音信号处理的发展历史 1 1.2 语音信号处理的主要研究内容及发展 概况 3 1.3 本书的内容 7 思考与复习题 8 第2章 语音信号处理的基础知识 9 2.1 概述 9 2.2 语音产生的过程 9 2.3 语音信号的特性 12 2.3.1 语言和语音的基本特性 12 2.3.2 语音信号的时间波形和频谱特性 13 2.3.3 语音信号的统计特性 15 2.4 语音产生的线性模型 16 2.4.1 激励模型 17 2.4.2 声道模型 18 2.4.3 辐射模型 20 2.4.4 语音信号数字模型 21 2.5 语音产生的非线性模型 22 2.5.1 FM-AM模型的基本原理 22 2.5.2 Teager能量算子 22 2.5.3 能量分离算法 23 2.5.4 FM-AM模型的应用 24 2.6 语音感知 24 2.6.1 听觉系统 24 2.6.2 神经系统 25 2.6.3 语音感知 26 思考与复习题 29 第二篇 语音信号分析 第3章 时域分析 30 3.1 概述 30 3.2 数字化和预处理 31 3.2.1 取样率和量化字长的选择 31 3.2.2 预处理 33 3.3 短时能量分析 34 3.4 短时过零分析 36 3.5 短时相关分析 39 3.5.1 短时自相关函数 39 3.5.2 修正的短时自相关函数 40 3.5.3 短时平均幅差函数 42 3.6 语音端点检测 42 3.6.1 双门限前端检测 43 3.6.2 多门限过零率前端检测 43 3.6.3 基于FM-AM模型的端点检测 43 3.7 基于高阶累积量的语音端点检测 44 3.7.1 噪声环境下的端点检测 44 3.7.2 高阶累积量与高阶谱 44 3.7.3 基于高阶累积量的端点检测 46 思考与复习题 48 第4章 短时傅里叶分析 50 4.1 概述 50 4.2 短时傅里叶变换 50 4.2.1 短时傅里叶变换的定义 50 4.2.2 傅里叶变换的解释 51 4.2.3 滤波器的解释 54 4.3 短时傅里叶变换的取样率 55 4.4 语音信号的短时综合 56 4.4.1 滤波器组求和法 56 4.4.2 FFT求和法 58 4.5 语谱图 59 思考与复习题 61 第5章 倒谱分析与同态滤波 62 5.1 概述 62 5.2 同态信号处理的基本原理 62 5.3 复倒谱和倒谱 63 5.4 语音信号两个卷积分量复倒谱的性质 64 5.4.1 声门激励信号 64 5.4.2 声道冲激响应序列 65 5.5 避免相位卷绕的算法 66 5.5.1 微分法 67 5.5.2 最小相位信号法 67 5.5.3 递推法 69 5.6 语音信号复倒谱分析实例 70 5.7 Mel频率倒谱系数 72 思考与复习题 73 第6章 线性预测分析 74 6.1 概述 74 6.2 线性预测分析的基本原理 74 6.2.1 基本原理 74 6.2.2 语音信号的线性预测分析 75 6.3 线性预测方程组的建立 76 6.4 线性预测分析的解法(1)—自相关和 协方差法 77 6.4.1 自相关法 78 6.4.2 协方差法 79 6.4.3 自相关和协方差法的比较 80 6.5 线性预测分析的解法(2)—格型法 81 6.5.1 格型法基本原理 81 6.5.2 格型法的求解 83 6.6 线性预测分析的应用—LPC谱估计和 LPC复倒谱 85 6.6.1 LPC谱估计 85 6.6.2 LPC复倒谱 87 6.6.3 LPC谱估计与其他谱分析方法的 比较 88 6.7 线谱对(LSP)分析 89 6.7.1 线谱对分析原理 89 6.7.2 线谱对参数的求解 91 6.8 极零模型 91 思考与复习题 93 第7章 语音信号的非线性分析 94 7.1 概述 94 7.2 时频分析 94 7.2.1 短时傅里叶变换的局限 95 7.2.2 时频分析 96 7.3 小波分析 97 7.3.1 概述 97 7.3.2 小波变换的定义 97 7.3.3 典型的小波函数 99 7.3.4 离散小波变换 100 7.3.5 小波多分辨分析与Mallat算法 100 7.4 基于小波的语音分析 101 7.4.1 语音分解与重构 101 7.4.2 清/浊音判断 102 7.4.3 语音去噪 102 7.4.4 听觉系统模拟 103 7.4.5 小波包变换在语音端点检测中的 应用 103 7.5 混沌与分形 104 7.6 基于混沌的语音分析 105 7.6.1 语音信号的混沌性 105 7.6.2 语音信号的相空间重构 106 7.6.3 语音信号的Lyapunov指数 108 7.6.4 基于混沌的语音、噪声判别 109 7.7 基于分形的语音分析 110 7.7.1 概述 110 7.7.2 语音信号的分形特征 111 7.7.3 基于分形的语音分割 112 思考与复习题 113 第8章 语音特征参数估计 114 8.1 基音估计 114 8.1.1 自相关法 115 8.1.2 并行处理法 117 8.1.3 倒谱法 118 8.1.4 简化逆滤波法 120 8.1.5 高阶累积量法 122 8.1.6 小波变换法 123 8.1.7 基音检测的后处理 124 8.2 共振峰估计 125 8.2.1 带通滤波器组法 125 8.2.2 DFT法 126 8.2.3 倒谱法 127 8.2.4 LPC法 129 8.2.5 FM-AM模型法 130 思考与复习题 131 第9章 矢量量化 132 9.1 概述 132 9.2 矢量量化的基本原理 133 9.3 失真测度 134 9.3.1 欧氏距离—均方误差 135 9.3.2 LPC失真测度 135 9.3.3 识别失真测度 137 9.4 最佳矢量量化器和码本的设计 137 9.4.1 矢量量化器最佳设计的两个条件 137 9.4.2 LBG算法 138 9.4.3 初始码书生成 138 9.5 降低复杂度的矢量量化系统 139 9.5.1 无记忆的矢量量化系统 140 9.5.2 有记忆的矢量量化系统 142 9.6 语音参数的矢量量化 144 9.7 模糊矢量量化 145 9.7.1 模糊集概述 146 9.7.2 模糊矢量量化 147 9.8 遗传矢量量化 148 9.8.1 遗传算法 148 9.8.2 遗传矢量量化 150 思考与复习题 151 第10章 隐马尔可夫模型 152 10.1 概述 152 10.2 隐马尔可夫模型的引入 153 10.3 隐马尔可夫模型的定义 155 10.4 隐马尔可夫模型三个问题的求解 156 10.4.1 概率的计算 157 10.4.2 HMM的识别 159 10.4.3 HMM的训练 160 10.4.4 EM算法 161 10.5 HMM的选取 162 10.5.1 HMM的类型选择 162 10.5.2 输出概率分布的选取 163 10.5.3 状态数的选取 163 10.5.4 初值选取 163 10.5.5 训练准则的选取 165 10.6 HMM应用与实现中的一些问题 166 10.6.1 数据下溢 166 10.6.2 多输出(观察矢量序列)情况 166 10.6.3 训练数据不足 167 10.6.4 考虑状态持续时间的HMM 168 10.7 HMM的结构和类型 170 10.7.1 HMM的结构 170 10.7.2 HMM的类型 172 10.7.3 按输出形式分类 173 10.8 HMM的相似度比较 174 思考与复习题 175 第三篇 语音信号处理技术与应用 第11章 语音编码 176 11.1 概述 176 11.2 语音信号的压缩编码原理 178 11.2.1 语音压缩的基本原理 178 11.2.2 语音通信中的语音质量 179 11.2.3 两种压缩编码方式 180 11.3 语音信号的波形编码 180 11.3.1 PCM及APCM 180 11.3.2 预测编码及自适应预测编码 183 11.3.3 ADPCM及ADM 185 11.3.4 子带编码(SBC) 187 11.3.5 自适应变换编码(ATC) 189 11.4 声码器 191 11.4.1 概述 191 11.4.2 声码器的基本结构 192 11.4.3 通道声码器 192 11.4.4 同态声码器 194 11.5 LPC声码器 195 11.5.1 LPC参数的变换与量化 196 11.5.2 LPC-10 197 11.5.3 LPC-10e 198 11.5.4 变帧率LPC声码器 199 11.6 各种常规语音编码方法的比较 200 11.6.1 波形编码的信号压缩技术 200 11.6.2 波形编码与声码器的比较 200 11.6.3 各种声码器的比较 201 11.7 基于LPC模型的混合编码 201 11.7.1 混合编码采用的技术 202 11.7.2 MPLPC 204 11.7.3 RPELPC 207 11.7.4 CELP 209 11.7.5 CELP的改进形式 211 11.7.6 基于分形码本的CELP 213 11.8 基于正弦模型的混合编码 214 11.8.1 正弦变换编码 215 11.8.2 多带激励(MBE)编码 215 11.9 极低速率语音编码 217 11.9.1 400~1.2kb/s数码率的声码器 217 11.9.2 识别-合成型声码器 218 11.10 语音编码的性能指标 219 11.11 语音编码的质量评价 221 11.11.1 主观评价方法 221 11.11.2 客观评价方法 222 11.11.3 主客观评价方法的结合 225 11.11.4 基于多重分形的语音质量评价 226 11.12 语音编码国际标准 227 11.13 语音编码与图像编码的关系 228 小结 229 思考与复习题 229 第12章 语音合成 231 12.1 概述 231 12.2 语音合成原理 232 12.2.1 语音合成的方法 232 12.2.2 语音合成的系统特性 234 12.3 共振峰合成 235 12.3.1 共振峰合成原理 235 12.3.2 共振峰合成实例 237 12.4 LPC合成 237 12.5 PSOLA语音合成 239 12.5.1 概述 239 12.5.2 PSOLA的原理 240 12.5.3 PSOLA的实现 240 12.5.4 PSOLA的改进 242 12.5.5 PSOLA语音合成系统的发展 243 12.6 文语转换系统 243 12.6.1 组成与结构 243 12.6.2 文本分析 244 12.6.3 韵律控制 245 12.6.4 语音合成 248 12.6.5 TTS系统的一些问题 248 12.7 基于HMM的参数化语音合成 249 12.8 语音合成的研究现状和发展趋势 253 12.9 语音合成硬件简介 255 思考与复习题 256 第13章 语音识别 257 13.1 概述 257 13.2 语音识别原理 260 13.3 动态时间规整 264 13.4 基于有限状态矢量量化的语音识别 266 13.5 孤立词识别系统 267 13.6 连接词识别 270 13.6.1 基本原理 270 13.6.2 基于DTW的连接词识别 271 13.6.3 基于HMM的连接词识别 273 13.6.4 基于分段K-均值的最佳词串分割及 模型训练 273 13.7 连续语音识别 274 13.7.1 连续语音识别存在的困难 274 13.7.2 连续语音识别的训练及识别方法 275 13.7.3 连续语音识别的整体模型 276 13.7.4 基于HMM统一框架的大词汇非特定 人连续语音识别 277 13.7.5 声学模型 278 13.7.6 语言学模型 280 13.7.7 最优路径搜索 282 13.8 说话人自适应 284 13.8.1 MAP算法 285 13.8.2 基于变换的自适应方法 285 13.8.3 基于说话人分类的自适应方法 286 13.9 鲁棒的语音识别 287 13.10 关键词确认 289 13.11 可视语音识别 291 13.11.1 概述 291 13.11.2 机器自动唇读 291 13.11.3 双模态语音识别 293 13.12 语音理解 296 13.12.1 MAP语义解码 297 13.12.2 语义结构的表示 297 13.12.3 意图解码器 298 小结 299 思考与复习题 299 第14章 说话人识别 300 14.1 概述 300 14.2 特征选取 301 14.2.1 说话人识别所用的特征 301 14.2.2 特征类型的优选准则 302 14.2.3 常用的特征参数 303 14.3 说话人识别系统 303 14.3.1 说话人识别系统的结构 303 14.3.2 说话人识别的基本方法概述 304 14.4 说话人识别系统实例 305 14.4.1 DTW型说话人识别系统 305 14.4.2 应用VQ的说话人识别系统 306 14.5 基于HMM的说话人识别 307 14.6 基于GMM的说话人识别 310 14.7 说话人识别中需进一步研究的问题 312 14.8 语种辨识 313 思考与复习题 316 第15章 智能信息处理技术在语音信号 处理中的应用 317 15.1 人工神经网络 317 15.1.1 概述 317 15.1.2 神经网络的基本概念 319 15.2 神经网络的模型结构 320 15.2.1 单层感知机 320 15.2.2 多层感知机 321 15.2.3 自组织映射神经网络 323 15.2.4 时延神经网络 324 15.2.5 循环神经网络 325 15.3 神经网络与传统方法的结合 325 15.3.1 概述 325 15.3.2 神经网络与DTW 326 15.3.3 神经网络与VQ 326 15.3.4 神经网络与HMM 327 15.4 神经网络语音识别 328 15.4.1 静态语音识别 328 15.4.2 连续语音识别 330 15.5 基于神经网络的说话人识别 330 15.6 基于神经网络的语音信号非线性预测 编码 332 15.6.1 语音信号的非线性预测 332 15.6.2 基于MLP的非线性预测编码 333 15.6.3 基于RNN的非线性预测编码 334 15.7 基于神经网络的语音合成 335 15.8 支持向量机 336 15.8.1 概述 336 15.8.2 支持向量机的基本原理 337 15.9 基于支持向量机的语音分类识别 339 15.10 基于支持向量机的说话人识别 340 15.10.1 基于支持向量机的说话人辨认 340 15.10.2 基于支持向量机的说话人确认 340 15.11 基于混沌神经网络的语音识别 342 15.11.1 混沌神经网络 342 15.11.2 基于混沌神经网络的语音识别 342 15.12 分形在语音识别中的应用 344 15.13 智能优化算法在语音信号处理中的 应用 344 15.14 各种智能信息处理技术的融合与 集成 346 15.14.1 模糊系统与神经网络的融合 347 15.14.2 神经网络与遗传算法的融合 347 15.14.3 模糊逻辑、神经网络及遗传算法的 融合 348 15.14.4 神经网络、模糊逻辑及混沌的 融合 349 15.14.5 混沌与遗传算法的融合 349 思考与复习题 350 第16章 语音增强 351 16.1 概述 351 16.2 语音、人耳感知及噪声的特性 352 16.3 滤波器法 354 16.3.1 固定滤波器 354 16.3.2 变换技术 354 16.3.3 自适应噪声对消 354 16.4 非线性处理 357 16.5 基于相关特性的语音增强 358 16.6 减谱法 359 16.6.1 减谱法的基本原理 359 16.6.2 减谱法的改进形式 360 16.7 基于Wiener滤波的语音增强 361 16.8 基于语音产生模型的语音增强 362 16.9 基于小波的语音增强 364 16.9.1 概述 364 16.9.2 基于小波的语音增强 364 16.9.3 基于小波包的语音增强 366 16.10 基于信号子空间分解的语音增强 367 16.11 语音增强的一些新发展 370 小结 371 思考与复习题 372 第17章 基于麦克风阵列的语音信号 处理 373 17.1 概述 373 17.2 麦克风阵列语音处理技术的难点 374 17.3 声源定位 375 17.3.1 去混响 375 17.3.2 近场模型 376 17.3.3 声源定位 377 17.4 语音增强 381 17.4.1 概述 381 17.4.2 方法与技术 382 17.4.3 应用 386 17.4.4 本节小结 387 17.5 语音盲分离 387 17.5.1 瞬时线性混合模型 388 17.5.2 卷积混合模型 393 17.5.3 非线性混合模型 395 17.5.4 需进一步研究的问题 396 思考与复习题 396 汉英名词术语对照 398 参考文献 407
语音信号处理是在多学科基础上发展起来的综合性研究领域与技术,涉及数字信号处理、语音学、语言学、生理学、心理学、计算机科学、模式识别、认知科学和智能信息处理等学科。它是发展非常迅速的信息科学研究领域中的一个,其研究涉及一系列前沿课题。近年来,该领域取得大量成果,在理论与学术研究上取得长足发展。同时,其研究成果也在很多领域得到广泛应用;目前语音技术处于蓬勃发展时期,有大量产品投放市场,且不断有新产品被开发研制,具有广阔的市场需求和前景。
本书系统介绍了语音信号处理的基础、原理、方法、应用、新成果与新技术,以及该研究领域的背景知识、研究现状、应用前景和发展趋势。本书内容编排按基础―分析―处理与应用的顺序组织材料。 本书作者于2000年在哈尔滨工业大学出版社出版《语音信号处理》,后又多次修订。 这次的《现代语音信号处理》对原书内容、结构等进行了大幅度修订,以适应目前语音信号处理研究的不断发展及高等学校相关专业对本门课程新的教学要求。除传统的语音信号处理外,本书用大量篇幅介绍了现代语音信号处理的内容,包括以下3方面: (1)语音信号处理领域的一些新技术与新成果,包括语音产生的非线性模型,非线性预测编码,基于HMM的参数化语音合成,可视及双模语音识别,说话人自适应,语音理解,基于子空间分解的语音增强等。 (2)智能信息处理与现代信号处理技术在语音处理中的应用。介绍了一些新兴及前沿的理论与技术,包括混沌与分形、支持向量机、神经网络、模糊理论、遗传算法(及其他智能优化算法)、以及高阶累积量、盲源分离、小波变换、信号子空间分解等在语音信号分析与处理中的应用。 语音信号处理研究已经历了几十年,特别是近30年来已取得很多重要进展;但该领域仍蕴含着很大的潜力,也面临许多理论与方法上的困难,并存在一些难以解决的问题。近年兴起并得到迅速发展的智能信息处理与现代信号处理中的一些理论与技术,是解决这些问题的工具之一;它们已在语音信号处理研究中得到广泛应用,并取得了大量成果,对该领域的发展起到了重要推动作用。 (3)语音麦克风阵列信号处理,包括基于麦克风阵列的声源定位,语音盲分离及语音增强等。基于麦克风阵列的语音信号处理是阵列信号处理与语音信号处理的交叉学科,且涉及声学信号处理的内容。应用于语音信号处理的阵列处理技术与应用于雷达、移动通信及声呐等领域的阵列处理技术有很大不同。这部分内容反映了作者从事阵列信号处理、相控阵雷达及电子侦察与对抗等领域研究所取得的一些体会与认识。 本书体系完整、结构严谨;系统性强;内容深入浅出,原理阐述透彻;取材广泛,繁简适中;内容丰富而新颖;联系实际应用。可作为高等院校信号与信息处理、通信与电子工程、电路与系统、模式识别与人工智能等专业及学科的高年级本科生及研究生教材,也可供该领域的科研及工程技术人员参考。 感谢工业和信息产业科技与教育专著出版资金对本书出版的资助。 著名信息科学专家、北京交通大学袁保宗教授在百忙之中审阅了本书,提出了很多宝贵的指导性意见,并推荐本书出版;在此向袁先生表示深切的敬意与感谢!同时感谢鲍长春教授提出的宝贵建议。 栾学鹏老师参加了部分编写工作,金玉宝同学提供了帮助,在此一并致谢。 本书力求反映作者多年从事语音信号处理课程教学的经验与体会。鉴于该研究领域内容丰富,涉及众多学科及前沿领域,有很强的实用性,又处于迅速发展之中,受作者水平等多方面因素所限,书中难免存在一些问题与不足,敬请批评指正。 作 者
你还可能感兴趣
我要评论
|