《VoIP语音处理与识别》从VoIP通信过程出发,以传统语音识别技术为基础,沿着PSTN网信号处理和IP包信号处理两个主线进行研究,以语音识别的前端处理、特征提取、模型建立、后端处理过程进行组织。针对VoIP语音识别系统实用化的问题,给出了一些改善语音识别系统性能的关键技术,力求使得VoIP语音识别能走出实验室,向实用发展。
全书共14章,分为:绪论、VoIP语音编码标准、语音信号和话带数据检测、VoIP信道检测、语音信号的特征提取、编解码失配补偿、通话模式分析、VoIP协议分析及数据获取、丢包处理、码流特征提取、特征选择与特征变换、语音识别的模型、稳健性识别技术和语音识别应用。全书对VoIP语音处理识别技术进行了详尽的、深入浅出的讲解,并根据作者的研究与实验结果提供了大量的实际参数、图表,与实际工作联系紧密,具有很强的可操作性与实用性。章节之间紧密配合、前后呼应,具有很强的系统性。同时,通过书中的研究过程和研究方法,读者能够在以后的研究工作中受到很大的启发。
《VoIP语音处理与识别》可作为高等院校理工科通信和信息处理及相关专业的高年级本科生和(硕士、博士)研究生的教材或参考书,也可供从事信息处理、通信工程等专业的研究人员参考。
随着通信和信息技术的发展,特别是网络技术的发展,海量文本、语音、图像和视频等媒体为人们提供了丰富的信息资源。对广大用户来说,主要是从海量信息环境中获取有用的信息。对于管理人员来说,除了信息获取,还需要对海量信息的内容进行监管。
无论是为了获取有价值的信息,还是对海量信息的内容进行监管,在广泛收集信息的同时,需要对获得的信息进行有效的采集、高效的内容识别、深层的检索与挖掘。在海量信息智能处理中,信息采集是基础、信息内容识别是核心、信息检索与挖掘是手段、信息获取与监管是目的。
信息工程大学信息工程学院“智能信息处理”方向长期从事文本分析与理解、语音处理与识别、图像/视频处理与识别、多源信息融合、信息检索与挖掘等前沿学科领域的教学与科研,获得了国家社科基金(重大)、国家自然科学基金、国家“863”、国防预研等多个项目的资助。“智能信息处理”方向的多名作者在总结和提升多年教学、科研成果的基础上,编写了这套《智能信息处理》丛书。国防工业出版社为该丛书的出版给予了大力支持。
《智能信息处理》丛书共8个分册,比较系统、全面地介绍了智能信息处理技术及其应用,重点阐述了文本、语音、图像及视频等媒体的内容识别、检索、挖掘和监管。该丛书可作为计算机科学与技术、电子工程、信息与通信工程、自动控制、指挥自动化、情报学、图书馆学、信息管理等相关专业方向的高年级本科生和研究生相关课程的教材和相关领域的科研、工程技术人员的参考书。
屈丹,女,吉林九台人,1974年9月出生,博士,信息工程大学信息工程学院讲师。主要从事语音处理与识别、信息融合等前沿学科的教学与科研。主持国家“863”课题、军队重点科研项目,郑州市重点科技攻关项目等5项;作为主要技术负责人,参与国家自然科学基金项目、军队重点科研项目等10多项;获省部级科技进步二等奖3项,发表论文40余篇,其中10多篇次进入三大检索,公开出版著作3部。
王波,男,江苏南京人,1978年1月出生,博士,信息工程大学信息工程学院讲师。主要从事语音处理与识别、网络协议分析等前沿学科的教学与科研。主持和参加了国家自然科学基金项目、国家“863”课题、国家社科基金项目、军队科研项目等10余项;获省部级科技进步二等奖2项;发表论文30余篇,其中15篇次进入三大检索;公开出版著作2部。
李弼程,男,湖南衡南人.1970年7月出生,博士,留英学者.信息工程大学信息工程学院教授、博士生导师。主要从事文本分析与理解、语音处理与识别,图像/视频处理与识别、多源信息融合等前沿学科的教学与科研。主持国家自然科学基金项目、国家“863”课题、国家社科基金项目、军队科研项目等20余项;获省部级科技进步一等奖1项、二等奖2项、三等奖4项;发表论文200余篇.其中80多篇次进入三大检索;已公开出版著作5部。
第1章 绪论
1.1 VoIP的基本概念和系统组成
1.1.1 VoIP基本概念
1.1.2 VoIP基本原理
1.1.3 VoIP系统基本组成
1.1.4 VoIP主要特点
1.1.5 VoIP的关键技术
1.2 语音识别的基本原理与研究内容
1.2.1 语音识别基本原理
1.2.2 传统语音识别
1.2.3 VoIP语音识别
1.3 传统语音识别的发展历程
1.4 VoIP语音识别的发展历程
参考文献
第2章 VoIP语音编码标准
2.1 G.7 ll语音编码
2.1.1 G.7 ll语音编码原理
2.1.2 A律压缩
2.1.3 u律压缩
2.2 G.7 29语音编码
2.2.1 G.729编码原理
2.2.2 编码器实现技术
2.2.3 解码器功能说明
2.3 G.723.1语音编码
2.3.1 编码器原理
2.3.2 编码器实现技术
2.3.3 解码器原理
2.3.4 解码器实现技术
参考文献
第3章 语音和话带数据检测
3.1 话带数据简介
3.1.1 传真
3.1.2 调制解调器数据
3.1.3 单音信号和双音多频信号(DTMF)
3.2 语音和话带数据波形的特点
3.2.1 语音波形的特点
3.2.2 话带数据信号波形的特点
3.3 语音和话带数据识别的特征分析
3.3.1 能量相关参数
3.3.2 过零率相关参数
3.3.3 0~I一化自相关函数
3.3.4 基音周期
3.3.5 谱特征
3.4 语音和话带数据分离方法
3.5 语音与话带数据检测技术应用
参考文献
附录
第4章 VolP信道检测
4.1 声道参数
4.2 语音信号统计参数
4.2.1 偏度与峰度
4.2.2 LPC峰度及偏度
4.2.3 LPCC峰度及偏度
4.3 静态信噪比
4.4 非自然周期性参数
4.4.1 非自然嘟嘟声
4.4.2 机器性参数
4.4.3 帧重复性
4.5 哑声参数与中断参数
4.5.1 哑声参数
4.5.2 中断参数
4.6 基于支持矢量机的VolP信道检测方法
4.6.1 算法流程
4.6.2 支持矢量机
4.6.3 算法的具体实现
参考文献
第5章 语音信号的特征提取
5.1 基音周期
5.1.1 基音检测的难点及方法分类
5.1.2 自相关法及其改进
5.1.3 并行处理法
5.1.4 倒谱法
5.1.5 简化逆滤波法
5.2 线性预测参数
5.2.1 线性预测信号模型
5.2.2 线性预测误差滤波
5.2.3 语音信号的线性预测分析
5.2.4 线性预测分析的解法
5.2.5 斜格法(LatticeMethod)及其改进
5.3 线谱对(LSP)参数
5.3.1 线谱对分析原理
5.3.2 线谱对分析的求解
5.4 倒谱系数及差分参数
5.4.1 LPCC参数
5.4.2 MFCC参数
5.4.3 ASCC参数
5.4.4 差分参数
5.5 感觉加权的线性预测(PUP)特征
5.5.1 PLP参数
5.5.2 RASTA-PI.P参数
5.6 高阶信号谱类特征
5.6.1 WV谱的定义及其主要性质
5.6.2 WV谱计算式的一些变形
参考文献
第6章 编解码失配补偿
6.1 编解码失配影响
6.1.1 VoIP系统语音传输
6.1.2 编解码失配对说话人辨认系统的影响
6.1.3 编解码失配对说话人确认系统的影响
6.1.4 特征参数的编码失真
6.2 常用编解码失配补偿方法
6.2.1 失配补偿的基本思想
6.2.2 经验补偿技术
6.2.3 盲补偿
6.2.4 基于特征及模型的补偿
6.3 基于编码失真的加权GMM模型算法
6.3.1 加权GMM模型
6.3.2 权重矩阵C的确定
6.3.3 实验及分析
6.4 编码自动匹配方法
6.4.1 编码自动匹配方法的基本思想
6.4.2 语音编码检测器
6.4.3 实验及分析
6.5 统计匹配特征变换失配补偿算法
6.5.1 统计匹配的基本思想
6.5.2 线性特征变换式
6.5.3 非线性特征变换式
……
第7章 通话模式分析
第8章 VoIP协议分析及数据获取
第9章 丢包处理
第10章 码流特征提取
第11章 特征选择与特征变换
第12章 语音识别的模型
第13章 稳健性识别技术
第14章 语音识别应用
参考文献
三、传送
在这个通道中,全部网络被看成一个整体,持续不断地从输入端接收语音包,然后在一定时间f内将其传送到网络输出端。时间£可以在某个范围内变化,反映了网络传输中的抖动。网络中的中间节点检查每个IP数据附带的寻址信息,并使用这个信息把该数据报转发到目的地路径上的下一站。网络链路可以是支持IP数据流的任何拓扑结构或访问方法。
四、IP包一数据的转换
目的地VoIP设备接收这个IP数据报并开始处理。网络级提供一个可变长度的缓冲器,用来调节网络产生的抖动。该缓冲器可容纳许多语音包,用户可选择缓冲器的大小。小的缓冲器产生延迟较小,但不能调节大的抖动。其次,解码器将经编码的语音包解压缩后产生新的语音包,这个模块也可以按帧进行操作,完全和解码器的长度相同。若帧长度为15ms,则60ms的语音包被分成4帧,然后它们被解码还原成60ms的语音数据流送人解码缓冲器。在数据报的处理过程中,去掉寻址和控制信息,保留原始的源数据,然后把这个源数据提供给解码器。
五、数字语音转换为模拟语音
播放驱动器将缓冲器中的语音样点(60ms,480个)取出送入声卡,通过扬声器按预定的频率(例如8kHz)播出。
简而言之,语音信号在IP网络上的传送要经过从模拟信号到数字信号的转换、数字语音封装成IP分组、IP分组通过网络的传送、IP分组的解包和数字语音还原到模拟信号等过程。整个过程如图1.2所示。