在提升国家普通话水平测试系统评分性能,改进系统评分机制这项研究工作中,语音识别是关键技术,而声学特征的提取与选择是语音识别的一个重要环节.为此,在文献[1]中,笔者提出了一种依据噪声污染情况自适应选取不同策略滤波的算法.首先判断噪声点,然后对轻度噪声污染语音采取梯度法滤波,对中度污染语音采取信号点中值滤波,对重度污染语音采取基于直方图信息的加权均值虑波.该算法在整个噪声率范围内都有效,无需设定参数,自适应能力强.但本文算法针对的是较为理想的干扰噪声模型,其噪声点为0或255,且均匀分布.如果原语音中包含很多取值为0或255的点,该算法将导致语音失真,且不能直接应用于高斯噪声和脉冲噪声点在0到255之间随机取值的语音.此外,笔者在实践中又提出一种噪声检测的有效算法:对噪声点,取所定义的12个梯度值中最小梯度对应邻域音素决定噪声点处的功率值,对信号点保持原值.实验结果表明,噪声率低于0.2,特别是在语音中存在黑、白细线时,新算法在滤除噪声的同时很好地保护了语音细节.但对严重干扰噪声污染语音,该算法中的直线检测存在局限性.在实际测试中,笔者还使用了基于开关滤波思想的算法.首先,采用改进的极值检测法检测语音噪声,建立噪声标记矩阵;然后,根据语音局部噪声污染情况自适应选择不同策略滤除噪声;最后,利用误检音素修正,极大地减少了对信号点的误滤波操作,但是实现应用较为有限.
随着语音应用环境的日趋复杂化,特别是在环境噪声和干扰对语音识别有严重影响的情况下,往往会致使语音识别率极大降低,此时滤波算法已经不能满足要求.目前来看,新的普通话测试系统优化主要有如下几方面的问题需要解决:(1).对自然语言的识别和理解.首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则.(2)语音信息量大.语音模式不仅对不同的说话人不同,对同一说话人也是不同的.(3)语音的模糊性.说话者在讲话时,不同的词可能听起来是相似的.这在英语和汉语中常见.(4)单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等.
为此,本文探讨在普通话测试中引入系统神经网络评分机制(PSCAI)来有效的解决上述问题,因其所采用的是基于反向传播法(BP算法)的多层感知网络,具有区分复杂的分类边界的能力,十分有助于模式划分.
1 PSCAI算法实现
与传统的神经网络不同,普通话测试系统神经网络评分机制PSCAI是一种完全基于神经元连接的网络模型.特别是在评判各地区不同的语音时,网络中的每一个神经元都唯一代表一种语音模式,每当接收新语音模式时,其会自动建立一个新的连接,把信息存储在网络中;而当接收到的是已有的语音模式时,已有的神经元连接得到加强.当模式神经元的输出达到所设定的感觉阈值时,对应模式的信息被记忆.因此,PSCAI能不断地接收、存储各种信息,并把感觉足够强的模式记忆下来,这一过程更接近于人脑的学习、记忆过程.PSCAI在学习新知识时不会影响已有的知识,同时具有很强的识别能力.
1.1 PSCAI算法引入
图1(a)是一个3输入2输出的单层感知器.模拟人工测试评分的规律,我们构建了新的PSCAI神经网络,如图1(b)所示.乍看起来,二者并没有什么明显的不同,但事实上存在着本质上的差别.在图1(a)中,利用了编码的概念,即两个输出共有22=4个不同的状态,代表四种语音模式.这样的连接确实可以节省神经元的数量,但却是以增加计算的复杂性为代价的.从网络的工作算法可以看出,输入与输出之间是根据连接权向量形成的一种映射关系,而学习过程实际上就是使输入、输出之间关系从不确定到确定的过程.如果在原有语音知识集中加入新的语音知识,那就要重新选择连接权向量,这样一来,在学习新语音知识的时候可能会影响原有的语音知识,更主要的是,随着语音知识集的扩大,也就是网络规模的增加,每次学习新语音知识所进行的运算量会越来越大.而人工测试评分的规律是,已有的、与新知识相关的知识越丰富,学习、记忆新知识就越快、越容易,而与新知识毫不相关的内容则不受任何影响.【图1】
1.2 PSCAI神经元之间的连接规则
以图1(b)为例,每当第一次接收到某个模式xj=(x1,x2,x3)∈{0,1}3×1,就会有一个神经元j把所有处于兴奋状态的输入层神经元连接起来,例如,神经元1、2、3分别对应的输入为(1,1,0),(1,0,1),(1,1,1).神经元j的输出可以表示为:【1】
通过这种连接规则,yj就是输入语音模式xi的响应,其大小反映了神经网络对该语音模式的响应程度,也就是“大脑”对该语音模式的感觉强度.一旦某个神经元在某个语音模式输入激励下建立起了一个连接,这个神经元就会被这个输入语音模式所“占有”,而不会再改变连接形式,即:这个语音模式就永久保存在神经网络中.因此,我们把这样的神经元称为 “PSCAI神经元”.这样,一种模式与一种连接是一对一的关系,也体现了神经元之间存在的竞争机制.
1.3 PSCAI神经元之间的连接加强和减弱
对于已经建立起来的所有神经元连接,每当一个神经元的输入为“1”时,输入、输出神经元之间的连接就会被加强,反之则减弱,可以表示为:【2-3】
其中,yj(t2)是第j个神经元在t2时刻的输出;δij(t1)∈Δ,δij(t2)∈Δ是本次接收前、后的传递因子;Δ1>0,Δ2>0分别称为加强因子和衰减因子,表示对神经元之间联系的加强和减弱,相当于记忆或遗忘的速度,其大小取决于不同的人对不同事物记忆的能力以及注意的强度等因素.以上关系表明,如果神经网络反复接收同一种语音模式,则该语音模式就会被逐渐加强,即输出值逐渐增加;反之,如果已建立起来的神经元连接长期得不到刺激,连接效率也会逐渐降低,但减弱的结果不会使已经建立起来的神经元连接消失.这样的规定是出于以下两点考虑 (以图1(b)为例):①如果模式(1,1,1)中的第3个语音信号输入与第3个语音信号输出之间由于长时间得不到加强而断开连接,即δ33变为0,y3则变成(1,1,0),这显然会与yi相冲突,不符合一个神经元唯一代表一种语音模式的规则;②即使δ33会减小,但δ13和δ23有可能会被经常加强,只要这个语音模式存在,仍然可以被回忆起来,这一点体现了PSCAI系统的联想记忆功能.
1.4 PSCAI系统记忆的形成与遗忘
大脑通过神经系统接收来自体外和体内各部分的信息,对这些信息进行存储、加工.在这些信息中,有一些是与人类日常活动有关的信息,在需要的时候应该能够被回忆起来,这就是需要记忆的信息.本文可以设想PSCAI系统有这样一种记忆形成机制:当某个语音模式神经元的输出超过某个设定的阈值时,系统就会在记忆区记录下有关这个语音模式的主要特征,这个语音模式就被记忆下来了.也就是:
yj-bj<0不记忆该模式的特征;yj-bj0在记忆区记录有关该模式的特征.
其中bj是对应yj的记忆阈值,反映不同神经元对不同语音的敏感程度.神经元输出yj对应的是PSCAI系统中对某种输入语音信息所产生的感觉,而bj就是对应的“感觉阈值”或“兴奋阈值”,当对某种语音的感觉超过兴奋阈值时,该语音就会在系统中留下“痕迹”或“烙印”,即形成了记忆.记忆的内容不是语音信息本身,而是有关该语音信息的描述(属性、特征等).另外,如果某个语音模式长期得不到加强则会逐渐减退,当yj再降低到该语音模式的记忆阈值以下时,有关这个语音模式的记忆就会消失,也就是被“遗忘了”,这就是PSCAI系统的记忆、遗忘机制.但遗忘的信息并没有从系统中抹去,而依然保存在神经网络中,这一点是由神经元之间连接的加强和减弱规则所决定的,即由式(2)所保证的.
2 实验与结果分析
为检验PSCAI系统的抗噪声性能,笔者对知识集中的语音模式加入一定的噪声,然后输入到PSCAI系统中进行识别.n表示知识集中输出语音模式的数量,m表示每个输出语音模式中所包含的基本语音模式的数量.试验中取n=104,每次取m为某一固定数值,把这n个语音模式作为知识集存放到PSCAI系统中;然后从知识集中随机选取某一语音模式,并把该语音模式中的k个基本语音模式用随机产生的8位二进制数代替(代表噪声信号的一个采样值),这就相当于在输出模式中加入了噪声,并把k/m定义为噪声比例.通过改变m,得到PSCAI系统抗噪声性能,实验结果如图2所示.【图2】
结果表明,对于不同的m都存在一个噪声比例的门限值,当噪声比例小于这个门限值时,识别率基本不变,而超过这个门限值时,识别率会迅速减低.图2中的垂直虚线就是对应不同m的门限值,当m分别等于5、7、10、20、40、100时,对应的门限值分别是0.4、0.43、0.5、0.6和0.64.
可见,m越大,抗噪声能力越强,当m超过20以后,随着m得增加,各条曲线逐渐重合,最大门限值在0.65附近.这说明,只要m取值足够大,且噪声比例不超过65%,都可以得到理想的识别率.
3 结束语
试验结果表明,PSCAI能够准确接收并保存所有输入的语音信息,并有选择地学习、记忆那些有用的语音信息.除非由于某种原因使得原有的网络连接遭到破坏或产生混乱的连接(就像人脑受刺激后产生的精神错乱),学习过程只会使网络规模逐渐增大、神经元之间的连接越加复杂,而不会影响网络的稳定,或使记忆的内容产生混乱.PSCAI不需要训练就可以使每个语音模式的输入、输出之间建立确切的对应关系,没有任何的近似或不确定因素,这使它与现有的基于中值滤波的算法相比有很大的优势.
参考文献:
[1]李超.基于直方图信息滤波的普通话测试系统评分机制算法[J].玉溪师范学院学报,2012(4):63-66.
[2]Adaptive Switching Median Filter for Removal of Impulse Noise[A].Proceedings of 6th International Symposium onTest and Measurement(Volume 3)[C].2005.
[3]Application of median filter technique and ESP in PSP data processing[A].Proceedings of the 2011Chinese Controland Decision Conference(CCDC)[C].2011.
壮族是我国55个少数民族中人口最多的一个民族。根据2000年第五次全国人口普查的结果统计,壮族的人口总数为1600多万人,主要分布于广西壮族自治区、云南省文山壮族苗族自治州和广东省连山县壮族瑶族自治县等地。壮族的民族语言壮语属汉藏语系壮侗语族壮泰...
普通话是以北京语音为标准音,以北方话为基础方言,以典范的现代白话文着作为语法规范的现代汉民族共同语.《幼儿园管理条例》规定:幼儿园应当使用全国通用的普通话。国家要求要求幼儿教师普通话水平测试等级必须达到二级甲等(测试分87.0分)以上。如果...
普通话水平测试简称PSC,是测试应试人员普通话水平等级的全国范围内的一项考试,是国家推广普及普通话的一项重要举措。国家语言文字工作委员会、国家教育委员会、广播电影电视部于1994年10月联合下发的《关于开展普通话水平测试工作的决定》中,明确指...
随着时代的发展,传统的普通话测试方法已经难以满足时代对于普通话测试的实际要求。在这样的背景下,在进行普通话测试的优化设计过程中,要充分的注意到对于影响普通话测试质量的几个因素的总结研究,总结出恰当的解决对策方法,促进普通话测试质量的提升,...
本研究表明, 在不同前字调和不同语境下, 粤语人群的普通话轻声偏误存在差异。针对粤语人群的普通话轻声的教学, 应当尤其重视轻声的时长特征、重视焦点位置轻声词的音高特征, 有针对性地纠正轻声偏误。...
一、引言音高是语音的基频心理对应物,即基频的知觉相关物。频率越高,音高也越高,但它们的关系是非线性的[1]205.音高是研究声调的重要参量,音高取决于基频。本文关于普通话声调调素的音高实验也是通过提取基频值完成的。调素是声调的最小单位,它既...
普通话以北京语音为标准音以北方话为基础方言,以典范的现代自话文著作为语法规范。普通话是现代汉民族共同语,是中国走向世界的标识语言。语言是最重要的交际上具和信息载体,在中国特色社会主义现代化建设的历史进程中,大力推广,积极普及全国通用的普通...
豫方言动物名词中也极少有多音节单纯词,有一个是模拟动物的声音所形成的词“蚂叽妞”,夏季时,河南地区知了有很多,人们便根据知了的叫声而对知了进行了命名。...
在当下的推广普通话工作上,要做到继承过去的优秀传统,总结并发扬实践积累的经验,在此基础上不断创新推普模式,通过强化测前培训、改革测评方式、加快信息化推普进程,更好地完成推广普通话的目标和任务。坚持普通话培训测试的社会公益性,构建多层次、广覆...
计算机辅助普通话水平测试(以下简称机辅测试)是指国家普通话水平智能测试系统,部分代替人工测评,通过考生上机方式参加测试。机辅测试主要由数字化信息采集、计算机辅助网络评测、评测过程网络监控3个环节组成,让考生在计算机前完成测试,对考生测试...