计算机辅助普通话水平测试(以下简称“机辅测试”)是指国家普通话水平智能测试系统,部分代替人工测评,通过考生上机方式参加测试。机辅测试主要由数字化信息采集、计算机辅助网络评测、评测过程网络监控 3 个环节组成, 让考生在计算机前完成测试,对考生测试语音进行智能评测,相对于传统的测试员评分来说, 从技术上解决了人工测试效率相对较低的问题, 在一定程度上体现了测试成绩评判的科学、公正。[1]河北省机辅测试自 2007 年开展试点,到 2010 年在全省范围内推广应用以来,从测试规模、技术应用等方面得到了长足的发展,成熟度不断提升。 总体来说,机辅测试有一定的优点,但也存在不足。
一、机辅测试的优点
机辅测试适应了全面推广普通话、 开展普通话测试的时代发展需要,和以往的人工测试相比较,机辅测试推动了普通话水平测试工作得以跨越式的发展,使普通话水平测试走向科学化、规范化,其优势主要体现在以下几个方面:
(一)降低测试成本,提高测试数量。机辅测试不需要像过去那样组织大规模的考场, 可以降低组织的难度和测试成本, 并在一定程度上解决了测试员不足的问题。 另一方面,利用机辅系统进行测试,每天测试的人数从几十人次提高到了上百甚至几百人次,测试效率显着提高。
(二)减轻测试员工作量,提高测试公正性。计算机智能测试引擎可以完成对前三题的评测, 由系统采集考生的声音,对照标准语音进行评分,其评分尺度全国统一,测试员只需要对第四题进行评测,大大减轻了测试员的工作量,提高了测试效率。测试员和考生不直接见面,杜绝了测试中“人情分”现象,使测试更公正。
(三)测试标准一致,时间控制统一。人工测试过程中,全部流程都是由测试员来完成,听音、辨音、打分由测试员一人操作完成。长时间、高密度的集中测试会导致测试员判断力的下降, 再加上测试员之间的听音、识音和辨音能力的差异,身体状况的差异,针对不同考生的心理反映不同等因素, 从而影响测评结果的一致性。[2]
运用机辅测试,计算机智能系统对前三项自动打分,评判标准是一致的。 另外,机辅测试系统对各试题的时间控制比人为控制更准确。
二、机辅测试存在的问题
机辅测试在给我们带来诸多便利的同时, 在某些方面也存在一些有待解决的问题,需要完善。
(一)目前的机测系统还有待完善
1.机辅测试软件对语音评判差强人意计算机测试评分对语调和协同发音现象识别不足。[3]汉语的声调调值是相对的,同时汉语的语调不是简单的音节声调的堆叠,在重视音高的同时,也要注意停顿、音强、音长等因素。 在声学上,语调与音高、音长、音强有密切关系,在不同的语境中其主要作用的因素也有所不同。[4]
很多语调是为了区别语言意义的, 应试者的发音各不相同, 引起语调多种多样,这与音质本身无关。而机辅测试模式无法识别这一现象。 此外, 语音环境中的音素受前后语音的影响,体现协同发音的效果,声学参数和生理参数都会产生扰动,协同发音不仅体现在音节之间,还体现在词与词之间,这也是机辅软件无法做到的。
在以往的一级复审和偏差复审过程中, 我们发现, 计算机对前三题的打分判定与人工打分存在着一定程度的偏差,经过研究与推测,在一些细节标准的把握上,机器与人工存在着判别差异。 具体表现:
(1)单音节字词:上声音调值轨迹不准确造成语音缺陷,个别考生发出“3-2”调值轨迹、“2-1”调值轨迹或“3-2-4”调值轨迹,缺陷存在但不明显;因考生方音或发声习惯等原因造成读单音节词出现儿化发音,造成语音错误但不明显;阴平音调值不够造成缺陷等。
(2)多音节字词:轻声、儿化发音不到位造成缺陷但不明显; 因考生方音发音习惯引起的语调问题不易被发现。
(3)朗读:非儿化字的儿化读音错误,不易被察觉,部分考生朗读过于流利以至于忽略标点符号,产生停连不当问题;普通话发音较为标准,但语气过于僵硬或过于富有感情,也会产生语调偏误问题,但又不易被察觉。这些情况在人工测试中容易被测试员人脑神经反射功能察觉并锁定, 但计算机的程序指令设计可能无法达到人脑的主观判定效果,造成评定偏差。[5]
2.机辅测试系统与计算机硬件之间的矛盾现阶段, 用于普通话水平测试的计算机系统已经经历过多次改进和完善, 其适应程度在不断地提高,为普通话测试发挥着重要作用,测试界面的“人性化”程度也逐步显着,但是测试系统在实际运用过程中仍然存在一些不尽如人意的地方。例如,在调试过程中,计算机硬件不能适应测试软件的更高要求。
出现这一状况后, 测试中心如果需要提高计算机硬件对测试软件的适应程度, 必然要大幅度提高经费的投入,但实际上,绝大多数测试中心的经费都十分紧张。 此外,现阶段使用的测试系统对耳麦、声卡等语音采样设备的兼容性不够, 从而导致测评失败的现象, 这些因素都影响到普通话测试工作的顺利开展,影响到测试结果的准确性、公正性。 解决这个问题的方法,只能是加大对测试中心经费的投入,逐步改进和提升计算机硬件能力。
(二)机辅测试机制导致测试员之间的合作联系割裂
由于采用机辅测试, 测试员单独测评, 自主评分,测试员之间缺乏必要的了解、交流和协商,评分尺度宽紧不一。在没有计算机参与测试的评测中,我们还可以通过召开测前会议培训、 交流和现场讨论来解决此类问题。 但在机测环境下, 测试时间不统一、测试地点不一致,测试员各自为战,通过网络打分,无法有效互相监控对方的测试效果,测试中的偏颇处自己无从得知,失误会因此而加大。
(三)机辅测试导致考生应试的极端功利性无法及时控制
《普通话水平测试大纲》(以下简称《大纲》)中规定:“说话的目的是考查应试人在没有文字凭借的情况下,说普通话的能力和所能达到的规范程度。 ”在普通话水平测试中,唯一不需要机辅测试的就是“说话”测试。 “说话”测试是唯一没有文字凭借的测试项,最能反映出一个人的综合语言素质,最能衡量出一个人的口头语言水平, 是普通话水平测试中分值最高的一项, 在分值中 “说话” 占了整个测试的40%. 因此,也成为普通话测试中存在问题最多的一项, 从而导致测试结果与应试者的实际语音面貌不一致。[6]
然而事实上,河北省的机测试题沿用多年,内容已不再成为秘密, 考生可以通过一些渠道提前获得试题甚至答案,尤其最后“说话”测试,很多时候测试员在评分中可以反复听到同一话题下的同一内容的标准答案。 考生应试的极端功利性表现在对普通话水平测试的误解,从而产生“为了考试而考试、考试就是为了得到证书”的心理。这主要体现在测试前集中培训、提前准备稿子、背诵选题等,所以好多考生在这个题中说话内容千篇一律、一字不差。考生的应试心态致使考试完全背离了普通话测试工作的目的,背离了考试的初衷,失去了普通话测试的实际意义。如果是人工测试,背稿子等情况就能够被测试员及时制止,而机辅测试却不能做到这一点。
(四)机辅测试的人性化不足影响测试准确性
机辅测试中录音方式和绝对的测评分离, 不能客观反映出应试者的语音面貌, 考生的生理和心理问题也可能导致语音录制的缺陷, 但从实际上讲考生的发音并不是完全错误的, 而机辅测试就无法识别这种现象。如果是人工测试,测试员就会当场发现考生的这些问题,在一定程度上纠正和提醒考生,给予考生一个比较公正的评测。 例如有些考生因为牙齿缺损等原因导致发音出现缺陷, 测试员就会及时了解原因,调整考生情绪,测试员也会更加耐心仔细地辨识考生的发音,给考生一个公正的评价;再例如有的考生因为身体原因,如刚大病初愈、刚失去亲人等,身体和心理都比较虚弱,他的发音必然存在某些缺陷,测试员可以交流引导测试;还有些考生因为紧张导致语言混乱、说不成完整的句子等,测试员可以双向交流引导其说话。 但机辅测试是非人性化的测试方式,根本无法解决上述问题,也就无法给考生一个客观公正合理的评价结果。
虽然计算机辅助普通话测试还存在一些需要解决的实际问题,但不可否认,它具有一定的优势,也是信息技术发展和普通话测试的时代需要, 具有深远的意义和影响。 我们要客观地认识机辅测试存在的问题和不足, 任何新生事物的产生和成长不可能是一帆风顺的,只要我们在使用过程中集思广益,不断探讨,不断完善,相信机辅测试一定会有更加广阔和光明的前景。
参考文献:
[1] 毛洪贲,殷德顺。信息技术支持下普通话水平测试的实践与研究[J],现代技术教育,2011,( 06)。
[2] 王丽娜 ,王彩霞。 影响普通话水平测试相关因素分析与思考[Z].http://www.6789.com.cn.
[3]宋欣桥。普通话水平测试中的评分差异[J].语文建设,1 998,(09)。
[4]林焘,王理嘉。语音学教程[M].北京:北京大学出版社,2003.
[5]罗常培,王均。普通语音学纲要[M].上海:商务印书馆,2002.
[6]国家语言文字工作委员会普通话培训测试中心,普通话水平测试实施纲要[M].上海:商务印书馆,2004.
在提升国家普通话水平测试系统评分性能,改进系统评分机制这项研究工作中,语音识别是关键技术,而声学特征的提取与选择是语音识别的一个重要环节.为此,在文献[1]中,笔者提出了一种依据噪声污染情况自适应选取不同策略滤波的算法.首先判断噪声点,然后对轻度噪声...
随着时代的发展,传统的普通话测试方法已经难以满足时代对于普通话测试的实际要求。在这样的背景下,在进行普通话测试的优化设计过程中,要充分的注意到对于影响普通话测试质量的几个因素的总结研究,总结出恰当的解决对策方法,促进普通话测试质量的提升,...
在当下的推广普通话工作上,要做到继承过去的优秀传统,总结并发扬实践积累的经验,在此基础上不断创新推普模式,通过强化测前培训、改革测评方式、加快信息化推普进程,更好地完成推广普通话的目标和任务。坚持普通话培训测试的社会公益性,构建多层次、广覆...
一引言人们谈论语体差异的时候,多数情况下说的是口语和书面语的对立,或者文言和白话的对立。文言和白话的区别相对来说比较容易判断,因为文言里一些特有的词汇和句法格式与我们的日常表达很不相同。可是,口语和书面语的区别却不容易说清楚。冯胜利(201...
2001年《国家通用语言文字法》的颁布和实施标志着国家通用的语言文字走向规范化、法制化。十几年来,随着普通话测试工作的不断深入发展,应试者规模不断扩大,测试工作已自上而下形成一个从国家、各省测试中心到各地区、各市、各高校普通话测试站的工...
自1994年普通话水平测试工作在我国开展以来,二十年间,普通话水平测试员在普通话水平测试事业的发展中扮演着极为重要的角色。在普通话推广工作不断深入和计算机辅助测试全面应用的今天,测试工作的改进和创新都对测试员的综合素质和测试员队伍的管理提出...
清晰、准确、流畅,一直是衡量一个人口语表达能力的三个基本维度,也是普通话测试考查的基本项。清晰和准确侧重于表达者语音和词语层面的要求和评价,而流畅则是对语言表达者语言材料的组织和有声语言快速转换能力的考察,因而直接体现了一个人语言表达的真...