【第五篇】论文题目:基于语料库的机器翻译的现状与展望
摘要:机器翻译是探索如何借助计算机程序将文字或语音从一种自然语言翻译成另外一种自然语言的技术。早期是从自然语言学的角度研究机器翻译, 产生了基于规则的机器翻译系统。上世纪80年代末以来, 针对传统机器翻译的不足在基于规则的技术中引入了语料库方法。与翻译有关的语料库有三类:平行语料库、多语语料库和可比语料库。基于语料库的机器翻译主要包括基于统计的方法和基于实例的方法。前者强调从数学上建立统计模型, 后者主要是从机器学习的角度通过翻译实例进行推理。基于语义的方法将会成为统计机器翻译未来发展的趋势;而融合各种学科理论和技术的最新成果, 进一步建立和发展多模态语料库, 则是开发基于语料库的机器翻译系统的发展前景。
关键词:机器翻译; 语料库; 基于统计的方法; 基于实例的方法; 发展前景;
1. 基于语料库的机器翻译概观
1.1 语料库与机器翻译
语料库是指存储于计算机中的原始文本带有语言学信息标注特征的、经过加工的语料文本, 是一个由大量在真实情况下使用的语言信息集成的、可供计算机检索的、专门做研究使用的巨型资料库 (张彧、张晓丹, 2010) 。它始建于上世纪60年代末的美国布朗大学。语料库的研究与应用近些年来逐步深入, 并取得了长足的进步。目前关于双语或多语语料库的研究大致可分为三类:一是研究双语语料的对齐技术, 国内外学者就此提出多种策略和方法, 现在已经出现了许多对齐双语或多语语料的程序或工具;二是研究双语语料的各种应用, 如在基于统计的机器翻译技术、基于实例的机器翻译技术, 双语词典编纂技术中, 双语语料库都发挥着十分重要的作用;三是双语语料库的设计、采集、编码和管理问题 (常宝宝等, 2003) 。
在众多的基于语料库的研究中, 将语料库应用于翻译领域是当前语料库应用研究的热点之一。机器翻译 (machine translation, MT) 是探索如何借助计算机程序将文字或语音从一种自然语言翻译成另外一种自然语言的技术 (赵红梅、刘群, 2010) 。机器翻译研究始于上世纪50年代, 20世纪70年代末至80年代末, 机器翻译研究进入了繁荣期, 这一阶段最显着的特点就是许多翻译系统在很多领域真正走向了实用化。1976年加拿大蒙特利尔大学开发的英法翻译系统TAUMMETEO是一个典型代表, 该系统可以高质量地对天气预报信息进行翻译 (邵艳秋, 2010) 。典型的机器翻译系统采用一种基于转换的 (transfer-based) 翻译策略, 通常分三个步骤 (何莲珍, 2007) :1) 分析源语言, 形成源语言表征;2) 将源语言表征转换成目标语言表征;3) 从目标语言表征生成目标语言译文。传统机器翻译有其不足之处, 具体表现在两个方面:
第一, 传统机器翻译将词作为基本翻译单位, 机器先将源语言句子分解成词, 再将词转换成目标语言的词, 然后根据目标语言语法结构特征将词连接起来。第二, 传统的机器翻译对语境没有给予充分的考虑。基于语料库的翻译对等研究正是试图克服传统机器翻译系统的不足、提高机器翻译系统效率和准确率的一种尝试。
经过50多年不断的发展, 机器翻译系统虽然在一些领域发挥了一定的作用, 但是现有的翻译系统仍没有达到人们之前所预期的翻译效果。早期, 人们是从自然语言学的角度研究机器翻译, 产生了基于规则的机器翻译系统, 这种机器翻译本质上都是基于语言规则或语言知识的。如, 词法规则、句法分析规则、转换规则、目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。而分析规则一般存在由人工编写、工作量大、规则的主观性又强、一致性难以保障等不足。这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译方法打破 (王厚峰, 2003) 。1989年以来, 机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是, 在基于规则的技术中引入了语料库方法, 其中包括基于统计的方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法, 等等 (冯志伟, 2010) 。近年来, 基于语料库的机器翻译系统发展很快, 取得了突出的成绩。
1.2 用于机器翻译的语料库
与翻译研究有关的语料库有三类:平行语料库 (parallel corpus) 、多语语料库 (multi-languages corpus) 和可比语料库 (comparable corpus) 。平行语料库收集某种语言的原创文本和相应翻译成另一种文字的文本;多语语料库是按照类似设计标准建立两个或多个不同语言单语种语料文本组成的复合语料库。其中的文本完全是原文文本, 不收集翻译文本;可比语料库收集某种语言, 如英语的原文文本, 同时也收集从其它语言翻译成英语的文本 (肖维青, 2007) 。
自上世纪90年代中期以来, 西方一批翻译研究者率先将语料库运用于翻译研究, 特别是描写翻译研究, 旨在“揭开翻译文本作为沟通活动媒介的本质” (Baker 1993, 转引自肖维青2007) 。1995年以Baker为首的曼彻斯特大学科技学院翻译研究中心创建了世界上第一个可比语料库———翻译英语语料库 (简称TEC, 即Translational English Corpus) 。近年来, 在语言信息处理的研究和开发中, 单语和多语语料库 (以双语语料库居多) 的作用日益凸显出来。特别是在机器翻译研究中, 人们提出了多种基于双语语料库的新方法, 例如采用所谓的基于实例的或基于存储的机器翻译方法, 可以直接使用经过对齐的双语语料改善机器译文的质量。此外, 也可以通过统计模型从双语语料库中获取双语词典和翻译模式, 从而改进传统的机器翻译方法 (常宝宝等, 2003) 。目前, 国际上也建成了许多大型的平行语料库, 比如奥斯陆大学的英语—挪威语平行语料库、加拿大议会会议英法平行语料库等, 为翻译研究提供了有力工具, 使人们能更客观、更科学地考察翻译的性质以及翻译过程的种种制约因素;国内主要有北京外国语大学中国外语教育与研究中心建立的通用汉英平行语料库, 以及北京大学计算语言学研究所同中国科学院计算技术研究所、清华大学智能技术国家重点实验室联合开发的汉英双语平行语料库等 (肖维青, 2007) 。目前国内外都建立起各种规模和类型的双语甚至多语、多模态的基于语料库的翻译模式, 例如众所周知的谷歌 (Google) 翻译等。一般来讲, 几万句对的语料库仅适用于某个专门翻译领域或专门区域, 而大多数语料库的规模都在几百万句对左右, 毫无疑问, 规模越大的语料库提供最优化译文的机率就越高。互联网搜索概念的引入, 使得语料库规模得以无限地扩大。
1.3 基于语料库的机器翻译方法
根据知识获取方式的不同, 可以将机器翻译分成基于人工获取知识的方法 (或基于规则的方法) 和基于机器自动学习知识的方法 (或基于语料库的方法) 两类;根据学习方法的不同, 后者还可以进一步分为非参数方法 (或实例方法) 与参数方法 (或统计方法) 两种 (赵红梅、刘群, 2010) 。这些方法不仅可以直接使用对齐的双语语料改进机器自动翻译的质量, 加强机器辅助翻译中的人机交互, 还可以通过统计模型从双语语料库中获取翻译模型从而改进费时、易出错的传统机器翻译方法。有学者曾预言, 基于语料库的机器翻译系统能够大幅度超越第三代机器翻译系统的性能, 很可能成为第四代机器翻译系统的雏形 (肖维青, 2007) 。
基于实例和基于统计的这两种翻译方法的出现, 大大促进了机器翻译的发展, 掀起了一场新的研究热潮。重要的是这两种翻译方式都是以大型语料库的建立为前提的, 由此语料库的研究成为一些机器翻译研究人员研究的重点。在基于统计的机器翻译方法中, 知识的表示是统计数据, 而不是语料库本身;翻译知识的获取是在翻译之前完成, 翻译的过程中不再使用语料库;而在基于实例的机器翻译方法中, 双语语料库本身就是翻译知识的一种表现形式 (不一定是唯一的) , 翻译知识的获取在翻译之前没有全部完成, 在翻译的过程中还要查询并利用语料库 (冯志伟, 2010) 。基于实例和基于统计的机器翻译方法都属于数据驱动方法。这两种方法并不是互相排斥的, 只是解决问题的角度有所不同。基于实例的方法主要是从机器学习的角度通过翻译实例进行推理;而基于统计的方法则强调从数学上建立统计模型。如何将不同的方法相结合, 优势互补, 建立多种方法相融合的机器翻译系统是很多研究者的研究目标 (邵艳秋, 2010) 。
近几年机器翻译在这两种方法的推动下, 涌现出了很多的新理论和新方法。不仅翻译质量较传统的规则方法有了较大的提高, 而且由于可以从大规模语料库中自动获取翻译知识, 无需人工撰写规则, 大大缩短了机器翻译系统的开发周期, 拓展了机器翻译的应用, 也降低了机器翻译研究的门槛, 这吸引了更多的研究者投入到机器翻译研究中来, 使得这个研究领域充满了生机与活力 (刘群, 2009) 。1999年开始到现在, 统计机器翻译方法取得了突破性的发展, 并且现在仍在迅速发展之中, 实际上目前可以说是一个多种方法混合、并行的发展时期 (邵艳秋, 2010) 。
2. 基于语料库的机器翻译的主要方法
2.1 基于实例的方法
基于实例的机器翻译 (Example-based Machine Translation) 的思想最早是由日本机器翻译专家长尾真 (Nagao Makoto) 于1981年提出、并于1984年发表的。长尾真指出, 人类并不通过做深层的语言学分析来进行翻译, 人类的翻译过程是:首先把输入的句子正确地分解为一些短语碎片, 接着把这些短语碎片翻译成其他语言的短语碎片, 最后再把这些短语碎片构成完整的句子, 每个短语碎片的翻译是通过类比的原则来实现的, 也就是“通过类比来进行翻译” (“translation by analogy”) (冯志伟, 2010) 。因此, 我们应该在计算机中存储一些实例, 并建立由给定的句子搜索类似例句的机制。基于实例的方法EBMT (Example-based Machine Translation) 就是指从已经收集的双语实例库中寻找与待翻译的源语言句子最相似的翻译实例 (通常是句子) , 再对实例的译文进行调整从而实现翻译的一种机器翻译方法 (赵红梅、刘群, 2010) 。
基于实例的机器翻译系统运作原理是 (冯志伟, 2010) , 首先, 在基于实例的机器翻译系统中, 系统的主要知识源是双语对照的翻译实例库, 实例库主要有两个字段, 一个字段保存源语言句子, 另一个字段保存与之对应的译文, 每输入一个源语言的句子时, 系统把这个句子同实例库中的源语言句子字段进行比较, 找出与这个句子最为相似的句子, 并模拟与这个句子相对应的译文, 最后输出译文。其次, 在该翻译系统中, 翻译知识以实例和义类词典的形式来表示, 易于增加或删除, 系统的维护简单易行, 如果利用了较大的翻译实例库并进行精确的对比, 有可能产生高质量译文, 而且避免了基于规则的那些传统的机器翻译方法必须进行深层语言学分析的难点, 在翻译策略上是很有吸引力的。要进行基于实例的机器翻译需要研究如下问题:第一, 正确地进行双语自动对齐 (alignment) ;第二, 建立有效的实例匹配检索机制:第三, 根据检索到的实例生成与源语言句子相对应的译文。
实例的泛化在翻译的过程中起着重要作用 (赵红梅、刘群, 2010) 。由于待翻译的源语言并不一定能找到完全相同的实例, 为了找到语义最相似的实例, EBMT要借助语义词典, 在确定了相似的句子之后, 紧接着的译文调整必须借助于双语词典。EBMT用于全自动翻译。很显然, 对那些产品升级换代后的说明书和相关文档的翻译, 只要新的文档与先前版本在内容上有相当程度的一致, EBMT的翻译效果就是非常理想的。后来人们在最初EBMT的基础上进行了很多扩展。最典型的就是通过实例的泛化, 形成实例模板 (pattern) , 所谓泛化也就是把实例中的一些具体词泛化成一些类别。实例的泛化大大提高了实例的匹配率, 可以减少实际翻译中所需要的实例库的规模。理论上, 实例可以逐步抽象成规则, 基于规则的方法本质上可以看成是翻译实例高度抽象的结果。但是, 由于自然语言的歧义性, 泛化并不是一件轻而易举的事情。在很多情况下, 待翻译的源语言还是很难找到可以覆盖的实例, 这是基于实例方法的局限性, 因而在很多情况下, 基于实例的方法只是作为翻译系统中其他主流方法的一个补充。
基于实例的机器翻译方法对句子不做深层的语义分析, 一定程度上避开了难度较高的语言分析过程;其系统可以通过增加实例和词汇进行扩充, 比较容易维护;另外由于其利用了大量的翻译实例, 可以产生高质量的译文。但是, 基于实例的翻译方法有许多关键问题需要解决, 如双语对齐语料库的构建, 目前短语层次和词语一级的语料库对齐问题还没有得到很好的解决;在对匹配片段进行检索时, 如何计算待译片段和翻译实例之间的相似度, 找到最合适的片段;如何将实例片段进行有效地组合形成译文;以及如何提高翻译实例的覆盖率等等 (邵艳秋, 2010) 。
目前世界上的基于实例的机器翻译系统主要有:日本京都大学长尾真和佐藤 (S.Sato) 的MBT1和MBT2系统、美国卡内基-梅隆大学的多引擎机器翻译系统 (Multiengine Machine Translation) PANGLOSS系统、日本口语翻译通信研究实验室ATR的ETOC和EBMT系统、我国清华大学计算机系也进行了基于实例的机器翻译试验, 建立了基于实例的日汉机器翻译系统;在哈尔滨工业大学和清华大学联合开发的计算机写作和翻译的集成环境“达雅”系统中, 也使用了基于实例的技术 (冯志伟, 2010) 。
2.2 基于统计的方法
统计机器翻译最早是由IBM公司的研究者在1990年前后提出来的, 他们开发的系统在ARPA组织的机器翻译评测中取得了可以与SYSTRAN系统相媲美的结果。要知道, SYSTRAN系统经过了几十年的调试, 而IBM的系统只经过了几年的开发, 直接从语料库中获取翻译知识, 没有经过人工的规则调试。IBM的工作在当时引起了轰动。但由于当时IBM动用了最先进的工作站集群计算环境, 其他研究者很难重复他们的工作, 所以在很长一段时间内统计机器翻译一直停滞不前。一直到1999年, 一些研究者在一次约翰·霍普金斯夏季研讨会上, 重复了IBM的工作, 并且发布了一个开放源代码的工具以后, 统计机器翻译才重新引起了人们的重视。2002年开始, 美国国家标准技术研究所 (NIST) 在美国国防高级研究计划署 (DARPA) 的支持下, 开展了一个每年一度的机器翻译评测工作, 在这个系列评测中, 统计机器翻译方法一鸣惊人, 全面超过了传统的基于规则的机器翻译方法, 统计机器翻译也一举成为了机器翻译研究的主流和热点。近几年, 统计机器翻译发展很快, 目前基于短语的模型已经非常成熟, 在此基础上, 研究者们又提出了很多新型的基于句法的统计模型, 并且取得了初步的成功 (赵红梅、刘群, 2010) 。
基于统计模型的方法, 也称为统计机器翻译, 其基本思想是 (赵红梅、刘群, 2010) :我们可以认为源语言句子到目标语言句子的翻译是一个概率问题, 任何一个目标语言句子都有可能是任何一个源语言句子的译文, 只是概率不同, 机器翻译的任务就是找到概率最大的句子。到目前为止, 基于统计模型的方法经历了基于词的模型、基于短语的模型和基于句法的模型三个阶段 (赵红梅、刘群, 2010) 。统计机器翻译是基于大量的双语平行语料库, 通过对语料库的统计分析将其中隐含的翻译知识抽象成统计模型, 然后利用该统计模型进行翻译。统计模型通常包括翻译模型和语言模型。翻译模型的功能是计算将一种语言串翻译为另一种语言串的可能性, 通常表现为一个条件概率;语言模型用于计算一个语言串在目标语言中出现的可能性, 也就是计算该语言串在目标语言中句法、语义上的合理程度, 通常表示为目标语言的N元模型或者其变形。与基于规则的机器翻译或基于实例的机器翻译方法相比, 统计机器翻译有严格的数学理论做基础, 以概率形式呈现翻译知识, 模型表现为参数, 训练过程就是求解参数的过程, 翻译就是利用参数进行译文搜索。统计机器翻译从语料库中获取语言知识而不是通过人工进行总结, 从而无需手工编写词典和规则。因此, 统计机器翻译系统可以方便地移植到不同的语种和领域。但是统计机器翻译对于语料库的依赖性比较强, 因此语料库的质量将直接影响统计模型的建立。另外, 相对于规则系统, 统计机器翻译系统的时空开销比较大, 其算法的设计也需要进一步研究 (邵艳秋, 2010) 。
统计机器翻译有以下优势 (赵红梅、刘群, 2010) :1) 由于统计机器翻译是直接从语料库中获取翻译知识, 不需要人工调试规则和词典, 与传统的规则式方法相比, 翻译系统开发的人工成本低、开发周期短;2) 由于翻译知识是直接来源于大规模的、真实的双语语料库, 所以译文中会经常出现很地道的翻译表达形式;3) 由于是带参数的机器学习, 翻译与语言本身无关, 所以翻译模型可以迅速迁移到新的语种和新的领域。
目前基于统计的方法得到了广泛的使用, 取得了突破性的进展 (张彧、张晓丹, 2010) 。在统计机器翻译中, 将源语言句子翻译成目标语言句子的过程是随机的。与传统的翻译方法相比, 统计机器翻译不需要人工构造的翻译知识, 所有语言知识包括翻译知识都是从语料库中自动获取的。也就是说, 翻译的过程是在所有译文中搜索出最优化和使用频次最高的译文。文本的翻译包括词语的选择、词汇的搭配、句法的选择、语篇的连贯和语用规则的遵循等。而这些知识的应用都是在一定的语料库中, 通过人工智能中的一些成熟方法来搜索而实现的。因此, 机器统计翻译使用的语料库的建立是保证该翻译方法可行的关键。如今由于互联网搜索概念的引入, 使得语料库规模得以无限地扩大, 统计翻译机的技术日臻成熟。
但是基于短语的统计机器翻译本身存在一些固有缺陷, 如短语层次上的全局重排序, 短语非连续性和泛化能力问题, 极大地束缚了该方法的进一步发展。这使得人们又不得不求助于句法, 因为在理论上或者在人们的直觉上, 引入句法结构知识有助于解决这些问题。所以纵观统计机器翻译的发展历程, 可以看到, 基于句法的统计机器翻译是继基于短语的统计机器翻译之后的一个新趋势。从目前的情况来看, 有些基于句法的统计机器翻译系统在性能上已经明显超过了基于短语的系统, 如2005年NIST机器翻译评测中的Chiang的Hiero系统, 2006年NIST机器翻译评测中的ISI的系统和中科院计算所的系统, 在性能上它们接近甚至超过了最好的短语系统。将句法知识引入到统计机器翻译系统中, 存在多种不同的方法, 如在单词对齐模型中引入句法知识, 在翻译之前利用句法知识调整源语言语序在翻译之后利用句法知识做重新排序 (reranking) 等 (熊德意等, 2008) 。
3. 基于语料库的机器翻译的发展展望
到目前为止, 统计机器翻译中用到的语言知识还是很有限的。如果不引入更复杂的语言知识, 一些机器翻译问题是不可能真正得到解决的。比如说译文的句法合法性问题、指代问题、篇章问题等等, 目前都没有得到很好的解决这都有待于研究工作者进行更加深入的研究。应该相信随着研究的深入, 更多的语言知识将能够有效地融入到统计机器翻译之中, 使得机器翻译的水平更上一个台阶 (刘群, 2009) 。
基于词的方法和基于短语的方法几乎没有用到任何语言知识, 而是采用了一种词汇化的概率计算方法, 所有的语言知识直接通过对词语的概率统计表现出来。目前基于句法的统计翻译方法开始成为研究的热点, 特别是在基于语言学句法的翻译模型中, 句法知识得到了充分的利用, 已经开始超越单纯基于短语的方法或者基于形式化句法的方法。正是因为可供翻译机器利用并进行对比统计的语料库的存在, 翻译结果在词、短语以及句法层面具有信度。因此, 机器翻译技术在借助语料库以及相关搜索技术所提供的合理、有效的平台上, 无论从理论还是实践层面上, 均迈上了一个崭新的台阶。但是, 从翻译结果来看, 在语篇和语义的对应方面问题依然存在。基于语义的方法现在还很少有人用, 仅有一些基于词义排歧的工作, 可使现有的机器翻译性能略有提高 (刘群, 2009) 。因此, 未来翻译模型的发展方向应是建立合理的语义和语用模型, 基于语义的方法将会成为统计机器翻译发展的趋势。
开发基于语料库的机器翻译系统, 语料库在未来的发展应集中在以下两个方面:首先, 不断溶合各种自然科学 (如神经科学等) 、社会科学 (如语言学、翻译理论等) 和信息技术 (如人工智能技术等) 的最新成果, 改善基于语料库的机器翻译系统的性能和质量 (李亮, 2004) 。比如, 由神经科学与语言学相结合的神经语言学, 可以使我们更加深入地了解人类处理语言的最深层的机制, 这一理论的应用可以使我们处理语料库的效率成倍甚至成幂式增长。再如, 重视最新人工智能计算机技术的开发应用, 毕竟语料库本身是机械的, 如何灵活地使用它是人工智能技术的研究课题之一;其次, 建立和发展多模态语料库, 逐步建立一系列面向机器翻译的语料库、句型库、文体特征库、认知知识库, 并陆续开发一系列相应的的自然语言处理工具、分析工具、检索工具, 从而使现有的基于文本的语料库内容更丰富, 使用更灵活 (张彧、张晓丹, 2010) 。
参考文献
[1]常宝宝, 詹卫东, 张华瑞.面向汉英机器翻译的双语语料库的建设及其管理[J].计算机辅助术语研究, 2003 (1) :28-31.
[2]冯志伟.基于语料库的机器翻译系统[J].术语标准化与信息技术, 2010 (1) :28-35.
[3]何莲珍.基于汉、英语平行语料库的翻译数据库设计[J].现代外语, 2007 (2) :191-199.
[4]李亮.基于语料库的机器翻译[J].上海科技翻译, 2004 (2) :59-62.
[5]刘群.机器翻译研究新进展[J].当代语言学, 2009 (2) :147-158.
[6]邵艳秋.机器翻译相关术语简介[J].术语标准化与信息技术, 2010 (1) :25-27+35.
[7]王厚峰.基于实例的机器翻译——方法和问题[J].术语标准化与信息技术, 2003 (2) :33-36.
[8]肖维青.平行语料库与应用翻译研究[J].中国科技翻译, 2007 (3) :25-28.
[9]熊德意, 刘群, 林守勋.基于句法的统计机器翻译综述[J].中文信息学报, 2008 (2) :28-39.
[10]赵红梅, 刘群.机器翻译及其评测技术简介[J].术语标准化与信息技术, 2010 (1) :36-45.
点击查看更多:机器翻译论文
本文以GoogleTranslate为机器翻译引擎,试讨论如何使用译前编辑对介入产出译文。 ...
本文就谷歌翻译的中译英,根据机器翻译的评测标准与译后编辑译文相对比,得出谷歌机器翻译的时态、名词、动词和逻辑四处主要明显的漏洞并提出相应的修改意见,可供译员参考。 ...
目前对于机器翻译编辑的讨论和研究多集中于译后编辑,但实际操作中译后编辑有其局限性,因此,本文以GoogleTranslate为机器翻译引擎,试讨论如何使用译前编辑对介入产出译文。 ...
本文分析了机器翻译和计算机辅助翻译的瓶颈,并对未来的发展进行展望。 ...