一、引言
当进行 WWW 网页文本的翻译时, 翻译系统会遇到两大类型的问题:如何在翻译文本中插入 HTML标记并如何正确翻译翻译文本。第一个问题需要系统来正确处理所有的 HTML 标记, 否则可能会导致无法阅读的翻译文本。而第二个问题则需要一个大型的语料库来分析文本的意义并避免歧义。如果成功地处理这个问题,系统可能会译错,这将是我们以后处理的重点。
本文中将设计一个机器翻译系统来进行网页的中英互译,首先处理有标记文本然后再进行非标记部分的翻译。
二、网页标记文本的翻译方法
对于 HTML 文本,显然不能将标记(tag)与文本分开,先翻译文本然后再插入相应的标记,因为中英文语言不总是一一对应。 如果这样处理,图一将会变成(<p>约翰是一个<u>李老师的学生</u>)。 这显然是不可接受的。 因此需要换一种方式来处理这个问题。
需要首先标记 HTML 和文本块, 然后再分别翻译纯文本和标记。然后系统会将其与目标语言的文本相比较。如果目标文本与源本完全吻合,就不存在问题。我们只需要将目标文本部分相应的地方做标记。如果目标文本与源文本不完全一致,系统必须找到相互需要标记的标记文本,然后再加入需要的 tag。
(一)tag 的分类
HTML 中有不同的 tag, 而在机器翻译中可以简单地把它们分成两类:
第一类:void tags (VT: 无类型标记)。 VT 是指HTML 标记中不影响文本块,也不需要结束标记。 这种标记的例子是图片(IMG),图二里就包括一个 IMG第二类:Real tags(RT:真实标记)。RT 是指 HTML标记中会影响文本块并需要一个结束标记(当然某些特定类型也不是必需的)。 这种标记也分成几大类:
(1)总 体 HTML 网 页结构标记 :这些标记对于定义 HTML 网页的整体结构是必需的。 这类标记如:HTML, HEAD, TITLE 和 BODY。
(2)影 响 HTML 页 面独立的标记 :这些标记会影响到 HTML 页面的完整与独立, 换句话说这些标记不能被用来影响单个词和句子, 这类标记如 FORM,UL, OL, SELECT。
(3)字符强调标记:这类标记用来强调词、部分句子甚至整个段落,如 EM, B, I 和 U。
(4)超 文本和超链接 :这类标记是将当前文本转向其他页面。WWW 上 的大多数文本都是用 HTML 写 的 ,RL主要用来描述多媒体信息的链接,比如图片。 用户不仅需要阅读文本的字符串,还需要通过图片信息与强调部分来理解其内容。所有这些信息在机器翻译时都需要保留。
(二)HTML 标记管理器
网页文本同其他普通文本不一样,是通过将信息编码到 HTML 文本类型定义(DTD)中,这是 SGML(一般语言组成标准)的应用。 HTML 标记本身不需要通过机器翻译系统来翻译,但是他们必须在翻译后保留在合适的地方。 在系统里有一个标记管理器(TM),它会将句子看成是一个整体而不会将其分开,因此在翻译网页时有两种方法来处理这些标记。
第一步: 标记分离。 在标记分离阶段会用到HTML 文本的信息框架和标点符号。 下面是 TM 如何处理这些标记分离。
(1)起始与结束标记必须保留(如<A>,</A>,<TITLE>,</TITLE>)。
(2)如 果一对标记中有好几个句子 ,必须通过标点符号来分离。
(3) 一 个表格块中的每一项都被当成是一个句子。
(4)空行后的复合名词或短语被认为是一个标题。
HTML 标记会被筛选出来并存储到一个外部文件中,里面包括句子数、词数、词、起始标记、结束标记以及 FI(标记信息)。完成这些操作后,系统就能正确理解不同标记并将其当成句子而不是短语来处理, 以免出现误解。
第二步:标记恢复。 如果目标词与源语言的词一一对应,就不需要恢复。 但是情况并非总是如此。 更一般的情况是, 会碰到 1 对 N 或者 N 对 1 又或 N 对 M 的情况。 这种情况下,翻译时,译者不会处理完整的标记,只需要处理词串信息。 TM 保留所有的标记,文本翻译后,TM 通过以下的方法将标记恢复到目标语信息中。
(1)1 对 N: 源语言的词的起始和结束标记直接复制到目标语中。
(2)N 对 1:TM 分 析源语言的起始和结束标记 ,然后根据序列信息确定需要保留的标记 (如<A>,</A>,<TITLE>,</TITLE>)。 在此过程中,内部标记如大小和颜色标记会被忽略。
(3)N 对 M:通常这种情况会发生在成语中 。 正如N 对 1 的情况 ,TM 分析源语言词的标记 。 然后 TM 会决定起始和结束标记。 在此过程中,某些颜色和大小的标记可以被排除。
(三)标记文本的翻译
图三表明标记文本的不同情况。 句子 1 和 2 是标记文本在源语言和目标语中都会出现的例子。 句子 3是标记文本在目标语中会出现在不同的地方,而句子 4则是标记文本不会出现的例子。
这些句子表明必须要选择一个模型能够使电脑决定目标语文本的哪个部分需要标记。 有不同的方法来完成这个模型。 在我们的模型中,可以分 4 步来处理这个问题。 首先我们通过机器翻译系统来翻译整个文本,然后再使用同一个系统翻译各个标记文本,之后再将全文本和标记文本相比较,因此我们可以决定哪些文本块需要标记。 这样做的话, 我们可能还需要将标记词分开,然后再单独翻译,这对于源语言标记文本可能会产生好几个目标语文本模块时特别必要。 更有甚者, 有些英语词当它是句子一部分时可能会有不同的翻译方法。
有时, 一个句子的一个名词可能会出现好几次, 翻译时, 这些名词出现的次数很可能会颠倒,如:The teacher of the teacher comes (老师的老师来了).因此,为了使系统能正确处理这样的句子,必须首先处理源语言的句子为 :The teacher’s teachercame。 这样,标记就不会出问题了。
三、纯文本的翻译方法
至于翻译没有标记的网页纯文本,一般我们只需要利用现有的机器翻译系统。 在我们的系统里使用的是基于语料库的翻译系统。 首先需要一个大型的双语语料库,这一点目前已经不是问题,还需要一个域识别器(domain identifier)。 我们首先需要考虑域然后再考虑翻译系统。
(一)域的识别
当处理特定域的文本时,机器翻译准备度会非常高并异常高效。 因此首先需要识别文本的域以提高翻译的准确性。 在我们的系统里我们收集一些平衡的网页文本来确定域。 因为没有可靠的标准域范畴统计数据,我们必须收集这类文本,以下是收集标准。
(1)收集来的统计数据必须能反映整个 WWW的内容。
(2)有很多共同词的两个域能通过一个高级域融合在一起。
当翻译网页文本时, 域识别器分配 top-one 和top-two 两个范畴, 然后确定相应的域相关词典,机器翻译系统能够很好翻译特定域的文本,通过使用合适的词典,翻译时的歧义可以大量解决,并且提高翻译的质量。例如,“doctor”一词有很多意思,一旦确定翻译的域是关于学术领域,很容易就确定目标语的意思。
(二)基于语料库的纯文本的翻译
本系统的基本理念很简单:通过比对先前类似句子来翻译句子。 这种理念最先由 Nagao(1984)提出。 这种观点和我们常说的“一个好的翻译者是一个懒惰的翻译者”有共通之处。 在我们的系统中,需要用到大量先前的翻译成果。 这样做不仅能节约时间,还能提高术语和风格的一致性。
因为是基于语料库的机器翻译,我们首先需要一个平行的语料库。 这种意义上的机器可识别的平行语料库是很容易实现的:联合国提供了一个很好的多语文本资源。 当然很多 WWW 网页也提供了大量的双语或多语言文本,这同时说明了语料库可以随时进行扩展。
这种机器翻译系统包括以下主要部分:
(1)包含源语言和目标语的平行语料库。
(2)一个匹配法则。
(3)一个组合法则。
(4)一个转换与合成法则。
如要翻译这句话:Alice bought a book on comput-er.当然如果在语料库里有相同的句子就简单多了。当然这种情况不多,更常见的例子是句子只有部分是匹配的,画线部分完全包含了相应的内容。 在这种情况下,我们很容易就能组合成译文“爱丽丝买了一本关于电脑的书”。
但是有时候很难找到完全匹配。这时就需要选择相似文本并进行翻译,至于如何确定两个部分的相关性,有以下的标准:
如果至少有两个段落相匹配,那么两个章节就有相关性。类似的,如果至少有一句话匹配,那么两个段落就有相关性。
同样的原则也适用于句子和词。
三、总结
本系统分别解决了网页中标记文本和非标记文本的翻译,至于标记文本,最重要的就是在恰当的地方重新插入标记, 而对于未标记文本就简单多了,借助大型语料库直接使用普通的机器翻译系统就能解决这个问题。
在以后的论文中我们讨论的重点将是文本翻译时不可避免会出现的歧义的解决问题。
我国翻译理论学者胡庚申在2004年出版的《翻译适应选择论》一书中,将达尔文生物进化论中关于优胜劣汰适者生存等基本思想引入翻译学理论研究中,考察了翻译中的适应选择行为,同时阐述了相关研究对翻译理论的宏观解读,进而梳理达尔文所述自然界的适应/选...
一、引言中国近代史进程中,1861一1901年的洋务运动即是一场近代化运动(夏东元,2010:1)。在翻译史研究中,已有洋务派翻译主张的评述,认为尽管洋务运动失败了,虽然洋务派具有不可救药的局限性与反动性,但是他们重视翻译、提倡学习外国的见解还是值得肯定的(陈...
1语境马林诺夫斯基(转引自F.R.Palmer,1981)曾经说过:语境是决定语义的唯一因素,语义一旦脱离了语境就不复存在了。由此可见,语境对于语义的定位具有举足轻重的意义。虽然奈达曾经指出翻译即译义,即强调语言功能的核心是意义。然而,众所周知,任何孤...
余华是目前我国在国际文坛声望最高的作家之一,是中国先锋派小说的代表人.他的作品已经被翻译成二十多种语言,深受英、法、德、意、韩等国读者的喜爱.2004年,余华在法国被授予法兰西艺术与文学骑士勋章.作者曾通过中国知网查找余华资料,当搜索余华并点击进入...
一、引言1.1汽车品牌翻译的重要性品牌,也称作商标,是指用于区别其他企业同类产品的名称、图案或符号,主要包括品牌名称和品牌标志。(倪宁,2004)本文中汽车品牌翻译主要是指品牌名称的翻译。作为企业形象战略的重要组成部分,品牌是各企业争夺世界市...
一、引言作为古典文学四大名着之一的《水浒传》在一百多年前进入了德国人的视野。由早期的片段翻译,到对原着的完整再现,都需要译者付出辛勤劳动,以保证原语文化为译入语读者所了解。在《水浒传》德语的几个版本中,读者群最为广泛、再版数量最多的是德...
一、引言自从互联网在20世纪60年代诞生以后,网络技术以惊人的速度发展。网络已成为继报刊、广播、电视后的第四媒体。据中国互联网络信息中心(CNNIC)发布《第31次中国互联网络发展状况统计报告》统计,截至2012年12月31日,我国网民总人数达...
一、引言寻求等效(equivalence)是翻译实践活动的一个中心问题,也是众多学者纷纷撰文探究的一个重要课题。奈达提出了动态对等的理论,后来用功能对等替代了动态对等,但他同时提出功能对等的翻译,要求不但是信息内容的对等,而且,尽可能的要求形式对等[1]13。在...
一、引言旅游业已经成为我国经济发展举足轻重的产业,旅游资源的开发与营销离不开宣传,而旅游资料在吸引游客方面扮演重要角色,提高旅游资料的翻译质量迫在眉睫。成功的翻译需要恰当的理论指导,旅游翻译也不例外。鉴于英汉语文本具有不同特征,而汉英1...
一、中国传统译论之化境论中国传统翻译理论深受中国哲学天人合一论和中庸思想的影响,意蕴深邃,凝聚着中国古典哲学、美学的思想结晶和话语特征,体现了醇厚的理论魅力,是中国传统译论之精华所在。以神似、化境为代表的审美境界,其核心价值是美,追求的是...