0 引 言
随着全球网络的交汇融合,各种不同语种、不同学科的信息交织在一起,形成一个巨大的信息海洋。如何快速、准确的检索出相关信息,已成为一个急需解决的问题。在这种极度膨胀的信息海洋中,要准确、全面获取到所需信息,从技术的角度来说,至少要解决两大问题: 一是跨语言的翻译问题,其它语种与中文广泛存在一词多译、一义多译的现象,在翻译时稍有疏漏,便会造成大量的漏检,查询翻译是跨语言检索的常用策略,即在检索中加入一个翻译的平台,将提问翻译成其他语言进行检索[1]; 二是信息定位问题,在检索时用户输入检索词的数量,通常是非常有限的,如何利用有限的信息,精确定位出用户所需信息是一个巨大的挑战,在这巨大的信息空间里,任何一点检索技术的偏差,必定会带来大量的信息冗余,甚至是错误的检索结果。因此,在用户的信息资源之间搭建跨语言检索,为用户的检索语言翻译与信息定位,是实现全球资源快速、高效检索的关键一步。
1 跨语言检索平台研究的现状
1. 1 查询词翻译方面 不同语言环境下,一个概念有多种表达方式,包括译音、方言和习惯用语等,多语言间的对等转换是一个难题,通常认为概念翻译优于词语直接翻译[2].在翻译表达方面,基于词典模式是最简单、应用最广泛的一种策略,尽管普通词典与专业词典相结合方法,能有效提高词汇的翻译能力[3],但词典的规范性与查询词的自由性有着明显的差别,实际应用效果并不理想。为此,有学者提出基于语料库的双语词典构造方法,即从大规模语料中抽取所需信息,构建查询翻译平台,其中研究比较多的是平行语料库[4],即从特定的语料库中,提取语义相对应的双语或多语种词汇,构成跨语言检索的基础语言库。根据对齐粒度的不同,中、外学者构建成文档对齐、语句对齐和词语对齐三种类型的双语词典[3,5].大样本双语语料库中提取语义相对应的词汇,具有覆盖面广,适应性好的特点,能有效解决查询词的表达问题,但词义的控制能力及高质量的平行语料匮乏[1],制约该方法的深入发展。
1. 2 语义理解方面 一义多词、一词多义等,是导致翻译、检索产生歧义的主要原因,语义消歧是跨语言检索的重要任务; 在语义理解方面,国内外学者进行各种尝试,如在词典翻译时,使用词义罗列法、优先规则等; 在双语词典构建中,通过语料内部知识的潜在语义分析实现词义消歧[6],是一个不错的办法。此外还有词性标注、词共现技术[7]、交互提问、习语翻译等消歧技术[8].各种语义消歧技术从表上实现同义异形语的直接下互认,对于平台的建设这无疑是一项繁重的工作。
1. 3 信息定位方面 跨语音检索面对的是一个海量信息环境,理解检索意图,有效控制检索应答,降低用户筛选信息难度,是跨语言检索面临的重要挑战。信息定位,涉及对检索返回结果的控制,要求平台对翻译和检索有更出色的语义控制能力。平台首先要理解用户要检索的内容是什么,概念的表达形式有哪些; 然后平台能根据用户提供的有限检索信息,去推测用户的检索意图是什么,通过检索式的控制,过滤掉不相关或关联性不大的信息,并能根据这检索意图,对所返回的信息进行排序,将用户最密切相关的信息排在前面,以便于用户使用。在检索语言中,最能控制概念表达的工具当然要数主题词表、分类表等受控词表,由于他们具有严密的语义控制和表达规范,具有较高的检索效率[9],是最早应用于跨语言信息检索研究的工具之一。但受控词表的信息组织与检索,不易为非专业用户所接受,并且在词表更新、自由化表达方面明显不足,在跨语言检索中受到很大制约[10].
综上所述,跨语言信息检索平台的研究尽管已取得一定的进展,但大多集中在具体的技术或方法上的讨论。由于跨语言平台对语言表达和语义控制的严格要求,手工方式构建这样的平台,将耗费大量的人力、物力。寻求机器自动学习方式广泛收集学科词汇并识别语义关系,建立适应性强、检索意图表达准确的跨语言平台,将极具现实意义及推广应用价值。
2 共现词网与跨语言检索平台的相关性研究
本文拟大规模收集中、英文医学科技文献,构建关键词之间、关键词 - 主题词之间、主题词之间、主题词与组配副主题词之间、主题词与分类号之间的大型共现词网。这种共现词网从语种角度来说,包括了中、英文两个词汇的语种; 从语言类型来说,包括了自然语言( 关键词) 、控制语言以及分类语言。从语义表达的角度来说,共现词出自每一篇被标引的科技论文,以反映论文所表达的主要内容,因此相互之间存在密切的语义相关性; 从文献的组织与应用角度来说,共现词网中的每个词汇,是科技文献组织的重要节点,也是沟通文献与用户之间的桥梁。由于标引词的这些特性,将其应用于跨语言检索平台,具有源于文献组织,又服务于文献检索的特点,既符合学科知识的分布规律,又符合用户自由的用词习惯。除此之外,将共现词网改造成跨语言检索平台,还具有以下优势:
2. 1 共现词网的词汇广泛性 在共现词网中,关键词通常源自于文献的作者( 他们通常也是文献的使用者) ,对标引没有过多的限制,通常是作者选择一些自己认为最能代表相应主题概念的词汇作为关键词,由于缺乏条条框框的限定,关键词具有自由、新颖的特点,它可以是主题词、常用表达词、译音词甚至是字母缩写等词,通常都是作者所习惯的表达用词。因此,这些词具有非常广泛的代表性、普遍性。由于刊物的要求,以及作者写作的习惯,许多文章都有对应的中、英文关键词。由于这些中英文关键词具有严密的对应性,甚至是顺序对应性,使得相互之间的对应关系很容易识别,并具有较高的对应性。
为提高资源的检索效率,许多数据库提供商会组织标引专家,对文献进行主题词标引,以更专业、规范的方式,对文献主题概念的提取,以及主题概念之间的逻辑语义关系进行标识,使得用户在检索相关文献时,达到最优的查准率与查全率。因此,主题词在概念的表达上具有严格的规范性,一个概念用一个规范的词汇来表达。由于这种表达的规范性,使得主题词在语义的表达与控制方面具有明显的优势。
因此,在由共现词所构成的跨语言检索平台中,若能实现关键词与主题词语义相互融合,那么关键词能满足自由化表达的需要,主题词有良好的语义控制能力,对跨语言检索平台的查询翻译、信息定位具有良好的语言适应性。