文献检索论文

您当前的位置:学术堂 > 图书档案学论文 > 文献检索论文 >

面向共现词网的跨语言检索平台构建(2)

来源:学术堂 作者:周老师
发布于:2015-10-24 共6497字

  2. 2 共现词网的语义关联性 由于跨语言平台面对的是海量的信息资源,要找到合适的资源,信息定位至关重要,也即是如何在根据有限的检索词信息,在平台中构建出具有深度的检索式。为此,要将共现词网改造成跨语言检索平台,在语义标识上要做好以下五方面的工作:

  2. 2. 1 同义词识别 在共现词网中,同义词包括同义关键词以对应主题词。作者在《基于共现“互斥互信”原理的同义词识别》[11]一文中,根据文献标引中时“作者不会在同一篇文章中,同时标引两个同义异形关键词”“文献的主要内容被同时标引为对应关键词与主题词的机率相对较高”的规律,提出“互斥互信”同义词识别模型。这些规律在共现词网中表现为: 同义关键词间的共现关系表现为强烈的“互斥”,而词义对应的关键词、主题词间的共现关系表现为“互吸”.根据这种“互斥”“互吸”现象,通过“互斥互信”的同义词识别模型,有效推导出“5 - FU”“5 - 氟尿嘧啶”“5 - 氟脲嘧啶”“氟尿嘧啶”“氟脲嘧啶”5 个词形可以完全不同的同义关键词,以及对应主题词“氟尿嘧啶”.

  对于语义对应的同义关键词 - 主题词同义关系识别,我们也开展深入的研究,如《共现关键词一叙词同义关系自动识别研究---基于互信息法、概率法的对比分析》[12]以及《基于层层深入的关键词 - 叙词同义关系自动识别研究》[13],并通过实例研究取得很好的识别效果。在中英文关键词对应识别方面,文献[3]选取科技文献中、英关键词作为语料库,采用词共现的相关理论,通过概率法等数理统计,获得很好的中、英文关键词语义对应的识别效果。上述表明,从技术角度来说,实现在共现词网中标识对应同义关键词、同义关键词 - 主题词以及同义中英文关键词,作者本人及其他研究者已进行深入研究。

  2. 2. 2 词性识别 词性是机器判断词语性质的重要依据,也是机器理解、推断用户意图的重要依据。用户在一次检索中,录入的检索词通常很有限,检索词之间通常蕴含着用户特定逻辑语义关系,也即是用户的检索意图指向,要理解作者的检索逻辑,电脑需要先了解每个检索词的角色,再通过角色定位,如词性为“疾病”检索词 1 与词性为“药物”检索词 2 同时出现时,通常代表用户要检索某药治疗某病的文献。文献《基于概念关联的词汇语义关系识别研究》[13]便利用副主题词对组配主题词的词性有明确限定,如“病理学”只能与器官、组织及疾病主题词组配,“病理生理学”只能与器官和疾病主题词组配,等等,文章根据相同词性的主题词,其组配副主题词的共现分布具有相似性,批量识别出具有某种特定词性词汇集。

  2. 2. 3 相关语义标识 语义相关性是词汇语义关系识别中,相对比较容易处理的一种。通常认为语义密切相关的词汇,它们在同一篇文章中同时出现的机率相对较大。而在共现词网的表现为,共现强度越大,语义关系越密切。共词聚类运算通常能将语义关系密切的词聚集在一起。在跨语言检索平台中,当用户检索词录入过少时,可根据语义相关性,组合语义相关性最密切的扩展词,返回用户最可能需要的文献。

  综上所述,作为跨语言检索平台,需要有广泛的词汇适应性,这一点在共现词网中得到充分的体现,无论是中文的表达,还是英文的翻译,体现着“百家齐放,百家争鸣”的特点,这些词汇来自于用户,又应用于用户; 从中、英文语义对应的角度来说,作者在表达中、英文关键词时,语义与次序的一致性,也为两者的对应识别提供了便利; 在信息定位方面,共现词网通过一系列的共现语义识别技术,充分发挥了主题词作为语义控制的核心,有效调度检索语义的扩展与收缩。并且相关的共现语义识别技术,已得到笔者及其他学者的实证性研究,取得很好的语义识别效果。因此,将共现词网改造成跨语言检索平台,已具备词汇、翻译与语义控制的可行性。

  3 面向共现词网的跨语言检索平台构建模型

  将共现词网改造成跨语言检索平台,是一个比较复杂的过程,主要包括数据收集与整理、语义关系标识、检索词的理解及检索式的生成。

  首先,可从 pubmed,CBM ( 中国生物医学文献数据) 收集大量医学文献题录,整理、收集中英文关键词、主题词( 包括副主题词) ,将其导入数据库中,统计词对共现频率,形成共现词网,这是跨语检索平台的原始数据。在图1 模型中,要使语言平台具备语义理解,构建智能化检索式,需对共现词网的语义关系进行深度标识。结合上述的主要技术,要标识的语义系如下:

  a. 英文关键词的同义词、相关词以及中英文关键词对应。英文相关词的统计,可以通过共词聚类法加以标识,由于文献中英文关键词存在较严格的对应关系,可推理英文关键词的相关词与对应中文关键词的相关词存在较高的一致性。英文同义关键词可从对应的中、英文关键词的识别获取,如英文关键词 K1 与中文关键词 K 对应,英文关键词 K2 也与中文关键词 K对应,那么可以推断出 K1 与 K2 为同义词。

  b. 中文关键词的同义词、相关词以及与对应主题词的识别。同义词与相关词的标识与上述识别过程相似。在跨语言检索平台中,关键词负责与用户检索词相匹配,而主题词则负责检索词的理解与检索语义控制,因此,建立关键词与主题词的语义对应关系是至关重要的一步,识别技术可参见文献[11][12]和[14].

  c. 主题词词性标识以及相关词标识。根据文献[13]的论述,副主题词根据主题词的词性及语义表达而设置,用以表达主题词的特定语义指向,通过它们的配对使用,可以反向推定主题词的词性。由于一个主题词指代一个概念,因此通过聚类方式,计算主题词之前的相关性,更能准确反映概念之间的相关性。在平台的检索过程中,当检索结果不如意时,可以根据相关词对检索式进扩展或缩小。

  当用户检索时,可根据用户录入的检索词语言种类,平台可自动选择相应的检索语言,经对应关键词的传递,定位到检索词所对应的主题词。当用户录入的是两个检索词时,平台找到对应的主题词后,根据主题词所组配的副主题词识别出它们的词性,在词性的辅助下,确定这两个检索词的逻辑语义关系。为建立最优化逻辑语义关系,须根据词性事先建立语义模板,如词性“疾病”与“药物”两者的语义连接谓词可以是“治疗”也可以是“副作用”.因此,需对不同词性之间的组合可能存在的逻辑语义关系,根据专业知识加以规范、明确,并应列出每种语义逻辑所对应的副主题分布,在具体应用时,则根据副主题词的分布确定对应的逻辑语义关系。如果用户录入的检索词只有一个,在初检中,若返回大量的文献,则可以选用与该检索词相关度高的词,用逻辑“与”加以限制,返回用户最可能需要的文献,有效限制返回文献的数据量; 同样道理,如果初检中返回的文献过少,则可通过逻辑“或”的方式与相关词进行并列检索,达到放大检索范围的目的。

  主题词形成的检索式只是从概念的角度,根据实际应用理解用户的检索意图。在实际的应用中,很多数据并没提供主题词检索功能,因此,需要根据主题词与关键词的对应关系,将主题词检索式转化成为映射为关键词检索式,由于关键词广泛存在一义多词的现象,需要将同义关键词纳入新构建的关键词检索式中,并根据检索结果,确定是否需加入关键词相关词扩展或缩小检索范围。对于英文资源的检索,则可根据中、英文关键词的对应关系,翻译成对应的检索式。

  4 结 语

  基于共词语义标识的跨语言检索平台,在构思上,通过对不同语种关键词、主题词之间语义关系的标识,构建学科知识网络,实现由自由语言、控制语言词义相互融洽的跨语言信息检索,将使平台有较强翻译应答能力与语义控制能力; 在方法上,基于单纯的词共现方法挖掘各种类型语义关系,将使平台具有较强的自我维护、自我更新能力。在这个平台中,关键词的丰富表达形式,主题词的语义控制能力以及共现词间的知识关联性,将为跨语言检索的查询翻译、信息定位提供丰富的语义信息; 由于每个词汇都处在多维度的共现词网中,并可通过共现强度加以精确表达,可通过多种方式对检索式加以控制,达到最佳的检索准确率与检全率。

  参 考 文 献

  [1] 罗 阳,等。 面向单一双语网页的双语资源挖掘方法[J]. 中文信息学报,2011,25( 1) : 110 -116.

  [2] Dolf Trieschnigg,et al. A Cross - lingual Framework for Mono-lingual Biomedical Information Retrieval[C]. CIKM '10 Pro-ceedings of the 19th ACM international Conference on Informa-tion and Know ledge Management. New York,USA ,2010.

  [3] 徐红姣,王惠临,章成志。 跨语言信息检索查询翻译词典自动构建研究[J]. 情报理论与实践,2010,33( 3) : 105 -109.

  [4] Dai Xinyu,Jia Jinzhu,El Ghaoui,et al. SBA - term: Sparse Bi-lingual Association for Terms[C]. Semantic Computing ( IC-SC ) ,2011 Fifth IEEE International Conference. Palo Alto,CA,2011: 189 - 192.

  [5] 朱培焱,夏栋梁。 汉英跨语言信息检索研究[J]. 计算机与现代化,2011( 8) : 13 -16.

  [6] 宁 健,林鸿飞。 基于改进潜在语义分析的跨语言检索[J].中文信息学报,2010,24( 3) : 105 -111.

  [7] Zhang Liyi,Zhang Zhenyun,Zhang Yi. A New Cross - Lan-guage Commodity Information Retrieval Approach in BookSearching[C]. Information Science and Management Engineer-ing ( ISME,2010 ) ,International Conference. Xi 'an china,2010: 411 - 415.

  [8] 张素芳。 国外跨语言信息检索中的翻译歧义性问题研究综述[J]. 图书馆学研究,2006( 6) : 72 -75,78.

  [9] 曾 文,王惠临。 跨语言主题词表自动构建技术研究[J]. 图书情报工作,2011,55( 4) : 106 -109.

  [10] 麦淑平。 跨语言信息检索技术探析[J]. 中华医学图书情报杂志,2008,17( 4) : 49 -51.

  [11] 钟伟金。 基于共现“互斥互信”原理的同义词识别[J]. 中华医学图书情报杂志,2012,21( 5) : 1 -4.

  [12] 钟伟金。 共现关键词一叙词同义关系自动识别研究---基于互信息法、概率法的对比分析[J]. 图书情报工作,2012,56( 18) : 122 -126.

  [13] 钟伟金。 基于层层深入的关键词 - 叙词同义关系自动识别研究[J]. 情报科学,2013,31( 4) : 84 -88.

  [14] 钟伟金。 基于概念关联的词汇语义关系识别研究[J]. 情报杂志,2014,33( 1) : 157 -160.

相关内容推荐
相关标签:
返回:文献检索论文