所谓主题概念的转换,就是把用自然语言提炼的主题概念,“翻译”成符合关键词条件的合适的关键词的过程,即把上文提取的主题概念用相应的主题词或自由词代替。从这个意义上讲,主题标引就是一种将用自然语言表达的文献主题内容转换成用主题语言表达的主题的一种翻译工作。需要注意的是,主题概念的转换,不是从字面上进行转换,而是在概念的综合分析基础上从其涵义上转换。
1、概念的直接转换
《汉语主题词表》是一种后组式词表,以收录单一概念词为主,也收录了一定数量的专指性很强的复合概念词。当一些主题概念可以在表中查到相应主题词时,优先直接转换。不过,对于一些专业,特别是新学科或应用面较窄的专业,专指复合词收录很少。如测绘学,仅收录了1180条,远远不能满足主题概念直接转换的要求。这也是近年来,推广使用关键词代替主题词的一个重要原因。
对于从《用边长直接计算坐标》中提炼出的三个主题概念,经查表发现均不能直接转换。这时候,就要看有没有合适的自由词可以用于直接转换,或按照概念的组配规则进行分解转换。
如果使用自由词作为关键词标引,则需要了解提炼的这三个主题概念,有没有相对应的合适的词。在这个阶段,最容易出现的问题有一是把提炼出来的概念 直接原封不动地作为关键词标引。这样做,违反了关键词基本的要求,即关键词首先是词,而不是短语甚至句子。
如果过于复杂,谁也不能保证以后读者检索这篇论文时,也能想到用同样的短语或句子来作为检索标识。这无形之中降低了论文的利用率。
二是随便找一个与主题概念差不多的词进行标弓.用自由词检索,需要词义、构型的相对稳定。也就是说,在一定时期内,对于某一个主题概念,大家都会不约而同地使用同一个词来标弓或检索。否则,将导致在数据库中同样一个主题概念有多个关键词表征,造成了语义误差和查全率降低。
例如,“全球定位系统”是近年来兴起的新的空间定位技术,各种研究方兴未艾。主题词表没有收录这个词,可以作为自由词标引。
但是在目前这类研究论文中,关于这个词有多种构型,如“全球定位系统”、“GPS系统”、“GPS”等。分析发现,“全球定位系统”并不是一个专指性很强的术语,除了代表美国的GPS外,还有俄罗斯的GL ONASS、欧洲的Galileo、 中国的“北斗系统”等。可以作为外延更大、内涵更浅的上位词,但如果论文讨论的是美国的全球定位系统,宜选用“GPS”. 不选用“GPS系统”, 是因为这个词有不规范,GPS全称是Global Positioning System,与“系统”重叠。
如果有合适的自由词,可以直接替换。如果没有,需要进行主题概念的分解转换。
2、概念的分解转换
概念的分解转换是把概念分解成若干概念成分,再在词表中选择与各概念成分相应的主题词,并列起来表达复合概念。如何分解,正是概念组配所要解决的问题。
所谓概念组配,是使用《汉语主题词表》进行主题标弓引的一种基本语法规则。通常要求对主题概念进行概念组配,也即以词间形式逻辑为基础,要求主题词间的组配能正确反映概念间的思维逻辑关系。
按照这种逻辑关系,概念组配分为交叉组配和限定组配两种形式。
交叉组配,又称并列组配,是选用若干个具有重合外延的属概念词,组合表示一个复杂的种概念词,并要求此种概念词为各属概念词所共有。例如,“坐标计算方法”可以采用交叉组配分解为“计算方法”、“坐标方法”两个概念成分,其重叠外延为“方法” .“坐标计算方法”既是“计算方法” 的种概念,又是“坐标方法” 的种概念。
再如,“森林生态效益”如果没有合适的自由词转换,可以分解为“森林生态”和“生态效益”两个具有交叉外延的概念成分代替。
限定组配,又称种属组配,是以概念的限定方式为基础,由泛指的属概念加上限定条件从而转化为专指的种概念。即先减小主题概念的内涵,使之成为外延较大的属概念。再增加其限定成分,加深其内涵,并缩小概念的外延。限定后的种概念包含在被限定的属概念之中。
例如,“高速铁路运输”这个概念如果没有对应的主题词或合适的自由词,就可以分解为“运输”和“高速铁路”两个概念,用“高速铁路”限定“运输”.在这个基础上,再分别分析“高速铁路”和“运输”能否直接转换为相应的主题词或自由词。如果能转换,则将转换的主题词或自由词用作关键词标引;如果不能,则按上述方法继续分解。
在无法将提炼的主题概念直接转换为主题词或自由词的情况下,优先选用交叉组配方式进行主题概念的分解。在使用交叉组配仍不能进行概念转换时,则要考虑使用限定组配。例如,在本文所提炼的主题概念中,只有第一个“坐标计算方法”可以进行交叉组配分解转换,剩余的两个主题概念只能使用限定组配方式。对于“用边长直接计算坐标”,可分解为“边长”、“直接计算坐标”两个概念成分,以“边长”限定“直接计算坐标”的外延,并加深其内涵,“用边长直接计算坐标”包含在“直接计算坐标”之中。同样,“应用电子计算器的程序”可以分解为“程序”和“电子计算器”两个概念成分,其中“电子计算器”是限定成分。
根据上面的分析,通过对《用边长直接计算坐标》的三个主题概念的分解,我们可以得到如下六个概念成分:计算方法,坐标方法,边长,直接计算坐标,程序,电子计算器。其中的“坐标方法”、“直接计算坐标”两个概念成分有重叠之处,相比之下后一个更专指,因而我们只保留后一个概念成分。
经过概念分解后,就可以对各概念成分进行直接转换。通过查表,上述五个主题概念成分转换为 下述五个关键词:计算方法,坐标测量法,距离,程序系统,电子计算器。
3、关键词的选定与翻译
并不是转换后的主题词或自由词都可以作为关键词进行主题标引,还需要根据检索工具或检索系统的要求,以及这些主题词或自由词与论文内容的关系进行甄别。所谓检索系统的要求,主要是从标引词的选取数量。上作限制,如手工检索标引词一般选取2~ 5个,而计算机检索则可以选取5~ 15个。我国的期刊编排规范中将这个指标规定为3~5个,应心中有数。至于内容的要求,则主要是看这些主题词或自由词是否具有最专指性,是否对于表达论文内容最确切。
仍以《用边长直接计算坐标》为例。对照论文进行分析后发现,“程序系统”、“电子计算器”两个词不够确切或不是最专指。“程序系统”一般是指规模比较大、功能比较齐全的计算或管理程序,而本论文所列程序显然太小了。“电子计算器”也是这样,电子计算器有许多种,论文中的fx108P仅是其中一种。我们可以在《汉语主题词表》中这两个词的参照关系中寻找更恰当的词,结果发现这两个词的分项(F) 中的“微程序”、“袖珍计算器”更符合文献内容,因此选择这两个词取代前面的“程序系统”、“电子计算器”用作关键词标引。
由以上分析,我们得出了《用边长直接计算坐标》主题标引的关键词:计算方法、坐标测量法、距离、微程序、袖珍计算器。至此,主题标引工作即告结束。
目前各期刊或毕业论文除了中文关键词外,还要求标注英文关键词(Key words),主要是针对国际检索系统和国际读者的,对于扩大论文的交流渠道、提高论文学术影响十分有益,也是一些国际检索系统决定是否收录这篇论文的条件之一。英文关键词是对中文关键词的翻译,但翻译时应注意尽量采用通用的翻译形式,不要别出心裁。
如果实在找不到现成的翻译形式,自行翻译时则要注意规范,使用现在时态和主动语态。
4、关键词选取中的注意事项
关键词的排序也是很多人忽视的问题。选定的关键词并不能简单地按其在标题或摘要中出现的顺序排列,而是要符合一定的逻辑思维习惯,读者最感兴趣的内容放前面。例如,标题为《均一沉淀法云母片上被覆TiO2》的论文,报道的是天然矿物云母片上被覆盖了TiO2薄膜。作者提供的关键词是均一沉淀法、TiO2、 云母片。按照人们的思维习惯,首先关注的应是研究对象,其次才是研究方法。关键词顺序也应该是先研究对象,后研究方法,关键词顺序可修改为:云母片,TiO2,均一沉淀法。
在选择自由词作为关键词标注时,还应注意以下几个问题:
第一,选择自由词时通常不选……、…结构乃至短语,可将以词组或短语形式出现的关键词进行拆分,通过合理的组配方式形成合理的逻辑组合。
第二,关键词既有一定的专指性、与论文主题内容相符、有利于检索,又不能外延过窄,造成主题概念的漏检。同时,过于狭窄的关键词,很难具有通用性,不能为相关研究所理解和使用,容易变成“死词”.
第三,不能用非通用的代号、分子式等作为关键词,这跟上一条的理由一样,不具有通用性,就很难被检索到。但是,通用代号必要时可以用作关键词。
第四,关键词需要包括基本的主题内容,也就是依靠选定的关键词的外延构成的语义网,可以覆盖论文主要的研究主题。如果不能覆盖,则需要调整关键词外延,实现尽量覆盖。例如,论文《Ca0与SO2反应的热重法研究》中,作者选定的关键词为“热重反应”、“硫酸盐反应”、“石灰石”.但是SO2是该论文论述的主题,不能没有体现。所以,最后选定的关键词及顺序是: SO2,石灰石,硫酸盐反应,热重反应。
第五,避免过于空泛的词,如合成、测定、性质、方法、表征、分析、研究、探讨、关系之类的词,过于空泛,缺少特指,不利于检索,应避免使用。
主题标引具有灵活性和专指性、检索标识直观易记等特点,特别适合于大库容的计算机检索。随着信息用户要求的不断提高,论文文献的检索愈来愈趋于计算机化,主题标弓方式也愈来愈受到人们的重视,对文献实施关键词检索将是图书馆及信息研究部门文献检索的发展方向。
实际中论文中标注的关键词有两个来源,一是主题词表中的经过规范化处理的主题词,一是从自然语言中优选的自由词。使用时,优先使用主题词,如果找不到恰当的主题词,才可以用自由词补充。一些人认为,关键词全部都是自由词,或者关键词就是主题词,这些理解都...
主题分析就是根据文献的存贮与检索要求,对文献内容进行分析,并从中提炼出其主题概念的过程。就论文而言,就是通过对原始论文进行审读,提炼论文中最重要、最能表现论文内容特征的主题概念的过程。 ...