CNKI的分类功能和分类号质量及其使用(2),文献检索论文

　　3 CNKI 中图分类号质量分析

　　CNKI 全文数据库索引中，对每一条记录都重新分类并给予新的分类号，部分期刊作者或编辑也有分类号。以下，笔者从人工分类号和 CNKI 系统分类号两个方面分别进行，从不同侧面反应分类号的质量。

　　3.1 人工分类号

　　文章中人工分类的界定标准是指在文献中有“分类号”项并给号。调查发现，期刊文章着录标准各不相同。有的期刊仅有标题，有的期刊有标题和导读，有的期刊有标题、摘要和关键词，有的期刊 4 种皆有、且规范。期刊编辑标准不统一，不便于全文数据库的标准化组织。期刊文章中有分类号的比例非常低，不同学科比例也不一样。G253.3 属于图书馆学，文章中有分类号的比例仅有 43.75%,这相对于另外两个专业的 11.1%和 8%来说较高。还有相当一部分杂志没有分类号，且人工分类号的正确率不高。统计数据显示，正确率在 33.3%~57%之间，平均正确率为 44%,表 1 为人工分类号统计表。

　　人工分类号正确率低的首要原因是范畴不清，没有将文章的主题归入最相近的类号。G253.3 结果中将馆际互借与图书交换概念混淆，将关于馆际互借、图书漂流、文献交流的文章归入G253.3（图书交换），将主题为图书采访的文章归入 G251（图书馆管理）。其次是对主题的部分标引，如《现代专题博物馆室内设计的思考》给了两个分类号 J59（建筑艺术）和 TU238（建筑室内设计），但没有对专题博物馆进行标引。又如《上海鲁迅纪念馆舒适性中央空调湿度控制的改造》也有两个分类号 K878（考古遗址）、G268.1（纪念馆），第一个分类号明显错误，且没有对“纪念馆中央空调湿度控制”进行标引，属于部分标引。不全面的标引会导致检索结果不全。

　　3.2 CNKI 系统提供的分类号分析

　　CNKI 对全文库所收录的期刊文章重新进行分类，矫正了一些作者的错误类号，对没有分类号的文章进行重新分类，便于用户检索。下文将对 CNKI 系统提供的分类号进行统计分析。

　　总体来说，笔者调查的总错误率是指所有分类号错误的篇数除以总篇数的值。CNKI 分类号的平均总错误率为 29.5%,总正确率为 71.5%.与人工分类号相比，已经有了很大的提高。根据同方知网研究院罗思明的一项报告可知，同方知网追求的正确率在 90%以上，而目前的结果与这一目标还有一定的差距。若检索结果中有 30%左右的错误结果，在做大数据统计时，对作者来说剔除错误会是一项灾难。

　　检索结果中总关键词与分类号标志词混淆，是导致错误最主要的因素。G253.3 这一检索结果的错误率高达 47%,占第一位。进入 G253.3 检索结果的错误结果，最多的是将 G252.4（馆际互借）的文献标引为 G253.3,占总错误数的 86.7%.“图书交换”和“馆际互借”表面上看起来都是互换、互通有无，但二者是完全不同的两种图书活动。图书交换是在图书采访阶段，使用本馆的图书与其他单位进行图书交换以补充馆藏，是藏书建设的一项重要内容；而馆际互借是图书流通中，与其他馆进行文献资源共享，统一系统或不同系统的图书馆相互出借图书，以满足读者服务，是读者工作的一部分。若能清楚地将“馆际互借”和“图书交换”区别开，则错误率可降到 15.6%,与另外两组的错误率持平。

　　G278 代表建筑和设备，是指馆舍及馆舍布局以及内部的设备，是硬件方面的设施；而研究型档案馆、复合型档案馆、档案馆一体化、档案馆模式研究等，都不是关于建筑设备的研究，属于理论探讨的范畴，应归入 G270 及下位类。将理论研究的文章归入建筑和设备类中的错误，占总错误数的 88%.若能准确地将档案理论研究与实践研究分开，则机器标引的错误率将降到 0.3%,错误率几乎为零。

　　检索结果中第二类错误是关键词正确，但分类号错误。如《加强乡镇企业党建工作之浅见》一文，系统自动抽取的关键词包括“乡镇企业，党建工作，企业党组织，加强党的建设，建设有中国特色社会主义理论，发展党员工作，十四届四中全会，世界观人生观，政治核心作用，国有企业”,若按照关键词进行分类，应该要入到D261（党的建设类），但错误地划入 G267（博物馆建筑类）。G267结果中这类错误占总错误数的 66.7%,其错误原因未知。

　　检索结果中第三类错误是非学术文章进入检索结果。对于非学术期刊文章，CNKI 也提供分类号。这部分文章包括刊登在学术期刊上的消息、散文、新闻、书评类文章。CNKI 全文库并没有对这类文章进行文献类型标志，在 3 个检索结果中，共有 22条非学术性文章，占总结果数的 6%,比例最高的达到 33.3%.这类冗余结果加大了用户剔除的时间和精力。表 2 为 CNKI 系统分类错误统计表。

　　由于分类号错误最大的原因是文章主题易混淆，而文章的质量对分类号的质量是否有直接影响呢？以核心期刊与非核心期刊代表两类质量的文章，对两类文章进行分类统计，从表 3 核心期刊与非核心期刊标引统计表中可知，同一条结果中，核心期刊的分类号正确率确实高于非核心期刊，核心期刊的平均正确率为 79%,非核心期刊的平均正确率为 61%,整体上也是远远高于非核心期刊。核心期刊的文章论述观点明确，立论严谨，关键词也比较容易把握，系统分类号的质量也高。

　　4 结语

　　综上所述，CNKI 的分类功能很全面，不仅有中图分类号检索入口，还有各种期刊导航系统，且在学术总库首页设有学科分类目录。但 CNKI 分类体系仍有一些问题，没有中图分类法导航，当使用“中图分类号”检索入口检索时，CNKI 提供的“工具书直接检索”“当前检索词的相似词”和“当前检索词的相关词”并没有提供与分类号有关的信息。而 CNKI 可以将分类号系统引入数据库，作为分类号的支撑系统，提高系统的易用性，帮助用户提高查全率和查准率。

　　其次，CNKI 全文数据库所收录的全文中，期刊文章着录标准不一，带有分类号的期刊文章比例低，作者或编辑给定的分类号质量不高。而这主要是由于期刊论文作者对所论述的主题把握不够准确，对中图法了解不够深入。在这方面，我国学术界对中图法的了解程度还有待加强。

　　第三，CNKI 系统提供为所有的期刊文章进行重新分类并给定新的分类号，记录在 CNKI 的索引中，提供用户检索。CNKI 系统给定的分类号质量相较于手工给定的分类号质量有了较大的提高。但由于 CNKI 系统没有对不同类型的期刊文章进行标志，导致不少非学术文章由于有了分类号进入检索结果。而概念范畴不清和非学术文章是最主要的问题，可以对易混淆的主题进行注释，或者将各主题进行分类，分类主题一体化，提高分类质量。将非学术期刊进行文献类型标志，并提供限定条件选项，以便于作者批量剔除。虽然是 CNKI 系统提供的分类号，但核心期刊的分类号比非核心期刊文章的分类号质量更高，说明期刊文章的质量也有助于提高系统分类的准确度。

　　这项调查虽然得出了一些有益结论，对数据库提高分类号质量指明了一些方向，但仍存在许多不足。如选定的检索对象专指度高，概念明确，争议少，且都不属于热门话题，早期研究较多，近年来少有研究；对于交叉学科，主题不明确的文章没有研究。同时，为了方便统计，逐篇查看，使结果更精确，所选的检索分类号所收录的文章都比较少，造成样本量小，使统计结果的浮动比较大，结果不具普适性，只能部分说明问题。这些问题，在以后的研究中需要进一步改进。

　　参考文献

　　[1] 李思婧。CNKI 主题标引分析[J].情报科学，2011（7）：1002-1006.

　　[2] 董丽，侯汉清。中文期刊文献关键词标引的分析和改进[J].情报科学，2004（11）：1355-1358.

　　[3] 华薇娜。网络信息搜集过程中正确选择检索词的个案分析：

　　以检索近视眼手术治疗的期刊论文为例[J]. 情报理论与实践，2010（7）：67-70.

　　[4] 王志强。分类法检索在科技文献查新中的应用[J].图书馆工作与研究，2010（3）：74-76.

　　[5] 宋乐平。中文数据库分类检索能力研究[J].图书馆学研究，2010（2）：63-66;132.

　　[6] 邵胜春《。图书情报工作》论文关键词及分类号的统计分析[J].图书情报工作，2005（3）：59-61.

　　[7] 罗思明。基于中图分类法的关键词标引研究[EB/OL][.2010-05-22].