预防论文中的学术不端,除了提高认识、熟悉禁止事项外,还可以借助技术手段进行检测,提前发现论文中可能出现的问题,并及时纠正,确保正式提交的论文符合学术道德和学术规范的要求,以免影响论文答辩和期刊投稿。
目前,很多大学的学位论文管理机构和期刊编辑部都已经配置了中国知网CNKI和中国学术期刊(光盘版)编辑部联合开发的学术不端检测系统(简称TMLC) ,用以对本校学生的学位论文和本刊投稿论文进行学术不端检测。本文对该系统作简单介绍。
一、系统简介
学术论文学术不端行为检测系统由中国知网和中国学术期刊(光盘版)编辑部2008年12月底推出,2009年3月开始应用。目前,已涵盖上千家期刊编辑部,360多家高校,基本覆盖了全国重点院校。到目前为止,光是研究生学位论文检测,TMLC的检测量就已达到了20万篇次。
TMLC采用CNKI自主研发的自适应多阶指纹(AMLFP)特征检测技术,具有检测速度快、准确率和召回率高、抗干扰性强等特征。不仅支持篇章、段落、句子的各层级检测,也支持文献改写、多篇文献组合等各种文献的变形检测。TMLC以《中国学术文献网络出版总库》为全文比对数据库,实现了对抄袭与剽窃、伪造、篡改等学术不端行为的快速检测,可供用户检测学位论文、学术论文及着作等长文献,并支持用户自建比对库。
对任意一篇需要检测的文献,系统首先对其进行分层处理,按照篇章、段落、句子等层级分别创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。这样的分层多阶指纹结构,不仅可以满足对超长文献的快速检测,而且因为最小指纹粒度为句子,因此也满足了系统对检准率和检全率的高要求。理论上,只要检测文献与比对文献存在一个相同的句子,就能被系统发现。
系统主要功能包括已发表文献检测、论文检测、问题库查询、自建比对库管理等。其中,已发表文献检测,指检测系统能够自动将属于用户的已正式发表的论文检索出来,并对每一篇已发表 文献进行实时检测,快速给出检测结果;论文检测,主要实现论文的实时在线检测;问题库查询,指用户可以将检测结果中确认有问题的文献放入问题库,便于用户集中管理;自建比对库,指管理人员可以选择将检测文献放入个人比对库或者批量上传文献作为个人比对库,该个人比对库即可作为以后学术不端文献检测的比对数据库。
TMLC的目的是辅助各研究生培养单位对学位论文质量进行评估,为审查论文提供技术服务。检测系统在对论文进行检测之后,生成检测报告,为判断论文性质提供相关依据。
在对用户提交的检测文献检测之后,系统生成的检测结果包括:
1)重合文字来源文献信息。系统详细列出重合文字来源文献信息,这些文献都是真实存在,而且应是公开发表或得到发表确认的。
2)比对信息。检测文献和来源文献的详细比对信息,用户可以快速选择重合文字部分查阅。
3)总检测指标。该指标体系从多个角度对检测文献中的文字复制情况进行了概括性描述。
4)子检测指标。因为学位论文一般较长, 因此,系统一般按章检索,并且每一章给出子检测指标,该检测指标从多个角度对该章内容的检测情况进行详细描述。
5)诊断类型。系统根据指标参数以及其他元数据相关信息,自动给出一个预判的诊断类型,供审查人员参考。
6)检测报告。检测系统自动生成一个检测报告单,详细列出检测文献的学术不端行为检测情况,用户可以对该报告单进行修改,生成终审报告。系统只对疑似存在学术不端行为的论文生成检测报告。
二、检测原理
CNKI目前已经拥有具有国际或国内领先水准的全面的数字出版相关技术,包括资源采集技术、文本数据库加工技术、文本数据库技术、数字资源版权保护技术、知识挖掘技术、自然语言处理技术、快速比对技术等。上述技术是在海量的全文数据基础上实现快速准确检测的基本保证。
TMLC需要一个尽可能完备的全文数据比对资源库,而CNKI的《中国学术文献网络出版总库》正好满足这一要求。 在收录资源种类.上,CNKI在国内具有明显优势,收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上,CNKI明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。在资源更新速度上,CNKI产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标准化运作的结果。
到目前为止,CNKI拥有学术期刊7 000余种,期刊全文文献2480万篇,文献收录完整率大于99.9%,文献量居国际国内同类产品之首;出版503家硕士学位点的72万篇优秀硕士学位论文,368家博士学位点的9.6万篇博士学位论文; 1 286种重要会议论文106万篇; 515家重要报纸500多万篇; 1 376种重要年鉴787万篇; 600多种工具书220多万条;学术引文索引数据600多万条。这些出版物平均日更新2万条记录。另外,出版平台还集成整合出版了各类第三方数据库资源1020种。
学术不端行为检测系统采用的指标体系分为两个部分:总检测指标和子检测指标。
1.总检测指标
包括总重合字数(CCA)、总文字复制比(TTR) 、总文字数(TCA)、疑似章节数(QCA)、总章节数(TCA)、首部重合文字数(HCCA)、尾部重合文字数(ECCA)。这些指标从整体上描述了论文的检测情况,便于用户快速了解该论文总的检测概况。
1)总重合字数:学位论文一般篇幅大,少则3~ 5万字,多则十多万字,若以文字复制比来衡量一篇论文的文字重合情况,则不太合适。如一篇十几万字的博士论文,10%就已达到1万字,文字复制情况已经非常严重。因此,对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。
2)总文字复制比:总文字复制比是指论文中总的重合字数在总的论文字数中所占的比例。通过该指标,可以直观地了解到重合字数在该检测论文中所占的比例情况。
3)总文字数:总文字数是指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数。
4)疑似章节数、总章节数:疑似章节数是检测论文疑似存在学术不端行为的章节的数量;总章节数则是指学位论文总的章节数。
5)首部重合文字数、尾部重合文字数:首部重合文字数指论文前1万字中重合的文字数量;尾部重合文字数是指除去前1万字,剩下的部分中重合的文字数量。对于学位论文,一般开头部分均是综述性的介绍,其重要性远低于论文尾部。
2.子检测指标
对于一篇论文,每一章的内容各异,重点也不一样,其核心内容一般存在于某几章中,子检测指标可以让用户迅速了解每一章节的检测情况。子检测指标包括:文字复制比(TR) 、重合字数(CNW)、最大段长 (LPL) 、平均段长(APL) 、段落数(PN)、段文字比(PR) 、首部复制比(HR) 、尾部复制比(ER) 、引用复制比(RR) 。这些指标从多个角度反映了检测文献的检测情况,便于用户进行针对性审核。
1)文字复制比:若用户提交的论文是Word格式, 检测系统会自动识别论文章节,按论文实际章节信息显示论文内容。若论文不存在明显的章节信息,或非Word格式,则系统按照每段1万字符自动切分学位论文,并按切分后的结果显示。文字复制比即指论文的某-章节与比对文献比较后,重合文字部分在该章节中所占的比例。比例越高,反映该章节越多的文字来自于其他已发表文献,存在学术不端行为的可能性越大。
2)重合字数:重合字数指论文章节与比对文献比较后,重合部分的字数。一般来说,不管文字复制比如何,重合字数越多,存在学术不端行为的可能性越大。
3)最大段长、平均段长、段落数:在论文检测中,当连续文字超过一定比例时,称之为段。在本系统中,一般认为,连续200字以上即为段。与比对文献重合的最大段长度即为最大段长。最大段长反映成段抄袭特征。连续的文字越长,抄袭的可能性越大。
在学位论文中,所有段的长度平均值即为平均段长,所有段的数量为段落数。平均段长和段落数反映了重合文字在学位论文中的分布情况。一般来说,指标参数越高,存在学术不端行为的可能性越大。
4)段文字比:在论文的某一章节中,所有该章节文字重合段的字数之和占该章节文字数的比例为段文字比。段文字比反映了抄袭的连续特征。一般来说,连续文字出现越多,比文字分散出现时更可能存在学术不端行为。
5)首部复制比、尾部复制比:论文某一章节的前20%称之为章节首部,首部的文字复制比为首部复制比。就中文文献来说,一般每一章节正文开头部分出现的是综述性语言,重要性相对偏低。后80%称之为章节尾部,尾部的文字复制比为尾部复制比。通常情况下,尾部文字内容重要性比前部文字要高。尾部文献是阐述自己研究工作的目的和意义,应该是作者个人工作的体现。在这部分直接抄袭他文,性质要严重得多。
6)引用复制比:引用复制比指与存在引证关系的文献的文字重合部分的比例。对于学位论文来说,存在引|证关系与不存在引证关系的复制部分应区别对待。复制了他文内容,而不注明引用,性质要更,加严重。同时,不是所有的注明了引用的就不存在抄袭,引用也应有一个度和范围的限制。
在每一次检测过程中,该系统将待检论文首先按照篇章、段落、句子等层级分层处理,然后创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。通俗来说,就是将论文和数据库进行比对,根据其重合的比例,判断该论文是否存在抄袭行为。
在国际上,为应对近年来频频发生的学术丑闻,由国际出版链接协会(PILA) 牵头、数家全球出版集团共同参与实验的一个世界范围内防止学术剽窃的功能性的国际项目CrossCheck已经开始实施。它由于具有保护原创作者的着作权、严正学术道德、杜绝学术剽窃等功能,一举赢得2008年度全球最佳出版创新奖。国内已有学术期刊加入这个计划,并开始把它作为学术审稿的“第三只眼睛”,取得了良好的效果。从趋势上看,在全球范围内加强合作,打击学术不端,将最大限度地遏制学术腐败的产生。