本科论文写作

您当前的位置:学术堂 > 论文写作 > 本科论文写作 >

中国知网学术不端文献检测系统(含检测原理)

来源:大学生论文写作 作者:刘建乔;何汶
发布于:2020-04-16 共3876字
  本篇论文快速导航:
 《大学生论文写作》(全书介绍)
1.1 论文分类一般分为哪几种(一种实用分类)
1.2.1 学生专业论文的特点和写作意义(六大特性详细介绍)
1.2.2 论文写作的一般规律和心理影响因素(克服负面情绪)
2.1.1 论文选题的概念与作用(决定论文成败的第一关)
2.1.2 大学生论文选题的基本原则(必须满足的4点)
2.1.3 专业学术论文选题类型和选题方法(选题的5类问题)
2.1.4 毕业论文选题的注意事项(论文写作的法门)
2.2.1 论文写作材料的作用与要求(论文的支撑点)
2.2.2 写论文怎么查找文献(纸质文献和电子文献快速获取)
2.2.3 如何整理论文文献资料(阅读和运用技巧)
2.3.1 怎么确定论文的中心论点和分论点(论文构思方法)
2.3.2 论文的结构安排怎么写(常见论文结构形式)
2.3.3 论文写作的逻辑方法与创新思维(详细介绍)
2.4.1 论文研究角度目的与方法(写作切入点)
2.4.2 论文如何按定题方向拟标题(准确反映特点)
2.4.3 论文的写作提纲怎么写(实例分析)
2.4.4 开题报告的内容框架与论文组织(毕业生必读)
2.4.5 论文写作应避免的几个常见错误(实践心得)
3.1.1 期刊学术论文基本构成要素(期刊投稿必读)
3.1.2 毕业论文的构成要素与格式要求(遵从学位论文标准)
3.1.3 社会科学论文的主要构成(文科理科通用)
3.2.1 论文摘要有哪几种类型,特点是什么(常见分类方法)
3.2.2 毕业论文摘要怎么写(指导老师推荐阅读)
3.2.3 大学生论文摘要常见问题与提升技巧(名师指点)
3.3.1 论文的英文标题怎么写(国际投稿经验)
3.3.2 论文的英文摘要怎么写(含EI论文摘要要求)
3.3.3 怎样修改论文英文摘要(消除摘要冗余)
3.4.1 主题标引与论文关键词的设置(写作常识)
3.4.2 关键词提取中的主题分析方法与要求(您不知道的技巧)
3.4.3 论文关键词怎么写第二步——主题概念的转换(写作必备知识)
3.5.1 论文中的引论怎么写(也叫做绪论、引言、前言)
3.5.2 毕业论文结论怎么写(要突出成果的核心主体)
3.6.2 法定计量单位的构成与特点(规范使用)
3.6.3 论文中量与计量单位的使用(全面介绍)
3.7.1 论文中插图类型及其设计方法(制作技巧)
3.7.2 论文写作中表格的设计与使用(收藏版)
3.7.3 大学生论文中图表的检查及常见问题(导师推荐阅读)
3.8.1 大学生论文中数字的用法(归纳总结)
3.8.2 名词术语的规范使用方法(让论文更专业)
3.9.1 参考文献的使用和标注方法(适用于各类型论文)
3.9.2 论文的注释怎么加(范例解读)
4.1.1 常见的非专业类文体有哪些(含具体特点介绍)
4.1.2 针对专业人员的学术文体(常识介绍)
4.2.1 调查报告有哪些特点和类型(知识分享)
4.2.2 调查报告怎么写(通用版)
4.2.3 社会调查报告怎么写(内容含写作范例1篇)
4.2.4 社会实践活动总结范例1篇(暑假工作体会)
4.3.1 实习报告的特点和写作要求(常识讲解)
4.3.2 大学生毕业实习报告怎么写(文末附范例1篇)
4.3.3 实验报告格式与写作方法(以测量学实验报告为例)
4.4.1 毕业设计说明书怎么写(包含服装设计专业范文)
4.4.2 课程设计说明书格式与书写技巧(附机床夹具课程范例)
4.5.1 毕业论文具有哪些特点(知识拓展)
4.5.3 大学毕业论文怎么写(只需三步)
4.6.1 学术论文一般有哪些分类(常识了解)
4.6.2 学术论文格式要求与写作要求(必备知识)
4.6.3 评析一篇学术论文的写法(实例分析)
5.1.1 国际国内学术不端现象介绍(急需关注)
5.1.2 学术不端产生的原因与危害(简要讲解)
5.1.3 学术不端行为包括哪些(10大类)
5.2.1 论文写作发表中的学术不端行为(应避免的问题)
5.2.2 大学生怎样预防学术不端(经验谈)
5.2.3 中国知网学术不端文献检测系统(含检测原理)
5.3 学术不端行为治理措施

展开更多

  预防论文中的学术不端,除了提高认识、熟悉禁止事项外,还可以借助技术手段进行检测,提前发现论文中可能出现的问题,并及时纠正,确保正式提交的论文符合学术道德和学术规范的要求,以免影响论文答辩和期刊投稿。

  目前,很多大学的学位论文管理机构和期刊编辑部都已经配置了中国知网CNKI和中国学术期刊(光盘版)编辑部联合开发的学术不端检测系统(简称TMLC) ,用以对本校学生的学位论文和本刊投稿论文进行学术不端检测。本文对该系统作简单介绍。

  一、系统简介

  学术论文学术不端行为检测系统由中国知网和中国学术期刊(光盘版)编辑部2008年12月底推出,2009年3月开始应用。目前,已涵盖上千家期刊编辑部,360多家高校,基本覆盖了全国重点院校。到目前为止,光是研究生学位论文检测,TMLC的检测量就已达到了20万篇次。

  TMLC采用CNKI自主研发的自适应多阶指纹(AMLFP)特征检测技术,具有检测速度快、准确率和召回率高、抗干扰性强等特征。不仅支持篇章、段落、句子的各层级检测,也支持文献改写、多篇文献组合等各种文献的变形检测。TMLC以《中国学术文献网络出版总库》为全文比对数据库,实现了对抄袭与剽窃、伪造、篡改等学术不端行为的快速检测,可供用户检测学位论文、学术论文及着作等长文献,并支持用户自建比对库。

  对任意一篇需要检测的文献,系统首先对其进行分层处理,按照篇章、段落、句子等层级分别创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。这样的分层多阶指纹结构,不仅可以满足对超长文献的快速检测,而且因为最小指纹粒度为句子,因此也满足了系统对检准率和检全率的高要求。理论上,只要检测文献与比对文献存在一个相同的句子,就能被系统发现。

  系统主要功能包括已发表文献检测、论文检测、问题库查询、自建比对库管理等。其中,已发表文献检测,指检测系统能够自动将属于用户的已正式发表的论文检索出来,并对每一篇已发表 文献进行实时检测,快速给出检测结果;论文检测,主要实现论文的实时在线检测;问题库查询,指用户可以将检测结果中确认有问题的文献放入问题库,便于用户集中管理;自建比对库,指管理人员可以选择将检测文献放入个人比对库或者批量上传文献作为个人比对库,该个人比对库即可作为以后学术不端文献检测的比对数据库。

  TMLC的目的是辅助各研究生培养单位对学位论文质量进行评估,为审查论文提供技术服务。检测系统在对论文进行检测之后,生成检测报告,为判断论文性质提供相关依据。

  在对用户提交的检测文献检测之后,系统生成的检测结果包括:

  1)重合文字来源文献信息。系统详细列出重合文字来源文献信息,这些文献都是真实存在,而且应是公开发表或得到发表确认的。

  2)比对信息。检测文献和来源文献的详细比对信息,用户可以快速选择重合文字部分查阅。

  3)总检测指标。该指标体系从多个角度对检测文献中的文字复制情况进行了概括性描述。

  4)子检测指标。因为学位论文一般较长, 因此,系统一般按章检索,并且每一章给出子检测指标,该检测指标从多个角度对该章内容的检测情况进行详细描述。

  5)诊断类型。系统根据指标参数以及其他元数据相关信息,自动给出一个预判的诊断类型,供审查人员参考。

  6)检测报告。检测系统自动生成一个检测报告单,详细列出检测文献的学术不端行为检测情况,用户可以对该报告单进行修改,生成终审报告。系统只对疑似存在学术不端行为的论文生成检测报告。

  二、检测原理

  CNKI目前已经拥有具有国际或国内领先水准的全面的数字出版相关技术,包括资源采集技术、文本数据库加工技术、文本数据库技术、数字资源版权保护技术、知识挖掘技术、自然语言处理技术、快速比对技术等。上述技术是在海量的全文数据基础上实现快速准确检测的基本保证。

  TMLC需要一个尽可能完备的全文数据比对资源库,而CNKI的《中国学术文献网络出版总库》正好满足这一要求。 在收录资源种类.上,CNKI在国内具有明显优势,收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上,CNKI明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。在资源更新速度上,CNKI产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标准化运作的结果。

  到目前为止,CNKI拥有学术期刊7 000余种,期刊全文文献2480万篇,文献收录完整率大于99.9%,文献量居国际国内同类产品之首;出版503家硕士学位点的72万篇优秀硕士学位论文,368家博士学位点的9.6万篇博士学位论文; 1 286种重要会议论文106万篇; 515家重要报纸500多万篇; 1 376种重要年鉴787万篇; 600多种工具书220多万条;学术引文索引数据600多万条。这些出版物平均日更新2万条记录。另外,出版平台还集成整合出版了各类第三方数据库资源1020种。

  学术不端行为检测系统采用的指标体系分为两个部分:总检测指标和子检测指标。

  1.总检测指标

  包括总重合字数(CCA)、总文字复制比(TTR) 、总文字数(TCA)、疑似章节数(QCA)、总章节数(TCA)、首部重合文字数(HCCA)、尾部重合文字数(ECCA)。这些指标从整体上描述了论文的检测情况,便于用户快速了解该论文总的检测概况。

  1)总重合字数:学位论文一般篇幅大,少则3~ 5万字,多则十多万字,若以文字复制比来衡量一篇论文的文字重合情况,则不太合适。如一篇十几万字的博士论文,10%就已达到1万字,文字复制情况已经非常严重。因此,对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。

  2)总文字复制比:总文字复制比是指论文中总的重合字数在总的论文字数中所占的比例。通过该指标,可以直观地了解到重合字数在该检测论文中所占的比例情况。

  3)总文字数:总文字数是指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数。

  4)疑似章节数、总章节数:疑似章节数是检测论文疑似存在学术不端行为的章节的数量;总章节数则是指学位论文总的章节数。

  5)首部重合文字数、尾部重合文字数:首部重合文字数指论文前1万字中重合的文字数量;尾部重合文字数是指除去前1万字,剩下的部分中重合的文字数量。对于学位论文,一般开头部分均是综述性的介绍,其重要性远低于论文尾部。

  2.子检测指标

  对于一篇论文,每一章的内容各异,重点也不一样,其核心内容一般存在于某几章中,子检测指标可以让用户迅速了解每一章节的检测情况。子检测指标包括:文字复制比(TR) 、重合字数(CNW)、最大段长 (LPL) 、平均段长(APL) 、段落数(PN)、段文字比(PR) 、首部复制比(HR) 、尾部复制比(ER) 、引用复制比(RR) 。这些指标从多个角度反映了检测文献的检测情况,便于用户进行针对性审核。

  1)文字复制比:若用户提交的论文是Word格式, 检测系统会自动识别论文章节,按论文实际章节信息显示论文内容。若论文不存在明显的章节信息,或非Word格式,则系统按照每段1万字符自动切分学位论文,并按切分后的结果显示。文字复制比即指论文的某-章节与比对文献比较后,重合文字部分在该章节中所占的比例。比例越高,反映该章节越多的文字来自于其他已发表文献,存在学术不端行为的可能性越大。

  2)重合字数:重合字数指论文章节与比对文献比较后,重合部分的字数。一般来说,不管文字复制比如何,重合字数越多,存在学术不端行为的可能性越大。

  3)最大段长、平均段长、段落数:在论文检测中,当连续文字超过一定比例时,称之为段。在本系统中,一般认为,连续200字以上即为段。与比对文献重合的最大段长度即为最大段长。最大段长反映成段抄袭特征。连续的文字越长,抄袭的可能性越大。

  在学位论文中,所有段的长度平均值即为平均段长,所有段的数量为段落数。平均段长和段落数反映了重合文字在学位论文中的分布情况。一般来说,指标参数越高,存在学术不端行为的可能性越大。

  4)段文字比:在论文的某一章节中,所有该章节文字重合段的字数之和占该章节文字数的比例为段文字比。段文字比反映了抄袭的连续特征。一般来说,连续文字出现越多,比文字分散出现时更可能存在学术不端行为。

  5)首部复制比、尾部复制比:论文某一章节的前20%称之为章节首部,首部的文字复制比为首部复制比。就中文文献来说,一般每一章节正文开头部分出现的是综述性语言,重要性相对偏低。后80%称之为章节尾部,尾部的文字复制比为尾部复制比。通常情况下,尾部文字内容重要性比前部文字要高。尾部文献是阐述自己研究工作的目的和意义,应该是作者个人工作的体现。在这部分直接抄袭他文,性质要严重得多。

  6)引用复制比:引用复制比指与存在引证关系的文献的文字重合部分的比例。对于学位论文来说,存在引|证关系与不存在引证关系的复制部分应区别对待。复制了他文内容,而不注明引用,性质要更,加严重。同时,不是所有的注明了引用的就不存在抄袭,引用也应有一个度和范围的限制。

  在每一次检测过程中,该系统将待检论文首先按照篇章、段落、句子等层级分层处理,然后创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。通俗来说,就是将论文和数据库进行比对,根据其重合的比例,判断该论文是否存在抄袭行为。

  在国际上,为应对近年来频频发生的学术丑闻,由国际出版链接协会(PILA) 牵头、数家全球出版集团共同参与实验的一个世界范围内防止学术剽窃的功能性的国际项目CrossCheck已经开始实施。它由于具有保护原创作者的着作权、严正学术道德、杜绝学术剽窃等功能,一举赢得2008年度全球最佳出版创新奖。国内已有学术期刊加入这个计划,并开始把它作为学术审稿的“第三只眼睛”,取得了良好的效果。从趋势上看,在全球范围内加强合作,打击学术不端,将最大限度地遏制学术腐败的产生。

返回本篇论文导航
原文出处:刘建乔,何汶.大学生论文写作[M].湖北:湖北科学技术出版社,2013.460-467.
相关内容推荐
相关标签:
返回:本科论文写作