1、概述
当前互联网上的科技论文数量正以指数级速度增长,如何对这些海量文档进行分类已成为一个重要的研究课题。现有的文本分类大部分是面向粗粒度的,即考虑的是整篇文档的类别划分。例如,各大门户网站根据新闻性质的不同将新闻文本分为娱乐、财经和法律等类别;文本分类系统根据内容题材的不同将文本进行归类;文献检索系统根据论文研究领域的不同将论文分为农业、计算机、电子和医学等类别。相对而言,面向细粒度的文本分类研究较少,事实上,这种文本分类在日常生活中有广泛的应用前景。例如,在科技论文查新时,有些研究人员可能只关心哪些论文在研究背景上是相似的、哪些在主题上是相似的、哪些在方法上是相似的、哪些在实验结果上是相似的。然而,面对此类问题,传统的粗粒度文本分类方法存在一定的局限性。
基于此,本文以科技论文的摘要句子为研究对象,根据句子的语境信息,将摘要句子分为 4 个语境类型:背景知识(Background, BA),主题(Topic, TO),研究方法(Methodology,ME),实验结果(Result, RE),提出一种两阶段的无监督论文摘要句子分类方法,第 1 阶段通过一些启发式规则完成摘要句子的初分类;第 2 阶段利用机器学习方法对初分类中未分类的句子重新分类。
2、相关工作
当前的细粒度句子分类研究大部分都是基于语境信息进行的。根据文献[4]的定义,句子的语境信息是根据句子在文本上下文中所起的作用为句子设定的一个信息标识,是对不同句子在文本中所起相同作用的一个共性描述,同时定义了语境类型是对语境信息种类的概括。语境类型识别在自动文摘、文本分类、文献检索服务等方面有较广泛的应用基础。
提出了语境信息标注决策树的概念,将句子的语境类型识别应用于抽取式自动文摘生成。提出一种利用句子的语境信息抽取摘要候选句的方法,同时验证了利用此方法生成的摘要更加接近人工生成的摘要。对 MedLine 中的医学论文摘要句子分类进行了研究,定义背景知识、研究主题、研究方法、实验结果 4 类语境类别标签,选择单词集合和句子相对位置特征,分别在支持向量机(Support Vector Machine, SVM)分类器和线性分类器下进行实验,实验结果表明,SVM 分类器效果明显优于线性分类器。
开发的 TextLens 医学文献检索服务系统在选用实验特征的基础上,进一步增加了句子的时态、TF*IDF 值、助动词等特征,对论文摘要句子进行语境类型识别,利用识别出的语境信息对同一领域的背景知识、研究方法、研究成果等历史记录进行概括总结,从而可以为用户返回更符合搜索请求的候选文献。本文方法是对文献[6-7]研究方法的扩充,探索了规则与机器学习技术相结合的方法识别句子的语境类型,从而实现摘要句子级别的分类。
3、两阶段的无监督论文摘要句子分类方法
3.1、种子样本的确定
通过句子所在的位置信息、关键词信息和上下文信息等启发式规则,对论文摘要中的每个句子所属的语境类型进行初分类。
(1)位置信息。位置信息即摘要中句子的编号,通过分析发现,句子所属语境类型与句子在摘要中所在位置关系密切。例如,摘要的第 1 句通常介绍背景知识;中间部分介绍方法;最后部分一般是实验结果。
(2)关键词信息。通过对摘要句子的分析,发现除背景知识外,其他类型都存在重复率较高且具有明显类别区分度的单词或短语。这些关键词信息对于确定句子所属语境类型同样具有非常重要的作用,利用统计的方法,取词频排名靠前的 N-gram(N<3)作为在初分类过程中所用到的关键词表。篇幅限制仅列出了统计的部分关键词。
(3)上文信息。指待判定语境类型的句子的上一句、上上句的语境类型信息。上文信息对判定句子的类别具有重要的指导作用。例如,论文主题的上一句一般是背景知识,研究方法的上一句通常是论文主题,而上上句通常是背景知识。
3.2、基于机器学习的分类
经过上述基于规则的分类算法的初分类,把符合规则的句子挑选出来,将它们作为机器学习的训练集样本(种子样本),对剩余未分类的句子利用机器学习方法重新分类。主要考虑以下特征:(1)位置信息:取值 0、1、2 等;(2)关键词:
选择表 1 中的关键词;(3)上下文信息:本句上句和下句的类型;(4)Unigram 单词:去除停用词后的单词。
4、实验
由于目前没有通用的细粒度论文摘要句子分类语料,因此本文进行了语料的收集和标注工作。
4.1、实验语料
本文共收集 2010 年自然语言处理国际顶级会议 ACL 发表的 200 篇长文中的摘要,共 1 000 个句子,分以下 3 个步骤进行标注。
4.2、实验结果与分析
为清晰起见,先解释实验中用到的几个变量:种子样本数目,即初分类阶段,经过规则分类器筛选,选为机器学习的训练样本的句子数量;总样本数目,即用于实验的所有句子数目;种子样本率,即种子样本数目与总样本数的比值。
通过逐步增加种子样本的规模观察其对系统性能的影响。随着种子样本数目的增加,所训练出的分类器对剩余句子分类的准确率上升,当种子样本率选择 0.6 时会得到最优的分类效果。继续增加种子样本率会因种子样本的质量下降而影响分类器的分类效果。
5、结束语
本文提出了一种无监督的细粒度论文摘要句子分类方法,与现有的细粒度分类方法相比,由于在分类中考虑了关键词和上下文信息,实验证明能够获得更高的分类正确率和召回率。
本文的分类方法目前还处于探索阶段,许多工作还有待展开深入的研究。种子样本的选择对于接下来的机器学习效果非常重要,如何更好地选择种子样本需要继续研究;机器学习过程中特征的选择也是非常关键的,之后将加入一些句法、依存关系、词性标注的特征,以获得更好的结果。
法律硕士论文是一门专业型硕士学位,是具有特定法律职业背景的职业性学位,培养方向主要有立法、司法、律师、公证、审判、检察、监察及经济管理、金融、行政执法与监督等部门、行业的高层次法律专业人才与管理人才。下面我们就为大家介绍一些在职法律硕士论文...
建设工程造价管理是建设工程管理的一个重要方面,只有在建设工程决策阶段、设计阶段、招投标阶段、施工阶段和竣工结算阶段做好造价管理工作,才能最终控制建设工程的造价,实现建设工程的建设目标和经济效益。下面以“工程造价论文摘要怎么写”为例,给大家...
论文提纲是硕士论文写作之前必要的准备工作,其写作目的是将抽象的思路具体化,引领整个写作过程。硕士论文的写作通常要耗费几个月时间,如果单凭记忆,很容易出现偏差,进而导致文章的结构或者逻辑出现问题,影响文章质量。但如果有一个提纲作为引导,就能按...
盾构简称盾构机,主要用于隧道挖掘,是一种专用工程机械,下面我们为研究盾构的同学们整理3份最新的盾构毕业论文英文摘要,欢迎各位同学前来借鉴。...
印刷图文信息处理专业旨在培养能从事彩色图像图形文字及多媒体信息处理、电子制版工艺、计算机应用的高级技术应用性专门人才。希望以下图文信息处理毕业论文摘要对你有所帮助。图文信息处理毕业论文摘要一:信息化是21世纪的重要特征之一,信息化的时代需...
毕业论文大纲其实就是我们写作文要求的提纲。它不把全文的所有内容写出来,只把那些主要内容,提纲挈领式地写出来。写毕业论文大纲主要是提供我们论文写作的思路,列出我们论文的框架结构,这样方便我们后续写论文。那么具体医学论文大纲如何写到底如何写呢?...
机械设计是机械工程的重要组成部分,是决定机械性能的最主要的因素,是机械生产的第一步。毕业论文大纲在论文中起提纲挈领的作用,关系到论文的质量。下面我们通过三篇范例来学习一下机械设计毕业论文大纲的写作方法。机械设计毕业论文大纲一:题目:仿生扑...
工程硕士专业侧重于工程应用,主要是为工矿企业和工程建设部门,特别是国有大中型企业培养应用型、复合型高层次工程技术和工程管理人才。毕业论文提纲是论文写作的前提,如果你苦恼于怎么建构一个论文的框架,以下三篇工程硕士毕业论文提纲或许对你有所帮助...
顾名思义,前言是论文正文的开头与,处在正文最开始的地方,可以说是整篇文章的点睛之处,非常重要。那么城市轨道交通运营管理论文前言该怎么写呢?下面为大家分享写作技巧及模板。...
在收集完法律论文写作的资料过后,我们可以编写法律论文方面的论文结构的框架和体系,这样后期对于我们论文的写作上也很要帮助,使我们收集来的资料可以得到合理的运用,下面我们就来了解一下法律论文大纲该如何例写?...