1 引言
技术创新服务平台的建设需要智能搜索引擎技术,虽然现阶段在互联网领域搜索引擎众多,但都是大而全,不是小而精,适用虽然广泛,但针对性不强,很难提供个性化的、精准的搜索结果。技术创新服务平台上对搜索引擎的要求,与大众的搜索引擎的需求还是不同的,处理的对象主要是专业领域的文本,重点在于解决自动语义标注的问题。面对数字资源的有效组织,笔者提出面向知识密集型片段的文本特征获取和面向网络的文本内容获取总体框架和技术,以有效地从结构化的领域专业文本和网络中的非结构化文本中提取出所需要的知识片段[1 -2].但是,虽然通过文献[1 -2]中所介绍的技术方法提取出的文本片段能够反映文本知识的领域特征( 面向知识密集型文本的特征获取) 和反映最新的描述专业领域知识的情况( 面向网络的文本内容获取技术) ,对知识的描述粒度却过于粗糙,没有对领域文本的内容进行精细的加工处理,对于知识内容的表现形式也过于简单,没有反映文本片段语义信息[3 -4].
为了达到对数字资源进行内容层面理解的目的,需要利用自然语言处理技术对文本片段语料进行深入加工,实施对数字资源的内容语义化,从而支持智能搜索引擎服务。数字资源的内容语义化依赖于组织语义化,即实际上利用自然语言处理相关技术将数字资源标注成语义标签的形式,达到对资源进行内容语义化的目的[5 -7].
2 问题定义
语义标注是对一组文档资源进行组织语义化的过程,是利用一个语义概念资源对数字资源上的文本片段进行标引,根据概念实体出现频次、位置和关系等因素抽取一组语义概念集合用以表现该文本片段的内容语义。语义标注的性能主要依赖于概念知识库知识是否完备和标注算法的性能是否优良。
问 题 定 义: 依 据 一 组 语 义 概 念 资 源,S ={ P→Q; P∈语义概念集合,Q∈语义概念之间的关系},对文本片段 T = D1,D2,D3{ ,…,D}n进行语义标注,得到用以表现文本片段内容的一组语义索引 R ={ P→T; P∈语义概念集合,T为被标注的文档 }.
3 技术框架与思路
3. 1 技术总体框架
语义标注所利用的资源是领域的本体知识库,本体知识库中提供了概念之间网状结构的关联关系,而标注的对象是结构化半结构化的领域文本或者无结构的网络文本。通过对这些语料的初步预处理和加工,将文本切分成不同大小的领域文本片段,利用本体知识库中提供的本体知识关系,对切分后的文本资源进行标注,标注后构成的资源作为语义索引,语义索引结构为本体中出现的概念,索引到的内容就是标注的领域资源,语义标注总体框架如图 1 所示:
3. 2 具体标注思路
语义标注的基本思路是不按照整篇文档的内容对资源进行索引,一方面是因为整篇文档对于概念的描述过于宽泛,涉及到概念的很多方面; 另一方面,整篇文档的语义内容可能涉及到多个概念,不容易将其概括到基本的语义内容上。本文按照段落和句子两个维度进行语义标注,对段落进行标注时注重整段内容语义的索引,对句子进行标注时主要注重相关概念的提取。
在对数字资源进行标注时,首先要考虑数字资料的来源,一般来说,领域文档的来源大部分来自经过人工校对过的领域文本,这些文本有着结构化半结构化的特征,标注的信息比较准确; 另一部分数字资源来自网络领域文本,这部分资源的结构特征并不明显,标注的语料一般作为参考。然后,对数字资源进行语料加工和处理,形成用以标注的语料。在标注时,使用文本向量空间模型( VSM) 作为领域语料分析的基本模型,其中文档片段中的相关概念和概念的属性会被赋予较高的标注权重。标注后的规模领域语料形成语义索引结构,索引的键是领域概念及概念的属性,索引的值是领域文档的位置、文档的内容、文档的语义信息。语义标注一般是一个离线计算的过程,标注后应将领域文本的索引结构以一定的形式保存起来,以供知识检索。
4 语义标注流程及算法
4. 1 领域标注语料准备
领域语料的来源主要分为知识密集型文本片段和网络领域文本。其中,知识密集型文本片段在组织上呈现结构化半结构化的特征,内容上对于知识的表述比较专业和规范,对领域内的知识内容阐述准确、全面。知识密集型文本片段的行文组织和内容阐述是有紧密关联的。文档结构的特征,如分段、标题、行文结构顺序等都和知识的本质表述,如概念之间的包含关系、概念之间的分类关系和概念之间的内在联系等有着对应的关系。对于网络领域文本而言,在结构组织上可能比较集中或稀疏,内容上对于知识的表述或者过于集中,未对知识作整体描述; 或者过于概括,对于知识的描述并不准确和规范。其结构上的特征也会反映出对于知识内容描述的结构,比如,在一个领域对于某个概念集中的段落描述,反映的是对这个概念的深入表述,并不侧重于对全面知识结构的把握。两种来源的文本资料结构上各有特点,在内容描述上也是根据结构的不同而有所侧重。
知识密集型文本片段的来源主要是领域内的专业内容文本。常见的文本来源是领域知识教材、专业文献、学术论文等。网络领域文本的主要来源是网络上与领域内容相关的文本资源。常见的文本来源有领域专业网站、领域知识综合性数据库等。
4. 2 领域标注语料加工
语义标注的文本粒度是按照段落、句子划分的,因此,要对领域文档作切分处理,形成对应的段落和句子结构。切分段落的依据是段首的空格、段尾的空白和段与段之间的空行。切分成段落后,以汉字 GBK 编码中半角或全角格式的句号作为分隔符,将段落切分成句子。
对领域标注语料的加工需要针对领域文本所定制的一些工具,常见的资源有《领域专业概念词典》、《领域专业切分词典》和领域本体知识库等。对于文本资源,首先通过《领域专业切分词典》对语料内容进行切词和词性标注。依据各个领域的不同需求,制定领域内的停用词表,对切分、标注后的文本做过滤停用词等相关处理。
经过3~5年的飞速发展,目前桌面搜索和移动搜索几乎各占半壁江山,移动搜索大有赶超桌面搜索,成为主要搜索途径之势。2013~2014年中国搜索引擎行业竞争持续升级,百度独领风骚的同时,几大追随者毫不懈怠,持续练就内功,同时借助外力,以期对百度构成威胁...
本文从卷烟企业对信息数据检索的需求出发,论述了基于Solr开发出符合自身企业的搜索引擎的可行性,介绍了有关搜索引擎及Solr的相关知识。...
0引言信息检索系统主要为互联网用户提供对资源的检索服务,用户通过输入自己想要寻找的资源信息(诸如资源的部分名称,资源内容中相关关键词等),信息检索系统根据用户提供的检索需求进行资源匹配和资源定位,并按照一定的顺序将匹配的资源反馈给用户。搜...
1引言互联网的深入发展带来了各种类型信息资源数量的快速膨胀。截至2014年6月,我国拥有273万个网站,3.3亿个IPv4地址[1].面对浩瀚巨量的网络资源,用户通过搜索引擎快速获取所需信息尤为重要。目前,我国搜索引擎用户达4.9亿;网民平均使用...
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
上世纪中页,传播学家麦克卢汉曾在《理解媒介:论人的延伸》中提出:媒介是人感觉能力的延伸或扩展。这一经典概念的重要意义,在于将人的单一感官和媒体的传播特征进行了对应。例如,从视角延伸到印刷媒介,从听觉延伸到广播以及视、听觉共同延伸到电视。而...
搜索引擎经历近30年的发展,目前在使用的有几种类型,如全文搜索引擎、分类目录搜索引擎、多元搜索引擎、集成搜索引擎等。但这些都是网络上的公用商业搜索引擎,它们往往不能满足企业的需要。...
第4章模型构建及假设提出。本章在前两章文献综述和理论分析的基础上,结合访谈的结果提出了搜索引擎优化方法和效果的维度,并构建了两者的概念模型,提出了各研究变量之间的假设关系。4.1访谈。访谈法是指研究者通过面对面、QQ等访谈方式,与受访者...
在搜索引擎技术的发展之下,智能检索作为一个新型的检索方式已经渗透到了网络数据的设计中,该种检测方式能够帮助人们检测出高质量的信息,是检索方式发展的一种必然需求,将数据挖掘技术应用在网络资源可以实现智能检索的发展,也能够为人们提供出更加具有针对性...
引言随着因特网中搜索引擎的发展和进步,油田数据的资源共享以及信息的集成都较之前更加便捷和有效了。从因特网搜索引擎的思想出发,借助SES系统的数据采集和搜索的机制,并且结合油田的信息和数据的共享的特点,制定了一套从结构体系好以及安全智能为主要...