智能搜索引擎自动语义标注技术探究,搜索引擎论文

　　1 引言

　　技术创新服务平台的建设需要智能搜索引擎技术，虽然现阶段在互联网领域搜索引擎众多，但都是大而全，不是小而精，适用虽然广泛，但针对性不强，很难提供个性化的、精准的搜索结果。技术创新服务平台上对搜索引擎的要求，与大众的搜索引擎的需求还是不同的，处理的对象主要是专业领域的文本，重点在于解决自动语义标注的问题。面对数字资源的有效组织，笔者提出面向知识密集型片段的文本特征获取和面向网络的文本内容获取总体框架和技术，以有效地从结构化的领域专业文本和网络中的非结构化文本中提取出所需要的知识片段[1 -2].但是，虽然通过文献[1 -2]中所介绍的技术方法提取出的文本片段能够反映文本知识的领域特征（面向知识密集型文本的特征获取）和反映最新的描述专业领域知识的情况（面向网络的文本内容获取技术） ,对知识的描述粒度却过于粗糙，没有对领域文本的内容进行精细的加工处理，对于知识内容的表现形式也过于简单，没有反映文本片段语义信息[3 -4].

　　为了达到对数字资源进行内容层面理解的目的，需要利用自然语言处理技术对文本片段语料进行深入加工，实施对数字资源的内容语义化，从而支持智能搜索引擎服务。数字资源的内容语义化依赖于组织语义化，即实际上利用自然语言处理相关技术将数字资源标注成语义标签的形式，达到对资源进行内容语义化的目的[5 -7].

　　2 问题定义

　　语义标注是对一组文档资源进行组织语义化的过程，是利用一个语义概念资源对数字资源上的文本片段进行标引，根据概念实体出现频次、位置和关系等因素抽取一组语义概念集合用以表现该文本片段的内容语义。语义标注的性能主要依赖于概念知识库知识是否完备和标注算法的性能是否优良。

　　问题定义：依据一组语义概念资源，S ={ P→Q; P∈语义概念集合，Q∈语义概念之间的关系},对文本片段 T = D1,D2,D3{ ,…，D}n进行语义标注，得到用以表现文本片段内容的一组语义索引 R ={ P→T; P∈语义概念集合，T为被标注的文档 }.

　　3 技术框架与思路

　　3. 1 技术总体框架

语义标注所利用的资源是领域的本体知识库，本体知识库中提供了概念之间网状结构的关联关系，而标注的对象是结构化半结构化的领域文本或者无结构的网络文本。通过对这些语料的初步预处理和加工，将文本切分成不同大小的领域文本片段，利用本体知识库中提供的本体知识关系，对切分后的文本资源进行标注，标注后构成的资源作为语义索引，语义索引结构为本体中出现的概念，索引到的内容就是标注的领域资源，语义标注总体框架如图 1 所示：

　　3. 2 具体标注思路

语义标注的基本思路是不按照整篇文档的内容对资源进行索引，一方面是因为整篇文档对于概念的描述过于宽泛，涉及到概念的很多方面；另一方面，整篇文档的语义内容可能涉及到多个概念，不容易将其概括到基本的语义内容上。本文按照段落和句子两个维度进行语义标注，对段落进行标注时注重整段内容语义的索引，对句子进行标注时主要注重相关概念的提取。

　　在对数字资源进行标注时，首先要考虑数字资料的来源，一般来说，领域文档的来源大部分来自经过人工校对过的领域文本，这些文本有着结构化半结构化的特征，标注的信息比较准确；另一部分数字资源来自网络领域文本，这部分资源的结构特征并不明显，标注的语料一般作为参考。然后，对数字资源进行语料加工和处理，形成用以标注的语料。在标注时，使用文本向量空间模型（ VSM）作为领域语料分析的基本模型，其中文档片段中的相关概念和概念的属性会被赋予较高的标注权重。标注后的规模领域语料形成语义索引结构，索引的键是领域概念及概念的属性，索引的值是领域文档的位置、文档的内容、文档的语义信息。语义标注一般是一个离线计算的过程，标注后应将领域文本的索引结构以一定的形式保存起来，以供知识检索。

　　4 语义标注流程及算法

　　4. 1 领域标注语料准备

领域语料的来源主要分为知识密集型文本片段和网络领域文本。其中，知识密集型文本片段在组织上呈现结构化半结构化的特征，内容上对于知识的表述比较专业和规范，对领域内的知识内容阐述准确、全面。知识密集型文本片段的行文组织和内容阐述是有紧密关联的。文档结构的特征，如分段、标题、行文结构顺序等都和知识的本质表述，如概念之间的包含关系、概念之间的分类关系和概念之间的内在联系等有着对应的关系。对于网络领域文本而言，在结构组织上可能比较集中或稀疏，内容上对于知识的表述或者过于集中，未对知识作整体描述；或者过于概括，对于知识的描述并不准确和规范。其结构上的特征也会反映出对于知识内容描述的结构，比如，在一个领域对于某个概念集中的段落描述，反映的是对这个概念的深入表述，并不侧重于对全面知识结构的把握。两种来源的文本资料结构上各有特点，在内容描述上也是根据结构的不同而有所侧重。

　　知识密集型文本片段的来源主要是领域内的专业内容文本。常见的文本来源是领域知识教材、专业文献、学术论文等。网络领域文本的主要来源是网络上与领域内容相关的文本资源。常见的文本来源有领域专业网站、领域知识综合性数据库等。

　　4. 2 领域标注语料加工

语义标注的文本粒度是按照段落、句子划分的，因此，要对领域文档作切分处理，形成对应的段落和句子结构。切分段落的依据是段首的空格、段尾的空白和段与段之间的空行。切分成段落后，以汉字 GBK 编码中半角或全角格式的句号作为分隔符，将段落切分成句子。

　　对领域标注语料的加工需要针对领域文本所定制的一些工具，常见的资源有《领域专业概念词典》、《领域专业切分词典》和领域本体知识库等。对于文本资源，首先通过《领域专业切分词典》对语料内容进行切词和词性标注。依据各个领域的不同需求，制定领域内的停用词表，对切分、标注后的文本做过滤停用词等相关处理。