目录式搜索引擎的体系架构研究,搜索引擎论文

　　0引言

　　信息检索系统主要为互联网用户提供对资源的检索服务，用户通过输入自己想要寻找的资源信息（诸如资源的部分名称，资源内容中相关关键词等），信息检索系统根据用户提供的检索需求进行资源匹配和资源定位，并按照一定的顺序将匹配的资源反馈给用户。搜索引擎是在信息检索系统的基础上发展而来，目前的搜索引擎可以大致分为：目录式搜索引擎，元搜索引擎，语义搜索引擎等。目录式搜索引擎以当前主流的百度搜索引擎（基于中文的搜索）和谷歌搜索引擎（基于多种语言的搜索）为代表，本文也主要以目录式搜索引擎为例，展开对搜索引擎体系架构的研究。

　　1搜索引擎体系架构

　　相比于信息检索系统，搜索引擎在检索词输入时更加灵活，对资源的预处理方面，搜索引擎系统优化了更多的细节，在对资源的相似度匹配方面，搜索引擎需要考虑更多的因素在综合定量用户检索词和资源之间的相似度，最后的排序输出更是衍生出很多优秀的排序算法。总体来说，搜索引擎主要分为：索引子系统，内容管理子系统，链接分析子系统和结果排序子系统，搜索引擎的体系架构如图1所示。

　　1.1爬虫子系统

　　爬虫子系统是搜索引擎获取资源的主要方式，爬虫子系统通过在互联网环境下运行爬虫子程序，定期的对互联网资源进行检查，判断指定URL链接的内容是否发生变更并适时的对数据进行更新，并将更新后的数据反馈给数据库系统。爬虫子系统目前主要采用两种方式进行资源爬取：增量式爬取和累积式爬取。增量式爬取表示爬虫子系统根据当前URL链接递增的去遍历下一条网页；累积式爬取表示根据当前URL链接遍历所有与之相连的网页，并将新得到的URL链接加入到队列，完成遍历后从队列中取新的URL继续遍历。爬虫子系统性能的优良直接决定了最终搜索引擎结果的输出质量，因为在数据的筛选阶段主要也是依赖爬虫子系统进行数据过滤，筛选出有价值的资源信息。

　　1.2索引子系统

　　索引子系统则是承接了爬虫子系统的数据资源，互联网数据呈现的是一种无规则或者半结构的数据，面对如此不规整的数据格式，搜索引擎难以完成对资源的筛选和排序工作，因此索引子系统主要针对这种情况，通过对网络爬虫爬取的数据资源进行梳理，按照规则对数据进行规则化。倒排索引堪称是在信息检索领域对数据规则化最为有效的方式，我们通常对数据的认知是从正排索引开始，即根据资源名称，联想到资源的内容相关信息；倒排索引则与此相反，倒排索引根据关键词和概念特征去反推具体的资源名称。诸如我们在讨论武侠时，会先想到“孤独求败”、“乔峰”等，根据这些关键词和概念特征，我们会继续反推得到对应的金庸先生相关武侠着作的书名：“神雕侠侣”和“天龙八部”等。这种推理的方式和我们的搜索引擎系统是何其相似，用户通过输入相关关键词和概念来获得对应的资源信息。

　　基于倒排索引的理论基础，我们对搜索引擎的数据资源进行结构重组。首先需要对数据进行数据分词和关键词提取，对中文的分词是一项非常复杂的工作，中文不像英文那样，天然的以空格进行分割，中文分词需要将中文字符序列按照词义进行分割，分割后的每个单元都是一个关键词，进行对中文进行分词需要符合中文的语言规范和特点，需要保证分词之后，每个单元都是一个完整的语义部分，同时还需要考虑分割之后语义的最大完整性，另一方面，在分词过程中要考虑对停用词（对整个语义表达没有实际含义的词，如“的”）的去重工作。分词和停用词操作相当于对数据的初始化处理，经过初始化之后，则完成了数据的初始化工作，索引子系统的构建是建立在数据初始化之后，文档经过分词之后，文档都由一系列关键词组成，此时可以建立文档和关键词之间的二维矩阵，二维矩阵中对应的权值信息表示关键词在文档中的权值信息，关键词在文档中的权值可以通过多种方式加以计算，目前主要由：TF方法，DF方法，TF-IDF方法，CHI方法，IG方法和MI方法。

　　1.3链接分析子系统

　　链接分析子系统曾是谷歌的发家算法，并且在数据挖掘和搜索引擎享有极高的评价，链接分析子系统通过对互联网中数据进行建模分析，发现互联网网页之间通过URL链接建立彼此之间的联系，网页之间通过超链接关系进行页面跳转。通过对互联网链接关系的深度分析，网页质量越高的网页，其被其它网页所链向的可能性越大，反之亦然，通过对这一规律进行深度分析并构建模型，得出互联网网页的质量评价模型：即网页的质量由链向其网页的数量所决定。网页的质量用PageRank值（PR值）表示，如公式1所示。

　　PageRank（PR）值=重新访问概率+迭代访问概率（公式1）。

　　假设互联网用户采用两种方式进行网页：其一、通过一个网页目录，随机的选择其中一个网页进行浏览，浏览结束之后，重新回到网页目录，再次选取新的URL进行访问；其二、随机选择一个网页URL进行访问，从该网页中提取URL链接列表，从URL链接列表中随机选择一个网页URL继续访问。我们定义为该访问模式和随机游走模型，并得出网页质量的量化评价公式，如公式2所示。

　　在公式2中，p表示采用重新访问的方式进行页面浏览的概率，相应地采用迭代访问的概率为（1-p），迭代访问时用户选择下一个页面进行访问的概率取决于下一个页面的PR值，从某个页面链出的网页可能有多个，表示的是对每一个链出网页都采取平均分配权值的方式。

　　1.4结果排序子系统

　　结果排序子系统是用户直接与搜索引擎进行交互的部分，结果排序子系统通过对符合用户筛选条件的数据库中资源进行排序并输出。排序子系统需要综合考虑多种因素，诸如网页自身的PR值，用户检索词和数据资源之间的相似度值等多个方面。同时，排序子系统需要考虑如何保证用户需要的资源排在靠前的位置。相关研究发现，用户通常只会对前几页的搜索引擎结果进行点击，因此排序子系统不仅要保证结构输出的准确性，即既要保证准确率和召回率，同时非常重要的因素是首页命中率。

　　2总结

　　本文通过对当前主流的目录式搜索引擎的体系架构进行研究，主要就爬虫子系统、索引子系统、链接分析子系统和结果排序子系统四部分进行论述，并就每种子系统中关键词技术进行了介绍。

　　参考文献：
　　[1]羊晶璟，鞠时光，王秀红。基于Web的个性化搜索引擎的研究[J].计算机工程与设计，2008,20:5206-5208.
　　[2]李广丽，刘觉夫。垂直搜索引擎系统的研究与实现[J].情报杂志，2009,10:144-147+169.
　　[3]文必龙，张璇，赵晶浩，赵满。企业搜索引擎个性化排序方法[J].计算机系统应用，2013,04:199-203.
　　[4]佟晓筠，王翥。一种特定领域智能搜索引擎技术的研究[J].计算机应用研究，2004,05:49-51.