0引言
信息检索系统主要为互联网用户提供对资源的检索服务,用户通过输入自己想要寻找的资源信息(诸如资源的部分名称,资源内容中相关关键词等),信息检索系统根据用户提供的检索需求进行资源匹配和资源定位,并按照一定的顺序将匹配的资源反馈给用户。搜索引擎是在信息检索系统的基础上发展而来,目前的搜索引擎可以大致分为:目录式搜索引擎,元搜索引擎,语义搜索引擎等。目录式搜索引擎以当前主流的百度搜索引擎(基于中文的搜索)和谷歌搜索引擎(基于多种语言的搜索)为代表,本文也主要以目录式搜索引擎为例,展开对搜索引擎体系架构的研究。
1搜索引擎体系架构
相比于信息检索系统,搜索引擎在检索词输入时更加灵活,对资源的预处理方面,搜索引擎系统优化了更多的细节,在对资源的相似度匹配方面,搜索引擎需要考虑更多的因素在综合定量用户检索词和资源之间的相似度,最后的排序输出更是衍生出很多优秀的排序算法。总体来说,搜索引擎主要分为:索引子系统,内容管理子系统,链接分析子系统和结果排序子系统,搜索引擎的体系架构如图1所示。
1.1爬虫子系统
爬虫子系统是搜索引擎获取资源的主要方式,爬虫子系统通过在互联网环境下运行爬虫子程序,定期的对互联网资源进行检查,判断指定URL链接的内容是否发生变更并适时的对数据进行更新,并将更新后的数据反馈给数据库系统。爬虫子系统目前主要采用两种方式进行资源爬取:增量式爬取和累积式爬取。增量式爬取表示爬虫子系统根据当前URL链接递增的去遍历下一条网页;累积式爬取表示根据当前URL链接遍历所有与之相连的网页,并将新得到的URL链接加入到队列,完成遍历后从队列中取新的URL继续遍历。爬虫子系统性能的优良直接决定了最终搜索引擎结果的输出质量,因为在数据的筛选阶段主要也是依赖爬虫子系统进行数据过滤,筛选出有价值的资源信息。
1.2索引子系统
索引子系统则是承接了爬虫子系统的数据资源,互联网数据呈现的是一种无规则或者半结构的数据,面对如此不规整的数据格式,搜索引擎难以完成对资源的筛选和排序工作,因此索引子系统主要针对这种情况,通过对网络爬虫爬取的数据资源进行梳理,按照规则对数据进行规则化。倒排索引堪称是在信息检索领域对数据规则化最为有效的方式,我们通常对数据的认知是从正排索引开始,即根据资源名称,联想到资源的内容相关信息;倒排索引则与此相反,倒排索引根据关键词和概念特征去反推具体的资源名称。诸如我们在讨论武侠时,会先想到“孤独求败”、“乔峰”等,根据这些关键词和概念特征,我们会继续反推得到对应的金庸先生相关武侠着作的书名:“神雕侠侣”和“天龙八部”等。这种推理的方式和我们的搜索引擎系统是何其相似,用户通过输入相关关键词和概念来获得对应的资源信息。
基于倒排索引的理论基础,我们对搜索引擎的数据资源进行结构重组。首先需要对数据进行数据分词和关键词提取,对中文的分词是一项非常复杂的工作,中文不像英文那样,天然的以空格进行分割,中文分词需要将中文字符序列按照词义进行分割,分割后的每个单元都是一个关键词,进行对中文进行分词需要符合中文的语言规范和特点,需要保证分词之后,每个单元都是一个完整的语义部分,同时还需要考虑分割之后语义的最大完整性,另一方面,在分词过程中要考虑对停用词(对整个语义表达没有实际含义的词,如“的”)的去重工作。分词和停用词操作相当于对数据的初始化处理,经过初始化之后,则完成了数据的初始化工作,索引子系统的构建是建立在数据初始化之后,文档经过分词之后,文档都由一系列关键词组成,此时可以建立文档和关键词之间的二维矩阵,二维矩阵中对应的权值信息表示关键词在文档中的权值信息,关键词在文档中的权值可以通过多种方式加以计算,目前主要由:TF方法,DF方法,TF-IDF方法,CHI方法,IG方法和MI方法。
1.3链接分析子系统
链接分析子系统曾是谷歌的发家算法,并且在数据挖掘和搜索引擎享有极高的评价,链接分析子系统通过对互联网中数据进行建模分析,发现互联网网页之间通过URL链接建立彼此之间的联系,网页之间通过超链接关系进行页面跳转。通过对互联网链接关系的深度分析,网页质量越高的网页,其被其它网页所链向的可能性越大,反之亦然,通过对这一规律进行深度分析并构建模型,得出互联网网页的质量评价模型:即网页的质量由链向其网页的数量所决定。网页的质量用PageRank值(PR值)表示,如公式1所示。
PageRank(PR)值=重新访问概率+迭代访问概率(公式1)。
假设互联网用户采用两种方式进行网页:其一、通过一个网页目录,随机的选择其中一个网页进行浏览,浏览结束之后,重新回到网页目录,再次选取新的URL进行访问;其二、随机选择一个网页URL进行访问,从该网页中提取URL链接列表,从URL链接列表中随机选择一个网页URL继续访问。我们定义为该访问模式和随机游走模型,并得出网页质量的量化评价公式,如公式2所示。
在公式2中,p表示采用重新访问的方式进行页面浏览的概率,相应地采用迭代访问的概率为(1-p),迭代访问时用户选择下一个页面进行访问的概率取决于下一个页面的PR值,从某个页面链出的网页可能有多个,表示的是对每一个链出网页都采取平均分配权值的方式。
1.4结果排序子系统
结果排序子系统是用户直接与搜索引擎进行交互的部分,结果排序子系统通过对符合用户筛选条件的数据库中资源进行排序并输出。排序子系统需要综合考虑多种因素,诸如网页自身的PR值,用户检索词和数据资源之间的相似度值等多个方面。同时,排序子系统需要考虑如何保证用户需要的资源排在靠前的位置。相关研究发现,用户通常只会对前几页的搜索引擎结果进行点击,因此排序子系统不仅要保证结构输出的准确性,即既要保证准确率和召回率,同时非常重要的因素是首页命中率。
2总结
本文通过对当前主流的目录式搜索引擎的体系架构进行研究,主要就爬虫子系统、索引子系统、链接分析子系统和结果排序子系统四部分进行论述,并就每种子系统中关键词技术进行了介绍。
参考文献:
[1]羊晶璟,鞠时光,王秀红。基于Web的个性化搜索引擎的研究[J].计算机工程与设计,2008,20:5206-5208.
[2]李广丽,刘觉夫。垂直搜索引擎系统的研究与实现[J].情报杂志,2009,10:144-147+169.
[3]文必龙,张璇,赵晶浩,赵满。企业搜索引擎个性化排序方法[J].计算机系统应用,2013,04:199-203.
[4]佟晓筠,王翥。一种特定领域智能搜索引擎技术的研究[J].计算机应用研究,2004,05:49-51.
经过3~5年的飞速发展,目前桌面搜索和移动搜索几乎各占半壁江山,移动搜索大有赶超桌面搜索,成为主要搜索途径之势。2013~2014年中国搜索引擎行业竞争持续升级,百度独领风骚的同时,几大追随者毫不懈怠,持续练就内功,同时借助外力,以期对百度构成威胁...
本文从卷烟企业对信息数据检索的需求出发,论述了基于Solr开发出符合自身企业的搜索引擎的可行性,介绍了有关搜索引擎及Solr的相关知识。...
1引言互联网的深入发展带来了各种类型信息资源数量的快速膨胀。截至2014年6月,我国拥有273万个网站,3.3亿个IPv4地址[1].面对浩瀚巨量的网络资源,用户通过搜索引擎快速获取所需信息尤为重要。目前,我国搜索引擎用户达4.9亿;网民平均使用...
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
上世纪中页,传播学家麦克卢汉曾在《理解媒介:论人的延伸》中提出:媒介是人感觉能力的延伸或扩展。这一经典概念的重要意义,在于将人的单一感官和媒体的传播特征进行了对应。例如,从视角延伸到印刷媒介,从听觉延伸到广播以及视、听觉共同延伸到电视。而...
搜索引擎经历近30年的发展,目前在使用的有几种类型,如全文搜索引擎、分类目录搜索引擎、多元搜索引擎、集成搜索引擎等。但这些都是网络上的公用商业搜索引擎,它们往往不能满足企业的需要。...
第4章模型构建及假设提出。本章在前两章文献综述和理论分析的基础上,结合访谈的结果提出了搜索引擎优化方法和效果的维度,并构建了两者的概念模型,提出了各研究变量之间的假设关系。4.1访谈。访谈法是指研究者通过面对面、QQ等访谈方式,与受访者...
在搜索引擎技术的发展之下,智能检索作为一个新型的检索方式已经渗透到了网络数据的设计中,该种检测方式能够帮助人们检测出高质量的信息,是检索方式发展的一种必然需求,将数据挖掘技术应用在网络资源可以实现智能检索的发展,也能够为人们提供出更加具有针对性...
引言随着因特网中搜索引擎的发展和进步,油田数据的资源共享以及信息的集成都较之前更加便捷和有效了。从因特网搜索引擎的思想出发,借助SES系统的数据采集和搜索的机制,并且结合油田的信息和数据的共享的特点,制定了一套从结构体系好以及安全智能为主要...
在计算机技术以及网络技术特别是移动通信技术不断发展的背景下给智能手机带来了极大的发展空间。目前性能过剩已经成为了当前智能手机的普遍问题之一,硬件功能过于强大的背后反而是软件不能跟上步伐,这也就导致了用户的体验性出现了一定程度的下降。在人机...