1 下载--构建网络爬虫
1.1 图遍历算法的取舍
从理论上讲,广度优先搜索(BFS)和深度优先搜索(DFS)算法的时间复杂度都是 O(n + e),不同的算法爬下整个静态网页的内容所用的时间是相同的。但在现实生活中,时间有限,互联网时刻变化。所以应该考虑有限时间里尽可能多的爬下最重要的网页,一个网站中最重要的网页应该是它的首页以及首页所连接的页面,BFS 明显优于 DFS.但实际的网络爬虫都是由很多服务器组成的分布式系统,这些下载服务器和网络服务器建立通信需要额外时间,这时就需要用到 DFS 以避免握手次数过多。
1.2 提取URL并做出URL表
有些页面的 URL 以文本形式存储在页面中,有明显标识;而有些时候需要模拟浏览器运行才可以提取到页面中隐含的 URL.但在互联网这张大图上,一个页面可能被多个页面所指向,遍历时,为了防止一个网页被重复下载,这时就需要一个哈希表做记录,即遇到一个网页,首先查找判断 URL 是否在表中,若存在直接跳过,若不存在,下载页面并将这个页面的 URL 存入哈希表中。但是如果同时有上千台服务器一起下载网页,为了避免不同服务器重复判断一个 URL,要注意存储哈希表的服务器的通信问题。第一,调度系统要明确每台下载服务器的分工,减少 URL 的重复判断次数;第二,尽可能使用批处理,每次向哈希表发送一批询问和更新一批内容,减少通信次数。
2 索引--布尔代数
索引是基于数据库的,数据库的 SQL 查询背后的基本原理是布尔运算,支持各种复杂的逻辑组合,而今天的搜索引擎即是把用户输入的自然语言查询转换成布尔代数。最简单的索引结构就是一串很长的二进制数,这个数的位数代表有多少网页,每一位对应一个页面,1 代表这个页面中有这个关键字,0 代表没有。比如查询“宠物沐浴液”,关键字“宠物”对应的二进制数是 100011010000000…,表示第一、第五、第六、第八个页面包含这个关键字;关键字“沐浴液”对应的二进制数是011010010000000…,要筛选出同时包含“宠物”和“沐浴液”网页时,只需将这两个数进行布尔运算 AND,结果为 000010010000000…,可知第五、第八个页面满足要求。综上,互联网搜索引擎的索引是一张大表,每一行是一串二进制数字,表示包含某个关键词的页面序号。
3 排序--网页质量的度量
PageRank 的核心思想:一个页面用户访问的越多质量越高,而用户在浏览网页时主要通过超链接进行页面跳转,因此我们需要通过分析超链接组成的拓扑结构来推算网页被访问的频率。其中,指向这个网页的其他页面本身也有一个自己的权重。一个网页的 PageRank值应该来源于所有指向这个网页的其他页(X1,X2,…,.Xk)的权重(Y1,Y2,…,.Yk)之和,即
对矩阵 A 按行切分 10 份,对矩阵 B 按列切分 10 份。每个结果的计算量都是最后结果的十分之一,用 10 倍的空间复杂度缩短 10 倍的时间复杂度。MapReduce 即是把一个大任务分成多个子任务,分布到不同的计算机中计算,最后再将中间结果合并成最终结果。
4 结语
在搜索引擎中,给定一个特定查询,有关网页的排名大致由相关性和网页本身质量所确定。但是任何搜索产品给出的结果都不完美,排名靠前的不一定是高质量的,而是商业气息很浓的。针对 PageRank 算法会出现很多卖链接的网站,解决办法主要用到余弦定理和图论中的 Clicque 算法。即便是有好的算法来衡量网页质量和查询相关性,但搜索反作弊仍旧是一个长期的任务,需要不断的消除“噪音”,才能提高搜索引擎的质量。
经过3~5年的飞速发展,目前桌面搜索和移动搜索几乎各占半壁江山,移动搜索大有赶超桌面搜索,成为主要搜索途径之势。2013~2014年中国搜索引擎行业竞争持续升级,百度独领风骚的同时,几大追随者毫不懈怠,持续练就内功,同时借助外力,以期对百度构成威胁...
本文从卷烟企业对信息数据检索的需求出发,论述了基于Solr开发出符合自身企业的搜索引擎的可行性,介绍了有关搜索引擎及Solr的相关知识。...
0引言信息检索系统主要为互联网用户提供对资源的检索服务,用户通过输入自己想要寻找的资源信息(诸如资源的部分名称,资源内容中相关关键词等),信息检索系统根据用户提供的检索需求进行资源匹配和资源定位,并按照一定的顺序将匹配的资源反馈给用户。搜...
1引言互联网的深入发展带来了各种类型信息资源数量的快速膨胀。截至2014年6月,我国拥有273万个网站,3.3亿个IPv4地址[1].面对浩瀚巨量的网络资源,用户通过搜索引擎快速获取所需信息尤为重要。目前,我国搜索引擎用户达4.9亿;网民平均使用...
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
上世纪中页,传播学家麦克卢汉曾在《理解媒介:论人的延伸》中提出:媒介是人感觉能力的延伸或扩展。这一经典概念的重要意义,在于将人的单一感官和媒体的传播特征进行了对应。例如,从视角延伸到印刷媒介,从听觉延伸到广播以及视、听觉共同延伸到电视。而...
搜索引擎经历近30年的发展,目前在使用的有几种类型,如全文搜索引擎、分类目录搜索引擎、多元搜索引擎、集成搜索引擎等。但这些都是网络上的公用商业搜索引擎,它们往往不能满足企业的需要。...
第4章模型构建及假设提出。本章在前两章文献综述和理论分析的基础上,结合访谈的结果提出了搜索引擎优化方法和效果的维度,并构建了两者的概念模型,提出了各研究变量之间的假设关系。4.1访谈。访谈法是指研究者通过面对面、QQ等访谈方式,与受访者...
在搜索引擎技术的发展之下,智能检索作为一个新型的检索方式已经渗透到了网络数据的设计中,该种检测方式能够帮助人们检测出高质量的信息,是检索方式发展的一种必然需求,将数据挖掘技术应用在网络资源可以实现智能检索的发展,也能够为人们提供出更加具有针对性...
引言随着因特网中搜索引擎的发展和进步,油田数据的资源共享以及信息的集成都较之前更加便捷和有效了。从因特网搜索引擎的思想出发,借助SES系统的数据采集和搜索的机制,并且结合油田的信息和数据的共享的特点,制定了一套从结构体系好以及安全智能为主要...