0 引 言
在信息化时代,针对通用搜索引擎信息量大、查询准度和深度兼差等缺点,垂直搜索引擎已进入了用户认可和使用周期。垂直搜索是针对某一个行业的专业搜索引擎,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户[1].相比通用搜索引擎则显得更加专注、具体和深入。目前,垂直搜索引擎多用于行业信息获取和特色语料库建设等方面,且已卓见现实深远成效。
网络爬虫是一个自动提取和自动下载网页的程序,可为搜索引擎从互联网上下载网页,并根据既定的抓取目标,有选择地访问互联网上的网页与相关的链接,获取所需要的信息。按照功能用途,网络爬虫分为通用爬虫和聚焦爬虫,这是搜索引擎一个核心组成部分。
1 聚焦爬虫的工作原理及关键技术分析
1. 1 聚焦爬虫的工作原理
聚焦爬虫是专门为查询某一主题而设计的网页采集工具,并不追求大范围覆盖,而是将目标预定为抓取与某一特定主题内容相关的网页,如此即为面向主题的用户查询准备数据资源。垂直搜索引擎可利用其实现对网页主题信息的挖掘以及发现,聚焦爬虫的工作原理是:
( 1) 爬虫从一个或若干起始网页 URL 链接开始工作;( 2) 通过特定的主题相关性算法判断并过滤掉与主题无关的链接;( 3) 将有用链接加入待抓取的 URL 队列;( 4) 根据一定的搜索策略从待抓取 URL 队列中选择下一步要抓取的网页 URL.重复以上步骤,直至满足退出条件时停止[2].
1. 2 聚焦爬虫的几个关键技术
根据聚焦爬虫的工作原理,在设计聚焦爬虫时,需要考虑问题可做如下论述。
1. 2. 1 待抓取网站目标的定义与描述的问题
开发聚焦爬虫时,应考虑对于抓取目标的定义与描述,究竟是带有目标网页特征的网页级信息,还是针对目标网页上的结构化数据。前者因其具有结构化的数据信息特征,在爬虫抓取信息后,还需从结构化的网页中抽取相关信息; 而对于后者,爬虫则直接解析 Web 页面,提取并加工相关的结构化数据信息,该类爬虫便于定制自适应于特定网页模板的结果网站。
1. 2. 2 爬虫的 URL 搜索策略问题
开发聚焦爬虫时,常见的 URL 搜索策略主要包括深度优先搜索策略、广度优先搜索策略、最佳优先搜索策略等[3].在此给出对应策略的规则分析如下。
( 1) 深度优先搜索策略
该搜索策略采用了后进先出的队列方式,从起始 URL出发,不停搜索网页的下一级页面直至最后无 URL 链接的网页页面结束; 爬虫再回到起始 URL 地址,继续探寻 URL的其它 URL 链接,直到不再有 URL 可搜索为止,当所有页面都结束时,URL 列表即按照倒叙的方式将搜索的 URL 队列送入爬虫待抓取队列。
( 2) 广度优先搜索策略
该搜索策略采用了先进先出的队列方式,从起始 URL出发,在搜索了初始 Web 的所有 URL 链接后,再继续搜索下一层 URL 链接,直至所有 URL 搜索完毕。URL 列表将按照其进入队列的顺序送入爬虫待抓取队列。
( 3) 最佳优先搜索策略
该搜索策略采用了一种局部优先搜索算法,从起始 URL出发,按照一定的分析算法,对页面候选的 URL 进行预测,预测目标网页的相似度或主题相关性,当相关性达到一定的阈值后,URL 列表则按照相关数值高低顺序送入爬虫待抓取队列。
1. 2. 3 爬虫对网页页面的分析和主题相关性判断算法
聚焦爬虫在对网页 Web 的 URL 进行扩展时,还需要对网页内容进行分析和信息的提取,用以确定该获取 URL 页面是否与采集的主题相关。目前常用的网页的分析算法包括: 基于网络拓扑、基于网页内容和基于领域概念的分析算法[4].下面给出这三类算法的原理实现。
( 1) 基于网络拓扑关系的分析算法
基于网络拓扑关系的分析算法就是可以通过已知的网页页面或数据,对与其有直接或间接链接关系的对象作出评价的实现过程。该算法又分为网页粒度、网站粒度和网页块粒度三种。着名的 PageRank 和 HITS 算法就是基于网络拓扑关系的典型代表。
( 2) 基于网页内容的分析算法
基于网页内容的分析算法指的是利用网页内容( 文本、数据等资源) 特征进行的网页评价。该方法已从最初的文本检索方法,向网页数据抽取、数据挖掘和自然语言等多领域方向发展。
( 3) 基于领域概念的分析算法
基于领域概念的分析算法则是将领域本体分解为由不同的概念、实体及其之间的关系,包括与之对应的词汇项组成。网页中的关键词在通过与领域本体对应的词典分别转换之后,将进行计数和加权,由此得出与所选领域的相关度。
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
网络爬虫作为搜索引擎技术的核心技术,是按一定遍历策略,以网页之间的链接为路径,抓取网页必要信息,并将其下载到本地存储设备上,以便进行信息预处理的程序或脚本。随着互联网的普及与搜索引擎技术的不断发展,网络爬虫技术作为搜索引擎的核心技术,已被...
网络爬虫是搜索引擎技术当中的一类核心性技术,其技术主要是以遍历策略为基准,借助网页链接来收集整合网页当中必要类的数据信息,同时把其数据信息下载存储到本地的相应设备上,使得数据信息的预处理程序以及脚本等的使用变得更为流畅。...
1引言在这个信息爆炸的时代,搜索引擎已经成为一个新兴而重要的计算机应用领域,更是成为全球资本关注的一个亮点.搜索引擎克服了数据库中存在的不足,为数据的检索提供了更为方便快捷的方式.搜索引擎是以一定的策略在指定的搜索空间上收集和查找信息,对信...
通过对爬虫理论的相关理解, 将互联网上海量的信息按需要加以分类和存储, 并最终展示给特定用户的特定领域需求的信息, 避免网上海量信息的视觉冲击, 从而达到准确, 高效检索的目的。...
以搭建节能减排领域的垂直搜索引擎为需求背景,利用Nutch开源框架,结合网页模板、向量空间模型以及朴素贝叶斯算法等技术,实现了垂直搜索引擎的开发。实验证明,完成的搜索引擎初步实现了对节能减排相关的信息检索,降低了工作人员获取该领域信息的难度。 ...
对于网页时效性问题可以将权重高的网络站点和权重低的网络站点分开处理,对高权重和低权重的站点内容分别以合适的高频率进行抓取,并将抓取的结果置于缓存中,索引程序对缓存中的数据进行处理,这样可以使得高权重与低权重站点抓取并行处理,数据抓取与索引建...
1网络爬虫的历史及现状网络爬虫是一个自动提取网页的程序,如果把互联网比喻成一个蜘蛛网,那么爬虫就是在网上爬来爬去的蜘蛛。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列...
绍兴图书馆数字化工程经过10余年的建设,目前已拥有较为完善的软、硬件设施,积累了一定规模的数字资源,在特色数据库建设以及公共图书馆数字资源整合门户建设方面已具雏形,相继开通了多项数字化服务项目.2011年绍兴图书馆数字资源访问、下载量突破了...
1传统搜索引擎存在问题(1)目录式搜索的缺陷是速度慢目录式搜索的用户界面基本上都是分级结构,提供几个大类入口,用户一级一级地向下查询,经过若干人工搜索后找到需要查询的结果.它虽然可以找到需要的信息,但是其死链接较多,要依赖手工操作,按照分...