1引言
在这个信息爆炸的时代,搜索引擎已经成为一个新兴而重要的计算机应用领域,更是成为全球资本关注的一个亮点.搜索引擎克服了数据库中存在的不足,为数据的检索提供了更为方便快捷的方式.
搜索引擎是以一定的策略在指定的搜索空间上收集和查找信息,对信息进行处理和组织后为用户提供信息查询服务。按照工作原理的不同,可以把它分为两个基本类别:全文搜索引擎和分类目录。全文搜索引擎的数据库是依靠一个叫"网络机器人(Spider)"或者"网络蜘蛛(crawlers)"的软件,通过网络上的各种链接自动获取大量的网页信息,并按一定的规则分析整理形成的.分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。
一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料.垂直搜索引擎所提供的数据库资源对用户来说更有针对性和适用性,能够更好的满足用户对信息需求的准确性.由于提高了信息的质量,因此搜索的效果会更好.
本文在基于垂直搜索引擎的工作原理下,选择以Heritrix为引擎的网络爬虫,通过扩展自己的组件来完成抓取任务,利用Lucene对抓取的信息以一定的规则进行过滤,排序,分页并建立索引.最终构建一个WEB平台通过Lucene的分析器实现与用户的智能交互过程,完成搜索功能。
2面向垂直的搜索引擎的设计
2.1需求分析
本搜索引擎是一个基于网络爬虫程序为数据来源支持,为用户提供信息查询服务的平台.
网络爬虫通过自己的策略实现从互联网网站抓取信息,然后经过组织整理,构建信息数据库,同时为各种内容建立索引,以供用户检索。用户可以通过信息检察界面,搜索他们所需要的信息,并能在搜索结果中打开一个有关详细信息的页面浏览.
2.2总体设计
此引擎分为搜索和查询两部分.搜索部分具有自动信息搜集功能,引擎主动派出"蜘蛛"程序,对一定IP地址范围的互朕网站进行信息检索,一旦发现有自己需要的产品信息,进而分析,建立索引,并将数据加入到自己的数据库中;查询部分具有简单的查询功能,用户在进入查询页面中通过输入关键字来查询相关信息.
2.3详细设计
网络爬虫部分从指定的种子URL地址开始,每次动态分析出包含待查信息且不重复的待抓取URL,从待抓URL中提取出完整的信息,包括其原始链接URL等,部分数据还需要深加工处理,如详细页的关键信息描述文本的提取.支持有条件地保存抓取来的信息,含控制台程序,可控制、监视系统运行,运行结束反馈总结报告信息.
索引部分,为了使检索功能的性能更高,速度更快的系统要求,采用建立Lucene索引机制的方式。
Lucene作为一个优秀的全文检索引擎,其系统结构具有强烈的面向对象特征.首先是定义了一个与平台无关的索引文件格式,其次通过抽象将系统的核心组成部分设计为抽象类,具体的平台实现部分设计为抽象类的实现,此外与具体平台相关的部分比如文件存储也封装为类,经过层层的面向对象式的处理,最终达成了一个低耦合高效率,容易二次开发的检索引擎系统。
2.4系统实现
本文在详细设计的基础上完成系统各功能的开发,建立各功能界面,实现系统的各个功能.通过对框架的整合和功能模块的单元测试表现,系统的基本功能已经完成,达到预期想要的结果.运行网络爬虫后会在硬盘目录上生成镜像目录存储结构,以及通过索引操作生成的索引文件,如图2-1和图2-2.
3结论
本系统采用B/S模式架构,用RIA方式减少了服务器上不必要的积压,从而保证系统的健康稳定运行。在系统的维护上,由于系统的工作性质是具有强大的后台数据源支持的,所以维护人员除了基本的日常维护外,还需要进行数据库的数据备份和数据库的灾后恢复工作.
另外,由于网络爬虫需要经常性的对某个网站进行信息抓取,这样网站容易改版,维护成本高;在服务器端运行,容易封IP,这样维护起来相对较难,需要维护人员经常对网站信息进行跟踪处理,可维护性有待加强.
参考文献:
[1]曾伟辉。深层网络爬虫研究综述[J].计算机系统应用,2008.5:122-126.
[2]范轩苗,郑宁,范渊。一种基于Ajax的爬虫模型的设计与实现[J].计算机应用与软件,2010.1:102-105.
[3]王晓伟。垂直搜索引擎若干关键技术的研究[D].浙江大学,2007.6.
[4]刘琦。垂直搜索引擎的设计开发[D].中山大学,2010.6[5]垂直搜索引擎[OL].
1语音信息及其特点自然界存在着各种各样的声音,对声音进行数字化处理得到的结果称为音频,是一种重要的计算机多媒体信息。20Hz~20kHz是正常的人耳能够感知合理频率范围。音频信息中的一种重要类型为语音,具有以下重要特征:(1)由高度抽象的概念交流...
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
搜索引擎是我们工作、学习和生活中必不可少的实用性技术,正如一个调查中所显示的,85%的人都是通过搜索引擎获取到他们所需要的信息和所喜爱的网站,可见搜索引擎的重要性。随着智能技术的不断更新,人们的生活变得越来越智能,对搜索引擎的要求也会随之越来...
本文在原有的中文抄袭检测源检测算法的基础上, 通过实验分析比较各种分词工具和词性标注工具的优缺点, 选取针对高模糊抄袭以及网络抄袭的行之有效的关键词提取方法。CNKI虽然能检测出大部分的中文抄袭, 但面对基于web抄袭的现象显得力不从心。...
安徽农业大学校园网始建于2000年,现有信息网点一万多个,学生用户二万多人,FTP服务器是校园网主要的应用服务之一。在FTP服务器上目前保存着多种共享软件、技术资料和多媒体数据等几十个TB的文件资源。FTP服务器建有若干目录,文件与目录结构存在多...
首先Web信息检索挖掘技术做了简要概念,其次对基于Web挖掘的网络搜索引擎技术的应用进行了分析,提出了一种给予Web挖掘的个性化搜索引擎,并对各系统模块的功能及实现方式进行研究,分析结果表明,此种系统具有很强的检索灵活性,而且还能实现个性化查询结果...
0引言新浪微博是一个由新浪网推出,提供微型博客服务的类Twitter网站。用户可以通过网页、WAP页面、手机客户端、手机短信、彩信发布消息或上传图片。新浪可以把微博理解为微型博客或者一句话博客。用户可以将看到的、听到的、想到的事情写成一句话,...
0引言在信息化时代,针对通用搜索引擎信息量大、查询准度和深度兼差等缺点,垂直搜索引擎已进入了用户认可和使用周期。垂直搜索是针对某一个行业的专业搜索引擎,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某...
以搭建节能减排领域的垂直搜索引擎为需求背景,利用Nutch开源框架,结合网页模板、向量空间模型以及朴素贝叶斯算法等技术,实现了垂直搜索引擎的开发。实验证明,完成的搜索引擎初步实现了对节能减排相关的信息检索,降低了工作人员获取该领域信息的难度。 ...
一、金融垂直搜索及融360现状分析金融垂直搜索是专门针对金融行业信息的专业搜索引擎,其特点就是专、精、深,明显具有金融行业色彩。目前国内信用体系并不健全,传统引擎不能满足用户金融信息领域的专业化搜索需求,同时金融产品不断涌现,其搜素比价...