垂直搜索引擎与计算机领域多个方面的发展与应用息息相关,其关键技术更是促进计算机领域进一步发展的重要突破口。所以,对于垂直搜索引擎关键技术的研究具有十分重要的意义。我国计算机领域虽然对垂直搜索引擎关键技术方面进行了一定的研究,并且其研究应用在实际的计算机应用中也取得了十分有效的成绩。然而,随着科学技术的发展,对计算机技术要求不断提高的同时,对于垂直搜索引擎的关键技术也有了新的要求。因此,在今后的发展中,相关领域的专业人士要加强对垂直搜索引擎关键技术的重视和研究,进而在更大程度上提高垂直搜索引擎关键技术的应用水平。
一、垂直搜索引擎概述
1. 垂直搜索引擎的概念
所谓的垂直搜索引擎实际上就是搜索引擎的一个分支、是搜索引擎的细化。也就是说,垂直搜索引擎所搜索的信息更加具有行业性,更加具有专业化。用计算机领域的专业术语来讲就是“对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户”.因而,垂直搜索引擎更加受到某些专业性、行业性比较强的用户的欢迎。
2. 通用搜索引擎与垂直搜索引擎的不同
垂直搜索引擎与通用搜索引擎最大的区别和不同就是对于搜索信息范围的不同。我们从字面上来理解通用二字就可以知道,通用搜索引擎适用于任何一类信息的搜索,只不过其缺点就是搜索的范围比较大,需要操作者在搜索之后对信息进行进一步的筛选。而垂直搜索引擎则能很好的避免这一问题,其搜索都是针对于某一行业的专业搜索,因而能够在最快的时间内为操作者提供最有效的信息。从当前社会的发展来看,人们对计算机要求的不断提升,相信这种垂直搜索引擎将会受到越来越多人的喜爱。
二、垂直搜索引擎的关键技术
从上述分析中可知,垂直搜索引擎是计算机领域中的一个发展重点,并且垂直搜索引擎相比于通用搜索引擎而言,更加适合于未来人们对计算机应用的需要。所以,对垂直搜索引擎关键技术的研究势必要提上日程。笔者在此主要从以下几个方面对垂直搜索引擎的关键技术进行了研究,希望以下这些研究能够为垂直搜索引擎关键技术的研究发展提供一些参考。
1. 网络爬虫技术
网络爬虫技术是垂直搜索引擎中一项十分重要的关键技术,该技术是一种能够自动抓取网页程序的技术,因而是搜索引擎中的重要组成成员。而也是这一重要地位决定了网络爬虫技术工作流程的复杂性。该技术在具体的工作过程中是需要对网页进行大量的分析后,来丢掉每一个与搜索信息无关的连接,与从同时,将分析后留下的连接在放入等待抓取的地方,进而进行下一步的抓取与筛选。
广度优先和深度优先是网络爬虫技术的两个策略,两种策略以其各自的优势为该技术的应用提供便捷。此外,在使用网络爬虫技术的过程中,还需要意识到一点,即每一个被该技术抓取的网页都将会被计算机的系统储存,并且这些网页会通过多个方面的分析和过滤后建成相应的索引。
2. 网页信息抽取技术
所谓的网页信息抽取技术指的就是用网页作为信息源头,在网页中搜索计算机使用者需要的或者是感兴趣的信息。网页信息抽取技术的优势是其所搜索出的信息经过了多个方面的处理,将原有网页上的信息处理的更具有结构化、清晰化,切格式也比较统一。现有的网页信息抽取技术主要有三种抽取方法:基于自然语言处理的方式、基于包装器归纳的方式、基于 HTML 结构的信息抽取。三种方法都为垂直搜索引擎做出了突出的贡献。并且随着未来电子商务领域的不断发展,这种网页信息抽取的搜索引擎方法将发挥更大的应用价值。
3. 中文分词技术
除了以上两种垂直搜索引擎关键技术外,中文分词技术也是最为常用的一种垂直搜索引擎技术。该种技术对于文本的处理速度是十分快速的,而该种技术也是由于其快速性被广泛的应用。中文分词技术的方法有很多,如基于字符串的匹配、基于统计的方法等,都是垂直搜索殷勤中的重要方法。然而,在实际中文分词技术的应用中,由于网络语言发展的比较快,各种新颖的网络新词层出不穷,而这一点也成为了中文分词技术应用的重要挑战。
三、垂直搜索引擎的发展空间
从上述垂直搜索引擎关键技术的研究中我们可以发现,当前的关键技术的应用已经取得了很大的成就,并且随着关键技术的进一步研究,将会有越来越多的行业意识到垂直搜索引擎价值性。同时,随着当前市场发展的多元化、专业化,垂直搜索引擎这种适合专业性、行业性领域发展的技术势必会在未来的搜索行业中占有举足轻重的地位,并且将计算机领域的发展推向另一个高潮。
以上仅仅只是笔者对于垂直搜索引擎关键技术的几个主要方面的分析,然而,事实上,其关键技术涉及的方面比较多,再加之笔者对于垂直搜索引擎方面的研究能力有限,因而仅仅凭借以上对于垂直搜索引擎关键技术的研究来促进该方面技术的发展和应用是远远不够的。因此,对于垂直搜索引擎关键技术的研究还有待进行进一步的探索。
四、结语
综上所述,对于垂直搜索引擎关键技术的研究不仅仅有利于提高该技术在计算机领域的进一步应用,同时更有利于促进计算机领域的全面发展。然而,垂直搜索引擎关键技术的研究涉及的内容比较多,并且每一项关键技术都十分复杂,再加之垂直搜索引擎相关领域工作人士对于其关键技术的研究还没有达到一定的深度和广度,因而不利于实际关键技术的应用和发展。所以,在今后垂直搜索引擎领域的发展中,要加强对其关键技术的重视和研究,并且要从其关键技术的多个角度、多个方面进行分析,从而研究出更好、更有利于促进垂直搜索引擎关键技术应用与发展的方法与措施。
参考文献:
[1] 王晓伟 . 垂直搜索引擎若干关键技术的研究 [J]. 浙江大学学报 ,2007,(5)。
[2] 李副铭 . 垂直搜索引擎的研究与设计 [D]. 电子科技大学学报 ,2009,(9)。
[3] 刘世涛 . 简析搜索引擎中网络爬虫的搜索策略 [J]. 阜阳师范学院学报 ,2006,(9)。
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
1引言在这个信息爆炸的时代,搜索引擎已经成为一个新兴而重要的计算机应用领域,更是成为全球资本关注的一个亮点.搜索引擎克服了数据库中存在的不足,为数据的检索提供了更为方便快捷的方式.搜索引擎是以一定的策略在指定的搜索空间上收集和查找信息,对信...
0引言在信息化时代,针对通用搜索引擎信息量大、查询准度和深度兼差等缺点,垂直搜索引擎已进入了用户认可和使用周期。垂直搜索是针对某一个行业的专业搜索引擎,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某...
以搭建节能减排领域的垂直搜索引擎为需求背景,利用Nutch开源框架,结合网页模板、向量空间模型以及朴素贝叶斯算法等技术,实现了垂直搜索引擎的开发。实验证明,完成的搜索引擎初步实现了对节能减排相关的信息检索,降低了工作人员获取该领域信息的难度。 ...
对于网页时效性问题可以将权重高的网络站点和权重低的网络站点分开处理,对高权重和低权重的站点内容分别以合适的高频率进行抓取,并将抓取的结果置于缓存中,索引程序对缓存中的数据进行处理,这样可以使得高权重与低权重站点抓取并行处理,数据抓取与索引建...
未来,少数民族文字网站的数量还将有更大的增长,信息量呈几何级的爆炸,少数民族群众在网络上获取本民族文字信息的需求也将与日俱增。...
Internet网络技术的快速发展,使网络已经成为了人们日常生活不可或缺的一部分,它作为信息发布、传播的主要方式,Web拥有几亿页面的分布式信息空间,目前仍然以130~200d翻一番的速度增加。Internet信息广泛,涵盖量很大,要从中迅速找出自己需要的信息...
绍兴图书馆数字化工程经过10余年的建设,目前已拥有较为完善的软、硬件设施,积累了一定规模的数字资源,在特色数据库建设以及公共图书馆数字资源整合门户建设方面已具雏形,相继开通了多项数字化服务项目.2011年绍兴图书馆数字资源访问、下载量突破了...
1传统搜索引擎存在问题(1)目录式搜索的缺陷是速度慢目录式搜索的用户界面基本上都是分级结构,提供几个大类入口,用户一级一级地向下查询,经过若干人工搜索后找到需要查询的结果.它虽然可以找到需要的信息,但是其死链接较多,要依赖手工操作,按照分...
0引言面对着海洋似地互联网数据,用户要查询到自己所需要的信息,如同在大海里捞针,而搜索引擎技术的出现恰好解决了这一难题。搜索引擎技术目前已经成为研究开发的热点领域。一个成功的优秀的搜索引擎能够对互联网上的信息经过特定的检索策略,对各类信...