1 搜索引擎概述
随着互联网技术的不断发展,网上的信息也迅速增长,搜索引擎已经成为网上检索信息的非常重要的工具,是互联网上最重要的应用之一.搜索引擎主要以网页的形式与用户交互,根据用户提出的请求对网络节点遍历查找以找到匹配的信息.国内主流搜索引擎有百度、谷歌、雅虎及搜狐等,其侧重点有所不同.
2 搜索引擎的分类
搜索引擎按照其工作方式主要分为三类,分别是全文搜索引擎、目录索引类搜索引擎、元搜索引擎.全文搜索引擎,如百度、谷歌等,从互联网上提取网站信息而建立数据库,根据用户给出的查询要求检索数据库,找到匹配的记录,然后将排序后的结果返回给用户.目录索引类搜索引擎,如雅虎、搜狐等,仅仅是按目录分类的网站链接列表,用户通过逐级点击访问.元搜索引擎没有自身数据库,在接受用户搜索请求后,通过其他搜索引擎查询信息并将结果返回给用户.
搜索引擎的种类还有通用搜索引擎、垂直搜索引擎等.百度、谷歌、雅虎及搜狐等搜索引擎都属于通用搜索引擎.通用搜索引擎的目标是尽可能大的网络覆盖率,它已经成为了人们在互联网上搜索信息必不可少的工具.然而,尽管搜索引擎能够搜索出大量的信息,但是在这些搜索结果中既有精华也有无效信息、重复信息.
核心问题在于:搜索引擎仅仅是做关键字匹配,而忽视了用户请求所代表的含义,不能提供基于语义的检索.
基于自然语言的智能搜索,搜索过程是内容概念相互关联的匹配,为用户提供更加全面、个性化和精准的搜索结果.人们对搜索引擎的专业性要求的不断提高使传统搜索引擎已经无法满足用户的多样化需求,垂直搜索引擎的诞生弥补了这一不足.垂直搜索引擎是搜索引擎的一个分支,搜索的信息更加行业化、专业化,是对每类专门信息的整合.垂直搜索引擎的搜索范围不同于通用搜索引擎,通用搜索引擎适合于各类信息的搜索,而垂直搜索引擎是对某行业信息的专业搜索.通用搜索引擎的搜索结果往往需要用户在搜索之后对信息进行进一步筛选,而垂直搜索引擎则能为用户提供有效的信息.
3 搜索引擎的工作原理
搜索引擎的工作可以分为四个阶段:抓取网页、建立索引数据库、搜索匹配的网页及结果排序.网络爬虫是搜索引擎中的一个重要程序,为搜索引擎从万维网上下载网页存放于数据库中.它利用网页中的超文本链接,通过 URL 从一个网页爬行到另一个网页,在下载时利用广度优先搜索(BFS)和深度优先搜索(DFS)来遍历网页,用 Hash 表记录下载页面的 URL,以免重复下载.搜索引擎为下载的网页建立索引数据库,进行一系列的预处理工作,待用户输入查询关键词后,在索引数据库中查找匹配的网页,对查询结果排序后反馈给用户.
4 搜索引擎的发展趋势
随着网络信息量的迅猛增长和用户需求的日益复杂,仅仅依靠传统搜索引擎已经无法满足人们的需求,搜索引擎正朝着智能化、移动搜索等方面发展.
4.1 基于大数据分析的智能搜索引擎大数据时代,数据规模化、数据类型多样化,不仅要求搜索引擎能快速响应,而且也对其具备大数据处理和分析能力提出了要求.用户使用传统搜索引擎的过程中往往要与之进行多次交互,使结果更加逼近用户的最终目标,效率较低.智慧搜索将搜索技术和人工智能相结合,能够通过大数据分析洞察其含义,对查询表达式做语义扩展,从而更加准确地获得搜索结果,提高搜索效率[1].同时,大数据环境下的搜索引擎是对跨领域、跨学科的海量信息资源的搜索,需要将用户的查询问题转换成独立搜索引擎可接受的形式,并向它们发送请求,然后对各独立搜索引擎反馈的结果进行去重、合并、排序等处理,最后将结果提交给用户.
4.2 移动搜索引擎移动搜索是传统搜索引擎在移动终端的延伸,是搜索引擎新的发展趋势.随着智能手机的普及,移动网络的流量迅速增长,需要在搜索能力上不断提高.移动搜索引擎主要分为基于浏览器的、基于短信的和基于手机应用程序的[2].移动搜索的优势主要体现在:不受时间和地点的限制,从而更加便捷;多采用垂直搜索技术,因而搜索结果更加精准.
5 结 语
随着人们对网络信息资源检索需求的不断增加,对搜索引擎提出了高精度、个性化、交互性及智能化等功能需求,搜索引擎技术随之不断改进,有效地提高了互联网信息资源的利用率,充分发挥了资源共享的作用.
参考文献
[1] 顾君忠 , 陈民 . 基于大数据分析的智能搜索引擎[J]. 软件产业与工程 ,2015(1).
[2] 于博 . 浅谈移动搜索引擎 [J]. 技术与市场 ,2014(4).
1语音信息及其特点自然界存在着各种各样的声音,对声音进行数字化处理得到的结果称为音频,是一种重要的计算机多媒体信息。20Hz~20kHz是正常的人耳能够感知合理频率范围。音频信息中的一种重要类型为语音,具有以下重要特征:(1)由高度抽象的概念交流...
网络信息检索凭借自身丰富的信息与时效性强等特征,成为应用最广泛的信息获取方式。但当前企业检索信息的模式主要以搜索引擎与超文本浏览模式为主,在实际应用中,两种模式查准率、查全率等方面的问题逐渐暴露,对企业信息服务的效益价值也随之降低。...
1引言在网络和电子等技术的发展影响下,每天网络中产生大量的数据,图灵奖获得者JimGray提出了一个关于网络环境下数据量的定律:网络环境下每18个月产生的数据量等于有史以来数据量之和[1].如此海量的数据中蕴含着大量有用的信息[2],检索正是实现信息发...
因特网的普及和发展给人们带来了空前丰富的信息资源,越来越多的用户利用网络阅读和查询所需信息,网上阅读和检索已成为人们获取信息的重要途径。如何认识和利用浩瀚如海的网络信息,快速查找并准确获取所需资源,需要掌握一定的网络检索方法和技巧以便捷地...
在信息高度发达的今天,互联网上的信息量以几何级增长,人们如何从海量的数据中快速准确地找到自己所需要的信息成为一个难点。通用搜索引擎虽能覆盖所有的资源,但其本质是检索词匹配,容易忽略用户搜索的真实意图。...
如何有效地利用海量的信息资源, 如何在广阔信息的海洋中寻找有用的信息是一个较难的任务, 解决这些问题的最有效的工具是搜索引擎。...