搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

现有搜索引擎的缺陷及其未来十四种趋势

来源:学术堂 作者:周老师
发布于:2015-09-01 共5019字
摘要

  目前,人们把搜索引擎分成三代。第一代是Yahoo的人工整理的目录方式,第二代是Google开创的由“爬虫”采集海量数据,用户通过关键字检索的机器搜索。第三代是所谓的通过自然语言检索。笔者认为真正意义上的搜索引擎,只有第一代和第二代,第三代搜索只是在技术上的提升。现有的搜索引擎经过十几年的发展,虽说已贴近人们的需求,但也逐渐暴露出一些问题和不足。在此,笔者对搜索引擎存在的缺陷及未来发展的趋势谈点个人体会,希望能为搜索引擎的开发提供一点帮助。

  1现有搜索引擎的缺陷

  缺陷一:首先,搜索引擎的选择需根据经验来初步选定,目前尚未形成一套固定的选择原则和方法。

  缺陷二:搜索引擎的信息覆盖率、查全率偏低。美国科学期刊Nature上的一篇文章曾这样报道:即使最大的搜索引擎也只能覆盖现在网页资源16%,据美国NEC研究所两位博士的研究,目前的搜索引擎漏掉了84%左右的网页信息。尤其是中文搜索引擎在信息规模、收录内容、标引深度等方面更是相距甚远。中文信息资源以文化娱乐、商业信息为主体,学术信息匮乏。目前,中文信息资源与西文相比只占5%左右。因特网上有100多亿个网页,有着最大搜索量google目前也只能搜索33亿网页。所以说,再大的搜索引擎都不可能有100%查全率,因此对用户来讲更多要求的是查准率。的确是这样,当你没有选择到合适的引擎来查找你需要的内容时,你确实找不到。

  缺陷三:专题性搜索引擎太少 目前,大多搜索引擎都是综合型、通用的,使用者在搜索时不相关信息太多,找不到更深入的内容。而可用的面向主题的引擎甚少,这对专业人士来说是非常不利的。

  缺陷四:目录式搜索速度太慢,而机器人搜索的可用性又不尽如人意,相信每人都会有这样的感受,为了得到想要的结果,从搜索引擎返回的页面中细细检索,还常常需要更换关键字,最后也不一定能得到想要的答案。

  缺陷五:用户界面简单且不够友好,不能准确地表达用户的搜索意图。虽然有成千上万的链接,但可供用户选择搜索条件和搜索结果的功能却不多。多数搜索引擎没有类型、范围的限定,不是面向用户搜索而是面向主题搜索,不能重复利用检索的历史信息,更不能进行定题跟踪服务,对自然语言理解也有限,由于各搜索引擎关键词检索所采用的符号及含义,分类检索所建立的类目体系及使用规则不尽相同,因此给用户构造检索式带来了困难。网站简介不规范,经常误导用户进入广告世界,网页的帮助系统缺乏透明度,等同虚设。

  缺陷六:现有搜索引擎在检索功能上存在的问题:①运用布尔逻辑符组合数量受限;②仅能使用关键词提问,而关键词搜索最大的缺陷就是信息过载,并且无用信息多,关键词搜索不能把文档的标题、关键词、内容等多方面的内容融为一体,不能自动过滤提取最有价值的内容,不能自动过滤掉不相关的内容,但当你使用多个关键词来限定时,又必定存在信息漏检的问题,不能完全满足用户的需求;③结果表示方法简单,使得用户感到头疼找不到头绪;④不能重复利用检索的历史信息;⑤受单个引擎的限制。

  缺陷七:由于各搜索引擎收集信息的方式、索引方式、检索算法以及结果排序方法各不相同,加之网络资源纷繁复杂,零乱分散,使得信息的组织与标引没有统一规范。由于每种搜索引擎都有自己的信息收集方法及范围,导致不同的搜索引擎在检索结果的数量和质量上产生明显的差异;又由于各自不同的标引方式,使得相同的搜索请求在不同的搜索引擎中搜索而却得到差异很大的搜索结果。再者,由于网页编写的自发性、随意性较强,网页制作者为了将最有“价值”网页提供给用户,搜索引擎一般都按查询的相关程度对检索结果进行排序。最相关的文献通常排在最前面。但由于不同的搜索引擎对相关度的判定原则不同,确定相关性的方法不同,加之排序方式单一,关键词检索输出的结果不能根据用户需要来选择排序方式;一些网页制作者为了提高其网页的命中率及相关度,将一些与网页主题不相关的热门词汇以隐含的方式放在页面上,并多次重复,或放在Meta Tag中,造成查准率低。

  缺陷八:检索语言不够规范。具体体现在:分类不够科学,自然语言不够规范,分类主题不够深入,主题标引不够准确。

  缺陷九:检索出现信息过载,无用信息多。主要体现在:分类主题检索输出的往往是网站,而不是网页信息,用户进入网站又找不到需要的内容,而无论是关键词或是主题分类检索,由于信息输出格式简单,不能向用户提供更好的途径和信息。网站、网页是处于动态变化的,如不及时维护更新刎旧数据库,就会出现无效链接,甚至是错误链接或死链接,并且输出重复信息、无用信息多,据统计,网页的重复率平均为4,也就是说当你通过一URL在网上看到一个网页的时候,平均还有另外3个不同的URL也给出相同或者基本相似的内容,这对于搜索引擎来说,不仅在搜索网页时要消耗机器时间网络带宽资源,而且如果在查询结果中出现,无意义地消耗了计算机显示屏资源。就是目前一些着名的搜索引擎其返回的相关结果也不足45%.就拿百度来说吧,当你输入一个关键词搜索时,返回结果中就有70%~80%无用信息,甚至是100%无用。

  缺陷十:查询方式单一。搜索引擎大都提供分类查询和关键词查询方式。而不能实现概念检索,不能从信息的多方面进行检索提问,只能就某一关键词或概念进行笼统的检索。关键词检索采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,也就是说搜索引擎无法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等;缺陷十一:检索方式与数据收集(即索引数据库)不匹配 检索方式是指搜索引擎允许用户提交查询的形式。不同的用户对信息需求有所不同,不可能有一种普适方式。通常对于普通网络用户,最自然的检索方式就是“要什么就输什么”,但这种方式相当模糊。当用户需要一些间接信息,如,用户想查找“喜马拉雅山的高度”,8 848m应该是他想要的,但这个数据不可能包含在这个检索词中。

  缺陷十二:网络检索效果没有统一的评价标准。

  缺陷十三:在网上收集资料受设备条件、网速以及经济条件的限制,用户需花时间等待,影响效率。

  2搜索引擎未来的发展趋势

  趋势一:应向智能化方向发展。结合人工智能技术的智能搜索引擎能把信息搜索从目前基于关键词层面提高到基于知识(或概念)层面,智能搜索引擎可以将自然语言与用户交互,自然语言搜索符合人们的语言习惯,像人与人之间的交流一样轻松、直接、方便,不必再拘泥于分类、关键词等传统搜索方法,这无疑给用户提供了巨大的便利。把“语言计算”、云搜索服务技术和人工智能融合,让计算机返回的结果富有针对性,将准确信息显示在前两三项的搜索结果之中。让计算机具有人的智能和逻辑分析能力,能够理解自然语言表达的语义,使搜索结果与用户需求实现更精准的匹配。

  趋势二:实现搜索引擎和网络资源目录的同步支持。网络资源目录是目录型网络检索工具,通常叫网络目录,也叫专题目录或主题指南、站点导航系统等。它是由网络开发者开发者搜集网络资源后,以某种分类法进行组织整理,并与检索法集成在一起的查询方式。从使用的角度讲,网络目录的最大特点就是网络用户在查询信息时,事先可以没有特定的信息检索目录(关键词)。用户可以按照模糊的主题概念,在查询中分步骤地组织自己的问题,通过分析和匹配自己的思维逻辑和概念的组织过程获取所需信息,逐步明确检索概念的范围和检索需求。这一特点正好弥补了搜索引擎的不足。

  趋势三:向个性化、特色化方向发展。个性化是指各网络检索工具注重内容的特色化和服务的个性化。个性化的核心是跟踪与分析用户的搜索行为,使得个性化搜索更符合用户的需求。搜索引擎还应有各自的特色化检索体系以便满足用户对不同领域信息的需求。

  趋势四:向多媒体化方向发展,随着视频、音频等多媒体信息的检索数量高速增长,多媒体搜索引擎的检索结果形式应多样化、生动化、更好地满足用户的需求。

  趋势五:向功能多元化方向发展 ,虽然现有多数搜索引擎功能已经很全,但还不能满足用户越来越多的需求。①表现在可以检索的信息形态多样化;②表现在搜索引擎要向其他服务范畴扩展,要以多种形式满足用户的需要。

  趋势六:向商业化方向发展,随着用户基数的不断增长,为电子信息的增值服务提供了广阔的空间。网络检索系统已成为新的投资热点,搜索引擎已经不仅仅是一门技术,也是一门服务形态,而且成为一项产业,它的商业利益成为推动系统完善和扩展的主要动力,网络信息的检索与利用由公用性转向商业化。

  趋势七:向专业化方向发展。由于用户千差万别,对信息搜索要求不同,综合性的搜索引擎收录的范围太广、太大,无法满足某一特定的需求。专业搜索引擎只面向某一特定的领域专注于自己的特长和核心技术。具有针对性强、实用性强的特点,如,提供FTP等类信息的检索。

  趋势八:向可视化信息检索方向发展。即把文献信息、用户提问、各类检索模型以及利用检索模型进行信息检索的过程,展示在一个可视化空间中,同时向用户提供信息检索服务。这样能使用户更直接、方便、快速、高效地获取信息和知识。相信随着网络技术的不断发展,以及XML、RDF、GRID在信息中的应用,可视化检索定能成为搜索引擎新的发展方向。

  趋势九:提高搜索引擎对自然语言答询功能的运用。使用户可以输入简单的疑问句,比如“互联网是什么?”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择,使得查询变得更加方便、直接、有效,从而提高检索效率。

  趋势十:应将搜索引擎的技术开发重点放在对检索结果的处理上,提供更优化的检索结果。通常我们在检索过程中会出现过多的附加信息,为了去掉这些过多的附加信息,希望采用用户定制、内容过滤等检索技术过滤掉多余信息。同时,大力开发元搜索引擎。因为每个搜索引擎收集资源平均只能占到整个Web的资源的30%~50%,导致同一个搜索请求在不同的搜索引擎中获得查询结果的重复率不足34%,而每个搜索引擎的查准率又不到45%.元搜索引擎是将用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此,有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。

  趋势十一:一站式搜索。是将图片、新闻、股票等各种相关的信息整合在同一界面,使用户一次查询就能得到全部满足,它能使用户搜索时只需输入一次查询目标,就可在同一界面得到各种相关的搜索结果。

  趋势十二:综合情景式搜索引擎是一个集成了个性化、地区定位、社区相关性搜索技术的一个引擎。相对其他搜索引擎除了强调搜索结果与用户的需求的相关性,还增加了一个维度,就是搜索结果的可依赖性。这种社区相关搜索能为用户提供更准确、更值得信任的搜索结果;它的地区定位系统可以为用户提供准确的地理位置服务。根据用户服务的使用习惯建立用户的模组信息。这种技术通过捕捉和提高用户信息来学习用户的兴趣行为,从而实现主动推荐的目的。它的个性化体现在:①检索。根据用户的行为和习惯模式,建立模组兴趣特征库,并根据这些特征排序搜索结果。②个性化推荐。通过在相同模组数据内的使用者的资料,提供给正在查询的用户。

  趋势十三:提高查全率、查准率。要提高查全率,必须从搜索引擎的组织机制、标引深度和规范化程度、检索功能、用户界面等各个方面进行改进。可开发分布式系统、将Web信息资源与非Web信息资源结合起来,就会大大提高查全率。要提高查谁率,必须从信息过滤、信息标引、信息检索三大方面进行改进,应采用效率更高的算法和智能化更高的程序来改进。

  趋势十四:提高P2P对等网络搜索技术。P2P搜索技术是指互联网用户共享所有用户硬盘上文件、目录甚至整个硬盘。它可以使用户能够深度搜索文档、而且不用通过服务器,也可以不受信息文档格式和宿主的设备的限制。

  3结束语

  在技术创新突飞猛进的今天,搜索技术也应跟上时代前进的步伐,“智能化”无疑是我们的方向。希望在未来搜索引擎的发展进程中,能够看到更加“人性化”的引擎工具,让搜索更快、更优、更强,使搜索引擎成为我们最贴心的朋友和伙伴!

  [参考文献]

  [1]李卓君。搜索引擎问题分析及发展趋势研究[EB/OL].

  [2]徐建华。网络搜索引擎原理、特性分析及未来发 展 趋 势 [EB/OL].

  [3]许剑颖。搜索引擎发展趋势研究[EB/OL].

  [4]宋婷婷。WEB搜索引擎设计原理与发展方向探 究 [EB/OL].

  [5]中国学术期刊网。未来搜索引擎发展趋势分析 与 设 想 [EB/OL].

相关内容推荐
相关标签:
返回:搜索引擎论文