Internet 网络技术的快速发展 ,使网络已经成为了人们日常生活不可或缺的一部分 ,它作为信息发布、传播的主要方式 ,Web 拥有几亿页面的分布式信息空间 ,目前仍然以 130~200d 翻一番的速度增加。Internet 信息广泛 ,涵盖量很大 ,要从中迅速找出自己需要的信息 ,有一定难度。因此 ,人们研究开发了多种检索工具 ,以便自可以快速方便的找出自己想要的内容。
随着科学技术的不断发展与成熟 ,网络搜索引擎得到了快速发展 ,它是以一定的策略在互联网中搜集、发现、提取、处理信息的过程 ,通过为用户提供检索服务 ,发挥其信息导航的作用。
1 搜索引擎技术
1.1 分类
①目录式搜索引擎。其特点主要是用人工方式或者半自动的方式搜集相关信息 ,编辑人员通过访问 Web 站点 ,等信息摘要形成之后便会根据站点的内容将其归类在预先设置的分类中 ,将站点的描述、URL 置于此类别中 ,若用户需要查询某个关键词 ,搜索软件便会在预先存储的描述中搜索。部分目录也会接受用户提交的描述 ,当编辑人员认可此描述后 ,便会将其归类在相关类别当中 ,以供其他用户查询。此搜索引擎的优点是导航质量可靠 ,准确性高 ,如 Yahoo ;缺点则是人工介入过多 ,维护量及维修费用大 ,信息无法及时更新。
②基于 Robot 的搜索引擎。其特点是由称为 Robot 的机器人程序用某种策略自动发现并搜集互联网中的有关信息 ,通过索引系统自动建立信息索引 ,由查询接口按照用户输入信息检索索引库 ,然后将查询结果反馈给用户。其较为显着的一个特点是需要定期访问曾经搜集的网页,并刷新索引,去除无用链接,网页内容的变化也会出现在用户查询结果中。其优点是更新及时、不需要人工干预、信息齐全 ,如 Google,缺点则是返回信息较多 ,且无用信息多 ,用户要在搜索结果中仔细筛选。
③Meta搜索引擎。其特点是自身无存放网页信息的数据库,用户查询某个关键词时 ,它可以将其查询请求转化为其他搜索引擎可以接受的形式 ,通过访问多个搜索引擎查询关键词 ,并对查询的相同结果进行排除 ,之后返回给用户。优点是覆盖面比较大 ,搜索效果好 ,缺点是具有局限性 ,无法充分发挥搜索引擎的功能。
1.2 工作原理及相关技术
搜索引擎的工作原理是通过一个 Robot 最大限度的收集 WWW的网页 ,根据网页内容建立反向索引 ,用户想查询有关内容时 ,输入关键字作为查询条件 ,搜索引擎根据预先建立的单词索引或者网页库 ,检索符合要求的网页反馈给用户。通常情况下 ,搜索引擎由三部分组织 ,如下图所示(图 1)。【1】
①信息搜集系统。主要以 Robot 自动完成 Robot 在互联网中漫游时能够搜集大量的、多类型的新信息。互联网上信息含量大 ,更新速度快。为了确保搜索引擎信息具备一定的时效性与准确性 ,就要提高 Robot 的搜索效率 ,完善其搜索策略。搜索策略主要有两个内容 ,一是从 URL 集合开始 ,根据其超链接 ,以深度或者宽度优先的方法重复搜索互联网中的有关信息 ,URL可以是任何 URL,但经常会包括很多链接站点 ;二是将 Web 空间根据 IP 地址、域名划分 ,搜索器需要对每个子空间进行不断搜索。
②索引系统。Robot 完成信息搜集后 ,要用索引系统程序对其收集的网页进行分析 ,并提取网页 URL、页面内容包含的关键词等信息 ,采用有关算法对其进行计算 ,然后获得网页针对页面文字及关键词的相关度 ,用相关信息建立网页索引数据库。
③查询接口。用户做出查询操作时 ,搜索引擎根据查询内容迅速检出相关文档 ,并对查询和文档的相关度进行分析 ,根据相关度大小对输出结果进行排序 ,反馈给用户。其目的在于方便用户获得更加及时、有效的信息。而查询接口的设计 ,能够适应人类思维方式。
2 人工智能技术在搜索引擎中的应用
现有搜索引擎效率较低 ,将人工智能技术引入搜索引擎中 ,不仅可以支持用户的搜索及浏览操作 ,还可以提供独立搜索的功能。
2.1 Robot 的人工智能化
基于 Robot 的搜索引擎使用人工智能技术 ,其目的在于获得互联网中的信息资源 ,利用主页的超文本链接 Web,然后通过 URL 引用一个 HTML 文档爬行到另一个文档。其算法采用深度优先、广度优先的搜索策略 ,广度优先能够跟踪页面中的任何URL,覆盖网页范围较广 ;深度优先则是轻松发现文档结构 ,并进行交叉引用。两种算法虽然可以检索出用户需要的内容 ,但无法对检索出的信息进行再分析。为有效提高其搜索效率 ,采用启发式学习采取有效的搜索策略 ,可在互联网上自动整理信息。
2.2 智能代理技术的应用
智能代理技术是人工智能研究的成果 ,可以对用户知识进行搜集、过滤 ,根据用户需求的变化 ,将用户可能感兴趣的内容主动提交给用户 ,此外 ,还可以根据用户的相关要求 ,代替用户完成某些任务。其特点是不断学习 ,积极、主动的适应用户兴趣的动态变化 ,从而实现个性化服务 ,因此 ,其具备智能性、主动性、代理性及协作性等优势。
2.3 查询接口的智能化
一是根据关键词进行搜索。用户有查询需求时 ,搜索技术可以将其查询需求分解为多个关键词 ,根据关键词计算 Web 文档和用户要求是否符合 ,从而选出合适的文档。二是自然语言查询。好的检索语言可以提高搜索引擎对用户查询要求的理解 ,自然语言理解计算可以实现自然语言智能答询。它可以将信息检索从关键词查询提升到知识层面 ,通过理解、处理有关知识 ,实现分词技术、翻译技术、短语识别等。因此,其服务更加人性化、智能化。
3 结束语
在全球经济的不断发展下 ,互联网已经发展成全球最大的信息库 ,成为传播信息的主要途径 ,并且拥有大量分散的信息内容。在搜索引擎中引入人工智能技术 ,可以有效提高互联网中的资源利用率 ,实现资源共享充分发挥信息资源的作用。
参考文献
[1]张晓刚,李明树。智能搜索引擎技术的研究与发展[J].计算机工程与应用,2011(24)。
[2]张明远。基于粒计算的智能搜索引擎技术研究[D].武汉理工大学:计算机应用技术,2010.
[3]王挺。智能搜索引擎在企业人力资源管理决策支持系统中的应用[J].电脑知识与技术,2010(24)。
对于网页时效性问题可以将权重高的网络站点和权重低的网络站点分开处理,对高权重和低权重的站点内容分别以合适的高频率进行抓取,并将抓取的结果置于缓存中,索引程序对缓存中的数据进行处理,这样可以使得高权重与低权重站点抓取并行处理,数据抓取与索引建...
未来,少数民族文字网站的数量还将有更大的增长,信息量呈几何级的爆炸,少数民族群众在网络上获取本民族文字信息的需求也将与日俱增。...
0引言面对着海洋似地互联网数据,用户要查询到自己所需要的信息,如同在大海里捞针,而搜索引擎技术的出现恰好解决了这一难题。搜索引擎技术目前已经成为研究开发的热点领域。一个成功的优秀的搜索引擎能够对互联网上的信息经过特定的检索策略,对各类信...
武警部队因其性质和任务的特殊性,致使武警官兵较常人更容易出现心理问题,所以有关军人心理的研究工作已是当前部队科研的一个重点;而结合武警部队实际,应用当前心理学最新研究成果,则是现阶段武警部队心理工作的普遍方法.但针对我军官兵心理特点的科学研究是...
垂直搜索引擎与计算机领域多个方面的发展与应用息息相关,其关键技术更是促进计算机领域进一步发展的重要突破口。所以,对于垂直搜索引擎关键技术的研究具有十分重要的意义。我国计算机领域虽然对垂直搜索引擎关键技术方面进行了一定的研究,并且其研究应用...
索引擎技术在移动终端智能化和互联网用户个性化以及社交化为中心的融合趋势下的发展, 催生了很多新型应用。搜索引擎技术的发展直接推动了互联网技术的迅速发展和互联网+应用的扩展...