搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

智能检索技术体系架构与关键技术

来源:学术堂 作者:周老师
发布于:2015-08-17 共5631字
摘要

    1引言

  在网络和电子等技术的发展影响下,每天网络中产生大量的数据,图灵奖获得者Jim Gray提出了一个关于网络环境下数据量的定律:网络环境下每18个月产生的数据量等于有史以来数据量之和[1].如此海量的数据 中蕴含 着大量有用的信息[2],检索正是实现信息发现的有效方法。信息检索是指将信息按照一定的方式组织存储起来,并根据用户的需求检索出有关信息的过程[3].信息检索经历了手工检索、计算机检索到网络化、智能化检索等多个发展阶段,检索的内容也从最初的独立的、稳定的、相对封闭的内容变为形式多样、动态、更新快、分布广泛、管理松散的数据信息。随着信息多样化和信息检索能力的要求,基于关键词匹配算法的传统检索检索方法虽然快捷、简单,但检准率低,已无法有效实现检索,不能满足检索要求和结果的个性化呈现[3].适应网络化、智能化以及个性化的需要是信息检索技术发展的必然趋势[4],由此智能检索技术应运而生。

  2智能信息检索技术及应用

  2.1智能信息检索技术

  智能信息检索是在传统信息检索方法的基础上,运用人工智能技术,对所检索的内容分析、理解、推理、决策等,并以良好的形式展现给用户。它除了提供传统的快速检索,相关度排序等功能,还提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能化信息过滤和推送等功能。智能信息检索将信息检索从基于关键词层面提高到基于知识(或概念)层面。理想的智能信息检索系统应具有的主要功能:提供多种样式的检索能力;语义推理能力;基于自然语言或其他语言;信息的及时更新;能力扩充;个性化结果呈现等。

  根据信息检索技术的不同,智能信息检索系统的特点和应用领域存在较大差异。其中典型的智能信息检索技术有:基于垂直搜索的信息检索技术、基于语料库的信息检索技术和基于语义网的信息检索技术等。

  2.2基于垂直搜索的信息检索技术及应用

  垂直搜索是专业领域检索的典型技术,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,其具专、精、深的特点,且具有行业色彩。文献[5]以12580餐饮垂直检索为例,提出针对垂直检索的策略,对垂直检索的查询效率、查准率、信息抽取等方面进行改进。垂直检索相比一般的检索,其检索内容的范围具体,更容易获取需要的信息。例如搜狗购物、360团购等都是典型购物检索引擎。

  2.3基于语料库的信息检索技术及应用

  基于语料库的信息检索是以语料库为基础,通过在语料库中对查询信息的语义匹配分析,查找相关语义的信息内容。基于语料库的信息检索技术广泛应用于不同形式的自然语言之间的信息检索,例如中英文平行检索、文言文检索等。文献[6]提出一种基于语料库的跨语言信息检索方法。通过语料库将一种语言形式的检索语句转变为其他语言形式,实现跨语言的信息检索。

  2.4基于语义网的信息检索技术及应用

  基于语义网的信息检索技术是在对信息进行由下而上组织表示的基础上,对信息和信息之间关系的发现和检索。基于语义网的信息检索技术已经广泛应用于数字图书馆、电子商务、电子政务等多个领域。

  在数字图书信息检索领域,文献[7]提出基于智能引擎的智能信息检索方法,采用语义网技术体系中的本体方法,在知识层面对数字图书馆中的信息进行表示,从检索意图的分析与判断能力、知识库动态监视和更新反应功能、各种形式的信息广泛整合支持、灵活检索机制、专业层面的强大索引功能等方面改进数据图书馆的检索效率。

  在电子商务领域,文献[8]智能信息检索为解决网络时代企业信息膨胀而提出面向电子商务领域,专门设计改进搜索引擎,提出使用基于语义Web的电子商务核心语言,实现在电子商务领域智能信息检索的高效检索和高检准率。基于代理和机器学习的智能信息检索技术在电子商务领域中的应用为系统使用者提供更加个性化的信息推送和检索结果排序,根据对使用者购买记录、关注点、操作习惯等方面的分析,电子商务中的智能信息检索为每个使用者提供了“量身定制”的个性化检索引擎。例如淘宝网,京东商城等电子商务网站都开始将这种个性化的服务提供给用户。

  以上三种典型的智能信息检索技术在技术、适用范围、应用情况、各自优缺点等方面的对比如表1所示。基于语义网的信息检索技术实现了知识层面的信息检索,尤其在查全率、个性化、隐含知识发现等方面优势突出,成为智能信息检索技术中的主流技术之一。本文以基于语义网的智能信息检索技术为例,对采用该技术系统的体系架构进行设计、对关键技术进行介绍。

  3基于语义网的智能检索技术体系架构

  基于语义网的智能信息检索技术是数据资源采用语义网技术体系统一描述的基础上,引入自然语言识别,采用自然语言对数据进行检索。它是语义网技术,检索技术,人机交互技术,自然语言识别技术等多种技术的综合,本文构建的体系结构由数据获取、数据语义处理、语言转换和应用共四层组成,为在应用层面保障交互环境的可信,在四层结构中引入安全和可信技术,其体系结构如图1所示。

  数据获取层主要实现对获取的数据进行处理,为上一层的语义处理提供该领域内数据的来源。

  根据数据的组织形式,领域中的数据主要分为两类:结构化数据和非结构化数据。结构化数据采用标准的、统一的格式,对数据进行组织。非结构化数据是指结构未经标准化的文档、语音资料、视频资料等。非结构化数据经过识别、提取和转换等手段对其中的有用信息进行抽取,采用结构化形式进行数据描述。其他领域相关数据和抽取后的结构化数据汇集起来成为领域数据。

  数据语义处理层的实现是在对领域内数据采用统一编码描述的基础上,运用资源描述框架、本体、逻辑、证明和数字证书等技术,形成领域内本体数据库,在语义层实现对数据和数据关系的检索。索引的建立有利于对领域内整体情况的理解,也有利于对知识进行针对性检索。

  语言转换层主要实现非规范检索语言到规范检索语言的映射转换。若输入为自然语言,系统通过自然语言识别,对自然语言进行词法分析、语法分析,并按照规范语法,对自然语言中的元素进行重新组织,形成规范化的查询语句,例如SPARQL查询语句等。

  应用层是系统对用户所提供的应用接口。用户既可以是人也可以是其他系统。安全和可信技术在各层中的具体功能不同,在数据获取层,安全和可信技术主要确保获取数据的可信和数据存储的安全等;在数据语义处理层,它主要控制对数据的非法访问;在语言转换层,可信技术要确保转换规则的正确,保证语言转换前后语义的正确;在应用层采用的安全和可信技术更为丰富,从应用的角度确保系统整体数据环境和对外接口等方面的安全和可信。

  4基于语义网的智能信息检索关键技术

  4.1领域本体建立

  智能信息检索系统的构建是由智能信息检索所面对的信息、使用者、系统的功能性要求、非功能性要求、系统的软硬件环境、安全环境等共同影响的。这些共同的影响因素共同形成了领域特点,针对不同的领域,需要进行领域信息的表示。由于本体具有对信息组织表示和描述信息之间的内在联系的能力。所以本体论成为知识获取和表示、规划、进程管理、数据库框架集成、自然语言处理和企业模拟等研究领域的核心。基于本体论的知识库的建立将提供一个内容丰富和现代的框架以实现术语的规范、服务和管理[9].为实现对数据的语义检索,采用本体技术对结构化数据或从非结构化数据中提取的结构化信息进行描述,描述的基础是领域本体库的建立。领域本体库建立的步骤[10]通常为

    1)明确业务领域。一般从领域的具体业务流程出发,重点关注领域所涉及的业务对象、关系、规则、限制、与其他领域关系等;

    2)属性建立。根据对业务领域的理解,抽象出领域内的实体成为本体,并对其属性进行描述;

    3)明确属性约束;

    4)明确本体关系;

    5)明确函数、限制、规则和公理等。

相关内容推荐
相关标签:
返回:搜索引擎论文