云服务在近年来得到了快速的增长,尤其是电子商务及社交网络如视频、图片、音频等,是大数据快速增长的主要因素,这些数据往往只能够通过EB、PB、TB、GB甚至是ZB才进行描述。云计算如何对大数据信息进行正确地处理,如果能够从中获取到我们日常所需的信息则将会对整个人类社会产生巨大的影响。为此,云计算的大数据信息收集与检索将成为社会上科技应用的一个热点。
1 WEB信息收集及检索
信息的价值密度和信息的总量多少成反比,在成千上亿的信息页面之中,能够满足自身的需求信息可能只有几页。例如:一个多小时的视频播放,其有用的信息往往只存在几秒钟,而云计算拥有着超强的计算能力,要快速地获取处理结果需要通过云数据来进行。
云计算如何在大量的数据中进行价值的挖掘是目前所需要尽快解决的问题。谷歌和百度等公司在信息检索上处于领先地位,基于云计算大数据信息时代下,其核心思想仍然需要借鉴于这两大公司的核心思想,其中,云计算中的大数据信息检索过程主要分为检索以及网页收录这两个过程。
信息检索云中的各个服务器都会对数据信息进行分析和排序,计算出较高“相关度”的服务器排在最前面,同时,对存储服务器上的信息进行分布式的检索,其检索的方式主要有广度优先以及深度优先这两种方式。检索的结果最终会收录在Index Repository上,而网页收录在搜索引擎的索引中,会由使用者所提出的申请搜索在Index Repository中进行。然后会把索引词库以及网页内容倒排序在索引之中,其中,网页的标题以及所有的连接数据都会储存在同一个索引里面,优先使用广度优先的方式来进行搜索,而网页内容则储存在另外一个优先的索引之中,便于深度优先方式的搜索。
信息检索云上各个主服务器中的数据是进行分析后再整理成的元数据“.相关度”高的服务器会排在最前面,然后再对存储服务器进行分布式的检索,其检索方式也是有广度优先以及深度优先这两种方式,其所检索得来的结果仍然会收录在Index Repository之中。而网页收录过程中会存在在搜索引擎的索引之中,当使用者提出搜索请求时,实际上是在Index Repository中进行信息搜索,其页面的内容则是依照PageRank的方法来计算出倒序索引列表,其存在于索引的存储器当中。页面的标题和连接数据也都会被统一储存在一个索引之中,便于广度优先进行搜索,而网页内容也同样是保存在另外一个索引之中,便于深度优先进行搜索。
不管是在使用者提出信息检索请求的过程中,还是在收录网页的过程中,相关度的计算方法都会被应用到。使用者在进行信息查询时往往所查询到的结果都会出现缓慢或是不及时的现象,因为搜索引擎中的缓存区基本上都是已经安排好的。尽管搜索引擎不知道使用者会搜索何种关键词,但为了将搜索有效率提升,建立了一个关键词的大词库,方便使用者搜索。
2 检索过程
2.1 信息搜索请求分析
使用者在引擎上输入关键词并提交搜索请求时,结果会在网页上显示出来,然后搜索引擎就会根据这次的请求进行仔细分析,并进行分词处理。分词处理若是按照请求进行空格分词,则要排除掉重复信息后才能得到所查询的关键词内容。若是进行中文分词会比较复杂,它主要有以下两种分词方式:(1)首先要进行字符串的匹配,字符串的匹配方式有最少切分、逆向最大匹配法和正向最大匹配法,然后分词的方法中,搜索引擎中会模拟人的思维来对句子进行了解并开始分词,句子表达式和词语进行相整合是为了更利于引擎的理解,它的基本思想为:分词时,会先将语句的意思及语法进行歧义的分析和处理,其主要由语义子系统、语法子系统以及分词子系统这三部分所组成,总称为控制系统。在总控制系统的作用下,搜索引擎能够模拟人类的思维来进行工作。(2)当出现相邻的词的时候,中文分词会将相邻的词当做一个次,因此,当使用者在输入关键词时,往往会出现如“的”“、吗”的停止词,搜索引擎在进行分词时往往会将其去除。
2.2 匹配搜索请求
搜索引擎对使用者的请求进行详细分析后,会匹配出适合的URL,而URL的数量非常之大,只有通过搜索引擎依照YRL的匹配程度进行排序,才能将其结果有序地显示出来。而系统把文档分词后的信息以及网页上的PageRank值与链接文件中的网页描述信息结合在一起后,它的检索结果排序就会被确定,确定后的结果就能够客观地显示在网页之中,可以在最大的程度上保证所搜索出来的结果和使用者所想要查询的内容一致。PageRank主要指的是:一旦一个同样的网页被不同网页多次指向,就说明了这个网页的质量较高且较为突出,因此,除了对网页的链接数量有所考虑之外,还可以参考网页本身级别。
3 结语
综上所述,云计算下的大数据信息检索技术在现实生活中面临着非常巨大的挑战,随着智能设备的普及,对于搜索引擎的应用会得更好的完善,并获取到相关的应用,大数据信息检索还要经过不断的实践研究,做出更完美的检索技术。
参考文献
[1]李海秋。网络环境下信息检索技术研究[J].计算机光盘软件与应用,2014(05)。
[2]薛向阳。基于内容的多媒体和跨媒体信息检索技术[J].世界科学,2005(12)。
[3]王宏霞,艾树峰。数字图书馆信息检索技术的研究[J].浙江传媒学院学报,2007(04)。
[4]时常青,张萌。基于互联网的图像信息检索技术[J].电脑知识与技术,2008(34)。
随着计算机技术的飞速发展,图书馆馆藏资源也逐步朝着数字化方向发展。高校图书馆信息检索系统已逐步从手工检索方式向计算机检索方式转变,即全校师生可通过在数字图书馆信息检索系统中输入关键词,从图书馆馆藏资源中检索符合师生要求的有用信息资源,该系...
信息检索课的教学目的是培养高校学生具有较强的信息意识和信息素养,提高学生的自学能力,使他们能够自主获取除教科书之外更加丰富的知识。论文写作是大学期间每个大学生都会遇到的问题,也是学生们继续深造时必须具备的基本能力之一。从一定程度上来说,论...
信息检索课是一门实践性比较强的课程,该课程对于培养学生利用信息的能力有着重要的作用[1].但是随着计算机技术和网络的发展,现在信息资源的检索方式发生了巨大变化。为适应新环境下信息检索的需要,解决好信息检索课教学过程中出现的各种问题,笔者...
进入21世纪, 飞速发展的计算机网络技术革命影响着社会生活的各个领域, 情报信息工作也不例外, 随着数字化图书馆建设步伐的加快, 馆藏资源中数字资源所占的比例不断加大。...
随着互联网、多媒体和计算机科学的发展,信息内容不再呈现数据库集中管理、稳定、封闭的特征,转变为复杂、广泛、开放、动态、管理松散的状态,信息检索用户扩展到了包括企业、高校、科研等领域在内的普通大众,他们对检索结果和方式都提出了更高、更多元化的...
引言新时代对信息检索技术的要求更高,需要其保证快速响应性、完备性以及准确性,能够在信息技术中发挥重要作用。同时,在社会领域中信息检索技术的应用更加的广泛,信息检索和访问也发生了重要变化,智能化要求就是近期信息检索技术的典型要求,这就要求...
1引言近些年来,信息技术和网络技术的飞速发展大大推动了医学信息管理的数字化和标准化,以临床医疗信息为核心的电子病历的应用日渐普及,在标准化信息基础上建立的集成医疗信息系统通过一系列搜索引擎与受控词表和分类表相连接,使得分布在电子病历系统、...
传统意义上信息检索模型主要是通过检索引擎,将被查询信息与数据库文档标题进行相似度比较,将完全吻合的标题内容信息从数据库中提取出来,同时将相似度比较高的标题内容也筛选出来,放在完全相同的标题内容后面,进行结果显示来满足用户的搜索需求。1.目前...
引言检索技术的应用是在图书馆建设发展过程中对电子资源查询和整合的重要方式,也是提高学生信息素养和技能的必要手段。因此,检索技术的应用是教育界十分关注的课题。1高校文献检索技术的发展情况从目前来看,我国多数高校图书馆电子资源建设及其文献...
随着信息资源多媒体化发展, 不同人群要结合自身发展需求从多样化的信息源中收集获取各项信息, 对信息合理应用。加上现代化社会全面发展, 对个体信息需求量以及知识储备能力提出了更多更高的要求。...