摘要:针对当前网络信息的发展需求呈现爆炸式增长,对网络搜索引擎提出了更高要求。采用理论结合实践的方法,首先Web信息检索挖掘技术做了简要概念,其次对基于Web挖掘的网络搜索引擎技术的应用进行了分析,提出了一种给予Web挖掘的个性化搜索引擎,并对各系统模块的功能及实现方式进行研究,分析结果表明,此种系统具有很强的检索灵活性,而且还能实现个性化查询结果,能够满足信息时代,信息数据挖掘和检索的需求,值得大范围推广应用。
关键词: Web挖掘;网络搜索引擎;应用;
0 引言
在信息化大数据时代,信息检索是一项非常重要的内容,很多信息数据被储存在数据库或者信息池中,需要采用高效、先进的网络搜索引擎技术才能从海量的信息数据库中快速找到所需的信息和数据,为用户提供必要的个性化信息检索支持,在提升信息数据检索效率和准确性的基础上,满足对用户对个性化数据检索的新要求。基于此,开展Web挖掘及其在网络搜索引擎中的应用分析研究就显得尤为必要。
1 Web信息检索挖掘技术
Web信息搜索引擎是很多网络搜索引擎的基础,很多网络上常用的搜索引擎都是从Web信息搜索引擎上发展来的。Web信息检索系统多为双层C/S结构,虽然目前网络搜索引擎信息检索实现方式不尽相同,但大多包括五大部分:Robot、信息分析器、信息索引器、信息检索器、用户接口,具体的结构示意图如图1所示。
2 基于Web挖掘技术的网络搜索引擎系统
2.1 系统的总体结构及主要流程
本系统搜索引擎的结构示意图如图2所示。
图1 Web搜索引擎结构示意图
图2 网络搜索引擎的系统结构
从图2中可以清楚看出,本系统在运行中,要想完成信息检索,至少需要涉及以下三个步骤:
第一步,网页搜索。网页搜索在本系统中起到的主要作用是对网络信息中各项数据、信息等进行搜集,主要由系统中“搜集器”来完成网页搜索任务。具体的运行方式为:通过Robot程序的自动化运行,来检索Web网页中规定格式的全部信息,检索完成之后,自动下载到原始数据库中,不断累积网络信息。常用的信息搜索方式有两种,一种是定期搜集,另一种是增量搜集。在网页搜索中,无论多先进的搜索引擎,都无法搜集到Web网页上的全部信息,比如:系统磁盘已满、检索时间达到设定时间,都会自动停止检索,为保证网页搜索的质量,将那些比较重要的数据和信息全部检索出来,必须找到搜索效率、质量和时间的平衡点,这就需要“控制器”来起作用,以便顺利完成网页搜集任务[1]。
第二步,预处理。预处理也是本系统稳定运行的关键,主要作用是将网页搜集达到信息集合,转换为搜索引擎系统能够识别和应用的数据结构形式。主要通过“索引器”来完成相关任务,目前在Web网络中,常用的数据结构形式为inverted file格式,是一种以关键词为检索对象的索引结构形式,在数据库中包含着含量的数据,主要录入关键词就能快速检索出和关键词相互关联的信息,在预处理中涉及的内容主要包括以下几个方面:(1)快速提取关键词:从网页源文件中找到能够代表各项内容的关键词;(2)消除镜像网页:所谓镜像网页,指的是网页内容完全相同,没有添加任何转载网页的信息,消除重复内容能够更好地提升信息检索速度;(3)链接分析:在本系统中包含大量的HTML文档,主要内容是人们近期比较关注的信息内容,既能展示出各网页之间的关系,也可以很好地判断网页的重要性程度;(4)计算网页重要程度:在Web网页搜索引擎中,多采用pagerank值,作为判断网页信息重要性程度的主要指标。
第三步,查询服务。主要内容是将检索的网页信息快速显示给检索客户,并按照用户需求,对查询结果进行排序,形成列表返回给用户。
2.2 系统中的主要技术
本系统在信息检索中涉及的内容比较多,其中主要内容有四项,包括:数据预处理、挖掘算法实施、模式分析和可视化,为保证本系统能够高效、稳定运行,需要用到的主要技术包括以下几种:
第一种,统计分析技术。对Web日志进行统计中可获得有关站点使用的各项基本信息,包括:页面访问次数、日平均访问人数以及用户最喜欢的网页。除此之外,利用统计分析技术,还能对那些有限的错误进行分析,比如:一旦发现用户存在非法登录问题,会立即启动预警系统,避免不法分子入侵本系统,影响系统运行的安全性,利用Web Trends技术,可实现Web网页各项数据和内容的有效统计,提升应用效果[2]。
第二种,检索结果相关性排序技术。本系统具有极强的检索能力,而且Web网络也是目前全球范围内应用最广泛的网络系统,利用检索引擎可为用户提供海量的检索结果,但通常情况下,用户大多只会简单的浏览最前面的部分结果,为给客户提供更加方便的检索结果,需要对搜索结果进行相关度排序,以便将相关的文档,尽可能地现实在客户眼前,以便为用户提供更加个性化、人性化的结果。目前Web挖掘及其在网络搜索引擎相关排序方式各不相同,但基本都采用Web文档内容。本系统在运行中,考虑到用户所查询的词条在文档中的影响因素包括:词条频度、逆文档频率、词条位置等,这些因素普遍具有很强局限性,通常情况下,相关度高的页面,不一定都是用户喜欢的页面,甚至一些Web网页制作人员,甚至利用这些因素来欺骗客户,以提升页面的排序。
第三种,聚类技术。聚类技术也是本系统运行的关键技术,通过聚类分析技术,可将相似度比较高的用户和相关数据进行归类,从而为客户提供更加有效的数据服务。比如:在Web日志挖掘中,聚类分析通常集中在用户聚类和页面聚类中,可实现相似浏览器行为的用户归类,此种归类方法,可为用户提供个性化的Web页面内容。页面聚类技术的核心内容是将内容相关的页面进行合理归类,通过本系统,可利用这些信息为检索用户提供所需的超链接服务。为便于用户浏览,在本系统设计和建设中,可将聚类技术应用到Web检索结果的可视化输出上[3]。所谓聚类指的是将文档集合分为若干个簇,要尽量保证相同一簇的文档内容具有较高的相似度,而不同簇之间的相似度要尽量小,用户查询的文档,通常比较靠近聚类,并远离和用户查询不相关的文档。
第四种,分类技术。分类也本系统运行中的关键技术,在Web日志挖掘中,分类技术应用的关键是将用户配置文件,直接归属给指定的用户类别。其他关键技术相比,分类技术应用的关键是能够准确描述已知用户的类别,可通过指导性归纳学习算法进行合理分类,比如:决策树分类法、贝叶斯分类法、SVM法等,都是比较常用的分类技术。
第五种,序列模式。目前Web挖掘及其在网络搜索引擎技术被广泛应用于电子商务中,在具体应用过程中,可先对事务进行合理的划分,再按照具体的分析需求,合理选择方位模式发现技术,对搜索引擎而言,Web挖掘就是按照用户的实际需求,来总结每位用户检索行为,这也是本系统信息检索的关键,搜索引擎可利用Web挖掘技术,更加全面的了解和掌握用户的检索行为。比如:本系统在运行中,通过Web使用挖掘技术能够对日志文件进行全面系统的分析,并对系统检索的时间、检索的内容、检索的路径等进行浏览和分析[4]。再对日志进行挖掘,就能发现很多用户的潜在的行为模式,从而帮助用户形成更加有效的查询结果,大大提升了本系统运行的质量和效率。
第六种,搜索结果反馈技术。此项技术也是本系统运行的关键技术,主要作用是将Web挖掘及其在网络搜索引擎检索到的结果及时反馈给用户。应用此项技术,可促使本系统具有结构反馈功能,具体情况如图3所示。
图3 搜索结构反馈示意图
从图3中可以看出,本系统能够对用户的查询请求进行系统分析,实现逐步求精。主要涉及的步骤包括以下内容:
第一步,Web挖掘及其在网络搜索引擎系统中的检索器先按照客户的要求,给出查询请求q的检索结果集合s。
第二步,信息检索用户对检索结果集合s中文档的相关度进行系统化评估,同时将结果反馈给系统。那些被用户标记为“相关”的检索结果,可组成正反馈集合s+,而那些被用户标记为“不相关”的检索结果,则组成了负反馈集合s-[5]。
第三步,本系统可按照用户的反馈多数用户需要检索的内容q进行修正,比如:在矢量空间索引模型中,就可以将正反馈集合中的文档矢量增加到查询矢量上,而且还能减去负反馈集合中的最不相关的若干文档矢量。
第四步,要重复第一步、第二步、第三步,直到检索出用户满意的结果为止。
3 结束语
在信息时代,各行各业都实现了网络信息化,为人们获取信息资源提供了新的技术支持,同时也对网络搜索引擎提出了更高的要求,Web挖掘是数据信息检索的关键技术,Web挖掘技术愈发先进和完善,为实现网络个性化及快速检索提供先进的技术支持,Web挖掘及其网络搜索引擎已经成为大数据时代,全球范围内研究的热点话题。综上所述,本文采用理论结合实践的方法,分析了Web挖掘及其在网络搜索引擎的应用,提出了一种给予Web挖掘的个性化搜索引擎,并对各系统模块的功能及实现方式进行分析,分析结果表明,此种系统具有很强的检索灵活性,而且还能实现个性化查询结果,能够满足信息时代,信息数据挖掘和检索的需求,值得大范围推广应用。希望我国网络信息检索事业稳定发展有一定参考和借鉴。
参考文献
[1]邹能峰,郑浩然NetRD:-种利用Bing搜索结果补充文献挖掘证据集的工具[J]北京生物医学工程,2019,38(4):377-383.
[2]严国莉,王保林,王新增,等基于查询子意图进行匹配的多样性搜索创新研究[J].信息系统工程2019(9):19-21.
[3]唐国维,赵璨,李井辉,等.依托百度搜索引擎的舆情信息搜索系统研究[J].计算机与数字工程2019,47(11):2785-2790.
[4]朱凡微.吴明晖颜晖融入课程思政理念的搜索引擎技术课程设计与教学实践[J].计算机教育,2020,304(4)-14-17.
[5]张莹莹刘秀磊,白雪瑞.等搜索引擎的情报感知与刻画功能协同研究[J]北京信息科技大学学报(自然科学版),2019,34(6):19-24.
大数据的理论及特征胡春明:大数据在今天已经不是一个新鲜的词汇。不管以前是不是叫大数据,人们都是在用数据看世界。数据分析方法往往采用了统计学上的采样法。只要采样方法在一些情况下足够好,样本数据就能足够反应真实世界的特点。从得到的样本数据...
搜索引擎本质上属于一类数据库,它主要由搜索器、索引器、检索器以及用户接口所构成。其工作模式包括两种即自动信息搜集与定期搜索。以最常见的谷歌引擎为例,在一定周期时间内会利用蜘蛛程序进行主动搜索,当发掘出新的网站时便可以从网站中提取相关信息...
0引言随着互联网技术的飞速发展,互联网中的信息量也越来越大,如何更加有效地利用这些信息资源,已经越来越受到人们的关注。互联网中存在的信息来源十分广泛,与此同时,存在的形式也是多种多样,包括图像、文本、视频、音频等不同的形式,面对着不同来源...
概述随着移动互联网发展,手机用户尤其是智能手机用户占比越来越高,手机搜索也逐渐成为移动互联网的核心应用。2014年百度的移动搜索流量和营收均超过了PC端,人均搜索量比上年同期增长了22%.手机搜索与传统的电脑搜索相比具有明显的优势:只需要通过手机...
未来,少数民族文字网站的数量还将有更大的增长,信息量呈几何级的爆炸,少数民族群众在网络上获取本民族文字信息的需求也将与日俱增。...
搜索引擎是一种利用网络自动搜索技术,对网络各种资源进行标引,并为检索者提供检索的工具。其工作原理主要包括以下几个过程:信息的采集和存储;信息索引的建立;检索界面的建立;检索结果的相关处理[1].好的搜索引擎不仅能提供好的检索界面,而且还能提...
当今社会计算机技术迅猛发展,信息资源越发丰富,网络信息受众量庞大。根据中国互联网信息中心CNNIC发布第34次调查报告最新数据显示,截止到2014年6月我国网民数目达到6.32亿。对于众多网民来说,搜索引擎是从海量网络数据中获取信息的最有效工具,...
在互联网信息爆炸式增长的今天,谷歌、百度等搜索引擎,已经成为广大网民获取信息的主要途径和重要工具。对有互联网信息搜索需求的用户而言,如何提高搜索引擎的科学使用技巧,高效便利地获取有效信息,就显得至关重要。要提高搜索结果的有效性和精确度,主...
中文分词算法是通过将中文重划为词序列的形式,以此展现文本含义。若将其运用于搜索引擎应用中,可进一步增加搜索结果的准确性与搜索速度,进而满足大众对信息的迫切需求。...