3 数据挖掘技术
信息发布和信息检索是Internet中最为重要的应用。数据挖掘技术因此产生,是建立在数据仓储技术之上的,它的目的是从大量数据中寻找有用的信息。
它最早主要应用于商业活动,例如市场管理、风险管理和欺诈管理。它可以应用于对科学数据的加工,并从已有的科学数据库中寻找出新的科学知识或规律,这是一个很有吸引力的工作。既然数据挖掘技术可从大量的商业活动所积累的数据中挖掘出有用的信息,那么就应该有可能从大量科研活动所积累的数据中挖掘出我们还未掌握的知识,即新的科学发现。
3.1.1 数据挖掘的概念
根据W.J.Frawley等人的定义,数据挖掘(DataMining)是指从大型数据库中提出人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在的有用信息。
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。数据挖掘方法与统计方法的不同之处主要体现在:通常的统计方法是在已有的假设基础上,从大量的数据中得到验证,而数据挖掘则是从大量的数据中得到崭新的模式、结论和假设;数据挖掘方法是纯粹的给予数据驱动的方式,而统计方法则更多地引入人为因素并加以分析。探索式数据分析是统计方法中与数据挖掘最相似的分支,但它所面向的数据集还是比数据挖掘对象小得多。
3.1.2 数据挖掘的过程
数据挖掘过程可粗略地分为:问题定义(taskdefinition)、数据准备和预处理(data preparation andpreprocessing)、数据挖掘(data mining)以及结果的解释和评估(interpretation and evaluation)等阶段。
问题定义,在该过程中,数据挖掘人员必须与领域专家及最终用户紧密协作,一方面明确实际工作对数据挖掘的要求,另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续的学习算法选择和数据集准备都是在此基础上进行的。
数据挖掘。该阶段首先根据对问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。之后要决定使用什么样的算法。选择实现算法要考虑两个因素:一是不同的数据有不同的特点,因此,需要用与之相关的算法来挖掘;二是要根据用户或实际运行系统的要求,有的用户可能希望获取描述型的(descriptive)、容易理解的知识(采用规则表示的挖掘方法显然要好于神经网络之类的方法),而有的用户只是希望获取预测准确度尽可能高的预测型(predictive)知识,并不在意获取的知识是否易于理解。
结果解释和评估。数据挖掘阶段发现的模式,经过评估,可能存在冗余或无关的模式,这时需要将其剔除;模式也有可能不满足用户要求,这时则需要整个发现过程回退到前续阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法等。
挖掘结果质量评价。数据挖掘结果质量的好坏有两个影响因素:一是所采用的数据挖掘技术的有效性,二是用于挖掘的数据的质量和数据量。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则挖掘结果不会好。整个挖掘过程是一个不断反馈的过程。
数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息。
3.3 数据挖掘技术在现代化图书馆中的应用
目前国际上已经将图书馆的信息服务纳入了电子商务之中,数据挖掘技术不仅在商业界倍受青睐,它在现代化图书馆中的应用前景也十分广阔。
在现代化图书馆中,数据挖掘技术可以指导图书信息资源的采集。我们根据流通数据库的集成数据进行数据挖掘,能够得到读者对图书资源的使用频率表,对读者进行分类的同时对适合不同类别的读者的图书资源进行聚类,可以快速而精确地得到订书单。馆藏书目数据库是图书馆的基础资源,编目工作者每天对它进行维护,输入大量的数据,对这些数据进行挖掘可以有针对性地制定馆藏策略,有目标地决策图书馆的发展方向。
信息咨询是图书馆向读者提供的最直接的信息服务。现代化图书馆已不仅仅停留于此,它最主要的职能是将图书馆建设成为知识服务中心,是信息时代图书馆的标志。因此,图书馆从业者应该具有强势学科背景、精通网络技术。
传统的图书馆信息服务模式,大都是由用户提出信息请求,图书馆工作人员进行解答,或是定期向用户提供相关书目,这些服务都是被动的,不属于知识服务。掌握数据挖掘技术可以从根本上改变这个现象。基于Web的信息挖掘是很好的知识服务方式。
WWW(World Wide Web)是目前世界上使用最广泛的巨型信息服务中心。WWW是以超文本链接的形式出现的,它固有的异构性和动态性导致了从Web中获取信息显得极为容易而得到有价值的信息却变得越来越困难。将数据挖掘技术的思想引进来,可以解决关键问题。
3.3.1 数据采集
图书馆信息服务人员首先要做的是信息采集工作,根据数据挖掘目标向Web(如Google、Infirseek、Yahoo等)发送查询请求,然后对结果得到的Web站点进行筛选,而后运行多个Robot程序(这是一种能够漫游追踪Web链,并通过HTTP等标准协议读取页面数据的程序),逐个浏览命中页面,采集原始数据。
3.3.2 关联分析
关联分析是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性,比如在一次信息咨询中所提出的不同信息请求的相关性。序列模式与此类似,寻找的是事件之间时间上的相关性,如对同一个读者历时的信息咨询分析。关联规则可记为A]B,A称为前提和左部(LHS),B称为后续或右部(RHS)。如关联规则/借阅图书A的人也会借阅图书B0,左部是/图书A0,右部是/图书B0.
要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即可。某一特定关联(/图书A和图书B0)在数据库中出现的频率称为支持度。比如在总共1 000个事务中有15个事务同时包含了/A和B0,则此关联的支持度为1.5%.非常低的支持度(比如l百万个事务中只有一个)可能意味着此关联不是很重要,或出现了错误数据。
要找到有意义的规则,我们还要考察规则中项及其组合出现的相对频率。当已有A时,B发生的概率是多少?这是概率论中的条件概率。也就是问/当一个人已经借阅了图书A,那他有多大的可能也会借阅图书B?0这个条件概率在数据挖掘中也称为可信度,计算方法是求百分比:(A与B同时出现的频率)/(A出现的频率)。
3.3.3 分类
分类要解决的问题是为一个事件或对象归类。用分类来预测读者的最大信息倾向。数据挖掘算法的工作方法是通过分析已知分类信息的历史数据总结出一个预测模型。可以对不同读者有针对性的提供预测信息。
3.3.4 知识服务
现代化图书馆的信息咨询工作要由/搜索引擎0走向/挖掘引擎0.就是说,不能仅仅向读者提供信息在网络上的位置列表(List),而是要使读者得到相关信息之间的有价值的知识(Knowledse)。同时,将这些知识以可视的形式提供给读者,因此,提供/可视知识0将是图书馆信息工作者的主要职责。
现代化图书馆与信息技术息息相关,作为知识聚集地的图书馆会跟上时代的发展,发挥它的强大功能,为不同的研究领域提供真正有价值的知识服务。
参考文献
1 Vidett Poe, Building a data warehouse for decision support, ByPrenticePTR,1996.
2 Peter Cabena,Discovering Data Mining From Concept to Implementation,IBM,1997.
3 George H.John,Enhancements to the Data Mining Process,Thesis ofStanford University,1997.
航海类专业一般指航海技术、轮机工程、海事管理、船舶与海洋工程、船舶电子电气工程等涉海专业.通过访问图书馆主页、百度搜索引擎、电话联系等方式,对我国17所开办了航海类专业的本科院校图书馆的特色数据库建设情况进行调查,旨在对我国航海类专业特色资...
从古代藏书楼、藏书室到现代开放的图书馆,我国图书馆有着数千年的历史。从古代以藏为主,到现代以用为主;从古代以为皇室贵族服务,为私人服务,到现代为大众服务为主。其中图书馆事业经历了漫长的发展过程。图书馆作为人类社会信息和知识资源的社会载体,...
第4章Google数字图书馆对构建我国数字图书馆的启示第二章和第三章就Google数字图书馆的最基本情况和成功经验进行了全面的研究和分析,通过这些研究,我们可以学到Google在建设数字图书馆时所得到的成功经验,在此基础上,结合我国的国情对我国的数...
大学教育质量的提高,实质上就是如何对大学生进行多种教育使得其综合素质得到提高,这是教育的目的,也是教育改革的目标,当然也是专家学者以及教育机构研究的重要课题。作为一名在高校图书馆工作多年的基层管理人员,笔者亲身体验到图书馆在对促进大学生综...
摘要21世纪以来,互联网技术逐步深入每个人的生活和学习当中,成为其必不可少的组成部分,在此基础上发展起来的数字图书馆也慢慢的进入到我们的视野当中。数字图书馆不同于传统的图书馆,它是建立在计算机技术和互联网的应用之上,实现了无纸化的信息数...
民族图书馆中收藏了大量民族图书文献资料,是当地人民了解其他民族和地区生存环境、生活方式的一个重要途径。通过阅读,加强联系,能够促进各民族各地区政治的稳定、经济的发展和文化的繁荣。一、民族地区图书馆发展现状(一)社会资源配置不均是民族地区...
1理论介绍新公共服务理论的主要思想在于公共服务是为公共创造便利,对公众权利进行保障。新公共服务理论继承了新公共管理理论的可行性成果,在此基础上延伸了公共服务的范围,增加了关注公众的公民权、民主价值观以及更适应现阶段公民社会发展和公共管理实...
第三节物理障碍物理一词是一个广义的概念。它可指研究事物内在规律以及物质相互作用和运动规律的一门自然科学,也可指事物的道理,事物的物质结构。但本文所用的物理一词是一个特指概念,特指物理环境。所谓物理环境,是指对象周围的设施、建筑物等物质系...
新媒体网络技术与无线网络技术作为主流是从上个世纪末开始,并且还开展了技术上的改革,所以这就引发了新媒体艺术现代化形态的进一步改革,并且还在全球当中流行了网络数字化、移动通信等一些具有现代化特点的通信手段。...
知识经济时代的来临,信息数字化、网络化进一步加速,资源传播与共享技术不断进步,图书馆作为信息资源储备的重要基地,其数字化进程有着非同寻常的意义.一、我国数字化图书馆建设概述图书馆文献资源数字化,并非一蹴而就,期间经历了长时期的探索实践,从某种程...