1、图书馆非结构化大数据的独特性
图书馆作为记录、储存、传播与应用人类文明与数据的机构,其需要处理的数据正在呈几何级数增长,尤其伴随着网络社区、交互式通信、用户服务等技术的成熟发展,结构化与半结构化的数据在逐渐增多,数据呈现数量多、种类繁、产生速度快与价值大等特点,图书馆面临的信息生态环境逐渐进入到“大数据”时代,TB、PB已不能完全表述其发展的预期。在新的信息环境下,图书馆不论从时间维度,或是空间维度都面临着前所未有的挑战,尤其是非结构化数据对图书馆的信息挖掘和学科服务具有重要的支持作用,以高校图书馆为例,其非结构化数据的主体、内容体系、流向、数量、价值等体现出鲜明的特性。
一是非结构化主体专指性强。在高校图书馆中,参与非结构化数据的主体主要是图书馆员与在校师生,学校外部的读者数量较少,因此,从用户的角度有效分析图书馆员、教师与学生三者的数据需求、信息行为及其相关非结构化数据产生的规律,即能把握非结构化数据发展的规模和质量;二是非结构化数据产生的情景性。在网络社区内产生的数据多是在成员之间交流的瞬间迸发的新的想法或观点,正是在特定主题、时间、成员、交流进度等情景进程的驱动下,非结构化数据才能在数量和质量方面向前推进;三是非结构数据的规模与质量高。由于高校图书馆用户的文化素质水平较高,借助网络社区的渗透性与即时性,专业学者之间、教师与学生之间、跨领域之间可通过Blog、Wiki、微信、在线咨询等方式随时产生新的信息与数据,在数量方面体现几何级数的增长,质量方面又对学科发展具有巨大的学术价值和文献价值,这也是本研究的价值所在;四是非结构数据的加工难度较大。非结构化数据的基本特征是信息格式多元化,尤其借助Web载体传播的信息,即时性、零次性与灰色特点突出,难以借助计算机和数据库技术实施有效管理,但其中又蕴含着大量高价值的信息,因此,这就为加工非结构化数据增加了难度;五是非结构化数据具有决策支持价值,从数据分布的数量来看,结构化的数据只占到数据总量的10%,90%的信息和知识则是非结构化的数据,这些非结构化数据隐性地蕴含着用户信息需求、学科发展动态、参考咨询发展趋势、馆藏结构的优化配置、信息服务协同发展模式等,对图书馆决策与服务具有重要的参考价值。
2、非结构化大数据管理的依据
高校图书馆内部非结构化数据存在数据来源、格式、流向、信息等方面的差异性,而这些可以成为非结构化数据分类管理的依据。
2.1依据一:数据来源
非结构化数据的产生主要包括两大类,一类由图书馆内部产生,包括图书馆自身的馆藏资源,如静态的图书、图片、图像、论文、多媒体、数据库、自建特色数据库等,也包括动态的RFID数据、用户行为数据、用户社交网络数据、移动设备数据等;另一类是图书馆外部的开放的知识源,如即时通讯数据、网络出版与传播、电子商务数据、社交网络数据、馆际之间共享数据等。不同来源的非结构化数据在真实性、准确性及其可用度方面存在巨大的差异,应针对不同来源的数据进行针对性地采集、存储与应用管理。
2.2依据二:数据格式
非结构化数据的格式包括办公文档、文本、图片、XML、HTML、报表、图像、音频、视频等各类格式,不同格式的数据类型、数增长度、格式标准化程度、格式可变性等均不同,而且随着时间的变化,数据格式可能还会出现不一致与冲突的情况。目前,还没有能够囊括所有格式的数据的处理技术,因此,图书馆须从图书馆发展、用户需求及其知识服务的角度出发,制定选择不同格式类型数据的标准,并对应地进行标准化存储设计或兼容式的分层分级存储,能够实现不同数据格式的自由转换,这样才能实现非结构化数据的充分应用。
2.3依据三:产生数据的主体
从非结构化数据产生的主体来看,主要为图书馆员与在校师生,构成比较简单,普遍比社会成员的信息素质水平要高,但各主体在知识结构、专业背景、学科参与、信息行为习惯与特征、信息网络、社区互动等方面存在较大的差异,信息素质水平存在一定的差距。如本科生之间的即时通信数量巨大,但涉及学科发展的数据却很少;相反,学科带头人、专业骨干教师等之间的学科互动却带来极具价值的学科灰色信息。而这种差距自然影响其所创造的大数据的质量,面对浩瀚如烟的大数据,图书馆只能有所选择地管理某些重要的大数据,而非全部采集与应用。
2.4依据四:数据流向
在高校图书馆内部,产生非结构化数据的主体是图书馆员、教师与学生,但其数据流向却是单双流向的立体交叉体系,其数据流向涵盖图书馆员之间的流动。具体包括部门内馆员之间、不同部门之间的馆员之间、领导与馆员之间的单向与双向流动;馆员与读者的单向或双向流动,这是非结构化数据的主体,因读者主体的多元化,教师因职务、职称的不同所产生不同的数据需求与交流,学生因博士生、研究生与本科生在读年限与学业要求的不同所形成的非结构化数据的流动,这些都会具体表现在对专业知识、学科发展与前沿、研究方法、研究主题及其社会性竞争等方面的数据需求,从而形成读者与馆员之间就信息需求所形成的数据流向;同时馆员向学科骨干、带头人等咨询学科及其专业知识发展意见也会形成一定的数据流向,形成以满足读者需求为导向的立体数据流;读者之间的单向数据传播、社区互动、即时交流等等。数据流向的源头及其目标不同,其数据质量会有一定的差别,流向的交叉性也能表明数据之间的内在联系及其关联性,因此,数据流向应成为大数据管理的考虑因素之一。
2.5依据五:数据的信息内容
由于高校图书馆非结构化数据的产生与应用主要在高校内部,其信息内容在社会性的基础上,较公共图书馆具有更鲜明的学科性、专业性与竞争性,内容涵盖:图书馆内部的射频数据;学术讲座、研讨会等视频数据的转换与文字整理;在线咨询的提问单与反馈;实体图书馆内馆员与读者之间的语言或肢体的交流;图书馆信息行为数据;以及学科社区的即时信息与数据、学科讨论与交流化的数据等。这些数据是图书馆发展的根本,将这些数据进行采集、融合、重组、分析与应用,能够不断寻找图书馆发展的新的增长点,不断创新图书馆服务的内容和模式。
3、高校图书馆非结构化大数据D-SFSD管理模式
基于以上分析的管理依据,笔者构建了D-SFSD非结构化大数据管理模式,其中D为该模式管理的基础与核心,同时还要充分考虑大数据的S(Souce数据来源)、F(Fomat数据格式)、S(Subject数据主体)、D(DirectionofFlow数据流向)四个兼容因素,基于非结构化数据的评价、排序与选择,实施针对性的管理策略。
3.1确定非结构化数据的选择属性
该模式中,大数据的信息内容是管理的核心和关键。由于非结构化数据在以海量的态势激增,到底哪些大数据是图书馆应该处理和管理的,这是图书馆首先应该回答的问题。因此,图书馆需要确定大数据的信息属性特征,一是要符合高校发展的学科战略规划,与基础学科、重点学科、新兴学科等相关的大数据;二是从时间与空间的维度看,符合该馆馆藏布局与特色发展的大数据;三是大数据资源与现有馆藏资源能够形成有机互补与提升;四是现有的数据获取、储存、组织、传递与应用技术及其未来发展能够支持大数据进行有效地开发与管理;五是从用户的角度出发,用户的信息与知识需求是大数据选择与挖掘管理的驱动力,使用频率较高、知识不可重复、价格昂贵、成本与价值比较高的数据等;六是现有图书馆的人力、物力、财力对大数据管理的投入回报符合该馆的发展张力。由以上六个方面确定大数据选取的信息范畴,并对其进行评价、排序、组织、整合与分析。
3.2非结构化数据的各因素评价矩阵
基于信息内容这个基础,并结合大数据的来源、主体、格式、流向四个因素,利用因素评价矩阵,对每一大数据进行优势与劣势的综合评价。赋予每个因素0~1之间的权重,包括信息内容在内的五个因素的权重总和为1。
信息内容的权重应是五个因素中最大的,表示其重要程度和核心地位,具体情况视各馆的实际情况而定,示例假设为0.4,其他各要素按照重要程度依次赋予,然后为各关键因素进行评分。五个因素视各具体非结构化数据的不同赋予1~5的评分,用每个因素的权重乘以它的评分,得出每个因素的加权分数。将所有因素的加权分数相加,总加权得分超过3分,表明该数据为优势数据,应为本馆采集、存储与应用的重点数据;反之,如果低于3分,则表明该数据处于劣势状态,系统可自动放弃,或者设置手动处理,由相关专业的学科馆员或专业人员进行再处理,增加大数据的模糊处理(见表1)。进入图书馆需要的大数据范畴后,再进行大数据的信度与效度检验,只有再次通过检验的大数据方可正式成为图书馆要进行处理与分析的数据对象。
【表1】
3.3非结构化数据的优化组织
将纳入到图书馆数据系统内的大数据进行优化处理,优化即将分散的、独立的、零次的数据进行主题提炼、知识表示、分解知识单元,将不同格式的大数据形成有意义的知识概念,然后进行重组、融合、分析与提升,实现知识之间的关联性,并利用可视性技术或工具将其展示给有所需要的用户与馆员。优化过程涵盖以下几个环节,一是大数据显性表示,将具有隐性特征的大数据进行知识单元的分解与解释,可利用逻辑表示、产生式规则、面向对象表示、语义网表示、基于XML的表示、本体表示等方法明确知识对象的含义,也是数据之间建立关联的基础。二是针对大数据的隐性特征建立数据挖掘模型,大数据的数量大、即时性强、过于隐性,这些都要求结合大数据实际应用的情况选择适宜的数据算法,如面向大规模数据集的贝叶斯网络参数学习算法、以Hadoop为平台架构的多维分析和数据挖掘方法等。统计分析数据频次,深度挖掘现有大数据之间的关联。三是大数据的优化重组,应用聚类技术、关联分析技术、序列分析技术等,对隐性的大数据实施有效地优化重组,重新建构有利于图书馆资源建设的资源组合,并通过知识地图、知识图谱等可视化工具将大数据之间的隶属、并行、横向、纵向及其推理新知识的可能最大化地展示出来,将大数据的隐性价值最大化地发挥出来。
3.4非结构化大数据的分级管理
大数据具有不同领域、专业、地域与时域特征,因而形成价值大小不等的各类资源,基于价值差异需要对其进行分级管理。借鉴国外对网络资源的分级管理经验,如人文数据服务机构(AHDS)将网络资源分为档案级、服务级、代理级、链接级与检索工具五个级别分别采集;伯克利数字图书馆分为档案级、服务级、镜像级、链接级四个级别;加拿大国家图书馆则分为档案级、服务级与链接级三个级别,可将高校图书馆的非结构化大数据分为学科级、专题级、服务级与基础级。应用大数据的统计模块,按照使用频率的高低将不同级别的非结构化大数据放入相应的存储级别,包括高端磁盘阵列组成的快速存储区,光盘、磁带、容灾备份磁盘阵列等组成的备份级存储,或是云形式的存储方案对多个知识节点进行存储等,广泛应用阵列存贮、数据压缩、分片索引、延迟加载等技术,建立大数据的存储空间,并实现与图书馆现有数据库之间的动态链接,即结构化数据与非结构化数据之间的相互补充,在图书馆的服务平台建立数据的索引库和倒排档,方便用户查找数据,广泛获得结果。
4、结语
随着互联网、社交网络、科学研究、传感技术等的升级发展,非结构化大数据的数量和领域仍会不断拓宽,积极探索现有信息资源的管理方式、服务模式与应用方法向非结构化大数据过渡,对非结构化的大数据进行收集、存储、组织、优化、分析与预测,能够了解用户行为偏好、学科动向、知识需求与领域,同时对于系统深入地构建学科资源体系存在积极的作用,这将有助于实现信息与知识深层意义的揭示,推动高校图书馆的服务质量向纵深方向发展。
参考文献:
1.樊伟红,李晨晖,张兴旺,秦晓珠,郭自宽.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68,77.
2.黄晓斌,钟辉新.基于大数据的企业竞争情报系统模型构建[J].情报杂志,2013(3):37-43.
3.李广建,杨林.大数据视角下的情报研究与情报研究技术[J].图书与情报,2012(6):21-8.
4.杨海燕.大数据时代的图书馆服务浅析[J].图书与情报,2012(4):120-122.
5.刘家真.跨越数字困境的第一步[J].情报学报,2002(4):458-464.
6.刘高勇,汪会玲,吴金红.大数据时代的竞争情报发展动向探析[J].图书情报知识,2013(3):105-111.
从古代藏书楼、藏书室到现代开放的图书馆,我国图书馆有着数千年的历史。从古代以藏为主,到现代以用为主;从古代以为皇室贵族服务,为私人服务,到现代为大众服务为主。其中图书馆事业经历了漫长的发展过程。图书馆作为人类社会信息和知识资源的社会载体,...
第4章Google数字图书馆对构建我国数字图书馆的启示第二章和第三章就Google数字图书馆的最基本情况和成功经验进行了全面的研究和分析,通过这些研究,我们可以学到Google在建设数字图书馆时所得到的成功经验,在此基础上,结合我国的国情对我国的数...
大学教育质量的提高,实质上就是如何对大学生进行多种教育使得其综合素质得到提高,这是教育的目的,也是教育改革的目标,当然也是专家学者以及教育机构研究的重要课题。作为一名在高校图书馆工作多年的基层管理人员,笔者亲身体验到图书馆在对促进大学生综...
摘要21世纪以来,互联网技术逐步深入每个人的生活和学习当中,成为其必不可少的组成部分,在此基础上发展起来的数字图书馆也慢慢的进入到我们的视野当中。数字图书馆不同于传统的图书馆,它是建立在计算机技术和互联网的应用之上,实现了无纸化的信息数...
民族图书馆中收藏了大量民族图书文献资料,是当地人民了解其他民族和地区生存环境、生活方式的一个重要途径。通过阅读,加强联系,能够促进各民族各地区政治的稳定、经济的发展和文化的繁荣。一、民族地区图书馆发展现状(一)社会资源配置不均是民族地区...
1理论介绍新公共服务理论的主要思想在于公共服务是为公共创造便利,对公众权利进行保障。新公共服务理论继承了新公共管理理论的可行性成果,在此基础上延伸了公共服务的范围,增加了关注公众的公民权、民主价值观以及更适应现阶段公民社会发展和公共管理实...
第三节物理障碍物理一词是一个广义的概念。它可指研究事物内在规律以及物质相互作用和运动规律的一门自然科学,也可指事物的道理,事物的物质结构。但本文所用的物理一词是一个特指概念,特指物理环境。所谓物理环境,是指对象周围的设施、建筑物等物质系...
新媒体网络技术与无线网络技术作为主流是从上个世纪末开始,并且还开展了技术上的改革,所以这就引发了新媒体艺术现代化形态的进一步改革,并且还在全球当中流行了网络数字化、移动通信等一些具有现代化特点的通信手段。...
知识经济时代的来临,信息数字化、网络化进一步加速,资源传播与共享技术不断进步,图书馆作为信息资源储备的重要基地,其数字化进程有着非同寻常的意义.一、我国数字化图书馆建设概述图书馆文献资源数字化,并非一蹴而就,期间经历了长时期的探索实践,从某种程...
现代社会发展迅速,大学生因社会变化所承受的各种压力不断增加,其心理健康面临更多危机。阅读是大学生们喜欢的用于缓解心理压力的一种休闲方式,因此高校图书馆是学生经常光顾的场所。但随着互联网时代的到来,资源获取的便捷性使走进图书馆的读者越来越少...