信息组织在大数据背景下的挑战与对策(4)
来源: 图书情报知识 作者:赵一鸣;马费成
发布于:2017-06-28 共10858字
信息组织研究需要充分引入大数据处理的新范式、新技术和新工具,提高信息组织的自动化水平和效率。
(3)借助存量语义资源,对大数据进行语义化组织。语义化是信息组织的重要发展方向,无论是语义网的提出,还是关联数据、知识图谱的蓬勃发展,都是在朝着语义化的方向迈进。对于大数据来说,可以通过信息组织的方法、工具对大数据进行一定程度的语义化,进而通过实体的关联对各类大数据进行连接、整合。
目前存在着庞大的存量语义资源,可以用来对大数据进行语义标注,并把语义标注作为对大数据进行语义化描述和揭示的一种重要途径。存量语义资源是指已经使用RDF、OWL等形式化语言描述和表示了的知识库,比如关联开放数据中的数据集、基因本体等各领域的本体库、DBpedia等通用知识库等等。关联开放数据、知识图谱、语义网的快速发展,为更大范围内语义资源的获取和利用提供了可能。需要强调的是,存量语义资源是一个动态的概念,随着时间的推移在不断地扩充,在不断地加入增量。
要利用存量语义资源,必须对可用的存量语义资源进行清查与摸底,掌握现有存量语义资源的数量、种类和分布,并对存量语义资源进行集成,关联开放数据[21]和中文开放知识图谱[22]在这方面已经取得了较大的进展。同时,由于大数据涉及的领域广泛、数据类型多样,难以直接为大数据标注指定相应的知识库,所以,还要研究存量语义资源的发现与更新机制、算法和模型,研究大数据与存量语义资源中知识库进行匹配的方法,等等。
(4)面向大数据源头,建立新型的描述方式。目前,已经建成的针对大数据捕获与收集、特征表示与抽取 相 关 标 准 有ISO/IEC9075、ISO/IEC13294、ISO/IEC19763,等等[23].我国正在建设的国家政府数据统一开放平台中也包含了大量的标准和规范。
对于大数据资源的描述,可以分为两个场景来讨论。
第一个场景是在数据产生之前,如果在数据生成或者采集时,就为数据赋予必要的元数据或标识,就会大大减轻数据识别、分类、约减、关联等过程中的困难。进一步说,如果能建立统一的数据表示体系或模型,使数据表示方式独立于数据生成的领域或主体,就可以使得数据在生成或采集阶段就具备了互联和整合的基础。
当然,这将面临数据生成者、数据采集者的阻力,因为上述过程会给他们带来困难,造成巨大的时间消耗,同时这种巨大消耗的收益者往往不是这些数据生成者或采集者。因此,如果要建立数据生成阶段的标识制度,必须构建合理的评价和奖励机制,引导、鼓励数据生成者和采集者在数据生成的源头统一表示方式、实现数据口径标准化。
第二个场景是在数据产生之后,对于已经以某种形式被存储下来的数据,如何建立一套描述该数据的元数据显得尤为重要。同时,在大数据的生命周期或处理流程的不同阶段,需要针对性强的具体描述标准。
由于大数据涉及的领域众多,应该从互联网、金融、健康等当前主流的、利用最广泛的大数据[24]入手,进行示范,逐步形成一个被广泛理解和接受的元数据标准。都柏林核心元数据发展和设计时遵循的简单易用性、可扩展性等原则可用来指导大数据环境下的元数据建设,FGDC、GILS、VAR Core等专门领域元数据的建设经验也可以提供参考。
(5)在数据开放环境下,致力于数据的互联和整合。大数据环境激发了数据开放意识,无论是国家层面还是行业层面,都在逐步推进大规模的数据开放,这为数据信息知识的互联提供了必要前提,可以不断激发各类创新应用从而实现价值增值。
从世界范围来看,联合国教科文组织制定了《保存数字化遗产宪章》和《数字化遗产保存指导方针》,实施了“世界记忆”项目;美国国会通过立法保障“国家数字信息基础设施及保存计划”的实施,国会图书馆开展了“美国记忆”项目;欧盟制定了《数字保存项目和政策合作的行动方案》[25].2013年6月,八国领导人在第39届G8峰会上签署了G8开放数据宪章,推动政府更好地向公众开放数据,并且挖掘政府拥有的公共数据的潜力。与信息公开不同,政府开放数据以机器可读格式为主,这是大数据处理与分析的前提。根据开放知识基金会的数据,截至2016年6月,全球至少已经有122个国家和地区加入政府数据开放运动的行列,并且可以在开放知识基金会查询到这些国家的开放数据指数[26].
从国家层面来看,我国已经把政府数据开放共享作为大数据战略实施的首要任务[27],通过推动政府部门数据共享和公共数据资源开放,促进社会事业数据融合和资源整合,提升政府整体数据分析能力,为有效处理复杂社会问题提供新的手段。国务院发布的《促进大数据发展行动纲要》提出要推进各领域数据的汇聚整合和关联分析,发改委在2016年1月发布的《组织实施促进大数据发展重大工程的通知》中把建立统一的公共数据共享开放平台作为重要方向,科技部已经牵头成立了气象、地震、农林、行业、人口与健康、地理等多个领域的数据共享平台,等等。
从行业层面来看,中关村在2014年2月成立了大数据交易产业联盟,将以推动数据资源开放、交易流通、应用为宗旨,建立可信的数据交易平台,形成数据隐私保护等方面行业自律,协助打造完善、健康、有序的数据交易产业链条。2015年4月14日,贵阳大数据交易所正式挂牌运营,腾讯计算机系统有限公司、京东云平台、阿里巴巴、苏宁易购、国美在线、中金数据系统有限公司、广东省数字广东研究院等100多家企业与机构参与了数据的对接与交易[28].上海大数据交易所、浙江大数据交易中心等数据交易平台也纷纷成立。
在这种数据开放的环境下,数据的互联和整合成为了信息组织的核心任务。
5小结。
信息组织作为图书情报学的核心研究领域,是信息存储、信息检索、信息利用与服务的基础和前提。在大数据环境下,应该继续在大数据资源分类,记录与描述,浓缩与约减,定位、选择、评估与管理,交换与共享等方面发挥作用。
原文出处:赵一鸣,马费成. 大数据环境对信息组织的影响[J]. 图书情报知识,2017,(01):4-10.
相关内容推荐
-
图书馆应用大数据策略分析
0引言随着网络信息技术的不断发展,互联网信息数量及种类激增,面对规模大、形式多样的数据,如何收集并分析出有价值的信息成为各行业研究的重点,大数据概念也因此而产生并进入人们的视野,可以说大数据的运用使人类的工作、生活和思维发生了极大的变化,...
-
大数据背景下图书馆服务问题与解决措施
大数据时代提高图书馆的服务读者质量, 还要从读者的信息需要出发, 构建完善的线上线下互动机制, 实现传统的服务方式与大数据环境的有机结合, 从而更好的满足读者的阅读需要, 提高图书馆资源供给质量。...
-
我国图书馆推进大数据的思考
1引言大数据,作为1行业近几年兴起的热词和新技术,正以它独有的魔力影响着我们的生活和思维方式。然而,国内绝大多数图书馆对大数据的反应并不积极。数据即资产、数据即服务,数据背后蕴藏着的价值可想而知。图书馆作为文献信息中心,有着海量的数据资源,...
-
高校图书馆运用学习分析技术的决策模型
在大数据背景下,满足用户多样化和个性化的需求是衡量图书馆服务质量的重要标准。个性化服务系统是对当前各种自动化服务系统的升级改版,需要重点解决两个方面的问题:一是数据信息的收集方法,需要实现密切跟踪用户学习动态过程,及时收集用户数据,并建立...
-
大数据背景下的图书馆服务革新措施
大数据,是继移动互联网及云计算之后又一次革命性的创举。随着半结构与非结构化数据等概念的产生,相关的企业及政府的相关部门也都发现了大数据当中包含的核心价值,图书馆作为现今社会上规模最大的公益性信息资源供给机构,随着信息资源建设步调的逐步加快...
-
-
大数据环境下大学图书馆舆情信息服务的创新
图书馆舆情信息服务是指信息服务部门按照用户需求,通过对大量信息进行汇集、分类、筛选、整合、提炼等技术处理,形成反映社会舆情、网络舆论总体态势,并提出有效对策建议,为普通用户、专家领导、政府机构、智库管理者提供决策参考的信息产品的过程。...
-
大数据时代高校图书馆的发展转型思路
网络化、数字化和智能化为高校图书馆转型提供了全新的社会背景和技术手段,高校图书馆面临着深度变革。大数据环境下,高校图书馆资源建设、读者服务与管理形态的基础发生了本质的变化,但就目前高校图书馆实际运行模式而言,远远没有达到与环境变化相匹配。...
-
大学图书馆非结构化大数据管理的依据和D-SFSD
1、图书馆非结构化大数据的独特性图书馆作为记录、储存、传播与应用人类文明与数据的机构,其需要处理的数据正在呈几何级数增长,尤其伴随着网络社区、交互式通信、用户服务等技术的成熟发展,结构化与半结构化的数据在逐渐增多,数据呈现数量多、种类繁、...
-
大数据下图书馆流通服务改进研究
随着网络技术的发展, 图书馆对流通服务模式进行创新是不可避免的发展趋势, 对于图书馆而言, 这种创新不仅是其有效实现服务模式转型的机遇, 也是一个巨大的挑战。...
相关标签: