图书馆学论文

您当前的位置:学术堂 > 图书档案学论文 > 图书馆学论文 >

信息组织在大数据背景下的挑战与对策(3)

来源: 图书情报知识 作者:赵一鸣;马费成
发布于:2017-06-28 共10858字
  (3)信息描述标准的建立存在困难。在文献组织阶段,MARC、FRBR、DTD是文献信息资源描述的标准;在网络信息组织阶段,Dublin Core等元数据是网络信息资源描述的标准;在知识组织阶段,RDF、OWL等形式化语言使得数据可以被机器读取并理解。大数据环境下,无论是数据类型还是数据载体,其表现形式正变得更加多样化,越来越多的大数据来源于科学观察中的实验数据、生命科学中的基因组数据、物联网中的传感器数据、互联网中的社交媒体数据。
  
  这一方面需要有上层的统一的描述标准和规范来保证数据描述和组织的一致性,另一方面,需要建立面向领域和具体场景的信息描述标准,并保证不同描述标准之间的关联性。大数据具有明显的领域依赖特征,其数据场景、数据类型、数据载体、数据结构和模式复杂多样,建立跨领域和跨数据类型的统一描述标准、实现不同领域大数据描述标准的关联和互操作存在较大困难。
  
  (4)现有信息组织的工具与方法体系难以适应大数据组织的任务。信息组织的自动化和智能化水平不足。大数据环境下的大部分数据都是以数字方式存贮的或已经被数字化的,这与2000年数字化存储的数据量占数据总量的25%相比,有了巨大的飞跃,IDC(International data corporation,国际数据公司)将这种场景称为数字宇宙。数字宇宙的规模正在迅速扩大,IDC发布的数字宇宙研究报告显示,其规模将每两年翻一番[15].这种数据膨胀的速度对信息组织的效率提出了更高的要求,对信息组织的自动化和智能化水平提出了挑战。
  
  传统信息组织工具的动态性较弱。分类法、叙词表、本体等信息组织工具的体系严密,但更新速度较慢,一经建立,很难改动。而大数据环境下的数据、信息具有很强的动态性,传统信息组织工具在动态性方面面临严峻挑战。
  
  信息组织作用于数据交换共享的能力不足。大数据驱动价值创造的优势在于将大量的内外部数据、不同渠道的数据连接起来,进行全景式的统一分析与利用。叙词表、领域本体等信息组织成果虽然有助于数据之间、不同信息系统之间的互联,但是面对复杂多样的数据类型,其作用于数据交换共享的能力还有待加强。
  
  4大数据环境下信息组织的发展趋势和任务。
  
  为了应对大数据环境提出的挑战,信息组织未来应该朝着自动化、语义化、标准化、开放化的方面迈进,其发展趋势和任务可以总结为以下几个方面:
  
  (1)打造精品工程,凸显信息组织在大数据环境中的地位和作用。上文提到,信息组织在大数据环境中的作用极易被忽略。但是,即使大数据挖掘可以跳过信息组织和检索的环节直接服务于决策,或者即使用户感知不到信息组织在大数据价值创造过程中的存在,也不代表信息组织在大数据处理流程中的缺失。第一,数据挖掘的对象应该是经过良好组织的、集成的,经过清洗、选择与变换的数据。第二,流式数据或实时数据不是大数据的全部,结构化的大数据需要被收集、获取,经过组织后进入数据库或者数据仓库,再根据需要被分析、计算或挖掘。第三,即使在金融、电信、互联网等对实时数据处理要求非常高的场景下,也需要把流式数据和存储的大量历史数据进行合并处理。
  
  因此,信息组织应该关注对历史数据、批处理数据的组织,协助构建快速的数据流转体系,有流式数据进入,就迅速为其和历史数据建立关联。同时,也要致力于在数据获取之前建立稳定的信息组织机制,比如数据的描述规范、数据的质量控制方式、数据序化的方式等,DC元数据就曾经是网络信息资源生成之前进行描述控制的典范。
  
  当然,信息组织不乏在大数据环境下的成功案例。以科学研究方面为例,Schich等学者在Science上发表的一项研究成果利用过去2000年来的15万个名人出生和死亡所在地的数据,分析文化流动现象,其中,Union List of Artist Names(艺术家名规范档)等信息组织工具在其中发挥了重要作用[16].在工程实践方面,联合国粮农组织在其国际农业科学与技术信息系统中,为学术文献匹配来自谷歌、DBPedia、世界银行等外部数据,其中,联合国粮农组织的多语种叙词表AGROVOC发挥了重要的词汇控制和连接作用,这是信息组织应用于大数据环境的典型案例[17].
  
  事实上,人类历史上的每一次信息爆炸都推动了信息组织的大发展。大数据环境从本质上来说,也是一次新的信息爆炸,“大数据环境”被凝练和总结出来用于归纳这个社会的数据和信息特征。这促使全社会形成了数据是资源和生产要素的观念,有助于人们认识到信息组织的重要性,为信息组织的蓬勃发展提供了思想基础。
  
  所以,当前的首要任务是要利用大数据环境的舆论优势,打造更多信息组织应用于大数据环境、具有社会影响力的精品工程,凸显信息组织在大数据环境中的地位和作用。
  
  (2)依托大数据技术,提升信息组织的自动化水平和效率。中国大数据技术与产业发展白皮书认为,大数据的发展带来了三方面积极影响,一是提高了“数据意识”,二是解决现有数据管理与分析系统不能应对急剧增长、种类繁多的数据这一挑战性问题,三是推动Hadoop、Spark等大数据处理架构更广泛地应用,实现从传统的数据处理向大数据处理的过渡[18].这些方面为信息组织的发展提供了巨大的机遇。信息组织涉及到知识标引、知识整合、知识序化、信息组织成果展示等一系列需要自动化处理的环节,大数据的发展带来了数据存储和计算能力的大幅提升,产生了一系列的新方法、新工具和新模式,将有助于实现大规模数据组织的自动化和智能化[19].
  
  第一,大数据环境下,机器学习、人工智能、数据挖掘与分析等领域取得了长足的进步,将为大数据组织提供有力的技术支撑[20].
  
  第二,大数据处理需求催生的新型计算模式,有利于数据的整合,比如查询分析计算模式可用于结构化数据的整合,图计算模式可应用于社交媒体中的知识整合,等等。
  
  第三,大数据可视化技术进一步丰富了信息组织的表达和展示方式。长期以来,可视化是信息组织成果展示的重要渠道和方式,大数据环境使人们对可视化的需求呈现爆发式增长,催生了一系列新的可视化工具、技术和方法,其中的一些工具、技术和方法也同样适用于展示信息组织的成果。
  
原文出处:赵一鸣,马费成. 大数据环境对信息组织的影响[J]. 图书情报知识,2017,(01):4-10.
相关内容推荐
相关标签:
返回:图书馆学论文