图书馆学论文

您当前的位置:学术堂 > 图书档案学论文 > 图书馆学论文 >

信息组织在大数据背景下的挑战与对策(2)

来源: 图书情报知识 作者:赵一鸣;马费成
发布于:2017-06-28 共10858字
  (2)大数据资源的记录与描述。信息组织通过对原始信息资源的特征进行分析、选择和记录[6],提供信息资源的概要内容信息,实现信息资源的描述,其典型成果包括机读目录MARC、图书在版编目CIP、都柏林核心元素集等元数据,记录与描述的详细和深入程度则根据不同元数据的格式而不同。
  
  大数据经过记录和描述后,能够揭示其包含的精华和主要内容,比如可以为大数据建立数据档案,记录其内容、条件、格式、产生时间、长度、使用限制条件等,为大数据交易、大数据挖掘与分析提供参考。
  
  (3)大数据资源的浓缩与约减。记录与描述也是对信息资源进行浓缩的过程,通过把一次信息转化为二次信息,将纷繁复杂的信息资源约减成简单的替代记录,比如文摘、题录、目录、书目、元数据等。信息组织操作的直接对象往往是这些替代记录,而非信息资源本身[7].
  
  信息组织可以对大数据进行一定程度的抽象表示,建立大数据资源的替代记录,实现大数据资源的浓缩与约减。
  
  (4)大数据资源的定位、选择、评估与管理。通过信息描述建立的元数据,还具有对信息资源进行定位、选择、评估和管理的功能。元数据通过对信息资源位置信息的描述,方便信息资源的定位与获取;通过对信息资源的名称、年代、格式、版本、使用情况等属性的描述,使用户在无需浏览信息对象本身的情况下,就能够了解和认识信息对象,对信息资源的使用价值和重要性进行判断,作为存取和利用的参考。元数据还包括制作信息、权利管理、转换方式、保存责任等内容,以支持对信息资源的管理以及长期保存[8].
  
  元数据在大数据环境中仍然发挥着定位、选择、评估与管理的功能。一方面,网络数据是大数据的重要来源渠道,网络数据的生成、采集和存储,本来就依赖于元数据的控制;另一方面,在存储和分析大数据的过程中,由于大数据来源、数据类型的多样性,各种元数据不再是单独发挥作用,而是作为一个集群,协同发挥作用。
  
  大数据环境下,提供数据交易、数据分析场所和基本工具的平台商,提供数据集的原始数据商,提供应用和服务的开发者等各类主体共同构成了大数据生态系统,在这个生态系统中,需要频繁地对大数据资源进行定位、选择、评估和管理,这有赖于建立面向大数据的元数据。
  
  (5)大数据资源的交换与共享。信息组织建立的各种词表、人名表、地名表、术语表、领域本体在信息资源的交换和共享、信息系统互操作、跨库检索等方面发挥着重要作用[9,10].以医疗领域为例,用于规范医疗数据库和信息系统信息交换与共享的信息组织成果包括:医学标题词表(MeSH)、国际疾病分类法(ICD)、系统医学术语集(SNOMED)、观测标识符逻辑命名与 编 码 系 统 (LOINC)、一 体 化 医 学 术 语 系 统(UMLS),等等。
  
  大数据通过互联和共享,可以产生更大的价值,比如我国提出要通过建设数据统一共享交换平台,推进国家人口基础信息库、法人单位信息资源库、自然资源和空间地理基础信息库等国家基础数据资源与金税、金关、金财、金审等信息系统跨部门、跨区域共享[11],其后台必须要依靠叙词表等信息组织成果对信息的交换与共享进行规范和控制。
  
  3大数据环境下信息组织面临的困难与挑战。
  
  信息组织要在以上几个方面发挥作用,面临着很多困难和挑战:
  
  (1)信息组织的作用极易被忽视。根据信息链和信息生命周期的相关理论,从数据到信息、从信息到知识、从知识到情报(解决方案)转化的过程中,都遵循着“收集-整理-组织-存储-检索-利用”的工作流程,信息组织在其中发挥了重要的作用。
  
  但是,在大数据环境下的某些场景中,数据经过挖掘可以直接生成情报(解决方案),在不经过组织的情况下直接服务于决策。比如在流式计算中,由于无法确定数据的到来时刻和到来顺序,也无法将全部数据存储起来,因此不再进行流式数据的存储,而是当流动的数据到来后在内存中直接进行数据的实时计算[12],数据的收集、整理、组织、存储、检索与利用需要在极短的时间内实时并发进行。同时,某些大数据在一定程度上强调实时性,很多数据还没有被存储和组织,就已经失去了效用。在这种情况下,信息组织的作用也很难显性化,再加上大数据时代人们在思想上对数据挖掘和分析的重视与推崇,信息组织在从数据到解决方案这个过程中的作用往往被隐藏或忽略了。
  
  (2)信息组织的学科边界逐渐模糊。近现代的信息组织最早起源于图书情报领域,以应对文献信息资源的急剧增长[13],分类法、标题法、编目、文摘索引等文献组织的方法是早期的主要方法,《杜威十进制分类法》、《美国图书馆协会标题表》、《化学文摘》等是信息组织早期的重要成果。随着时代的发展和技术的进步,计算机技术被广泛应用于信息组织,自动分类、自动标引、联机检索、自然语言检索技术得到快速发展,随之而来的是计算机科学对传统信息组织研究的巨大冲击。
  
  1989年,国际知识组织学会成立,很多学者将知识组织看作是信息组织发展的高级阶段,并用知识组织系统一词统称对人类知识结构进行表达和有组织地阐述的各种语义工具,这些语义工具包括分类法、叙词表、语义网络、本体等[14].其中,对本体的相关研究,使信息组织研究的触角自然地延伸到语义网、知识工程中的知识表示等领域。
  
  此外,大数据环境下的元数据标准制定等信息组织研究内容与信息技术标准化等领域有重合,大数据组织等研究内容与数据科学、数据管理等领域产生了联系与交叉。
  
  可见,在计算机技术、网络技术、语义技术、大数据技术的冲击下,信息组织的学科边界逐渐模糊。这带来了两个方面的重大挑战:一是传统信息组织工具适应性的问题,二是与知识工程、语义网领域的学者相比,图书情报背景的学者在技术水平上存在一定的劣势,而这种技术劣势在大数据组织的任务中表现的尤为明显。
  
原文出处:赵一鸣,马费成. 大数据环境对信息组织的影响[J]. 图书情报知识,2017,(01):4-10.
相关内容推荐
相关标签:
返回:图书馆学论文