图书馆学论文

您当前的位置:学术堂 > 图书档案学论文 > 图书馆学论文 >

信息组织在大数据背景下的挑战与对策(4)

来源: 图书情报知识 作者:赵一鸣;马费成
发布于:2017-06-28 共10858字
  信息组织研究需要充分引入大数据处理的新范式、新技术和新工具,提高信息组织的自动化水平和效率。
  
  (3)借助存量语义资源,对大数据进行语义化组织。语义化是信息组织的重要发展方向,无论是语义网的提出,还是关联数据、知识图谱的蓬勃发展,都是在朝着语义化的方向迈进。对于大数据来说,可以通过信息组织的方法、工具对大数据进行一定程度的语义化,进而通过实体的关联对各类大数据进行连接、整合。
  
  目前存在着庞大的存量语义资源,可以用来对大数据进行语义标注,并把语义标注作为对大数据进行语义化描述和揭示的一种重要途径。存量语义资源是指已经使用RDF、OWL等形式化语言描述和表示了的知识库,比如关联开放数据中的数据集、基因本体等各领域的本体库、DBpedia等通用知识库等等。关联开放数据、知识图谱、语义网的快速发展,为更大范围内语义资源的获取和利用提供了可能。需要强调的是,存量语义资源是一个动态的概念,随着时间的推移在不断地扩充,在不断地加入增量。
  
  要利用存量语义资源,必须对可用的存量语义资源进行清查与摸底,掌握现有存量语义资源的数量、种类和分布,并对存量语义资源进行集成,关联开放数据[21]和中文开放知识图谱[22]在这方面已经取得了较大的进展。同时,由于大数据涉及的领域广泛、数据类型多样,难以直接为大数据标注指定相应的知识库,所以,还要研究存量语义资源的发现与更新机制、算法和模型,研究大数据与存量语义资源中知识库进行匹配的方法,等等。
  
  (4)面向大数据源头,建立新型的描述方式。目前,已经建成的针对大数据捕获与收集、特征表示与抽取 相 关 标 准 有ISO/IEC9075、ISO/IEC13294、ISO/IEC19763,等等[23].我国正在建设的国家政府数据统一开放平台中也包含了大量的标准和规范。
  
  对于大数据资源的描述,可以分为两个场景来讨论。
  
  第一个场景是在数据产生之前,如果在数据生成或者采集时,就为数据赋予必要的元数据或标识,就会大大减轻数据识别、分类、约减、关联等过程中的困难。进一步说,如果能建立统一的数据表示体系或模型,使数据表示方式独立于数据生成的领域或主体,就可以使得数据在生成或采集阶段就具备了互联和整合的基础。
  
  当然,这将面临数据生成者、数据采集者的阻力,因为上述过程会给他们带来困难,造成巨大的时间消耗,同时这种巨大消耗的收益者往往不是这些数据生成者或采集者。因此,如果要建立数据生成阶段的标识制度,必须构建合理的评价和奖励机制,引导、鼓励数据生成者和采集者在数据生成的源头统一表示方式、实现数据口径标准化。
  
  第二个场景是在数据产生之后,对于已经以某种形式被存储下来的数据,如何建立一套描述该数据的元数据显得尤为重要。同时,在大数据的生命周期或处理流程的不同阶段,需要针对性强的具体描述标准。
  
  由于大数据涉及的领域众多,应该从互联网、金融、健康等当前主流的、利用最广泛的大数据[24]入手,进行示范,逐步形成一个被广泛理解和接受的元数据标准。都柏林核心元数据发展和设计时遵循的简单易用性、可扩展性等原则可用来指导大数据环境下的元数据建设,FGDC、GILS、VAR Core等专门领域元数据的建设经验也可以提供参考。
  
  (5)在数据开放环境下,致力于数据的互联和整合。大数据环境激发了数据开放意识,无论是国家层面还是行业层面,都在逐步推进大规模的数据开放,这为数据信息知识的互联提供了必要前提,可以不断激发各类创新应用从而实现价值增值。
  
  从世界范围来看,联合国教科文组织制定了《保存数字化遗产宪章》和《数字化遗产保存指导方针》,实施了“世界记忆”项目;美国国会通过立法保障“国家数字信息基础设施及保存计划”的实施,国会图书馆开展了“美国记忆”项目;欧盟制定了《数字保存项目和政策合作的行动方案》[25].2013年6月,八国领导人在第39届G8峰会上签署了G8开放数据宪章,推动政府更好地向公众开放数据,并且挖掘政府拥有的公共数据的潜力。与信息公开不同,政府开放数据以机器可读格式为主,这是大数据处理与分析的前提。根据开放知识基金会的数据,截至2016年6月,全球至少已经有122个国家和地区加入政府数据开放运动的行列,并且可以在开放知识基金会查询到这些国家的开放数据指数[26].
  
  从国家层面来看,我国已经把政府数据开放共享作为大数据战略实施的首要任务[27],通过推动政府部门数据共享和公共数据资源开放,促进社会事业数据融合和资源整合,提升政府整体数据分析能力,为有效处理复杂社会问题提供新的手段。国务院发布的《促进大数据发展行动纲要》提出要推进各领域数据的汇聚整合和关联分析,发改委在2016年1月发布的《组织实施促进大数据发展重大工程的通知》中把建立统一的公共数据共享开放平台作为重要方向,科技部已经牵头成立了气象、地震、农林、行业、人口与健康、地理等多个领域的数据共享平台,等等。
  
  从行业层面来看,中关村在2014年2月成立了大数据交易产业联盟,将以推动数据资源开放、交易流通、应用为宗旨,建立可信的数据交易平台,形成数据隐私保护等方面行业自律,协助打造完善、健康、有序的数据交易产业链条。2015年4月14日,贵阳大数据交易所正式挂牌运营,腾讯计算机系统有限公司、京东云平台、阿里巴巴、苏宁易购、国美在线、中金数据系统有限公司、广东省数字广东研究院等100多家企业与机构参与了数据的对接与交易[28].上海大数据交易所、浙江大数据交易中心等数据交易平台也纷纷成立。
  
  在这种数据开放的环境下,数据的互联和整合成为了信息组织的核心任务。
  
  5小结。
  
  信息组织作为图书情报学的核心研究领域,是信息存储、信息检索、信息利用与服务的基础和前提。在大数据环境下,应该继续在大数据资源分类,记录与描述,浓缩与约减,定位、选择、评估与管理,交换与共享等方面发挥作用。
  
原文出处:赵一鸣,马费成. 大数据环境对信息组织的影响[J]. 图书情报知识,2017,(01):4-10.
相关内容推荐
相关标签:
返回:图书馆学论文