第二章 关联数据及其在数字图书馆中的应用
第一节 关联数据概述
关联数据给数字图书馆的发展带来了广阔的机遇,它让数字图书馆有可能根据一种泛化的规范模式来提供数据信息服务,从而达到真正地将自己融入到整个数据信息世界中去的最终目标。近年来数字图书馆的关联数据应用有了一定的发展,但总体上说目前研究、应用以及使用仍还处于起步阶段。关联数据在各个领域中的应用正在被专家学者们探索与发现,并将不断取得新的成果。
一、关联数据的内涵
关联数据是国际互联网协会(W3C)现在推荐的一种可以用来发布和联接各类数据、信息和知识的数据规范。关联数据的目的是期望在已有的万维网的数据资源基础上,构建出一个可以反映出包含自然、社会和精神世界的所有数据资源的关联数据网络。关联数据通过对各种事物的本身数据及其相互之间关系数据进行关联数据化,使所有数据变为机器可读的描述数据,以期将知识海洋信息数据网络演化为相互关联的、丰富的语义数据信息网络系统。从而变得使任何人都可以利用整个互联网数据资源的强大的运算能力,在更大的数据范围内,高效、准确、可靠地查找、分享、利用这些具有相互关联的关系的数据信息和知识组织。
根据关联数据的实现技术来看,关联数据是一种可以在万维网上提供发布任何“资源”的数据表达方式。语义万维网将数据信息资源定义为“任何可以用 URI 来标识的东西”,并将数据信息资源分为可表达数据信息资源和不可表达数据信息资源两类。可表达数据信息资源是指可以表达任何信息数据的资源,通常是以某种编码文件的形式而存在的数据;不可表达数据信息资源则是指世界中的各类信息实体的对象,可以是自然界、人类社会以及人类意识所创造的精神世界(概念、观念、抽象实体等)的所有实体信息对象。关联数据是通过 HTTP 和 URI 两种方式结合来表示和存取“数据信息资源”的。如果这个数据信息资源是可表达的数据信息资源,则可以直接通过传统的 Web 方式获取;如果是不可表达的数据信息资源,则将会链接到一个数据是以 RDF/XML 编码、用以指代该“不可表达数据信息资源”的数据文件,而不是其他任何格式的普通文档。这个 RDF/XML 编码的数据文件包含了关于这个“不可表达数据信息资源”的所有元数据的详细描述和与其相关的实体数据信息对象的详细数据关联关系的描述。各种对象之间的数据关联关系通常可以用本体数据信息语言来进行编码,现在许多数据领域应用的数据信息知识体系都有标准规范的,利用可重用的本体数据信息,可方便用来建立实体对象之间的数据信息关联关系①。
二、关联数据的关键技术
我们现在知道,关联数据是一种建立在 Web 技术之上的技术。而 Web 技术则主要是涉及三个方面的内容: HTTP、URI 和 HTML.
(1) HTTP(Hypertext transport protocol,超文本传输协议),是一种详细定义浏览器和万维网服务器之间互相通信的 Web 规则。它是通过 Internet 向万维网传递文档的数据传送协议。HTTP 是整个网络信息资源流通的通行证。
(2) URI(Uniform Resource Identifier,通用资源标识符),是一种用于万维网上定位数据信息资源的标识符。URI 一般是由三部分组成的:访问数据资源的命名机制(Scheme)、存放数据资源的主机名(Authority)、数据资源自身的名称(由路径(Path)表示)。例如下面的这个 URI 地址,这个地址表示的是这是一个可以通过 HTTP 协议访问的数据信息资源,这个数据信息资源位于主机上,它最终是通过路径“/ html40”访问②。
(3) HTML(Hypertext Markup Language,超文本标记语言),是一种可以用于描述当前网页文档的标记语言。HTML 之所以称为超文本标记语言,其实是因为它的文本文档中包含了所谓“超级链接”点。所谓是的超级链接,其实就是一种 URL(Uniform Resource Locator,统一资源定位符)形式的指针,用户通过激活(点击)这个指针,就可使正在使用的浏览器方便地获取新的网页地址,从而获取到新的信息。而这个在浏览器中应用正是 HTML 获得的最重要最广泛的的应用之一。
HTTP、URI 和 HTML 三者之间是共同存在相互作用来共同产生服务的。如果把万维网比喻为一张相互交织的巨型大网,则 HTML 是这张网上的一个个的交点,URI 是就是这一个个交点的位置的标识符,用来标记这些交点,且是每个交点的“唯一地址”,而 HTTP 则是这个大网上的每一条交织的线,将整张大网上的一个个交点串联交织在一起,从而形成一个大的整体。
而关联数据希望实现的目标就是构建一个互通互联结构化数据化的跟一个巨型大网般的大型语义网。语义网是用 RDF 形式来描述数据信息网络资源的,因此采用关联数据的语义网一般要求采用 RDF 形式的数据模型,并利用 URI 来命名每个具体的数据信息资源实体,并发布和部署这些数据信息资源,从而最终揭示并获取这些数据信息资源。关联数据只是一种应用 RDF 格式模型的数据处理技术。
这个数据模型既要求以 URIs 形式来命名所有的数据信息对象,有要求所有的数据信息资源能够通过 HTTP 协议来能够访问获取。上文中提到了 RDF(Resource Description Framework,资源描述框架),这是一种用于描述现有信息网络上的各种数据信息和数据资源的标记性语言。RDF 不只是一种语言,它同时还是一个数据框架。可以用来描述网络信息数据资源,诸如网页的标题、作者、日期、内容以及版权信息等一系列的数据信息。我们可以将数据信息置于 RDF 文件之中,这样的话,这些数据信息资源就有可能被计算机程序(如 spiders)从网络信息资源数据库中搜索、发现、摄取、筛选、分析和处理。
关联数据是语义网数据信息处理的一个简化方案。它以三元组模型:RDF 模型及其各类扩展的模型(即 RDFS、SKOS、OWL 等)来描述各种数据信息及其之间的相互关系的。关联数据技术通过利用通用的万维网协议和规范,即 HTTP和 URI 等,来进行发布和存取信息数据资源。所以基于关联数据的语义网数据信息处理,本质是万维网数据信息资源发布的一种方式。它通过 HTTP 协议便可以参引到应 URI 地址命名所有数据信息资源,然后以 RDF 语言的形式来语义化的描述数据信息资源,以达到使 RDF 链接指向相关数据信息资源并能够揭示数据信息资源之间的各种详细的语义关系,最后通过使用 RDF 来触发浏览器最终实现关联数据的信息数据资源访问。
三、关联数据的基本原则
蒂姆·伯纳斯·李(Tim Berners-Lee)作为关联数据的发明者,他在提出了关联数据概念的同时,还提出了与关联数据有关的四项基本原则,这四项基本原则比较全面地概括出了关联数据的基本特性:
(1)关联数据是用 URI 来为任何对象做标识名称。
(2)人们可以利用关联数据具体定位到对象,这一过程是通过 HTTP URI 来实现的,并且对象之间可以相互参引。
(3) 当查询对象的 URI 时,关联数据是以 RDF 形式或 SPARQL 的形式标准来为用户提供有意义的信息。
(4)关联数据尽可能多的向用户提供相关的链接,将对象的 URI 指向其他的URI,以便可以发现更多的对象。过多地使用“空白节点”和“文字”不能起到实现关联数据的效果,这就要求人们在创建的关联数据 RDF 文件尽可能的不使用“空白节点(blank nodes)”和少使用普通“文字(Literal)①。
四、关联数据的发展现状及趋势
关联数据最初是作为语义网的一个分支被认识的。随着近几年受到各领域的广泛关注和研究,关联数据的研究热度己经超过其上位词”语义网“,并己发展成为推动语义网发展的重要力量之一②,逐步得到了学术界和政府部门的广泛关注,包括报纸行业、图书馆行业等在内的许多行业机构都开始利用关联数据来为用户提供相关的服务。
关联数据最经典的应用莫过于从 2007 年 1 月就开始启动的关联开放数据项目(Open Linked Data)。这个项目的目的是试图利用关联数据的四项基本原则将已经存在并可以公开使用的信息资源数据集合转化成 RDF 格式的信息资源数据集合以供信息数据库使用,然后信息数据库通过读取 RDF 格式的信息资源数据并将它用HTTP 来进行信息数据的传递,最终来达到改善信息数据网络的终极目标①。伴随着关联数据项目的研究和应用逐渐深入和广泛,以及关联数据的逐渐普及,许多大型机构如许多着名的大型数据库、大型网站甚至许多图书馆都积极的参与研究并进行了广泛的应用。
为了使更多的用户在寻找数据信息时更加容易的获取所需要的数据信息内容,W3C SWEO②组织开启了关联开放数据社区项目(Linking Open Data communityproject),这个项目的目的是力求将目前可以利用进行关联数据的所有信息资源数据库的开放信息数据集合起来全部转化成 RDF 格式来进行长久保存。并将来自于不同关联数据库的关联数据资源之间建立起 RDF 格式的链接进行联系整合,然后继而扩展到了整个数据信息资源网络。如关联数据云图项目(Linking Open DataCloud Diagram)所呈现给我们的信息③,截至 2014 年 9 月,这个关联数据云图己经建立起并保存了 295 个数据信息资源关联数据集,这些信息资源数据集中包含了大概 310 亿个 RDF 形式的三元组,并产生了 5.04 亿个 RDF 形式的链接。
这个关联数据云图的信息资源数据的关联数据集合还在不断的变得更加强大更加丰富。未来语义网与关联数据的强强联合而发挥出的巨大作用越来越吸引人们的关注,现在各行各业都在积极的参与到信息数据资源的关联数据这一行动中来,他们希望能够开放出更多的基于关联数据的信息数据资源以供外界使用。
第二节 关联数据在数字图书馆中的应用
一、媒体资源库的构建
关联数据媒体资源库中用到的主要数据处理技术是 FRBR 技术,即 ”书目记录的功能需求“技术。这个技术是国际图书馆协会联合会(IFLA)的一个进行媒体资源库研究的研究组于 1998 年提出的。FRBR 技术的提出是为了提供更加清晰的信息数据资源库的结构化框架建设,改变现在书目存储等数据资源库的结构的扁平化缺陷。这个技术的提出,可以用来建立各个媒体数据资源库之间和媒体资源库包含的各个数据之间的基础结构框架,这个技术的提出具有改变现有核心技术提高媒体信息数据资源库利用的重大意义。
数字图书馆的主要构成还是数字化处理后的图书,而图书是人类知识信息结晶的最重要的表现形式,媒体资源库的 FRBR 技术同样可以用来改变数字图书馆中图书之间的构建模式。数字图书馆中的每一本书都不是孤立存在的,他们之间是可以用一定的逻辑关系来关联起来的,比如图书馆分类法,利用 FRBR 技术就可以研究分析这些图书之间的关系以及这些图书和用户需求之间的关系,通过FRBR 技术对这些关系进行处理之后,数字图书馆中的图书之间变有了新的架构体系,而与用户的需求之间也形成了立体的架构体系,这样当用户使用数字图书馆时,便有了更加立体的使用感观,这样数字图书馆的服务将会变得更好。
基于关联数据的媒体特色信息数据资源库的组织与框架的建构,主要是由两部分组成。其中一部分是有信息数据资源保存管理、元数据管理、信息数据资源存储方式管理、信息数据资源连接管理、数据信息资源传输管理等五个方面组成的管理部分;另一部分则是对数据信息资源的数据本身的知识组织,对于数据的知识组织显示通过各种分类法对所有的资源数据进行分类组织,达到科学的分类,然后利用 FRBR 技术和关联数据技术对已经分类好的资源数据进行立体的构建和数据关联化①。这样最终的基于关联数据的媒体特色信息数据资源库将变的立体而又富有联系,便于用户的使用。
将关联数据应用在数字图书馆媒体信息数据资源库中,可以是用户共享结构化的关联数据项共享文件一样简便快捷,当用户进行检索时,用户的检索内容可以从最初的数据向各种关联的数据靠拢,从而想用户提供更加丰富的相关媒体信息数据资源。
二、数字资源的融合
数字图书馆的数字资源融合是为了帮助用户快速、有效地从分布在不同地点的信息源中获取信息,信息资源持有者和服务者都在不断尝试各种方式将同一主题信息以及相关信息进行集成,形成一个性能更优、服务更好的资源体系,为用户提供一个统一获取分布异构信息数据的途径。
将关联数据应用到数字资源中来,实际上是关联数据在语义网中的应用的实现。关联数据作为语义网的最佳实践,在资源融合与共享方面有巨大的发挥空间。
由于现阶段网络信息的语义性缺失的缺点现状,故提出关联数据的概念以试图通过发布和链接结构化的数据使分散的异构的数据实现语义关联,从而促进传统信息系原网络向共享数据网络的转变。关联数据作为实现数据之网的主要推动手段,天然具有融合资源的优势。关联数据可以融合资源成为真正无缝链接、无限开放的整体,还可以通过与本体技术的结合增强资源之间的语义相关性。目前关联数据用于资源融合的领域主要是企业资源融合、金融数据融合和网络资源融合等。
利用关联数据来融合企业信息。通过应用关联数据,采用 RDF、SKOS 转换数据格式,以 URI 命名信息单元,从而构建一个有效的语义关联的企业 IT 系统。不仅帮助大型公司将其成百上千的信息系统和数据库有序整合关联,而且能够链接外部开放的有益数据。
关联数据通过对来自于不同数据源的数据和相关信息进行关联整合,而且可以将多个不同的分布式异构的信息资源数据进行关联整合,然后向用户返回关于用户所需要的所有数据的相关信息,并向用户推送不同的数据源产生的相关数据,这样用户在可以获得本身所需数据的同时还可以获得更丰富的相关数据。关联数据的应用大大提升了数字图书馆进行分布式异构数据关联整合的快速性。经过关联数据整合之后,数字图书馆的数据形式可以发布成关联数据的形式,并且能过将数据链接到该数字图书馆领域以外的其他相关数据源,比如各大网站、各大数据库等,可以拓展数字图书馆的资源存储并提升数字图书馆的服务质量,而且可以将数字图书馆的资源转化为一种容易理解的形式传递给图书馆领域外的用户,使他们的操作利用数字图书馆更加简单方便,这项举措使进行关联数据的数字图书馆的影响远远超过了传统的普通数字图书馆,并且可以使数字图书馆在其他信息服务领域的地位大大提升,最大化的提升数字图书馆资源的利用价值。
三、知识的组织
利用关联数据这种数据发布技术,可以将知识组织中系统的概念、词汇以及概念间的相互关系关联成为网络数据资源。知识组织系统的关联数据网络化,可以使知识组织系统发挥更大的作用。
概念框架是指”一些概念的集合,以及可选的对概念之间的语义数据关系的声明“.SKOS(Simple Knowledge Organization System),也就是简单的知识组织系统,主要用于表示各种较为简单的 NKOS(网络知识组织系统),比如叙词表、分类法、主题词表、术语表等各种类型的概念框架。从这两个概念中我们可以总结出,概念框架包涵了除本体数据之外的所有 NKOS①。
传统的知识的组织系统是在语词的概念的表达和组织的符号系统基础上进行组织运行的,这里的每一个款项单元都是一个语词信息。因为 SKOS 的核心集大多也是使用 RDFs 来进行定义的,所以基于关联数据的知识组织系统是通过转化成SKOS 来进行操作的。知识组织系统利用 SKOS 的方式是 SKOS 建模,而 SKOS建模则是先以概念为基础的。这里的每个概念都有唯一的一个标示符来替代,也就是说知识组织系统在转换成 SKOS 进行运行时,词表里的每一个概念都可以被抽象出来转化成为可以被标识的唯一的资源个体。
所以传统的知识组织系统转换成使用机器可理解的 SKOS 形式的基于关联数据的知识组织系统时,要在 SKOS 模型上再进行修改,这里的每个款项不再是一个语词,而是变成了一个概念,而且这个概念有其唯一的 URI 标示。
使用 SKOS 的建模方法促进了传统的知识组织系统向语义网环境下的知识组织系统的转化,并且提供了详细的转换的标准以及低成本的转化的途径。进行过SKOS 转化后的基于关联数据的知识组织系统有了统一的语言标准来利用和分享新的知识组织系统。这些语言标准也可以独立进行使用,也可以与其他更加严格规范的知识描述语言进行结合使用②。基于关联数据的知识组织系统采用 SKOS 基于概念的建模方法,既可以保证传统知识组织系统转换为基于关联数据的知识组织后能够继续生存和发挥作用,也可以最终实现本机器系统真正的理解利用,实现与 Web 服务的结合。
基于关联数据的知识的组织系统,为处于不同系统的知识组织系统的整合提供了丰富有力的数据基础与系统运行方式。通过各种类型的知识组织系统之间进行相互映射和匹配,最后能够整合各个知识组织系统,形成一个大的基于关联数据的知识组织系统,最终使得语义互操作成为可能。
四、面向用户的服务
数字图书馆面向用户的服务也就是数字图书馆对用户的知识服务。关联数据是通过对处于不同数据源的同一个数据对象进行关联整合,通过整合可以把多个不同的分布式异构数据源关联整合成关联的数据访问,然后讲关于该关联数据对象的所有相关数据信息组成的统一视图返回给用户读取,并且同时允许用户在不同数据源之间进行相关的数据信息浏览。这种面向用户的服务使得用户最终所面对的数据和信息呈指数级增长,大大的提升了信息服务的质量。现在网络信息环境下,用户对于知识的需求不再单纯的限于普通的文献检索传递服务,用户们更希望能够通过数字图书馆提供的知识服务获取到更加全面的知识信息内容和知识信息的关联。这就要求数字图书馆能够提供具有较高的知识密集度知识服务的产品,这同时还要求数字图书馆能够针对他们的具体专业来提供全方位的知识信息保障,这些都对数字图书馆的知识服务提出的新的要求。
知识的发现服务是一个系统化过程,这个过程的实施是需要分析处理大量的数据库、数据仓库或知识库的,进而进行深层次的数据挖掘,寻找出各个数据之间潜在的数据关联模式、规则、趋势等知识信息。关联数据为知识信息发现服务提供了一个良好的数据获取途径,这样数字就可以利用关联数据将数字图书馆的内部信息数据资源与外部的信息数据资源有效地相互链接起来,以达到帮助用户获取数字图书馆以外的数字信息资源的服务目标。利用关联数据进行的只是发新服务,无论是对于用户还是馆员,进行了关联数据处理的信息数据资源都将超越数字图书馆本身的信息数据资源,这就为用户和馆员提供了途径来发现和访问信息数据资源服务,使使用者在获取信息数据资源时变得更为方便容易快捷。
对于现在的数字图书馆的状态而言,数字图书馆的馆藏信息数据资源往往是有限的,而经过关联数据处理数据信息资源后进行的知识服务,将传统的馆藏信息数据资源通过关联数据的资源保障进一步关联到整个互联网。以关联数据为基础建立起来的知识服务资源保障体系,不仅仅能够帮助数字图书馆用户提供既具有相关性又具有便捷性的数据信息资源服务,更重要的是这种利用关联数据进行的知识服务可以满足用户对热点信息资源的追踪和对新兴或潜在主题的发现等具有较强科研性咨询的需求。