第一章 绪论
第一节 研究目的与意义
一、研究目的
随着数字图书馆技术的发展,数字图书馆的读者服务方面也成为了数字图书馆建设的一个重要方面。而读者服务的基础首先是数字图书馆相关数据的关联整合与构建。
关联数据是未来的语义网的主题,具有重要的研究意义。它描述了可以通过连接 URI 的方式来发布、共享、连接 Web 中各种数据资源的各类方法。从 2006 年万维网之父 Tim Berners-Lee 第一次提出“关联数据”这个概念以来,关联数据就一直作为一种轻量级的语义网数据实现技术被人们所认知,这是一种对互联网上数据、信息和组织进行描述、联系和共享的最佳数据实践技术,伴随着 W3C 的关联开放数据运动在数字图书馆界中出现了迅速高效的应用和发展。越来越多的图书馆开始采用关联数据来发布数据和信息。关联数据的提出及应用给数字图书馆的信息服务的发展带来了广阔的机遇,让传统数字图书馆信息服务变得有可能转化为根据一种现代的泛化的规范模式以提供数据信息服务,从而真正地将数字图书馆数据信息服务本身融入到整个数据信息世界中去。虽然近年来数字图书馆关联数据应用在数据信息服务中有了一定的发展和应用,但就总体上来说目前还依然处于起步研究阶段。
动态服务组合是指 Web 上数据和信息的有效机制。动态服务组合对在快速发展的互联网应用模式下提高软件系统的重用性及互操作性具有重要价值。随着组合服务的发展,异构系统中的动态服务运行在不同平台上,能以不同的方式创建、用不同的编程语言实现、由不同的服务提供者提供。因此,动态服务组合也成为Web 服务领域的研究热点。
如何将图书馆关联数据与动态服务组合在共同的语义网基础上更好的整合起来是当前基于关联数据数字图书馆动态服务面临的一个重要问题。本文的目的是将关联数据与动态服务组合结合,形成更有效的数字图书馆用户服务机制。因此,本文将在基于关联数据的数字图书馆研究的基础上,对动态服务组合进行深入的探讨和构建,形成良好的服务运行机制,以期对数字图书馆的服务体系的发展提供一些参考。
二、研究意义
对关联数据下的数字图书馆进行动态服务组合研究,可以使我们认识到数字图书馆服务的重要性,并能够在发现问题的同时解决问题,以实现数字图书馆服务的长远发展。本文就针对基于关联数据的数字图书馆动态服务组合展开探究,并提出相关理念模型,以实现更好的数字图书馆服务机制。
本文具有以下研究意义:
1、有助于解决数字图书馆的业务问题。在现有的数字图书馆服务的基础上,利用关联数据与动态服务组合技术的结合,优化数字图书馆的现有的数据信息服务,以期达到提高数字图书馆的数据信息服务工作效率目的。
2、提高数字图书馆数据信息利用率。基于关联数据的数字图书馆信息数据库,不仅强化了图书馆内部数据的关联度,也拓展了数字图书馆的服务体系,通过数字图书馆渠道就能链接外部相关信息,大大提高了数字图书馆数据信息的利用率。
3、提高用户服务完成度。在动态服务组合的模式下的基于关联数据的数字图书馆,更好的解决了网络环境带来的分布、异构等问题,能够使数字图书馆的服务具有动态、自适应的特征,能在变化的环境中调整以适应变化,完成用户提交的任务。
第二节 国内外研究现状
一、国外研究现状
目前,国外关于关联数据的研究已从最初的关联数据的发布和浏览,发展方向已经扩展到了关联数据的应用链接构建、关联数据的复杂数据资源整合、关联数据的数据耗费、关联数据的用户服务等方面,研究内容从早期的地理数据信息、生命科学数据信息、百科词条数据信息等逐步扩展到目前涉及多媒体数据、出版发行数据、政府信息数据、图形图像数据等方方面面。关联数据在其它关键领域的应用等诸多方面,几乎无所不包①②③④⑤⑥。2008 年 4 月,Roderic D.M.Page 在期刊“BRIEFINGS IN BIOINFORMATICS”发表《Biodiversity informatics:the challengeof 1inking data and the role of shared identifiers》,提出了两种基于关联数据的共享识别器 DOIs 和 LSDIS 应用到生物多样性领域的具体实例。2009 年,Georgi Kobilarov和 Tom Scott 发表《Media Meets Semantic Web-How the BBC Uses DBpedia andLinked Data to Make Connections》,倡导纽约时报以关联数据的形式发布新闻目录,利用关联数据技术应用到多媒体领域,将其数据与互联网上的网页、数据和内容关联起来。2010 年 6 月,David Stuart 发表《Linked Data and Government Data morethan mere semantics》,论述了美国、英国开启的基于关联数据的开放政府数据项目 在英美两国政府信息化和政府数据公开方面的应用研究。同时,图书馆界也注意到了数字图书馆与关联数据之间的密切关系,2008年瑞典国家图书馆首家发布了基于关联数据的数字图书馆书目数据库,并将其中的书目数据与 DBPedia 数据库建立了关联。到 2010 年,已有超过 20 个数字图书馆建立了关联数据集合库。2010 年 6 月,IFLA 发布了德国国家图书馆的 JanHannemann 执笔的《关联数据与图书馆》的专题报告,介绍了德国国家图书馆在应用关联数据技术方面的发展现状⑦。
2011 年以来数字图书馆界开展了一系列非常具有重要意义的基于关联数据的数据信息活动。先是 W3C 图书馆关联数据孵化组发布了对关联数据研究的最终的报告;随后,美国国会图书馆也先后发布了关于主题标目、人名规范等 15 个词表的关联数据信息,并且同时宣布了新的数字图书馆数字化时代是基于关联数据的新书目框架来构建的;而 OCLC 则宣布将主题术语的分面应用(Faceted Applicationof Subject Terminology,FAST) 发布为关联数据进行应用;Kuali OLE 则计划向共享知识库或者联盟知识库提供结构化的和开放关联的关联数据信息服务应用;大英图书馆在把书目转换成关联数据之后,又计划将期刊文章也发布成关联数据进行存储;欧洲国家图书馆的数字资源门户 Europeana 在 2012 年 2 月发布了关联数据试点( Linked Open Data Pi-lot),其开放数据类型涉及文本、图像、视频和音频。
二、国内研究现状
为了了解本课题的国内学术研究状况,以“关联数据”并含“图书馆”为检索词对 CNKI、万方等数据库进行主题检索,由于 2015 年文献不全,不做统计,故文献检索时间截止到 2014 年末,共检索到相关文献 121 篇,时间分布如下表:
从表 1 我们可以看出,2009 年国内出现了第一篇关于基于关联数据的图书馆的相关研究的文章,作者以美国国会图书馆的关联数据应用为例介绍了关联数据概念及其在图书馆已发展的相关技术。随后,基于关联数据的图书馆相关研究在国内迅速发展,截止到 2014 年末,文献数量每年都在持续增长。从以上数据我们可以了解到,关联数据目前在图书馆的研究中还是一个较有研究价值的方向,随着研究文献每年持续增长,学者对于关联数据的认识也在加深,关联数据在图书馆中的应用将会有更广阔的前景。
文献老化的概念是在 1944 年由美国的 C. F. Gosnell,在《大学图书馆中文献老化问题》一文中正式提出。文献老化的定义是科学文献随其“年龄”的增长,失去了作为科学情报源的价值,以及因此越来越少被科学家和专家们利用的过程①。一般情况下,“文献老化”是针对某一类文献群体而言的,而不是指某一篇或少量具体文献的“老化”.
1960 年,R.E.Burton &R.W.Kebler,在《一些科技文献的“半衰期”》一文中提出,某学科正在利用的全部文献中较新的一半是在多长一段时间内发表的,这便是文献老化规律。因此,文献的半衰期也被称为“中值引文年限”.半衰期就是文献增长和老化的综合结果。科学文献的“半衰期”反映了科学文献的稳定性。
在本文进行的统计中,从选定的文献中,共筛选出被引的期刊文献 162 篇,根据对这些被引的文献进行分析,所有被引用的文献中,比较新的一部分大约发表于 2012--2014 年年间,因此,测定文献的半衰期大约为三年。则该主题文献的半衰期较短,因此该方向的研究还处于初步阶段。
1971 年,D.J.Price 首次提出“现时有用文献”与“档案性文献”的数量之比,可以反映文献的老化速度。本文统计的期刊文献中,小于等于 5 年的被引文献数量为 143 篇,根据计算公式可以得出本文研究文献的普赖斯指数 Pr=88.27%.
由于文献的老化速度越快,则“半衰期”越短,“普赖斯指数”越大;文献的老化速度越慢,则“半衰期” 越长,“普赖斯指数”越小。所以,我们可以得出结论。关于关联数据图书馆主题的研究文献更新速度较快,未来的研究可能会有更广的方向。
1934 年,S.C.Bradford 在《专门学科的情报源》(Sources 0f Information on SpecificSubject)一文中第一次提出了定量描述文献分散规律的经验定律。他提出假设,任何一个学科的绝大部分的专业文献都集中在少数的相应的专业期刊内,但是同时也散布在其它的相关的期刊中,这就是布拉德福分布规律。该类专业期刊的散布的态势则与该学科研究范围的大小有关。
由于 2015 年文献不完全故不做统计,截至到 2014 年 12 月 31 日,共有期刊文献 92 篇,对这 92 篇期刊文献进行期刊分布规律分析,得出以下曲线(图 1-1)根据前文所述,我们可以得出该曲线符合布拉德福定律。根据统计,共有 92篇文献,则前 17 篇文献为论文的核心区。
根据对期刊文献进行的作者统计和洛特卡定律,可知关于关联数据图书馆研究的高产作者有 10 位,其中发文最多的作者为刘炜,共发表了 4 篇相关期刊文献。
这位作者发表的文章多为对关联数据的介绍和在图书馆应用的展望。其中发表于2009 年的文章《LCSH,SKOS 和关联数据》,是国内较早较为全面介绍关联数据及其相关概念的文献。而此后关于关联数据的应用方面的文献,更是推进了国内相关研究的进展。
仅次于刘炜的高产作者是黄永文和吴旻。黄永文的的研究主要集中在关联数据在图书馆中的应用,在图书馆信息检索和应用体系框架构建等方面提出了自己的观点。吴旻的文章则主要介绍了英美关联数据的发展情况以及关联数据在图书馆的应用。几位高产作者的研究方向较为集中,主要就是对关联数据的介绍及其可能在图书馆应用的研究。
齐普夫定律是研究文献中的词频分布规律的,它的定义为,假设一篇文献包含 N 个词(N≥5000),统计出其中每个词出现的频次为 Fr ,将其按照频次递减的顺序排列,并且用自然数给这些词编上等级序号 r(L≥r ≥ 1),则:Fr×r = C①。
图 1-2 中,纵轴为对所选文献的关键词的出现频率进行统计的结果,横轴为对关键词的出现频率进行降序排序后的序号排列,其中,据齐普夫定律,出现频率较高的词,功能总是不会太大,因而图中的直线就表示了传递相应的词所表示的力,关键词出现的频率越高,其本身在这个领域中的价值就越小,统计中,我们发现出现频率比较高的几个词分别为关联数据、图书馆、语义网等词,从词义上我们可以看出这几个词在学科中所表现的意义均比较泛化,含义较广,其具体所指的意义比较多,因此在研究中,这几个词并不具有实际的研究意义,与其他出现频率相对较低的关键词相比,研究价值也先对较小。
知识图谱(Mapping Knowledge Domain)的全称是科学知识图谱。它在图书情报界被称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,它是利用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
采用Ucinet软件在共引网络的基础上实现对文献的引文分析知识图谱制作,从而了解我国关联数据图书馆的研究情况。
从图中我们可以看出,关联数据、图书馆、语义网三个词出现的频次最多,与其他关键词的联系最为紧密,从图中统计出的关键词来看,知识图谱整体上是以几个关键词为中心,向四周呈放射状分布,关键词方面涉及的范围比较广,图谱的关键词虽然是以几个主要的关键词为中心,但是,不同领域的关键词之间的联系依然比较紧密,说明该学科的研究现状中,已经体现了学科间的相互渗透,但是学科渗透的程度还有待加强,作为一个交叉学科。
图书馆是基于语义网基础上的研究成果,与语义网结合是目前关联数据的一个重要研究方向。关联数据与数字资源整合、元数据等联系也较为密切,我们可以得出这几方面与关联数据的集合也是研究的一个重要方向。
综上所述,国内外学术界对基于关联数据的数字图书馆的研究还依然处于初级阶段,还有较大的发展空间。而关于这类图书馆的读者服务方向更是研究重点,但是目前已有关于关联数据数字图书馆的服务多为静态服务,服务体系较为单一,如何将异构数据整合后进行针对用户的动态服务正是本文的研究问题所在。
第三节 研究内容与方法
一、研究内容
本文从关联数据、数字图书馆服务、动态服务组合等方面进行讨论,在分析关联数据的特征及动态服务的基础上,建立了关联数据与动态服务组合的数字图书馆服务模式,然后分析其融合原理和技术,并以构建关联数据下的动态服务组合模型为基础,展开分析研究。本文的具体内容主要包括:
第一章是绪论,本章主要分析了关联数据产生发展的背景和图书馆服务模式转变为动态服务模式的必要性,对关联数据和关联数据在图书馆服务中的应用的相关研究成果进行梳理,提出了文章主要研究的相关问题,并且阐述了该选题的国内外研究现状和研究内容方法,以及选题的特色与创新之处。
第二章对关联数据的相关理论进行详细的阐述及解释,从关联数据的内涵、关键技术、基本原则和发展现状及趋势等方面来展开分析,然后会对关联数据目前在数字图书馆的相关服务中的应用情况进行阐述。
第三章主要是研究基于关联数据的数字图书馆的现有的服务模式。对四种服务模式的运行机制和服务框架流程分别进行详细解释分析。
第四章是文章的核心,也是本文的创新之处。主要是对关联数据环境下数字图书馆动态服务组合模式进行了研究。首先是对动态服务组合的阐述。其次解释了基于关联数据的数字图书馆动态服务组合的设计理念和功能。在此基础上,对基于关联数据的数字图书馆动态服务组合模型进行了构建,并分析了实现后运行机制和服务流程。
第五章是对全文的总结与展望。主要是对本文所进行的研究进行总结,并分析研究过程当中存在的不足,以及对未来的研究工作给予展望。
二、研究方法
综合运用文献调查法、比较归纳法、理论研究法以及学科交叉分析等方法进行理论探讨和实践。在已掌握的国内动态和文献资料的基础上进行研究,并根据研究结果进行比较分析。
(1)文献研究法
通过多种途径进行第一手资料的收集和阅读,本研究的参考文献主要来源于各大网络数据库和图书馆网站,包括电子期刊、电子杂志、学位论文和图书等。
在对着这些文献进行梳理的过程中,发现于本研究课题相关的内容,进而整理出可资借鉴的信息,依次为本研究提供有力的资料支撑,最终为论文内容与观点尽可能找到最具说服力的论据。
(2)归纳总结法
对所查阅到的关于基于关联数据的数字图书馆所有资料进行综合归纳,理出一个相对清晰的脉络,并总结出其具体概况、应用现状等。
(3)理论研究法
在已有文献材料和研究结果的基础上,通过对关联数据数字图书馆的综合研究,发现其现状及发展趋势。
(4)学科交叉分析法
本文的研究主题是基于关联数据的数字图书馆动态服务组合,这不仅要求我们能够掌握关联数据数字图书馆的相关知识和理论基础,同时也要求我们了解动态服务组合的相关理论知识,在两者的共同作用下才能为文章的写作提供足够的依据。
第四节 研究的创新点
本文主要是依据关联数据与动态服务组合理论进行研究,具有以下几个创新点:
(1)本文在总结前人对关联数据现有的应用基础上,提出了新的应用方式,即基于关联数据的数字图书馆动态服务组合模式。
(2)本文在提出模式之后,试图以基于关联数据的云服务等为基础运行基于关联数据的数字图书馆动态服务组合模式。
(3)本文建立了基于关联数据的数字图书馆动态服务组合模型的服务流程,即以数据层、管理层、业务层和读者界面为顺序的服务流程模式。