1 引言
近年来,数字资源在高校图书馆资源中所占比例越来越高,涵盖范围越来越广,国内各高校图书馆基本上都有十几个甚至几十个各类数据库资源。这些资源具有各自通信协议、类型、格式,为读者提供不同的查询方式和服务,具有各自不同的权限保护和收费策略。
图书馆学之父阮冈纳赞(S.R.Ranganathan)指出,图书馆不仅要为读者提供资源,更要节省读者获取资源的时间。因此,如何整合各类数字资源,实现数字资源的无缝链接,通过一次读者认证,为读者提供快速的一站式服务(One Stop Services),同时以统一的界面将检索结果传递给读者,使读者能够简便快速地查找所需的文献资源已经成为当前图书馆面临的最重要的课题。
2 国内外数字资源整合的研究现状
数字资源整合方式分为以下3种:基于馆藏书目数据库(OPAC)系统的资源整合、基于网络数据库的资源整合和基于知识管理的数字资源整合。国外图书馆数字资源整合起步较早,欧美发达国家在20世纪90年代开始对数字资源进行整合。主要集中在OPAC(Online Public Access Catalogue,即联机公共查询目录)、网络数据库、自建数据库、电子图书等资源的导航及整合检索等方面。一些知名的系统随之出现,如Ex Libris的MetaLib/SFX、Serials Solutions的360 Search/360 Link。可以实现跨库检索和引文链接,适用于分布式环境下数字资源集成管理的ENCompass等。随着Web Service研究的深入,许多学者开始研究Web Service技术在数字图书馆中的应用,各种利于异构资源整合的标准及协议也不断出现。例如基于元数据收割的OAI.PMH、用于书目信息的共享 和 互 操 作 的 Z39.50、用 于 情 景 相 关 的 服 务 整 合 的OpenURL、分布式异构资源的检索系列协议(STARTS、SDLIP和SDARTS)等。
近年来国内图书馆领域开始对资源整合进行研究,由于起步晚、技术落后,整合的对象主要是关系型数据库,以建立数字资源整合平台为主。如清华同方CNKI整合系统、TRS的数字图书馆资源整合门户、CALIS(中国高等教育文献保障系统)统一检索平台等;国内着名高校和科研院所设计和开发统一检索系统。如清华大学信息门户系统,该系统是采用以色列MetaLib/SFX为基础构建的信息门户服务;北大CALIS跨库检索系统和中科院跨库检索系统在对资源的集成和检索服务方面也处于积极的研究、探索和应用之中。
3 基于DC元数据仓储的一站式检索系统架构
一站式检索系统需要对每一资源进行简要描述,这种描述既要清晰准确又不能太复杂。DC元数据即“都柏林核心(DublinCore)元数据”,是为简单描述数字资源而创建的元数据集,它简单、易于理解、可扩展,已被国际上众多项目采用,且已被因特网工程专题组(IETFOC)正式接受。
基于DC元数据仓储的一站式检索系统能够整合图书馆现有数据库资源、外购的各种数据资源以及互联网检索引擎资源,提供资源的一站式检索与服务。可以实现不同规模、多种资源库的资源整合与检索,实现检索结果统一展现。系统能向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地的和广域网上的多个分布式异构数据源,并提供接口对应图书馆门户应用。提供与元数据仓储服务的集成功能,以实现对检索结果的整合。系统主要功能需求如表1所述。【表1】
基于DC元数据仓储的一站式检索系统的总体架构如图1所示,系统技术难点包括元数据采集、数据存储、数据检索与发布等。
3.1 元数据采集
基于DC元数据仓储的一站式检索系统支持的目标数据源广泛,只要是能提供访问的各种数据都可以成为检索的目标数据源,主要可以分为专业电子资源数据库、通用关系型数据库、业务系统文档、远程或本地共享目录文件、馆藏资源OPAC 数据、互联网免费数据源以及其他应用系统数据源等。针对不同的数据源,提供了相应的数据网关和采集适配器来实现对元数据的采集和处理,元数据仓储的元数据采集设计如图2所示。【图2】
数据网关是从数据源提取元数据并组织成结构化数据的桥梁纽带,数据源有数据库服务器、文件服务器、FTP服务器、Web服务器以及用户录入数据等。数据网关是元数据仓储平台的前端子系统,因此数据网关提供一个通用的数据网关接口,并且能够与各个采集适配器以及后端的数据库之间进行良好的交互通信。
采集适配器主要是从源数据库查询其数据结构,并通过设定采集任务和元数据字段映射关系,建立该目标对象的元数据输出表,并转换新的数据结构进行存储。适配器任务包括选择适配器任务类型(如Z server、数据库、FTP、文件目录等)、任务名称、是否调度运行等。
当元数据仓储平台配置字段映射参数时,向网关系统发送请求,网关系统调用需要执行的适配器任务,任务调用生成的数据表结构以XML的形式发送回去,和元数据仓储平台映射,完成后执行调度任务,把不同数据源的数据以XML的形式返回给元数据仓储平台。当任务调度完成后,将元数据能够提供的数据整理并存储。
3.2 元数据存储架构
数据存储部分技术难点是元数据存储采用何种架构方式。数字图书馆需要整合大量的馆藏资源、外部电子资源与网络资源。因此,从数据存取效率和存储安全性考虑,建议元数据仓储采取架构在多个物理服务器之上的分布式进行服务,支持数据分布以及负载均衡两种基本分布方式,并支持两种方式的组合运用。【图3】
方式一是根据数据分类、功能不同,把内容分开存储。将整个元数据仓储的数据根据内容不同分为两类,分别存放于数据库(a)和数据库(b)中,(a)(b)内容不同;方式二是内容相同,数据不分开,只是每套数据分别存储在不同的数据库中,数据库(a)数据库(b)内都存放全部元数据仓储内容,(a)(b)内容相同。
资源调度服务器分发任务的方式可以根据网络流量、检索并发或者来访IP地址来进行任务分发。元数据仓储数据库集群系统服务模式如图3所示。当用户向元数据仓储平台Web服务器发送检索请求时,其请求可能会被资源调度服务器分配到检索集群中的任意一个检索服务器,如分配给(a),(a)检索后并从原数据库中取回检索结果,资源调度服务器在发布集群中选择一个发布服务器,如(b),则(b)选择接受数据,并返回结果,将结果页面以一定方式显示给读者用户。
3.3 数据检索和发布
数据检索和发布支持多库结果的统一展现,同时提供不同资源库的检索结果集分类和分面展现。这些展现方式都可以在一个页面上集中体现,方便读者根据自己的需要选择性查看。检索结果通过处理引擎进行合并、排重、排序等操作后,以统一的格式将结果呈现给读者,读者可以在一个页面中浏览不同的资源库中检索出的结果信息,甚至直接下载全文,如图4所示。
一站式检索使读者在查找所需文献资源时不必在多个数据库之间频繁地登录和退出,以减轻读者学习检索不同数据源的负担;采用多元数据库分布式全文检索,能够有效提升检索效率,为读者节省大量的时间和精力;检索结果合并,为用户呈现格式统一、分类聚合、多种排序的检索结果,大大方便用户的浏览和选择,使得图书馆电子资源得到更充分、有效的利用。【图4】
4 结语
基于DC元数据仓储的数字资源整合,是提高馆藏资源使用效率的一种有效手段,方便、快捷的“一站式”服务,大大提升读者服务的深度与广度,是Web3.0时代图书馆读者服务的必然要求。数字资源整合在图书馆数字化建设过程中具有广阔的市场前景和长期稳定的发展空间,在今后工作中,要加强资源整合的研究,探索新的整合方法,应用新的整合技术,开发新的整合平台,以应对大数据时代的到来。
参考文献:
[1] 张雅君.基于Web Service的OAI数据资源整合[J].图书馆学刊,2011(2):53-55.
[2] 徐荣华.基于元数据仓储的资源整合应用[J].图书馆杂志,2012(4):67-73.
[3] 徐岚.图书馆数字资源整合方式探析——以安徽警官职业学院图书馆为例[J].安徽警官职业学院学报,2010(6):90-92.
[4] 蒋继平,姚倩.文献资源整合中的统一检索系统应用研究[J].大学图书馆学报,2011(1):72-76.
[5] 杜亮,刘涛.基于元数据仓储的数字资源整合研究与实践——以沈阳航空航天大学图书馆为例[J].现代情报,2012(10):46-52.
数据库作为计算机系统的核心构成,其在数据资料调配过程中发挥重要作用,为用户检索文献资料提供了许多实用性功能。因而,用户需掌握计算机数据库检索系统的结构分布情况,实际操作按照标准化流程执行,确保数据检索与运行的稳定性。1数据库应用功能数据...
传统意义上信息检索模型主要是通过检索引擎,将被查询信息与数据库文档标题进行相似度比较,将完全吻合的标题内容信息从数据库中提取出来,同时将相似度比较高的标题内容也筛选出来,放在完全相同的标题内容后面,进行结果显示来满足用户的搜索需求。1.目前...
随着数字信息社会的迅速发展及大量智能终端的普及与应用,越来越多的半结构化、非结构化数据呈现出爆炸式的增长趋势,且数据的组成结构、类型格式、存在形态等也更加多样化,全球发展已步入大数据时代。大数据正吸引着越来越多的信息科技领域的关注,也引发...
4.4.8基于学位论文的检索行为实验结果分析(1)查找学位论文的首选平台任务8是检索机械设计相关的学位论文,如表4.41所示,在进行学位论文检索时,绝大多数受测者首选科技文献数据库来进行检索;而选择专业搜索引擎和公开搜索引擎的比率相对较少,仅...
在情报学理论研究与实践活动中,构建高效的信息检索系统一直是情报学长期追求的目标。随着互联网信息资源的日益庞大和用户需求心理的日益复杂,信息检索的研究面临前所未有的挑战。...
20世纪80年代中期, 教育部印发《关于在高等学校开设文献检索与利用课的意见》的通知, 文献检索课从此成为高校图书馆开设的唯一课程。1992年, 教育部又下发《文献检索课教学基本要求》。...
在当今信息爆炸的时代,文献检索是获取学科最新进展,更新专业知识及从事科学研究最基本和最重要的基本技能。各类期刊文献数据库是获取文献的主要来源。此外,利用一些搜索引擎、综合性医学论坛和部分期刊主页,还可获得大量的免费文献。现就文献检索的主要...
原标题:基于开源架构的网络期刊信息采集与推送系统研究概述当前,各类科技论文每年以两百多万篇的速度递增,对这些海量数据的查找与利用成为科研人员共同关注的问题。在对期刊论文的应用中普遍存在三个问题:一是期刊论文更新延迟,由于版权等原因,大多...
进行科研活动首先要确立研究题目、明确目的, 接着才是相关文献检索, 其次是进行文献综述、确立创新点, 然后进行科学试验, 分析试验现象和数据, 探求科学本质。因此, 一切科研活动离不开科技文献的检索。...
多媒体技术的发展和普及,电子资源数量猛增,但受到经费制约,单个图书馆资源无法购买所有资源,满足读者所有的需求,特别是一些高端个性需求。区域图书馆只有进行协作,建立区域性数字图书馆联盟,联合多个图书馆的资源对读者进行服务,发挥资源联合的长...