搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

图书馆如何引进资源发现搜索系统

来源:学术堂 作者:姚老师
发布于:2015-06-18 共4766字
摘要

  1简 介

  1.1 资源发现系统

  资源发现系统为图书馆提供了同时检索元数据及全文信息的整合平台,它与传统的联邦检索的主要差别在于资源发现不用对外部资源进行实时检索,而只需检索预先存储在自身巨大的中央索引中的元数据和全文信息,因此检索速度较跨库检索快。可是说在某些程度上资源发现系统是联邦检索的进化,在一定程度上满足了读者使用类似于情报科学第33卷 第6期 2015年6月Google这样的简单而高效的搜索引擎的偏好。相较传统OPAC,资源发现系统不仅能满足传统的目录检索,可实现从资源发现到资源获取的真正“一站式”查询,能提供查询结果图书封面和目次浏览,按相关度进行排序、分面精炼查询、按照作品聚类不同版本和不同载体的同一着作、类似结果推荐、拓展查询等可以有效提高查询效率的多种功能;而且对注册用户,系统还提供个人借阅信息、最近检索历史、已保存的检索式、个人文件夹等的查询,同时可对查询结果添加书评和标签与他人分享阅读体验。目前国际市场上主流的统一资源发现系统有Summon、Primo、EBSCO Discovery Service(简 称EDS)、Worldcat Local和Encore五种,其中Summon、EDS和OCLC Worldcat Local是内容提供商推出的系统, Primo和Encore是系统提供商推出的产品。

  1.2 学术搜索引擎

  学术搜索引擎以学术资源为索引对象,一般涵盖互联网上的免费学术资源和深层网页学术资源,将这类资源抓取、索引以统一的接口向用户提供服务。学术搜索引擎按照覆盖范围可分为综合性和专业性两类,前者面向各种类型的学术资源,后者则专门针对某类学术资源;按照收费方式可分为免费和付费两种.本文讨论的是免费综合性学术类搜索引擎,以Google Scholar、Scirus为代表。

  2资源发现系统与学术搜索引擎的对比

  相较资源发现系统,图书馆近年来普遍采用联邦检索系统存在着运行速度慢、检索结果杂乱有限等问题,有些图书馆为了弥补联邦检索的不足,将Google Scholar等学术搜索引擎与图书馆的链接服务器整合在一起,方便用户找到自己所需信息。但是这两者都不能很好地实现全部检索结果的相关性排序、查重和归并,资源发现系统的出现较好地解决了这个问题。为了更好地了解资源发现系统的功能和特色,本文选取在国内关注度较高的Summon、EDS和Primo三个资源发现系统与综合性学术搜索引擎Google Scholar、Scirus进行比较分析,比较将从元数据、系统架构、检索功能三个方面展开,如表1、表2、表3所示。

  考察资源发现系统与学术搜索引擎的元数据笔者发现,资源发现系统的元数据有三种来源:一是内容提供商签约直接获得授权的元数据,系统厂商除了获得授权的元数据,还尽可能得到对全文进行索引的授权,以提高检索质量。

  Summon和EDS是由内容提供商推出的系统,其元数据中有大量内容提供商(如Proquest、EBSCO、HathiTrust)长期与Summon和OCLC合作,以提高其数字馆藏的可发现性,这种来源的数据合理合法、直接、可靠、稳定、质量高、数量大。二是采用元数据收割的方式。对于开放资源和无法取得授权的元数据,系统厂商一般会采用基于OAI-PMH协议的元数据收割技术,收集网络开放资源以及未授权的第三方元数据,这类元数据通常不如第一种方式获得的元数据质量高。三是本地馆藏资源的元数据上载,本地资源是资源发现系统要覆盖到的重要内容,需在系统部署实施时对本地资源的数据进行映射和上载,并定期更新.

  学术搜索引擎以两类学术资源为索引对象:

  一类是深层/隐形网页,主要是一些资源供应商提供的付费资源,如存储在数据库中的资源,这类资源不能被普通搜索引擎检索;另一类是互联网上普通的学术资源,如学/协会的网站、大学或研究机构的网站、公司的网站、科学家的个人网站/主页等,这些资源一般都可以免费获得。但是不同学术搜索引擎索引的具体数据源仍存在差别。

  Scirus详细列举了其资源的来源范围, Google Scholar并未明确指出其资源来源。在索引资源的数量方面,Google Scholar与Scirus基本处在相同的量级上.

  从部署模式上看,Summon和EDS采用了目前流行的云服务模式,而Primo将元数据仓部署在云端,将本馆馆藏和自建资源数据部署在本地;Google scholar和Scirus均采用远程访问的形式。三个资源发现系统均在与图书馆OPAC整合方面有所建树,Primo除显示馆藏位置和在架状况外,还可进行预约、续借、写评论,加标签等操作,并集成了个人图书馆的相关功能,Summon和EDS提供学科元数据集,有利于用户定位所需学科.作为搜索引擎,Google scholar搜索结果也可包含图书馆相关资源的链接,用户可以利用该链接访问所属图书馆资源,而且也提供中文检索界面,同时整合了国内的维普和万方资源系统。考察的三个资源发现系统都有引文显示功能,尤其是Primo的学术推荐和热点文章推荐服务,体现了资源发现的特色。另外资源发现系统都有很好的可扩展性,图书馆均可进行二次开发,当然Google scholar也提供了Library Link链接,方便图书馆揭示馆藏资源。

  总体来看,资源发现系统与学术搜索引擎的检索功能不分伯仲,二者目标相同,相比之下,学术搜索引擎操作简单、资源覆盖面广,更容易吸引用户。特色功能方面资源发现系统明显胜出一筹,Primo对图书馆OPAC整合方面优势明显,除了能够显示馆藏位置和在架状况外,还可进行预约、续借、写评论、加标签等操作,并集成了个人图书馆的相关功能,大有取代OPAC的势头。

  Summon和EDS提供分学科的元数据集,这和图书馆的学科化服务的宗旨相一致。引文检索功能是Google scholar的亮点,在线推荐检索词表是Scirus独有的,系统会根据用户的检索式保留反映主题内容的关键词。总之,学术搜索引擎侧重资源线索的揭示,资源发现系统擅长资源结果的准确定位。

  3图书馆引进资源发现系统的策略

  3.1 科学评估馆藏和系统状况

  资源发现系统自2008年问世到现在已吸引了国内外大量的图书馆,然而作为一个新兴事物,价格较高、中文资源覆盖不足,自由数据收割困难等问题是目前资源发现系统在国内发展的瓶颈,国内图书馆普遍存在着经费不足、技术薄弱、数字化程度低等问题,因此图书馆引进时要考虑本馆的资源状况、系统的兼容性、性价比等问题,力求最大程度发挥资源发现系统的功能。

  资源发现系统给用户带来了全新的检索体验,统一界面单一检索框使用户不必在各个数据库系统之间跳转,不必花费很大的精力去熟悉各个数据库系统的使用方法。资源发现系统实现了图书馆纸本资源和电子资源的整合,用户能够同时检索图书馆各种类型的资源,甚至包括一些没有被图书馆订购但被中心索引覆盖的其他资源,如开放获取资源,因此资源发现系统将大大提高图书馆的服务水平,但价格高昂,对元数据质量的要求也较高,而国内许多图书馆经费有限,而且现有的系统存在着诸如开放性不够、与第三方系统交互困难等问题。虽然主流的资源发现系统一般采用单纯的云计算和混合服务模式,对图书馆的技术力量要求不高,但图书馆租用和维护数据需要一定的技术水平,因此不能盲目跟风引进资源发现系统,中小型图书馆可通过在主页链接学术搜索引擎解决用户的部分资源需求,有条件的大型图书馆引进时一定要详细评估本馆的资源和系统状况,详细考量本馆的技术支持情况,投入维护的人力和硬件设备的费用。

  3.2 注重并完善元数据质量

  从某种意义上说,资源发现系统是一个学术搜索引擎,是拥有海量学术信息的元数据仓储。元数据质量不仅关系到发现内容的质量,还关系到针对海量元数据仓储进行数据挖掘的效果。在资源发现系统中元数据有“厚、薄”之分,“薄”指包含题名、作者、合作者、来源、标识等基本信息的元数据,“厚”指除了基本信息外还包括主题、摘要等信息。

  对图书馆而言,合理评估资源发现系统的元数据质量既重要又富有挑战性。资源发现系统首先是一个海量的元数据仓储,其收集的数据量巨大;获取元数据的渠道繁杂,以Primo为例,其获取元数据的数据源有6 000多个.因此图书馆引进时应将本馆引进的资源按平台、子库、电子图书、电子期刊等类别进行梳理,将本馆的资源与主流资源发现系统的覆盖范围进行比对,将不同资源发现系统的元数据质量进行比对,明确系统中第三方数据多还是直接与内容商提供签约的多,经过详细的考察、调研和馆藏资源的匹配对比后明确需求侧重点,选择本馆需要资源发现系统,西安交通大学资源发现系统就选择了Summon的SummonTM服务(一站式发现服务)、360Link链接服务(全文链接服务)、360Core(本馆电子资源和其他资源的配置)、360Search (少数特殊特种文献数据库的统一检索)四个模块功能。系统引进后,还应不断对系统中本馆订阅资源进行维护,做好新增资源、停订资源链接地址的更新,另外为了不影响发现系统的分面显示效果,图书馆传统的编目人员应整理好现有CNMARC和USMARC以及学位论文数据,技术人员在系统配置好已订购的数据库,核对数据库中书刊的品种和数量,填写好各种数据与系统的映射表等。

  3.3 加强资源发现系统与本馆管理系统的整合

  目前国内图书馆主要依赖系统供应商的OPAC提供服务,受制于软件更新频率和开发理念,图书馆难以按照自己的构想实现当前新型网络环境下资源发现系统的功能。国产图书馆集成管理系统软件目前还没有一家推出真正意义上的资源发现系统,如何处理资源发现系统与ILS系统的关系是每个图书馆应认真考虑的问题。图书馆引进时必须考察检索系统的易用性、检索性能、检索结果集的排序和显示以及与OPAC系统的融合度。资源发现系统与ILS的整合分为两个步骤。首先将本地的ILS数据上载到发现系统中,与庞大的元数据仓储一起或者分别建立索引。然后在此基础上整合OPAC功能,即将用户续借、预约、个人记录查询等服务功能在发现系统中体现出来。要解决的核心问题是馆藏书目数据增量的处理,馆藏实时流通信息的获取和读者借阅状态信息的获取与联动,所有这些工作都需要图书馆本部门的协作分步骤完成,系统管理员负责与厂商联系提供需求,技术馆员负责配置数据库、咨询人员和编目人员负责数据测试等。

  3.4 改进资源发现系统的检索功能

  资源发现系统引进后,国外图书馆一般只在图书馆主页上提供一个检索框,让读者一次就能检索所需的所有资源,这个比较符合国外用户的习惯,但国内大多数用户习惯了使用OPAC检索图书馆的书目信息,而且很多用户到图书馆来主要是检索纸质的书目信息,因此图书馆要将资源发现系统和OPAC系统并列设置在显着位置让读者选择,如北大图书馆主页上提供“未名学术搜索”、“馆藏目录”、“数据库”以及“电子期刊”四个检索框,这样不至于给用户造成困扰。现有的资源发现系统都是国外开发的,英文检索功能比较强大,对中文资源的覆盖范围不够,检索功能也不够完善,本文考察的三个资源发现系统目前国内只有11家用户,这和它们的用户总量1550相比可以说是九牛一毛,11家用户中只有清华大学和山东大学的Primo系统安装了维普元数据,加之当前的资源发现系统只是一种综合性的搜索,不能结合用户兴趣或用户偏好,实现个性化的检索和显示。所以,图书馆引进了资源发现系统后,必须通过各种手段对信息资源进行多层次网络型的组织,建立学科导航、数据库导航等,指引用户从各个角度、各个入口进入使用资源。另外为了尽可能发现用户的所需资源,图书馆应联合系统商根据用户的需求对检索结果的排序进行不断优化和调整,与厂商合作进行相关度算法控制的配置,分别对词频、字段、主题、记录被获取次数、是否被同行评议、被引次数、文献类型、近义词的模糊归类等影响因素设置权重,提高检索结果的显示度。

  随着资源发现服务系统的普及,国外图书馆对其有用性开展了大量的评估工作,以便帮助图书馆科学决策,改善用户发现体验,优化发现系统的性能和界面设计。因此国内图书馆引进资源发现系统后要定期对用户满意度和用户需求进行评估,要不断调整发现系统内容、改进功能与界面设计,从而满足用户不断变化的期望和需求。

  参考文献:
  1项 英,李向军.高校图书馆资源发现服务系统应用研究[J].情报科学,2012,(11):1681-1684.
  2常 唯.综合性学术搜索引擎研究[J].大学图书馆学报,2007,(2):73-78.

相关内容推荐
相关标签:
返回:搜索引擎论文