几大搜索引擎文献获取途径的实际保障能力对比,搜索引擎论文

　　0引言

　　随着网络技术发展，图书馆馆藏资源揭示大致经历了提供 OPAC、建立数字资源导航、引进联邦检索系统等阶段，2010 年前后又掀起引进“网域发现服务”（以下简称“发现服务”）热潮。2013 年 11 月对中国“985 工程”高校[1]图书馆网站的调查发现主页上有Summon、Primo、超星发现、e 读等发现服务链接的图书馆达 32 家。发现服务的典型国外产品代表有Serials Solutions公司的 Summon、 Exlibris 公司的 Primo、EBSCO公司的 EDS 和 OCLC 的 Worldcat,国内产品代表有超星公司的超星发现和CALIS的 e读。国内针对上述服务开展研究的论文多使用“发现系统”指代这几个产品，国外文献则多使用“Web scale discovery service”.由于“发现服务”源于国外，本文也使用“发现服务”指代上述对象。国内外“发现服务”的相关论文已有一定数量，综合多位学者给“发现服务”下的定义，笔者认为如下描述较准确：发现服务是以覆盖范围巨大的中央索引和功能丰富的服务层为基础，向用户提供本、异地获取资源及开放获取资源一站式检索和获取的服务。

　　网络时代图书馆读者既是发现服务的用户，又是谷歌、百度等通用搜索引擎的用户，通过Summon、Primo、超星发现、e 读等专用发现服务能查到的文献，使用通用搜索引擎也有一定的收获。摆在图情工作者及用户面前的问题是：发现服务与搜索引擎谁的文献保障能力更强？此处的文献保障能力有两层含义：一是作为待选的文献获取途径，哪个途径能提供更多的所需文献；二是提供同样的文献，哪个途径更便捷、效率更高。

　　2014年 4 月使用中国知网查询标题中含有关键词“发现服务”或“发现系统”,同时含有“搜索引擎”的论文，仅得到一篇名为《基于搜索引擎的 Web 服务发现系统》的文献，该文显然与本文研究内容不符，于是将检索范围扩大到标题中含有“发现服务”或“发现系统”的文献，发现国内有关论文集中在发现服务的发展历史、基本概念、相关技术、现状与展望等方面，尚无直接研究发现服务文献保障能力的论文。但论文中关于发现服务资源覆盖范围的内容与发现服务文献保障能力密切相关。孙宇提出不同发现系统的核心竞争力在于索引元数据的覆盖面等三个因素，考察发现系统的重要因素是考察系统元数据的覆盖范围和覆盖深度[2].该文提出了考察元数据的具体要求，但没有实际考察的方法和例子。包凌、蒋颖的论文中关于发现系统资源覆盖范围的信息是直接使用服务供应商提供的信息，包括覆盖多少种期刊、多少个数据库等[3],但这种方式无法解决本文提出的问题。秦鸿、钱国富的论文提出了发现系统的评估框架，其中元数据是评估内容的一级指标，涉及元数据规模、质量、对资源的覆盖度、与 OA资源集成等。在获取系统元数据信息方面除了引用商家自述外，还使用“空值检索”“元数据记录类型值估算”等方法进行主动验证，该文还提到数据库级别的本馆资源覆盖率比较[4],但仍无法解决发现服务与搜索引擎文献保障能力比较的问题。窦天芳、姜爱蓉指出，“对图书馆而言，合理评估发现系统的元数据质量既重要又富有挑战性”,在论及对系统元数据质量评价时，提出通过检验重点期刊及清华着者作品在系统中的覆盖情况来评估系统元数据范围的思路[5],但没有具体实践的信息。朱前东提出“资源发现系统评价体系构建”,强调资源覆盖信息在评价发现系统时的重要性，也指出用户是发现系统实现价值的重要主体，要注重发现系统满足用户实际需求的能力[6],但该文欠缺发现系统满足用户文献需求的量化评估。

　　使用谷歌学术及清华大学的“水木搜索”[7],以“Web scale discovery”和“search engine”为标题关键词检索，命中文献中也没有密切相关的文献。扩展到检索标题中含有“Web scaledis covery”的文献，查到的相关文献显示，国外针对发现服务的研究起步早，多数是关于发现服务的产生、基本概念、选择服务要考虑的因素、发现服务部署的经验、用户信息素质教育等内容，也涉及资源覆盖范围的评价。DanyaLeebaw等认为了解发现服务资源范围很重要[8],Amy I. Kornblau 等则指出发现服务覆盖范围的评估不好比且经常变化[9].

　　在具体评价发现服务资源覆盖范围方面，Jason Vaughan 提出发现服务供应商提供馆藏期刊覆盖分析的方法，但部分供应商未响应[10].MichaelKelley提到应关注发现服务的覆盖范围，但具体方法仍需供应商提供资源列表[11].也有通过执行一定的检索任务推测系统资源覆盖情况的努力，如 Andrew D. Asher 通过指定 4 个检索任务，让志愿者分组检索参评系统，并对结果进行统计分析[12],这种做法有一定参考价值，但该文重点不在对发现服务实际文献保障能力的比较研究。

　　综上所述，国内外同行都认识到发现服务资源覆盖范围对客观评价发现服务十分重要，但具体评价方法尚不足以回答本文提出的问题。

　　依靠商家自述显然过度依赖供应商的自律，而仅根据少量检索实例就推测某服务的整体资源覆盖情况则缺乏统计学依据。截止 2014 年 11 月底本文成文阶段的文献复查尚无从用户实际使用的参考文献保障角度比较发现服务文献保障能力的论文，更无具有统计学意义的量化对比发现服务与搜索引擎文献保障能力的文献。笔者认为，发现服务和搜索引擎对用户而言都是待选文献的获取途径，选择哪个途径能提供更全面的文献保障才是用户最关注的问题。

　　为此，笔者提出通过定量考察不同文献获取途径对实际使用过的参考文献的保障情况来衡量其文献保障能力的方法，并进行了实践。本文以 2013 年 Web of Science 平台（以下简称“WOS”）中国着者发表论文使用参考文献的保障情况为切入点，通过抽样统计的方法定量比较“985 工程”高校使用较多的 5 种发现服务---超星发现、e 读、Summon、Primo、EDS与 3 种通用搜索引擎---谷歌、谷歌学术、百度保障参考文献情况，试图定量比较几种文献获取途径的实际保障能力，从而为用户选择文献获取途径、图情机构优化服务提供参考。