0引言
随着网络技术发展,图书馆馆藏资源揭示大致经历了提供 OPAC、建立数字资源导航、引进联邦检索系统等阶段,2010 年前后又掀起引进“网域发现服务”(以下简称“发现服务”)热潮。2013 年 11 月对中国“985 工程”高校[1]图书馆网站的调查发现主页上有Summon、Primo、超星发现、e 读等发现服务链接的图书馆达 32 家。发现服务的典型国外产品代表有Serials Solutions公 司 的 Summon、 Exlibris 公 司 的 Primo、EBSCO公司的 EDS 和 OCLC 的 Worldcat,国内产品代表有超星公司的超星发现和CALIS的 e读。国内针对上述服务开展研究的论文多使用“发现系统”指代这几个产品,国外文献则多使用“Web scale discovery service”.由于“发现服务”源于国外,本文也使用“发现服务”指代上述对象。国内外“发现服务”的相关论文已有一定数量,综合多位学者给“发现服务”下的定义,笔者认为如下描述较准确:发现服务是以覆盖范围巨大的中央索引和功能丰富的服务层为基础,向用户提供本、异地获取资源及开放获取资源一站式检索和获取的服务。
网络时代图书馆读者既是发现服务的用户,又是谷歌、百度等通用搜索引擎的用户,通过Summon、Primo、超星发现、e 读等专用发现服务能查到的文献,使用通用搜索引擎也有一定的收获。摆在图情工作者及用户面前的问题是:发现服务与搜索引擎谁的文献保障能力更强?此处的文献保障能力有两层含义:一是作为待选的文献获取途径,哪个途径能提供更多的所需文献;二是提供同样的文献,哪个途径更便捷、效率更高。
2014年 4 月使用中国知网查询标题中含有关键词“发现服务”或“发现系统”,同时含有“搜索引擎”的论文,仅得到一篇名为 《基于搜索引擎的 Web 服务发现系统》 的文献,该文显然与本文研究内容不符,于是将检索范围扩大到标题中含有“发现服务”或“发现系统”的文献,发现国内有关论文集中在发现服务的发展历史、基本概念、相关技术、现状与展望等方面,尚无直接研究发现服务文献保障能力的论文。但论文中关于发现服务资源覆盖范围的内容与发现服务文献保障能力密切相关。孙宇提出不同发现系统的核心竞争力在于索引元数据的覆盖面等三个因素,考察发现系统的重要因素是考察系统元数据的覆盖范围和覆盖深度[2].该文提出了考察元数据的具体要求,但没有实际考察的方法和例子。包凌、蒋颖的论文中关于发现系统资源覆盖范围的信息是直接使用服务供应商提供的信息,包括覆盖多少种期刊、多少个数据库等[3],但这种方式无法解决本文提出的问题。秦鸿、钱国富的论文提出了发现系统的评估框架,其中元数据是评估内容的一级指标,涉及元数据规模、质量、对资源的覆盖度、与 OA资源集成等。在获取系统元数据信息方面除了引用商家自述外,还使用“空值检索”“元数据记录类型值估算”等方法进行主动验证,该文还提到数据库级别的本馆资源覆盖率比较[4],但仍无法解决发现服务与搜索引擎文献保障能力比较的问题。窦天芳、姜爱蓉指出,“对图书馆而言,合理评估发现系统的元数据质量既重要又富有挑战性”,在论及对系统元数据质量评价时,提出通过检验重点期刊及清华着者作品在系统中的覆盖情况来评估系统元数据范围的思路[5],但没有具体实践的信息。朱前东提出“资源发现系统评价体系构建”,强调资源覆盖信息在评价发现系统时的重要性,也指出用户是发现系统实现价值的重要主体,要注重发现系统满足用户实际需求的能力[6],但该文欠缺发现系统满足用户文献需求的量化评估。
使用谷歌学术及清华大学的“水木搜索”[7],以“Web scale discovery”和“search engine”为标题关键词检索,命中文献中也没有密切相关的文献。扩展到检索标题中含有“Web scaledis covery”的文献,查到的相关文献显示,国外针对发现服务的研究起步早,多数是关于发现服务的产生、基本概念、选择服务要考虑的因素、发现服务部署的经验、用户信息素质教育等内容,也涉及资源覆盖范围的评价。DanyaLeebaw等认为了解发现服务资源范围很重要[8],Amy I. Kornblau 等则指出发现服务覆盖范围的评估不好比且经常变化[9].
在具体评价发现服务资源覆盖范围方面,Jason Vaughan 提出发现服务供应商提供馆藏期刊覆盖分析的方法,但部分供应商未响应[10].MichaelKelley提到应关注发现服务的覆盖范围,但具体方法仍需供应商提供资源列表[11].也有通过执行一定的检索任务推测系统资源覆盖情况的努力,如 Andrew D. Asher 通过指定 4 个检索任务,让志愿者分组检索参评系统,并对结果进行统计分析[12],这种做法有一定参考价值,但该文重点不在对发现服务实际文献保障能力的比较研究。
综上所述,国内外同行都认识到发现服务资源覆盖范围对客观评价发现服务十分重要,但具体评价方法尚不足以回答本文提出的问题。
依靠商家自述显然过度依赖供应商的自律,而仅根据少量检索实例就推测某服务的整体资源覆盖情况则缺乏统计学依据。截止 2014 年 11 月底本文成文阶段的文献复查尚无从用户实际使用的参考文献保障角度比较发现服务文献保障能力的论文,更无具有统计学意义的量化对比发现服务与搜索引擎文献保障能力的文献。笔者认为,发现服务和搜索引擎对用户而言都是待选文献的获取途径,选择哪个途径能提供更全面的文献保障才是用户最关注的问题。
为此,笔者提出通过定量考察不同文献获取途径对实际使用过的参考文献的保障情况来衡量其文献保障能力的方法,并进行了实践。本文以 2013 年 Web of Science 平台(以下简称“WOS”)中国着者发表论文使用参考文献的保障情况为切入点,通过抽样统计的方法定量比较“985 工程”高校使用较多的 5 种发现服务---超星发现、e 读、Summon、Primo、EDS与 3 种通用搜索引擎---谷歌、谷歌学术、百度保障参考文献情况,试图定量比较几种文献获取途径的实际保障能力,从而为用户选择文献获取途径、图情机构优化服务提供参考。
经过3~5年的飞速发展,目前桌面搜索和移动搜索几乎各占半壁江山,移动搜索大有赶超桌面搜索,成为主要搜索途径之势。2013~2014年中国搜索引擎行业竞争持续升级,百度独领风骚的同时,几大追随者毫不懈怠,持续练就内功,同时借助外力,以期对百度构成威胁...
本文从卷烟企业对信息数据检索的需求出发,论述了基于Solr开发出符合自身企业的搜索引擎的可行性,介绍了有关搜索引擎及Solr的相关知识。...
0引言信息检索系统主要为互联网用户提供对资源的检索服务,用户通过输入自己想要寻找的资源信息(诸如资源的部分名称,资源内容中相关关键词等),信息检索系统根据用户提供的检索需求进行资源匹配和资源定位,并按照一定的顺序将匹配的资源反馈给用户。搜...
1引言互联网的深入发展带来了各种类型信息资源数量的快速膨胀。截至2014年6月,我国拥有273万个网站,3.3亿个IPv4地址[1].面对浩瀚巨量的网络资源,用户通过搜索引擎快速获取所需信息尤为重要。目前,我国搜索引擎用户达4.9亿;网民平均使用...
1、引言近年来,随着数字化教育浪潮的不断推进,我国在教育资源建设方面已经取得了巨大的成就,各类教育资源的数量巨大且呈现几何级数增长。随着搜索引擎技术的发展,通用搜索引擎的功能变得日益强大,取得了很大的成功,但其仍有局限性,如搜索的深度不够,...
上世纪中页,传播学家麦克卢汉曾在《理解媒介:论人的延伸》中提出:媒介是人感觉能力的延伸或扩展。这一经典概念的重要意义,在于将人的单一感官和媒体的传播特征进行了对应。例如,从视角延伸到印刷媒介,从听觉延伸到广播以及视、听觉共同延伸到电视。而...
搜索引擎经历近30年的发展,目前在使用的有几种类型,如全文搜索引擎、分类目录搜索引擎、多元搜索引擎、集成搜索引擎等。但这些都是网络上的公用商业搜索引擎,它们往往不能满足企业的需要。...
第4章模型构建及假设提出。本章在前两章文献综述和理论分析的基础上,结合访谈的结果提出了搜索引擎优化方法和效果的维度,并构建了两者的概念模型,提出了各研究变量之间的假设关系。4.1访谈。访谈法是指研究者通过面对面、QQ等访谈方式,与受访者...
在搜索引擎技术的发展之下,智能检索作为一个新型的检索方式已经渗透到了网络数据的设计中,该种检测方式能够帮助人们检测出高质量的信息,是检索方式发展的一种必然需求,将数据挖掘技术应用在网络资源可以实现智能检索的发展,也能够为人们提供出更加具有针对性...
引言随着因特网中搜索引擎的发展和进步,油田数据的资源共享以及信息的集成都较之前更加便捷和有效了。从因特网搜索引擎的思想出发,借助SES系统的数据采集和搜索的机制,并且结合油田的信息和数据的共享的特点,制定了一套从结构体系好以及安全智能为主要...