搜索引擎论文

您当前的位置:学术堂 > 图书档案学论文 > 搜索引擎论文 >

学术搜索引擎和资源发现系统的对比分析

来源:新世纪图书馆 作者:李慧芳
发布于:2019-10-08 共6393字

  摘    要: 比较资源发现系统和学术搜索引擎的功能异同,有助于优化图书馆发现服务。本文选取EDS和百度学术搜索为研究对象,通过文献述评与实验方法,从资源收录范围、数据来源与组织方式、检索功能、检索结果运用以及个性化服务等方面比较了两者异同。结果显示,在具体的功能上,两个系统各有优点。最后,本文从资源整合、信息素养教育、知识发现服务三个方面提出图书馆发现服务优化建议。

  关键词: 发现服务; 资源发现系统; 学术搜索; 图书馆;

  Abstract: Comparing the functional similarities and differences between the resource discovery system and academic search engine willoptimize the library discovery service. EDS and Baidu Academic Search are selected as research objects in this paper. Through literature review and experimental methods, this paper compares them from the view of resource types, data source and organization mode, search function, search result application and personalized service.The results show that the two systems have their own advantages in specific functions. Finally, it puts forward optimization suggestions for library discovery service from three aspects: resource integration, information literacy education and knowledge discovery service.

  Keyword: Discovery service; Resource discovery system; Academic search; Library;

  0 、引言

  近年来,几大搜索引擎公司为进一步方便学术用户获取学术资源,纷纷在其原有搜索引擎的基础上推出了学术搜索引擎。学术搜索引擎通过科学组织、管理和维护网络中的学术信息,使用户通过一个检索入口快速获取网络学术信息[1]。目前,该类型的搜索引擎主要有Google Scholar、Microsoft Academic Search以及百度学术搜索。同时,随着Google Scholar学术搜索的榜样效应,元数据索引服务开始进入图书馆界的视野,基于元数据仓储的资源发现系统面世,并在国内外图书馆中得到迅速而广泛的应用。资源发现系统是通过抽取、映射、收割、导入等手段对海量的来自异构资源的元数据和部分对象数据进行预收集,并通过归并映射到一个标准的表达式进行预聚合,形成统一的元数据索引,通过单一但功能强大的搜索引擎向终端用户提供基于本地分布或者远程中心平台的统一检索和服务的系统[2]。资源发现系统自2009年面世以后,发展很快,其中在国内被广泛应用的系统主要有ProQuest公司的Summon和Primo Central、EBSCO公司的EBSCO Discovery Service(EDS)以及超星发现系统。

  目前,国内学者对学术搜索引擎以及资源发现系统分别做了大量的研究,也有少量的研究是分析比较了这两类系统的性能、特点,为用户选择和使用提供指导,为图书馆引进资源发现系统提供参考,但都没有涉及面对学术搜索的竞争,图书馆的发现服务该如何应对[3,4,5,6]。本文从资源收录范围、数据来源与组织方式、检索功能、检索结果以及个性化服务等方面比较这两类系统的异同,明确各系统的特点,并根据比较结果对图书馆的发现服务提出优化建议。

  1、 研究对象与方法

  1.1、 研究对象

  本文以EDS与百度学术搜索为研究对象。EDS是EBSCO公司2010年推出的网络级资源发现系统,利用EDS,读者只需使用单一检索框,即可在几秒钟之内检索到图书馆的各种电子和纸本馆藏,检索结果与本馆馆藏资源保持一致。百度学术搜索是百度旗下的学术资源搜索平台,提供海量中英文文献检索,涵盖了各类学术期刊、会议论文等资源,受到了教育和科研机构用户的广泛关注,成为科研工作者获取文献的利器。
 

学术搜索引擎和资源发现系统的对比分析
 

  1.2、 研究方法

  本文采用的研究方法主要有两种:一是文献调查方法,通过收集与资源发现系统相关的期刊论文、会议报告、产品说明书等,了解资源发现系统的评价指标,尤其是EDS和百度学术的发展历程与产品性能特征;二是实验方法,通过具体检索词的测试与分析,从系统收录的学术资源、检索性能、检索结果处理以及个性化功能等方面进行比较分析。

  2、 比较结果分析

  2.1、 学术资源

  (1)收录范围。EDS的收录范围相对明确,根据EBSCO公司最新数据,其收录了近10万家期刊和图书出版机构的资源,覆盖的资源类型丰富,包括图书、期刊、学位论文、会议论文、报纸、音频、乐谱等,但其资源以外文为主,在中文资源方面有所欠缺,目前可以索引到的中文期刊仅有重庆维普以及万方期刊。百度学术并没有明确资源收录的范围,从其具体的使用来看,资源类型少于EDS,仅仅包括期刊、学位论文、会议论文、图书、专利5种,资源语种包括中文和英文。

  无论是百度学术还是EDS,均不支持空检索,因此,笔者随机选择几个检索词,对检索结果的中外文数量做了比较,具体结果见表1。由比较结果可看出,对于中文检索词,百度学术检索结果数量优势明显,对于英文检索词,EDS检索结果数量则遥遥领先,这也反映了这两个系统收录中英文资源的差异。

  表1 检索实例比较
表1 检索实例比较

  (2)资源来源。EDS和百度学术的资源来源具体如图1所示。

  图1 EDS和百度学术的资源来源
图1 EDS和百度学术的资源来源

  EDS资源主要来源于数据库资源、OA资源以及图书馆自建资源。对于数据库以及OA资源,主要通过和数据库商及出版社合作的方式获取;图书馆自建资源主要是指图书馆自建的书目数据库以及机构知识库等本地资源,本地资源是EDS知识库的重要组成部分,主要通过自动收割或人工导入的方式完成对本地资源数据的映射和上载工作。百度学术搜索的资源主要来源于数据库资源、OA资源以及网上的免费资源。网上免费资源是指来源于百度文库、豆丁网、爱学术等途径的资源,这部分资源以非传统的形式发布,未经过同行评审,因此会在质量和权威性方面存在差异。

  (3)资源组织。EDS的资料团队会把不同来源的元数据整合在一起,经过一系列规范化的预处理形成EDS格式统一、内容丰富、结构清晰的元数据仓储。与资源发现系统的原理相似,百度学术搜索将各种分散的数据不分学科都集中到一个资源库,形成百度学术搜索后台超大规模元数据索引知识库。根据百度学术的声明,此知识库元数据来源途径有三种:题录数据,来自于数据商合作、OAI(Open Archives Initiative)协议收割、搜索引擎收录;引文数据,来源于OA(Open Access)集成;全文数据,来自于数据商合作、学术网站解析、PDF解析[7]。笔者在实际运用中发现,百度学术部分资源的元数据存在错误或不规范的现象,如在资源类型分类中,部分期刊论文、会议论文未能正确标引,在检索结果中被划分为其他类型等。笔者将这两个系统元数据的主要优势进行总结比较,具体见表2。

  表2 资源组织比较
表2 资源组织比较

  2.2、 检索性能

  检索性能的强弱是评价学术搜索引擎的重要指标,会直接影响用户体验效果。

  (1)基本检索。百度学术搜索和EDS均提供基本检索和高级检索两种检索功能。基本检索界面,均为一框式检索,系统根据用户输入的关键词进行检索。不同的是,EDS除了以上功能外,还支持检索词的位置限定功能,提供作者和标题两种位置限定。为进一步测试这两大检索系统的功能,笔者选择检索词“大数据”“中国”“temp*”“ols?n”,并对检索词“大数据”“中国”使用布尔逻辑检索词进行组配,结果发现,百度学术搜索和EDS均支持布尔逻辑检索。但对于截词符,EDS支持截词符“?”“*”检索,但百度学术搜索却不支持,关键词中的“*”或者“?”会被忽略掉。具体见表3所示。

  (2)高级检索。EDS和百度学术搜索的高级检索功能比较相似,主要有以下两个方面:一是对检索词的限定,如检索词出现的位置,多个检索词之间的逻辑关系等;二是对检索结果的筛选,可从作者、出版物、发表时间、语言等方面对检索结果进行限定。具体比较见表3。相较于百度学术搜索,EDS在每一部分都提供了多而细致的检索字段,选项更加丰富。

  (3)辅助检索功能。百度学术搜索和EDS均支持检索词自动补全功能、中英文互检功能(利用一个检索词可同时获取中文和英文资源)。除了以上常见辅助检索功能外,两个系统还具有其独特的智能化辅助检索功能。百度学术搜索提供相似文献、参考文献和引证文献的查看功能,从多个角度为用户提供相关信息;同时具有检索词纠错功能,对拼写有误的检索词进行指正、修改。

  EDS的辅助检索功能主要有刊内检索功能和相关主题扩展检索。当检索词和刊名一致时,EDS将期刊作为第一条检索结果呈现,并提供检索框,用户可输入检索词,在此刊内检索,提升检索结果的相关度。EDS还提供“应用对等科目”功能,可根据用户输入的关键词,自动匹配出此关键词的不同表述方式,使检索结果更加完整。

  表3 检索性能比较
表3 检索性能比较

  2.3、 检索结果

  (1)结果展示。检索结果页面展示的信息越详细,越有利于用户对资源内容的准确掌握,百度学术搜索和EDS均以列表的形式展示检索结果,且两者的检索结果信息较为相似,都包含了文献的题名、着者、关键词、出版物、摘要、出版日期等主要信息。具体比较见表4。“被引量”是百度学术搜索免费提供的增值功能,不仅可以免费搜索跟踪期刊文献的引证文献,还能搜索跟踪会议录、学位论文以及图书、专利的引证文献。EDS检索结果页面信息提供4种格式供用户选择:标准格式、仅限标题格式、简介格式和详细格式。选择的格式不同,检索结果页展示的信息详细程度也不同,本文以标准格式为例。“馆藏信息”是针对本馆书目信息资源独有的内容,可以查看该资源的馆藏地、流通状态等信息。“使用量”是与PlumX整合后具有的功能,查看检索结果被使用情况。

  (2)结果排序。百度学术搜索和EDS默认状态下均是按相关性对检索结果进行排序,最相关的文献排在最上方。时间的排序可帮助用户筛选出最新和最早的研究。按被引量排序依据了文献的影响力,引用量越高的资源排序越靠前。

  (3)分面精炼。分面是指事物的多维度属性,分面精炼是指通过事物的这些属性不断筛选、过滤检索结果的方法[8]。百度学术搜索和EDS提供多个分面,包括内容类型、主题、着者、出版时间、语言等等。利用这些分面,读者能够从不同的角度对检索结果进行归类整合、层层细化。这两个系统具体的分面比较见表4。通过比较发现,两个系统在具体的分面项设置上存在较大差别。对于文献类型分面,百度学术搜索仅能提供10个二级分面选项,而EDS提供的文献类型有20多个,且百度学术搜索只能从系统提供的期刊、学位论文、会议论文、专利等选项中选择一项,但EDS却可以选择多项;在出版时间这一分面项上,百度学术搜索可精确到年,而EDS可精确到月。

  (4)全文获取。EDS和百度学术都提供数据库的全文下载链接,如万方、Elsevier等,但这一功能的前提下实现的学校已经购买了这些数据库,具有全文访问权限,且在学校IP地址范围内访问;对于免费资源,则访问不受限制,如百度学术可提供百度文库、道客巴巴、豆丁网、爱学术等免费网络资源的获取途径,EDS也支持OA资源的不受限访问。

  (5)引文输出。EDS和百度学术搜索均提供多种引文格式供用户选择,也均支持以单条或批量的形式直接导入到文献管理软件中。具体见表4。

  表4 检索结果比较
表4 检索结果比较

  2.4 辅助功能

  (1)个性化功能。学术搜索平台可以通过获取并分析用户的偏好、背景以及信息行为模式,提供充分满足用户信息需求的个性化信息服务,使资源发挥出更大功效[9]。百度学术搜索的个性化服务主要包括我的学术、订阅搜索等功能。“我的学术”可以看作是百度为用户创建的一个“虚拟学术空间”[10],它主要包括“我的主页”“我的收藏”和“我的订阅”三种功能。“我的主页”是指用户的个人学术信息,主要是管理自己发表的文献。“我的收藏”是面向历史数据的,用户可以像在电脑上建立文件夹一样,分类管理收藏的文献。“我的订阅”是面向未来数据的,类似RSS阅读器。用户完成检索之后,可以点击网页上面的“订阅该搜索”,随时跟踪相关研究的前沿动态。

  EDS对图书馆是完全开放的,允许图书馆定制用户界面,包括名称、语言、LOGO、文字说明、颜色以及文献输出格式等,同时也允许个人用户创建EBSCO账户,管理文件夹,此文件夹可用于管理文献、保存检索历史、创建电子邮件快讯以及RSS源等。另外,此文件夹可与其他人共享,允许他人查看,自己也可以查看别人的文件夹,方便学术的合作交流。

  (2)系统可扩展性。百度学术搜索不能被集成进虚拟数字图书馆环境中,图书馆可以在其系统中提供百度学术搜索服务,但当用户点击百度学术搜索链接时,会跳转到与图书馆无关的百度学术搜索的站点上。而EDS发现系统可以很好地集成图书馆系统,图书馆不但可以按照本馆的要求灵活定制EDS的用户界面,而且能够实现EDS系统和本馆的机构门户等的无缝集成。

  3、 结论与建议

  3.1、 主要结论

  EDS和百度学术搜索都具有学术资源的发现功能,能够帮助用户在海量的信息资源中发现知识。两个系统工作原理基本一致,但在具体的功能上还存在差别,优劣并存。

  EDS服务对象主要是EDS成员馆的用户,帮助用户发现本机构拥有的资源。其收录的资源内容明确,且均为通过正规渠道出版的资源,在学术性和权威性方面要优于百度学术搜索,但其在中文资源的覆盖面上还非常欠缺。在资源组织上,EDS的元数据在规范性、完整性、稳定性等各方面较百度学术都具有无法比拟的优势。在检索性能方面,EDS提供了非常详尽的检索选项,整体上优于百度学术搜索,但在本地化方面,还有待加强,如还不支持核心期刊数据以及国内期刊常用的GB/T 7714引文格式。

  百度学术是免费搜索工具,倾向于公网文献的获取,资源来源广泛,既有数据库资源,又有网络免费资源,尤其在中文资源上具有得天独厚的优势,但其资源类型较少,且元数据的质量呈现良莠不齐状态,这直接限制了百度学术检索和分面功能。但其检索词纠错功能、核心期刊的筛选功能、引文的GB/T7714格式以及“被引次数”查看功能符合国内用户的需求和使用习惯,极大提升了用户的使用体验。

  3.2、 实践建议

  (1)学术资源整合方面。首先是加强中文资源的收录,对中文资源收录的缺失,是国外资源发现系统的一大软肋,应尽快与国内数据库商合作。其次是增加网络免费资源的收录。图书馆发现系统应在做好这些资源的学术性、稳定性评估的前提下,提供网络免费资源检索服务。

  (2)信息素养教育方面,应注重提升学生整体信息素养。信息素养教育内容应在原有的检索及处理技能的基础上,更多地转向对信息资源的评估、分析和共享方面,培养学生判断信息的权威性、可靠性、真实性的能力,使学生能自觉运用批判性思维及时修正、调整认知过程。同时,图书馆应教会学生利用社交技术建立个人学习网络,与学习网络密切相关的标签、隐私等相关问题都应成为当前信息素养教育的主要内容。在教育方式上,以资源发现系统为平台,开展信息搜索、信息评估乃至英文阅读等教学。

  (3)知识发现服务方面,应向着个性化和精准化方向发展。发现服务系统将图书馆海量的数据整合为一体,为图书馆更深层次地挖掘知识提供了数据基础。图书馆应注重收集用户的访问数据,挖掘分析用户行为特征,构建图书馆用户画像信息,将发现系统与用户画像相结合,为用户提供个性化知识发现服务。

  参考文献

  [1]刘敏.中英文学术搜索引擎的对比研究[J].图书馆学研究, 2014(24):29-35.
  [2]聂华,朱玲.网络级发现服务:通向深度整合与便捷获取的路径[J].大学图书馆学报, 2011(6):5-10.
  [3]崔明,王振妘.百度学术搜索和Summon学术发现的比较研究[J].图书馆杂志, 2018(4):74-80.
  [4]苏建华.图书馆选择资源发现系统的策略分析:以资源发现系统与学术搜索引擎的比较为视角[J].情报科学, 2015(6):91-94,105.
  [5]许新巧,刘华,詹华清.学术搜索引擎Primo和Google Scholar的比较分析[J].图书馆学研究,2013(18):38-43.
  [6]覃燕梅.百度学术搜索与超星发现系统比较分析及评价[J].现代情报,2016(3):48-52.
  [7]王新才,谢宇君.知识发现系统与通用学术搜索引擎文献资源比较研究:以超星发现和百度学术为例[J].福建论坛(人文社会科学版),2018(4):166-174.
  [8]耿海英,肖仙桃.Web of Science和Google Scholar引文裣索功能比较[J].图书与情报,2007(3):100-102.
  [9]廖凤.国内外文献数据库个性化服务研究[J].图书情报工作,2010(13):67-70.
  [10]魏瑞斌,郭一娴.基于用户体验的百度学术应用研究[J].现代情报,2017(5):91-99.

作者单位:东南大学图书馆
原文出处:李慧芳.资源发现系统与学术搜索引擎功能比较研究——以EDS和百度学术搜索为例[J].新世纪图书馆,2019(09):76-80.
相关内容推荐
相关标签:
返回:搜索引擎论文