第 3 章 Google 数字图书馆成功经验分析
在上章中,我们对 Google 数字图书馆与传统图书馆的区别以及 Google 数字图书馆的功能进行了最基本面的简介,这一章我们将从技术层面、管理制度和法律问题三个方面对 Google 数字图书馆的成功经验进行分析,从而促进我国数字图书馆建设和发展。
3.1 技术层面
Google 在进行数字图书馆建设时采用了较多的技术分析,这里我们主要选取比较最为重要的和最为常见的几种技术:数据挖掘技术、数据仓库与 OLAP、数字化技术、基于内容的检索技术,这四个技术都是在 Google 数字图书馆建设比较常见的技术分析。
3.1.1 数据挖掘技术
数据挖掘(Data mining)是一种比较高级的数据处理过程,它是从大量的数据中提取出人们先前不知道的、能够满足人们需要的且可信度比较高的知识和信息过程。数据挖掘技术集数据库,人工智能和统计学等不同学科的知识和技术一起,范围较广,在研究领域又被人称为数据库中的知识发现。数据挖掘技术总体说来又被分为不同的几种类型:第一种是概念或类比较,它是通过数据的不同特征,根据这些特征将汇总和将要研究的数据区分目标并且与不同个数的数据比较形成特征化而形成的;第二种是关联分析,它的主要目的就是发现一些隐藏在数据当中的各个数据之间的关系,通过关联分析从而挖掘出不同的信息资料;第三种是序列模式分析,此分析和第二种关联分析相类似,也是为了挖掘数据之间的相互关系,但与前者不同的是这种数据挖掘是建立在顺序之上的,在分析数据关系时有前后的顺序,每个顺序都是按照不同的时间进行的,从而把那些出现频率比较大的数据联系起来进行分析,从而找到需要的信息;第四种是分类和预测分析,这种分析方法有前提条件,就是必须把不同的数据进行分类和记录,分类分析首先为每一个记录作为一个不同的标记情况,然后分完之后在对这些标记进行观察,最后可以描述这些数据的特征从而做出判断;第五种是聚类分析,它与之前的分析不同,这种分析方法从来不对数据进行分类,也没有进行一定的标记,然后通过聚类分析方法,将对数据进行记录,有时相同的聚类分析方法都有不同的分类结果。这些方法都是数据挖掘的技术,除此之外,数据挖掘技术还有一定的流程图,还有一定的应用。数据挖掘的流程图如下:
数据挖掘技术的应用如下图:
数据挖掘技术的使用可以使得数字图书馆加快进程,Google 数字图书馆在建设时就较多的使用了数据挖掘的技术,这里的数据挖掘技术的功能能够发掘用户在浏览时留下的痕迹,从而根据用户的痕迹,为客户的后续需求提供更为个性化的服务。用户在进行浏览时会留下如下信息:1)用户基本信息记录:比如用户的姓名、年龄、性别、身份识别号以及联系方式,这些都是用户的基本信息;2)借阅历史信息记录;3)检索历史信息;4)书目信息,书目是指用户在浏览时所检索的书籍目录,根据这些书籍的信息,服务器就能够识别和记住用户对这些需求,为用户的后续服务提供帮助。上述的几项内容都是数据信息,但是不是所有的数据信息都有用,会存在一定的干扰信息,即“噪声”的存在,这会影响数据的额分析,因此,Google 数字图书馆在进行建设时会使用数据挖掘技术来清理没用的信息,把关键信息筛选出来,对这些信息进行处理后进行检索,检索后检查与之前用户的信息是否一致,把无用的信息进行清理,把有用的信息留下来进行统一的统一和归类,从而分析出读者的读书和检索习惯,从而给用户一定的建议和策略,也能为胡勇提供更加人性化的服务和需求。
3.1.2 数据仓库与 OLAP
数据仓库技术是建立在数据库基础之上加之创新而来的,它不同于以前的数据库技术,它是一种更深层次上、信息量更加广泛的数据提供平台,这些数据的来源主要是数据挖掘(data mining,DM)与联机事务分析,通过这些数据,管理者可以做出更有利于图书馆发展的策略。而 OLAP(on -line analytical processing)是一种在线分析处理更加海量信息和数据的信息平台。
数据仓库是一个数据集合体,它是企业和公司进行决策的基础,具有四个显着的特征:第一,数据仓库是面向主题的。数据仓库与传统的数据库不同点在于数据仓库着重于面向主提来发挥自身的作用。所谓主题是一种相对比较抽象的概念,是在更高的层面对企业和公司的数据进行概括和研究,这种特点可以将数据更完整、更全面的运用到企业的发展中去。第二,数据仓库的数据是集成的。原来的数据都是按照不同的主体分布的,而数据仓库是按照主体进行整合的,因此,能够将不同主体的数据进行集合,进行加工和利用,组成一定的主体放在一起。
第三,数据仓库的数据是不可更新的。因此在数据进入数据库之后都是企业用来做决定用的,不能再对数据进行处理和修改。第四,数据仓库在时时刻刻的搜集和处理数据,因此,数据仓库里的数据都是在不断更新的。
为了Google数字图书馆的全面建设和了解用户对 Google数字图书馆的需求,Google 数字图书馆从自身的标准出发,利用数据仓库及 OLAP 技术对用户的信息进行了全面客观的分析来发现读者的需求和读者的兴趣爱好,为 Google 数字图书馆的建设和发展提供更加全面的要求指导。Google 数字图书馆建设中这种数据仓库以及 OLAP 技术能够在分析时把用户的需求数据作为基础,把所用的用户信息导入到数据仓库中进行全面的分析,然后建立模型对用户后续的需求进行分析,从而为数字图书馆的建设提高意见。具体的分析可以细化到两个方面:第一,使用者分析。此类分析主要从不同的视角对使用者进行了不同类别的分组。分组的形式和属性可以多元化,比如可以根据使用者的年龄、性别、类型、区域、学校、专业及使用本系统的时间等等方面进行分类,利用上述的分析,可以全面获悉在不同时间段、不同人群对 Google 数字图书馆的访问情况,就能了解不同时间段的访问情况,为数字图书馆的建设提供数据支撑,从而调整服务策略;第二,资源分析。这里的资源分析主要是对图书馆资源的分类,从不同的视角对数字图书馆进行检索识别,不同的视角所检索的方向不同,比如从学科的角度、从语言的角度、从年代的角度、从文献类别的角度,通过这种检索的分类可以对数字图书馆的所有资源进行合理的利用,使其充分显示其价值所在。除此之外,对这些资源进行分类可以使数字图书馆在将来进行采购时,能够准确的区分哪些是采购的重点与非重点,为采购决策提供有力的数据支持。
3.1.3 数字化技术
Google 公司的技术实力和开发的扫描技术全球领先,尤其是在建设 Google 数字图书馆时更是采用了最先进的数字化扫描技术。Google 数字图书馆工作人员在对图书进行扫描时,不需要对原有的图书进行拆线装订,而是直接进行文字的扫描,而且扫描的时候非常轻柔,不会对图书造成任何伤害,扫描的时间也大大缩短,况且成本非常低廉。
Google 数字图书馆建设的技术在世界图书馆范围内都是屈指可数的,不仅仅是先进的扫描技术,包括全息数字技术更是世界顶级,是目前全球范围内最顶尖的技术,用户们可以利用 Google 的检索技术进行全文的检索,非常的快捷方便,这种引擎搜索最大的优势在于用户在进行浏览时不在需要借助任何的浏览器,而是直接阅读,这就大大节省了读者的时间和降低了读者的无用功。除此之外,在数字化技术的引领下,这种全息的扫描技术使得扫描图书资源后所占的空间大大减低到原来的五分之一左右,节省了更多的存储空间。
3.1.4 基于内容的检索技术
基于内容检索技术(CBR)不同于其他的检索技术,它是基于特点的信息基础上,然后根据这些信息去检索出需要的信息,从而把具有某些特征的信息集合起来。其技术路线图如下:
在上面的图形中可以了解到,基于内容的检索技术是多元化的,检索的方式也多样性,在进行检索时可以根据文章的上下文或者文章的语境进行检索,这样就能够使得检索的范围和广度加大。
Google 数字图书的成功之处在于更好的运用了基于内容的检索技术。用户在利用 Google 数字图书馆进行检索时,可以检索文字,也可以检索静态的图片以及音频,这些都是用户检索的内容。而且用户在进行检索时这些内容都会为用户提供全方位的信息。Google 数字图书馆的每本书里都会含有“关于此书”的页面,里面有关于这本书的基本数据,包括作者、书名、标题、出版时间、主体、字数等等数据,当然还包括其他的信息,比如所含有的关键词和关键句子,或者是关于出版社的其他出版物、相关图书的目录列表以及该书的引用部分内容。
用户在使用 Google 数字图书馆时就可以根据相关联的内容进行检索,然后根据 Google数字图书馆提供的链接进行阅读或者购买。具体的浏览方式该书的不同法律状态分为 4 种情况:1)摘录视图,这种方式与卡片的目录相类似,通过检索可以显示与此书相关的信息,同时会出现部分关于此书的关键词的内容;2)全书视图,这种主要是针对那些版权不受保护或者作者或者出版商愿意让其在网上全书浏览的数字图书,此类书属于公共的部分,只要用户需要就可以自由的进行保存、下载或者打印; 3)有限预览,这种阅读方式与全书视图相对应,一般情况下不能够进行全书的阅览,用户只能够阅读允许的阅读部分和内容,而且这些内容还是Google 数字图书馆经过了出版商和作者的允许;4)无预览,这种方式使得读者用户只能搜索关于此书的基本信息,但是不能够阅读,但是用户可以通过 Google数字图书馆进行此书的购买,然后可以阅读。
3.2 管理制度
Google 数字图书馆为了规范自身建设,加强 Google 数字图书馆工作秩序、提高工作效率、增强企业品牌影响力,就通过了管理制度来进行管理,取得了显着的效果,具体可以从两个方面进行研究:
3.2.1 着作权集体管理
面对着大量的书籍着作权,单独许可往往无计可施。此外,由于单独许可需要大量人力物力支持,集体管理作为着作权的新型管理手段应运而生。根据集体管理体系框架,相关权利人以集体管理的方式,有权人根据集体管理的要求有权利对相关作品的用途进行监督,与作品的潜在使用者进行谈判、合理合法地进行使用许可的授予并参与分配收取的许可费。权利人以一种近似信托的方式,本质上是将着作权转移到组织进行统一和集中的管理,被转移着作权的集体组织与作品的许可使用者签订协议,对着作的使用情况统一管理,收取和分配使用许可费用,这便是集体管理制度,早在 20 世纪它的广泛适应性就得到了多方的证实,并普遍被社会中的着作权持有人所认同。今天的时代是一个高度信息化、数字化的时代,随着作品数量几何级的增长,集体管理制度一定会凭借其自身显着的优势大放异彩,从而成为最有效地解决着作权许可方面诸多问题的最重要管理方式。
Google 数字图书馆在着作权管理模式体系中,灵活并充分利用了集体管理着作权的方式,并制订了统一的标准体系,明确规定了着作权许可使用费的收取标准、分配等,同时规定了实时监督作品使用情况,以及对作品进行管理,既提高了管理效率,减轻了工作量,保证着作权所有者的权益维护,最重要的是有效避免了使用者经历繁杂的过程寻找着作权持有人。
3.2.2 泛在化服务模式
数字图书馆的泛在化服务模式主要表现在四个方面:一是服务范围和服务主体泛在化,二是服务功能与服务内容泛在化。三是服务场所空间范围的泛在化,四是服务手段的泛在化。在这种泛在化服务模式下,数字图书馆最重要的就是以市场为导向,满足读者的多样化需求和服务。泛在化的数字图书馆模式不同于以往的图书馆发展模式,它彻底改变了传统图书馆存在的形式和物理概念,紧紧把握和紧跟用户的需求,根据用户的行为实行相应的服务,与不同客户的不同需求紧密结合,将服务紧密融合在客户的学习和阅读之中。泛在化图书馆不受地域限制,客户不必刻意到指定地点进行阅览,图书馆本身和客户的距离无形之间拉近了,界限也淡化了,这种泛在化的均衡,为客户提供了良好的、不受时间地点限制的贴身服务。
Google 数字图书馆采用先进的服务模式,无论是服务范围还是服务对象的泛化上,Google 数字图书馆政策十分明确具体,都取得了巨大的成功。在 Google 数字图书馆的服务对象方面,图书馆将服务广泛化、大众化,无论何种职业何种特点的人群登陆 Google 数字图书馆,都可以享受到相应的服务。在数字图书馆的服务范围方面,Google 图书馆以法律为基准,利用互联网覆盖全世界的范围特点,取得了范围上的巨大优势。在服务功能和服务内容上,Google 图书馆几乎是包罗万象,提供了许多传统图书馆无法比拟的内容,尤其是服务,Google 图书馆依靠Google 搜索引擎得天独厚的优势,涵盖了所有范围的网上检索和查询功能,无论是数据,文献,还是历史资料。在数字图书馆客户登录后,只要输入关键字,进行相关内容的检索,就可以在短时间内查找到相关资料或信息,相关的内容和资料关系紧密贴合关键词。在服务手段方面,Google 数字图书馆不断进行创新,不断为符合用户需要和更新服务理念提供更好的服务而努力。
3.3 法律规范
3.3.1 合理使用的立法沿革
版权如何科学管理、正确使用、合理规范,经历了产生、发展、变革和规范化的过程。版权意识的变革深刻的体现了不同时期的社会特点,体现出人类对智慧财富的价值从认识到追求到重视到保护的过程。《安妮规约》和《1790 年版权法案》(以下简称《法案》)是版权制度确立的基础,《安妮规约》以立法的形式对版权做出了最初和最早的规定和限制。最初是在普通法律的层次上鼓励学习和借鉴;从受益人视角出发,经历了一个从保护出版商和版权所有者到逐渐重视和兼顾图书作者和权力受让人权益保护的过程;在保护范围方面,为书籍的出版和再版提供了更加自由的空间;在从收全与保护版权的时间来看,规定的授权时间为 14 年,若 14 年后作者存活可以续期 14 年。《安妮规约》颁布以后,版权公司仅仅作为版权的拥有者之一,而并没有达到实际上应有的管理职能和监督作用。
而署名权作为一种基础性的、排他性的权利,并不同于其他的权利如协会会员特权。而《法案》与《安妮规约》基本上内容相似,主要把权利赋予作者而不是出版商,把权利的规定限制为翻印,出版和销售等,而不仅仅拘泥于复制层面,并把时间期限规定为过去 28 年之间,并不保护更长远的时间以前。
由此可见 Google 数字图书馆在图书馆界地位非同小可,而美国对各种制度体系构建的完善程度以及合理化程度也是众所周知的,因此,Google 数字图书馆与美国制度之间的相关性以及符合程度的分析,对其他数字图书馆的合理化构建具有重要的参考价值。Google 作为一家以盈利为目的的企业,如我们所见已经取得了自身领域内巨大的成功,这一点无可争议,但问题的关键并不在于此,而是Google 数字图书馆作为一种中间的媒介,从事的工作绝不单纯是营利性的作品复制与发行,即不应局限于消费性甚至是剥削性的作品使用上。恰恰相反,利用自身搜索引擎的强大功能,使整个图书馆中的书籍都可以在网上被检索到,以一种全新的方式充分加强了图书和书中信息的利用,并结合在线预览和购买的形式为客户提供了极大的方便。Google 数字图书馆与搜索引擎的完美结合,其革命性的创新与特点早已远远超越 Google 的商业本性,这些特点一道作为 Google 更加充分利用和合理使用的基础,并能融合更加超前、更加长远的战略和更加新颖的特性,给表达方式、含义和信息数据使用带来革命性的突破,使版权问题在其自身范围内更加合理运用。
如此,在合理使用的范围之内,Google 作为盈利为目的的商业企业应该得到认可而不应该被排除在外。
3.3.2 相关立法授权
在信息技术飞速发展的今天,如果延续以往的图书管理方法,对任何作品的使用都要经历一个获得许可的过程,那么网络给我们带来的便捷性和时效性特点将荡然无存。为有效解决这一问题,我们有理由也有必要达成这样的共识:如果某位作者将自己的作品在公众网络平台(例如 BBS 或微博)上发表,我们就有充分的理由认为作者默认同意通过互联网发布和传播其作品。而这一共识本身为Google 数字图书馆的运行打开了便利之门,换句话说,Google 数字图书馆在借助其搜索引擎运行时恰恰需要依赖这种制度,它通过缓存其他网站中发布的内容,在合法的基础上得到认可。
目前这种模式在网络背景下随处可见,由于传播者往往都是善意的进行传播,作者并不会认为这构成了侵权,这种模式下作者的大部分权益还是会得到合理的保障,也正因如此,即使发生侵权纠纷,鉴于传播者并无恶意,而且使用方式也并不过分,法院在判决时依据“填平原则”,传播和使用者仅需支付合理范围的使用费即可。
以上所述的模式许可模式在 Google 数字图书馆中被用作其着作权策略,就像 Google 搜索引擎构建时,绝大多数网站都希望自己能被检索到,依此类推,我们也可以假设绝大多数的作者希望自己的作品通过网络得到关注和传播。在此假设的基础上,Google 数字图书馆得以完善和运行,而事实上大多数作者也期望着书籍可以进入 Google 图书馆。当然,如果作者本人不希望自己的作品被复制、传播并可以被检索,Google 也会尊重这样的要求。
作者主动要求书籍退出 Google 的“舍弃”策略在数字图书馆中也得到了应用和运行。在图书馆主页中我们可以清楚的发现在着作权持有人提出反对意见时,Google 会阻止其作品的数字化和显示,以保证作品不被检索。反之,Google 会默认作者同意对其作品的使用。通过这种途径,侵权责任方转向了权利人,由于使用人不需要主动取得许可,互联网实时快捷的特点得到了充分的发挥。
3.4 本章小结
本章主要阐述了 Google 数字图书馆的成功经验。主要从三个方面进行了概述:
第一,技术层面,主要包括数据挖掘技术、数据仓库与 OLAP 技术、数据化技术、基于内容的检索技术;第二,管理制度,主要包括着作权的集体管理、泛在化服务模式;第三,法律法规,主要包括合理使用的立法沿革、相关的授权。通过对上述三个方面的分析,对以后我国如何更好的建设和完善数字图书馆有积极的借鉴作用。