图书馆学论文

您当前的位置:学术堂 > 图书档案学论文 > 图书馆学论文 >

面向艺术领域的语义互联模型构建和模拟系统设计

来源:学术堂 作者:韩老师
发布于:2014-06-12 共6308字
论文摘要

  1 引言
  
  数字图书馆是一个将计算机技术、通讯技术、微电子技术等多种学科融合为一体的信息服务系统。在众多学者的不断研究过程中,不同领域的研究者对数字图书馆给出了不同的定义,也开展了 ( 开发) 了一系列称之为数字图书馆的项目 ( 系统) ,例如,NDLTD、ACM DL、PERSEUS、NSDL、BRICKS、FEDORA、DSPACE 等.目前,国外数字图书馆领域的研究者已提出了一系列的数字图书馆模型。近年来,我国理论界对于数字图书馆的研究主要集中在对概念、特征、功能和结构模式等内容的探讨.其中,结合互联网的语义互联模式得到了很多相关专家的探索和研究。

  语义是指 “数字 ( 符号) ”所指代的概念的含义,以及这些含义之间的关系,是对数据的抽象或者更高层次的逻辑表示.对于计算机领域来说,语义一般是指用户对于那些用来描述现实世界的计算机表示的解释,也就是用户用来联系计算机表示和现实世界的途径.在传统的基于字符匹配的检索技术在一定程度上满足不了用户个性化需求的时候,语义万维网 ( 语义 Web) 提供了另一条解决的办法。语义 Web 是在现有的 Web 基础上增加标准的、共用的、机器可理解的元数据,利用 XML、XML Schema、RDF 和 RDF Schema 等语言标准和本体技术对术语的概念以及概念之间的关系进行精确描述,从而产生可共享的、具有语义关联的语义信息。语义 Web 下的数字图书馆较传统数字图书馆而言的优势在于检索的智能性和良好的互操作性.因此,在语义 Web 发展的基础上,为了解决数字图书馆在数据资源存储的多样化和个性化,并消除数据冗余和语义异构的问题,本文结合系统工程和计算机工程相关的语义理论概念,提出基于语义模型的数字图书馆模型架构,并结合艺术类院校的特点,探究面向艺术领域的数字图书馆知识组织语义互联模型。

  数字图书馆知识组织语义互联是指多个层面 ( 包括数据资源之间、用户与数据库之间、用户与用户之间) 的语义互联.数据资源之层面上的语义互联,主要体现在对于信息收集时,因数据描述的不同,而造成数据的多样化和冗余,而其语义互联通过有效的领域本体将其消除; 用户与数据库层面的语义互联,是系统将具有差异的用户检索的同一类资源信息进行整合,反映到数据库,提高检索的准确性; 用户与用户层面的语义互联则主要表现在用户服务上,实现用户与用户之间的交互。对于艺术领域的数字图书馆,有其特殊的知识资源种类,例如,相较于其他领域,艺术类的资源来自很多方面,多媒体、电子文档、图片、视频等。所以,针对这些特点,本文提出针对艺术领域的语义互联模型,以此模型为基础,就艺术领域的特点,探讨基于此领域的语义互联模拟系统。

  有效的语义模型,不仅能够整合不同类型的资源,而且能够解析出相似分类的资源信息,这是本文探讨此模型的关键。

  2 面向艺术领域的语义互联模型构建
  
  通常情况下,一个语义系统需要该系统的各个语义种类 ( 包括类、属性等) 和概念化语义类型的语义关系( 例如方法、映射等) .这两个要素是描述概念语义知识的基础。语义类型为划分领域本体提供了一致的标准规范,消除了不规范的数据对数据库系统的空间占用,检验了数据的有效性。而语义关系则是不同语义类型相互关联的枢纽。

  语义模型由元数据、领域本体、桥本体以及本体解析 4 个部分组成.其中,元数据用于对信息资源进行描述、解释、定位,是一种结构化的信息,使其易于提取和使用。这些描述、解释和定位是为适应一些广泛的应用而构建的,结构化则是让机器不仅能够阅读,而且能够理解这些数据,以便解决信息的映射问题和集成问题。领域本体是用于描述特定领域知识的一种专门本体,是该领域所具有的特性和规律的一种形式化描述.桥本体是一种特殊的本体,在语义模型中,桥本体就好比是一架桥梁,互异的领域本体通过相关的处理后,在此完成这些本体概念之间的关系映射,从而实现本体之间的整合,形成领域内的共享本体。本体解析主要从本体模型中解析出具体的本体类。

  根据语义模型的四个组成要素,实现数字图书馆知识组织语义互联的功能,结合艺术领域的特殊资源体系,本文提出其应用模型,如图 1 所示。在应用模型中,将数字图书馆分为管理层 ( 包括内容和数据的管理) 、用户交互层、功能层和资源层。【图1】
论文摘要

  功能层是应用模型的核心部分,体现了整个数字图书馆知识组织语义互联实现的相关功能。在用户进行浏览的时候,功能层进行信息抽取,将标注的语义与知识库进行匹配,同时通过构建的桥本体映射得到元数据,并通过相似度计算找到元数据库中的正确数据,这样本体库通过相关工具的本体解析,将用户查询的结果反映到用户界面。资源层是存储数据资源的主要地方,包括艺术领域的特色知识库。此外,还有支持功能层的元数据库、领域本体库以及用户浏览系统记录的用户行为数据库。这些数据库是用户查询的基础。用户交互层主要针对用户,实现用户检索查询与数据库之间的交互。用户兴趣库主要记录用户浏览的最偏好行为,便于用户二次查询。而管理层主要是对相关文件档案和本体数据进行更新管理。

  3 语义互联模拟系统设计
  
  艺术领域信息资源的多样化,使得基于艺术院校的数字图书馆语义互联研究更加重要。结合笔者所在单位的应用实践来看,我们从 2008 年起开始了舞蹈领域的特色资源项目建设,经过几年的建设发展,现已经建设成了舞蹈特色资源库,资源库中包含了 4 万余张图片,2 万余个视频以及从 50 年代到现在的剪报 1 万余张。但现有资源的检索还是基于关键词或全文的方式,通过本项目的研究,将对基于语义方法的资源组织与资源检索方法、应用进行探索。同时,在北京市教委的资助下,北京的艺术类院校都开展了特色资源项目的建设,如果对这些特色资源项目进行语义互联,语义互操作、语义检索都是需要积极探索的课题,本项目中将对这些问题进行探索,以期实现艺术类院校特色资源系统的语义互联,从而真正实现知识共享。鉴于此,结合艺术资源特色项目,提出面向艺术领域的数字图书馆知识组织语义互联的模拟系统 ( Art - Oriented Semantic Interconnection Simulation System,以下简称为 AOSISS) .

  3. 1 AOSISS 总体架构
  AOSISS 的探究的主要目的是对不同的艺术资源进行整合,从而实现同平台的语义互联,扩大信息共享的范围。AOSISS 的总体架构设计如图 2 所示。【图2】
论文摘要

  在 AOSISS 总体架构中,将系统架构分为用户层、内容层、数据层、本体层和物理层 ( 其中物理层由相关物理介质构成,在图 2 中没有展示) .图 2 中,系统 1 和系统 2 分别表示不同的艺术院校。在系统 1 或系统 2 中,数据结构和资源信息是同质的,而系统 1 和系统 2 之间数据之间是异构的。同一系统的语义互联较为简单,而要实现不同系统之间的语义互联就需要构建不同的领域本体,通过桥本体映射,将不同的本体连接起来,从而实现两个异构系统的语义互联。内容层将不同的资源种类进行划分,例如艺术类院校的不同领域,舞蹈、美术、陶艺等,然后建立不同的数据库对信息进行存储。数据库中的元数据通过语义标注,提出语义信息,形成各自的本体库。

  在本体层,又可分为领域本体层和桥本体层。领域本体层是存储不同本体元素的库,而桥本体层则是连接这些不同本体之间的枢纽,为领域本体层的各个本体建立联系,达到本体层面上的互联。从而,各个不同的层形成了整个 AOSISS 功能体系。

  3. 2 AOSISS 功能模块设计
  通过对 AOSISS 总体架构的分析,本文对 AOSISS 系统主要功能模块设计对应有: 用户模型子系统、本体处理子系统、信息抽取子系统和元数据语义标注子系统,此外,还有其他辅助功能模块。功能模块图如图 3 所示。下面对其功能模块进行相关的介绍。【图3】
论文摘要

  ( 1) 用户模型子系统,即用户交互子系统。在构建该系统时,本文采取基于用户模型的构建方法,并通过隐式模型,既表现了用户交互的行为,又能更好地反映用户的兴趣真实变化。在此子系统中,对用户访问行为进行实时监控的智能代理,会记录用户的访问日志和浏览习惯,并进行相应的用户需求分析。用户模型子系统的主要功能是将智能代理得到的用户访问页面或日志进行信息挖掘,进而提取相应的概念主题,并通过主题分析功能模块,对提取的主题进行分析,获取用户主题概念的相关程度,从中发现用户的最好需求,在本体概念规范性下,构建具有用户需求代表性的用户模型库。此用户模型库一方面记录用户的相关偏好行为,另一方面向用户推荐关键的检索信息,并且循环不断地将用户的选择、点击等行为反馈到用户模型中,动态地更新用户需求模型库。

  ( 2) 本体及知识管理子系统。此子系统主要是运用 Protégé2000 对关于艺术领域的本体进行构建,同时将不同的本体进行合并形成领域本体库,并通过本体映射形成桥本体。将异构的本体资源进行分类,例如舞蹈类院校、视觉传达类、戏剧类等不同种类的知识进行分类,形成不同的知识库。通过组织过的知识就有了应用的标准,进而通过本体构建,成为各个领域本体库。同时,此系统还包括知识模型的形成,所得的知识库为本体构建做准备。

  ( 3) 信息抽取子系统。将来源不同院校的数据进行整合,形成统一的资源空间。将不符合系统规范的数据或资源先进行数据的预处理,反映到统一资源空间中,以便进行信息抽取。信息抽取的对象一般不是同质的,甚至是多语种的、异构的或是非结构化的,并且很大程度上存在着语义缺失,或是语义不明确。例如,艺术院校的不同资源类型,可以有文档,可以有图片,甚至还可以有视频。此系统中利用语义模型能够有效地协助信息抽取,消除语义模糊等一系列问题。首先,系统将通过元数据语义标注子系统得到的元数据进行规范化描述,即进行数据清洗; 随后运用领域本体集对数字和信息资源进行语义关系的形式化描述,也就是文档的预处理; 最后,通过实体抽取和数据存取后形成的知识库,在本体管理子系统的处理后生成的语义模型,其中的本体解析体系为信息抽取提供了有效的途径。因此,利用语义模型有利于实体命名识别和信息抽取规则的制定。并且,基于规则进行信息抽取能够有效地过滤掉噪声,解决语义异构和语义不明确等问题。

  ( 4) 元数据语义标注子系统。元数据包括属性、字段、数据长度、精度、描述、表约束、主键、外键等,元数据语义标注则是通过本体学习、语义浏览和语义相似度计算,对无法完成对表和字段进行语义描述的元数据进行语义标注,为数据表和字段提供语义信息,从而实现对数据库的语义查询和数据集成,形成便于规范化、有一定关系的元数据应用数据库。

  ( 5) 其他辅助子系统。主要包括权限管理、日志管理、多媒体支持管理等。

  3. 3 系统开发平台及实现工具
  ( 1) 把 Eclipse 作为开发平台,把 Java 作为开发语言。虽然现在有很多面向对象的开发语言,例如 C#、VB,但是本系统使用 Java 语言作为系统的开发语言。一方面,在用户使用本系统的时候,需要网络与数据库的相互独立,并且无关联,这就使得在确定开发语言的时候,这一语言是广泛使用并且成熟稳定的,Java 能够很好地满足这一要求。同时有关本体构建、语义检索等工具多数需要一个 Java 语言环境。另一方面,本系统在后来的使用当中,会根据用户的需求不断更新,所以需要考虑系统在以后维护过程中的变化问题。而使用 Eclipse 来开发 Java 语言,它包含的标准插件集,能够充分表现其有效的可扩展性,便于开发人员以后更新操作。

  ( 2) 本体构建与编辑工具使用 Protégé2000.因其图形化的用户界面,可以免费下载系统的安装软件与插件,可用 RDF、RDFS、OWL 等本体语言在系统外对本体进行编辑和修改等优势,而拥有众多的用户,已成为目前使用范围最广的本体编辑器之一。

  ( 3) 语义解析工具 Jena2.在本体读取、语义推理和语义检索当中,系统主要采用惠普实验室 ( HP LabsSemantic Web Program) 开发的 Jena2. 5. 3API 接口方法,Jena 是用 Java 实现的,来支持语义网的有关应用。同时,它提供了对资源描述语言 ( RDF) 和本体描述语言 ( OWL) 等的接口方法,通过语义规则创造有效的推理引擎编程环境。

  ( 4) 语义检索工具 Lucene.Lucene 是一套用于全文检索和搜寻的开源程式库,它提供了一个简单但是十分强大的应用程式接口,能够实现语义检索的功能,并且在本系统中的 Java 开发环境下,是一个十分成熟的开源检索工具。

  ( 5) 可视化插件 TouchGraph.在语义输出模块中,我们使用了 TouchGraph 公司的 GraphLayout 组件。运用此可视化的插件,需要把 Java 作为平台,它可以让用户在浏览网页的同时,将有关的 URL 联系起来,在同一个屏幕对不同的节点,采取不同的方式进行选择操作。

  4 小结
  
  本文通过对国内外数字图书馆模型发展进行介绍,了解了随着互联网的发展,语义互联给数字图书馆模型带来的改变。通过收集关于艺术类院校的特色资源,探究了面向艺术领域的数字图书馆知识组织语义互联策略。数字图书馆语义互联模拟系统,使得不同本体之间的信息资源得到了整合,大大地加强了资源的共享和用户检索的准确性。但是,面对语义模型的数字图书馆的发展还并不是很成熟,需要考虑以下问题:

  ( 1) 在构建领域本体的过程中,本文的实践并没有找到合适的、专业的、面向艺术院校领域的语言知识库,所以在构建领域本体时,需要各个专家从不同的角度,不同的层次讨论、商榷,共同完善整个领域本体库。同时,由于艺术院校资源的特色性,在对本体进行构建的时候,需要充分考虑各种不同类型资源的兼容性,例如,不同的文档资源,不同的视频资源等,从而提高信息检索的有效性和准确性,并且提高用户检索的效率。

  ( 2) 用户模型的构建和更新也是需要注重的问题。有别于传统的关键字检索的数字图书馆,具有语义互联特性的数字图书馆更能把握用户的需求。在本文的系统结构中,借鉴隐式用户模型的构建,在用户交互子系统增加了用户模型,以此为桥梁来增加系统的个性化服务。但是,问题是由于各个用户的偏好习惯不一样,就需要尽快并准确地将用户差异化的需要更新到用户模型,这无疑增加了系统的负担。

  ( 3) 系统实现的可行性和性能有待检验。本文给出了面向艺术领域的数字图书馆知识组织语义互联模拟系统的相关架构和功能模块,但是在系统的具体实施中,还需要结合实际艺术领域的特点,利用有效的开发工具,对系统细节进行有效的考察,测试其性能的可行性。

  总之,基于语义模型的数字图书馆的发展是一个值得并且需要探讨的问题,这不仅仅只是可以应用于艺术领域,还可以运用到医疗、军事等多种领域。在现有发展的基础上,很多问题需要解决,例如如何更加有效地构建本体,如何完善现有的语义模型,如何使用并开发较好的系统平台及开发工具等,此类问题的研究还是一个任重道远的课题。

  注释
  [1]汪永红,龚立群 . 国外数字图书馆模型分析、演进和比较[J]. 图书馆论坛,2013 ( 2) : 26 -28.
  [2]曾梅 . 近三年来我国数字图书馆研究的现状和热点分析[J]. 科教导刊,2013 ( 2) : 240 -241.
  [3]王浩,冯磊 . 环境信息数字图书馆系统构建研究[J]. 环境科学与管理,2013 ( 7) : 4 -7.
  [4]赵寒,张树生等 . 面向异构数据库集成的语义模型构建技术研究[J]. 计算机集成制造系统,2006 ( 3) : 371 -373.
  [5]陈骏 . 基于本体的语义网在数字图书馆中的应用[J]. 科技情报开发与经济,2007 ( 34) : 61 -62.
  [6]张继东,万莉 . 基于语义 Web 的数字图书馆应用研究[J]. 情报杂志,2010 ( 2) : 139 -141.
  [7]毕强,牟冬梅,王丽伟等 . 数字资源语义互联研究 ( I) ---体系结构设计[J]. 现代图书情报技术,2010 ( 9) : 3 -5.
  [8]牟冬梅 . 数字图书馆知识组织语义互联策略及其应用研究[D]. 长春: 吉林大学,2009.
  [9]王志华,魏斌,李占波等 . 基于本体的 Web 信息抽取系统[J]. 计算机工程与设计,2012 ( 7) : 2635 -2637.
  [10]李景 . 主要本体构建工具比较研究 ( 下) [J]. 情报理论与实践,2006 ( 2) : 34 -36.

相关内容推荐
相关标签:
返回:图书馆学论文