1. 引言
1.1 研究背景
近些年来,很多大型信息系统的规模随着信息技术的快速发展而不断壮大,然而处理及管理这些数量巨大的网络数据却变得越来越困难。各种各样的信息之间存在着十分复杂的联系,而数量巨大的信息本身,也以极快的速度不断更新。正是这些复杂的联系和极快的更新,使得信息看似唾手可得,然而实际上想从中获取真正需求的信息,却是非常不易的。在这种情况下,如何快速获得信息并在短时间内理解它们,便成为了当务之急。人们热切的需要一种方法,可以直观的、快速有效的管理这些信息。为了不在信息的海洋中迷失方向,人们需要了解信息中隐藏在深处的关系特征、需要直观的看到甚至描述信息之间的关系、需要高效的管理各种信息,只有快速理解信息的所表达的内容才能做出相应的正确决策。因此,对海量的数据进行归纳和分析,并从中发现隐藏的规则,是信息时代的一大难题。我们用来探究解决这个问题的有效方法,便是作为新兴学科的信息可视化。
一图胜千言。这句谚语告诉我们:大量文字描述的意思有时候可以的用一张图片简单明了的表达出来。众所周知,人们利用视觉器官得到的信息要多于通过其他感官组合获得的信息[1],从这上面我们也可以看出利用可视化来理解海量数据的是一种合适的方法。
1989 年,斯图尔特·卡德、约克·麦金利和乔治·罗伯逊创造出来了信息可视化“information visualization”这个概念。刚开始的信息可视化是为了使人们可以很容易的理解文字和数据,并且使显示的内容具有一定的视觉美化效果,在显示技术的发展过程中,信息可视化已经成为了提高阅读趣味性和探索深度信息的有效工具,它的魅力不再局限于只是一种记录信息的手段。在跨学科领域,信息可视化有着悠久的历史,但是目前在现代用户界面设计中它却引领了新的研究热潮,并且在数学、计算机和统计学等相关领域,以其可以降低信息维度和减少海量信息认知压力的特点而被广泛的应用。
信息可视化技术为了让人们能够更加快速和直观的浏览网络中的数据,在感官上充分利用了人们的视觉感应系统,使网络中的结构数据以图形化的方式形象的展现出来。这样能使人们在了解网络数据内部结构的同时,发现数据间隐藏的复杂网络关系,挖掘出数据表象之下的更加有价值的信息。这也是各国专家越来越高度重视信息可视化技术,并已在各种数据分析领域大力推广并广泛应用这项技术的原因。信息可视化技术在 20 世纪 90 年代中期开始,作为一个备受关注的议题,越来越多的出现在很多重要的国际会议中,同时也引起了很多学者的兴趣。
1.2 研究意义
信息可视化是可视化研究领域的一个分支,是以可视的形式展示信息并提供交互机制,以促进信息认知和理解为目标的理论、方法和技术。在计算机技术和信息处理技术的高速发展过程中,大量的信息集合逐渐出现在了很多领域,正因为信息可视化可以满足对大量信息进行可视化从而帮助用户感知信息的需求,最初被用于科学计算的可视化技术逐渐成为可视化研究的热点。信息可视化被广泛应用于商业、科研、生活等各个领域,其不仅被学术界广泛研究,还被工业界应用到商务数据分析、数据挖掘、知识管理等多个领域,相关的研究文献、应用系统不断出现。
在相关学术领域,研究者们在信息可视化技术方面做了深入的探索和研究,取得了一定的成果。这些研究方向包括:信息可视化中的交互机制、信息可视化技术和算法、信息可视化模型、信息可视化技术的评测等。伴随着相关理论体系的逐渐成熟和研究内容的越来越丰富,信息可视化逐渐成为研究的热点,其中文献检索可视化便是将信息可视化技术运用在信息检索中。文献检索是将检索出的结果用视图的方式展示出来如:信息检索模型、用户提问、信息资源、检索过程以及检索结果中各种语义关系等[2],并在一个一维、二维或者多维的可视化空间中将视图展示出来。用户可以根据可视化图形提高检索的能力和效果,掌握检索的状态,因为图形使得对检索结果的理解变的更加直观快捷。由于具有很高的学术及应用双重价值,文献检索可视化不仅成为国际研究者们研究的焦点,并逐步成为了信息检索在今后的研究方向。这项技术可以从根基上改变了以往呈现信息的方式、获取信息的途径、组织信息形式和访问信息的方法。
文献检索可视化代表着未来信息检索的发展方向,为了进一步推进信息检索可视化的应用与发展,满足用户对信息需求的增长,提高用户理解和获取信息的能力,就需要深入研究文献检索可视化中出现的问题,方便用户与信息之间产生更深层次的交互,提高对复杂系统的理解和决策能力。这也促进了系统原型在实践使用方面的转化,有助于信息检索可视化在理论方面的发展。
在本文中,作者以信息可视化中与用户的交互形式为特征切入点,经过全面分析信息可视化的发展过程,通过探讨在中文信息检索中应用信息可视化技术时可能会遇到的问题和有效解决方法以及如何让信息接收者对视觉界面的认知、记忆和体验融入到信息可视化的表现形式上,揭示出了检索结果背后的深层次联系。并在可视化映射和显示方面寻求能更好表达出多方面信息的方法,使信息检索得到更为准确、生动的视觉语言和传达方式,在现有的研究理论上更进一步,能为以后信息可视化设计人员从更多更广的角度去研究和开展交互式信息可视化界面设计提供一定的参考。
信息可视化在互联网环境中不仅要体现出视觉设计效果在新时代下的发展,同时还要确保信息可以高效迅速的传播。在国内,有一些网站和社交媒体中开发了相应的应用程序,这些程序可以对已有的数据信息进行二次聚类展示,但是显示效果都显得简单枯燥,这也反映出了我国在信息可视化方面缺少相应的人才。本文通过总结信息可视化设计的原则和方法以及未来的发展趋势,通过实时可视化图,提高人机交互性能,使用户能够参与进检索过程中并快速得到和理解所需信息,对网页中交互式信息可视化的实际应用和拓展多元化的信息传达方式起到一定的指导作用。
1.3 国内外研究现状
1.3.1 信息可视化国外研究
信息可视化研究最早出现在上世纪 60 年代,距今已经有 50 多年的历史。60 年代初着名研究学者道尔提出了一个着名的研究理论:语义路线,该方法是通过设计专业方式对国家或者学校的图书馆所有书籍、文献等进行整体记忆归纳,可以帮助使用者尽最大程度的缩减浏览区域,减少文献检索所用时间,最后通过已经找到的内容进一步查看、浏览该信息下所包含和容纳的更详尽的知识、文献等。到了上世纪 80 年代,研究人员通过专业的文献检索体系(例如布尔计算检索体系所建立的温式图、非布尔逻辑体系所建立的定量体系)对信息检索可视化进行了极为细致深入的研究,并取得了丰硕的研究果实。
在上世纪 90 年代,随着科学技术的快速发展,信息可视化成为了广大研究学者的重点科研对象。但其真正成为国际性质的科研主体的重要标志是信息可视化IEEE 研讨会的举办,该研讨会从 1995 年 10 月起,每年都会在伦敦或者纽约举办,在会议上研究学者会发表大量该领域最新的研究成果、学术论文。欧美国家研究人员已经根据大量的理论研究,通过实践取得了具有世界先进的研究果实,同时在研究过程中人们更加倾向于通过可视化模型去进行信息可视化领域的理论研究,在这个过程中已经出现可很多的理论研究模型,并且实现了一些系统模型。另外也有其他领域的研究学者(人机交互领域、计算机图形领域等)通过大量的研究工作,总结出了在不同领域进行信息可视化的文献资料,进而完善了不同学科、不同理论对信息可视化的研究,具体包括以下几个方面:
1、可视化系统的研究:早在上世纪 90 年代匹兹堡大学就成功研制了一款经久耐用的文献检索体系,其工作原理简单描述为通过提出检索问题,系统将对应文件资料的一些关键信息(摘要、文献等)以图形的形式显示出来返回给用户,即查询用户进行文件检索时,用户通过检索问题时设定的参数,最终确定显现所检索的各种文件资料相关信息的图标,文献图标位置是由系统内部通过将上述参数安置于既定系统显示区域。美国着名大学伯克利分校已经率先将信息可视化体系真正意义上融入大学的生活中[3].林夏博士指出可视化体系需要达到人们在现代数字化、媒体网络化的体系中查询自己需要的相应信息的要求,即信息可视化研究的重点放在其过程中是否具有交互能力、是否具备信息关联性、是否能够满足人机工程学的技术要求等;Carr 也在自己的研究文献中确定了现代检索体系建设所需的根本指标。随着日本经济的高速发展,日本国内出现了很多信息可视化研究协会,并出版了很多关于可视化现象、研究的书籍、文献等。日本本国投入大量资金建设了自己的信息检索可视化研究所需的数据库,并成功的举办了除欧美地区以外的可视化研究领域相关研讨会议,进而保证了亚洲地区日本在这方面研究的领先,另一方面也激发亚洲人们对可视化的热情。通过日本国内大量媒体曝光的信息来看,其已经在理论研究、实践应用等方面取得了长足的进步,并且成果相当可观。日本东京理科大学成功研制出一款信息可视化检索体系 WIDAS[4],该种新型的检索体系主要是一种基于网络知识再现、再集成的文件检索可视化系统,是一种国际上目前少见的一种研究成果。它的最突出的优点就是能够完成对可视化体系检索过程进行结论性评价工作。
2、评价指标的研究:到现在为止,世界上还没有出现一种能够广泛意义上被众多研究人员所共同接受的一种评价指标、评价体系,国外的权威研究机构目前是从可视化在不同角度的应用,来评价信息检索的可视化结果。着名研究专家 Freitas通过大量的研究与实践工作,从专业领域给出了信息可视化评价指标的两个重要因素:一、人机交互领域的评价,该评价则是依靠最终数据的检索、位置导航[6]等交互方面的能力进行评价。二、信息检索可视化专业技术领域的一种外在的视觉感官评价,该评价则是从人们对事物认识的三维立体性、复杂多边性等指标进行衡量评价。着名大学的 Shnerderman 教授则从信息查询用户的角度进行分析研究,得出了信息可视化评估指标:信息全局化、信息过滤、信息缩放、信息关联、信息浏览历史、信息细节要求和信息抽取[5],共计七个指标。另外 Zhang 等研究学者则从可视化信息的浏览、信息问题给出、信息的外在展现、信息的管理控制,共计四个方向对其进行衡量评估[7].由于目前大多数研究学者分别从多个领域研究信息可视化的评级体系工作,且没能够出现一种能够引起众多学者共鸣的理论出现,进而导致了整个评价体系陷入一定的困境,未能够出现一种真正具有使用价值的评价体系。
3、可视化算法和技术的改进:随着理论研究的不断深入,人们开始对原有的信息检索理论进行不断的更新、更正,并有很多学者在此方面取得了丰硕的成果。
Mu-Chun Su 等研究人员通过利用信息初始化对 SOM 图形进行革新改造,进而从一定程度上保证了信息检索图的精准性。Xerox PARC 研究机构则通过大量的理论研究全面的开发了多款三维数组、二维数组等具有广泛意义的、可实际应用的信息可视化模型技术。马里兰大学采用 Tree Map 通过查询结果项能够更快、更多的显示用户所需的各种查询信息,进而提升了文件检索体系的人机交互性及使用性。
4、可视化显示方面的研究:随着高新网络技术的大力发展,功能日渐完善的可视化界面纷纷出现在大型搜索引擎(谷歌、百度等)、商务网站(淘宝等)中,网络技术人员通过将人机交互式信息缩放技术、信息网络检索与可视化有机结合的方法,有针对性的对信息可视化效果进行了功能性改进、完善[8].Search Me 是通过借助已经相当成熟的 flash 技术实现信息可视化界面并将搜索结果用生动的图像表示出来。目前 Touch Graph 技术已经完成了亚马逊、谷歌等网站界面的可视化工作。
Kartoo 方面则通过研究如何将检索结果地图化显示出来,研制出了功能上保证客户检索结果且具备人机交互、信息可视的功能地图。该地图中的一些网站站点利用页面区域进行表述,站点间的相互连线表示相应的主题信息;当检索人员将鼠标指向信息主题时,则会出现一系列的相关的主题信息,进而用户可以方便快捷的找出相应网络站点的信息。
1.3.2 信息可视化国内研究
我国信息可视化技术领域则研究历史较短,国内相关具体研究工作则在上世纪80年代刚刚开始,当时对该技术进行研究的机构则主要是国家性质的科研院所、高校重点研究中心、中国科学研究所相关研究中心等具备足够的科研人力、财力的一些国家层面的研究机构。目前我国对信息可视化研究主要集中在信息可视化研究领域相关的理论、概念的简介;以及信息可视化技术在网络数据库、国内文献资料、网络多媒体、国家地理等各个方面的一种技术性、概念性的介绍。随着我国整体研究水平的提高,越来越多的国内研究学者开始将研究重点转向可视化技术的理论算法、各个领域可视化技术的实际应用、大数据下信息检索的技术等具体、实用的一些科研问题,目前主要是:
1、信息可视化的维度:我国相关研究人员针对二维到五维的信息空间分别进行了相关研究,韩教授二次改进的Vis5D可视化系统不仅能够满足人们对五维数据的可视化的展示,而且在很大程度上提高了人们对五维数据可视化的效率[9].张燕主要分析和研究了在虚拟环境中的Web可视化技术和如何将4D视觉效果运用到信息可视化技术中,结合用户对可视化显示的需求和这两种研究的显示特点,提出了基于4D显示的Web虚拟实现技术[10].陈建等研究学者通过网络技术、三维制图技术等实现了能够虚拟呈现一个城市地貌景观的可视化技术[11],通过设计城市三维成像的方案,最后成功研制出城市可视化的模型体系。
2、信息可视化的系统架构:信息可视化所用的基本框架都是建立在B/S模型的基础上,可视化的实现是通过多种不同的应用方案来进行实施的一个过程(网络服务及网格架构方案)。石旭介绍了一种新型图形可视化方法,他分析了将各种JVGL技术应用于网络GIS平台所要解决问题,研究出相应的实施办法进而构建出了一种基于JVGL可视构架[12].肖磊等通过研究如何将可视化应用到现阶段常用的B/S架构信息系统,运用。NET开发并实现了基于Web Services的系统,解决了其中数据可视化问题[13].王卫民等运用Web Services技术,实现了基于文件下载机制的信息可视化系统[14].在高曙的博士论文中,他提出了网格环境下面向服务的分布式可视化研究与实现系统架构SOVP[15],他研究了可视化对象的显示方式,优化了信息的发布和发现机制,提出了一种描述可视化本体的分布式管道模型。
3、信息可视化的检索平台:北京大学开发的微博分析工具 (WeiboEvents)是一种能够简单明了的展示微博起始信息的创建、传播、发展的可视化系统,该可视化工具帮助人们认知、理解微博实际运转和传播的过程,并可以将微博事件中的关键人物和人物观点、人物关系及其转发情况清晰的展现出来。复旦大学图书馆利用可视化系统可以使学生在查询图书信息的时候有种在书架间浏览的身临其境的感觉。
叶琪为了研究了部分科学文献的发展趋势,使用连接图对文献检索数据进行了可视化分析[16].武汉大学的周宁教授研究了网页中具有连接关系的数据可视化系统原型,这项研究属于教育部信息可视化与知识检索重大研究项目[17].
4、信息可视化的技术应用:可视化技术应用的实质就是依托某种重要的技术为研究对象制定出相应的显示方法,并将对象之间隐藏关系可视化。通常使用的技术包括服务端技术、客户端技术,其中研究者们主要对XML、Ajax等技术在不同层面的应用进行了分析。徐云和等研究人员提出了一种基于SVG的空间数据的可视化技术,该技术主要解决了将空间数据显示为SVG图形产生的编码和数据关系之间的问题[18].张爱国等研究人员就GML提出了一种以内部组件为核心的信息可视化方式,通过文本数据将GML式文件进行一定程度的破解、分析,然后进行信息的归类,然后实现各类信息的可视化,进而达到整体信息的可视化的实现[19].龙腾飞则研究了Ajax技术与Web GIS的应用问题。其以通过对数据的重新归类分组、编写程序,进而完成了数据与Ajax间内容上不受其他因素制约的自由切换,且通过此方式完成了高效地图的三维呈现工作;故而通过此种方式的构建,推出了一种新型的网络GIS框架[20].
1.4 当前存在的问题
以上对国内外研究现状现的状分析告诉我们,目前国外的可视化信息研究成果主要是针对于外国信息的,针对中文信息的相关研究内容非常少。而相较与国内对基础理论以及技术应用方向的研究,对于中文文献信息可视化仅处于不断尝试的初级阶段。目前在这方面,国内研究并没有形成一个相对成熟或比较理想的理论与方法,并且还存在着诸多问题。
1、不论在国内还是国外,对信息可视化的研究及应用,都仅针对于在某个具体问题上如何使用信息可视化技术,而没有整体的应用范围,即从信息的组织、信息的功能设计与信息的交互设计这些方面的整体的把控信息可视应用,这样就造成了一定的局限性。
2、目前,CNKI、维普等数据库是国内使用的检索系统,而这些检索都仍然是主题概念的检索,主要是面向于检索应用的。但是从可视化任务完成者的角度所做的研究,或从用户协作进行信息可视化所做的研究都十分匮乏。
3、对于检索结果的可视化没有成熟完善的系统,目前应用于检索的可视化,大都是以列表形式或是概念主题可视化形式的英文文献为检索对象的。实现高抽象程度的模型的技术和研究并不成熟,因此许多经典的可视化模型并不能轻易的运用到现实。综上所述,国内的检索可视化技术目前并没有形成系统的研究体系结构,尚处于初步研究阶段。对于期刊论文信息检索的有效可视化,是信息可视化的最终目标。为了实现这个目标,下一步的研究重点就是怎样才能更加有效的提高检索的效率和可视化的效果。
1.5 论文的组织结构
本文主要是从五章内容进行阐述和分析,文章结构系统框架如下图所示:
1.6 本文的研究内容
本文总共五个部分,结构如下:
第一章引言部分介绍了本文的研究背景和意义,并总结和分析了信息可视化中检索可视化的国内外研究现状和发展趋势,最后对论文的组织结构进行介绍和说明。
第二章是对信息可视化和检索可视化相关理论和技术现状的概述。本部分首先介绍了信息可视化的概念、模型和目前相应的可视化映射技术和可视化显示手段,然后介绍了检索可视化和信息可视化的联系及应用价值,并详细阐述了检索可视化的特点和优势。
第三章基于社会网络的文献检索可视化。本部分先对社会网络和对应的社会网络分析工具作了介绍,然后对引文分析中作者共引,文献共引,期刊共引和关键词共引做了详细说明,介绍对合着网络中作者合着和机构合着分析的作用,并提出了一种新的共引矩阵构造方法,结合社会网络分析算法,对作者共引,文献共引,期刊共引和关键词共引以及作者合着,机构合着的初步可视化,并分析了可视化中的不足之处。
第四章基于节点中心度和合着强度的文献检索可视化。在这个章节首先介绍了节点中心度的概念和作用,然后分析了相应的经典的中心度算法。提出了加权中心度计算公式对作者共引,文献共引,期刊共引和关键词共引数据进行筛选,重新进行了可视化展示,并对可视化结果进行了分析。最后又提出了一种基于 Salton 方法的合作关系算法,对作者合着,机构合着网络重新进行可视化展示并分析了相应的结果。
第五章总结与展望。本章内容主要是对论文中所做的工作进行总结和概括,并阐述下一步的工作研究方向。