文献检索论文

您当前的位置:学术堂 > 图书档案学论文 > 文献检索论文 >

基于社会网络分析的文献检索可视化

来源:学术堂 作者:陈老师
发布于:2016-11-02 共4782字
  本篇论文快速导航:

展开更多

  3. 基于社会网络分析的文献检索可视化
  
  3.1 社会网络分析的定义
  
  对于网络来说大家并不陌生,我们在日常生活中见到的最多的就是我们赖以获取信息的互联网或者移动网,它们为我们的日常生活提供了便利。在我们人体中也有网络,比如神经网络,它通过网络的各个神经元进行信息的交互,实现对于我们人体的动作协调、寒冷感知等功能。
  
  实际上,对于我们赖以生存的社会环境来说也是一个庞大的网络,我们称之为社会网络,在这个网络中我们每个人之间都发生的彼此的联系,有的是因为有了工作关系,比如同事关系,有的是有亲情关系,比如家人孩子。在这个大网络中,对于每个个体来说就是一个节点,通过这些节点的作用可以产生信息的交互、生活的协助以及工作的协同等。比如教师,也可看成是一个群体,教师通过它们之间的相互作用来实现对于教学成绩的提升。对于类似群体可以通过抽象进行社会网络方面的研究。
  
  在对社会网络的研究中,可以通过一些工具对这种网络关系进行分析,我们称之为社会网络分析(social network analysis)。在社会网络分析中,人与人之间的关系用连线表示,每个人表示为网络中的节点,网络中节点的关联程度表示着社会成员活动的密切程度[32].对于这个网络中的节点属性主要通过点度中心性和中介中心性来做出权衡,并通过社会网络分析工具进行直观的显示。
  
  3.2 社会网络分析算法
  
  目前有多种社会网络分析算法,其中以下几个算法非常适用于对检索可视化结果的呈现:其中膨胀词(Burst Detection)突变检测算法能够分辨出某个科研领域人们研究兴趣的突然变化[33];最小生成树(Minimum Spanning Tree)是指生成原图的极小连通子图,且包含原图中的所有结点,并且有保持图连通的最少的边,Samoylenko[34]等成功实现了基于最小生成树的期刊引用关系知识图谱;路径网络简化(PathfinderNetwork Scaling)算法[35]它依据一个三角不等式检验以决定是保留还是删除某个连接,该算法最初被用于作者共引分析,而后扩展到一般的共引分析,其标准是两个节点间的直接连接长度不能超过通过中间节点连接起来的多路径长度[36].
  
  MST 寻径算法:将图 G 中的边按权值从小到大排序,然后从小的开始依次选取,若选取的边使生成树 T 不形成回路,则把它并入 TE 中,保留作为 T 的一条边;若选取的边使生成树 T 不形成回路,则将其舍弃;如此进行下去,直到 TE 中包含 n-1条边为止,具体过程如下图所示。
  
  
  3.3 引文分析
  
  对于论文中引用文献我们并不陌生,通常来说,对于发表的文章一般都要求在结尾将引用的文献进行记录和展示,同时对于文献在文章中的引用格式也有限定。
  
  引文分析就是对这种文章的引用进行分析的方法。对于引文分析而言,其意义重大,通过引文的分析能够了解到这个研究领域学科之间的交流和信息传播的规律。通常来说,如果一边文章被多个人进行了引用,那么这边文章的价值将会非常大,对人类社会以及科学发展起到的作用就更大;如果引用的较少就说明该研究领域在该问题上研究的人员不多,再就是可能该问题是该领域中的一个偏门领域敢于研究的人不多。因此,其在知识的研究领域上有很好的分析效果,对于趋势的把握以及热点的跟踪将起到非常重要的作用。
  
  此外,对于这种引文的研究更重要的是对于知识的传承,通过先行者在该领域的研究,我们进行引用和延伸,实际上是站在了巨人的肩膀上进行更深层次的研究,这对于出成果以及知识点的衍生将起到更大的作用,这也是推动科技与社会进步的重要力量。通过对于这种知识架构的网络分析,能够看到各个引用文章对于研究内容的支撑作用,一般来说从单篇引用来看,如果引用的次数非常多,那么就表明该篇文章与该领域的研究有很强的相关性,形成了热点研究方向。
  
  总之,引文分析是一种非常重要的研究分析方法,通过该分析能够对引文所在的知识体系进行了解,对其研究的深度以及广度做出分析,同时也能够看到其在知识发展历程中的各种变化态势,对于引用用户以及科学发展情况也能够进行预测,是一种非常好非常实用的分析研究方法,对于世界知识体系架构以及研究成果的集成和推广具有重要意义。
  
  3.3.1 共引矩阵
  
  共引矩阵用来表示引文之间的引用关系,是根据被引文献之间的两两共被引次数得到矩阵,这个矩阵是关于对角线对称的矩阵。矩阵中对角线上的元素表示引文与自身的相关程度,其他元素表示两个共被引文献之间的相关程度。数字的大小,在一定方面上表示两个共被引文献研究内容上的相关程度。
  
 
  
  线上的值表示该引文共被引的总次数,例如 表示引文 A 的共被引次数。
  
  通常,在常用统计分析中,共被引的文献在 20 到 30 篇左右,共引矩阵构造的方法是通过人工构造的方法,然而在本文中共引分析对象过多,因此提出了一种利用矩阵转置相乘的方法构造共引矩阵。
  
  首先,构造文献的引用矩阵,其中矩阵的行表示被引文献,列表示源文献。如果源文献引用了对应的被引文献,就在矩阵中填 1,否则为 0.例如下表中,行元素分别表示引文 A1,A2,…,A8,列元素分别表示源文献 B1,B2,…,B6,文献 B1 引用了文献 A1 所以矩阵中相应位置表示为 1.
  
  
  通过将共引矩阵用相应的社会网络分析算法表示出来,就形成了对应的引文可视化图。本文所用的数据来源于 CSSCI 数据库,关键词为可视化,发表年限为2000-2014 年的 475 篇文章,将文章数据经过预处理和格式转换后在网络分析工具中进行可视化。
  
  在数据源中,我们主要用下以下数据:AU 表示该文献的作者,CL 表示该文献作者对应机构,DE 表示该文献摘要中的关键词,CR 表示该文献引用的文献。
  
  3.3.2 作者共引可视化
  
  作者共引分析一般来讲,即两个及以上作者发表一篇文章,另一位作者在其它文章的编写过程中引用、借鉴了上述作者的文章时,可以认为这几位作者之间具有共同引文关系。而文献的被引强度则可以通过引用该文献作者的实际数量进行权衡。
  
  研究人员通过将以文章作者作为基础,进而同过引用、被引用等内在联系构建一种共引关系。这种共引关系能够使该类型、该研究领域的作者进行内部统计信息的聚集,从一定程度反映该类型科研专家之间的相互联系、专家结构,进而通过他们之间频繁的文献引用关系找到该研究未来发展的发展方向。当一位文献作者被另一文章作者进行引用的情况下,就可将两类作者归结为该研究领域的同行,而且两人的文献被引用量越大,则从一定程度上说明二者之间存在的某种紧密的科研关系或者学科关系,通过对该领域专家人群的数据统计分析、归类,进而可以了解整个行业领域目前从业人群的大致数量、研究领域范围等各种无法直接显示的隐藏规律。倘若有一天,某一研究领域需要进行协作克服研究瓶颈,那么通过本技术,将上述专家、作者进行区域性集结,则可以对课题的深入探究提供很大的帮助。
  
  当作者数量和结构的变化时,从侧面反映出了该行业领域发展动态。同一研究领域研究专家的数量、结构层次发生变化时,就能反映该研究领域在一定时期的兴衰程度、发展趋势等。通过定期的分析研究,就可以发现各种行业领域未来发展的方向及兴衰。
  
  对引文作者分析生成相应的共引矩阵后,用社会网络分析算法映射为如下的作者共引可视化图。
  
  3.3.3 文献共引可视化
  
  对于客观世界的认识往往不限于某一学科或者某一角度,因此在论文或者文章的撰写中对于文献的引用不会仅限于某一篇章或者某一研究领域。正是有了这样的发展过程,对于文献的引用就会出现多样性。
  
  通过文献引用的分析,可以了解各个学科的特征联系和发展变化等。还可以通过引用文献的分析,对于相关的知识结构进行推断,发现各知识领域之间的关系,推动全领域协调发展。
  
  对被引文献分析生成相应的共引矩阵后,用社会网络分析算法映射为如下的文献共引可视化图。
  
  3.3.4 期刊共引可视化
  
  期刊共引的分析,是对各文章引用的文献中期刊来源之间的关系进行分析,通过分析确立这些科学期刊之间的关系,以及确定在某个期刊在该领域是否为核心提供依据。
  
  在期刊共引中,通过期刊被引用次数的多少,也可以看出该期刊的实用价值,可以通过这些价值来推断该期刊是否为核心期刊。对引用期刊共引关系强度进行分析,可以判断其在相关的知识结构中所起到的作用和在该领域的专业能力强度,如果共引关系强度很高,则说明该期刊与相关专业联系密切,反映出了期刊与对应学科之间的联系关系。
  
  对引文出版期刊分析生成相应的共引矩阵后,用社会网络分析算法映射为如下期刊共引的可视化图。
  
  3.4 共词分析可视化
  
  共词分析方法最早是在 1970 左右由法国的研究人员提出来的,该方法主要用来分析在同一文献中一些词汇出现的各自次数,通过这些分析能够看出研究学科与词汇的远近关系。比如我们在论文撰写中,摘要中标明的关键词。通过该方法的分析能够建立起词语的网络分布图,通过图能够看到该词汇在知识体系发展过程中的作用,能够对未来知识发展起到的推动作用。同时,如果被引用的次数越多,说明该词汇的重要程度越高,其在成为热点词的概率就越大。
  
  共词分析主要是对文章的叙词、标题词和关键词中的专业术语进行分析。共词分析的分析方法主要包括聚类分析法、关联以及词汇频率统计法等。通过对这些词汇建立相应的词谱关系图,借助统计数据分析能够直观明确的看出该学科的整体趋势和主题(专业术语)在相关科学研究领域的相互关系,对研究未来学科发展趋势上具有重要的参考意义[37].
  
  对引文关键词分析生成相应的矩阵后,用社会网络分析算法映射为如下的共词分析可视化图。
  
  3.5 合着分析
  
  随着科技的不断发展,多学科之间相互融合成为一种趋势,单一专业的研究专家不再能够通过一己之力完成一个跨学科领域的研究。越来越多不同领域的专家聚集在一起,协同工作和共同研究,从很大程度上改变了原有的单独研究模式,能够充分利用人力资源,保证了大量科研成果的诞生,推动了科学研究的发展,因此科研人员协同攻克领域难关成为了一种趋势。随着大学科研合作的日益频繁,现在很难看到一个高水平的论文着作是由一位作者独自完成,越来越多不同科研领域之间的作者共同署名发表文章,而且合作规模也日益壮大。
  
  通常共同发表文章是合着中的普遍形式,当然合着也包括共同完成科研成果等,对合着网络的分析,我们可以看出研究机构的发展情况和相关研究人员之间的合作关系和合作频繁程度等。
  
  目前科学技术不断地向前发展,科学领域的关系结构主要由科学研究中发表论文的作者与作者的相互关系和科研机构与科研机构之间的相互关系组成。一般核心的研究成果是由经常合作的机构与作者完成,这也形成了该领域的核心研究机构和核心作者。大量研究人员之间的科研合作也促使了相关学科成为了该领域研究的热点。对合着网络的分析可以得出学科结构之间的内在演变关系,揭示出科学研究的前沿。
  
  下面两个图分别显示了在 2000-2014 年在可视化着作方面,有合作关系的作者和机构。
  
  3.6 可视化结果的不足
  
  可视化技术是将网络结构数据以图形化的方式展示出来,使人们可以快速直观的浏览网络数据。不仅能够帮助人们很好的了解数据网络的内部结构,还可以帮助人们挖掘出数据内部隐藏的重要信息。但是我们可以从上面的可视化结果中发现,虽然我们将文献的网络结构用可视化方法显示出来了,但是这对我们对文献的筛选,把握检索的方向,理解检索的结果,提高我们的检索效率并没有太大的帮助,而且这些可视化是基于节点值出现的频率来绘制的,但是文章的数量并不能完全反应出这篇文章在此领域的价值作用。本文将在下个章节用几种方法优化我们显示的结果,使可视化图更大程度上方便人们对文献的检索,帮助用户理解检索结果、把握检索方向,以提高信息检索的效率和性能。
  
  3.7 本章小结
  
  通过对社会网络和社会网络分析算法的介绍,让我们了解到社会网络分析与文献可视化间的联系,然后解释了引文分析中作者共引,文献共引,期刊共引和关键词共引的作用,介绍了合着网络中作者合着和机构合着分析,最后结合社会网络分析工具,对作者共引,文献共引,期刊共引和关键词共引以及作者合着,机构合着的初步可视化,并分析了可视化中的不足之处。
返回本篇论文导航
相关内容推荐
相关标签:
返回:文献检索论文