社会心理学论文

您当前的位置:学术堂 > 社会学论文 > 社会心理学论文 >

基于文本分析理论的数据处理

来源:学术堂 作者:姚老师
发布于:2016-10-12 共8962字
  本篇论文快速导航:

展开更多

  第 2 章 基于文本分析理论的数据处理

  近十余年以来,随着改革开放的不断深入和外来文化的交融侵袭,使得人们的思想和观念都逐渐发生着变化。曾经的以国家利益为核心的集体思想逐渐演变成以多元价值利益为中心的社会模式,不同种类的价值观、意识流和利益观都不断的体现了出来,单一思维不复存在。在当下的社会文化环境中,不同背景的公民均呈现出不同的思想意识和观念态度,这些不同的理念和思想在同一社会环境中不断碰撞和交叉作用,形成了独特的社会思维习惯。与此同时,网络计算机技术的出现和飞速发展更加剧了这种思维观念的形成,因为网络环境具备现实环境所不具备的优越条件,例如网络拥有即时的传播速度,有覆盖面极广的传播范围,有较强的隐秘性和虚拟性,同时能够打破空间和事件的限制。通过一条网线和一台电脑,不同区域和时间里的人都能在虚拟的空间和身份下进行无障碍沟通,这也为人们抒发自己的多元思想提供了极大的帮助。然而,在网络环境中这些多元的思想通过不断的交流和对峙,并没有全部以各执己见而草草结束,反而对有些社会问题达成了某些一致性进而产生了网络集体行动。这种网络集体行动的出现并不仅仅依靠虚拟网络的作用,而是与现实具有密不可分的交织性,公民的现实情感及不能抒发的情感均能够投射到虚拟的网络环境中,在道德、情感及正义等积极的社会价值观念驱使下对某些焦点事件达成了共鸣,进而形成了集体行动。这就不难理解,网民为何在"房姐"、"北京大妈"及"海南校长"事件中能够快速的聚集,同时针对不同的阶段形成高度一致的观点。本章中笔者就运用文本分析法对选择出的案例进行详细分析,以便对网络共识研究奠定基础。

  2.1 文本分析理论及其适用性。

  为了更加具体的研究网络共识的理论,对网络共识的表现形式和达成机制的理论升华必须要建立在对实际经典案例的分析和归纳基础之上。在本文中,笔者主要运用网络文本分析法对选取的网络共识达成经典案例进行细致的研究,并试图在归纳概括中总结出网络共识的表现形式和达成机制。

  2.1.1 网络文本分析理论的核心。

  本文对网络共识进行研究的过程中采用网络文本分析法,将研究搭建在网络环境中,通过对网络案例的文本文字内容由表及里地进行深入探究得出网络共识的类型划分和达成过程。

  网络文本分析法是内容分析法中的一种质性研究方法,其源于内容分析法。

  文本内容分析法(text content analysis)即:从文本的表层深入到文本的深层,从而发现那些不能被普通阅读者发现的深层意义,即"透过现象看本质".通过这种研究方法,学者们能够将研究内容中的基础文字转化成清晰的数据呈现出来,更加客观的揭示事件的发展规律、变化和真相,从而推导出具有价值的理论及预测。网络文本分析法就是通过提炼网络文本的中心思想和核心词汇来进行研究的。网络文本分析法最初源于二战的军事情报中,近些年网络文本分析法逐渐渗透到社会科学各个领域中,由于网络具有虚拟性、开放性,网民在网络中可以即兴且自由的发表文字、抒发观点、宣泄感情,这些在网络中呈现出文字、表情和段落都具有其本身背后的内涵和所指,因此运用文本分析法对网络共识进行分析是具有可行性的[49].

  2.1.2 文本分析法之于网络共识研究的适用性。

  2.1.2.1 文本分析法的可行性网络文本分析法能够透过文字的基本内容发现本质且深刻的规律,在网络共识的研究过程中诸多学者仅限于对较为宏观的内容进行描摹和粗浅的论证,较少的通过具体案例对网络共识的表现形式和达成机制进行详尽的分析和论证。

  为了弥补网络共识研究中对具体共识表现形式和达成机制呈现的不足,利用网络文本分析法对基础原始文字进行内容的提炼和数据化呈现就显得十分有意义,同时能够弥补作为网络集体行动前提的网络共识的研究内容。

  2.1.2.2 文本分析法的优越性此外,网络文本分析法还具有很多的优越性。其体现在对原始文本资料的充分利用和不断推敲。由于网络存在着较大的流动性和即时性,对信息的把握是十分困难的,尤其想要探究网络共识的具体表现形式和作为过程的达成机制就更加困难。但引入文本分析法后,就能够充分利用各网络交流平台,对网民之间既存的对话文本进行集中捕捉和分析,同时能够不受时间限制的透析内容、反复推敲和归纳,进而得出的结论会更有代表性和说服力。

  2.1.2.3 文本分析法的适用性当下,学者对网络共识的探讨和研究尚处于初级阶段,大致分为两个方面:

  将网络共识看做社会共识的延续和工具媒介对其的类型和路径进行研究;政府借助网络共识对社会秩序进行治理和整顿。将网络共识看做社会共识的延续对其进行类型和路径分析的代表是李胜军等人,其从社会共识入手,将网络作为附加变量和影响因素,对网络共识的表现、实现方式及对社会秩序的影响进行了较为深入的研究。但是通过仔细研究可知,学者们当下对网络共识的研究仍较为粗浅,更多的人将重心放在对网络集体行动的探讨和机制分析,而忽略了作为集体行动实现前提的网络共识,此外较少的关于网络共识的研究也从宏观的角度对其进行理论的概括而尚未出现从实际案例出发对其进行数量化分析的研究。

  为了弥补网络共识研究的不足,在本文中笔者引入网络文本分析理论,试图通过对实际案例的搜集和对原始文本的提取、数据化,进而从主体网民角度对网络共识的具体表现形式和达成路径进行详细的分析和考察。其中包括两个阶段:

  (1)第一阶段:文本分析下的案例剖析 通过上文对每个事件的过程分析可明显的看出其经过的核心阶段以及引起热议的内容。在引入文本分析理论时,首先对每个阶段的原始文本资料进行汇总和分析,然后对每个阶段进行深入的内容处理和理论阐述。

  (2)第二阶段:透过文本挖掘共识理论 在对每个阶段的文本进行网络文本分析后将会呈现出一些数据化的文字内容,通过这些数据化了的文本内容提炼概括出具体的共识表现形式和达成路径。

  主要的研究步骤包括:样本选取、内容预处理、结构化编码、分析类目、提取高频词汇、统计分析、倾向性分析及信度检验等过程。

  2.2 案例及其文本分析过程。

  网络文本分析理论十分讲究每个阶段的扎实研究,其包含的研究过程较为细致而复杂,笔者在本文中就将三个案例的内容按照网络文本分析的阶段进行拆解性分析和归纳统计,试图通过数据化的内容发现网民在案例发生及之后的互动中对哪些内容产生了共同的理解和认识进而达成了共识,最终转化成了集体行动。

  2.2.1 案例的选取。

  网络文本分析法的首要环节就是对本研究契合的案例进行搜集和分析,并对原始的文本进行初级归纳,在此基础上对文本进行深入的内容预处理、结构化编码、分类及类目的分析和统计分析。因此,在进行中心环节之前,最重要的就是案例的选择。

  2.2.1.1 案例的搜集本文的目的是对网络共识的具体表现形式和现象进行阐述和分析,这就要求案例必须是实现了共识且产生集体行动的完整的案例,同时为了实现这一目的,事件在发生初始的时候是具有争议性和焦点性的。此外,为了实现对文本的深入分析,选择的案例必须是引发网友激烈讨论的内容,同时具备较为丰富的交流和对话文本以供研究。以近两年的网络焦点事件为范围对案例进行搜集和选择,同时依照可行性、现实性、操作性、互斥性、替补性等原则进行网络共识达成事件的选择。

  纵观近两年的网络焦点事件,2013 年呈现出社会焦点事件爆发出现的一年,而 2014 年渐趋平稳且主要倾向于对网络安全的聚焦。因此,为了满足网络文本分析法的具体要求,在本文中选取了贯穿 2013 年全年的网络焦点事件,包括"陕西神木房姐事件"、"海南万宁校长开房事件"及"北京大妈被撞反被外国小伙诬碰瓷事件".这三个案例有如下特点:

  (1)事件经过完整且连贯 为了满足文本分析法对于案例的要求,所以必须要求案例的发生发展过程持续时间合理、经过转承有始有终。事件发生的过早和过晚都存在资料不完整的可能性,持续的时间过长则会造成资料冗杂、不易剥离原始资料的情况。本文选取的这三个事件贯穿 2013 年的全年,且事件发生经过结果较为完整,便于研究。

  (2)事件指涉的方面具有代表性 此三个案例分别在经济、政治、伦理、文化等方面引起网民的剧烈争执,同时此三个案例分别经过两个及两个以上的阶段且每个阶段网民针对不同的内容发起讨论,得出不同类型的共识内容;此外,这三个事件虽从不同的方面引发争议和讨论,但是其形成的共识内容具有交叉性,能整体的从某些方面对其指涉的共识内容进行分层归纳和汇总。

  2.2.1.2 案例的概况确定对此三个事件进行分析后,就要对事件的整个过程进行拆解分析以便将事件每个阶段网友关注的爆发点和讨论点进行特别分析,并通过时间轴上的"截点放大"对每个爆发点进行详细梳理和分析。通过这种拆解整合的方法能够更加清晰的通过文本找出网民达成的具体共识内容也方便探索共识的达成路径。

  (1)"陕西神木房姐"事件 2013 年 1 月 16 日,一则称"神木县农村商业银行副行长龚爱爱有两个身份,在北京有 20 多套房产,总价值近 10 亿元"的帖子在网络中疯传,引发了网友热议及公安机关的关注和调查,经历了两个阶段的讨论热点--"龚爱爱的钱从哪里来"和"法律的偏袒"后,该事件以二审审判的结果告终,网友共同达成的质疑和不满情绪也随之淡出。

  (2)"海南校长开房"事件 2013 年 5 月 8 日,海南省万宁市后郎小学6 名就读 6 年级的小学女生集体失踪,经调查原来该 6 名小学女生被万宁市第二小学校长陈在鹏及万宁市一政府单位职员冯小松带走开房。此事件经过"家长起诉--警方'不负责调查'--叶海燕举牌抗议--校长判刑"等一些列过程,以分别判处被告人陈在鹏有期徒刑十叁年六个月,剥夺政治权利叁年;判处被告人冯小松有期徒刑十一年六个月,剥夺政治权利一年告终。其中网民针对三个阶段引发热议,即:"谴责校长"--"谴责警方"--"支持叶海燕".

  (3)"北京大妈被撞"事件 2013 年 12 月 2 日北京朝阳区,一名骑摩托车的外籍男子撞倒一位过马路的中年妇女,此事件经媒体的参与被无限放大在网络中引发了极大的波澜,被升级为"大妈被撞"事件。事后出现两种基本舆论,"老外街头扶摔倒大妈遭讹 1800 元"与"中国大妈冤枉,她确实被老外撞了".经过一个月的时间,此事件以"为大妈平反,外国小伙被遣返回国"告终。

  2.2.2 样本的选取。

  网络文本分析理论十分重视样本容量的选取及有效性的选择,因此在本研究进行的过程中笔者十分重视对样本的筛选。由于网络文本分析法是通过对网络文本进行深入发掘的,因而其样本的选择一定是来源于各大网络论坛和交流平台中。笔者主要选择"天涯论坛"、"猫扑论坛"、"强国论坛"及"新浪微博"等具有将大影响力的网络社区进行样本的选取。

  在搜集帖子的时候,将搜集过程分为"海选"、"粗选"、"精选"过程。

  在"海选"步骤中,搜索的关键词范围较大,例如运用"大妈"、"房姐"、"校长"等宽范围的词汇进行搜索得出相关性较弱的帖子并对其进行筛选;然后,对"海选"中的相关性较强的帖子进行"粗选";最后,将搜索关键词缩小到"神木房姐"、"龚爱爱"、"龚仙霞"、"女行长"、"东北大妈"、"外籍小伙"、"海南校长"、"陈在鹏"、"陈某鹏"、"冯小松"、"6名幼女"等精选帖子内容,并搜索到强相关的帖子,并按照点击数和回复数对其进行选择,将无关和用处极小的帖子去除。得到的具体样本数量情况如下。

  本文主要针对剔除后的有效帖子文本内容进行网络文本内容分析。

  2.2.3 文本内容预处理。

  网络文本分析法十分注重对原始文本内容的处理方式和提取凝练,而文本内容预处理阶段就是对粗糙杂乱且无序的原始资料进行重新筛选、剔除和整合的过程,通过文本内容的预处理可以初步提炼出原始资料中最核心的内容以便于接下来的理论概括和提升。本文对三个案例文本内容的初次提取就按照文本内容预处理的步骤进行,通过这一过程可以初步看出网友对事件发生的态度和关注点。

  2.2.3.1 案例帖子的归纳整合通过各大论坛搜集到的文本"原始资料"虽然都与案例息息相关,但是每个帖子内容的指涉方面都是不尽相同的或具有不同的主题内容,因此为了将零散的帖子内容整合成有序的几类内容并对其进行具体分析,首要进行的就是对各案例的帖子进行归纳整合。对帖子进行归纳整合的方法是按照"2.2.2.2 案例的分析"中划分的不同阶段来分别归类的,其目的是为了厘清不同阶段网民的态度倾向和关注焦点,因为通过对案例进行阶段分析后可以看出此三个事件发生过程中会出现不同的阶段,而每个阶段引起热议的内容都不尽相同,进而会分别产生不同的关注点,也会实现不同的共识内容。

  (1)"陕西神木房姐"事件 "陕西神木房姐"事件大致经过了两个阶段的热议,其初始帖子以"多处房产、巨额存款"吸引了公众的视线,同时由于多个此类事件的出现也让网民给这一群人贴上了"房姐"、"表叔"等一系列"标签".这种具有倾向性的意义建构激发起网民对"廉洁"、"公平正义"的拷问,因此在该事件中笔者针对两个不同阶段归纳出"阶级情感宣泄"、"身份差距划归"、"地位挫败意识"、"法律偏袒意识"等能够概括总结网民态度和情感的词汇,并针对这些聚焦词汇将杂乱的帖子内容进行归纳整理。

  (2)"海南校长开房"事件 "海南校长开房"事件大致经过了三个阶段的热议,网民主要是从抨击主体对象的角度进行议论和争执并在其过程中达成某些共同的理解和认识。该事件最初引发人们关注是因为"6 名小学生"的"失踪事件",当她们被找到时又发现下体出血的现象。该事件引发了家长们的关注和愤怒,进而起诉立案引发了关于"校长失德"、"官员色情"、"小学生早熟"、"社会伦理缺失"等讨论,此事件的指向对象是社会中本该最纯洁的"教师"、"校长"、"小学生",因此当事件发生后引发了网民们的愤怒和争议,激起了网民关于"道德"、"伦理"、"官员腐败"、"教育纯洁"、"人伦纲常"等的探讨,笔者针对该事件的三个阶段分别总结出了"道德情感爆发"、"官员色情腐败"、"执法不公不严"和"违背人伦道义"等词汇用以概括各个阶段的帖子内容,并对其进行归纳。

  (3)"北京大妈被撞"事件 "北京大妈被撞"事件从发生到结束虽然经过的时间较短,但是却呈现出两大转折点,体现出当下社会环境中人与人之间的不信任和冷漠感。这一事件的出现并非偶然,而是建立在多次发生的"扶老人反被诬陷"事件之上,屡次发生的此类事件引起了社会公众的关注,并引发了关于"老人变坏,坏人变老"的大讨论,同时也给公众增添了一层戒备心和恐惧心。因此,当"北京大妈"和"外国小伙"事件出现后,仅仅一天时间公众的态度就发生了翻天覆地的变化,引发了网民关于"道德冷漠"、"无良媒体"、"舆论造谣"、"国人素质"、"民族情感"等的一系列探讨。笔者针对该事件的三个阶段分别总结出了"道德情感淡漠"、"互助恐惧意识"、"媒体歪曲造势"及"对外民族情结"等词汇对该事件的帖子和回复进行归纳整合。

  以上对于原始文本内容进行的分阶段归纳整理的目的就是将搜集到的主题帖子进行初次且粗糙的归类和分别,以便更加详细的对文本进行分析、编码和理论提升。

  2.2.3.2 剔除无关内容及构建过滤词表对原始文本进行了分阶段整理和汇总后,对于各帖子的整体分析和处理就告一段落,接下来则是对个帖子及回复的内容文字进行处理,其中包括剔除无关内容及建构过滤词表。

  剔除无关内容指的是:将帖子文本内容中的无关内容及附加内容进行剔除以方便分析,进行剔除的主要内容有:中文标点、英文单词、表情符号、时间代词、量词等。将其剔除后,有助于凸显出高频及低频率词汇以方便统计。

  构建过滤词表是指:将文本中的诸如冠词(一回,一次)、代词(今天、昨晚)、介词(在、于、给、那)以及助词(的,地,得)等无助于了解网民情感态度、倾向性及意见理解的词汇过滤掉,以便在更深层面上挖掘文本内容。

  2.2.3.3 合并同义词及近义词将各类文本及帖子中的对话及讨论内容进行逐一抽离分析,对每句话和每个词汇都要进行斟酌和理解,并将帖子中的同义词和近义词进行合并以精简需要深入分析的文本文字内容。例如:将"权贵"、"官官相护"、"上面有人"、"苦逼的老百姓"等合并为:身份差距、阶级距离等词汇。

  2.2.3.4 建立自定义词汇表在对文本的词汇进行检索和提取分析之前,还应该立足于原始的文本资料,按照各阶段的热议内容对各自文本中反复出现的词汇从主体感情角度、阶级利益角度及精神境界角度进行递进式的词汇总结,为后面的高频词汇提取工作打下基础以便于发现网民在焦点事件中能够达成共同理解的内容。该自定义词汇表是建立在对三个案例的综合概括基础上的,例如:网民对"房姐"事件中体现出的"金钱物质至上"、"利益至上"及"校长开房"事件中体现的"官员道德沦丧"、"官员色情"等均着力抨击、对此不正之风达成了共同的认识和理解,因为从网民主体角度来说这均冲击了人们对本应公平的社会地位及阶级从属的理解,因而从阶级利益角度对此进行议论并达成共同理解。

  通过对三个案例分阶段原始文本的文字分析和抽离,可以自定义出如下 24个词汇;从主体情感角度来说有:社会风气不正、教育扭曲、互助恐惧、民族情结、个人经验对比、无力感表达;从阶级利益角度来说有:仇官仇富、阶层归属、官场风气、群体划分、身份差距、身份质疑、真相讨论、行为探讨、主体问责、潜在损失感知、参与意义感知、利益归属感知;从精神境界角度来说有:道德感知、常人伦理、法律公平公正、战胜邪恶、良知道义、追求正义。

  2.2.4 文本结构化编码。

  文本内容的结构化编码就是在文本内容预处理的基础之上结合文本原始内容和抽离出的自定义词汇进行层级的编码,以便于从整体角度对案例的内容进行综合概括,为分析类目的最终建立打下基础。

  本文的目的是对网络共识进行最终分析类目的确立,即基于文本分析对案例进行数据处理后,得出网络共识的表现形式(类目种类)和达成机制(类目达成)。而在类目的确立之前首先要做的就是结构化编码,该工作仍然建立在文本分析的基础之上,但此文本是经过了内容预处理后的"核心文本",通过对核心文本的结构化编码后,可以清晰的看出层级划分,便于建立分析类目。

  该结构化编码的呈现是笔者结合本文案例内容及通过文本内容建立的自定义词汇表总结编码的,其目的是清晰展现网民在此三个事件中的情感倾向和形成共鸣的内容。

  2.2.5 文本分析类目建立。

  建立分析类目就是对初步总结出的文本词汇进行整理和归纳,进而结合现有理论实现社会学理论层面上的升华和建构。在对网络共识进行研究的过程中,笔者从网络集体行动入手,将网络共识作为集体行动的前提和基础;同时引入经过完整且引发网民集体行动的焦点案例,通过文本分析法对案例的帖子及回复内容进行深入而细致的分析进而试图得出网络共识的表现形式和达成路径。

  在对网络共识进行概念界定的过程中,笔者通过对其他学者的研究和总结后发现学者们对网络共识的研究缺少了从主体角度入手的内容,然而在网络事件出现后频繁参与互动和引发集体行动的均是作为主体的网民群体,他们是具有独立个体和意识形态的,因此决定了每个事件的起承转合,由此,在文本分析类目过程中,笔者仍然从个体人格理论的角度对总结出的文本词汇进行归类和升华。

  分析类目的选取方式一般有两种:一是采用现有的类目体系,这是最常用且最可靠的一种方法;而是由研究者根据实际环节自行构造,这种方法更具有针对性、分析效果强且能够得到相应的结论[49]

  .在本文中,笔者结合经典的人格意识理论和案例文本的结构化编码进行分析类目的建构。当下经典的主体意识层级划分研究中主要分为两大方面:从心理层面对主体意识进行划分和从社会层面对主体意识进行划分。心理层面上的经典理论有:汉斯·艾森克的人格层级理论模型、弗洛伊德的主体结构模型理论和马斯洛的人格需求层次理论;社会层面上的经典理论有:康德的主体意识层次理论、叔本华的非理性主体意识理论。

  本文主要借鉴康德的主体意识层级理论将结构化编码的第一级编码进行理论提升,从"感性"、"知性"和"理性"三个方面对网民在网络共识达成过程中主体实现的一致性进行归纳和概括:第一编码中的"意识情感角度"将其概括为"人格意识",即康德所说的"感性",指的是人们对真善美等基础价值情感的追求是一致性的;第一级编码中的"阶级利益角度"将其概括为"自我实现",即康德所说的"知性",即人们对社会地位、阶级属性的认识是一致性的;第一级编码中的"精神境界角度"将其概括为"精神需求",即康德所说的"理性",即人们的最终追求都是实现伦理道义上的升华和实现。

  因此,本文在康德人格意识理论基础上对案例和结构化编码内容进行了三个方面的分析类目建构,即:主体意识、自我实现和精神需求。这三个方面均是从网民主体人格出发,将人格融入具体的网络焦点事件中总结出的网民实现共鸣的内容。

  2.2.6 文本高频词汇统计。

  在经过样本选取、文本内容预处理、结构化编码和分析类目建立后就要在总结出的分析类目之下对文本的高频词汇进行统一的归类和整合。本文中对于高频词汇的统计是建立在三个分析类目之下的,并按照每个案例的不同阶段来提取出前 5~10 个高频率词汇,以此通过最微观的具体词汇来印证网民在网络焦点事件中的态度情绪和意见想法,并能够从具体表现上与分析类目形成融合。

  本文按照(高频词汇 X,词频数 Y)的模式对案例的高频词汇进行分阶段的整理,以便更加具体的看出网民在网络话语沟通中展现出的对事件的态度和走向。

  2.2.7 文本倾向性及信度分析。

  文本倾向性分析指的是通过对文本内容的深入分析和对照高频词汇统计后对网民在不同焦点事件中的情感倾向性进行的考察和分析,例如:在"北京大妈被撞"事件的三个过程中,网民针对不同阶段的情感倾向是什么、支持或反对哪些人,主流的思想情绪是什么。其他两焦点事件的倾向性分析亦是如此,通过这种分析能够清晰的看出网民达成的共识形式和具体表现(第三章将展开此内容)。

  为了体现研究的准确性和严谨性,笔者在本文分析中还加入了信度分析,其指的是比较不同主体对相同样本的研究结果。在众多的信度检验中,具有普遍适用性的是霍尔提斯公式,通过从 210 个帖子中抽取 52 个帖子让同行两个研究员进行高频词汇比较后,利用公式:相互同意度=2M/(N1+N2)(M 为赞成的帖子数,N 为帖子单位数)及信度=n×平均相互同意度/1+[(n-1)×平均相互同意度]计算出信度≈1.因此,由信度约为 1 可看出不同研究员之间对于帖子的类目、词频等的分析结果近乎相同,所以该文本分析内容具有有效应。

  2.3 本章小结。

  本章在评析了学者关于网络集体行动和网络共识的研究后首先对网络集体行动与网络共识的内涵研究进行了综合归纳并概括出了适用于本文的概念,在此基础上对网络集体行动和网络共识的区别和联系进行了辨析。在对概念进行明辨后,本章主要呈现了基于网络文本分析法的案例数据处理,并严格按照文本分析法的步骤对选取出的三个焦点事件案例内容进行了由粗变精的细致处理进而实现了对网民集体产生的共同态度和情感倾向的描述,为下文具体展开网络共识的表现内容打下了基础。

返回本篇论文导航
相关内容推荐
相关标签:
返回:社会心理学论文