应用语言学论文

您当前的位置:学术堂 > 语言学论文 > 应用语言学论文 >

语言监测研究相关理论基础

来源:学术堂 作者:周老师
发布于:2016-03-23 共7548字

本篇论文目录导航:

  【题目】年度新词语使用中的时空分布差异研究
  【第一章  第二章】语言监测研究相关理论基础
  【3.1】北上广三地的新词语词种分布考察
  【3.2  3.3】京广两地的新词语词种分布考察
  【4.1】媒体传播差异的统计分析
  【4.2  4.3】新词语历时传播与生命力
  【第五章】年度新词语使用的时空分布统计分析
  【第六章】年度新词语产生方式的统计分析
  【总结/参考文献】年度新词语时空分布的语言监测总结与参考文献

  第一章、绪 论

  近年来,大量新事物、新现象、新事件不断涌现,并借助网络、媒体等平台得以迅速、广泛地传播,新词语获得了空前的发展。据新华网的数据显示,截至2012 年 6 月底,我国网民数量已达 5.38 亿,互联网普及率已经达到 39.9%,而这一数据仍在逐年上升,呈快速增长的趋势。网络和媒体的快速发展,尤其是社交网络等网络平台的发展,一方面,使网民个人摇身一变,成为传播中的“自媒体”;另一方面,为了使社会中出现的各种新事物、新现象、新事件得以最大限度地快速传播和记忆,将词作为信息传播载体的“词媒体”便应运而生。正是在这样的时代背景下,新词语不仅作为一种语言现象受到语言学界的广泛关注,同时也备受社会学、计算语言学等学科的广泛关注。

  1.1、选题背景及意义

  1.1.1、选题背景

  年度新词语作为一个工作定义,不同于一般意义上的新词语。侯敏(2010)指出,“年度新词语指的是在某一年中产生并在该年度语言词汇系统中占据一定空间的词语(意义)。我们把对新词语的这种认识作为一个工作定义,用它来指导编年本对新词语的收录工作。”由于年度新词语是语言系统与社会共变的结果,并受到社会诸多因素的影响,因此,在不同时间、不同地域的发展是不平衡的。

  从总体上看,年度新词语具有使用频次低、流通时间短、更新变化快、时空分布不均匀等局限和特点。从整个语言生态来看,语言总是随着社会、经济、历史、地理、人文、环境等因素的发展而发展的。各种因素作用于语言的各个系统,其中词汇系统是最敏感,也是最为活跃的。语言与社会共变过程中,词汇系统也在不断的发展变化,词汇系统的发展总是处于一种动态与稳态相结合的实际存在状态。一方面,这是语言系统生态平衡的一种自我调节,也是保证语言系统发展处于健康状态的一种内部调节机制;另一方面,词汇系统的动态与稳态之间的平衡表现在两个方面,即新词语的产生和旧词语的消亡。在一个特定的时段内,词汇系统总是处于一种相对稳定的状态。历时地看,词汇系统在各个较小的时点上的发展变化是不平衡的,而这种不平衡是词汇系统动态发展的结果,是绝对的。由于时间因素和空间因素的各种差异,词汇系统的动态监测与研究显得尤为重要。

  近年来,年度新词语主要是通过大规模的动态流通语料库,利用语言信息处理的方法,采用“机器+人工”的方法研制而成,这是一种有效的语言监测研究。

  通常,年度新词语指的是在某一年度内出现的新词形、新意义和新用法。这就难免使年度新词语的研制造成一定的局限性,比如年度新词语收录的时间跨度较小,流通时间较短,尤其是一些在该年度较晚时间出现的新词语也被收录进来等,对新的语言现象缺乏足够的动态和稳态观察。另一方面,年度新词语随着社会的发展不断涌现,其数量之大,传播之迅速,令人难以估计。这些年度新词语在该年度通常占据着重要的地位,并及时记录和反映着社会的发展变化,成为观测社会发展变化的“晴雨表”,同时,也是语言学研究的重要部分。

  媒体的快速传播,客观上加快了年度新词语的新陈代谢能力,使得大量年度新词语仅仅在某一特定的时期得以昙花一现,大部分年度新词语尚未进入人们的语言生活便悄然消亡了。这些新词语难以进一步被社会约定俗成,成为词汇系统中的一员。然而,面对如此规模的年度新词语现象,语言监测研究不仅有效地避免了年度新词语研究中的种种局限,而且为语言学研究提供了更全面、更科学的数据支持,同时,这也是年度新词语研究的新方向和新要求。

  1.1.2、研究意义

  语言监测研究是新世纪以来的一个崭新的课题。语言监测研究,主要指的是借助现代化信息处理手段,对社会语言状况进行动态定量分析和统计,对语言生活中出现的新变化、新现象进行及时提取、分析和研究,并定期向社会发布。因此,及时对年度新词语进行跟踪与监测,为年度新词语研制、词典编撰研究、语言教学研究等提供详实、可靠的数据基础具有极为重要的学术意义。

  与此同时,全面获取年度新词语的时空信息,从时间与空间相结合的角度研究年度新词语,不仅为语言学研究开拓了一种全新的视角,而且从根本上改变了传统语言研究的时空观念。年度新词语的监测研究,是在共时与历时相结合的时空观下,将语言发展变化的各个实态逐一记录下来,获得语言动态发展变化的轨迹,并将各种时空因素赋予语言发展中的各个实态。因此,跟踪与监测并及时搜获、记录年度新词语发展变化的轨迹,为开拓和丰富语言学理论提供了诸多可能。本文通过动态流通语料库对年度新词语进行全面跟踪与监测,探讨年度新词语共时和历时发展变化中的时空差异,主要意义在于:

  首先,有利于词汇史的研究,为词汇史研究提供第一手资料,为语言学本体研究提供详实、可靠的数据基础和语料来源,进一步丰富语言学理论。

  其次,为年度新词语的研制及其语言规范等提供了全新的数据基础和应用参考。同时,为年度新词语的搜获工作提供更加有效的方法,如建立核心的构词语素词表等。

  最后,一定程度上开启了语言监测理论下的语言学研究新方法,进一步丰富语言监测研究的理论、方法和视角。

  1.2、研究内容、方法和目标

  1.2.1、研究内容

  年度新词语的发展是不平衡的,具有一定的时空差异。本文中的时空差异,主要是指年度新词语使用、传播在时间和空间上表现出来的差异。本文把时间因素和空间因素结合起来,既有共时的描写,也有历时的跟踪。其中时间因素主要分为月份和年度两个维度,空间因素主要包括地域空间、媒体空间,实际上,时间和空间是互为依存,不可分割的一个统一体。

  本文选取了北京、上海、广州三地的主流报纸的年度语料,分别跟踪和考察了 2006-2010 年的年度新词语在北上广三地的使用情况,试图探讨年度新词语在使用和传播过程中的时空差异,通过跟踪年度新词语发展的时空轨迹,进一步探讨年度新词语发展的语言学规律。

  1.2.2、研究方法和目标

  本文采用的研究方法主要有定量和定性分析相结合的方法、对比统计分析法、描写分析法等,拟达到以下的研究目标:

  第一,从共时和历时的角度分析年度新词语发展的时空差异因素,探讨社会语用条件对年度新词语发展的作用和影响。

  第二,为年度新词语的研制与研究提供数据基础,进一步完善年度新词语的研制方法。

  第三,探讨年度新词语与网络媒体传播的相互关系。

  1.3、语料来源及数据获取

  1.3.1、语料来源

  本文选取了北上广三地主要报纸的年度历时语料作为语料来源,其中北京地区有《北京日报》《北京晚报》和《北京青年报》(2006-2011)六年的语料;上海地区有《新民晚报》(2009-2010)两年的语料;广州地区有《广州日报》《南方周末》和《羊城晚报》(2006-2011)六年的历时语料。所有语料的文本总数2,125,903 个,共 3,124,542,660 字节。

  根据不同的研究内容,本文的语料分为两个部分:第一部分是北上广三地晚报语料,包括 2009-2010 年《北京晚报》《新民晚报》和《羊城晚报》的共时和历时语料,总文本数 415,802 个,共计 589,158,577 字节。第二部分语料是京广两地大规模语料。其中,北京地区的语料有 2006-2011 年《北京日报》《北京晚报》和《北京青年报》的共时和历时语料,总文本数 933,427 个,共 1,331,985,774字节;广州地区的语料有 2006-2011 年《广州日报》《南方周末》和《羊城晚报》

  的共时和历时语料,总文本数 1,191,476 个 ,共计 1,792,556,886 字节。

  1.3.2、数据获取

  本文利用动态流通语料库,通过已有的年度新词语词表(2006-2010 年)分别对北上广三地的年度新词语的使用情况进行穷尽式的提取,试图通过对大规模真实语料的跟踪、记录,还原年度新词语使用和传播中的实态,对年度新词语进行数据观察与实证研究。具体步骤与方法如下:

  第一阶段,利用年度新词语词表通过 perl 程序分别穷尽式地提取各年度、各地区的年度新词语的例句,建立了年度新词语的例句库,获得各地区年度新词语备选词表。

  第二阶段,在各地区年度新词语备选词表的基础上,通过计算和筛减,获得各地区的年度共用词表,然后进一步计算出各地区的独用词表。最后,通过人工核查,获得各地年度共用词表和独用词表。

  第三阶段,利用获得的年度共用词表和独用词表,通过 perl 程序提取年度新词语在例句库中的频次等。

  第四阶段,按地区和报纸分别提取各地独用词表的月份数据,获得各年度新词语分布和使用的历时数据,以月份作为该年度的更小时间单位,获得该年度新词语的动态使用情况。

  第五阶段,以年度作为一个更大的时间单位,分别对各地共用词表和独用词表进行“倒阶梯式”的历时跟踪考察,获得各地区年度新词语近几年来的历时使用情况。具体流程如图 1.1 所示:

图 1.1 数据获取流程图
图 1.1 数据获取流程图

  第二章、相关理论基础

  2.1、相对时间观理论

  语言学中共时和历时的时间观是索绪尔的一大贡献。他认为,“有关语言学的静态方面的一切都是共时的,有关演化的一切都是历时的。”并在此时间观的基础上提出共时语言学和历时语言学。但是,他却把共时和历时的观点对立起来,认为“共时观点和历时观点——对立是绝对的,不容许有任何妥协”,这种对立起来的观点似乎要在共时和历时之间划分明确的界限,实际上是不科学的。

  张普和石定果教授在《论历时中包含有共时与共时中包含有历时》(2003)一文中从语言研究的时间观角度对索绪尔的时间观做出了评价,他们认为历时中包含有共时,共时中包含有历时,历时和共时是一对对立统一的概念。共时状态强调的是时点,历时状态强调的是时段。任何一个时点相对于更大的时间段来说,强调的都是一个较短的共时的点;但是相对于颗粒度更小的时间点来看,这个共时点又可以视为一个较长的时段。他们用牛顿时间和柏格森时间对索绪尔的时间观进行剖析,将语言看做是类似有生命的东西,认为语言属于进化论和生物学的时间,即柏格森时间。

  他们在此基础上提出“历时中包含有共时和共时中包含有历时”的时间观,这是记录语言动态发展的科学的时间观,语言监测正是在动态和稳态中跟踪和监测语言的变化发展,因此,“历时中包含有共时和共时中包含有历时”的时间观是语言监测研究的重要理论基础。

  本文采用月份和年度两个不同颗粒度的相对时点,对年度新词语的动态发展变化进行跟踪考察,并试图从动态发展的轨迹中探讨年度新词语的语言学和社会学的规律。在空间上,本文选取了地域空间和媒体空间作为基本的空间单位地域空间,即不同地域空间,是一种地理上的区分;媒体空间指的是以媒体作为一个理想而独立的空间单位,不作地理上的严格区分。在同一颗粒度的时间下,不同的空间被时间紧密地联系起来,而不同的空间又是由时间建构起来的。因此,时间和空间是相互建构,相互依存的一对矛盾关系。

  年度新词语的在不同地域、不同媒体的发展变化,实际上是由时间和空间共同决定的。因此,时间和空间应当作为语言监测研究的两个不可或缺的因素,记录、跟踪与监测某一语言现象的发展变化实际上就是把时间的因素和空间的因素结合起来,还原语言现象在各个时点或时段上的实态,从而形成语言发展变化的全貌。这不仅对语言监测研究有着重要的意义,而且是语言学理论创新的一个重要方向,具有重要的学术价值和方法论的意义。

  2.2、动态知识更新与动态流通语料库理论

  张普(1999)在《关于大规模真实文本语料库的几点理论思考》中对我国语料库建设进行回顾,并进一步提出以大规模真实文本为基础的语料库及其语言研究和知识自动获取受到高度重视,并且越来越走向深入和实用,同时提出了关于使用度、通用度、流通度和历时流通度等概念和考量的方法。他认为所谓“历时流通度”是要测查语言知识在一个具体的时间段中流通度的变化,绘制各种语言现象的流通度曲线,这个流通度曲线就是决定一种语言现象是否开始“广为传播”,是否“被接受”的依据,是“被认可”或者被作为垃圾清除的分水岭。因此,这对于建立动态流通的语料库,继而为语言监测下的新词语研究提供了强有力的理论支持和可能。

  此后,相继发表了《关于语感和流通度的思考》(1999)、《关于网络时代语言规划的思考》(1999)、《信息处理用语言知识动态更新的总体思考》(2000)、《关于控制论与动态语言知识更新的思考》(2001)、《关于控制论与动态语言知识更新的思考(续)》(2002)和《论历时中包含有共时与共时中包含有历时》(2003)等一系列的探讨性论文,动态语言知识更新理论在不断的探索中逐渐形成。

  张普教授在《中文信息处理专题研究——主持人的话》(2000)中首次对动态语言知识更新作了详细阐述:“语言知识动态更新”是语言信息处理领域的一个新的命题。一种语言,只要仍在为人类的交际服务,就是“活”的语言,就随时在进行“新陈代谢”。随着社会经济、科学技术的加速发展,语言的变化也越来越快,特别是新词、新义、新术语的增长更是我们难以估计的。那些现已死亡的语言,也曾经一度活跃过。只要活着,更新就不可避免,更新是事物的生命力所在,只有更新,才能永恒。

  所谓动态更新是与静态更新相对而言的。语言静态更新是在较长的间隔时段后不定期地更新语言知识及其规范,动态更新是指随着社会语言交际的变化,在较短的时间里定期地或者即期地更新语言知识及其规范。语言知识及其规范不更新是不可能的,而静态更新已经越来越难以适应信息社会的需求,所以要研究动态更新。

  2001 年,在流通度和动态语言知识更新理论下,由张普教授主持的北京语言大学应用语言研究所开发出了动态流通语料库(Dynamic Circulation Corpus,简称 DCC)博士研究室。该语料库是基于大规模真实文本并即时动态更新的语料库。主要以监测、描述语言现象,发现、提取并动态更新语言知识为目的,是检验流通度理论和动态语言知识更新理论的实验和研究平台。

  本文的研究正是建立在动态流通语料库资源与动态知识更新理论的基础之上的,而年度新词语正是语言发展变化的结果,是语言知识更新的结果,是在现有的词汇系统和语言生态中逐步产生和发展起来的。随着社会经济、科学技术的快速发展,年度新词语不断涌现,在信息化的时代呈现出了爆发式的特点,因此,利用语言信息处理的方法为语言学研究带来了更多新的尝试,同时,基于动态流通语料库的年度新词语监测研究对维护语言生态平衡,实现对语言生态的健康稳定发展,进一步对国家语言政策的研究和制定具有重要的现实意义。

  2.3、语言的动态、稳态与实态理论

  从共时与历时相对时间观的角度看,语言的发展总是历时进行的,语言中的各要素、各系统之间总是处在历时地变化之中。语言之所以具有系统性,是从共时的角度得出的,这对于研究和监测语言是有益的。另一方面,语言中的历时变化是就语言发展状态而言的。任何时候,语言都是处于相对稳定的状态中。语言应用的两种状态是“动态”和“稳态”。

  张普(2008)指出,动态不仅是语言的恒态,也是语言的生态。语言不是静止的,语言在运用中不断地产生变化,语言的生命力就在于这种稳定中的变化。

  语言的社会应用,是在稳态的基础上,不断动态更新;在动态更新的基础上,又不断形成新的稳态,如此循环往复螺旋上升。这不仅是语言发展的健康状态,也是语言学和应用语言学的科学发展观。他还指出,国家语言资源的监测是国家面向信息社会和知识社会的重大战略性基础研究,国家通用语言文字的语言生态的生存与发展,与国家在未来社会的生存及发展命运攸关。一个国家的语言生态,甚至联系着国家的政治生态、经济生态、文化生态、社会生态等,对国家语言生态的监测与研究,有胜于无、早胜于迟。

  张普(2008)还说,语言的稳态是语言的常态,也是语言的健康态。只要一种语言的稳态部分在应用中处于绝对优势,或者说在应用中覆盖率达到95%以上,这种语言也就处于健康状态,我们就大可不必为我们的语言的纯洁和健康发展着急上火。正是在这个意义上,我们说对于语言的稳态的考察与监测“可能是更重要的一种监测”。

  “稳态”与“动态”二者的关系表现在稳态与动态是互为相对的两种状态。稳态是语言的常态和健康态,动态是与语言的恒态和生态。动态和稳态构成了语言存在的生命状态。所谓实态,即真实状态。语言使用实态,指在一定时段内语言文字使用的真实状态。包括各种语言文字(如法定官方语言文字,少数民族语言文字,各种方言,盲文、聋哑语,外语等)使用的人数、媒体、领域、地区、场合等基本情况及其变化,以及各种语言文字之间的关系,使用中出现的问题,语言政策法规和语言文字规范化、标准化工作的进展情况等。(王铁琨,2008)从语言监测研究的角度看,语言的实态监测实际上是利用现代信息处理技术手段实时地对语言现状进行跟踪,客观地记录语言活动中的第一手材料,并及时地向社会公布语言的实态。

  由此可见,动态与稳态是语言存在的一种实态,由于受到各种因素的影响,语言的实态随着社会的发展变化而不断推陈出新,语言系统自身总是处于动态与稳态相统一的一种状态。过去的语言学研究,大多是凭借个人或集体的经验,缺乏对语言现象的定量统计分析,或者是定量统计做得还不够。语言研究大多基于一种模糊的时空观理论,使得语言发展变化的时间因素和空间因素被模糊化,甚至是采取“有意规避”的态度,这无疑是语言研究的不足之处。语言监测时代的语言学研究,从技术上冲破了这层古老的壁垒,使语言学研究如虎添翼,并在研究视野和方法论等方面取得了较大的突破,特别是基于动态流通语料库的语言监测研究,不仅为语言研究提供了丰富、详实的统计数据,而且在一定程度上摆脱了传统的语言时空观理论的局限,对推动现有的语言学理论创新具有重要的启示作用。

  2.4、潜显理论

  王希杰(1995)提出:“我们可以把语言的世界分为显性的世界和潜在的世界两个。所谓显性语言就是到目前为止人们在使用的并且得到社会公认的那个部分,是我们大家都习惯了的东西。所谓潜在的语言世界指的是,按照语言的结构规则和组合规则所构造和组合起来的一切可能的语言形式的总和。”王希杰还通过大量的语言实例的分析论证,说明了显性与潜性的确存在语言的一切层面。

  从词汇系统的角度来看,他把某一种语言的词汇看作是暴露在水面上的冰山一角,是显词,而在水下的那深不可测的一部分就是潜词。在一定的社会文化心理等语用条件下,潜词可以显词化,成为新的语言要素。他认为,大量潜词之所以没有进入实际的交际领域,就是由于缺少必要的社会语用条件,一旦社会语用条件具备了,那么潜词就可以成为显词。实际上,年度新词语就是在一定的社会语用条件下,按照一定的语言规则构造和组合起来的新的语言形式,是一种潜词显词化的过程。因此,潜显理论对年度新词语产生方式的研究具有重要的学术意义。

返回本篇论文导航
相关内容推荐
相关标签:
返回:应用语言学论文