法语论文

您当前的位置:学术堂 > 语言学论文 > 法语论文 >

法语语料库建设情况的综述

来源:学术堂 作者:韩老师
发布于:2014-05-23 共4709字
论文摘要

  随着计算机软硬件技术的发展以及人们对于实际语料价值的重新认识,20 世纪 60年代以来,基于语料库的语言学研究取得了长足进步,涌现出大量优秀成果。各类语料库也应运而生,为语言学研究提供了丰富、翔实的语言素材。

  1. 语料库及语料库语言学:

  根据《新编小罗贝尔法法词典》①的定义,“语料库”(Corpus)在语言学上意为“针对某一语言现象研究而汇集的有限的话语集合②”.因此,语料库是一个用于语言分析和口、笔语语言描写的物质基础。由于计算机技术的迅猛发展,语料库建设项目大大增加,目前“语料库”一词指“一个按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集③.”

  而“语料库语言学”,虽然对其研究已经历了不短的历史,但还没有一个公认的定义。我们先引述西方几位语言学家对它的定义④:

  1) 根据篇章材料对语言的研究成为语料库语言学 (K. Ailmer & B. Altenberg,1991:1)。

  2) 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学(T. McEnery& A. Wilson, 1996:1)。

  3) 以语料为语言描述的起点或以语料为验证有关语言的假说的方法称为语料库语言学(D. Crystal, 1991: 86)。

  2. 语料库语言学在法国的发展史:
  
  按照上述语料库定义,我们可以认为法国第一个引入大量文学作品引文作为例证的词典是皮埃尔·里什莱(Pierre Richelet)于 1680 年编着的《词语及现实事物词典》(leDictionnaire des mots et des choses),这部着作可以看做是法国人对“语料库”进行的最早的应用。20 世纪 70 年代之前,语言学家们主要在以下四个方面使用语料库作为研究手段:语法研究、词典编纂、方言研究及现代语言教学(Didactique des langues vivantes)。而在法语语言学发展方面,比利时语法学家格雷维斯(Grevisse)编着的具有里程碑意义的《法语正确用法》(Bon Usage)、丹麦语言学家托叶比(Togeby)为丹麦学生学习法语而编着的《法语语法》(Grammaire fran?aise),以及为促进法语海外传播、由法国语言学家乔治·古根海姆(Georges Gougenheim)主持完成的“基础法语”(le Fran?ais fondamental)项目及《法语基础词典》(le Dictionnaire fondamental de la langue fran?aise)都借助了语料库的研究方法。

  然而,在很长一段时间里,由于法国语言学界对于纯粹的语言日常用法描写方法的怀疑,法国语言学家们对语料库及语料库语言学的研究兴趣相对较弱,在外语教学方面借助语料库进行的研究较为缺乏,对语料库对外语学习贡献的评估性研究就更少。无论是课程大纲还是教学设备,都很少引入语料库和语料库语言学的方法。语料库语言学研究的薄弱直接导致在法国外语课堂上,学生极少有机会接触到语料库。究其原因,在法国的语言教学实践中,传统教育文化长时间占据主要地位,教师在这样的传统教学模式中处于中心地位,他们不愿意丧失自己不可替代的地位,失去控制权,失去专家的地位。这种情况使得教师和学生都忽视了语料库在语言教学中的三个方面:教授语料库、利用语料库来教、教会学生利用语料库学习。

  当然,进入 21 世纪以来,语料库语言学在法国语言学界逐渐兴盛起来,越来越多的语言学家认为语料库首先是理论语言学的观察哨,同时也可以通过对语料的观察设计出新的语言模型(MAYAFFRE,2005)。《语料库》(Corpus)杂志主编西尔维·梅雷(SylvieMellet)指出,语料库“在研究者和语言现象之间起到了自觉的媒介作用”(Mellet, 2002 :9)。因此,越来越多的法国大学开设了语料库语言学课程:如巴黎第三大学①、巴黎东方语言文化学院②、南锡第二大学③、洛林大学④、里昂第三大学⑤、里尔第三大学⑥、蒙彼利埃第三大学⑦、卡昂大学⑧、弗朗什-孔泰大学①等的语言科学专业(Sciences du langage)都开设了语料库语言学的本科课程。甚至远程教学也开设了该课,在远程教学校际联合会(Fédération interuniversitaire de l'enseignement à Distance)提供的语言科学本科文凭中,也包括这门课程②.另外,巴黎第七大学③、普瓦捷大学④等还开设了基于语料库研究的语言学或翻译学硕士专业方向。

  在这种形势下,从 2001 年起,由法国南布列塔尼大学(l'Université de Bretagne Sud)、法国应用语言学协会(l'Association fran?aise de la linguistique appliquée)、文学、语言学、文化研究中心(Centre de recherche en littérature , linguistique, civilisations)、共同主办了语料库语言学研讨会(Journées de linguistique de Corpus)。该研讨会通常为两年举办一届,截止到 2009 年,已经成功举办六届,其宗旨在于为推广语料库语言学在法国的发展,为从事语料库语言学研究的研究员、使用语料库进行研究的语言教师、翻译人员、词典编纂人员提供一个经验交流平台。研讨会结束后,组委会会出版名为《文本与语料库》(Texte etCorpus)的论文集,至今已出版 4 辑。这些论文涉及语料库语言学的学科建设和学科地位,以及语料库作为一种研究工具和手段在语言学、文学、语言教学、词典编纂学中的应用。

  在此基础上,法国于 2002 年创办了一本专门杂志《语料库》(Corpus) ,探讨语料库语言学研究的理论、认识论、方法论等方面,内容涉及各个学科领域。它主要促进学者们对语料库在当代语言学实践中的作用进行思考,对各类语料库建设方式及搜索工具进行反思,同时也尝试阐明结合了数据采集与语言学假设的验证过程。该杂志为年刊,出版地点在巴黎,主编为 Sylvie Mellet,并在国际互联网上拥有其网站⑤,其发表的所有文章可以在线查询。

  3. 法国语料库的建设:

  3.1.法语宝典(Trésor de la Langue Fran?aise)和数字化法语宝典(Trésor de la LangueFran?aise informatisé):

  法语宝典(TLF)是 20 世纪 60 年代法国国家科学研究中心(Centre national de larecherche scientifique)召集了一批语言学家和词典编纂专家,由保罗·安布斯(Paul Imbs)主持编纂的一部旨在反映16-20世纪法国语言情况的大型语文词典。法语宝典共计16卷,每卷约 1400 页,收录 9 万词条,第一卷于 1971 年问世,而最后一卷到 1995 年才完工。该词典以质取胜,每个词条都独立成篇,可以视为描述该词的历史和现状、意义和用法、词汇域和词义域的专题论文,整部词典犹如一部按字母顺序排列的词汇论文集。之所以有此成就,除了高水平的编辑,各行各业的专家、权威,国内外着名图书馆、博物馆的通力合作,以及编纂过程中的严格把关之外,还应该归功于编纂理念的革新,因为法语宝典是第一部运用计算机技术编成的大型词典。

  数字化法语宝典(TLFi)是法语宝典的电子版,其中包括 10 万具有详细词源或历史的单词、27万定义、43万例子,共计3.5亿字母。数字化法语宝典的每个词条都包括该词的定义、例句,并且每个词都进行了语义、语法、文体标注,其界面简洁,可提供三个层次的检索:简单查找、辅助查找以及复杂查找,使用者可以利用数字化法语宝典中的各种查询手段:模糊查询、词义选择、在已知学科领域查询单词、可查询单词给出所有例子并使该单词高亮、查询所有相同词尾的单词,甚至可以进行复杂的抽象查询(例如:显示所有与帆船操作有关的航海术语)。数字化法语宝典提供在线查询①,同时也提供纸版及 CD 版供读者购买,售价为 49 欧元(书+CD)②.

  3.2. 法兰西语库(Frantext)③:

  通过对法语宝典的介绍,可以看出,它还仅是应用计算机技术编纂出的大型辞典,算不上真正意义的语料库。而法国最大的语料库是法国语言研究所为编纂法语宝典、便于查询作品原文、摘录例句,于 1992 年开始的一项大型语料库项目。经过数十年苦心经营,设在法国洛林省南锡市的国家语言研究所 (Institut National de la Langue Fran?aise)④逐步建立起三个资料库:文本库(base textuelle)、词语库(banque de mots)和书目库(basebibliographique),统称“法兰西语库”.语库中的文章大部分为文学或哲学作品,但也有大约 10%的科技类文章。每年法兰西语库还会定期更新,截止到 2013 年 6 月,它收录了超过 4000 个文本,涵盖从 1180-2009 年间的文本资源,其中现代作品尤其丰富(1950 年以后的作品有 820 个之多),它分为以下几个数据库:

  1) 完整法兰西语库(Frantext général)(包括所有文本,需订阅):共 4516 个文本。
  2) 分类法兰西语库(Frantext catégorisé()1200 篇进行过语法标注的文本,需订阅):1940 个经节选文本。
  3) 法兰西语库教师版(Frantext agrégation)(教师提出订阅申请后可查询)
  4) 法兰西语库高等教育版(Frantext Normale Sup)(教师提出订阅申请后可查询)
  5) 中世纪法兰西语库(Frantext Moyen Fran?ais)(免费查询):该库收录了中世纪法语(1330-1500 年间)的 218 个文本。

  通过法兰西语库的建立,法语宝典的编辑们可迅速获得有关某个单词的所有资料,通过比较、分析、归纳,对该词作出全面描述。在法语宝典问世之后,法兰西语库又推出了全文数据库光盘(Discotext),并于 1998 年推出线上搜索引擎。

  另外,法国文本与词汇资源中心(Centre National de Ressources textuelles et lexicales)的网站还推出了了一个以法兰西语库的文本库为基础的“法兰西语库语料库”(CorpusFrantext)⑤.该库为学术界提供涵盖 18 世纪至 20 世纪的 500 多部法国文学作品的检索。

  使用者可以通过作者、标题、日期、体裁进行文本检索,信息处理结果为 TEI XML 格式的文本。

  除了法兰西语库这一最具代表性的语料库外,我们还能找到很多其他的语料库,如L 'Est Républicain 新闻语料库(Corpus journalistique de l'Est Républicain)⑥口语语料库(Corpus de la parole)①、法国口语参考语料库(Corpus de référence du fran?ais parlé)②等。

  3.3. 平行语料库中的法语语料库:

  3.3.1 外语口语平行语料库(Corpus PAROLE (PARallèle, Oral, en Langue ?trangère))③:

  外语口语平行语料库是一个根据统一参数为欧盟所有语言创建的语言、词汇数据库,于 1996-1998 年间,采集了(录音、转写、加注)法语、英语、意大利语等外语学习者的口语,分别按照口语表达的时间、内容(书、报纸、期刊、其他)不同进行分类,同时还进行了句法标注。这个由不同语言组成的语料库总共由2千万词构成,但是它又不是严格意义上的平行语料库,因为各种语言不能相互对应,我们只能把它看做是根据相同标准创建的多国语料库。它可以储存于 CD-ROM 中,也可以在线查询。

  3.3.2 罗曼语族口语参考语料库(Corpus oral de référence intégrés pour les langues romanes(C-ORAL-ROM))④罗曼语族口语参考语料库是一个包括 4 中主要的罗曼语(西班牙语、法语、意大利语、葡萄牙语)的多语口语语料库,是由 4 所大学共同开发制作完成的,它们是西班牙马德里大学、法国普罗旺斯大学、意大利佛罗伦萨大学和葡萄牙里斯本大学。该语料库总共 120 万词,相当于每一种语言 30 万词,由三个部分组成:多媒体语料库、口语软件及附录。录音包含非正式会晤、政治辩论、公开演说等情境。

  4. 结语:

  我们经过对语料库语言学在法国的发展现状及法国语料库建设情况的回顾,可以看出法国语言学界存在一个逐渐发展和重视语料库语言学的过程。但是令人忧虑的是,我国法语教学界至今未曾过多涉足语料库语言学领域,笔者在进行本文写作时,对中国期刊全文数据库有关法语语料库的研究进行查询,结果显示仅有 3-4 篇与之相关的文章,分别涉及“法兰西语库”介绍、语言能力评价、语料库建构研究和词典编纂的新词收集方法。我国目前开设的法国语言文学硕士点中,尚未开设语料库语言学课程。鉴于语料库的使用能够为法语研究人员提供更加便捷、强大的分析、查询工具,希望我国的法语工作者紧跟时代发展步伐,更好地利用先进技术,拓宽研究领域,提高研究水平,也希望全国法语专业加快该领域的师资培训,增强法语学术界在语言学领域的话语权。

相关内容推荐
相关标签:
返回:法语论文