作为符号主义的反拨,联结主义(Connectionism)从人的自然生理结构出发,把人脑看成由众多节点相互联结组成的复杂关系网络,认知活动就是通过激发节点间的信息传导,引起节点状态的改变、数量的增减和相互关系的重置,并再次达到稳定平衡的过程。联结主义把关注的重点由规则移到了结构,认为规则并不具体存在于符号序列,而是在信号的激发和传导过程中从多维网络结构中自然浮现出来。
联结主义机制具有以下特征。
1.节点。节点是对人脑神经细胞的模拟,是构成网络的基本单元。人体中大约有1000亿个神经细胞,每个细胞通过树突和轴突分别与上千个其他神经细胞相连,构成一个庞大复杂的网络。网络的每个节点都是一个基本的信息存储器和处理器,它从其他节点获取信息,进行加工、存储并继续传输。每个节点都处在一定的状态中,或者休眠,或者激活,或者某个中间活性量。当节点获取的信息量超过一定阈值,或者一定时间没有信息输入时,就会引起节点状态的改变。节点可以增殖、湮灭或合并。语言系统的词或词素,反映的是人脑中的思维概念,它们都可以看作联结主义系统中的节点。
2.关系。关系由节点间的联结状态和联结方式决定。联结方式指具体与哪些节点相联;联结状态指联结的紧密程度,可以用权重来衡量,权重值可以调节,降为零意味着联结断裂,升为一意味着两个节点的合并。符号主义是基于规则的,它依据规则对符号进行串行处理,规则是一切行动的纲领;联结主义是基于关系的,它依据节点间关系的不同状态来选择处理信息的不同方式,同时依靠节点间权重的调节来存储信息。因此,联结主义实质就是一个研究关系和关系变化的范式,它可以很好地解释词或词素之间的多维语义关系。
3.并行。也称分布式处理,是人脑的本质特征之一,它使人类拥有了迅速处理复杂信息的能力,例如在一个嘈杂的环境中听取一段话语,或者瞬间看懂一幅油画的内容,等等。人脑的这种能力来源于它的网络结构,即节点和联结数量的广泛性和平行性,由此一个电脉冲可以经由多条路径和多个节点到达终点,这就是并行的实质。与此相对,计算机基本上是一个串行处理器,虽然它也可以模拟并行处理,但这是依靠把时间切成小片分配给不同的线程来实现的,实质上是一种伪并行。我们理解一个句子,依赖于对词项间多维关系的并行分析,后文将进一步说明。
4.容错性。符号主义的串行处理不能容忍错误的存在,前后步骤环环紧扣使得任何一环发生错误,都会导致不可预计的结果。联结主义网络实行分布式处理,任何一个具体的节点或联结都不是系统功能的唯一承担者,当系统的一部分发生错误或阻断时,可以激活备选节点和路径加以替代,也就是说,网络系统具有冗余性的特征。这种机制在多数情况下可以补全信息,纠正错误,顺利完成认知任务。我们能理解断续的话语、读懂拼错的生词,进行天马行空式的联想和非逻辑性的推理等等,这些认知能力大都建立在脑结构的冗余性特征之上。
5.自学习。联结主义建立起反馈机制对认知活动进行校验和控制。校验的目的是判定信息处理的正确性和认知活动的有效性。当结果发生偏差时,系统会自动调节节点的状态、数量、联结方式,并再次对输出进行反馈、校验和调节。经过多次循环,偏差达到极小,对信息的处理和认知达到最佳,系统状态得到强化和巩固。这就是联结主义网络的学习和记忆模式,它可以很好地模拟我们学习新词和新表达方式的过程,而符号主义模型则不具备自主学习的能力。
6.遗忘。网络需要持续的信息刺激以维持当前的状态,如果得不到适当的信息输入,随着时间的推移,联结会逐渐降低权重乃至断裂,节点会逐渐丧失活性乃至消失,这就是遗忘。遗忘是人脑的重要特征,适度的遗忘并不会严重影响认知活动的顺利进行,反而对保护大脑不受垃圾信息侵扰有重要意义。符号主义范式不能容忍错误,更加不能容忍遗忘,其每一条规则都是确实的,任何一项规则的丢失都有可能中止系统的运行。
7.规则浮现。规则在联结主义模式下具有"浮现特性"(EmergentProperties)。沈家煊(2004)指出,联结主义网络通过单元、激活、抑制、联结等特征能够有效地表征言语行为,而这种表征达到的有效程度使人觉得仿佛其背后有语法规则的支配。规则本身不需要在系统中明确表征,但却通过网络"浮现"而出。这就如同蜜蜂筑巢,主观上并不依据六角形规则,但群体行为的结果是蜂巢的每一个孔格都受到多方向挤压而呈现出六角形状。
联结主义范式的如上特征使其具有了"软处理"的能力,即输入内容没有严格的限制,处理过程没有唯一的路径,输出信息没有必然的结果。这不同于可重复验证的非零即一的符号主义范式,而与人脑的模糊认知和模糊反应有着很多相似之处。软处理不对处理对象做出限定,因此,联结主义范式下的语言观不以有限性为前提,不以语义切分为基础研究方法,而是建立在无限元素、普遍联系的"百科知识网络"之上。
声音是时间上的连续,文字是空间上的连续,它们都可以进行切分。意义则不同,它占据的是认知心理的空间,能否切分或者如何切分,就不是一目了然的事。
词是能够独立运用的最小语言单位,作为意义的载体,词大致对应于概念这个认知单位。词可以切分为词素,但词义并不等于词素义的简单相加,因此这只是形式而非意义的切分。词义也可以切分为义素,但这种切分带有很强的主观性,而且并不能构建一个可以合成任何词义的"义素周期表".词义(义位)切分的困难提示我们,人脑对概念的认知和表达也许并不依赖于概念内部若干要素(语义成分)的组合,而是依赖于概念外部的要素,即概念之间的关系。
以Lakoff与Johnson为代表的认知语言学者明确反对用形式化的方法切分语义,反对语义成分分析法,认为人们对意义的理解并不是简单的成分相加,而是必须建立在个人知识背景及百科知识网络之上。以单词"knee"为例,我们一般不会从分析语义成分开始理解和描述它,相反,我们更容易想到的是腿、灵活性、运动性、关节、支撑等由身体经验构建的语义知识库。对于另一些从未接触过的生词,只要上下文提供足够多的词义之间的关系,我们同样可以很好地理解它,并把它纳入百科知识网络。这种自顶向下、自外而内的语义认知观是对传统的语义成分分析的颠覆,它完全承认了语义无限状态的合理性,所以只把精力放在如何忠实地描述语义体系的结构和语义理解的过程,而放弃了切分提取语义单元的无谓劳动。
显然,认知语言学关于百科知识网络的提法与联结主义的语言结构观是一脉相承的,它的一个主要观点认为句法不是自足的系统,句法分析不能脱离语义,而语义描写必须参照开放的知识系统(Langacker,1987)。Fillmore用"框架("Frame)描述这个开放的知识系统,建立起基于广泛概念关系网络的框架语义学,并于1997年起带领团队着手实现在线词库FrameNet[2].除了FrameNet,美国普林斯顿大学的WordNet[3]、国内董振东的HowNet[4](知网)以及黄增阳的HNC[5]
(概念层次网络)也是以描写广泛语义关系为主旨的词库工程,它们可看作联结主义认知观下语言学研究的基础工程,虽然工作量巨大,且距离实际应用还有差距,却为语言学研究最终摆脱符号主义范式的束缚、摆脱传统词类划分的困境提供了可能的途径。
四、语法是概念多维关系经语言线性化后的补偿机制
概念关系是多维的、普遍联系的。深层语义结构依赖立体空间表达概念关系,立体空间可以容纳庞大的拓扑数据量,因此不需要语法单位的参与就可以胜任复杂关系的表达。前述联结主义的概念网络模型,即是一种多维关系网络,针对每个节点,可以布设任意多个连接来表达与其他节点的多重关系,是深层语义结构的理想模型。
从深层语义结构(概念结构)到表层句法结构,需经历一个重要的线性化过程,也称序列化过程(Serialization),原本立体结构的概念关系转变为线性结构的词项关系。例如:我用洗衣机把床单洗了。它的深层语义结构如图2所示,存在这样一些关系:一是"我"和"洗衣机"的使用被使用关系(句中已虚化为表方式的介词"用");二是"洗衣机"和"床单"的洗涤被洗涤关系;三是"我"和"床单"的处置被处置关系;四是使用、洗涤、处置等行为与参照时间的关系(句中用助词"了"表达);五是其他一些隐含关系,如"我"与"洗衣机""床单"的领属、借用关系、"床单"清洁程度的变化关系,等等。这些关系通过立体网络的多重链接加以表达,由于其关系表达十分充分,不需要额外的标记补充说明,因此深层语义结构只单纯地包含实体概念和概念间的联结。
语义结构由深层向表层转变,无一例外地成为线性结构,这是受到语音物理、生理属性制约的必然结果。语音在物理上表现为随时间变化的物质震动,生理上表现为气流对发音器官的持续冲击,因此语音与时间维度是紧密贴合的。为了满足时间维度的要求,深层语义结构必须将信息转变为适合语音特性的线性结构,这是语言序列化过程的原动力。图2的概念语义结构经过序列化,就成为下面的样子:我-用-洗衣机-把-床单-洗-了。
我们注意到,原本由多维结构承载的复杂关系信息,在序列化过程中被极大地破坏了,一维线性序列中的节点在形式上只能维持与左右相邻单位的极近关系,这与立体网络的关系表达能力不是一个数量级。为了弥补这种缺失,各种语言都通过全民约定俗成的方式,来改善一维序列的关系表达,例如汉语约定为SVO语言,日语约定为SOV语言;汉语定中结构为形容词+名词的类型,泰语定中结构则为名词+形容词的类型。这样,语序这一语法手段就正式出现在语言中,成为对语言线性化过程中损失的关系表达机制的弥补。其他各类语法手段的发生过程及动因也莫不如此。上例表层句子所增加的三个虚词词项"用""把""了"以及不占据时间轴的语序、语调、逻辑重音等,都是汉语中用于弥补关系表达能力的机制。
因此我们说,语法单位的产生有动因可循,它是受一维线性形式制约的多维关系表达机制,是言语序列化过程的必然结果。完善的语法手段可以胜任表达任何复杂的多维关系,但那只是理想状态,真实语言中语法手段的表达能力十分有限:首先是句子长度的限制,一个场景的表达往往需要多个句子协同完成,句子过长易产生词项关系混乱;其次是语法歧义的存在,类似于"Flying plane can be dangerous"这样的歧义句,可以理解为不同的深层语义结构,虽然这可以成为双关修辞的产生机制,丰富了语言表达方式,但现有语法手段难以区分和表达全部可能的多维语义关系,却也是不争的事实。
我们回到词类问题上,与其他语法手段一样,词性标签赋予词项的语法意义也是对线性化过程中损失的多维概念关系的补偿。它可以表达这样一些关系:实体-属性关系 名词-形容词 行为-对象关系动词-名词实体-行为关系 名词-动词 状态-行为关系副词-动词实体-数量关系 名词-数词 性质-实体关系形容词-名词行为-时间关系 动词-助词……上述概念关系只是示例,并不完整。
事实上,一旦对概念关系进行分类,就立即陷入了符号主义认知观的泥沼,因为概念关系本质上是普遍联系的、无限的,分类意味着切分,意味着有限化改写,这显然与联结主义原则相悖。对于概念语义这样的无限集,分类的作用仅限于使研究变得更有条理、更便于理解和记忆,但这是以破坏语义细节为代价的,而对于描述语义系统本身,分类绝不是最好的方法。如果能够用其他手段(如百科知识网络)完整表达概念语义关系,那么词类划分将不再是唯一的选择。