坎贝尔开创的效度框架评估体系评述(2),应用语言学论文

　　譬如，在研究语言流利度时，我们倾向于使用多个测量指标，以减少或避免使用单个测量造成的构念代表性不足问题。单一方法偏差指使用一种操作方法产生的构念效度威胁。上面举的例子中，尽管我们可以使用多个描述、多个姓名和多张照片消除单一操作偏差，但是对性别的操作只使用了一种方法，采用其他方法（如让被试观看不同性别教师的录像）是否能够得到同样的结果仍有疑问。同样，使用多个测量能够更充分地代表被测量的构念，但是如果测量方法相同，比如只使用自陈报告，则也可能会产生构念效度威胁。

　　关于处理敏感的因子结构威胁，Shadish et al.（2002:77）举了一个种族偏见测量的例子。那些没有接受处理的被试组在对其他种族的态度测量中或许做出大致一致的应答，说明种族偏见为单因子结构。

　　那些接受处理的被试组或许由于处理而改变了对测量构念的认识，在态度测量中做出的应答体现种族偏见的多因子性。由测量得到的综合分数在不同组中代表的因子结构是不同的，使构念测量的结果在组间没有了可比性。

　　2.2.4 外部效度威胁Shadish et al。（2002:86-90）列出五个外部效度威胁。这些威胁及其描述如表 4 所示。实验研究中，构念效度未必与因果关系相联系，但是外部效度必须与因果关系相联系。除了最后一个效度威胁之外，表 4 列出的其他四个威胁均反映因果关系与其他因素的交互作用。譬如，如果一个外语教学实验中的处理与外语学习者的外语水平存在交互作用，我们就不能认为同一个实验结果适用于不同水平的外语学习者，因为交互作用意味着处理的效应量和/或效应的方向在不同外语水平组之间是不同的。交互作用的存在限制了处理效应或研究结果的推广。Shadish et al。（2002:86）强调交互作用隐含的概念的重要性，即交互作用概念的本质是寻找因果关系随或不随人和场景等因素的变化而改变的方式。在 Shadish et al。（2002:86-87）看来，外部效度威胁问题能够通过统计意义上的交互作用检验来回答固然好，但是不能用统计检验来回答并不会妨碍研究者寻找外部效度威胁。尽管研究者无法对没有被研究到的人和场景等因素进行交互作用检验，但是他们仍然可以根据专业经验或前期相关研究提出合理的交互作用假设，以此评价研究结果的推广性，设计新的研究。

　　依赖于环境的中介作用威胁指环境的变化（包括场景、被试、处理和结果测量性质的变化）造成的因果解释的变化。譬如，在综合性大学实施的大学英语教学改革项目通过小班化教学提高了学习者的语言水平。这一结论或许不能被推广到理工类大学。即使理工类大学的大学英语教学改革项目也提高了学习者的语言水平，但是这一提高可能是通过增加课时量实现的。

　　3. 应用坎贝尔实验研究效度框架应注意的问题

　　坎贝尔实验研究效度框架的发展源于对理论问题的不断反思，更源于对实证研究经验的不断积累。本节主要讨论在实际研究中面临的各种效度之间的权衡、效度威胁的诊断以及外部效度分类问题。

　　3.1 效度之间的权衡

　　实验研究的中心目的是发现因果关系，因而在进行效度权衡时，内部效度的考虑通常要优先于其他效度。不过，在内部效度不受到严重威胁的情况下，少量地牺牲内部效度以提高其他效度也是可以的。Cook & Campbell（1979:82-85）认为，效度之间的优先性随研究种类而变化。对于理论性研究来说，构念效度几乎和内部效度同样重要，因为构念在理论构建与检验中发挥着至关重要的作用。理论很少确定背景因素（如目标场景或人类总体），因而外部效度通常让位于统计结论效度。按照这种观点，在理论性实验研究中，背景因素通常应是被控制的，而不是被检验的。Cook & Campbel（l1979:83）由此推测，对于理论性研究者来说，各个效度类型的优先顺序可能是内部效度、构念效度（原因构念效度比结果构念效度可能更重要）、统计结论效度和外部效度。对于应用性研究来说，研究者更关心外部效度，即研究的结果是否能够被外推到研究者感兴趣的场景和人群等情形中去，背景因素往往成为研究的重要变量。此外，应用研究者很可能相对较少地关注处理操作中究竟是什么因素影响了结果，更加关注处理操作是否导致期望的结果，因而可能更重视结果构念的效度。Cook & Campbell（ibid.）推测，应用性实验研究效度优先顺序为：内部效度、外部效度、结果构念效度、统计结论效度和原因构念效度。当然，Cook & Campbell（1979）对于效度优先的排序多少带有主观性。落实到具体研究中，研究者还需要结合研究背景、研究的主要目的和研究计划开展的可行性等因素权衡效度优先考虑的得与失。

　　3.2 效度威胁的诊断

　　效度之间的权衡和每种效度的推断都离不开对效度威胁的诊断。坎贝尔效度框架为我们提供了一些常见的效度威胁。研究者在实验研究中要注意三点：

　　第一，效度威胁清单中的每个威胁都有合理性，但是每个威胁作用的频率或对结果变量的影响程度并非相同（Cook & Campbell 1979:41-42）。效度威胁是对实验评估的一般性参考，每个威胁的合理性有多大还要结合具体的实验研究。效度威胁清单的作用是使实验者更加意识到设计中残留的缺憾，以便在相关点上能够注意到对数据的不同解释（Campbell& Stanley 1966:34）。

　　第二，任何研究都不能排除所有的威胁，有威胁并非意味着研究没有价值。研究者需要根据研究实际对效度威胁的严重性进行诊断。只要效度威胁不至于严重到使结论完全不可信，一项研究在科学上就仍然有用。后期研究可以改进设计，排除前期研究面临的威胁，得出更合理的结论（Heppner et al.2008:83）。

　　最后，任何研究都有可能存在效度威胁，但是更重要的是确定某个威胁在具体研究中存在的合理性以及该威胁对结论的意义（Heppner et al. 2008:83）。Heppner et al。（ibid.）举了一个非随机分组的例子。一个自愿组接受处理，一个非自愿组不接受处理。实验发现，自愿组比非自愿组的表现更好。该例子中，我们有理由怀疑处理效应的存在。非随机分配不仅是一个合理的威胁，而且还很有可能解释了自愿组更好的表现，因为自愿组接受处理的积极性高，因此统计结论效度值得怀疑。另一方面，如果同样的研究发现处理没有效应，威胁仍然合理，但是不太可能解释结果，因为即便对于积极性高的自愿组，接受处理也没有比不接受处理产生更好的表现。在此情况下，尽管威胁有合理性，但是结论在某种程度上仍有效度。

　　3.3 外部效度分类

　　坎贝尔实验研究效度框架没有对外部效度进一步分类，只使用总体效度（population validity）这一统称。总体的对象不仅指人，还指场景等。但是，也有不少研究者有区别地对待人和场景等推广对象，将总体狭义地限定为由被试（通常为人）构成的总体。研究者由此采用不同的术语划分外部效度的类型。在实际研究中，这些分类有广泛的应用性，能够使外部效度的评价更加明确。

　　外部效度主要有三类：总体效度、生态效度（ecological validity）和时间效度（temporal validity）。

　　总体效度指研究发现的因果关系向人类（或其他被试）总体（和在子总体之间）推广的程度。生态效度又称生活现实性（mundane realism），指实验场景、处理和测量等与现实生活的相似性。时间效度指研究发现的因果关系在不同时间之间推广的程度。Bracht& Glass（1968）、Gall et al（。2003）和 Kline（2009）将外部效度分为总体效度和生态效度。在他们的分类中，总体效度包括两个层面：向目标总体的推广以及被试个性特征变量和处理的交互作用。总体效度的这两个分类包含在 Cook & Campbel（l1979）和 Shadishet al（。2002）所说的向总体推广和在子总体之间推广的理论之中，只不过后者包括的推广对象不限于人。Fraenkel et al（。2012）也将外部效度分为总体效度和生态效度，但是总体效度仅指向目标总体的推广。Morgan et al（。2006）的分类包括总体效度、生态效度和子群体的检验（testing of subgroups）三类。这里的子群体的检验实际指检验被试个性特征变量和处理的交互作用问题，应属于总体效度的一个子类别。

　　虽然有研究者（Bracht & Glass 1968;Gall et al.2003;Morgan et al. 2006）将时间包括在生态效度中，但是也有研究者（Gould 2002;Marczyk et al. 2005）将时间单列，称之为时间效度。Cook & Campbel（l1979:74）在讨论外部效度威胁时谈到历史和处理的交互作用。不过，时间层面不限于历史意义上的时间，还包括其他时间维度（Gould 2002:342-343）。

　　4. 结语

　　坎贝尔及其同事以效度分类和效度威胁为视角，构建实验研究的系统评估框架。这一评估体系兼收并蓄，结构清晰，应用性强，有助于我们开展更严谨的实验和更全面的研究质量评估，同时又使我们认识到自身和他人研究的局限性，为后期研究提供明确的改进方向。

　　具体到应用语言学研究中，研究者可以结合本学科和本领域的特点在利用坎贝尔评估框架的同时不必拘泥于其细节，并且可以丰富其内容。譬如，如前所述，我们可以将其他学者对外部效度的分类融入到坎贝尔的效度体系中。再如，坎贝尔传统的体系没有突出测量的时间安排的重要性。鉴于不同测量时间对学习者语言习得效果的影响，我们完全可以将时间安排补充到外部效度评估体系中。另外，我们可以根据实验经验增加新的效度威胁。譬如，Perry（2008:100-101）谈到后测效应威胁。他举了一个使用口语面试作为后测的例子。在实验处理（目的是提高学习者的口语能力）之后，面试者在与被试交流时无意中教会了被试以前并不知晓的某个正确的口语形式，被试于是使用刚学会的口语形式回答了测试问题，造成处理有效应的假象。这个例子说明后测效应是内部效度威胁。