教育元评估的评估标准、模式和方法,教育教学管理论文

　　我国自1985年开展真正意义上的教育评估实践活动以来，在近30年的发展历程中，教育评估在落实督政促学工作，促进教育质量提升，创新教育管理模式上都取得了较大的成效。尤其是近10年来，在各级政府的高度重视下，各地教育评估专业机构不断建立，行业协会不断涌现，从业人员不断壮大，对外交流与合作日益活跃，教育评估事业可谓迎来了发展的春天。但随之也出现了一些问题。比如各种检查、评估过多，许多内容多头检查、重复评估，学校普遍反映负担过重，校长难以静下心来搞好教育教学工作，严重影响了学校正常的教学秩序。可见，加强对评估质量自身的鉴定或评判已提上议事日程。

　　从国外的实践来看，教育元评估不失为解决这一问题的有效途径，同时也是教育评估自身走向专业化发展的必然产物。

　　一、教育元评估的提出及其内涵演变

　　教育元评估属于元意识（meta-awareness）研究范畴。“元”的本意是指“在……之后”（post-）。当它与某一具体的认知活动或研究内容联系在一起时，即“元某某”是关于“某某”的“某某”。譬如，“元分析”，即关于“分析”的“分析”；“元科学”，即关于“科学”的“科学”。在评估界，这种类似的思想源于1940年欧让塔（Orata，P. T.）描述的“评估的评估”（evaluation of evaluation），而“元评估”（Meta-evaluation）这一专业术语则是在1969年由斯克里文（Scriven，M.）首次提出。

　　他在其教育产品报告（Educational Products Report）中指出，评估者通过发布不准确或有偏见的评估报告，将严重误导消费者购买劣质或次级教育产品，这些产品也必然会伤害儿童和青少年，因此，必须对这样的评估行为自身进行评估。

　　而究竟何谓元评估，学术界至今仍存在不同的看法。简单地说，它是指对原评估（primary evaluation）进行系统的再评估。概括起来，学者们的观点主要集中在以下几方面：一是“资料分析”说。以库克（Cook，T. D.）和格鲁德（Gruder，C. L.）为代表，认为元评估是通过对某一特定评估的资料、解释与启示进行再评估，以检验原评估设计与有关政策之间的关联性；通过对基础研究或已有资料的评估，以评判当前有关政策措施的实施效果，以及出台新政策的可能性。二是“过程操作”说。以斯塔弗尔比姆（Stufflebeam，D. L.）和斯科特（Scott，C.）为代表，认为元评估是描述、获取、应用描述性信息和判断性信息的过程，包括评估的实用性、可行性、适切性、准确性，以及评估体系的性质、作用、完整性、诚信度和社会责任等，以指导评估活动，并报告其优势与不足。三是“功能分析”说。以斯克里文和克伦巴赫（Cronbach，L. J.）为代表，认为元评估是指对一项评估系统或评估工具的评估，进而控制评估偏差，提高评估质量。

　　此外，尼尔森和霍格本（Nilsson & Hogben，D.）、施万特和哈尔彭（Schwandt，T. A. &Halpern，E. S.）等人也对元评估的内涵进行了相关的阐述。

　　学者们之所以会对元评估的定义形成不同的认识，只不过是所站的角度不同罢了。正如弘（Hong，H. D）和博登（Boden，M.）对什么是“评估”的看法一样，“人们很难简单地回答什么是‘评估’，而在学者们所提出的诸多定义中，每个定义都有自己的优点及独特的研究方法，因此，我们把握的重点是如何理解这些定义而不是再下一个让人普遍接受的新定义”。

　　当前，我国元评估的研究和实践都还处于起步阶段。因而，在对教育元评估的认识上更应该持这种观点。总的来说，元评估是评估主体对原评估的设计、过程和结论进行全面、系统的再评估，主要是对原评估方案的目标一致性、设计合理性、实施适切性、结论准确性作出一种综合性价值判断，以为修正评估结论、改进评估活动提供决策支持。

　　二、教育元评估的评估标准、模式和方法

　　库克和格鲁德曾指出，任何一个评估要经得起推敲，都必须经过元评估。而要开展一项元评估活动，需有相应的标准作为宏观指导，合适的模式作为中观架构，以及具体的方法进行微观操作。

　　（一）元评估标准

　　元评估标准是规范元评估行为的重要准则，因而许多评估学者及有关机构都非常重视元评估标准的制定，并为此开展了大量的工作。归纳起来，其制定的思路主要集中在两个方面：一是采用因素分解法，即将元评估涉及的主要内容进行维度分解，如古帕（Guba，E. G.）和斯塔弗尔比姆、施万特和哈尔彭、罗杰斯（Rogers，P.）、沃尔森（Worthen，B. S）以及美国教育评估标准联合委员会（Joint Committee on Standards forEducational Evaluation，简称JCSEE）等提出的元评估标准。二是根据元评估活动开展的先后顺序，如美国评估协会（American Evaluation Association，简称AEA）开发的元评估标准。该标准包括规划与协商、结构与设计、数据搜集与准备、资料分析与解释、沟通与公布、结果运用六大流程，并且每个流程都有相应的标准，共计55条。

　　需要指出的是，尽管两种技术路线所制定的元评估标准都有各自的优势和不足，但是比较而言，大多数学者认为第一种更为合理。从元评估标准构成的维度上看，有效性、实用性、可靠性、经济性、时效性、相关性、清晰性、精确性等是评判评估质量优劣的重要指标。

　　在标准的使用上，目前被评估界广泛接受的元评估标准是由JCSEE于1994年开发的《方案评估标准》（The program evaluation standards，1994），并在2011年作了再次修订，它一共包括五个方面：1）效用性标准，包括评估者的公信力，关注利益攸关者，明确的目标，清晰的价值，可用的评估信息，有意义的过程与结果，及时恰当的交流与报告，注重后果与影响；2）可行性标准，包括有效的评估管理策略，切实可行的操作程序，能协调各种利益需要，能高效利用有关资源；3）适切性标准，回应并包容利益攸关者的诉求，在协商的基础上签订评估协议，维护参与者的人权和法律权利及人格尊严，评估活动应公开公正，在有关法律许可范围内公布评估结果，真实反映可能危害评估活动的各种利益冲突，遵守财务管理制度；4）精确性标准，合理的评估结论与决定，有效可靠的评估信息，明确的方案设计和恰当的情景描述，系统的信息采集、核检、确认及存储方法，合适的技术设计与分析，清晰的评估论证，有效的沟通与报告；5）评估问责标准，书面报告应清楚阐明评估的目的、方案、流程、数据和成果，内部元评估需用以上及有关标准检验评估设计、流程运用、信息搜集和评估成果的责任，外部元评估应鼓励运用以上及有关标准开展内部元评估。

　　（二）元评估模式

　　评估模式是人们在长期的评估实践过程中，提炼出来的一种相对稳定、较为系统、利于操作的策略性框架体系。在英语中，它有“evaluation approach”和“evaluationmodel”两种表述。教育元评估模式因划分标准不同会存在差异，这里以决策评估模式和清单式评估模式为例作以说明。

　　1.决策评估模式
　　
　　决策评估模式（decision-making mode）由斯塔弗尔比姆研发，它是被广泛应用于社会科学领域的元评估。主要分为形成性元评估（pro-active meta-evaluation）和总结性元评估（retroactive meta-evaluation）两个步骤，前者用于评估原评估的目的、设计、过程和结果，为原评估工作提供决策；后者属于回溯性评估，用于判断原评估工作绩效（详见表1）。

　　设计一，为确立原评估目的提供决策。通常需要回答以下问题：原评估的对象是谁？应解决什么问题？委托人为什么要开展这样的评估？这样的评估将会产生什么样的效果？这些问题可以通过矩阵的方式进行排序，系统做法是运用德尔菲法（Delphi technique）。

　　设计二，为引导原评估设计提供决策。设计中的抽样、工具、处理方式和数据分析应遵循以下标准：1）技术性标准，包括内部有效性、外部有效性、可靠性和客观性；2）实用性标准，包括相关性、重要性、适用范围、可信性、时效性、广泛性；3）谨慎的成本/效益。

　　设计三，为管控评估过程提供决策。主要是对评估的概念化、社会政治因素、合同/法律落实情况、技术性设计、管理计划、道德/伦理/实用性问题等进行周期性评估。

　　设计四，为提升评估质量和评估结果的运用提供决策。主要包括与评估目标有关的技术性标准、实用性标准和成本/效益标准应该清晰明了；提供有关有效性、可靠性及客观性的材料；获得与质量及影响相关的原评估报告；定期报告元评估工作的质量、影响与成本/效益。

　　设计五，为回溯性评估提供决策。主要考察原评估目的、设计、过程和结果是如何进行的，即针对这些主题提出相应的问题，如谁来引导原评估、委托人的意图是什么、什么样的评估目的在指导原评估、什么样的评估设计实现了原评估目的、原评估者如何实现其设计的、原评估达到了什么样的效果等。

　　2.清单式评估模式
　　
　　清单式评估模式（meta-evaluation checklist，简称MEC）由斯克里文提出，该模式共包括六大标准性要素：

　　一是有效性，主要包括：1）确定需要什么样的元评估。a.元评估究竟应该评估哪些内容，是评估结果、评估过程还是评估影响？b.原评估的功能是什么，是形成性评估、总结性评估还是归因性评估？c.需要什么水平的分析，宏观/微观——整体的或解析的。d.需要什么逻辑类型，排名或间隙排名、分级、分析或赋分。e.需要达到什么程度的细节/精度。f.其他背景因素是什么：评估环境的假设、可能的受众、最大的时间和成本限制等。2）评估结果的真实性。a.逻辑结构完整（包括统计完整，在哪里统计的）；b.充足、可验的科学证据。3）基于可靠性的有效性。4）确定有效性需要综合考虑所有与此相关的要素。

　　二是清晰性，即对委托人/受众/利益攸关者等的解释应该清晰明了，尽量减少解释错误率。

　　三是可信性，即对委托人/受众/利益攸关者等的明显偏见应保持在较低水平。

　　四是适切性，即伦理性、合法性和文化/传统适应性。包括尊重合同义务、隐私、知情，避免社会阶级、性别、年龄、种族、宗教等的不平等。

　　五是成本效用，包括成本可行性评估和比较效益评估。

　　六是普遍性，它不作为评价元评估优劣的规定性指标，只作为评价元评估好坏的加分项目，包括原评估设计的可重复性和稳健性（不易受诸如评估疲劳和接受能力或环境变化的影响，较少的数据错误）等。

　　以上两种模式各有其特点，第一种模式步骤清晰，目的与对象明确，易于操作，属于典型的过程式元评估；第二种模式考查要点明确，背景分析深入，并将普遍性作为加分条件，以提高其可复制性，增加其推广价值。但这并不说明这两种元评估模式就已十分完美，正如戴维森（Davidson，R.）所说的那样，你寄希望于这些模式的有效性，即使它们本质上是有效的，也可能会被循规蹈矩地运用，并因此而漏掉有价值的东西。

　　（三）元评估方法

　　元评估方法主要涉及元评估模式的设计和元评估资料的分析技术。前者属于概念建构层面，后者属于实践操作层面。

　　1.模式设计

　　如何设计元评估模式，是元评估工作的重要内容之一。韩国学者干景福（Keun-bok Kan）和易灿久（Chan-goo Yi）在总结已有元评估模式的基础上，提出了一个用于指导元评估模式设计的框架（详见表2）。该框架也得到了一些学者的支持并运用于实际工作中，如意大利学者就曾在该框架的指导下，设计了本国高等教育内部教学与学生服务质量的元评估模式。

　　2.分析技术
　　
　　元评估在具体方法的选择上多采用定性的分析技术。常用的方法有：内容分析法、类别合成法（Synthesis of categories）、概念模型（conceptual models）、标准检测、德尔菲法等。内容分析法是一种主要以文献为对象的研究方法，即是将非定量的文献材料转化为定量的数据，并依据这些数据对文献内容做出定量分析和关于事实的判断与推论，具有客观性、系统性和定量性的特点。类别合成法作为一种用来拓宽内容分析范围的方法，其过程是根据研究的理论参数或内容属性重组主题轴（thematic axes），即将有关的信息合成在相应的主题轴下，以有助于大量信息或复杂问题的处理。

　　因为这些轴呈现了一个更广泛、更逼真的视图。概念模型是对评估方案中问题域内的事物的描述，并用概念或技术结构来支持方案的执行。概念的描述包括记号、内涵（视图）、外延（视图）等。构建概念模型，需要从场景中提取各种“对系统目标有用”的概念。通常是通过识别主要的领域词汇，或者通过已有的概念目录检查表来查找。

　　标准检测是基于一定的元评估标准清单对原评估方案进行评定。德尔菲法是一种结构化的决策支持技术，它的目的是在信息收集过程中，通过多位专家的独立的反复主观判断，获得相对客观的信息、意见和见解。
　　
　　三、思考与启示

　　从过程来看，元评估处于教育评估工作的末端位置，它对反思评估工作成效、总结评估工作得失具有重要意义。当前，为推进我国教育元评估事业的专业化发展，需要正确认识以下内容的重要性。

　　（一）权威的标准是评判原评估成效的重要依据
　　
　　从某种意义上说，秦始皇的丰功伟绩不在于他修筑了万里长城，而是统一了中国的度量衡。可见，标准化推动了人类历史的发展进程。同样，在教育评估行业，也需要一个获得各方公认的标准来为评估事业的有序发展提供技术保障。否则，评判一个原评估质量的优劣难免会出现众说纷纭的尴尬局面，这也将在一定程度上为评估泛滥制造借口。其最终的结果是导致整个评估行业缺乏专业性，使评估人失去安身立命之本。因此，走在评估事业前列的美国评估者十分重视对该项工作的精力投入，并研发了具有世界影响的元评估标准。如JCSEE开发的《方案评估标准》，它不仅获得了美国教育评估界的广泛认可，一些发展中国家更是以此为蓝本来开展本国的教育元评估工作。

　　当前，我国评估事业正处于起步阶段，为此，更应该重视该项工作的研究，因为“标准”不仅是促进教育评估行业走向专业化发展的重要标志之一，同时也是对社会提出教育评估质疑的有力回应。

　　（二）合理的设计模式是开展元评估的关键步骤

　　元评估模式集理论性与操作性为一体，在评估活动中起着承上启下的桥梁作用。不同的元评估模式存在着不同的执行理念、实施步骤和操作方法。如前面提到的决策评估模式和清单式评估模式，前者以形成性元评估和总结性元评估作为两大目的，其技术路线是根据元评估活动进行过程本身的顺序来设计程序和步骤，即按照描述需要信息，获得需要信息，应用获得信息，具体用到了德尔菲法等方法。后者则是根据元评估基本标准来执行元评估，将元评估的过程性要素分散于各个标准之下，其具体的操作方法也并不是呈一一对应的关系。可见，元评估模式并不是惟一的，而要根据委托人的意愿和元评估本身的特点来设计。这反映了教育元评估既要遵循必要的规范性程序，同时又极具灵活性。可以肯定的是，元评估模式是整个元评估工作的重点环节。也正因如此，干景福和易灿久才在已有评估模式的基础上，设计了一个用来指导具体元评估模式开发的概念性框架。

　　（三）参评人员的素质是元评估质量的决定因素

　　评估具有跨学科研究的特点，涉及的内容多、知识面广，因此对参评人员的综合素质要求较高：既需要有跨学科的知识背景，同时还需具备丰富的实践经验。这从元评估方法的使用上就可以看出：一是要做到定量与定性的有机结合。没有科学的定量方法，评估难以确保准确性；而没有深刻的定性分析，评估又难免是基于数量的简单解释，况且数据本身也难以做到精确。事实上，所有元评估都是局部的，因为元评估者不可能回去检测原评估数据搜集过程及其错误率。二是方法本身专业性较强。主要体现在有的方法对现代科学技术的要求较高，如概念模型需要依托于计算机分析软件；有的方法本身就要求使用者是专家型的，如德尔菲法。三是重视综合的整体性分析。元评估是对原评估的真实价值作出科学的判断，而价值受到主体需要的大小和客体满足主体需要程度的影响，因而很难做到较为标准化。但有一点是可以明确的，在评价中，一种综合的整体性评价是最高水平的评价。