您的位置: 首页 > 教师教育与研究 > 正文

上薗联想测评法:一种便于教师应用的道德教育测评工具

时间:2016-12-09  来源:全球教育展望 2016年第5期   作者:高峡 沈晓敏   点击:

上薗联想测评法:一种便于教师应用

的道德教育测评工具

沈晓敏  

(中国教育科学院研究员北京100088  

华东师范大学课程与教学研究所教授上海200062  

教育实践中品德教育测评看似方法和工具多样,但是基本上限于知识层面和操行层面的测评,这种测评结果往往被质疑不能体现学生真实的道德品质和道德发展水平,即便测评结果反映了学生真实道德品质,也未必被认为是由学校道德教育带来的效果。情感态度价值观的测评被实践者回避的原因,主要在于教师们缺乏自己可以在日常应用的有效方法和工具。可以看到他们曾经采用的诸如观察法、访谈法等因为太花时间,以及被认为主观性太强而最终被放弃。为应付上层检查而进行的形式主义测评对教学没有丝毫帮助。开发更易运用且具有可信度的道德教育测评是改进道德教育、验证道德课价值所必须解决的课题。

一、品德教育测评的既有方法及其问题

虽然,中外研究者已经开发了多种测评态度的方法、工具和技术,但是态度的复杂性与内隐性使态度测评不像认知领域的测评那样拥有可广泛应用的成熟方法、工具和技术。有人认为态度是由情感、认知和行为组成的( R. V Wagner1969) ; 有人认为态度是由认知、情感、意向三个因素构成的( 时蓉华,1989) 。实际上态度既有通过行为表露在外的部分,又有隐于内心难以观测的部分。研究者根据自己所认识的态度的特性,探索出了不少态度测评方法。

( ) 态度测评的两类方法

当今世界上测评态度的方法大致可归为外显法和内隐法两种。

外显测量法又称直接测量法,包括观察法、访谈法、态度等级量表、非正规的书面报告( 如工作记录、日记等带有个人体验和感情的书面作品) 等方法。外显测量法基于这样一种假设: 被试能够清楚地认识到并且愿意真实地表明自己的态度。但是,这种假设遭来质疑。为了避免被试有意识地修改、隐藏自己的态度或者是按照社会赞许的方向来回答给出的问题,越来越多的研究者倾向于采用更加隐蔽的测量法即内隐法,来获得被试更加真实的态度。

所谓“内隐”,就是在测量过程中不让被试知晓施测者的真正意图,施测者采用间接的方式获得隐藏于内心深处的态度,因此这种测量法又叫间接测量法,如投射测验、传记分析法、情景测验法和反应式法都属于内隐法。投射测验、传记分析法、情景测验法由于难以量化、主观性强而难以得到广泛应用。

( ) 反应时与内隐联想测验法

反应时法因可以量化而日益得到关注。“反应时法是认知心理学中最常用的范式之一。其基本程序是给被试事先规定好一定的刺激。要求被试在刺激呈现之后既快又准确地作出反应,同时记录从刺激呈现到被试作出反应之间的时间,其间的时间延迟( latency) 即为反应时”。

格林沃尔德( Greenwald) 等人对既有的反应时法加以改进和发展,把实验设计的思想运用于测量之中,于 1998 年提出了一种新的间接测量方法“内隐联想测验”(Implicit Association Test,简称 IAT) 。其测验的具体方法是,采用计算机化的辨别分类任务,以反应时为指标,“通过测量概念词和属性词之间的自动化联系( automatic association) 强度继而实现对内隐态度等测量”。例如,两个概念( 如花和昆虫) 会出现在二选一的任务中,随后,花和昆虫的特征会在接下来的任务中出现( 如积极词对消极词) 。在实验过程中,完成两次联合任务,第一次两个反应键分别代表花/令人愉快,昆虫/令人厌恶; 第二次反之,即两个反应键分别代表了花/令人厌恶,昆虫/令人愉快。调整这些题目的出现顺序以达到平衡,研究者比较各组配对中的时间,当配对刺激联系强的时候,被试的反应会更快,即反应时短。

自本世纪初,内隐联想测验法被介绍到中国后,国内随即出现了运用这一方法研究学生内隐态度、心理品质的研究。如,张林的《青少年自尊结构、发展特点及其影响因素的研究》( 2004) 、汪伟的《 IAT在内隐助人态度上的应用》( 2008) 、罗品超的《论内隐联想测验法在大学生价值认同问题中的适用》( 2009) 。但是,这一方法仅仅限于专业研究者的实验研究,无法在教育实践层面得到广泛运用。因为这种测验法需要拥有相当程度心理学和统计学专业知识的人才能实施和分析,普通教师不仅难以实施这样的操作,而且无法通过短暂的培训来解读测验结果。

在教育实践层面,教师们依然采用着不断遭受质疑的缺乏信度和效度的测评方法,大部分教师只能根据主观经验对学生及教学效果做出评价。这样的评价结果几乎难以发现学生的真实态度及其态度的转变,因此也无法评估教学效果,并根据反馈改进教学。

日本学者上薗恒太郎试图解决这个问题。他在借鉴古往今来的联想理论,以及在分析反应时法的优势和不足的立场上,与信息技术学、统计学专业人员合作开发了联想测评法,该测评法包含一套处理联想数据并将处理结果加以可视化的软件,为解决道德教学的测评难题打开一条通道。笔者将其称为上薗联想测评法。

二、上薗联想测评法的原理与特点

上薗联想测评法通过在一个学习集体内让所有学习者同时对一个或数个提示语进行自由联想、运用特定的联想数据处理软件,展现该集体在联想词数量、种类、以及每个联想词和每一类联想词的比例与联想人数等等信息,由此读取该集体的意识、态度和情意状况。

( ) 测评实施的过程和方法

1获取联想数据  

( 1) 根据教学目标和内容或研究目的和内容,确定让学生进行联想的提示词,制作成测试单。

以冈崎耕老师 2015 年在上海执教的《放屁新娘》一课为例,他在教案中确立了如下教学目的和教学目标:

教学目的: 让学生意识到自己是能够体谅、关心他人的,并以此培养学生的自我肯定感。

教学目标: 让学生理解体谅是指①站在对方立场上考虑; ②接纳对方的全部。

同时,冈崎老师的教学方法注重学生间的互动,采取以小组为单位的协同学习,希望学在与同伴互动的过程中,发现一个能体谅对方的自己。据此,他确定联想测试的提示词是【自己】【体谅】【帮助】【同情心】【新娘】【小组】。

( 2) 将印有提示词的测试纸发给在场的每个学生,经过简要说明后,全体学生根据实施者的口令,依次对每个提示词写下自己联想到的词。上薗将每个词的联想时间设定为 50 秒。所有学生在 50 秒内尽可能多地写下联想词,也允许不作答。

( 3) 所有提示词的联想全部完成后,实施者回收测试卷。

2联想数据的处理  

联想测试的数据处理软件由藤木卓、丝山景大、上薗恒太郎共同开发,作为—79Excel 的插件,安装极其简便。联想数据通过装有该插件的 Excel 进行处理。处理步骤如下:

( 1) 选择要做数据处理的提示词,依次输入每个被试对此提示词写下的联想词。

( 2) 输入完毕后,软件自动形成该提示词的联想地图,并呈现该集体的联想词总数、联想词种类、离散度、联想量总和,以及每个词的词频和人数比。

( 3) 如果要对课的前测和后测进行对比,则软件可以合并前测与后测的数据,生成前后测数据对比表,显示在后测中联想词减少、消失和增加的数量。

( 4) 如果要对联想词进行质性分析,则确定分类标准,对已输入的联想词再进行分类处理,软件自动生成分类联想地图,如图 1 所示,同时显示出各类词的数量、词频和人数比。

( ) 联想地图中常用的变量及其含义

( 1) 人数: 一个学习集体参与联想测试、递交答卷的人数。不管学习者是否写出联想词,除了特殊学生不列入统计之外,即使没有写出联想词的被试者也纳入统计人数,输入数据时,遇到没有写出联想词的,记为“无”。

( 2) 联想词总数: 一个集体内所有成员对于特定提示词所联想到的词的总和。假设,围绕“山”这一提示语,有 10 人提到“高”,8 人提到“黄山”,3 人提到“旅游”,那么联想词总数就是 10 +8 +3=21 个词。

( 3) 联想词种类: 一个学习体内所有成员一共联想的词语种类。按上述( 2) 的假设,该集体的联想词种类是3

( 4) 离散度: 表示全班联想词的聚集程度或分散程度。离散度高的话,说明该班级学生的联想词比较分散,相同的联想词较少,联想地图上显示为中心没有联想词。离散度低的话,说明该班级学生联想到相同的词,联想词种类不分散。离散度的高低本身没有好坏之分,是追求集中还是追求分散要根据教学目标来定。

( 5) 联想量总和: 联想地图中每个联想词面积( 即每个词的联想量) 的总和。联想词的总数和联想词的种类越多,联想量就越大,联想地图的面积也相应变大。

( 6) 人数比: 表示联想到某个词的人数所占比例。例如,被试者 33 人的班级,联想词中共出现11 个“宽容”,也就是说有 11 人联想到这个词,那么人数比为11/33 =033 =33%

但是人数比在表示一类词的联想人数时,含义有所不同。例如: 被试者 32人的班级,关于【教师】的肯定性词语数有 82 个,那么: 肯定性词语的人数比为82 /31 = 2 563 = 256 3% 。其含义可以解释为: 该班级对【教师】的联想词中平均每个学生有 2 5 个词是肯定的。

( ) 上薗联想测评的特色

第一,完全的自由联想。被试仅根据提示词写下联想词,没有其他任何引导其联想方向的暗示或规定。学生在 50 秒内写多少词都可以,甚至可以不写。且所有被试是同时作答,答题纸上不记名,因此被试处于完全放松的气氛中,无需任何心理防备,不用猜测实施者的意图。可以说实施者获取的联想结果是完全真实的。上薗根据多次实验发现给学生 50 秒时间对一个提示词做出联想,学生有足够时间写下自己的感受和思考,可写出有厚度的多个词语。

第二,测验结果以可视化的图形和数值加以呈现,既可做量化分析又可做质性分析。上薗联想测评法包含了这样一个技术: 将一个学习集体的联想结果以联想地图的形式加以可视化,使联想中比较稳定的部分置于联想地图的中心,容易变动的不稳定部分置于周边,即根据联想词的出现频率呈现联想词的分布状况,从而反映出一个学习集体的联想结构。数据处理软件还可以分析联想词的总数、种类、每个联想词的词频和人数比,并根据研究者的需要对联想词进行分类处理,从而对联想词的性质进行质性分析。

第三,仅分析学习集体的联想情况,不做个体分析。个体的联想数据无法反映教育的效果,只有从集体所有成员的联想所表现出的共性特征中发现该集体的意识特征,推断该集体所受到的教育影响。

第四,测验便于实施,测验结果便于更多人解读。测验结果通过专门软件处理后,会以图和表的形式将所有联想词呈现出来。读这些图和表并不需要多少专业知识,无论是研究者还是教师、学生,所有相关人员都可以看到被试者的联想状态并参与讨论。对于学习者来说,不仅看到自己,同时还知道其他人是怎么想的; 对教师来说,可以确认学生的意识动态,从而对教育教学进行反思和改善。

( ) 上薗联想测评法的思想基础

上薗是在研究自古以来的联想思想史和联想心理学研究成果的基础上形成了他对联想的理解,发展他的联想测验法。

有人会质疑个体的联想是极其不稳定的,一个集体的一次联想测验结果何以能作为判断该集体成员态度或意识的依据,并用以评价教育教学效果的呢?

上薗曾对同一调查对象以同一内容进行间隔 5 分钟的连续两次测试,发现调查对象的两次联想发生了如下变化: 两次联想的词语种类中只有 30% 是相同的,消失或新出现的词语则达 60%。因此,上薗承认变动大是联想的特色,联想是不稳定的,这表明人可以在短时间内产生丰富的联想。正是因为联想具有这个特点,教育者才更需要把握学习者的联想状况。

上薗指出,联想词是由提示的概念唤起的学生的知识、想法和心情,即意识整体的表达。联想词虽然是变化的,但是在一定时间段内,采集很多联想词的话,会发现多种多样的心情、知识和想法,出现频度较高的联想词构成了联想的稳定基础。“频度高的联想词虽然在个人层面上是变动的,但在集体层面则是稳定的。频度高的词语成为联想结构中较为稳定的基础,具有恒常性,是提示语引出的联想的核心。”

上薗发现,多数学生都联想到的那些词是与提示词有着最紧密联系的,是大多数学生认知的、几乎等同于提示词的定义或关于提示词含义的常识性词语。而提示词来自于体现教学内容的关键词( 关键概念) ,因此根据学生所联想的词语可以看出学生经过教学的意识发生了什么变化,对关键概念的理解达到什么程度。

上薗认为,从教育教学的角度来看,学生们是带着对许多事物的联想进入课堂的,教师应敏锐地把握学生隐藏着的想法发生着怎样的变动,据此来组织教学。“学生的联想和言词的变动虽然不稳定,但为了把握学生集体的意识变动,这种不稳定的联想和言词正是值得去把握的对象。把握了随意联想的词语,就是把握了生动的课堂的变动趋势。”“正是由于这种变动,联想如同探索新想法的头脑风暴一样,能产生很多言词从而扩展思想。随意想起的言词未必变成文章,却可通过记录推进思维实验。”

三、上薗联想测评法的应用

( ) 用于一节道德课的教学评价

上薗主要将其联想测评法应用于道德课的教学评价。他认为联想测评法在道德课上应用,有以下特色:

第一,可以揭示学生的意识是否朝着教学目标的方向发展,教学是否扩展了学生的思想或朝一定的方向汇集,可以发现未显露在学生发言中的想法。

第二,由于联想结果以联想地图和数值的形式被可视化地呈现,所以未到现场观课的人也可以参与教学研讨。也就是说,教研活动可以不受是否观过课的影响、不受时间和地点的约束来开展。

第三,联想测试和数据处理的用时都很短,便于在日常教学中运用。因此联想法是教师了解教学效果、反思教学、自主改进教学的工具。

联想测验法应用于课堂教学评价时,要进行课前与课后两次测验,通过比较前测和后测联想词的变化,发现学生的意识是否通过教学发生改变。

以上薗所列举的一节 3 年级道德课《放屁新娘》为例,这节课以一则民间故事为教学材料,意图通过小组协同学习,扩展学生对“体谅”的认识,并重新认识自我。上薗认为,通常说到“体谅”,人们往往想到的是对他人的体谅、关怀,但是如果一个人对自己的长处缺乏认识,是无法培养出对他人的关怀之心。儿童的课题应是在培养他们对他人的体谅和关怀的同时,认识自身的价值。培养对他人的体谅和关怀之心应建立在自我肯定的基础上。为此,他所指导的这节课,除了以“体谅”为提示词做前后测对比,还以“自己”为提示词对学生的自我肯定感进行了调查。下面仅以【自己】为例,看上薗对学生的联想结果进行怎样的解读。

关于【自己】的前测结果:

前测结果如图 1 所示。所有的联想词分成肯定、否定、属性、身体、其他五类。肯定类词语显示了学生对自己积极的、肯定性的评价,如: 重要、开朗、能交朋友、喜欢生物、厉害、漂亮、聪敏、字写得好、跑得快等。否定类词语如任性、字写得不好、跑得慢、害怕等。前测中,该班肯定性联想词的数量占总联想词数的11 4% ,人数比为 58% ,即每人平均 0 58 个肯定词,虽然比否定类词语( 人数比22 6% ) 要多,但是同属性类词语( 145 2% ) 和身体类词语( 261 3% ) 相比,少了一位数。上薗认为,测验结果看不到学生对自身内在价值的认识。

那么,经过一节课的学习,在后测中学生对【自己】的联想发生什么变化呢?以下显示了前后测中关于【自己】的联想词在不同类别中数量的变化。

上薗对此的解读是:

( 1) 根据卡方检验(Chi-squared test) 结果来看,与身体相关的联想词显著减—83—少( p 05) ,肯定自己的词语由 18 词增加到 63 词,人数比从 581% 显增加到1969%( 63 个词) ,即平均每人有将近2 个词是肯定类的。上薗认为,这是这节课在提升学生自我肯定感上产生的效果。

( 2) 课前与身体相关的词语占联想词总数的一半以上( 513%) ,后测减少到 35 3%,而表现自我肯定意识的联想词比例从 114% 增加到 289%。并且,关于【自己】的联想词总数也从 158 个增加到 218 个,增加了 380%,词的种类从 84 个增加到 126 个,增加了 500%。这说明,学生的意识转到了对自己的反省,并转向对自己的肯定。自我认识的丰富还表现在离散度和联想总量的大幅增加( +07 +791)

( 3) 从联想词的质性来看,与教材主人公“新娘”相关的形容词“善良”成为学生联想自己的词语,占总词数的 250%。同样“体贴”、“助人”等本节课的关键词也在后测中均增加了 63%,成为学生重新评价自己的用语。

( 4) 后测还出现了一些新的词语,如“健康”( 人数比增加 94%) 、“笑脸”( 人数比增加了 63%) 。此外,还出现了一些表现自己特征的属性类词语,如“生气”、“哭”、“爱说话”、“睡觉”,均增加了 63%。这意味学生经过在课堂上对自己的反思,对自己有了新的发现。

( 5) 与前测相比,后测中也有减少的联想词,这些词属于对自己的一般意义上的界定,如“人”( 人数比减少 129%) 、“生命”( 人数比减少 97%) 、“活着”( 人数比减少 65%)

上薗由此认为,这节课提高了学生的自我肯定感,因此是一节有意义的课。

( ) 用于班级评价和学校评价

联想测验法用于班级评价和学校评价,可以发现班级之间和学校之间的差异。

2015 6 7 月,笔者在上薗的指导下,尝试运用联想法对上海和北京7 所学校共 31 个班级进行了联想测验,提示词涉及自己、父母、朋友、学校、家庭、国家、关怀、尊重、协作、正直、欺负、和平、战争、死亡等。从测验结果来看,我们发现班级之间、年级之间、学校之间的差异,这些差异与事后了解的实际情况具有高度的相关性。有关这些调查的分析另文介绍。

本文以 Z 校两个班级的联想测验为例,阐释由联想结果发现的班级差异。Z 8 年级 AB 两个班均以自己、关爱、尊重、负责、家庭、学校、中国为提示词进行了联想,联想测验实施当天,A 班实到人数为 25 人,B 29 人。两个班级相差 4 人。联想结果如表 2 所示。

假设两个班级学生的发展水平相当,那么在联想词的种类、总数、离散度、联想量总和这几个变量上,B 班应略高于 A 班。但是从实际数据看,A 班在 7 个提示词的所有变量中都高于 B 班,除【家庭】和【学校】之外,另外 5 个提示词的联想词种类和总数都高出 50% 以上。联想词的种类和总数的多寡可以看出对一个事物的认识的丰富性以及所掌握的词汇的丰富性,这些直接与认知能力和表达能力相关。

再从质的角度看这两个班的联想内容,此处仅对词数较多的前五位做比较。关于【自己】,A 班联想到“成绩”的人最多,还有3 个学生未写出任何联想词。而 B 班是“帅”最多( 9 ) ,其次是“活泼( 3 ) ,前 5 个的词都与“自己”内在的性格特点和身份有关。而 A 班虽然也联想到“帅”字( 3) ,但其他几个联想词都不是与自己性格爱好相关的。成绩、学校、父母对这个班的一些学生来说,影响更大。从表3 的分类统计中,可以看到,B 班对“自己”使用的肯定性词语,占 2551% ,远高于 A 班的 156% 。尽管 B 班的否定性词语也比 A 班高。根据【自己】的联想词可以推断 B 班的自我认识比 A 班深入,自信心或者说自我肯定感更强。

对于【关爱】,A 班更多联想的是自己身边熟悉的人: “父母”、“同学”、“老师”,而 B 班则关注到了“弱势群体”、“残疾人”,关爱的对象更广,还包括“自己”。

关于【尊重】,A 班和 B 班都联想到“老人”和“长辈”,因社会环境中“尊重老人( 长辈) ”是中国社会一个深入人心的社会规范,已经成为一个固定词语,所以学生可以不加思考将尊重与老人联系起来。A 班想到的其他词也限于尊重的对象,这些词都可不加深思联想出来。但 B 班有学生不仅仅联想到尊重的对象,而且联想到了“平等”、“互相”这两个触及尊重内涵的词,可见对“尊重”有更深入的理解。

对于【负责】,A 班又有 3 个学生没有作答。两班都把负责与“自己”、“学习”联系起来,这是成人世界不断提醒孩子对自己、对学习负责的结果。对于“负责”的主体,A 班多人提到老师,如同【关爱】【尊重】一样,可以看出老师对于A 班学生是一个重要的存在。B 班则多人提到家长,此外 B 班有学生联想了“责任”、“义务”这两个与负责相近的词。

对【学校】和【家庭】的联想,两个班的共性比较多,但 B 班有 4 个学生提到了“累”,还有 2 个学生提到“困”,A 班仅有两个学生提到“压力”。有可能 B 班的学习任务更重,压力更大。

对于【国家】的联想,可以看到两个班所关注的点有所不同。A 班所联想的词更为普通、常见,B班联想到国家的实力和性质,以及国际关系。

综合量和质两方面的分析,可以推断 A 班学生的综合素质比 B 班学生要高。对两个班级的数据进行比较之后,笔者就这两个班的情况到 Z 校进行了调查,得知 B 班为快班,A 班为薄弱班,也就是说 B 班在学业成绩、学习自主性等方面等都高于 A 班。由此证明联想法测验可以用来发现班级之间的差异,并用来诊断班级问题。

此外,笔者将上海 Z 8 年级与 M 8 年级的联想测验进行了对比,发现两个学校 8 年级学生呈现显著差异。仅从联想词的数量来看,虽然 Z 校被试 54人,少于 M 8 人,但所有提示词的联想词种类、总数和联想量都高于 M ( 参见表 4) 。做质性分析的话,对于【自己】的联想,两校位于第一位的联想词是都是“帅”,M 校有 10 ( 0 2) Z 校有 12 ( 03) ,最大不同是,M 校有 5 人写“笨”( 0 1) 4 人写“傻”( 0 1) 2 人写“蠢”,而 Z 校只有 1 人写“笨”( 0 0) 1 人写“蠢”( 0 0) 。对【自己】的评价,M 校远低于 Z 校。对于【学校】的联想,M 校多为老师、同学、操场、作业、教师等常见的人和物品,而Z 校学生联想到了友情、团结等表现人际关系的肯定性词语。在以【上海】为提示词的联想测验中,因 M校很多学生未作答,做出回答的学生大多只写“大”、“东方明珠”等词,因缺乏统计的价值,笔者放弃了统计。由此可以推测,M 8 年级学生在表达能力、社会认知、人际关系、自信心等方面存在严重问题。事后调查,得知 M 校位于上海城乡结合部,多为外来务工子女,流动性较强,学业水平很低。

可见,联想测验法可以发现学校间的差异,发现学校存在的问题。

此外,上薗还将联想测验应用于跨文化研究,考察过日本、德国、马来西亚大学生对于【欺凌】的意识,日本、中国、德国学生对于【死亡】的意识。这些研究将另文介绍。

上述案例展现了上薗联想测评法运用于道德教育评价的有效性,但是,上薗联想测评法要在教学实践层面得到进一步推广应用,还需要解决一下问题:

第一,联想数据处理软件的汉化。目前上薗等人开发的联想数据处理软件只有日文版,因此联想数据的处理存在很多不便和困难,无法在中国广泛应用。制作英文版和汉语版的数据处理软件是上薗今后的任务。

第二,数据阐释方法的研究。虽然联想测验结果以可视化的方式呈现,令非专业评价人员的普通教师也可不同程度地从数据中发现被试集体的意识和态度状况。但是,如何能像上薗自己那样,理解每个数据的含义,从中解读丰富的信息,并根据自己的研究和教学目的对数据进行再分类处理,仍然需要专业研究人员的指导。同时教师之间、教师和研究者之间需要通过多次分享对数据的解读,并将联想测验法与其他评价方法结合,才能增强对联想数据的分析、阐释能力。

联想测验法是评价教学的有用工具,但它不能取代其他评价方法和工具。它不触及深层心理,不能揭示深层问题,它揭示的是学生态度和意识的总体动态,预示可能存在的问题或问题所在,因此联想测验法可以用来为进行更有针对性地深度评价提供方向。