何興國?趙志群?何壯
摘 要 德國COMET評分量表是職業(yè)能力測評的重要評價工具,其蘊含著設(shè)計導向的職業(yè)教育思想和綜合職業(yè)能力的人才培養(yǎng)目標,對我國職業(yè)教育評價及改革都具有重要借鑒意義。運用項目反應(yīng)理論之多面Rasch模型,對COMET評分量表在我國學生職業(yè)能力測評中的適用性進行了分析。結(jié)果表明:COMET評分量表總體區(qū)分度較高,能夠有效地區(qū)分我國職業(yè)教育背景下的學生職業(yè)能力水平;我國學生對COMET評分量表部分項目存在著不適應(yīng)現(xiàn)象,部分學生答題行為內(nèi)部一致性較差;我國教師對COMET評分量表寬嚴尺度把握內(nèi)部一致性較好,但不同評分教師個體之間的寬嚴程度還存在差異;評分教師與評分項目交互作用也存在一些顯著偏差。
關(guān)鍵詞 COMET評分量表;多面Rasch模型;項目分析;職業(yè)能力測評;職業(yè)院校
中圖分類號 G719.516 文獻標識碼 A 文章編號 1008-3219(2016)25-0069-06
一、問題的提出
起源于德國的職業(yè)教育學生職業(yè)能力測評國際研究項目(Competence Development and Assessment in TVET,COMET),對職業(yè)能力的理解超越了行為主義和一般個性特征的能力觀,將其理解為專業(yè)能力、方法能力和社會能力相統(tǒng)一,行動過程和行動結(jié)果相統(tǒng)一的綜合職業(yè)能力,其以設(shè)計導向職業(yè)教育思想、行動導向教學、工作過程知識等先進的職業(yè)教育理論為基礎(chǔ),構(gòu)建了跨職業(yè)領(lǐng)域的職業(yè)能力測評模型[1]。COMET項目于2008年對德國不萊梅州和黑森州9所職業(yè)學校700名學生進行了大規(guī)模標準化職業(yè)能力測評,為職業(yè)院校學生職業(yè)能力測評提供了新的視角和方法,被認為是職業(yè)教育領(lǐng)域的“PISA”項目,得到了國際社會的廣泛關(guān)注[2]。2009年以來,北京師范大學在國際合作項目中引入COMET測評方案,在北京、廣州、重慶等地多次開展學生職業(yè)能力測評實踐,為我國職業(yè)院校學生職業(yè)能力評估提供了新的方法,也為我國職業(yè)教育質(zhì)量保障提供了有效的工具[3]。
COMET評分量表是職業(yè)能力測評的重要評價工具,其蘊含和體現(xiàn)了德國設(shè)計導向的職業(yè)教育思想和綜合職業(yè)能力的人才培養(yǎng)目標。即培養(yǎng)的職業(yè)人才不僅要具有技術(shù)適應(yīng)能力,而且更重要的是應(yīng)對能力,本著對社會、經(jīng)濟和環(huán)境負責的態(tài)度,參與設(shè)計和創(chuàng)造未來的技術(shù)和勞動世界;具有專業(yè)能力、方法能力和社會能力相統(tǒng)一的整體性綜合職業(yè)能力,即在復(fù)雜的職業(yè)情境中做出判斷并采取行動的職業(yè)能力。正是以此思想為指導和目標,COMET評分量表建立了八個評價維度的評價體系,以評估學生職業(yè)能力輪廓和職業(yè)能力水平。一是“直觀性與可展示性”,即通過語言或文字描述,利用圖紙條理清晰、結(jié)構(gòu)合理地向委托方展示解決方案以及完成工作任務(wù)后的結(jié)果。二是“功能性”,即工具性的專業(yè)能力、與具體情境無關(guān)的學科知識以及專業(yè)技能。三是“使用價值導向”,即以職業(yè)為導向,除滿足用戶直接使用要求外,還要考慮后期保養(yǎng)和維修的便利性。四是“經(jīng)濟性”,即在工作行動中,需要估算經(jīng)濟性并考慮各種成本因素,并考慮未來可能產(chǎn)生的使用成本。五是“生產(chǎn)流程與工作過程導向”,即考慮企業(yè)的上下級結(jié)構(gòu)以及不同生產(chǎn)部門之間的銜接,考慮跨越每個人工作領(lǐng)域的部門間合作。六是“社會接受度”,即人性化的工作設(shè)計與組織、健康保護以及其他超越工作本身的社會因素,例如委托方、客戶和社會的不同利益。七是“環(huán)保性”,即不僅指一般的環(huán)保意識,而且針對生產(chǎn)過程和生產(chǎn)結(jié)果提出的特定要求,使用了對環(huán)境無害的材料,以及完成工作的計劃多大程度上符合環(huán)保要求。八是“創(chuàng)造性”,即在特定情境下為完成任務(wù)預(yù)留的高度設(shè)計空間,解決方案在滿足創(chuàng)造性要求的同時要有助于目標的實現(xiàn)。COMET評分量表的八個評價維度充分體現(xiàn)了設(shè)計導向的職業(yè)教育思想和綜合職業(yè)能力目標,并進一步細化為39個評分項目,見表1,每個項目評分采用0~3分的李克特四級計分,依次為“完全不符合”“基本不符合”“基本符合”“完全符合”[4]。
COMET評分量表是在德國職業(yè)教育文化中開發(fā)出來并得到實證檢驗,引進COMET評分量表對我國開展學生職業(yè)能力測評和教學改革都具有重要的現(xiàn)實意義。然而,基于不同的職業(yè)教育理念和文化背景,COMET評分量表在我國應(yīng)用中的適應(yīng)性還有待研究。本研究將通過COMET測評方案下的我國職業(yè)院校學生職業(yè)能力測評實踐,探討COMET評分量表在我國的適用性,具體包括COMET評分量表的區(qū)分性、學生答題行為一致性、評分教師之間的一致性、評分教師內(nèi)部一致性、評分教師與評分項目的交互作用等問題。
二、研究方法
(一)數(shù)據(jù)來源
本次研究所使用的是重慶市2014年6月中等職業(yè)學校汽車運用與維修專業(yè)學生職業(yè)能力監(jiān)測數(shù)據(jù)。測評工作由重慶市教育評估院統(tǒng)一組織實施,共抽取25所學校的786名2012級在校學生參與測評。選擇2012級學生,原因在于2012級學生經(jīng)過兩年的專業(yè)學習,處于職業(yè)能力發(fā)展的關(guān)鍵時期,了解其職業(yè)能力現(xiàn)狀對檢驗教學效果及進一步改進教學均具有重要的現(xiàn)實意義。
根據(jù)COMET測評方案,本次測評開發(fā)并使用了基于該專業(yè)典型工作任務(wù)的綜合測評工具:“發(fā)動機水溫高排故”。共有16位教師參與評分,每份試卷由隨機2位教師評定。評分教師接受了評分培訓,根據(jù)COMET評分量表的39個項目進行評分。
(二)研究工具
多面Rasch模型(Many-Faceted Rasch Model, MFRM)是項目反應(yīng)理論模型之一,可以將學生職業(yè)能力、評分教師寬嚴程度、評分項目難度、評分等級梯難度等放在同一等距水平的Logit標尺上進行精確度量,計算每個度量值的估算誤差、擬合程度以及各層面的交互作用,為評分量表以及測驗質(zhì)量分析提供了更加客觀的視角。因此,研究選取該模型進行參數(shù)估計,建立了以下分析模型:
其中,Pnijk是學生n由評分員j在項目i上評為k分的概率,Pnij(k-1)為其他條件相同情況下該學生被評為k-1分的概率。這一概率受到考生能力Bn、評分項目難度Di、評分教師寬嚴程度Cj和評分量表中各得分梯難度Fk的影響(由K-1到K的相對難度)。
本研究采用SPSS 22對收集到的原始數(shù)據(jù)進行管理,使用Facets 3.70軟件,選擇多面Rasch模型(Many-Facet Rasch Model, MFRM)進行參數(shù)估計,結(jié)果主要包括學生職業(yè)能力、測量誤差、擬合指數(shù)、項目難度、等級量表梯難度、各面之間的交互作用等。
三、結(jié)果與討論
(一)總體分析
圖1顯示了各層面的總體分布情況。圖左側(cè)第一列為Rasch量尺,以Logit為單位。分析中將評分項目的平均難度設(shè)定為Rasch量尺的零點。第二列至第五列分別為學生面、評分項目面、評分教師面和評分量表等級面。
從學生面來看,學生職業(yè)能力跨度為5.38個Logit單位,職業(yè)能力最高值為1.02,最低值為-4.26。學生職業(yè)能力集中在[-1,0]區(qū)間內(nèi),占總?cè)藬?shù)的71.5%。學生職業(yè)能力平均值為-1.13,低于評分項目平均難度值0。
從評分教師面來看,16名評分教師中評分最嚴格的是5號教師,評分最寬松的是11號教師。教師評分的寬嚴程度相差在1.26個Logit單位以內(nèi)。
從評分項目面來看,評分項目難度的跨度為5.7個Logit單位,評分項目難度分布合理,“環(huán)保性”的評分項目32(考慮到環(huán)境友好的工作設(shè)計)難度值最高,這表明該項目的完成對學生職業(yè)能力要求高,只有職業(yè)能力值達到該項目難度(3.22)的學生才可能勝任該項目?!爸庇^性與可展示性”的評分項目2(恰當表述解決方案)、“功能性”的評分項目6(解決方案滿足功能性要求)難度值最低,這表明該項目的完成對學生職業(yè)能力要求最低,只要職業(yè)能力達到對應(yīng)難度的學生就可以勝任該項目。
從評分量表等級面來看,在分值使用方面,各分值與臨近分值之間的界限清楚,且相鄰幾個等級區(qū)間的寬度分布比較均勻,見圖2,不存在等級倒置(disorder[5])的現(xiàn)象。
(二)分層面分析
1.學生面
Rasch模型中以分隔系數(shù)(Separation)和分隔信度(Reliability)來衡量某一層面?zhèn)€體之間的差異是否大于測量誤差[6]。分隔系數(shù)大于2時說明個體之間存在較大差異,分隔系數(shù)越大則個體間差異越顯著。學生面分析結(jié)果顯示,分隔系數(shù)為3.06、分隔信度為0.90、卡方值為7770.7(p<0.01),這說明學生職業(yè)能力存在顯著差異。分隔指數(shù)(Strata )代表了量表將該層面內(nèi)個體分成有顯著差異的等級數(shù),可根據(jù)分隔信度計算得到,計算公式為(4·Separation+1)/3[7]。經(jīng)計算可得學生層面的分隔指數(shù)為4.41,即學生職業(yè)能力可分為5個顯著不同的層次,這表明COMET評分量表可以有效區(qū)分不同職業(yè)能力水平的學生。
Rasch模型中最常用的擬合參數(shù)為加權(quán)均方差(Infit MNSQ)和未加權(quán)均方差(Outfit MNSQ)。兩個參數(shù)取值范圍在[0,+∞]之間,理想值為1。擬合參數(shù)大于1稱為不擬合(underfit),即數(shù)據(jù)的實際變異大于模型的預(yù)期,當高能力學生答錯了簡單項目或低能力學生答對了高難度項目時會出現(xiàn)不擬合的情況。擬合參數(shù)小于1稱為過度擬合(overfit),即數(shù)據(jù)的實際變異小于模型的預(yù)期[8]。當項目難度分布太偏向兩個極端,即項目分為太難和太容易的兩大類,中等能力的學生全部答對了簡單題目,全部答不出難的題目時就會出現(xiàn)過度擬合。擬合參數(shù)的取值一般在[0.7,1.3]之間[9],每個面中不擬合的個體數(shù)量一般應(yīng)在5%以下[10]。從此次測評的學生擬合參數(shù)來看,Infit MNSQ值大于1.3的比例為16%,Outfit MNSQ的相應(yīng)比例為17%,明顯高于5%的要求。這說明部分學生答題行為內(nèi)部一致性較差,進一步調(diào)查發(fā)現(xiàn),當前中職課程教學活動中教育者更多關(guān)注技術(shù)的功能性傳授,缺乏對技術(shù)所涉及的社會和環(huán)境問題的關(guān)注,這可能導致學生在難度中等的技術(shù)的功能性、經(jīng)濟性評分項目表現(xiàn)較好,而在難度較低的直觀性與可展示性評分項目,以及難度較高的環(huán)保性、社會接受度評分項目上表現(xiàn)過低。這就是中國職業(yè)教育理念下學生對COMET評分量表部分項目存在的不適應(yīng)現(xiàn)象。
2.評分教師面
評分教師面的分析結(jié)果顯示,分隔系數(shù)為8.57、分隔信度為0.99、卡方值為1177.4(p<0.01),說明教師之間的寬嚴程度存在著顯著差異。計算可得教師面的分隔指數(shù)為11.76,亦即教師之間打分的寬嚴程度可以分為12個顯著不同的層次,這說明評分教師外部一致性不佳。
從擬合參數(shù)來看,僅有5號教師出現(xiàn)不擬合,其Outfit MNSQ值為1.31,非常接近1.3的擬合標準,這表明教師在評分時都能保持較高的內(nèi)部一致性??傮w來說評分教師個體評分素質(zhì)較高、經(jīng)驗豐富,經(jīng)過評分培訓,能夠保持較高的內(nèi)部一致性。但是不同教師之間,對COMET評分量表的整體理解和把握還存在著一定的差異,特別是表現(xiàn)在評分過程中不同評分教師個體之間的寬嚴程度存在較大差異。
3.評分項目面
評分項目面分析結(jié)果顯示,分隔系數(shù)為7.17、分隔信度為0.98、卡方值為26361.3(p<0.001),說明評分項目之間的難度存在著顯著差異。計算可得分隔指數(shù)為9.89,亦即項目難度可以分為10個顯著不同的層次。這也充分表明COMET評分量表區(qū)分度較高,能夠有效地區(qū)分不同能力水平的學生。從擬合參數(shù)估計結(jié)果可以看出,大多數(shù)項目的Outfit MNSQ和Infit MNSQ參數(shù)都在0.7~1.3的可接受范圍之內(nèi),擬合效果良好,僅“直觀性與可展示性”的評分項目1(方案表述適合與委托方溝通)和“環(huán)保性”的評分項目31(考慮到所用材料符合環(huán)境可持續(xù)發(fā)展的要求)出現(xiàn)不擬合的情況,其Outfit MNSQ和Infit MNSQ參數(shù)分別為1.46、1.45和1.42、1.19,即在這兩個評分項目上,出現(xiàn)了高能力學生得低分,或低能力學生得高分的現(xiàn)象。原因可能在于,我國職業(yè)教育理念下的學生對于這兩個評分項目的敏感性不強,在答題過程中無意或潛意識行為較多,因而出現(xiàn)了不擬合現(xiàn)象,這也說明這兩個評分項目不能有效區(qū)分我國職業(yè)教育背景下的學生職業(yè)能力。
4.評分等級面
圖2為各評分等級的概率曲線圖,圖中每條曲線對應(yīng)一個分值。從左至右依次為0、1、2、3。橫軸為能力量尺,縱軸為概率。圖中相鄰兩個分數(shù)的交點就是量表的閾值(Thresholds)。從左至右三個交點分別對應(yīng)三個閾值:-3.48、-0.07和3.54。由于能力越高的學生獲得高分數(shù)的概率應(yīng)當更大,所以梯難度應(yīng)當呈遞增趨勢。數(shù)據(jù)分析結(jié)果表明,COMET評分量表不存在低分梯難度高于高分梯難度的等級倒置現(xiàn)象[11]。同時三個閾值將整個Rasch能力量尺劃分為四個能力區(qū)間,每個能力區(qū)間對應(yīng)一條概率曲線的峰值,在此能力區(qū)間內(nèi)的學生最容易得相應(yīng)得分值。例如代表1分的概率曲線峰值對應(yīng)的能力區(qū)間為[-3.48,-0.07],所以能力在此區(qū)間內(nèi)的學生得1分的可能性最高。兩端的區(qū)間可以延伸到無窮大或無窮小,中間兩個區(qū)間的跨度為3.41和3.61。Rasch理論認為,這一區(qū)間的理想寬度為1個Logit,最大不超過4個Logit單位[12]。本次研究中COMET評分量表的兩個區(qū)間分布比較平均,寬度都在4 Logit以內(nèi),沒有出現(xiàn)某一區(qū)間過大或過小的現(xiàn)象。此外,四個分數(shù)等級的擬合參數(shù)在[0.9,1.2]之間,不存在不擬合或過度擬合。綜合評分等級面的統(tǒng)計結(jié)果,說明COMET測評的評分等級方案設(shè)計合理,可以有效區(qū)分不同能力水平的我國職校學生。
5.教師與評分項目交互作用的偏差分析
評分教師的Infit和Outfit參數(shù)表明了教師評分的自身一致性程度。對教師與評分項目的交互作用分析,可以進一步了解中國教師在特定評分項目上的一致性程度。多面Rasch模型中以Z值的大小來判定交互作用的大小,一般認為|Z|>2時存在顯著偏差,顯著偏差占項目比例在5%以內(nèi)為可接受范圍。當Z值大于2時說明該教師對此學生打分顯著嚴格;相反,當Z值小于-2時說明該教師對此學生打分顯著寬松。
教師與評分項目的交互分析表明,實驗偏差項目共有624個,其中顯著偏差項目272個,占43.59%。其中,偏差超過10個的評分項目有“直觀性與可展示性”的評分項目1(方案表述適合與委托方溝通),“功能性”的評分項目7(考慮到當前先進技術(shù))、項目9(從職業(yè)活動角度說明解決方案)和項目10(所表述和解釋的方案正確),“使用價值導向性”的評分項目12(方案考慮到使用的持久性和功能擴展的可能性)。這表明評分教師在評價這些項目時與其他項目的尺度不一致,其原因一方面在于教師自身偏好等因素,另一方面也在于這些項目內(nèi)涵難以把握,例如界定方案表述的適合性,從職業(yè)活動的角度說明方案,使用價值的持久性和功能的可擴展性等。這也提示應(yīng)增進和統(tǒng)一評分教師對這些項目在我國職業(yè)教育背景下內(nèi)涵的理解,特別應(yīng)進一步貫徹“職業(yè)教育的學習內(nèi)容是工作”的職業(yè)教育理念,增進教師對職業(yè)教育內(nèi)容的“職業(yè)性”理解,而不僅僅是從狹義的“技術(shù)”角度理解學習內(nèi)容。
四、結(jié)論
運用現(xiàn)代教育測量項目反應(yīng)理論的多面Rasch模型分析,對COMET評分量表在中國的適用性研究有以下發(fā)現(xiàn):
COMET評分量表總體區(qū)分度較高,能夠有效地區(qū)分我國職業(yè)教育背景下的學生職業(yè)能力水平。評分項目難度差異顯著,區(qū)分性強;評分等級設(shè)置合理,不存在低分閾值高于高分閾值的等級倒置現(xiàn)象。
我國職業(yè)院校學生對COMET評分量表的個別項目還存在不適應(yīng)現(xiàn)象,部分學生答題行為存在內(nèi)部一致性較差現(xiàn)象,主要表現(xiàn)在“直觀性與可展示性”的評分項目1(方案表述適合與委托方溝通)和“環(huán)保性”的評分項目31(考慮到所用材料符合環(huán)境可持續(xù)發(fā)展的要求)等方面。其原因在于我國職業(yè)教育實踐界多持行為主義職業(yè)能力觀,重視技術(shù)的功能性教學,而忽視了技術(shù)的環(huán)保性、社會接受度和顧客導向等方面的培養(yǎng),學生對這些評分項目的敏感性不強。這提示我國職業(yè)教育應(yīng)進一步建立設(shè)計導向的職業(yè)教育思想和綜合職業(yè)能力目標,不僅要培養(yǎng)學生對技術(shù)的功能性意識與能力,還要培養(yǎng)學生對于技術(shù)的環(huán)保性、社會授受度和顧客導向等的意識和能力,也就是對技術(shù)的社會性設(shè)計的能力。
我國職業(yè)教育教師對COMET評分量表寬嚴尺度把握內(nèi)部一致性較好,但不同評分教師個體之間的寬嚴程度還存在著較大差異。交互作用分析發(fā)現(xiàn),教師個體之間的評分寬嚴程度差異突出表現(xiàn)在“直觀性與可展示性”的評分項目1(方案表述適合與委托方溝通),“功能性”的評分項目7(考慮到當前先進技術(shù))、項目9(從職業(yè)活動角度說明解決方案)和項目10(所表述和解釋的方案正確),“使用價值導向性”的評分項目12(方案考慮到使用的持久性和功能擴展的可能性)等方面。這也表明,應(yīng)加強我國教師對職業(yè)教育本質(zhì)內(nèi)涵的理解:職業(yè)教育的學習內(nèi)容是工作,而不僅僅是從狹義的無任何社會關(guān)聯(lián)的“技術(shù)”,進一步增進和統(tǒng)一評分教師對項目評價尺度的把握。
參 考 文 獻
[1][4]Rauner F, Maurer L H A. Competence Development and Assessment in TVET (COMET)[M]. Springer, 2013:47-50.
[2]Fischer M, Rauner F, Zhao Z. Kompetenzdiagnostik in der Beruflichen Bildung-Methoden zum Erfassen und Entwickeln beruflicher Kompetenz: COMET auf dem Prüfstand[M]. Muenster: LIT, 2014:2.
[3]趙志群,莊榕霞.職業(yè)院校學生職業(yè)能力測評研究[J].職教論壇,2013(3):4-7.
[5]Linacre J M. Optimizing Rating Scale Category Effectiveness[J]. J Appl Meas, 2002,3(1):85-106.
[6]Myford C M, Wolfe E W. Detecting and Measuring Rater Effects Using Many-facet Rasch Measurement: Part I[J]. Journal of Applied Measurement, 2003, 4(4): 386-422.
[7]Myford C M, Wolfe E W. Detecting and Measuring Rater Effects Using Many-facet Rasch Measurement: Part II[J]. Journal of Applied Measurement, 2004, 5(2): 189-227.
[8]晏子.心理科學領(lǐng)域內(nèi)的客觀測量——Rasch模型之特點及發(fā)展趨勢[J].心理科學進展,2010(8):1298-1305.
[9]Mok M M C, Cheong C Y, Moore P J, et al. The Development and Validation of the Self-directed Learning Scales (SLS).[J]. Journal of Applied Measurement, 2006,7(4):418-449.
[10]張潔. PETS三級口語考試評分誤差研究——結(jié)合定量統(tǒng)計和定性描述的方法[J]. 外語測試與教學,2012(2):33-42.
[11]何壯,趙守盈.技能評分項目裁判員評分結(jié)果的多面Rasch模型分析——項目反應(yīng)理論在體育運動領(lǐng)域的應(yīng)用[J].成都體育學院學報,2014(3):43-48.
[12]Linacre J M. Investigating Rating Scale Category Utility[J]. Journal of Outcome Measurement, 1999,3(2):103-122
Analysis of Application of German COMET Score Scale in China Context with the Many-Faceted Rasch Model
He Xingguo, Zhao Zhiqun, He Zhuang
Abstract German COMET score scale based the guideline of design orientation and comprehensive professional competence is an important evaluation tool for professional competence evaluation, and it is of great significance to the evaluation and reform of Vocational Education in our country. The applicability of German COMET score scale was analyzed in the context of Chinese students' professional competence evaluation with the Many-Facet Rasch Model. The results showed that the COMET score scale had higher differential validity, and could differentiate Chinese students' professional competence; there was the question of adaption of some items on Chinese students; some students answers had poor internal consistency; Chinese teachers had good internal consistency on the COMET score scale, but there was significant difference between teacher individual, and some biases also existed in the interaction between teachers and items.
Key words COMET score scale; Many-Faceted Rasch Model; item analysis; professional competence evaluation; vocational colleges
Author He Xingguo, PhD student of Beijing Normal University(Beijing 100875); Zhao Zhiqun, professor of Beijing Normal University; He Zhuang, Beijing Normal University