摘要本文以一個大學(xué)社團的團體協(xié)作項目活動的參賽大學(xué)生為測評對象,運用多面Rasch模型從參賽選手、評分者和測評內(nèi)容三個側(cè)面考察團隊協(xié)作能力測評的有效性。結(jié)果發(fā)現(xiàn),參賽選手的團隊協(xié)作能力大都處于中等水平且彼此間相差不大,4位評分者的評分寬嚴度較低且不一致,評分者在評分過程中產(chǎn)生了偏差。另外,文章還揭示了團隊協(xié)作能力的結(jié)構(gòu),為培養(yǎng)大學(xué)生團隊協(xié)作能力提供了參考依據(jù)。
關(guān)鍵詞團隊協(xié)作能力;多面Rasch模型;大學(xué)生;評分者效應(yīng)
分類號B841
隨著企事業(yè)單位管理制度的不斷發(fā)展與完善,大學(xué)生如想實現(xiàn)個人職業(yè)生涯的良好發(fā)展,就必須學(xué)會與人協(xié)作,融入團體。所謂協(xié)作,就是兩個或者兩個以上的人相互影響、相互協(xié)調(diào),使得彼此都朝著各自的目標發(fā)展,高效率地完成任務(wù)。王忠偉(2014)提出,團隊協(xié)作能力是指團隊成員為完成共同的目標而相互協(xié)作、 優(yōu)勢互補、 共同努力完成某一任務(wù)的能力。由此可見,團隊協(xié)作能力的核心是為了共同的目標協(xié)作,其中要處理好個人利益與整體利益,保持較高的團體凝聚力,使團隊高效運轉(zhuǎn),成員之間取長補短,保障團隊成員共同成長、共同完成任務(wù)。朱偉峰(2010)從團隊成員個體間溝通技能和團隊整體運作技能兩個方面,歸納了大學(xué)生團隊協(xié)作能力培養(yǎng)的9項要素,包括團隊成員個體間溝通技能方面的人際交流能力、團隊評價能力、團隊協(xié)助能力和團隊激勵能力;團隊整體運作技能方面的問題界定能力、項目分工能力、數(shù)據(jù)收集能力、解讀信息能力和提煉成果能力。
本次針對團隊協(xié)作能力的測評采取多個評委評分的方式進行,評分方式是維度評分法,以下是對各個評分維度(評分標準)的解釋:
評分維度一:人際交流能力,指在團隊中可以很好地理解別人,并使自己也很好地被別人理解,達到相互溝通的效果。主要包括語言交流和身體語言交流兩種能力。
評分維度二:團隊評價能力,指對團隊內(nèi)部的績效進行分析后,做出正確的決策和選擇的能力。
評分維度三:團隊協(xié)助能力,指在團隊中,能夠幫助其他成員完成團隊任務(wù)的能力。
評分維度四:團隊激勵能力,指采取一定的措施,激勵團隊成員,提高團隊積極性的能力。
評分維度五:問題界定能力,指面對所要解決的問題時,可以較快地發(fā)現(xiàn)問題的癥結(jié)所在,確定問題解決的目標。
評分維度六:項目分工能力,指合理地安排團隊內(nèi)部成員的工作內(nèi)容,使團隊成員可以彼此協(xié)調(diào)完成相應(yīng)的任務(wù)。
評分維度七:數(shù)據(jù)收集能力,指量化所要解決的問題,對量化的數(shù)據(jù)進行收集整理,使問題更加客觀精確。
評分維度八:解讀信息能力,指對數(shù)據(jù)產(chǎn)生的結(jié)果,可以解讀出問題解決的策略和方法,解讀團隊的任務(wù)的完成狀態(tài)。
評分維度九:提煉成果能力,指最后根據(jù)完成的結(jié)果,提煉出團隊的成果,并進行整理。
對大學(xué)生團隊協(xié)作能力的測評是診斷大學(xué)生職業(yè)生涯發(fā)展的重要手段,對大學(xué)生團隊協(xié)作能力測評的過程及效度進行考察具有重要的意義。同時,本研究不僅為團隊協(xié)作能力測評提供了一種方法體系程序,也為后續(xù)的相關(guān)研究提供了參考依據(jù)。
1分析方法
本文將采用多面Rasch模型(Many Facets Rasch Model,MFRM)對測評結(jié)果進行分析。多面Rasch模型屬于項目反應(yīng)理論(Item Response Theory,IRT)模型,它可以將被試能力與測試內(nèi)容的難度置于同一尺度下進行比較,對被試的能力水平以及彼此間的差異進行分析比較,從而進行因材施教。
針對測評對象的特點,本文將從評委、參賽學(xué)生和測評內(nèi)容三個方面進行分析。多面Rasch模型在表現(xiàn)性評價中具有重要的實踐指導(dǎo)意義,現(xiàn)已在教育測評(王立君,黃星艷,2013;陳宛玉,戴海琦,2013)、語言測評(陳艷君,2014;田清源,2007)、人才測評與選拔(孫曉敏,薛剛,2008;孫曉敏,張厚粲,2007)等各種表現(xiàn)性評價中得到廣泛應(yīng)用。依據(jù)研究需要,本文采用的三面Rasch模型表達式如下:
Log(Pnijk / Pnij(k-1))=Bn-Di-Cj-Fk
在這個公式中,Pnijk是考生n在題目i上被評分者j評為k等級的概率;Pnij(k-1)是考生n在題目i上被評分者j評為k-1等級的概率;Bn是考生n的能力參數(shù);Di是題目i的難度參數(shù);Cj是評分者j的寬嚴程度;Fk是分部評分模型(Partial Credit Model,PCM)中考生得分從k-1等級到k等級的等級難度。
《心理技術(shù)與應(yīng)用》 2015年第10期 (總第26期)
黃明明大學(xué)生團隊協(xié)作能力測評的多面Rasch分析
2研究設(shè)計
2.1測評過程與數(shù)據(jù)來源
本研究的數(shù)據(jù)來源于浙江省某高校社團聯(lián)合會申請的“大學(xué)生創(chuàng)新創(chuàng)業(yè)基金項目”大賽。參賽學(xué)生共24人,均是在校本科生,其中男生14人,女生10人。所有參賽者合作參與這個項目的實施活動,活動維持一個月左右,結(jié)束后,評分者對他們逐一進行打分。評分者由學(xué)校學(xué)生會的骨干成員組成,共4人。測評的結(jié)果由4人的評分相加得到,并要求每個評分者從大學(xué)生團隊協(xié)作能力的9個維度分別評分,每個維度的滿分是10分,共90分。為了研究的方便并保護隱私,本文對4個評分者以編號A、B、C、D來表示,并以數(shù)字1~ 24對所有的選手進行編號。
2.2數(shù)據(jù)處理與側(cè)面設(shè)計
本文采用多面Rasch模型的專用統(tǒng)計分析軟件FACETS對所得數(shù)據(jù)分析,構(gòu)建了被試、評委和測評內(nèi)容三個側(cè)面,具體如下:
①被試:被試的能力水平是測評的對象,在多面Rasch模型分析中,我們可以通過被試的測驗平均得分、平均能力水平及其標準誤等輸出指標判斷每個被試的能力值。全體被試的能力平均值默認為0,所以被試的能力值有正負值,數(shù)值越大,代表能力越強。
②評委:評委在評分的過程中,由于各方面的原因,評分者效應(yīng)在所難免。目前,影響評分者效應(yīng)的因素主要有評分者的寬嚴度、評分者評分一貫性、評分者與被試之間的交互效應(yīng)等。在本文中,我們主要探討評分者的寬嚴度和一致性原則對評分結(jié)果的影響。
③測評內(nèi)容:測評過程對團隊協(xié)作能力的9個維度分別進行評分,因此,統(tǒng)計結(jié)果會顯示出每個維度的難度估計值及其標準誤,我們可以由此看出大學(xué)生群體的團隊協(xié)作能力結(jié)構(gòu)及其發(fā)展狀況,從而可以更加精準地找出哪個維度能力需要進行重點培養(yǎng),有利于因材施教。
除此之外,評定等級、測評偏差也是本文重點研究的內(nèi)容,因為評定等級是反映測評計分方式是否合理的重要信息,每個等級的難度以及等級之間的難度閾限值等可以有效區(qū)分被試的能力水平。而測評偏差則是反映每個評分者評分質(zhì)量的信息,對于偏差較大的評分者,有必要進行測評事宜的培訓(xùn),方能參與評分工作。
以上每個側(cè)面都會輸出擬合統(tǒng)計指標、觀測值平均值、分隔指數(shù)(Separation)和分割信度(Seperation Reliability)等(Bond,T. G., & Fox,C. M.,2007)。其中,擬合統(tǒng)計指標分為內(nèi)部擬合指標(Infit MNSQ)和外部擬合指標(Outfit MNSQ),Outfit MNSQ是指殘差的均方,Infit MNSQ是加權(quán)(以方差為加權(quán)系數(shù))后的殘差均方,兩者均為模型擬合指標,由于Outfit MNSQ容易受到極值的影響,一般采取Infit MNSQ作為項目擬合指標。不同的研究對Infit MNSQ規(guī)定不一樣,Infit MNSQ 和Outfit MNSQ 可接受的取值范圍在很大程度上取決于研究目的,Linacre(2006)建議取0.5~1.5。在這里,本研究取值范圍規(guī)定在0.5至1.5之間,越接近1越好。分隔信度(Separation Reliability)值越接近1,則個體能力差異越顯著,而分隔指數(shù)(Separation)則反映了測評的有效性。
通過對這些統(tǒng)計指標的考察,我們可以看出整個測評過程以及測評結(jié)果的有效性。
3研究結(jié)果
根據(jù)本文對側(cè)面的設(shè)計,統(tǒng)計結(jié)果中會產(chǎn)生不同側(cè)面的測評結(jié)果。測評的結(jié)果均以參數(shù)值和相關(guān)圖表的形式呈現(xiàn),既客觀明確,又具體形象。
3.1被試能力
在多面Rasch模型分析結(jié)果中,程序會全面呈現(xiàn)被試的能力估計值及其相關(guān)統(tǒng)計量,這些統(tǒng)計量包括了平均得分、能力估計值、能力估計標準誤、擬合度以及分離指數(shù)、分離信度等。在本文的研究對象中,部分大學(xué)生被試的團隊協(xié)作能力估計列表如下所示,表中既有高水平被試,也有低水平被試,也有中等水平被試。
被試平均觀測值能力值標準誤內(nèi)部擬合度外部擬合度被試平均觀測值能力值標準誤內(nèi)部擬合度外部擬合度
從表1所示的統(tǒng)計結(jié)果可以看出,平均觀測值(平均得分)越大,其能力估計值越大。平均觀測值在4.0至6.5之間,能力估計值在-0.73至0.49之間,被試4的團隊協(xié)作能力水平較低,被試20的團隊協(xié)作能力最高。對于內(nèi)外擬合度,所有被試的內(nèi)部和外部擬合度都在0.54至1.40之間,基本都滿足測驗的要求。
3.2測評內(nèi)容
測評內(nèi)容的考察主要反映在對團隊協(xié)作能力9個維度的難度估計考察,通過對每個維度任務(wù)的難度進行估計,我們可以探討被試完成此項維度任務(wù)應(yīng)具備多大的能力,也可以考察大學(xué)生在這些能力維度上的發(fā)展情況。如表2所示。
統(tǒng)計結(jié)果將團隊協(xié)作能力進行了分維度考察,在每個維度中,都有相應(yīng)的難度估計值、誤差以及內(nèi)外部擬合度。在本次統(tǒng)計結(jié)果中,數(shù)據(jù)收集能力維度的難度最大,高達0.19,說明這個團隊任務(wù)對成員量化數(shù)據(jù)的收集能力要求較高,也從另一個側(cè)面反映了團隊成員在這方面的能力有待加強。難度最低的是人際交流能力和團隊激勵能力,難度值均為-0.22,說明團隊的任務(wù)對團隊成員的人際交流能力和團隊激勵能力要求較低,或者這個團隊的成員在人際交流能力和團隊激勵能力方面具有較高的水平。內(nèi)外部擬合度也符合測驗要求,測驗結(jié)果有效。
3.3評定等級
評定等級是對計分方式進行考察的主要方法,評定等級的結(jié)果既可以通過客觀精確的評定等級信息表反映出每個等級的難度值以及不同等級之間的難度閾限值,也可以通過評定等級曲線圖直觀形象地反映出評定結(jié)果的等級分布情況。表3反映了各等級的難度值及其難度閾值。
各個評分等級的難度及其閾難度不僅可以反映評分等級設(shè)置的合理性,也可以區(qū)分不同能力水平的被試群體。本次測評采取10點計分,由表格可以看出,沒有評分者打滿分的成績,使用頻率高的是4、5、6、7四個等級。平均難度值隨著等級的增高而增大,預(yù)測到的被試能力也隨之增高。在估計的能力閾限中,較大的分別是1.33和1.78,這說明,若想得到高分值8分或者9分很不容易,必須加倍努力。
為更加形象地了解評定結(jié)果的分布情況,我們還可以通過評定等級曲線圖分析評定結(jié)果。
圖1顯示了9個評定等級的變化概率曲線,覆蓋范圍是-4.0至4.0Logits左右。從圖中可以直觀地看出,各個等級的曲線劃分較為明顯,說明等級設(shè)置合理。7等級和8等級的峰值較大一些,說明這兩個等級所覆蓋的能力范圍的被試獲得這兩個等級的可能性較大,測驗等級設(shè)置的精準性較好。
3.4評分者寬嚴度
評分者在評分過程中,由于對評分準則的把持程度不同,導(dǎo)致不同評分者在評分過程中出現(xiàn)寬嚴程度不一致的現(xiàn)象。統(tǒng)計結(jié)果可以看出每個評分者的平均評分、寬嚴程度等信息,其中寬嚴度的平均值默認為0,數(shù)字越大,說明評分越嚴格(見表4)。
不同的評分者在測評過程中的評分寬松度不一樣。在本次測評中,4位評分者打出的分數(shù)都很接近,都較為寬松。其中A和D的平均觀測值均為5.4分,相對其他兩位較為嚴格一點,C的評分最為寬松,平均分為5.9分。從內(nèi)外部擬合度看,A的擬合性最差,其他三位的評分擬合度都很好。這些說明了C在評分過程中,一直堅持著較為寬松的評分原則。通過卡方分析(χ2(96)=525.9,df=3,p< 0.01)可知,達到了顯著性差異水平,說明4位評分者評分寬嚴度差異較明顯。
3.5測評偏差
測評的偏差反映了評分者在評分過程中會出現(xiàn)動搖、評分一貫性較差等現(xiàn)象。同一評分者從頭至尾是否堅持自己一貫的評分原則將對測評偏差產(chǎn)生重要影響。反映測評偏差的信息主要有評分者與被試間偏差t值變化圖等,通過圖像可以形象地看出4名評分者對每個被試的評分波動性幅度,波動幅度最大的評分者,其評分偏差最大。4名評分者在測評過程中的評分偏差情況如圖2所示。
圖2反映了4個評分者在每位被試上評分的偏差,縱軸表示偏差的t值,t值的變化幅度越大說明被試在評分過程中的一致性越差。一般情況下,由于評分者受到生理疲勞等因素的影響,評分總是會產(chǎn)生動搖,導(dǎo)致偏差。從圖中可以直觀地看出4個評分者在24個被試上評分的寬嚴度變化,其中,變化最大是評分者B,變化幅度是6.6,其評分最不穩(wěn)定,一貫性最差;評分一貫性最好的是評分者A,變化幅度最小,為4.0。其中,在對前幾名被試的評分過程中,評分者A的評分變化很小,有明顯的趨中效應(yīng)。
4討論
多面Rasch模型是IRT中較為常用的模型之一,本文將多面Rasch模型應(yīng)用于大學(xué)生團隊協(xié)作能力測評之中,在國內(nèi)尚屬首例。多面Rasch模型可以將本文所研究的三個側(cè)面置于同一量尺之下進行比較分析,如圖3所示。
從圖3反映的信息可知,評分者的寬嚴度均較低,最嚴格的評分者A和D排在最上面,最寬松的評分者C排在最下面,但4位評分者的寬嚴度均小于0;被試能力水平較高的排在上面,較低者排在下面,形成了中間水平者多、兩端少的格局;測評的9個維度中,難度最高者排在上面,難度低者排在下面,不難看出,數(shù)據(jù)收集能力維度的難度最大,人際交流和團隊激勵能力維度的難度最小,其他6個維度的難度適中,可能是此項活動在人際交流和團隊激勵能力方面對被試的要求較低所致;在評定等級分布中,等級不是等距的,這是受不同被試、不同評分者之間的差異影響所致。
本文通過運用多面Rasch技術(shù),通過FACETS軟件的統(tǒng)計結(jié)果,分別對被試、不同評分者和測驗內(nèi)容三個側(cè)面進行了分析。通過分析發(fā)現(xiàn),本研究的結(jié)果有以下幾點值得注意。
其一,對被試團隊協(xié)作能力及其維度難度的估計。本研究主要從個體間溝通技能上的人際交流能力、團隊評價能力、團隊協(xié)助能力,以及團隊激勵能力和團隊整體運作技能上的問題界定能力、項目分工能力、數(shù)據(jù)收集能力、解讀信息能力和提煉成果能力對被試的團隊協(xié)作能力進行評估,這9個維度的能力均是大學(xué)生職業(yè)發(fā)展中必須具備的能力,所以測評的針對性較強。通過對24名被試的分析發(fā)現(xiàn),這些被試的能力范圍的變化并不大,且內(nèi)外部擬合性也符合相應(yīng)的標準,這論證了測評過程中測評結(jié)果的有效性。
此外,各個維度上的難度也相當(dāng)集中,數(shù)據(jù)收集能力維度的難度較大,說明數(shù)據(jù)收集的工作涉及面復(fù)雜,且要具有較多的耐心和細心。而人際交流能力和團隊激勵能力則成為被試較易獲得的兩項能力,可能是因為這些大學(xué)生平時活動較多,注重此方面的訓(xùn)練。
其二,評分者效應(yīng)和評分等級的分析。評分者寬嚴度在一定程度上影響被試得分,評分者的寬嚴度與被試所得分數(shù)呈負相關(guān),也是造成評分者效應(yīng)的重要因素之一。通過MFRM對測評數(shù)據(jù)進行分析,將各評分者寬嚴度量化處理,為鑒別評分者提供了客觀指標。在統(tǒng)計結(jié)果中,評分的寬嚴度在-0.35至-0.09之間,平均值是-0.18,總體評分規(guī)則較為寬松。其中,評分者C是評分最寬松的,而且其內(nèi)部擬合性也是最接近于1.0的,這揭示了評分者C在評分過程中始終較為寬松,其評分的一貫性也較好。
其三,通過對評分者與被試之間的偏差分析可知,4個評分者均存在評分偏差現(xiàn)象,其中評分者B的波動最大,因此建議在測評之前,對評分者進行評分規(guī)則等事宜的培訓(xùn),這樣會使測評結(jié)果更準確。
本次對大學(xué)生團隊協(xié)作能力的測評可以說是全方位的,形成了多側(cè)面的測評效果,有利于更加有效地測評大學(xué)生的團隊協(xié)作能力,也為測評的改進和發(fā)展提供了方法體系。
5結(jié)論與展望
通過此次測評的統(tǒng)計分析,可以得出以下幾點結(jié)論。
第一,團隊協(xié)作能力是一個多維度的能力,大學(xué)生群體在團隊協(xié)作的各個維度上能力水平有差異,人際交流能力和團隊激勵能力屬于成員個體間溝通技能,大學(xué)生在這兩方面的能力要比團隊整體運作技能方面的能力水平高。
第二,評分者在評分過程中的評分規(guī)則非常寬松,其一貫性也有波動,但測評的結(jié)果未受到太大的影響,測驗結(jié)果具有較好內(nèi)外部擬合度。評分者評分有偏差現(xiàn)象,評分者B的評分偏差最大,應(yīng)該對評分者進行測評規(guī)則的培訓(xùn),以提高測評的有效性。
第三,評定等級的難度隨著等級的增加而增高,等級間的閾難度可以反映被試的努力程度,等級8和9對被試的能力要求較高。評委未對被試打出滿分的成績,等級設(shè)置整體合理。
多面Rasch模型作為一種優(yōu)秀的IRT模型,已經(jīng)在表現(xiàn)性評價中得到廣泛應(yīng)用。但本研究的研究對象僅限于大學(xué)生,且測評規(guī)模較小,這是本研究的一大缺點。本研究是對多面Rasch模型在表現(xiàn)性評價中的應(yīng)用的一次很好的嘗試,隨著研究的不斷發(fā)展,這一方法的應(yīng)用范圍也將更加廣泛。
參考文獻
陳宛玉, 戴海琦. (2013). 教育教學(xué)能力測驗的GT和多面Rasch分析. 考試研究, 38(3), 70-78.
陳艷君. (2014). 多層面Rasch模型在語言評估中的應(yīng)用研究述評. 教育測量與評價:理論版, 6, 9-12.
孫曉敏, 張厚粲. (2007). 結(jié)構(gòu)化面試評定量表的現(xiàn)代測量學(xué)分析. 應(yīng)用心理學(xué), 13(3), 250-256.
孫曉敏, 薛剛. (2008). 多面Rasch模型在結(jié)構(gòu)化面試中的應(yīng)用. 心理學(xué)報, 40(9), 1030-1040.
田清源. (2007). HSK主觀考試評分的Rasch實驗分析. 心理學(xué)探新, 27(1), 65-69.
王忠偉. (2014). 淺談高職院校學(xué)生團隊協(xié)作能力培養(yǎng). 教育與職業(yè), 23, 169-170.
王立君, 黃星艷. (2013). 多面Rasch模型在學(xué)科能力測評中的應(yīng)用. 考試研究, 36(1), 41-50.
晏子. (2010). 心理科學(xué)鄰域的客觀測量——Rasch模型之特點及發(fā)展趨勢. 心理科學(xué)進展, 18(8), 1298-1305.
朱偉峰. (2010). 論大學(xué)生團隊協(xié)作能力培養(yǎng). 中國人才, 10, 53-54.
Bond, T. G., & Fox, C. M. (2007). Applying the Rasch model: Fundamental measurement in the human sciences (2nd ed.). Mahwah, NJ: Lawrence Erlbaum.
Linacre, J. M., & Wright. B. D. (1993). A users guide to FACETS: Rasch model computer program, version 2. 4 for PC compatible computers. Chicago, IL: MESA Press.
Applying the Manyfacet Rasch Model to Analyze the Data
of College Students Teamwork Capability Assessment
HUANG Mingming
(Department of Teacher education, Zhejiang Normal University, Jinhua 321004, China)
Abstract:
In this paper, a university community teamwork project activity was used as the object for teamwork capability assessment. In order to evaluate the effectiveness of teamwork capability assessment, we used the many facets Rasch model to anatyze in the matler of contestants, rater and the content of evaluation in the teamwork assessment. This study firds that most of the contestants are in the middle level of ability and have little difference between them.
The raters are lenient but inconsistent while scoring, and they produce a bisa. Besides, the study
reveals the structure of teamwork capability. Finally, this article provides a reference for developing college students teamwork capability.
Key words: teamwork ability; many facets Rasch model; college students; rater effect
欄目編輯/王抒文終校/王晶晶