涂文記,趙峻,徐薇薇,張勤
1.中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)學(xué)院教務(wù)處,北京 100730;2.中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院教育處,北京 100730;3.中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院黨委,北京 100730
國務(wù)院于2020 年頒布了《深化新時代教育評價改革總體方案》,明確提出要創(chuàng)新學(xué)生評價,完善德智體美勞過程性評價,并健全綜合素質(zhì)評價體系。為改善醫(yī)學(xué)生評價體系,北京協(xié)和醫(yī)學(xué)院針對長學(xué)制八年制臨床醫(yī)學(xué)生設(shè)計了“以勝任力為導(dǎo)向的醫(yī)學(xué)測評綜合體系”[1]。醫(yī)學(xué)培養(yǎng)是一個漫長的過程,特別是對于八年制長學(xué)制醫(yī)學(xué)生而言。目前我國臨床醫(yī)學(xué)多為分段式培養(yǎng),分為臨床前和臨床階段的學(xué)習(xí)。北京協(xié)和醫(yī)學(xué)院的臨床醫(yī)學(xué)八年制培養(yǎng)模式一直沿襲創(chuàng)校初期的三段式,即預(yù)科階段、基礎(chǔ)醫(yī)學(xué)階段和臨床階段。這種培養(yǎng)模式旨在讓學(xué)生逐步從基礎(chǔ)知識學(xué)習(xí)過渡到臨床實踐,為未來的醫(yī)生職業(yè)打下堅實的基礎(chǔ)。從總體上看,當(dāng)前臨床醫(yī)學(xué)專業(yè)教育存在以下核心問題:①學(xué)生報考醫(yī)學(xué)院的心理準(zhǔn)備不足。許多高中畢業(yè)生在報考醫(yī)學(xué)院時,并未充分認(rèn)識到醫(yī)學(xué)專業(yè)的挑戰(zhàn)性和長期學(xué)習(xí)的艱辛。部分學(xué)生是由于家庭成員的影響而選擇醫(yī)學(xué)專業(yè),他們對醫(yī)學(xué)并無深刻了解,更未培養(yǎng)出對醫(yī)學(xué)的深厚興趣。還有一部分學(xué)生對醫(yī)學(xué)的了解僅限于一些理想化的概念,他們在面對實際醫(yī)學(xué)學(xué)習(xí)的困難和挑戰(zhàn)時,往往感到迷茫和動搖。②預(yù)科教育與醫(yī)學(xué)教育的銜接有待改善。當(dāng)前,基礎(chǔ)醫(yī)學(xué)和臨床醫(yī)學(xué)之間的脫節(jié)現(xiàn)象仍然存在。這種脫節(jié)不僅表現(xiàn)在課程設(shè)置和教學(xué)內(nèi)容上,還反映在學(xué)生的思維方式和學(xué)習(xí)習(xí)慣上。這種現(xiàn)象給學(xué)生的學(xué)習(xí)帶來了困擾,也給他們的專業(yè)成長帶來了障礙。③醫(yī)學(xué)生的分流出口制度不完善。為此,北京協(xié)和醫(yī)學(xué)院針八年制醫(yī)學(xué)生設(shè)計了“預(yù)科”與“基礎(chǔ)”銜接綜合測試,包括多站迷你面試(Multiple Mini-interview, MMI)的考核形式,希望通過“以考促學(xué)”的方式促進(jìn)學(xué)生學(xué)習(xí)。目前國內(nèi)較少對多站迷你面試進(jìn)行應(yīng)用實踐研究,對考試質(zhì)量的研究更多采用經(jīng)典測量理論(classical test theory, CTT)。為了更好地分析考試的質(zhì)量,本研究采用概化理論分析考試的質(zhì)量。
概化理論是一種現(xiàn)代心理測量理論,廣泛應(yīng)用于心理與教育測量領(lǐng)域[2]。其優(yōu)點在于能夠精確定位測量誤差的多個來源,從而更好地理解測量結(jié)果的準(zhǔn)確性。概化研究的目的是在明確測量目標(biāo)和測量側(cè)面的前提下,盡可能探明研究設(shè)計中各種測量誤差的來源和結(jié)構(gòu)[3]。這有助于提高測量的精度和可靠性,為研究和應(yīng)用提供更準(zhǔn)確的數(shù)據(jù)支持。概化系數(shù)是指從一個測驗的被試得分拓廣到測驗程序同等接受度的條件全域中,被試均分估計的準(zhǔn)確性[4]。這個系數(shù)被定義為全域分?jǐn)?shù)方差與其和相對誤差方差兩者之和的比率,它反映了測量結(jié)果的精確度和可靠性。通過計算概化系數(shù),可以對不同測驗程序下被試得分的差異進(jìn)行比較,進(jìn)一步評估測量程序的優(yōu)劣和改進(jìn)方向[5]。計算表達(dá)式為:
在公式1 中,Eρ2代表的是概化系數(shù),而δ2(p)則表示全域分?jǐn)?shù)的方差分量,即測量目標(biāo)的方差。同時,δ2(δ)表示的是相對誤差方差,它是由與測量目標(biāo)相關(guān)的測量側(cè)面交互作用所產(chǎn)生的方差之和。
概化理論分為概化研究(G study)和決策研究(D study)。決策研究旨在根據(jù)特定的決策需求,通過概化研究得到的方差分量估計值來調(diào)整測量過程中的各方面關(guān)系。這包括調(diào)整不同側(cè)面的樣本水平、調(diào)整各個側(cè)面之間的關(guān)系、改變不同變量的權(quán)重等,以探索如何控制和調(diào)節(jié)測量誤差[6]。楊志明等[7]的研究表明,多元概化理論為提高考試測量效果、降低測量誤差提供了新的視角和方法,尤其在研究涉及多個相關(guān)學(xué)科因子的綜合考試方面具有獨特優(yōu)勢。
本文旨在運用多元概化理論評估臨床醫(yī)學(xué)生的MMI 的可靠性。通過評估,可以進(jìn)一步優(yōu)化考試設(shè)計,發(fā)現(xiàn)并解決考試過程中可能存在的問題,為改進(jìn)MMI 的藍(lán)圖設(shè)計和考站評分方案提供參考依據(jù),從而確保更高質(zhì)量的考試效果。
選取已實施的4 個考站MMI 的為研究對象,考試主題有:溝通交流能力(中、英文)、自我管理能力(模擬場景)、幫助他人的意愿與能力(愛傷)??荚囁{(lán)圖見表1,考試結(jié)果詳見表2。
表1 八年制醫(yī)學(xué)生多站迷你面試藍(lán)圖
表2 醫(yī)學(xué)生MMI 考試成績及描述統(tǒng)計
計算采用瑞士教育研究學(xué)會教育測量研究小組設(shè)計(Swiss Society for Research in Education Working Group)的概化理論軟件EduG -6e,根據(jù)概化理論的原理及軟件使用說明,把醫(yī)學(xué)生(Participant)作為測量目標(biāo),考試分成平行的2 組(G)作為測量側(cè)面1,4 人/輪/組開展,作為測量側(cè)面2,考站(Station 考站序號與評分者(Rater)分別作為測量側(cè)面3和4。兩組考生同時進(jìn)行考試,考站(Station)共有四個??忌c組別之間存在一種嵌套關(guān)系,可以表示為R:C:G。在每個考站,由兩位??漆t(yī)生作為評分者,這表明考官與考站之間也存在相互嵌套的關(guān)系,記為R:S,概括而言,考試的設(shè)計為[學(xué)生(P):輪次(C):組別(G)]×[考官(R):考站(S)]多元概化理論分析,見表3。
表3 多元概化理論研究設(shè)計
按照研究設(shè)計,將各個考站的原始分錄入EduG 軟件中,運行之后得到小組(G)、同組內(nèi)不同輪次(C:G)、學(xué)生(在組內(nèi)輪轉(zhuǎn)的學(xué)生P:C:G)、考站(S)、小組與考站(GS)、不同小組的考官與考站之間(GD:S)、不同輪次的考站與組別之間(CS:G)、不同輪次的考官及不同組別的考站之間(CR:GS)、考生與考官及輪次及組別之間(PS:C:G)、考生與考官及輪次及不同組別的考站之間(PR:C:GS)交互作用的方差估計矩陣,見表4。
表4 方差分析(Analysis of variance)結(jié)果
最終計算絕對概化系數(shù)為0.92,信度系數(shù)較高,見表5。
EduG 提供了G-Facets 分析的功能,它可以評估當(dāng)移除某個考站后,整體考試的信度變化情況。如果移除其他任何一個考站,考試的相對信度系數(shù)仍然在0.90 以上。見表6。因此,可以得出結(jié)論,該考試的設(shè)計具有較高的可靠性,并且可以有效地評估考生的能力水平。
表6 去掉某個考站后信度分析
D 研究結(jié)果表明,現(xiàn)有的5 個考站的考試方式已經(jīng)具備了較高的考試信度,相對G 系數(shù)達(dá)到0.95。進(jìn)一步增加考試站點會導(dǎo)致考試信度略有提升。當(dāng)站點數(shù)目增加至6 個時,相對G 系數(shù)將提高至0.96,見表7。
表7 D 研究
概化理論是對經(jīng)典測量理論的升華,它借助實驗設(shè)計和方差分析技術(shù),以實現(xiàn)對測評情境中各類誤差的細(xì)致分解與有效控制。該理論框架包括G研究和D 研究兩個部分。其中,G 研究主要關(guān)注測量目標(biāo)與測量方面的關(guān)聯(lián),而D 研究則在此基礎(chǔ)上,通過巧妙轉(zhuǎn)化隨機方面為固定方面,從而獲取最高的概化系數(shù),以便優(yōu)選最佳的測量方案。概化理論在解決許多現(xiàn)實能力測評問題方面具有廣泛的應(yīng)用價值,尤其在醫(yī)學(xué)領(lǐng)域的臨床技能多情景考試評價中表現(xiàn)突出。
本研究借助多元概化理論深入剖析了長學(xué)制醫(yī)學(xué)生MMI 考試。此次考試具有較高的信度,其相對G 系數(shù)達(dá)到了0.95,絕對G 系數(shù)為0.92,充分證明了該長學(xué)制設(shè)置的合理性。方差估計的結(jié)果顯現(xiàn),兩個小組之間的考生成績存在較大差異??忌姆讲钬暙I(xiàn)率最為突出,這再次證實了考生間在考試能力上存在較大差異,而非考試本身的影響。進(jìn)一步的研究發(fā)現(xiàn),不同組之間的考生與考站交互作用對誤差的貢獻(xiàn)率最大(56.9%),這表明兩組考生在面對相同的考站時,表現(xiàn)出的能力存在顯著的差異。另外,從組別與考站之間的交互作用對誤差的貢獻(xiàn)率為26.5%來看,也再次證明了兩組考生之間在能力上存在一定差距,其中一組考生的總體能力似乎更勝一籌。為了真正達(dá)到以考促學(xué)的目的,針對這一結(jié)果,可以對兩組考生進(jìn)行更為深入的分析,探究導(dǎo)致差異的原因。此外,考慮到提高考試信度,將考站數(shù)量增設(shè)為6 個是必要的,這將使考試的相對概化系數(shù)提高至0.96。
醫(yī)學(xué)是一門實踐性很強的學(xué)科,為了更好地促進(jìn)即將進(jìn)入基礎(chǔ)醫(yī)學(xué)學(xué)習(xí)階段的學(xué)生了解臨床醫(yī)學(xué)在實際實踐中所應(yīng)具備的溝通能力、隨機應(yīng)變能力、時間和空間管理能力,在學(xué)生從綜合性大學(xué)進(jìn)入醫(yī)學(xué)院學(xué)習(xí)基礎(chǔ)醫(yī)學(xué)知識增加一次“銜接”MMI考試非常的有必要。MMI 主要考察非認(rèn)知方面的職能,以考察醫(yī)學(xué)生所應(yīng)具備的綜合素質(zhì)。傳統(tǒng)的筆試在評估醫(yī)學(xué)生的醫(yī)學(xué)素養(yǎng)方面存在諸多局限性,因此,如何科學(xué)客觀地評價MMI 考核指標(biāo)體系的有效性和科學(xué)性成為了當(dāng)前醫(yī)學(xué)教育評估中的重要問題。本文運用多元概化理論對長學(xué)制醫(yī)學(xué)生MMI 結(jié)果進(jìn)行了深入研究。多元概化理論能夠客觀科學(xué)地評估長學(xué)制醫(yī)學(xué)生MMI 考試結(jié)果,同時對于提升和優(yōu)化醫(yī)學(xué)生醫(yī)學(xué)素養(yǎng)的考核質(zhì)量具有積極的推動作用。