張健 吳華章
?
醫(yī)師考核360度評(píng)價(jià)法的可靠性、有效性及可行性的系統(tǒng)研究
張健1吳華章2
【摘要】目的 研究醫(yī)師績(jī)效考核360度評(píng)價(jià)法的可靠性、普遍性、有效性及可行性。方法 檢索EMBASE、MEDLINE及PubMed數(shù)據(jù)庫(kù)中經(jīng)同行評(píng)議過(guò)的、1975~2013年12月發(fā)表的英文文獻(xiàn)。檢索標(biāo)準(zhǔn):使用360度評(píng)價(jià)法工具考核醫(yī)師績(jī)效;有關(guān)360度評(píng)價(jià)法可靠性、概化系數(shù)和建構(gòu)效度的報(bào)道證據(jù);文獻(xiàn)中涉及收集反饋數(shù)據(jù)過(guò)程可行性的信息。結(jié)果 (1)入選43篇同行評(píng)議研究,其中家庭醫(yī)學(xué)、兒科與內(nèi)科專(zhuān)業(yè)各5篇,外科4篇,婦產(chǎn)科3篇,精神病學(xué)3篇,麻醉2篇以及急救醫(yī)學(xué)、實(shí)驗(yàn)病理、組織病理、放射學(xué)、運(yùn)動(dòng)醫(yī)學(xué)和康復(fù)專(zhuān)業(yè)各1篇。(2)38篇(91%)研究由醫(yī)生的醫(yī)療同行完成360度評(píng)價(jià)法調(diào)查問(wèn)卷;32篇(74%)研究由醫(yī)生的非醫(yī)生同事完成,23篇(53%)研究由患者和(或)患者家屬完成,22篇(51%)研究由自我評(píng)價(jià)完成。(3)自我評(píng)價(jià)項(xiàng)目4~57條,醫(yī)療同行評(píng)價(jià)項(xiàng)目4~60條,同事評(píng)價(jià)項(xiàng)目4~60條,患者問(wèn)卷評(píng)價(jià)項(xiàng)目3~49條。(4)26篇(62%)報(bào)道了360度評(píng)價(jià)法工具的可靠性,360度評(píng)價(jià)法工具的α應(yīng)該≥0.90,醫(yī)療同行0.89~0.99,同事0.91~0.96,患者0.93~0.99。17篇(40%)描述了普遍性系數(shù),醫(yī)療同行評(píng)價(jià)工具的普遍性系數(shù)為0.61~0.88,同事評(píng)價(jià)工具為0.56~0.87,患者評(píng)價(jià)工具為0.65~0.85。(5)至少由8名醫(yī)療同行、8名同事和25名患者評(píng)價(jià)才能達(dá)到可靠性系數(shù)≥0.90,普遍性系數(shù)≥0.80的要求。結(jié)論 應(yīng)用360度評(píng)價(jià)法考核醫(yī)師績(jī)效具有較高的可靠性、有效性及可行性。
【關(guān)鍵詞】360度評(píng)價(jià)法;可靠性;可行性;有效性;系統(tǒng)綜述
醫(yī)師績(jī)效考核評(píng)價(jià)對(duì)于提高患者醫(yī)療安全、醫(yī)師專(zhuān)業(yè)技能及人際溝通技巧具有重要意義。目前,考核醫(yī)師績(jī)效已經(jīng)從單一的評(píng)價(jià)臨床專(zhuān)業(yè)技能發(fā)展到對(duì)于醫(yī)師各方面能力的全方位評(píng)價(jià)。360度評(píng)價(jià)法是工作機(jī)構(gòu)評(píng)價(jià)員工專(zhuān)業(yè)技能、行為和態(tài)度的重要方法。1970年代360度評(píng)價(jià)法最初是被醫(yī)療機(jī)構(gòu)用來(lái)考核住院醫(yī)師,目前360度評(píng)價(jià)法已經(jīng)成為北美和歐洲的醫(yī)療機(jī)構(gòu)考核各專(zhuān)業(yè)醫(yī)療技術(shù)人員的重要工具。為了幫助醫(yī)療機(jī)構(gòu)考核醫(yī)師的臨床實(shí)踐和患者醫(yī)療安全,1990年代后期,加拿大最先引進(jìn)了一種可行的360度評(píng)價(jià)法考核醫(yī)師績(jī)效。通常,這種評(píng)價(jià)方法是設(shè)計(jì)一種調(diào)查問(wèn)卷用來(lái)收集各方調(diào)查對(duì)象對(duì)于所調(diào)查醫(yī)師的評(píng)價(jià)反應(yīng)及醫(yī)師的自我評(píng)價(jià)。在360度評(píng)價(jià)法中,被測(cè)評(píng)醫(yī)師可能要完成一項(xiàng)自我評(píng)價(jià)項(xiàng)目,并會(huì)獲得醫(yī)療同事、上級(jí)主管、心理醫(yī)師、護(hù)師、藥師以及他們自己患者等的反饋評(píng)價(jià)。不同的調(diào)查對(duì)象對(duì)于被測(cè)評(píng)醫(yī)師所關(guān)注的焦點(diǎn)是不同的,比如患者不太可能獲知一名醫(yī)師的臨床經(jīng)驗(yàn)如何,因此,這種評(píng)價(jià)法方法綜合考慮了多方面的因素影響,避免了單一考核主體測(cè)評(píng)所帶來(lái)的片面性,實(shí)現(xiàn)全方位測(cè)評(píng)[1]。目前,360度評(píng)價(jià)法主要被用于考核醫(yī)師的臨床專(zhuān)業(yè)技能、溝通能力、與其他醫(yī)療技術(shù)人員的合作能力、職業(yè)道德能力及患者管理能力[2]。本系統(tǒng)研究的目的是探索不同類(lèi)型的360度評(píng)價(jià)法工具在考核醫(yī)師績(jī)效過(guò)程的可靠性、普遍性、有效性及可行性。
1.1檢索策略
選擇MEDLINE、PubMed、EMBASE等數(shù)據(jù)庫(kù)中收錄的1975~2013年12月發(fā)表的經(jīng)同行評(píng)議過(guò)的英文文獻(xiàn)。使用檢索詞“multisource-feedback”、“360 degree evaluation”以限定360度評(píng)價(jià)法相關(guān)研究,并與其他檢索詞(assessment of physician competencies/assessment of physician professionalism/assessment of physician in practice)合并以獲取醫(yī)師考核相關(guān)的研究,并對(duì)所檢索到的文獻(xiàn)中涉及的相關(guān)參考文獻(xiàn)進(jìn)行篩選。
1.2納入與排除標(biāo)準(zhǔn)
納入標(biāo)準(zhǔn):(1)如果研究中應(yīng)用了一個(gè)或多個(gè)360度評(píng)價(jià)法工具(比如自我評(píng)價(jià)、單位同事或患者評(píng)價(jià)反饋)以考核醫(yī)生的綜合績(jī)效;(2)研究中描述了360度評(píng)價(jià)法工具或其設(shè)計(jì)方法;(3)在收集反饋數(shù)據(jù)過(guò)程中報(bào)道了有關(guān)360度評(píng)價(jià)法工具可靠性、普遍性和(或)可行性的心理學(xué)證據(jù);(4)發(fā)表在同行評(píng)議的英文期刊。排除標(biāo)準(zhǔn):(1)應(yīng)用360度評(píng)價(jià)法工具考核醫(yī)學(xué)生或非臨床醫(yī)生專(zhuān)業(yè)人員(如護(hù)士、藥劑師、檢驗(yàn)科醫(yī)師等);(2)無(wú)法提供有關(guān)360度評(píng)價(jià)法心理測(cè)驗(yàn)學(xué)證據(jù)(可靠性和有效性)的足夠信息。
1.3數(shù)據(jù)評(píng)估方法
嚴(yán)格按照文獻(xiàn)檢索策略及納入與排除標(biāo)準(zhǔn)進(jìn)行篩檢,每篇文獻(xiàn)都要經(jīng)過(guò)兩名人員的獨(dú)立評(píng)估與編碼,首先,評(píng)估文獻(xiàn)全文前,先篩選評(píng)估文獻(xiàn)的題目和摘要。文獻(xiàn)篩選完畢后,提取入選文獻(xiàn)信息:360度評(píng)價(jià)法工具名稱(chēng)(如無(wú)特定名稱(chēng),則使用一般名稱(chēng)“360度評(píng)價(jià)法”或者“多維度反饋法”),參評(píng)醫(yī)師專(zhuān)業(yè),參加者數(shù)量,評(píng)估類(lèi)型,360度評(píng)價(jià)法評(píng)估的結(jié)構(gòu)或因素,可行性問(wèn)題,反饋的比例,可靠性/普遍性/組內(nèi)相關(guān)系數(shù),結(jié)構(gòu)和標(biāo)準(zhǔn)相關(guān)的有效性分析。
2.1入選文獻(xiàn)基本情況
通過(guò)數(shù)據(jù)庫(kù)共檢索到1 062篇文獻(xiàn),然后審核文獻(xiàn)題目,入選970篇,進(jìn)一步審核文獻(xiàn)摘要,入選383篇,進(jìn)一步審核文獻(xiàn)全文,入選96篇,排除53篇不合格文獻(xiàn),最終入選43篇同行評(píng)議研究符合本研究標(biāo)準(zhǔn)。
2.2應(yīng)用360度評(píng)價(jià)法被考核醫(yī)生的專(zhuān)業(yè)情況
家庭醫(yī)學(xué)專(zhuān)業(yè)(n=5),兒科專(zhuān)業(yè)(n=5),內(nèi)科專(zhuān)業(yè)(n=5),外科專(zhuān)業(yè)(n=4),婦產(chǎn)科專(zhuān)業(yè)(n=3),精神病學(xué)專(zhuān)業(yè)(n=3),麻醉專(zhuān)業(yè)(n=2),急救醫(yī)學(xué)專(zhuān)業(yè)(n=1),實(shí)驗(yàn)病理專(zhuān)業(yè)(n=1),組織病理專(zhuān)業(yè)(n=1),放射專(zhuān)業(yè)(n=1),運(yùn)動(dòng)醫(yī)學(xué)專(zhuān)業(yè)(n=1)及康復(fù)專(zhuān)業(yè)(n=1)。
2.3調(diào)查問(wèn)卷的評(píng)估者及評(píng)估項(xiàng)目長(zhǎng)度
43篇研究中,38篇(91%)研究由醫(yī)生的醫(yī)療同行完成360度評(píng)價(jià)法調(diào)查問(wèn)卷;32篇(74%)研究由醫(yī)生的非醫(yī)生同事完成,23篇(53%)研究由患者和(或)患者家屬完成,22篇(51%)研究由自我評(píng)價(jià)完成。360度評(píng)價(jià)法調(diào)查問(wèn)卷的涉及項(xiàng)目多少隨評(píng)估者不同,其中自我評(píng)價(jià)項(xiàng)目4~57條,醫(yī)療同行評(píng)價(jià)項(xiàng)目4~60條,同事評(píng)價(jià)項(xiàng)目4~60條,患者問(wèn)卷評(píng)價(jià)項(xiàng)目3~49條。醫(yī)生評(píng)估審查研究對(duì)評(píng)估者應(yīng)用了多種360度評(píng)價(jià)法工具,患者評(píng)價(jià)項(xiàng)目11~40條,同事評(píng)價(jià)項(xiàng)目12~22條,醫(yī)療同行評(píng)價(jià)項(xiàng)目22~39條,自我評(píng)價(jià)項(xiàng)目21~39條。其中2篇研究中醫(yī)學(xué)生也被納入評(píng)估者行列。
2.4評(píng)價(jià)指標(biāo)
360度評(píng)價(jià)法可以評(píng)價(jià)的項(xiàng)目包括:職業(yè)道德、臨床技能、溝通能力、管理能力及人際關(guān)系。職業(yè)道德又包括一系列社會(huì)心理學(xué)技能指標(biāo),職業(yè)責(zé)任感,人文素養(yǎng),同情心,職業(yè)態(tài)度及職業(yè)發(fā)展觀(guān)等。臨床技能包括臨床護(hù)理,良好的臨床實(shí)踐能力,患者護(hù)理,安全實(shí)踐能力,臨床技能,臨床知識(shí),批判性思維,診斷及復(fù)雜問(wèn)題的處理能力。溝通能力、管理能力及人際關(guān)系項(xiàng)目同樣也包括一系列評(píng)價(jià)指標(biāo)。
2.5評(píng)價(jià)過(guò)程及可行性情況
每篇研究均描述了評(píng)價(jià)過(guò)程的一般情況信息和(或)可行性情況。研究者均認(rèn)為,當(dāng)360度評(píng)價(jià)法工具用于患者、同事及醫(yī)療同行并結(jié)合醫(yī)生自我評(píng)價(jià)時(shí)是有效的。一些研究者認(rèn)為,當(dāng)涉及醫(yī)生的關(guān)鍵績(jī)效指標(biāo)考核時(shí),反饋意見(jiàn)有可能會(huì)在實(shí)際應(yīng)用時(shí)改變。也有研究認(rèn)為,應(yīng)用360度評(píng)價(jià)法工具考核每名醫(yī)生的估計(jì)成本是可行的,但是建議每五年對(duì)醫(yī)生進(jìn)行一次重估。有一篇研究對(duì)家庭醫(yī)生進(jìn)行了考核,并在5年后又進(jìn)行了一次重評(píng),以此來(lái)評(píng)估考核指標(biāo)的穩(wěn)定性。在一些研究中,應(yīng)用360度評(píng)價(jià)法工具考核多專(zhuān)業(yè)醫(yī)生的過(guò)程是可行而易接受的,比如兒科專(zhuān)業(yè)、外科專(zhuān)業(yè)、急救專(zhuān)業(yè)、家庭醫(yī)生專(zhuān)業(yè)、精神病學(xué)專(zhuān)業(yè)。
2.6360度評(píng)價(jià)法工具的可靠性及普遍性
26篇(62%)研究報(bào)道了360度評(píng)價(jià)法工具的可靠性。可靠性系數(shù)一般用α表示,反映了各指標(biāo)條目間的內(nèi)部一致性。360度評(píng)價(jià)法工具的α應(yīng)該≥0.90,醫(yī)療同行0.89~0.99,同事0.91~0.96,患者0.93~0.99。只有一篇研究將醫(yī)療同行和同事合并,可靠性系統(tǒng)α=0.98。其中5篇研究計(jì)算了標(biāo)準(zhǔn)誤差。17篇(40%)研究描述了普遍性系數(shù)(Ep2)。醫(yī)療同行評(píng)價(jià)工具的普遍性系數(shù)為0.61~0.88,同事評(píng)價(jià)工具為0.56~0.87,患者評(píng)價(jià)工具為0.65~0.85。大多數(shù)評(píng)價(jià)工具至少由8名醫(yī)療同行、8名同事和25名患者評(píng)價(jià)才能得出可靠性系數(shù)≥0.90,普遍性系數(shù)≥0.80的結(jié)果。
360度評(píng)價(jià)法是目前廣受?chē)?guó)內(nèi)外企業(yè)界高度關(guān)注的個(gè)人能力和企業(yè)績(jī)效評(píng)價(jià)方法,它以心理測(cè)量學(xué)的真分?jǐn)?shù)理論為基礎(chǔ),以促進(jìn)個(gè)人發(fā)展、重視信息反饋、講求實(shí)事求是和全方位、多角度觀(guān)察問(wèn)題為核心理念,有特定的適用范圍和實(shí)施程序。一篇系統(tǒng)綜述研究表明,應(yīng)用360度評(píng)價(jià)法對(duì)各專(zhuān)業(yè)醫(yī)生進(jìn)行考核是可行的,尤其應(yīng)用自我評(píng)價(jià)、醫(yī)療同行評(píng)價(jià)、同事評(píng)價(jià)和患者評(píng)價(jià)時(shí)。大多數(shù)研究描述了應(yīng)用360度評(píng)價(jià)法工具考核醫(yī)生績(jī)效時(shí)的可靠性、普遍性及有效性情況,并且這項(xiàng)評(píng)價(jià)法已經(jīng)在加拿大和英國(guó)應(yīng)用了10余年。還有一些來(lái)自美國(guó)的360度評(píng)價(jià)法工具應(yīng)用研究,每項(xiàng)研究均將重點(diǎn)聚焦在一項(xiàng)新的360度評(píng)價(jià)法工具開(kāi)發(fā)或現(xiàn)存360度評(píng)價(jià)法工具的修改版及指南評(píng)估方面。
一般來(lái)說(shuō),應(yīng)用360度評(píng)價(jià)法工具考核醫(yī)生績(jī)效至少應(yīng)招募8名醫(yī)療同行、8名同事和25名患者,結(jié)果才能達(dá)到可靠性系數(shù)≥0.90,普遍性系數(shù)≥0.80的要求。盡管有一系列的評(píng)價(jià)項(xiàng)目可以考核醫(yī)生,但是360度評(píng)價(jià)法工具中最關(guān)鍵的5項(xiàng)是職業(yè)道德、臨床技能、溝通能力、管理能力及人際關(guān)系。大多數(shù)研究提供了360度評(píng)價(jià)法工具的建構(gòu)效度。一般來(lái)說(shuō),患者評(píng)價(jià)醫(yī)生傾向于更積極的評(píng)價(jià),其次為同事,住院醫(yī)師和教學(xué)顧問(wèn),而Lodckyer 等[3]研究發(fā)現(xiàn),在一所國(guó)際性醫(yī)學(xué)院中,自我評(píng)價(jià)的分?jǐn)?shù)要比其他人評(píng)價(jià)的分?jǐn)?shù)更高。雖然360度評(píng)價(jià)法調(diào)查問(wèn)卷的建構(gòu)效度在一定合理區(qū)間內(nèi),一些研究指出,醫(yī)生考核的評(píng)價(jià)項(xiàng)目得分在醫(yī)生不同專(zhuān)業(yè)間存在不同,比如在不同醫(yī)生專(zhuān)業(yè)間,方差比例與患者管理、臨床評(píng)價(jià)、溝通能力和(或)職業(yè)發(fā)展有關(guān)[4-7]。Lockyer JM和Violato C[5]研究發(fā)現(xiàn),應(yīng)用360度評(píng)價(jià)法在醫(yī)療同行間進(jìn)行問(wèn)卷調(diào)查,在患者管理、臨床評(píng)價(jià)、溝通能力和職業(yè)發(fā)展這四項(xiàng)指標(biāo)得分中,內(nèi)科專(zhuān)業(yè)方差為73.4%,精神病學(xué)專(zhuān)業(yè)為70%,而兒科專(zhuān)業(yè)僅為67.6%。
盡管本系統(tǒng)研究非常嚴(yán)格,然而仍存在一些局限性。首先,應(yīng)用360度評(píng)價(jià)法工具和評(píng)價(jià)項(xiàng)目的數(shù)量會(huì)存在不均質(zhì)性問(wèn)題,而且單獨(dú)應(yīng)用一項(xiàng)360度評(píng)價(jià)法工具考核醫(yī)生是困難的,不論這項(xiàng)工具多有效。其次,應(yīng)用360度評(píng)價(jià)法考核醫(yī)生的可行性主要依賴(lài)于所報(bào)告的評(píng)估反饋率比例,而不是醫(yī)生考核所涉及的成本和管理方面的問(wèn)題。第三,由于不同文獻(xiàn)報(bào)告的可靠性和有效性指標(biāo)的不同,很難將不同報(bào)告的指標(biāo)進(jìn)行統(tǒng)一。最后,本研究?jī)H限于英文的同行評(píng)議研究文獻(xiàn),并不能全面反映360度評(píng)價(jià)法的實(shí)際應(yīng)用情況。
綜上所述,應(yīng)用360度評(píng)價(jià)法工具對(duì)醫(yī)生績(jī)效進(jìn)行考核是可靠、有效而可行的,360度評(píng)價(jià)法將繼續(xù)在醫(yī)生績(jī)效考核中發(fā)揮重要作用。而目前有關(guān)醫(yī)生績(jī)效考核的理論、方法很多,所考核內(nèi)容的側(cè)重點(diǎn)各有不同,而盡快制定出科學(xué)、實(shí)用、適用于各級(jí)不同類(lèi)型醫(yī)院的績(jī)效評(píng)估指標(biāo)體系,已成為醫(yī)院科學(xué)化管理的必然趨勢(shì)[8]。
參考文獻(xiàn)
[1] Sala F,Dwight S. Predicting executive performance with multi-rater surveys: Whom you ask makes a difference[J]. J Consult Psych Res Pract,2002(54):166-172.
[2]Fidler H, Lockyer J, Violato C. Changing physicians' practices: The effect of individual feedback[J]. Acad Med,1999,74(6):702-714.
[3] Lockyer J, Blackmore D, Fidler H, et al. A study of multi-source feedback system for international medical graduates holding defined licences[J]. Med Educ,2006,40(4):340-347.
[4]Violato C, Lockyer J. Self and peer assessment of pediatricians,psychiatrists and medicine specialists: Implications for self-directed learning[J]. Adv Health Sci Educ Theory Pract,2006,11(3):235-244.
[5]Lockyer JM, Violato C. An examination of the appropriateness of using a common peer assessment instrument to assess physician skills across specialties[J]. Acad Med,2004,79(10 suppl):S5-S8.
[6]Archer J, McGraw M, Davies H. Assuring validity of multisource feedback in a national programme[J]. Postgrad Med J,2010,86 (1019):526-531.
[7]Ramsey PG, Wenrich MD, Carline JD, et al. Use of peer ratings to evaluate physician performance[J]. JAMA,1993,269(13):1655-1660.
[8]金新政,籍國(guó)章. 醫(yī)院經(jīng)營(yíng)管理績(jī)效考核方法的研究[J]. 中國(guó)醫(yī)院統(tǒng)計(jì),2004,11(3):258-262.
A Systematic Review of the Reliability, Validity and Feasibility of 360-degree Evaluation Physician Assessment
ZHANG Jian1WU Huazhang2, 1 Stomatology College of Chinese Medical University, Shenyang 110002, China, 2 Chinese Medical University, Shenyang 110122, China
[Abstract]Objective To investigate the reliability, validity, and feasibility of 360-degree evaluation for the assessment of physicians. Methods We searched the EMBASE, MEDLINE and PubMed databases for peerreviewed, English-language articles published from 1975 to December 2013. Studies inclusion criteria was following: used 360-degree evaluation instruments to assess physician performance; reported psychometric evidence of the 360-degree evaluation instruments in the form of reliability, coefficients, and construct or criterion-related validity; and information regarding the feasibility of the feedback data. Results (1) A total of 43 articles were included, the specialties as following: family medicine(n=5), pediatrics(n=5), internal medicine(n=5), surgery(n=4),obstetricsgynecology(n=3), psychiatry(n=3), anesthesia(n=2), and emergency medicine(n=1), pathology(n=1), histopathology(n=1), radiology(n=1). (2) A total of 38(91%) studies were completed by the physicians’peers or medical colleagues, and nonphysician coworkers(n=32,74%), patients(n=23,53%), and self-assessments(n=22,51%). (3) The number of items was 4 to 57 items for self-assessment, 4 to 60 items for peers, 3 to 49 items for patient questionnaires. (4) The reliability of the 360-degree evaluation instruments was reported in 26(62%) of the studies. The instruments should have anα≥0.90, and medical colleague(0.89 to 0.99), coworker (0.91 to 0.96), and patient(0.93 to 0.99). The generalizability coeficients were derived in 17 studies(40%), and the coefficients for the medical colleague instrument ranged from 0.61 to 0.88, 0.56 to 0.87 for the coworker instrument, and 0.65 to 0.85 for patient instrument. (5) The assessment of physician performance was based on the completion of the 360-degree evaluation instruments by 8 medical colleagues, 8 coworkers, and 25 patients to achieve α≥0.90 and coeficients≥0.80, respectively. Conclusion The 360-degree evaluation as a method to assess physicians has been shown to have high reliability, validity, and feasibility.
[Key words]360-degree evaluation, Reliability, Validity, Feasibility, Systematic review
通訊作者:張健,E-mail:99982025@qq.com
doi:10.3969/j.issn.1674-9308.2016.03.001
【文章編號(hào)】1674-9308(2016)03-0001-03
【中圖分類(lèi)號(hào)】R197
【文獻(xiàn)標(biāo)識(shí)碼】A
作者單位:1 110002沈陽(yáng),中國(guó)醫(yī)科大學(xué)口腔醫(yī)學(xué)院;2 110122沈陽(yáng),中國(guó)醫(yī)科大學(xué)人文社科學(xué)院