陳耀龍,楊克虎
蘭州大學(xué)循證醫(yī)學(xué)中心/蘭州大學(xué)基礎(chǔ)醫(yī)學(xué)院 甘肅省循證醫(yī)學(xué)與臨床轉(zhuǎn)化重點實驗室 WHO指南實施與知識轉(zhuǎn)化合作中心 GRADE中國中心, 蘭州 730000
近年來,隨著臨床實踐指南數(shù)量的不斷增長和影響力的不斷擴大,醫(yī)務(wù)人員對指南的關(guān)注度也越來越高。國內(nèi)相繼發(fā)表了很多指南方法學(xué)相關(guān)論文,主要可分為兩類:一是應(yīng)用AGREE (Appraisal of Guidelines for Research & Evaluation)或AGREE Ⅱ工具評價國內(nèi)外指南的質(zhì)量;二是探討指南制訂過程中存在的主要問題或面臨的挑戰(zhàn)。然而,除了發(fā)現(xiàn)和提出問題,更重要的是分析和解決問題。因指南的制訂和實施從來都不是相互獨立的,指南制訂者面臨的誤區(qū)其實也是指南使用者在應(yīng)用過程中會遇到的困惑;而指南報告規(guī)范既可協(xié)助制訂者更加全面、清晰和透明地報告指南,也有助于使用者快速理解、評價和應(yīng)用指南。筆者基于制訂不同國家、不同學(xué)科和領(lǐng)域指南的經(jīng)驗,結(jié)合我國臨床指南的實際情況,首次既從指南制訂者的角度,就指南制訂過程中存在的3大普遍誤區(qū)進行深入探討;亦從指南使用者的角度,就如何利用指南報告規(guī)范指導(dǎo)現(xiàn)有指南的實施進行分析,旨在為指南制訂者和使用者互通架起一座橋梁。
1990年,美國醫(yī)學(xué)科學(xué)院(Institute of Medicine, IOM)首次將臨床實踐指南(clinical practice guidelines, CPGs,以下簡稱指南)定義為“針對特定的臨床情況,系統(tǒng)制訂的幫助醫(yī)務(wù)人員和患者作出恰當(dāng)處理決定的指導(dǎo)建議(推薦意見)”[1- 2],該定義很快被全球廣泛認可和接受。1993年“實踐指南(Practice Guidelines)”被MEDLINE數(shù)據(jù)庫收錄為主題詞,并于2008年更新[3]。2011年,隨著循證醫(yī)學(xué)的發(fā)展及其對指南的影響,IOM對指南定義進行了更新:“指南是基于系統(tǒng)評價的證據(jù)和平衡了不同干預(yù)措施的利弊,在此基礎(chǔ)上形成的能為患者提供最佳保健服務(wù)的推薦意見”[4]。IOM同時發(fā)布了制訂指南應(yīng)遵循的6大原則:(1)指南應(yīng)基于當(dāng)前可得證據(jù)的系統(tǒng)評價;(2)指南制訂小組應(yīng)由多學(xué)科專家組成,小組成員應(yīng)納入與指南有關(guān)的團體或機構(gòu)代表;(3)指南應(yīng)恰當(dāng)考慮不同的亞組患者,以及患者的意愿和價值觀;(4)指南制訂過程應(yīng)清晰透明,最大程度減少偏倚與利益沖突;(5)指南應(yīng)詳述干預(yù)措施和健康結(jié)局之間的關(guān)系,以及對證據(jù)質(zhì)量和推薦強度進行分級;(6)當(dāng)有新的研究證據(jù)出現(xiàn)時,應(yīng)及時對指南進行更新[4]。
當(dāng)前我國中文期刊發(fā)表的指南數(shù)量增長迅速(圖1),其范圍不僅僅局限于臨床醫(yī)學(xué),已擴展到包括護理、藥學(xué)、中醫(yī)等整個衛(wèi)生系統(tǒng),以及其他非醫(yī)學(xué)領(lǐng)域[5- 7]。在同一領(lǐng)域,不同國家和組織制訂了大量相似或相關(guān)的指南,但這些指南的質(zhì)量往往參差不齊,部分推薦意見也大相徑庭。例如,2017年美國心臟協(xié)會(American Heart Association,AHA)發(fā)表了新版指南[8],高血壓被重新定義為130/80 mm Hg(1mm Hg=0.133KPa)。國內(nèi)外對此新定義存在爭議,已經(jīng)定稿的《中國高血壓防治指南(2017年修訂版)》,將高血壓仍然定義為140/90 mm Hg[9- 11]。2018年美國醫(yī)師協(xié)會(American College of Physicians,ACP)發(fā)布的指南推薦,對于絕大多數(shù)2型糖尿病患者而言,糖化血紅蛋白應(yīng)控制在7%~8%之間[12],不同于美國糖尿病學(xué)會(American Diabetes Association,ADA)、美國臨床內(nèi)分泌醫(yī)師協(xié)會(American Association of Clinical Endocrinologists,AACE)指南[13- 14]推薦的≤6.5%,以及中國推薦的<7%[15],由此引起了學(xué)術(shù)界和臨床關(guān)于血糖值的爭議與辯論[16- 17]。如何循證地制訂指南,以及合理解讀和應(yīng)用指南,是醫(yī)務(wù)人員亟須解決的重要問題。
對于大部分指南制訂者而言,希望指南能夠涵蓋盡可能廣泛的主題和內(nèi)容。從結(jié)構(gòu)上,要先寫明疾病的定義、發(fā)病機制、病理生理、診斷、鑒別診斷、基礎(chǔ)治療、藥物治療、非藥物治療、預(yù)后、康復(fù)等各個方面,類似大綜述或教科書。僅在藥物治療方面,也希望盡可能涵蓋當(dāng)前所有相關(guān)的藥物,類似濃縮版的藥典。該類指南由于過度追求大而全,一方面受限于人力、經(jīng)費和時間,無法把每一部分真正寫細寫好;另一方面,對于指南的使用者而言,由于此類指南無法解決其具體臨床問題,故實用性往往有限。高質(zhì)量的指南,首先要做的是對臨床一線醫(yī)師進行深入調(diào)研,收集其普遍關(guān)心和關(guān)注的臨床問題,在此基礎(chǔ)上優(yōu)選出最重要的一部分問題進行回答。一部指南的好壞,與其篇幅大小無直接關(guān)系,而是與其能否針對性回答臨床醫(yī)生的問題有關(guān)。例如,《2016中國痛風(fēng)診療指南》[18],該指南制訂小組調(diào)查了全國101家醫(yī)院的285名風(fēng)濕免疫科醫(yī)師,收集到125個臨床問題,最終回答了12個最重要的臨床問題,并形成12條推薦意見。該版指南中未涵蓋的臨床問題,會在后期更新時再納入;2018年ACP發(fā)布的痛風(fēng)指南[19],僅包含了4條推薦意見。
圖11993至2016年我國中文期刊發(fā)表的指南數(shù)量(n=664)
國內(nèi)指南制訂領(lǐng)域普遍存在的一個誤區(qū),即只有高質(zhì)量證據(jù),特別是有大量隨機對照試驗證據(jù)存在的情況下,才能夠制訂出高質(zhì)量的指南,否則只能制訂專家共識甚或連共識都無法制訂。事實上,指南質(zhì)量的高低與其納入證據(jù)質(zhì)量的高低并無直接關(guān)系,而是與其制訂過程的透明性和規(guī)范性,以及推薦意見的獨立性和清晰性有關(guān)[20]。國際上公認的評價指南制訂質(zhì)量的AGREE Ⅱ標準[21]里,尚無一條關(guān)于“因納入低質(zhì)量的證據(jù)而影響了指南質(zhì)量”的判斷。多學(xué)科制訂小組(特別是有循證醫(yī)學(xué)方法學(xué)家參與)、明確的證據(jù)搜集和評價過程以及恰當(dāng)?shù)睦鏇_突管理才是決定指南質(zhì)量高低的決定性因素。然而,這幾點往往被國內(nèi)指南制訂者所忽略。
目前國內(nèi)大量出現(xiàn)的專家共識,被視為級別次于臨床實踐指南的一種行業(yè)規(guī)范,但專家共識這一術(shù)語本質(zhì)上代表了一種為了達成指南中的推薦意見而采納的方法或途徑。任何指南均需要參與專家“集體共識”的過程,因為研究證據(jù)不可能自動轉(zhuǎn)化為推薦意見,必須基于專家對證據(jù)以及影響推薦意見的其他因素的綜合評估和判斷,才能產(chǎn)生推薦的內(nèi)容。相對的,任何專家共識,也均需要當(dāng)前可得證據(jù)的支撐,無論其質(zhì)量高低。大部分情況下,指南制訂者們所謂的缺乏證據(jù),主要指缺乏高質(zhì)量的直接證據(jù),但大量觀察性研究或間接證據(jù),也可為指南提供重要的信息。故從此角度而言,凡可制訂專家共識的組織,均可制訂臨床指南。事實上,高質(zhì)量證據(jù)在國內(nèi)外所占的比例均較少。歐美大部分循證指南,如仔細分析,很多推薦意見所基于的證據(jù)質(zhì)量,僅居于中低,甚至極低水平。例如,2016年發(fā)表的“New WHO Recommendations on Preoperative Measures for Surgi-cal Site Infection Prevention: an Evidence-Based Global Perspective”[22],共13條推薦意見,其中8條基于中等質(zhì)量的證據(jù),2條基于低質(zhì)量證據(jù),3條基于極低質(zhì)量證據(jù),無1條基于高質(zhì)量證據(jù);2017年由循證醫(yī)學(xué)創(chuàng)始人、GRADE工作組主席Gordon Guyatt教授等專家制訂的“Guideline for Opioid Therapy and Chronic Noncancer Pain”[23],共10條推薦意見,其中6條基于低質(zhì)量證據(jù),4條基于中等質(zhì)量證據(jù),無1條基于高質(zhì)量證據(jù);2018年發(fā)表的“Evidence-based Guidelines for Supportive Care of Patients with Ebola Virus Disease”[24],共8條推薦意見,其中3條基于低質(zhì)量證據(jù),4條基于中等質(zhì)量證據(jù),僅1條基于高質(zhì)量證據(jù)。
國內(nèi)醫(yī)學(xué)界對系統(tǒng)評價和Meta分析存在不同程度的誤解。部分觀點認為其僅僅是快速發(fā)表論文的一種取巧途徑。不可否認,近年來出現(xiàn)了大量低質(zhì)量系統(tǒng)評價和Meta分析,但同樣出現(xiàn)了大量低質(zhì)量的觀察性研究甚至隨機對照試驗[25]。有調(diào)查顯示中國隨機對照試驗9成不合格[26]。誤用和濫用研究方法與研究方法本身有錯誤不能混為一談。
系統(tǒng)評價和Meta分析本身是一種非常重要的研究方法。一方面,在開展新的原始研究之前,理論上必須先作針對該問題的系統(tǒng)評價[27],以避免研究的重復(fù)和浪費。另一方面,IOM對指南新的定義和要求明確指出,指南的推薦意見必須基于對當(dāng)前研究證據(jù)的系統(tǒng)評價。即系統(tǒng)評價是制訂指南的基石。國內(nèi)部分指南制訂者引用文獻時,在同時有系統(tǒng)評價和隨機對照試驗的情況下,優(yōu)先選擇隨機對照試驗,理由是系統(tǒng)評價屬于“回顧性研究”,論證強度不及前瞻性隨機對照試驗。但這恰恰是對系統(tǒng)評價的誤解。針對某個臨床問題,如果不進行系統(tǒng)評價,就無法對該問題的所有證據(jù)有全面的了解。引用某個或某幾個雜志發(fā)表的陽性隨機對照試驗,有可能會漏掉其他雜志發(fā)表的陰性結(jié)果,當(dāng)把這些證據(jù)重新納入分析的時候,其結(jié)果可能與此前對該問題的認識有很大差異。例如,2017年在JAMA發(fā)表的一項系統(tǒng)評價[28]發(fā)現(xiàn),無論是補充鈣劑、維生素D還是鈣劑/維生素D聯(lián)合補充均不能降低50歲以上社區(qū)中老年人骨折的發(fā)生率,甚至大劑量補充維生素D還增加了骨折發(fā)生的風(fēng)險。這一結(jié)果很可能會改變國內(nèi)外相關(guān)指南的推薦意見,而僅靠單個隨機對照試驗很難得出類似確切的結(jié)論。
此外,累積Meta分析在指南制訂中發(fā)揮了更加重要的作用。1992年JAMA發(fā)表的一項累積Meta分析顯示,早在1978年,即有累積證據(jù)顯示心肌梗死后使用利多卡因會增加死亡風(fēng)險,但此后20年間,臨床仍然在繼續(xù)推薦使用利多卡因[29]。2018年Lancet發(fā)表的另一項對比腰椎穿刺微創(chuàng)針(atraumatic needle)和傳統(tǒng)腰椎穿刺針(conventional needle)的研究[30],通過累積Meta分析發(fā)現(xiàn),從1991年起腰椎穿刺微創(chuàng)針相對于傳統(tǒng)腰椎穿刺針發(fā)生腰椎穿刺后頭痛結(jié)局風(fēng)險低(RR=0.39,95% CI:0.19~0.82),且此后該結(jié)果一直顯示有效,僅可信區(qū)間范圍變窄而已。但從1992至2017年間,全球先后有88個隨機對照試驗共11 774人被隨機分配至傳統(tǒng)腰椎穿刺針組進行試驗。目前推薦腰椎穿刺微創(chuàng)針作為診斷性腰椎穿刺首選的僅有2017年發(fā)布的比利時指南[31]。中國的《腰椎穿刺針(YY/T 1148- 2009)》行業(yè)標準[32]中推薦的仍是傳統(tǒng)腰椎穿刺針。此外,2016年的一項回顧性研究顯示,僅8.0%的醫(yī)生在臨床上使用腰椎穿刺微創(chuàng)針[33]。
網(wǎng)狀Meta分析也可為指南制訂者提供間接比較的證據(jù),在同類干預(yù)措施中優(yōu)選出最佳治療方式[34]。例如,在抗高血壓藥物降低心血管疾病發(fā)病率和病死率方面,一線藥物有α-受體阻滯劑、血管緊張素轉(zhuǎn)換酶抑制劑、β-受體阻滯劑、血管緊張素受體阻滯劑、鈣通道阻滯劑和低劑量利尿劑。網(wǎng)狀Meta分析結(jié)果顯示,低劑量利尿劑是預(yù)防所有不良心血管結(jié)局(冠狀動脈粥樣硬化性心臟病、充血性心力衰竭、卒中、心血管疾病事件和心血管疾病死亡)最有效的藥物[35],為臨床實踐指南的制訂提供了重要證據(jù)支撐。近年來,網(wǎng)狀Meta分析已在包括英國國家衛(wèi)生與臨床優(yōu)化研究所(The National Institute for Health and Care Excellence,NICE)在內(nèi)的機構(gòu)制訂指南過程中發(fā)揮了越來越重要的作用[36]。
國內(nèi)外任何行業(yè)或機構(gòu)發(fā)布的指南,醫(yī)務(wù)人員均應(yīng)采用批判的態(tài)度和科學(xué)的方法對其進行解讀,并選擇性應(yīng)用。并非所有歐美指南均優(yōu)于我國發(fā)布的指南,亦非所有指南均優(yōu)于專家共識。甚至一部指南或?qū)<夜沧R中,并非所有的推薦意見均基于當(dāng)前可得的最佳證據(jù),適用于實際的臨床情境。除目前國際上用于評價指南方法學(xué)質(zhì)量的常見工具AGREE Ⅱ之外,本文推薦另外一種能夠幫助讀者快速理解和應(yīng)用指南的工具——RIGHT(Reporting Items for Practice Guidelines in Healthcare)標準[37]。
作為全新研發(fā)的國際實踐指南報告規(guī)范,RIGHT旨在為系統(tǒng)、全面地報告指南提供結(jié)構(gòu)化的清單,母文件于2017年1月在AnnInternMed發(fā)表,同時被國外學(xué)者翻譯并發(fā)表為中文[38]、德語[39]和意大利語[40],法語、俄語、日語、韓語等其他語種的版本正在陸續(xù)翻譯中。RIGHT目前被國際知名的報告規(guī)范數(shù)據(jù)庫EQUATOR(Enhancing the Quality and Transparency of Health Research)收錄,并在首頁推薦為全球最重要的15個報告規(guī)范之一[41]。RIGHT清單共包括22個條目,本文將其凝練為以下需重點關(guān)注的7個方面,以幫助臨床工作者通過掌握該方法來判斷和使用指南。
3.1.1 標題中是否包含指南的制訂或發(fā)布年份
一部指南的有效期約為3~5年[42],對于心血管或腫瘤的某些疾病,證據(jù)更新速度頻繁,指南中的部分推薦意見可能1年后即過期。讀者對于5年以上的指南,在應(yīng)用時需仔細核查有無更新版本,若無,則對其中的推薦意見和證據(jù)需深入探析其有效性和對臨床的指導(dǎo)價值。
3.1.2 標題中是否包含對指南分類的描述
對指南分類的描述即該指南屬于篩查、診斷、治療、管理、預(yù)防或其他的哪一類,是否包含了自己想要關(guān)注的內(nèi)容。
3.1.3 指南發(fā)布的機構(gòu)
一般情況下,政府、行業(yè)學(xué)會、協(xié)會制訂的指南,相對于某些專家組或課題組,其權(quán)威性更高,影響力更大。
3.2.1 是否闡述了指南制訂的理由
制訂此指南是因為之前指南的版本已經(jīng)過期,還是本領(lǐng)域出現(xiàn)了新的技術(shù)和藥物,還是其他方面的原因。
3.2.2 是否與同類指南作比較和分析
該指南中是否闡述了與國內(nèi)外相關(guān)指南的異同,以及對現(xiàn)有同類指南是否做了質(zhì)量評價和推薦意見的對比分析。
3.2.3 是否闡述了指南的適用對象
指南的適用對象包括目標人群、使用者和使用環(huán)境,這些信息與自己所在醫(yī)院和患者人群的差異性有多大。
3.3.1 指南是否注冊,是否有計劃書發(fā)表[43]。
3.3.2 指南制訂小組構(gòu)成是否合理,分工是否明確,特別是有無納入指南方法學(xué)家。
3.3.3 指南是否交代了遴選臨床問題的方法和結(jié)局指標重要性評級的方法,是通過問卷調(diào)查,還是通過文獻調(diào)研或者專家組討論確定。
3.4.1 指南是否基于系統(tǒng)評價的證據(jù)
該系統(tǒng)評價為指南小組重新制定的系統(tǒng)評價,包括委托其他機構(gòu)制定、利用已有的系統(tǒng)評價制定或二者兼有。如果是利用已有的系統(tǒng)評價,其是否交代了遴選、評價或更新系統(tǒng)評價的方法。如果未基于系統(tǒng)評價,是否解釋和說明了原因。在利用其他證據(jù)支持指南的推薦意見時,是否交代了檢索、遴選和評價證據(jù)的方法。
3.4.2 是否描述了對證據(jù)質(zhì)量進行分級的方法
包括對該分級方法的出處是否進行了交代,比如是自主研發(fā)還是使用其他機構(gòu)的標準。
3.5.1 是否有推薦意見總結(jié),該總結(jié)可列在正文之前、之中或之后,幫助讀者快速概覽所有推薦的要點。
3.5.2 是否針對特殊人群單獨撰寫了推薦意見,比如高齡、肥胖、傳染病患者或具有肝腎等基礎(chǔ)疾病的患者。
3.5.3 是否對推薦意見的強度進行分級。
3.5.4 是否闡述了形成推薦意見的方法,比如采用了面對面專家共識,還是德爾菲法等。
3.5.5 在形成推薦意見時,是否考慮了患者意愿、價值觀、成本、公平性、可行性和可接受性等其他因素[44]。
3.6.1 指南正式發(fā)表之前,是否送審了國內(nèi)外專業(yè)同行、方法學(xué)家、指南使用者或患者代表,征求了反饋意見。
3.6.2 是否有高一級的組織或機構(gòu),對其進行獨立評審或質(zhì)量監(jiān)控。
3.7.1 是否闡述了制訂該指南各個階段的資金來源,以及這些資金與指南的關(guān)系。
3.7.2 是否闡述了該指南制訂小組成員在專業(yè)或?qū)W術(shù)上的利益沖突。例如某外科領(lǐng)域?qū)<抑鲗?dǎo)的指南,是否在指南中推薦了該專家發(fā)明或偏好的手術(shù)方式,但并未給出強有力的證據(jù)來支持。
此外,需要特別注意的是,由于期刊發(fā)表的指南篇幅有限,大量有助于判斷指南的信息可能以附件形式存在,比如指南如何納入臨床問題、證據(jù)的檢索策略與結(jié)果、指南小組專家的利益沖突聲明文件等。因此,可通過尋找和研讀附件,結(jié)合指南全文評估,以更好地掌握整部指南的精髓。
雖然近年來,精準醫(yī)學(xué)[45]、大數(shù)據(jù)研究[46]、真實世界研究[47]、人工智能[48]等對醫(yī)療行業(yè)的影響越來越大,但指南仍是當(dāng)前指導(dǎo)臨床實踐最重要的工具,是醫(yī)務(wù)人員進行決策的準則和規(guī)范。高質(zhì)量的循證指南可對促進患者健康、提升醫(yī)療質(zhì)量和節(jié)約醫(yī)療費用起到重要作用[49]。醫(yī)務(wù)人員一方面需對獲取的指南仔細甄別和判斷,特別是注意其內(nèi)容的科學(xué)性和客觀性,以及制訂者在學(xué)術(shù)利益和商業(yè)利益方面對指南的影響;另一方面,更要積極參與到高質(zhì)量指南的制訂、傳播和實施工作中去,包括開展高質(zhì)量的臨床研究和系統(tǒng)評價研究,為指南制訂提供證據(jù)支持,對已發(fā)表的指南進行評價、解讀和反饋[50- 51],并在自我醫(yī)療實踐中恰當(dāng)、合理應(yīng)用指南的推薦意見,以及將指南作為重要的信息來源,對患者進行健康教育。