趙冰,姜彥彪,尚志忠,張哲文,張婷,耿勁松,李博,馬彬
對動物實驗進行系統(tǒng)評價,不僅可降低其結(jié)果向臨床轉(zhuǎn)化時的風險[1,2],且有利于基礎(chǔ)研究領(lǐng)域的資源整合,尤其當研究問題涉及無預(yù)期益處的潛在危害時(如毒理學、環(huán)境流行病學)[3,4],進行實驗動物可能是提供唯一相關(guān)數(shù)據(jù)的證據(jù)來源。但需注意證據(jù)體的總體質(zhì)量是影響決策的關(guān)鍵因素[5-7],2019年筆者團隊基于GRADE工作組的動物實驗小組的理論,對GRADE在動物實驗系統(tǒng)評價中的應(yīng)用原則進行詳細說明[8,9],目前越來越多發(fā)表的動物實驗系統(tǒng)評價開始使用GRADE方法對其證據(jù)質(zhì)量進行分級[10-12]。
因此,為使讀者更加深刻理解和使用GRADE-animal的工具在動物研究系統(tǒng)評價中的應(yīng)用。本文以一篇干預(yù)性研究《腦腸肽對心力衰竭狀態(tài)下小/大鼠病死率和心血管結(jié)局的影響:動物實驗系統(tǒng)評價》[10]為例,對GRADE系統(tǒng)在動物實驗系統(tǒng)評價中應(yīng)用進行詳細解讀。
GRADE系統(tǒng)在臨床前動物實驗系統(tǒng)評價中的應(yīng)用原則依然遵循GRADE系統(tǒng)的基本原則,但又存在一定差異[8,9]。
一般而言,動物隨機對照實驗的起始證據(jù)級別為“高”,5個降級因素包括:①偏倚風險;②不一致性;③不精確性;④發(fā)表偏倚;⑤間接性。動物觀察性研究的起始證據(jù)級別為“低”,但何時升級或如何確定升級因素,目前尚存在爭議,仍需今后進一步研究[13-15]。如在不同物種間得到的效應(yīng)的方向和大小一致,則可升級;此外,在環(huán)境健康領(lǐng)域,如動物種屬和模型的結(jié)果一致時,也可考慮升級。但在考慮升高證據(jù)質(zhì)量理由之前,必須先考慮所有降低證據(jù)質(zhì)量的標準,若上述任一方面存在嚴重局限性,很少進行升級。
本文示例文獻[10]納入的動物實驗類型為“隨機對照試驗”,因此,本文將以其主要結(jié)局指標“病死率”為例,詳細解讀如何實施和考慮5個降級因素。
2.1 偏倚風險SYRCLE動物實驗偏倚風險評估工具,是目前公認的用于動物實驗內(nèi)在真實性評估的工具,其具體內(nèi)容和解讀請參見相關(guān)研究[16-18]。
示例文獻以表格形式呈現(xiàn)其偏倚風險評估結(jié)果,共納入4篇研究。偏倚風險評估結(jié)果如圖1所示,就“病死率”而言,考慮到盲法、動物安置隨機化和隨機化結(jié)果評估對其影響較小,且實驗組間基線特征的相似性較好,數(shù)據(jù)報告完整。因此,可考慮在不一致性方面不降級。
2.2 不一致性在不一致性方面,動物實驗系統(tǒng)評價同臨床試驗系統(tǒng)評價基本一致,可通過可信區(qū)間的重疊程度,所納入研究的效應(yīng)量大小及方向、P值和I2值進行描述[19,20]。但由于動物實驗屬于探索性實驗,異質(zhì)性可被預(yù)期。加之部分異質(zhì)性可能被實驗人員刻意引入,在這種情況下,鑒于這部分異質(zhì)性可解釋,在評估一致性時可不考慮。因此,動物實驗系統(tǒng)評價中,對不一致性評價的核心,首先:①如何歸納和解釋異質(zhì)性;②如何解釋I2值。其次,異質(zhì)性可能源于種屬,應(yīng)注意來自物種內(nèi)和物種間兩方面的不一致。如當分析中所有種屬動物都顯示出相同的效應(yīng)方向時,那么不同物種間(包括人)的干預(yù)效應(yīng)更加有力。在這種情況下,即使結(jié)果總體上有異質(zhì)性,也不會降低一致性。
示例文獻中,“病死率”Meta分析結(jié)果如圖2所示,共納入4個研究,研究間異質(zhì)性結(jié)果為P=0.31,I2=15%,異質(zhì)性較低,研究對象均為大鼠,且各納入研究顯示出相同的效應(yīng)方向。因此,在不一致性方面不考慮降級。
2.3 不精確性動物實驗系統(tǒng)評價對證據(jù)體的不精確性評估也主要考慮:①納入研究的樣本是否達到最優(yōu)信息樣本量(OIS);②可信區(qū)間的寬窄程度兩個方面[20]。在解釋臨床前動物實驗研究結(jié)果時,通常認為效應(yīng)量的方向比其大小更為重要。因此,對于精確性的判斷主要基于可信區(qū)間是否包含了無效值。對于效應(yīng)量的大小可考慮進行分級,如SMD<0.2為小,0.2~0.5為中,>0.8為大。目前還沒有嚴格、清晰的判斷標準,建議如果可信區(qū)間包含了兩個或多個級別,則可考慮降級,同時需要給出合理的解釋。
示例文獻中,如圖2所示:病死率的合并RR=0.83,95%可信區(qū)間較寬[0.46,1.47],且4個研究共納入實驗動物,總樣本量較小(4個實驗,共121只實驗動物),且單個研究樣本量介于9-29間,故針對該指標而言,其不精確性方面需降級。
2.4 發(fā)表偏倚是否對發(fā)表偏倚進行科學評估,對解讀動物實驗系統(tǒng)評價結(jié)果的可信度具有重要意義[21-23]。在保證動物實驗系統(tǒng)評價檢索策略廣泛而全面的前提下,除可借鑒漏斗圖、Egger's檢驗、Begg's檢驗等用于發(fā)表偏倚的評估外[24],還需要對一些特殊情況進行有效評估,筆者和Laman等的研究對此進行具體補充說明[8,25,26]。
示例文獻中,并為對發(fā)表偏倚進行評估。對“病死率”而言,納入實驗數(shù)量僅為4個,且究均為陽性小樣本研究。此外,該研究并未檢索Embase、BIOSIS Preview等數(shù)據(jù)庫,由于檢索的不充分不全面,無疑會增加發(fā)表偏倚的可能[27]。因此,綜合考慮需降級。
2.5 間接性GRADE系統(tǒng)中對動物實驗系統(tǒng)評價提出了兩個層面的間接性:第一層面是從臨床前動物實驗向臨床前PICO的間接性,第二層間接性是從動物模型(臨床前動物實驗)到人類(臨床PICO)的間接性,這也稱為可轉(zhuǎn)化性[28]。
示例文獻中的間接性主要源于:①研究納入了不同品系的大鼠,研究對象間因種間差異而使間接性增加;②納入的動物在誘導心衰模型過程中,所采用的方式略有差異;③納入動物的飼養(yǎng)環(huán)境不同;④研究對象的給藥周期與劑量存在差異;⑤在結(jié)局指標的測量時間亦存在差別;⑥在可轉(zhuǎn)化性層面,嚙齒類動物與人類的生理病理機制存在差異。綜合以上結(jié)果,故考慮在間接性方面降級。
圖1 SYRCLE偏倚風險評估結(jié)果(病死率)
圖2 腦腸肽對心力衰竭動物模型病死率指標影響的森林圖
本文選取2015年發(fā)表的一篇干預(yù)性動物實驗系統(tǒng)評價作為示例,使用GRADE系統(tǒng)對其進行證據(jù)體質(zhì)量評價,5個降級因素中,就結(jié)局指標“病死率”進行分析,其在不精確性、發(fā)表偏倚和間接性方面需進行降級處理。因此,“病死率”指標的證據(jù)體級別為“極低”。
盡管GRADE工作小組和一些學者均已發(fā)表多篇文章[15,19,24,28-30]對GRADE系統(tǒng)存在的問題進行了詳細說明和解讀,但筆者認為對該示例文章證據(jù)質(zhì)量評價時仍存在較大困難和爭議,例如樣本量大小和可信區(qū)間寬窄程度如何進行定量/分級描述;此外,針對連續(xù)型變量如何進行精確性的評價。因此,雖然推薦GRADE系統(tǒng)作為評估動物實驗系統(tǒng)評價證據(jù)質(zhì)量的工具,今后還需在一些條目的細則方面進行不斷探索,例如如何計算OIS和定義臨床相關(guān)閾值(不精確性);對于動物實驗系統(tǒng)評價種內(nèi)及種間的一致性(不一致性)該如何進行細化和規(guī)范;如何定義可轉(zhuǎn)化性/間接性及規(guī)范升級標準等。今后有必要建立更為詳盡的臨床前干預(yù)性動物研究GRADE分級框架,以更好地解釋動物研究系統(tǒng)評價結(jié)果,評估證據(jù)質(zhì)量,從而降低動物實驗結(jié)果向臨床轉(zhuǎn)化的風險。