国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多重填補(bǔ)技術(shù)在醫(yī)學(xué)研究缺失值處理中的應(yīng)用及發(fā)展*

2022-05-28 04:21:00海軍軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)系軍隊(duì)衛(wèi)生統(tǒng)計(jì)學(xué)教研室200433
關(guān)鍵詞:連續(xù)型分析模型臨床試驗(yàn)

海軍軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)系軍隊(duì)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(200433)

朱榮慧 許金芳 王 睿 吳 騁△

在醫(yī)學(xué)研究數(shù)據(jù)采集與獲取過程中,經(jīng)常會(huì)碰到缺失值。例如,創(chuàng)新藥開發(fā)臨床試驗(yàn)中,導(dǎo)致缺失值的原因可能有受試者失訪、或受試者由于不良事件、對(duì)干預(yù)措施的不耐受或缺乏療效等原因中途退出試驗(yàn)[1]。缺失值不僅會(huì)給統(tǒng)計(jì)分析和結(jié)果解釋帶來挑戰(zhàn),而且可能會(huì)對(duì)臨床試驗(yàn)結(jié)果造成偏倚,使其代表性和真實(shí)性受到影響[2]。對(duì)于缺失值處理的問題,歐洲藥品管理局于2010年發(fā)布了《確證性臨床試驗(yàn)中缺失數(shù)據(jù)處理指南》[3]。同年,美國(guó)食品藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)發(fā)布了《臨床試驗(yàn)中缺失數(shù)據(jù)的預(yù)防和處理》報(bào)告[4],該報(bào)告推薦了合適的研究設(shè)計(jì)和隨訪方法來減少臨床試驗(yàn)中的數(shù)據(jù)缺失,以及有效處理結(jié)果分析中缺失數(shù)據(jù)的統(tǒng)計(jì)方法。2016年,國(guó)家藥品監(jiān)督管理局藥品評(píng)審中心頒布了《藥物臨床試驗(yàn)的生物統(tǒng)計(jì)學(xué)指導(dǎo)原則》[5]。該原則指出“在試驗(yàn)的計(jì)劃、執(zhí)行過程中應(yīng)有必要的措施盡量避免缺失值的發(fā)生,在分析和報(bào)告中要正確處理缺失數(shù)據(jù),否則會(huì)造成潛在的偏倚”。由此可見,在醫(yī)學(xué)研究中適當(dāng)處理缺失值已越來越引起關(guān)注。

缺失值通??筛鶕?jù)Rubin和Little提出的缺失機(jī)制分為三類,分別是完全隨機(jī)缺失(missing completely at random,MCAR)、隨機(jī)缺失(missing at random,MAR)和非隨機(jī)缺失(missing not at random,MNAR)[6]。根據(jù)缺失模式分為兩類:特殊缺失模式(special missingness pattern)和任意缺失模式(arbitrary missingness pattern)[4],特殊缺失模式包括單變量缺失模式(univariate missingness pattern)和單調(diào)缺失模式(monotone missingness pattern)。也可以使用因果圖(causal diagrams)來描述數(shù)據(jù)缺失的機(jī)制[7-8]。不同的缺失類型,其填補(bǔ)方法往往不同。本文將在簡(jiǎn)要介紹常用缺失值處理方法的基礎(chǔ)上重點(diǎn)綜述應(yīng)用較廣的多重填補(bǔ)的步驟、方法及其進(jìn)展,以期為研究者提供參考。

常用缺失值處理方法

臨床試驗(yàn)中常用的缺失值處理方法有完全記錄分析(complete-case analysis)、單一填補(bǔ)(single value imputation)和多重填補(bǔ)(multiple imputation)。

1.完全記錄分析

完全記錄分析也稱為成組刪除法,是指從分析中刪除有缺失數(shù)據(jù)的觀測(cè)對(duì)象,即僅對(duì)沒有缺失數(shù)據(jù)的觀測(cè)對(duì)象進(jìn)行分析。此方法簡(jiǎn)單易行,但由于刪除有缺失數(shù)據(jù)的觀測(cè)對(duì)象使樣本量減少,可能會(huì)影響試驗(yàn)結(jié)果的代表性和準(zhǔn)確性,并導(dǎo)致統(tǒng)計(jì)功效下降[9]。但完全記錄分析在缺失機(jī)制為MCAR且缺失比例較低時(shí)的估計(jì)結(jié)果較好[10]。

2.單一填補(bǔ)

單一填補(bǔ)是指用單個(gè)數(shù)值填補(bǔ)缺失值,形成完整的數(shù)據(jù)集后再進(jìn)行統(tǒng)計(jì)分析。常用的方法有均數(shù)填補(bǔ)法(mean imputation)和末次觀測(cè)結(jié)轉(zhuǎn)法(last observation carried forward,LOCF)。均數(shù)填補(bǔ)法未考慮缺失值的不確定性、減小了數(shù)據(jù)變異性和估計(jì)的標(biāo)準(zhǔn)誤[11]、夸大了估計(jì)精度,可能會(huì)導(dǎo)致I類錯(cuò)誤,但在MCAR缺失機(jī)制下對(duì)均數(shù)的估計(jì)結(jié)果較準(zhǔn)確[9]。LOCF是指用末次觀測(cè)數(shù)據(jù)填補(bǔ)缺失值,通常用于縱向數(shù)據(jù)(又稱多次重復(fù)測(cè)量數(shù)據(jù))或生存數(shù)據(jù)中缺失值的填補(bǔ)。LOCF填補(bǔ)過程較簡(jiǎn)單,但在多數(shù)情況下,該方法的I類錯(cuò)誤難以控制,即使在MCAR缺失機(jī)制下,其檢驗(yàn)效能和估計(jì)誤差仍不穩(wěn)定[12]。

3.多重填補(bǔ)

多重填補(bǔ)旨在基于一個(gè)或多個(gè)模型填補(bǔ)缺失數(shù)據(jù),并正確反映與“填補(bǔ)”過程相關(guān)的不確定性[13]。該方法不是為每個(gè)缺失觀測(cè)填補(bǔ)單個(gè)值,而是根據(jù)缺失觀測(cè)的預(yù)測(cè)分布生成一組填補(bǔ)值,從而生成不同的填補(bǔ)數(shù)據(jù)集。然后再對(duì)每個(gè)填補(bǔ)數(shù)據(jù)集進(jìn)行分析,并通過Rubin法則合并分析結(jié)果[13]。多重填補(bǔ)主要包括以下三個(gè)步驟[1]:第一步,選擇可能有助于填補(bǔ)缺失數(shù)據(jù)的自變量,對(duì)缺失變量進(jìn)行多次填補(bǔ),創(chuàng)建多個(gè)不同的填補(bǔ)數(shù)據(jù)集,其中自變量應(yīng)包括后續(xù)分析模型中的所有變量,以及能使MAR假設(shè)合理的輔助變量;第二步,采用既定的統(tǒng)計(jì)分析方法分別對(duì)每個(gè)填補(bǔ)數(shù)據(jù)集進(jìn)行結(jié)果的關(guān)聯(lián)估計(jì),因此可計(jì)算估計(jì)系數(shù)和相應(yīng)的標(biāo)準(zhǔn)誤,作為每個(gè)填補(bǔ)數(shù)據(jù)集的關(guān)聯(lián)度量;第三步,通過Rubin法則和相應(yīng)的標(biāo)準(zhǔn)誤合并每個(gè)填補(bǔ)數(shù)據(jù)集的關(guān)聯(lián)估計(jì),得到最終的分析結(jié)果。相比于單一填補(bǔ)方法,多重填補(bǔ)具有一定優(yōu)勢(shì):第一,考慮了缺失值的不確定性;第二,由于最終的關(guān)聯(lián)估計(jì)是根據(jù)每個(gè)填補(bǔ)數(shù)據(jù)集估計(jì)系數(shù)的平均值得到的,減小了抽樣誤差,從而得到了更精確的點(diǎn)估計(jì)值[4];第三,最終分析模型中不包括的輔助變量也可以用于填補(bǔ)模型[13],從而可使MAR的假設(shè)更合理;最后,雖然多重填補(bǔ)假定的缺失機(jī)制為MAR,但也能處理缺失機(jī)制為MCAR或MNAR的缺失數(shù)據(jù)[14]?;谝陨蟽?yōu)點(diǎn),多重填補(bǔ)方法已廣泛應(yīng)用于醫(yī)學(xué)研究的缺失值處理中。

多重填補(bǔ)方法類型及其比較

根據(jù)需填補(bǔ)變量的數(shù)量、資料類型不同,進(jìn)行多重填補(bǔ)的方法不同[15],對(duì)于單變量填補(bǔ),若缺失變量為連續(xù)型,可采用線性回歸模型(linear regression model)和預(yù)測(cè)均數(shù)匹配(predictive mean matching,PMM);若缺失變量為分類變量,可采用logistic回歸模型(logistic regression model)。對(duì)于多變量填補(bǔ),即有多個(gè)變量含有缺失值,可采用基于鏈?zhǔn)椒匠痰亩嘀靥钛a(bǔ)(MI by chained equations,MICE),又稱為完全條件規(guī)范(fully conditional specification,F(xiàn)CS);或采用多變量正態(tài)填補(bǔ)(multivariate normal imputation,MVNI)。上述幾種多重填補(bǔ)方法的簡(jiǎn)要說明及優(yōu)缺點(diǎn)總結(jié)如表1。有研究認(rèn)為不同的多重填補(bǔ)方法,主要取決于缺失變量的類型(連續(xù)型或分類型)、包括在預(yù)測(cè)模型中的協(xié)變量的類型以及缺失模式的類型(單調(diào)性或非單調(diào)性)[16]。也有研究根據(jù)填補(bǔ)方法的復(fù)雜程度將多重填補(bǔ)分類為單值填補(bǔ)、單調(diào)填補(bǔ)、基于鏈?zhǔn)椒匠痰亩嘀靥钛a(bǔ)和馬爾科夫鏈蒙特卡羅法[14]。

表1 不同多重填補(bǔ)方法的比較

多重填補(bǔ)法的進(jìn)展

隨著計(jì)算機(jī)和多重填補(bǔ)技術(shù)的發(fā)展,越來越多的新技術(shù)逐漸應(yīng)用到醫(yī)學(xué)研究缺失值的填補(bǔ)中。如Bartlett等[21]提出了修正的FCS—分析模型兼容的完全條件規(guī)范(substantive-model compatible fully conditional specification,SMC-FCS)。他們認(rèn)為當(dāng)分析模型包含非線性特征或交互時(shí),由于填補(bǔ)模型和分析模型的不兼容,使用基于FSC算法的填補(bǔ)模型可能會(huì)得到有偏估計(jì),所以提出根據(jù)與分析模型兼容的填補(bǔ)模型對(duì)每個(gè)協(xié)變量進(jìn)行填補(bǔ)。雖然分析模型和填補(bǔ)模型的兼容性并不能保證填補(bǔ)模型一定是正確或規(guī)范說明的,但保證了模型間的假設(shè)不相互沖突,從而減少了參數(shù)估計(jì)中的偏倚。Anneke等[22]將SMC-FCS應(yīng)用到由連續(xù)型變量衍生的不完整二分類變量的多重填補(bǔ)中,他們比較了5種不同的多重填補(bǔ)方法—使用logistic回歸模型填補(bǔ)二分類變量、使用線性回歸模型填補(bǔ)連續(xù)型變量后再歸類生成二分類變量、使用FCS同時(shí)填補(bǔ)連續(xù)型和二分類變量、使用MVNI同時(shí)填補(bǔ)連續(xù)型和二分類變量以及使用SMC-FCS進(jìn)行填補(bǔ)。結(jié)果發(fā)現(xiàn),除了計(jì)算時(shí)間較長(zhǎng)外,SMC-FCS優(yōu)于所有其他方法。Md[23]等介紹和比較了12種基于FCS和MVNI的多重填補(bǔ)方法,為處理縱向研究中的缺失值提供了多種可供選擇的方法。

多重填補(bǔ)技術(shù)本身的應(yīng)用范圍也越來越廣,如Rushani[24]等比較研究了多種多重填補(bǔ)方法填補(bǔ)三水平(three-level)數(shù)據(jù)缺失的效果,為如何填補(bǔ)三水平缺失數(shù)據(jù)推薦了可行的多重填補(bǔ)方法。Matthew[25]等針對(duì)分散式數(shù)據(jù)藥品安全網(wǎng)絡(luò)內(nèi)的系統(tǒng)性缺失混雜因素的處理,基于多重填補(bǔ)方法提出了利用“驗(yàn)證數(shù)據(jù)庫”來填補(bǔ)“缺失數(shù)據(jù)庫”的方法,減小了傳統(tǒng)上每個(gè)數(shù)據(jù)庫先單獨(dú)分析再使用meta分析匯總估計(jì)效果的方法可能會(huì)帶來的估計(jì)偏倚。

對(duì)于多重填補(bǔ)過程中可能會(huì)遇到的程序崩潰問題,White等[26]對(duì)于完美預(yù)測(cè)問題,提出了增強(qiáng)數(shù)據(jù)方法,即通過增加一些額外的“偽觀測(cè)”(pseudo-observations)來解決完美預(yù)測(cè)的問題。Nguyen等[27]則針對(duì)完美預(yù)測(cè)和共線性兩個(gè)問題,概述了包括填補(bǔ)復(fù)合變量而非單個(gè)變量,引入先驗(yàn)信息,以及改變填補(bǔ)模型形式等解決策略。

隨著多重填補(bǔ)和其他缺失值處理技術(shù)的不斷發(fā)展,對(duì)如何規(guī)范化處理和報(bào)告缺失數(shù)據(jù)越來越引起研究者的關(guān)注。Lee等[28]提出并說明了觀察性研究缺失數(shù)據(jù)的處理和報(bào)告框架(treatment and reporting of missing data in observational studies framework,TARMOS)。該框架由三個(gè)步驟組成:制定分析計(jì)劃,指定分析模型以及如何處理缺失數(shù)據(jù)。其中,需重點(diǎn)考慮完全記錄分析是否有效,多重填補(bǔ)或其替代方法是否會(huì)帶來益處,以及對(duì)缺失機(jī)制進(jìn)行敏感性分析是否必要等問題;檢查數(shù)據(jù),檢查分析計(jì)劃中列出的方法是否合適,并進(jìn)行預(yù)先計(jì)劃的分析;報(bào)告結(jié)果,包括對(duì)缺失數(shù)據(jù)的描述、如何處理缺失數(shù)據(jù)的詳細(xì)信息以及所有分析結(jié)果,并根據(jù)缺失數(shù)據(jù)和臨床相關(guān)性進(jìn)行解釋。此框架為研究者如何仔細(xì)考慮缺失數(shù)據(jù)和分析假設(shè)提供了結(jié)構(gòu)化的參考,是對(duì)STROBE聲明[29](strengthening the reporting of observational studies in epidemiology)的有效補(bǔ)充。

結(jié) 語

本文從醫(yī)學(xué)研究中數(shù)據(jù)的缺失機(jī)制和模式出發(fā),簡(jiǎn)單介紹了常用的缺失值處理方法,重點(diǎn)介紹了較為常用的多重填補(bǔ)技術(shù)的基本思想和步驟,總結(jié)了多重填補(bǔ)方法及其優(yōu)缺點(diǎn),以及多重填補(bǔ)的進(jìn)展。雖然多重填補(bǔ)技術(shù)在缺失值填補(bǔ)中的應(yīng)用越來越廣泛,但是國(guó)內(nèi)卻很少有研究在應(yīng)用多重填補(bǔ)時(shí)考慮進(jìn)行敏感性分析來檢驗(yàn)數(shù)據(jù)的缺失機(jī)制以及填補(bǔ)方法的穩(wěn)健性[30]。因此,在多重填補(bǔ)技術(shù)越來越多地被應(yīng)用的同時(shí),建議研究者更加關(guān)注敏感性分析的問題。

猜你喜歡
連續(xù)型分析模型臨床試驗(yàn)
基于BERT-VGG16的多模態(tài)情感分析模型
自變量分段連續(xù)型Volterra積分微分方程的配置法
抗疫中第一個(gè)獲批臨床試驗(yàn)的中藥——說說化濕敗毒方
連續(xù)型美式分期付款看跌期權(quán)
層次分析模型在結(jié)核疾病預(yù)防控制系統(tǒng)中的應(yīng)用
全啟發(fā)式語言分析模型
基于晶圓優(yōu)先級(jí)的連續(xù)型Interbay搬運(yùn)系統(tǒng)性能分析
關(guān)于二維連續(xù)型隨機(jī)變量函數(shù)分布的推廣和運(yùn)算
IFC4結(jié)構(gòu)分析模型應(yīng)用技術(shù)
腫瘤治療藥物Tosedostat的Ⅱ期臨床試驗(yàn)結(jié)束
客服| 都兰县| 柳江县| 德钦县| 小金县| 沂水县| 房山区| 社旗县| 巫溪县| 五峰| 兴安县| 神木县| 新安县| 丰顺县| 县级市| 饶阳县| 绍兴市| 萝北县| 黔西| 青铜峡市| 武川县| 博客| 南皮县| 阿勒泰市| 英超| 比如县| 丽水市| 桃园县| 奉化市| 平乐县| 宁波市| 遂溪县| 阿巴嘎旗| 榕江县| 娱乐| 芮城县| 来宾市| 达孜县| 吴川市| 德州市| 吉安县|