帶有刪失函數(shù)型協(xié)變量的非參數(shù)模型的估計(jì)研究

2024-03-01 08:39王純杰盧哲昕

通化師范學(xué)院學(xué)報 2024年2期

李響，王純杰，盧哲昕，徐萍

隨著技術(shù)的進(jìn)步，函數(shù)型數(shù)據(jù)分析在越來越多的領(lǐng)域中發(fā)揮著重要作用，如醫(yī)學(xué)、生物學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域.由于觀測對象在試驗(yàn)中需要長期隨訪，因此，每個觀測對象的生理指標(biāo)的測量結(jié)果通常被記錄為曲線的形式，并且由于觀測對象加入試驗(yàn)、退出試驗(yàn)的時間不一致或者中途退出導(dǎo)致的差別、觀測時間的局限性或客觀條件的限制等因素的影響，人們通常不能得到完整的觀測曲線.例如在醫(yī)學(xué)研究中許多數(shù)據(jù)集是通過患者定期檢查并記錄下來，然而患者忘記檢查或者醫(yī)療設(shè)備的損壞都可能產(chǎn)生刪失函數(shù)型數(shù)據(jù).目前對于刪失函數(shù)型數(shù)據(jù)已經(jīng)有學(xué)者進(jìn)行了研究，例如DELAIGLE 等［1］使用曲線擴(kuò)展算法對刪失函數(shù)型數(shù)據(jù)進(jìn)行擴(kuò)展.DELAIGLE 等［2］提出使用馬爾科夫鏈的方法對刪失函數(shù)型數(shù)據(jù)進(jìn)行擴(kuò)展.KRAUS 等［3］提出正則化方法對不完整的函數(shù)型數(shù)據(jù)進(jìn)行分類.DELAIGLE 等［4］通過計(jì)算張量級數(shù)的方法得到協(xié)方差函數(shù)并且得到近似完整的函數(shù)型數(shù)據(jù).DESCARY等［5］對規(guī)則密集的數(shù)據(jù)提出使用矩陣補(bǔ)全方法重新構(gòu)造協(xié)方差函數(shù).LIN 等［6］針對刪失函數(shù)型難以計(jì)算非對角線區(qū)域的信息問題，使用基函數(shù)展開的方法估計(jì)協(xié)方差函數(shù).LIN等［7］把協(xié)方差函數(shù)分解為方差函數(shù)分量和相關(guān)函數(shù)分量來解決刪失函數(shù)型的協(xié)方差函數(shù)不好估計(jì)的問題.趙志文等［8］在缺失數(shù)據(jù)下使用均值補(bǔ)充法、條件均值補(bǔ)充法研究了區(qū)間自回歸模型的參數(shù)估計(jì)問題.

非參數(shù)回歸模型具有回歸函數(shù)形式靈活、適應(yīng)性廣泛的優(yōu)勢.FERRATY 等［9］在非參數(shù)模型下把核估計(jì)應(yīng)用于函數(shù)型數(shù)據(jù)和時間序列數(shù)據(jù).RACHDI 等［10］對非參數(shù)模型估計(jì)中的帶寬選擇進(jìn)行研究.MOHAMMED 等［11］在非參數(shù)模型下針對函數(shù)型協(xié)變量，使用核估計(jì)方法解決魯棒回歸問題.FLORENT 等［12］提出使用k近鄰方法估計(jì)非參數(shù)模型.王景樂［13］在刪失指標(biāo)隨機(jī)缺失下研究回歸函數(shù)的非參數(shù)估計(jì).孟書宇［14］使用k近鄰方法估計(jì)相依函數(shù)型非參數(shù)模型.程彥茹［15］使用k近鄰方法估計(jì)隨機(jī)缺失函數(shù)型非參數(shù)模型.

本文研究具有刪失函數(shù)型協(xié)變量的非參數(shù)模型的估計(jì)問題.使用曲線擴(kuò)展算法把刪失函數(shù)型數(shù)據(jù)擴(kuò)展至完整數(shù)據(jù).通過建立非參數(shù)模型，可以得到函數(shù)型協(xié)變量對標(biāo)量響應(yīng)變量的預(yù)測.通過模擬研究驗(yàn)證該方法的有效性，并應(yīng)用到肝硬化數(shù)據(jù)集.

1 模型與估計(jì)

在實(shí)驗(yàn)過程中人們往往以函數(shù)型數(shù)據(jù)的形式來記錄試驗(yàn)結(jié)果，但由于各種因素不能觀測到函數(shù)型數(shù)據(jù)的全部過程，因此產(chǎn)生刪失函數(shù)型數(shù)據(jù).假設(shè)觀測數(shù)據(jù)為Xi(t) ≡Xi，i=1，…，n，每條觀測數(shù)據(jù)Xi(t) 只能在部分區(qū)間Ii=[ai，bi]可被觀測到，且Ii?I0，其中ai和bi分別表示第i個樣本的左端點(diǎn)和右端點(diǎn)，I0表示完整觀測的區(qū)間.例如文獻(xiàn)［1］研究了8 歲到25 歲四個種族群體（亞洲人、黑人、西班牙人和白人）脊柱骨密度分類問題，其中對每個個體只能進(jìn)行2 次到4 次的測量，只觀測到部分區(qū)間內(nèi)的部分函數(shù)型數(shù)據(jù).像這種觀測次數(shù)不同、觀測時間不同的函數(shù)型數(shù)據(jù)，不經(jīng)過處理很難建立模型.本文將介紹一種非參數(shù)的方法對刪失函數(shù)型數(shù)據(jù)進(jìn)行擴(kuò)展，并建立非參數(shù)模型.非參數(shù)模型定義為：

式中：Yi為標(biāo)量響應(yīng)變量，r(?)為未知的非線性算子，εi為滿足E(εi|Xi)=0 的隨機(jī)誤差，Xi為刪失函數(shù)型數(shù)據(jù).

在建立模型前需要通過曲線擴(kuò)展算法把刪失函數(shù)型數(shù)據(jù)進(jìn)行處理.本文使用的方法為文獻(xiàn)［8］中的函數(shù)型核估計(jì)方法，公式如下：

式中：wn，h(?，?)為權(quán)重函數(shù)，可以表示為：

式中：K(?)為核函數(shù)，d(?，?)為半度量，h為窗寬，在進(jìn)行估計(jì)時需要對核函數(shù)、半度量和窗寬h進(jìn)行選擇.

2 刪失函數(shù)型數(shù)據(jù)擴(kuò)展算法

本文使用文獻(xiàn)［1］提出的基于垂直距離將刪失函數(shù)型數(shù)據(jù)擴(kuò)展為完整函數(shù)型數(shù)據(jù)的方法.該方法具有計(jì)算快、精確度高、靈活性高、非參數(shù)等優(yōu)勢.具體過程為，假設(shè)觀測到的樣本為在區(qū)間Ishort=[ashort，bshort]上的函數(shù)型數(shù)據(jù)Xshort，其中ashort和bshort分別表示需要擴(kuò)展的函數(shù)型數(shù)據(jù)的左端點(diǎn)和右端點(diǎn)，使用區(qū)間Ilong=[along，blong]?Ishort上的數(shù)據(jù)Xi，i=1，…，n估計(jì)Xshort未觀測到的部分，并且Ishort?Ilong?其中along和blong分別表示長于數(shù)據(jù)Xshort的左端點(diǎn)和右端點(diǎn).從bshort的右邊來構(gòu)造擴(kuò)展數(shù)據(jù)Xext的具體算法步驟如下：

步驟1：設(shè)置對于所有的t∈[ashort，bshort]，使Xext(t)=Xshort(t)且j=1，j為擴(kuò)展的次數(shù)，bext，j=bshort.

步驟2：對于j=1，2，…，重復(fù)以下步驟直到bext，j

（1）找到所有滿足ai≤bext，j和bi>bext，j的函數(shù)型數(shù)據(jù)Xi，選擇它們其中的一個命名為Xi*，Xi*被觀測在Ii*=[ai*，bi*]，其中ai*和bi*分別表示函數(shù)型數(shù)據(jù)Xi*的左端點(diǎn)和右端點(diǎn).

（2）擴(kuò)展出的右端點(diǎn)bext，j+1=min(bi*，blong，bext，j+Δ)，其中Δ >0 是調(diào)優(yōu)參數(shù).

（3）對于每個t∈[bext，j，bext，j+1]，使Xext(t)=Xi*(t) ?Xi*(bext，j)+Xext(bext，j).

在實(shí)踐中，該算法需要在步驟2 的（2）中對調(diào)優(yōu)參數(shù)Δ 進(jìn)行選擇，Δ 的作用是為了防止擴(kuò)展過長的函數(shù)型數(shù)據(jù)片段使擴(kuò)展函數(shù)型數(shù)據(jù)產(chǎn)生較大的誤差.為了擴(kuò)展數(shù)據(jù)片段Xext足夠短，并且擴(kuò)展的數(shù)據(jù)片段盡可能包含I0上出現(xiàn)的特征模態(tài)、凹凸度變化的小片段.可以設(shè)置Δ=|I0|/10，其中|I0|表示I0的長度.如果函數(shù)型數(shù)據(jù)具有快速變化的特征，Δ 可以取的更小.

算法中還需要在步驟2 的（1）中選擇確定函數(shù)型數(shù)據(jù)Xi*.假設(shè)在步驟2 的（1）中有cj個滿足ai≤bext，j和bi>bext，j的函數(shù)型數(shù)據(jù)Xi，i=c1，…，cj.以下是選擇函數(shù)型數(shù)據(jù)Xi*的兩個方法.

方法一是在cj個碎片中隨機(jī)獲得函數(shù)型數(shù)據(jù)Xi*，每一個被選擇的概率為pij=1/cj.當(dāng)數(shù)據(jù)Xi*與來自總體的完整函數(shù)型數(shù)據(jù)的樣本具有相同的主要屬性時，可以使用這個方法.方法二是當(dāng)一組函數(shù)型數(shù)據(jù)有明顯的形狀相似時，每條函數(shù)型數(shù)據(jù)的形狀在局部與附近數(shù)據(jù)的形狀相似.在這種情況下，可以通過選擇使用最近的刪失函數(shù)型數(shù)據(jù)的方式.更具體地說，假設(shè)感興趣的是在bext，j的右邊擴(kuò)展數(shù)據(jù)Xext，讓D(Xi，Xext；bext，j) 表示Xi和Xext在點(diǎn)bext，j的距離.刪失函數(shù)型數(shù)據(jù)的形狀取決于它們局部垂直軸上的位置距離，讓D(Xi，Xext；bext，j)=|Xi(bext，j)?Xext(bext，j)|，可以得到

同樣的算法可以應(yīng)用在函數(shù)型數(shù)據(jù)的左側(cè)，通過與上面相同的方式從右向左每次擴(kuò)展一小段.使用這種非參數(shù)的方法可以把刪失函數(shù)型數(shù)據(jù)擴(kuò)展為完整的函數(shù)型數(shù)據(jù).

3 數(shù)值模擬

下面將通過數(shù)值模擬來驗(yàn)證文中所給模型與算法的可行性.定義非參數(shù)模型為：

設(shè)置εi～N(0，1)，函數(shù)型協(xié)變量為：

設(shè)置每條刪失函數(shù)型數(shù)據(jù)只有在區(qū)間Ii=[Ai，Bi]上可以被觀測到，其中Ai=[Ui]，Bi=min(Ai+[Vi]，100)，Ui～U[1，95]，Vi～U[7，15].上述設(shè)置模擬100 個刪失函數(shù)型樣本數(shù)據(jù)圖如圖1 所示.

圖1 刪失函數(shù)型數(shù)據(jù)

圖1 中隨機(jī)生成的100 個刪失函數(shù)型數(shù)據(jù)原始完整數(shù)據(jù)與擴(kuò)展算法處理后數(shù)據(jù)的對比圖如圖2 所示.使用垂直距離最小的方法將刪失函數(shù)型數(shù)據(jù)盡可能表現(xiàn)出完整數(shù)據(jù)的特征，其中圖2（a）為原始完整數(shù)據(jù)，圖2（b）為使用曲線擴(kuò)展算法補(bǔ)充后的數(shù)據(jù)，設(shè)置調(diào)優(yōu)參數(shù)Δ=10.

圖2 刪失函數(shù)型數(shù)據(jù)原始完整數(shù)據(jù)與擴(kuò)展算法處理后數(shù)據(jù)對比圖

從圖2 可以看出，使用該算法處理過的函數(shù)型數(shù)據(jù)可以近似地表現(xiàn)出原始函數(shù)型數(shù)據(jù)的特征.

在估計(jì)非參數(shù)模型時，選擇半度量為

使用正態(tài)核函數(shù)和Nadaraya?Watson 類型的窗寬并且通過廣義交叉驗(yàn)證程序選擇最優(yōu)窗寬為s=2.通過使用計(jì)算的均方誤差的均值、中位數(shù)、方差對進(jìn)行評價的均方誤差表示為：

在上述設(shè)置下循環(huán)200 次，樣本量分別為100、200、400，非線性算子的均方誤差的均值（Mean()）、方差（Var()）、中位數(shù)（Median()）評價指標(biāo)如表1 所示.

表1 非線性算子均方誤差的均值、方差、中位數(shù)

4 實(shí)例分析

下面采用非參數(shù)模型對原發(fā)性膽汁肝硬化數(shù)據(jù)進(jìn)行分析，由于不可控制的因素，所以每位患者的觀測時間和觀測次數(shù)都不同.本實(shí)例使用觀測樣本n=150 進(jìn)行建模，研究白蛋白對血清膽紅素的影響.設(shè)置調(diào)優(yōu)參數(shù)Δ=1.5，使得刪失指標(biāo)白蛋白擴(kuò)展至區(qū)間[0，14].

設(shè)置模型血清膽紅素為響應(yīng)變量Yi，i=1，…，150，白蛋白為函數(shù)型協(xié)變量且Yi=r(Xi)+εi，i=1，…，150.

在估計(jì)時采用半度量d2(Xi，Xj)=采用正態(tài)核函數(shù)和Nadaraya?Watson 類型的窗寬h，并通過廣義交叉驗(yàn)證得分來進(jìn)行選擇最優(yōu)窗寬.具體如圖3所示.

圖3 刪失函數(shù)型數(shù)據(jù)與使用擴(kuò)展算法處理后數(shù)據(jù)對比圖

從圖3 可以看出，肝硬化患者隨著患病時間的延長，白蛋白會呈現(xiàn)下降趨勢.

圖4 的分布情況

5 結(jié)語

本文通過曲線擴(kuò)展算法可以將刪失函數(shù)型數(shù)據(jù)擴(kuò)展至完整函數(shù)型數(shù)據(jù)，在建模時避免了刪失函數(shù)型數(shù)據(jù)對模型的影響.通過對非參數(shù)模型中非參數(shù)算子的估計(jì)，驗(yàn)證估計(jì)值的相合性和穩(wěn)定性.本文通過模擬數(shù)據(jù)和實(shí)例數(shù)據(jù)驗(yàn)證曲線擴(kuò)展算法的實(shí)用性和準(zhǔn)確性.