降低數(shù)據(jù)稀疏性的多維時序序列時間戳對齊方法

2022-04-28 14:10李廣盛鄭建立車霞靜

智能計算機(jī)與應(yīng)用 2022年4期

李廣盛，鄭建立，車霞靜

（1上海理工大學(xué) 健康科學(xué)與工程學(xué)院，上海 200093；2上海交通大學(xué)附屬仁濟(jì)醫(yī)院，上海 200127）

0 引言

在過去的二十年中，時間序列分類（time series classification，TSC）被認(rèn)為是數(shù)據(jù)挖掘中最具挑戰(zhàn)性的問題之一。隨著時間數(shù)據(jù)可用性的增加，自2015年以來已有數(shù)百種TSC算法被提出。由于時間序列數(shù)據(jù)的自然時序性，幾乎每一個需要某種人類認(rèn)知過程的任務(wù)中都會出現(xiàn)時間序列數(shù)據(jù)。時間序列廣泛存在各類研究工作中，包括電子健康記錄、人類活動識別到聲學(xué)場景分類和網(wǎng)絡(luò)安全等領(lǐng)域。但由于種種原因，如收集錯誤、故意損壞、醫(yī)療事件、節(jié)省成本、設(shè)備異常等，往往會不可避免地出現(xiàn)丟失觀測數(shù)據(jù)和不規(guī)則采樣等現(xiàn)象，使得時序序列數(shù)據(jù)稀疏性大大增加，阻礙了分類任務(wù)的開展。

針對時序序列中缺失問題，從不同的解決方法來看，主要可以分為2類。一是以專家知識為基礎(chǔ)進(jìn)行手工填補(bǔ)和重采樣；二是利用深度學(xué)習(xí)等方法實現(xiàn)端到端的數(shù)據(jù)填補(bǔ)及分類。前者主要利用專家知識，根據(jù)時序序列數(shù)據(jù)的觀測變量等信息進(jìn)行缺失值的填補(bǔ)和修正，后者利用深度學(xué)習(xí)強(qiáng)大的抽象表征能力和擬合能力來實現(xiàn)數(shù)據(jù)的填補(bǔ)和分類［11-14］。

基于專家知識的方法盡管可解釋性較強(qiáng)，但是卻費(fèi)時費(fèi)力；而基于深度學(xué)習(xí)方法在原始數(shù)據(jù)集上直接填補(bǔ)盡管能夠取得不錯的效果，但是卻忽視了不規(guī)則采樣等問題。此外，數(shù)據(jù)集中可能存在部分?jǐn)?shù)據(jù)缺失率過高，使得模型無法抽取其潛在信息，模型的填補(bǔ)效果大打折扣。本文提出一種基于數(shù)據(jù)集中自帶的時間戳數(shù)據(jù)，通過數(shù)據(jù)時間戳對齊和下采樣方法，在多個公開數(shù)據(jù)集以及私有數(shù)據(jù)集和近年來提出的深度學(xué)習(xí)時序序列分類算法上的實驗表明，該方法能夠在基本不損失模型效果的同時，有效減小數(shù)據(jù)集的稀疏規(guī)模和模型訓(xùn)練時間。

1 相關(guān)方法

在本節(jié)中，本文先給出多維時序序列的相關(guān)定義，之后將相關(guān)方法分為時間戳對齊和基于分布密度的下采樣兩步講述，具體流程示意圖如圖1所示。

圖1 時間戳對齊和下采樣流程示意圖Fig.1 Schematic diagram of time stamp alignment and downsampling process

1.1 多維時序序列的定義

1.2 時間戳對齊

由于數(shù)據(jù)集的不規(guī)則采樣，導(dǎo)致雖然數(shù)據(jù)采樣點的時間跨度非常大，但是數(shù)據(jù)點的個數(shù)卻非常少，具體到每一個樣本更是不盡相同。例如在Physionet數(shù)據(jù)集中，總共有48×60 min，共2 880個數(shù)據(jù)可采樣點。但事實上該數(shù)據(jù)集中最大樣本的數(shù)據(jù)采樣點個數(shù)只有249，而最小樣本的數(shù)據(jù)采樣點個數(shù)只有1。考慮到深度學(xué)習(xí)模型在訓(xùn)練時一般采用小批量（mini-batch）做法，因此需要在較短的樣本尾部填充無意義的屏蔽值（mask value），使模型的輸入等長。但是這樣的對齊在RNN模型中是有缺陷的，RNN模型的每一個時刻輸入是mini-batch在時間維上的切片，上述做法會使得切片中包含的不同樣本數(shù)據(jù)點沒有對齊，即樣本的t時刻的數(shù)據(jù)和樣本的t時刻數(shù)據(jù)同時輸入RNN模型，這樣會導(dǎo)致模型效果欠佳。因此，需要做數(shù)據(jù)對齊。

首先本文根據(jù)時間戳的最小粒度和其時間跨度，構(gòu)建一個具有最長數(shù)據(jù)點長度的無值背景板，再根據(jù)原始數(shù)據(jù)對應(yīng)的時間戳將每一個數(shù)據(jù)點嵌入其中，這樣就得到了一個完整的所有樣本數(shù)據(jù)點都對齊了的數(shù)據(jù)集，實現(xiàn)了數(shù)據(jù)點的物理位置和邏輯位置的統(tǒng)一。根據(jù)上述做法，Physionet數(shù)據(jù)集的維度從原始的3 994×203×41，最終則轉(zhuǎn)換成了3 994×2 881×41。

1.3 基于數(shù)據(jù)分布密度的下采樣

在將數(shù)據(jù)對齊后，數(shù)據(jù)集的稀疏性會進(jìn)一步擴(kuò)大，需要做進(jìn)一步的處理來減小數(shù)據(jù)集的稀疏性。本文定義在時間軸上的數(shù)據(jù)集分布密度函數(shù)，具體如下：

根據(jù)定義可知，當(dāng)（）較小時，說明樣本在對應(yīng)時間戳∈［t，t）中分布較少，該區(qū)間的稀疏性較大。本文通過求解該區(qū)間所有觀測變量的均值來替代該稀疏區(qū)域，實現(xiàn)數(shù)據(jù)稀疏性的減小，計算公式如下：

其中，t可用如下數(shù)學(xué)公式計算得出：

圖2給出了Physionet數(shù)據(jù)集原始和預(yù)處理后的數(shù)據(jù)密度分布圖像。從圖2中可以明顯看出，經(jīng)過預(yù)處理的數(shù)據(jù)在時間軸上的分布密度顯著提升，并且基本保留原始分布密度的分布趨勢。

圖2 Physionet數(shù)據(jù)集數(shù)據(jù)分布密度Fig.2 Data distribution density of Physionet data set

在經(jīng)過預(yù)處理后，Physionet數(shù)據(jù)集大小從經(jīng)過時間戳對齊后的3 994×2 881×41轉(zhuǎn)換成了3 994×100×41。對比該數(shù)據(jù)集原始的大小可以發(fā)現(xiàn)，經(jīng)過處理后的Physionet數(shù)據(jù)集的大小是原來的0.493倍，顯著減少了數(shù)據(jù)集的尺寸。

2 實驗結(jié)果

2.1 數(shù)據(jù)集

Physionet challenge 2012是physionet.org在2012年舉辦的一個多維時序序列分類和回歸比賽。該比賽使用的數(shù)據(jù)是12 000名因心臟病、內(nèi)科、外科等原因而住院的ICU病人的記錄，包括白蛋白（Albumin）、堿性磷酸酶（ALP）、谷丙轉(zhuǎn)氨酶（ALT）等36個觀測變量和年齡、身高、體重等6個一般描述符，共42個變量。除一般描述符外，囿于病人身體狀態(tài)差以及醫(yī)療設(shè)備工作性質(zhì)等原因，在36個觀測變量中有很多缺失值，且每一個觀測的時間間隔也不相同。數(shù)據(jù)集中給出了每一個觀測的相關(guān)時間戳，該時間戳的分度值是分鐘，即時間的最小粒度為每分鐘。該挑戰(zhàn)賽設(shè)立了5個分類任務(wù)和一個回歸任務(wù)。本文主要使用的是其中的死亡預(yù)測任務(wù)，即預(yù)測病人在48 h后是否死亡。這也是下文涉及的算法在提出時被使用到的任務(wù)。

MIMIC-III Clinical DataBase是一個大型的公開數(shù)據(jù)庫，其中包括了2001年至2012年期間在美國BIDMC醫(yī)療中心重癥監(jiān)護(hù)病房住院的超過4萬名患者的已確認(rèn)的健康相關(guān)數(shù)據(jù)。該數(shù)據(jù)庫包括人口統(tǒng)計信息、在床邊進(jìn)行的生命體征觀測、實驗室檢測結(jié)果、程序、藥物、護(hù)理記錄、影像報告和死亡率等記錄。通過數(shù)據(jù)挖掘、信息提取等手段，從該數(shù)據(jù)庫中提取了份存在大量缺失值和不規(guī)則采樣的ICU住院病人48 h內(nèi)的時序序列數(shù)據(jù)、對應(yīng)的時間戳和死亡預(yù)測標(biāo)簽。該數(shù)據(jù)一共有12個觀測變量，包括血氧飽和度（SpO2）、心率（HR）、呼吸速率（RR）、收縮壓（SBP）等。和Physionet一樣，本文也是使用其作為分類任務(wù)。

腎移植術(shù)后數(shù)據(jù)集是來自某三甲醫(yī)院腎移植科的931名腎移植患者術(shù)后生理檢查的數(shù)據(jù)集，其中包括血常規(guī)、尿常規(guī)和血藥濃度等共87個觀測變量。該數(shù)據(jù)集的時間戳較為特殊，以腎移植手術(shù)當(dāng)天為第零天，手術(shù)后所做檢查的時間戳都為正整數(shù)，手術(shù)前所做檢查的時間戳皆為負(fù)整數(shù)，時間戳的單位長度為一天。一般腎移植患者術(shù)后需住院幾周，因此，數(shù)據(jù)在第零天周圍分布比較密集。之后因病人經(jīng)濟(jì)原因、個人意愿以及地域等因素，使得病人做生理檢查次數(shù)較少、檢查范圍不全，從而導(dǎo)致數(shù)據(jù)分布十分稀疏且不規(guī)則。該數(shù)據(jù)集的標(biāo)簽分為感染、排異和正常三個類型，分別描述了病人腎移植術(shù)后自身免疫力水平低、高、正常對移植腎的影響。

圖3給出了上述3個數(shù)據(jù)集原始缺失率和經(jīng)過下采樣后的缺失率。從圖3中可以發(fā)現(xiàn)，腎移植數(shù)據(jù)集缺失率較另外2個數(shù)據(jù)集缺失率更高，下采樣效果不明顯，但是對于Physionet數(shù)據(jù)集和MIMIC-III數(shù)據(jù)集，下采樣均有效降低了數(shù)據(jù)集的缺失率。

圖3 3個數(shù)據(jù)集下采樣前后缺失率對比圖Fig.3 Comparison of missing rates among three data sets with and without downsampling

2.2 相關(guān)分類算法

GRUD，全稱GRU-deacy。文獻(xiàn)［12］通過分析缺失值的類型給出了2個缺失模式，分別是：固定缺失值模式和衰減收斂缺失值模式。其中，固定缺失值模式指某個觀測變量的缺失值和該觀測變量最早的記錄值相同；衰減收斂缺失值模式指觀測變量在經(jīng)過較長時間變化后逐漸收斂，如MIMIC-III中SpO2等觀測變量。研究中根據(jù)這2種缺失值模式提出了填補(bǔ)函數(shù)，并將填補(bǔ)過程嵌入普通GRU模型，構(gòu)建了一個端到端的對具有缺失值和不規(guī)則采樣的多維時序序列進(jìn)行分類的深度學(xué)習(xí)算法，在原始Physionet數(shù)據(jù)集實驗表明，該算法能夠有效地實現(xiàn)對病人死亡與否的預(yù)測，其達(dá)到了0.831，是一個強(qiáng)有力的基線。

Interp-net通過構(gòu)建了一個插值網(wǎng)絡(luò)來捕獲輸入數(shù)據(jù)的平滑趨勢、瞬態(tài)和觀測強(qiáng)度信息共三個維度的信息，以適應(yīng)使用稀疏和不規(guī)則采樣數(shù)據(jù)作為有監(jiān)督學(xué)習(xí)輸入的復(fù)雜性，從而得到一個規(guī)則間隔和無缺失值的輸出，在此基礎(chǔ)上將利用預(yù)測網(wǎng)絡(luò)計算出最后的分類結(jié)果。與GRUD不同的是，該模型完全是模塊化的，其插值網(wǎng)絡(luò)和預(yù)測網(wǎng)絡(luò)是分開的。在原始MIMIC-III數(shù)據(jù)集上達(dá)到了0.853。

2.3 結(jié)果

由于3個數(shù)據(jù)集標(biāo)簽分布并不均勻，因此本文采用ROC曲線下面積來衡量模型的效果。的計算方法同時考慮了分類器對于正例和負(fù)例的分類能力，在樣本不平衡的情況下，依然能夠?qū)Ψ诸惼髯龀龊侠淼脑u價。實驗中將數(shù)據(jù)集分為訓(xùn)練集、驗證集、測試集，其比例為0.64：0.16：0.2。模型超參數(shù)均為模型研發(fā)者提供的默認(rèn)值，其中，Physionet數(shù)據(jù)集和腎移植數(shù)據(jù)集的批次大小為128，MIMIC-III批次大小為256。

表1顯示了上述模型在3個原始數(shù)據(jù)集和預(yù)處理后訓(xùn)練的最終效果。從表1中可以看出，模型在經(jīng)過預(yù)處理的數(shù)據(jù)集上的效果幾乎同模型在原始數(shù)據(jù)集上效果相同，損耗在0.003。

表1 GRUD、Interp-net模型在Physionet、MIMIC-III、腎移植數(shù)據(jù)集上AUC效果表Tab.1 AUC effect table of GRUD and Interp-net models on Physionet，MIMIC-III，and kidney transplantation data sets

本文還對比了上述模型在這2類數(shù)據(jù)集上訓(xùn)練所需時間，所有訓(xùn)練內(nèi)容都在一張Nvidia Tesla P40顯卡上進(jìn)行。實驗結(jié)果見表2，單位為hour／epoch。從表2中可以明顯看出模型在經(jīng)過預(yù)處理的數(shù)據(jù)集上達(dá)到收斂點的時間較短，能夠有效地縮短模型的訓(xùn)練時間：在相同模型情況下，經(jīng)過處理后的數(shù)據(jù)集的訓(xùn)練時間與原始數(shù)據(jù)集訓(xùn)練時間相比，平均減少了42.1%。尤需指出的是，腎移植數(shù)據(jù)集在GRUD算法上則減少了50%。

表2 GRUD、Interp-net模型在Physionet、MIMIC-III、腎移植數(shù)據(jù)集上訓(xùn)練時間表Tab.2 Training schedule of GRUD and Interp-net models on Physionet，MIMIC-III，and kidney transplantation datasetshour·epoch-1

3 結(jié)束語

本文提出了一種新的多維時序序列預(yù)處理方法。首先利用數(shù)據(jù)集自帶的時間戳，實現(xiàn)原始數(shù)據(jù)在時間刻度上的對齊；然后通過觀察數(shù)據(jù)集在時間軸上的分布密度來縮小分布密度較低的區(qū)間，最終得到一個規(guī)則采樣且數(shù)據(jù)稀疏性大大減少的新數(shù)據(jù)集。實驗結(jié)果顯示與原始數(shù)據(jù)集相比，在基本不損失模型效果的情況下，該方法顯著減小了模型訓(xùn)練所需要的時間。但是，該方法不夠自動化，仍需要手動選擇需要縮小的區(qū)間。因此，性能上更為優(yōu)越的自動化是未來探索的方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡