基于自監(jiān)督學(xué)習(xí)的多數(shù)據(jù)增廣時(shí)間序列分類算法

2024-09-13 00:00:00劉輝

電腦知識(shí)與技術(shù) 2024年22期

摘要：時(shí)間序列分類算法廣泛應(yīng)用于醫(yī)療診斷、金融預(yù)測(cè)等領(lǐng)域。然而，在解決時(shí)間序列分類問題時(shí)，深度學(xué)習(xí)模型通常面臨數(shù)據(jù)標(biāo)注困難等挑戰(zhàn)。為了克服這些困難，本文提出了一種基于自監(jiān)督學(xué)習(xí)的時(shí)間序列分類算法。該算法通過對(duì)時(shí)間序列片段進(jìn)行數(shù)據(jù)增廣，并設(shè)計(jì)區(qū)分?jǐn)?shù)據(jù)增廣形式的自監(jiān)督輔助任務(wù)來挖掘時(shí)間序列的局部信息，以提高分類性能。實(shí)驗(yàn)結(jié)果表明，該算法在五個(gè)基準(zhǔn)時(shí)間序列數(shù)據(jù)集上展現(xiàn)出優(yōu)異的分類性能，并超過了現(xiàn)有方法。

關(guān)鍵詞：時(shí)間序列分類；自監(jiān)督學(xué)習(xí)；數(shù)據(jù)增廣；局部特征；遷移學(xué)習(xí)

中圖分類號(hào)：TP181 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2024）22-0004-03

開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）

0 引言

時(shí)間序列數(shù)據(jù)廣泛存在于現(xiàn)實(shí)世界，如交通分析、醫(yī)療診斷、金融預(yù)測(cè)和工業(yè)檢測(cè)等領(lǐng)域[1-3]。挖掘時(shí)間序列數(shù)據(jù)的信息有助于分析現(xiàn)實(shí)情況，進(jìn)行科學(xué)決策。例如，研究人員通過分析心電圖、腦電圖等醫(yī)學(xué)數(shù)據(jù)來判斷病人的身體狀況，根據(jù)當(dāng)前股票價(jià)格、匯率等金融數(shù)據(jù)預(yù)測(cè)股市未來發(fā)展趨勢(shì)等。因此，研究時(shí)間序列分類算法是具有現(xiàn)實(shí)意義的。

近年來，已有大量學(xué)者將深度學(xué)習(xí)模型應(yīng)用于時(shí)間序列分類任務(wù)中[4-7]。XIAO等人[8]分別使用時(shí)間特征網(wǎng)絡(luò)提取數(shù)據(jù)局部特征和注意力網(wǎng)絡(luò)提取數(shù)據(jù)內(nèi)在關(guān)系，然后結(jié)合兩種特征進(jìn)行時(shí)間序列分類。DEMPSTER等人[9]提出一種利用隨機(jī)大小和權(quán)重的卷積核來提取時(shí)域信息的方法，該方法可以提取多種數(shù)據(jù)特征從而提高時(shí)間序列分類效果。自監(jiān)督學(xué)習(xí)作為一種新的學(xué)習(xí)范式[10]，其能夠利用輔助任務(wù)從大量無標(biāo)簽數(shù)據(jù)中挖掘出有效的數(shù)據(jù)信息。SHI等人[11]設(shè)計(jì)了自動(dòng)去噪和時(shí)間序列數(shù)據(jù)相似性判別的自監(jiān)督任務(wù)，該方法提高時(shí)間序列分類效果。LIU等人[12]根據(jù)心電信號(hào)數(shù)據(jù)的實(shí)際特點(diǎn)在數(shù)據(jù)上面疊加任意頻率和幅度的正弦波以及疊加隨機(jī)噪聲進(jìn)行數(shù)據(jù)增廣，從而提高分類效果。但是監(jiān)督學(xué)習(xí)需要大量標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練，而對(duì)數(shù)據(jù)標(biāo)注則需要耗費(fèi)大量的時(shí)間和人力成本。自監(jiān)督學(xué)習(xí)可以緩解時(shí)間序列分類領(lǐng)域標(biāo)記困難的問題。

目前，自監(jiān)督學(xué)習(xí)在時(shí)間序列分類領(lǐng)域已經(jīng)得到了大量的研究[13]。FAN等人[14]通過學(xué)習(xí)時(shí)間序列數(shù)據(jù)之間和內(nèi)部的關(guān)系來學(xué)習(xí)未標(biāo)記數(shù)據(jù)的潛在特征。該方法設(shè)置錨樣本和其他樣本進(jìn)行組合，然后讓模型學(xué)習(xí)區(qū)分每種組合。YEHUDA等人[15]基于Koopman定理[16]，通過自動(dòng)編碼器學(xué)習(xí)時(shí)間序列數(shù)據(jù)的特征表示，在ECG等數(shù)據(jù)集上取得優(yōu)異效果。ISMAIL-FAWAZ等人[17]將時(shí)間序列分成三段，利用自動(dòng)編碼器進(jìn)行特征表示，然后使用三重?fù)p失函數(shù)更新模型參數(shù)。然而，上述的自監(jiān)督時(shí)間序列分類算法的輔助任務(wù)大多是簡單任務(wù)，缺乏對(duì)數(shù)據(jù)信息的深度挖掘，且沒有充分利用無標(biāo)簽數(shù)據(jù)。

因此，本文提出一個(gè)基于自監(jiān)督學(xué)習(xí)的多數(shù)據(jù)增廣時(shí)間序列分類算法，通過設(shè)置特定的多數(shù)據(jù)增廣分類任務(wù)來挖掘數(shù)據(jù)的局部特征，既緩解了數(shù)據(jù)標(biāo)注的困難，又提高了下游時(shí)間序列分類效果。本文的主要貢獻(xiàn)包括：

1）本文提出了一種基于自監(jiān)督的時(shí)間序列分類算法，通過設(shè)置區(qū)分?jǐn)?shù)據(jù)增廣形式的分類輔助任務(wù)來挖掘時(shí)間序列數(shù)據(jù)的局部信息，從而提高分類性能。

2）在五個(gè)基準(zhǔn)時(shí)間序列數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證，結(jié)果表明該算法具有優(yōu)異的分類性能。

1 基于自監(jiān)督學(xué)習(xí)的時(shí)間序列分類算法

本文詳細(xì)介紹了基于自監(jiān)督學(xué)習(xí)的時(shí)間序列分類算法的具體步驟。該算法主要分為兩個(gè)階段：自監(jiān)督預(yù)訓(xùn)練階段和監(jiān)督微調(diào)階段。自監(jiān)督預(yù)訓(xùn)練階段如圖1所示，利用無標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練。監(jiān)督微調(diào)階段如圖2所示，利用有標(biāo)簽數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。算法的特征提取器部分使用一維ResNet網(wǎng)絡(luò)[18]。

令訓(xùn)練集為[Dtrain=x1，y1，x2，y2，...，xN，yN]，其中[xi=v1，v2，...，vd]表示長度為[d]的時(shí)間序列，子序列記為[xi，j]，其中[yi∈1，2，...，C]是時(shí)間序列[xi]對(duì)應(yīng)的標(biāo)簽，[C]表示類標(biāo)簽個(gè)數(shù)。令[??;θ]表示一維ResNet特征提取器，其中[θ]是網(wǎng)絡(luò)參數(shù)；[g?;?]表示全連接分類器，其中[?]是網(wǎng)絡(luò)參數(shù)；[h?;φ]表示帶一層CNN的全連接分類器，其中[φ]表示網(wǎng)絡(luò)參數(shù)。

1.1 自監(jiān)督訓(xùn)練

為了挖掘時(shí)間序列數(shù)據(jù)的局部特征，本文對(duì)時(shí)間子序列進(jìn)行了數(shù)據(jù)增廣和混合增廣操作，并設(shè)置區(qū)分?jǐn)?shù)據(jù)增廣形式的分類輔助任務(wù)。數(shù)據(jù)增廣方式包括隨機(jī)噪聲、數(shù)據(jù)抖動(dòng)、上下采樣以及混合增廣（包含任意兩種基礎(chǔ)增廣方法）。

對(duì)給定時(shí)間序列數(shù)據(jù)[x=v1，v2，...，vd]，進(jìn)行數(shù)據(jù)增廣操作。

1）隨機(jī)噪聲：隨機(jī)生成高斯分布噪聲[G=g1，g2，...，gd]對(duì)子序列[xi，j]添加噪聲，如公式（1）所示：

[vi=vi+gi] （1）

2）數(shù)據(jù)抖動(dòng)：隨機(jī)生成兩個(gè)參數(shù)[α]，[β]，其中[α>1]，[β<1]，對(duì)子序列[xi，j]進(jìn)行抖動(dòng)，如公式（2）所示：

[v=vi?αif i mod 2=0 vi?βotherwise] （2）

3）上下采樣：令[k=i+j2]，對(duì)子序列[xi，j]進(jìn)行上下采樣，如公式（3）所示：

[v=-1if i <=k 1otherwise] （3）

對(duì)時(shí)間序列數(shù)據(jù)[x=v1，v2，...，vd]進(jìn)行數(shù)據(jù)增廣操作后得到[x=v1，...，vi，...，vj，...，vd]，并為增廣數(shù)據(jù)[x]添加相應(yīng)的偽標(biāo)簽[y]，為了增加樣本數(shù)量和擴(kuò)大特征提取范圍，隨機(jī)選擇兩個(gè)基礎(chǔ)增廣方法進(jìn)行組合，形成新的增廣數(shù)據(jù)，最后得到新的自監(jiān)督訓(xùn)練集[Daug=x1，y1，x2，y2，...，xn，yn]。令時(shí)間序列數(shù)據(jù)經(jīng)過特征提取器后得到高級(jí)特征[zi=?（xi，θ）]，[zi]經(jīng)過分類器后的類別概率為[pi=g（zi，?）]。損失函數(shù)使用交叉熵?fù)p失函數(shù)[Lcls]，其中[Daug]表示[Daug]數(shù)據(jù)集的類別數(shù)，如公式（4）所示：

[Lcls=-1Daugi=1Daugyilogpi] （4）

最后，利用特征提取器提取高級(jí)特征[zi]，并使用分類器[h?;φ]區(qū)分源數(shù)據(jù)經(jīng)過了何種數(shù)據(jù)增廣，然后利用梯度下降算法更新特征提取器網(wǎng)絡(luò)參數(shù)，完成自監(jiān)督預(yù)訓(xùn)練。

1.2 監(jiān)督訓(xùn)練時(shí)間序列分類

在完成自監(jiān)督預(yù)訓(xùn)練后，將特征提取器參數(shù)遷移到真實(shí)標(biāo)簽數(shù)據(jù)上進(jìn)行微調(diào)。利用訓(xùn)練集[Dtrain=x1，y1，x2，y2，...，xN，yN]進(jìn)行微調(diào)，經(jīng)過特征提取器得到[zi=?（xi，θ）]，然后經(jīng)過分類器[h?;φ]得到類別概率[pi=h（zi，φ）]。損失函數(shù)使用交叉熵?fù)p失函數(shù)，其中[Dtrain]表示[Dtrain]數(shù)據(jù)集的類別數(shù)，如公式（5）所示：

[LCE=-1Dtraini=1Dtrainyilogpi] （5）

2 實(shí)驗(yàn)結(jié)果與分析

本節(jié)將介紹基于自監(jiān)督學(xué)習(xí)的時(shí)間序列分類算法的實(shí)驗(yàn)結(jié)果和分析，包括實(shí)驗(yàn)數(shù)據(jù)集、評(píng)價(jià)指標(biāo)、自監(jiān)督驗(yàn)證實(shí)驗(yàn)、對(duì)比實(shí)驗(yàn)、消融實(shí)驗(yàn)等。

2.1 實(shí)驗(yàn)設(shè)置以及評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)在The UCR time series archive[19]的5個(gè)標(biāo)準(zhǔn)時(shí)間序列數(shù)據(jù)集上進(jìn)行，其中數(shù)據(jù)集按照80%訓(xùn)練集和20%測(cè)試集進(jìn)行分配。具體數(shù)據(jù)集細(xì)節(jié)如表1所示。本文采用時(shí)間序列分類領(lǐng)域常用的準(zhǔn)確率[accuracy]作為評(píng)價(jià)指標(biāo)。

2.2 自監(jiān)督驗(yàn)證實(shí)驗(yàn)

為了驗(yàn)證自監(jiān)督預(yù)訓(xùn)練的有效性，本文設(shè)置了自監(jiān)督驗(yàn)證實(shí)驗(yàn)。實(shí)驗(yàn)分為三種類型：（1）監(jiān)督：直接使用初始化特征提取器參數(shù)進(jìn)行有監(jiān)督訓(xùn)練；（2）凍結(jié)：凍結(jié)預(yù)訓(xùn)練后特征提取器參數(shù)，只訓(xùn)練分類器；（3）微調(diào)：加載預(yù)訓(xùn)練后特征提取器參數(shù)進(jìn)行微調(diào)訓(xùn)練。實(shí)驗(yàn)過程中發(fā)現(xiàn)，使用全連接分類器[g?;?]和帶一層CNN的全連接分類器[h?;φ]對(duì)實(shí)驗(yàn)精度有不同的影響。實(shí)驗(yàn)結(jié)果如表2所示。

實(shí)驗(yàn)結(jié)果表明，模型經(jīng)過自監(jiān)督預(yù)訓(xùn)練后再微調(diào)的準(zhǔn)確率往往高于直接使用初始化參數(shù)進(jìn)行訓(xùn)練的準(zhǔn)確率，這驗(yàn)證了自監(jiān)督預(yù)訓(xùn)練的有效性。

實(shí)驗(yàn)結(jié)果還表明，使用帶一層卷積的全連接分類器[h?;φ]比全連接分類器[g?;?]的效果好。這是因?yàn)榉诸惼鞯囊粚泳矸e網(wǎng)絡(luò)可以對(duì)特征提取器得到的高級(jí)特征進(jìn)行特征精煉操作，精煉后的特征更有利于全連接分類器分類。此外，模型增加一層卷積也提升了模型的泛化能力。

因此下文的對(duì)比實(shí)驗(yàn)以及消融實(shí)驗(yàn)均使用帶一層卷積的全連接分類器[h?;φ]，并進(jìn)行微調(diào)。

2.3 對(duì)比實(shí)驗(yàn)

本節(jié)將本文提出的算法與現(xiàn)有的算法進(jìn)行對(duì)比。實(shí)驗(yàn)分別采用20%、40%和100%的訓(xùn)練集數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)，并比較算法的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如表 3 所示。

2.4 消融實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文提出的算法的有效性，在數(shù)據(jù)集CricketX上進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)分別為：1）預(yù)訓(xùn)練只進(jìn)行經(jīng)過3種基礎(chǔ)數(shù)據(jù)增廣的3分類任務(wù)，記為3-classification；2）預(yù)訓(xùn)練只進(jìn)行經(jīng)過3種基礎(chǔ)數(shù)據(jù)增廣兩兩混合的3分類任務(wù)，記為3-mix-classification；3）預(yù)訓(xùn)練經(jīng)過基礎(chǔ)和混合數(shù)據(jù)增廣的6分類任務(wù)，記為self-supervised。實(shí)驗(yàn)結(jié)果如表4所示。

實(shí)驗(yàn)結(jié)果表明，自監(jiān)督任務(wù)的復(fù)雜程度對(duì)模型性能有一定的影響。從上述實(shí)驗(yàn)可以看出，復(fù)雜的自監(jiān)督任務(wù)往往能取得更好的效果。預(yù)訓(xùn)練階段的自監(jiān)督任務(wù)有助于提升模型性能，相較于直接使用初始化參數(shù)訓(xùn)練，更容易得到更好的效果。此外，模型適當(dāng)挖掘數(shù)據(jù)自身局部信息有助于自監(jiān)督預(yù)訓(xùn)練。

3 結(jié)束語

針對(duì)時(shí)間序列數(shù)據(jù)標(biāo)記困難的問題，本文提出了一種基于自監(jiān)督學(xué)習(xí)的時(shí)間序列分類算法。該算法通過挖掘時(shí)間序列數(shù)據(jù)的局部特征進(jìn)行自監(jiān)督預(yù)訓(xùn)練，在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，所設(shè)計(jì)的自監(jiān)督方案有助于提高模型性能。

參考文獻(xiàn)：

[1] HARUTYUNYAN H，KHACHATRIAN H，KALE D C，et al.Multitask learning and benchmarking with clinical time series data[J].Scientific Data，2019，6（1）：96.

[2] REZAEI S，LIU X.Deep learning for encrypted traffic classification：an overview[J].IEEE Communications Magazine，2019，57（5）：76-81.

[3] SEZER O B，GUDELEK M U，OZBAYOGLU A M.Financial time series forecasting with deep learning：a systematic literature review：2005–2019[J].Applied Soft Computing，2020，90：106181.

[4] ISMAIL FAWAZ H，F(xiàn)ORESTIER G，WEBER J，et al.Deep learning for time series classification：a review[J].Data Mining and Knowledge Discovery，2019，33（4）：917-963.

[5] LIM B，ZOHREN S.Time-series forecasting with deep learning：a survey[J].Philosophical Transactions Series A，Mathematical，Physical，and Engineering Sciences，2021，379（2194）：20200209.

[6] BLáZQUEZ-GARCíA A，CONDE A，MORI U，et al.A review on outlier/anomaly detection in time series data[J].ACM Computing Surveys，2022，54（3）：1-33.

[7] MOHAMMADI FOUMANI N，MILLER L，TAN C W，et al.Deep learning for time series classification and extrinsic regression：a current survey[J].ACM Computing Surveys，2024，56（9）：1-45.

[8] XIAO Z W，XU X，XING H L，et al.RTFN：a robust temporal feature network for time series classification[EB/OL].2020：arXiv：2011.11829.http：//arxiv.org/abs/2011.11829

[9] DEMPSTER A，PETITJEAN F，WEBB G I.ROCKET：exceptionally fast and accurate time series classification using random convolutional kernels[J].Data Mining and Knowledge Discovery，2020，34（5）：1454-1495.

[10] JING L L，TIAN Y L.Self-supervised visual feature learning with deep neural networks：a survey[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2021，43（11）：4037-4058.

[11] SHI P X，YE W W，QIN Z.Self-supervised pre-training for time series classification[C]//2021 International Joint Conference on Neural Networks （IJCNN）.Shenzhen，China.IEEE，2021：1-8.

[12] LIU H，ZHAO Z B，SHE Q.Self-supervised ECG pre-training[J].Biomedical Signal Processing and Control，2021，70：103010.

[13] ZHANG K X，WEN Q S，ZHANG C L，et al.Self-supervised learning for time series analysis：taxonomy，progress，and prospects[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2024，PP：PP.

[14] FAN H Y，ZHANG F B，GAO Y.Self-supervised time series representation learning by inter-intra relational reasoning[EB/OL].2020：arXiv：2011.13548.http：//arxiv.org/abs/2011.13548.

[15] YEHUDA Y，F(xiàn)REEDMAN D，RADINSKY K.Self-supervised classification of clinical multivariate time series using time series dynamics[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.Long Beach CA USA.ACM，2023：5416-5427.

[16] MEZI? I.Spectral properties of dynamical systems，model reduction and decompositions[J].Nonlinear Dynamics，2005，41（1）：309-325.

[17] ISMAIL-FAWAZ A，DEVANNE M，WEBER J，et al.Enhancing time series classification with self-supervised learning[C]//Proceedings of the 15th International Conference on Agents and Artificial Intelligence.February 22-24，2023.Lisbon，Portugal.SCITEPRESS-Science and Technology Publications，2023：40-47.

[18] HE K M，ZHANG X Y，REN S Q，et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Las Vegas，NV，USA.IEEE，2016：770-778.

[19] JAWED S，GRABOCKA J，SCHMIDT-THIEME L.Self-supervised learning for semi-supervised time series classification[M]//Advances in Knowledge Discovery and Data Mining.Cham：Springer International Publishing，2020：499-511.

[20] XI L，YUN Z C，LIU H，et al.Semi-supervised time series classification model with self-supervised learning[J].Engineering Applications of Artificial Intelligence，2022，116：105331.

【通聯(lián)編輯：唐一東】

電腦知識(shí)與技術(shù)2024年22期

電腦知識(shí)與技術(shù)的其它文章: 數(shù)據(jù)分析與挖掘課程思政建設(shè)與實(shí)踐探索; 基于混合式教學(xué)的數(shù)據(jù)挖掘課程思政建設(shè)探索; “新工科”背景下地方高校計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)人才培養(yǎng)模式改革研究; 新工科背景下地方高校圖像處理與機(jī)器視覺課程的教學(xué)改革與實(shí)踐研究; IT項(xiàng)目管理課程思政建設(shè)探索與實(shí)踐; “1+X”證書制度下高職院校課證融通教學(xué)改革研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于自監(jiān)督學(xué)習(xí)的多數(shù)據(jù)增廣時(shí)間序列分類算法