国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種應用于人體活動識別的遷移學習算法

2022-07-08 03:16:36陳佳偉
東北大學學報(自然科學版) 2022年6期
關鍵詞:馬氏源域準確率

趙 海, 陳佳偉, 施 瀚, 王 相

(東北大學 計算機科學與工程學院, 遼寧 沈陽 110169)

人體活動識別是通過各種傳感器采集人體行為數(shù)據(jù),并利用計算機技術對其進行分析來理解人體各種行為活動的過程,它在老人監(jiān)護[1]、健康監(jiān)測[2]、娛樂和運動等多個方面都有著良好的應用前景.隨著智能手機、智能手表等電子設備的普及,利用這些隨身攜帶的電子設備來識別人體活動成為研究熱點.范長軍等[3]利用智能手機和手環(huán)組成一個體域網(wǎng)并基于此設計了一套在線人體識別系統(tǒng),殷曉玲等[4]提出了一種利用智能手機內(nèi)置的傳感器來識別人體運動狀態(tài)的方案,Fu等[5]則設計了一種無線傳感器節(jié)點來解決用戶活動個性化識別的問題.

機器學習訓練過程的前提是數(shù)據(jù)獨立同分布,然而每個人的數(shù)據(jù)分布是不一致的,個體之間行為活動的差異導致傳統(tǒng)模型的識別精度不高[6].遷移學習常被用來解決在不同任務域中進行知識遷移的問題,它可以良好地解決由于數(shù)據(jù)分布不一致而導致傳統(tǒng)機器學習失效的問題.遷移學習已經(jīng)被證明在很多方向都有著良好表現(xiàn),如Hou等[7]利用遷移學習實現(xiàn)了跨領域的語音識別,彭雨荷等[8]提出了一種基于遷移學習的異常流量檢測方法.研究人員開始將人體活動識別和遷移學習相結合來解決識別精度不高的問題.Elnaz等[9]利用生成對抗網(wǎng)絡在人體活動識別領域進行遷移學習,在超過66%的實驗中優(yōu)于其他方法.Niu等[10]構建了一個在智能家居場景下優(yōu)于基準方法的多源遷移學習的人體活動識別模型.

如何降低不同任務域之間的分布差異是遷移學習要解決的關鍵問題[11].最近的研究工作已經(jīng)探索出兩種不同的思路:1)特征匹配,它主要通過特征變化的方式,將兩個不同分布的數(shù)據(jù)集映射到同一個高維空間,在這個高維空間中,它們之間的數(shù)據(jù)分布差異被縮小[12];2)實例加權,這種方式的主要思想是通過不斷地對一個任務域中的實例數(shù)據(jù)進行加權,直到它們之間的數(shù)據(jù)分布差異被縮小[13-14].

大多數(shù)的遷移學習算法都是基于上面的兩種思路,然而無論是基于特征匹配的遷移學習算法還是基于實例加權的遷移學習算法,都忽視了噪聲樣本對數(shù)據(jù)分布的影響.噪聲樣本是指在數(shù)據(jù)采集的過程中產(chǎn)生較大偏差或被錯誤分類而導致遷移效果下降的樣本.在人體活動識別領域常利用可穿戴傳感器采集人的運動信號,在采集過程中必然會產(chǎn)生噪聲樣本,而不論是基于哪種思路,都沒有考慮將噪聲樣本從數(shù)據(jù)集中剔除.存在噪聲樣本,不但會影響最終的遷移效果,還會影響對活動識別的準確性.

本文在傳統(tǒng)算法的基礎上,增加了對噪聲樣本的篩選過程,引入馬氏距離作為衡量噪聲樣本的標準,提出了一種應用于人體活動識別的遷移學習算法T-WMD.并將該算法應用于兩個真實世界人體活動識別數(shù)據(jù)集上,結果表明本文提出的算法可以有效地提高人體活動識別的準確率,優(yōu)于其他對比算法.

1 問題定義和相關工作

1.1 問題定義

本文基于可遷移環(huán)境的人體識別場景進行詳細的問題定義,考慮到噪聲樣本對遷移效果的影響,本文要解決的問題是如何利用已知的標簽信息來對源域中的樣本進行篩選,從而剔除噪聲樣本,并提高遷移效果,文中常用符號如表1所示.

表1 符號及說明Table 1 Notations and descriptions

本文的目標是:1)基于特征匹配的方法減小源域和目標域之間的分布差異;2)通過樣本選擇的方式篩選并剔除噪聲樣本,提高遷移性能.

1.2 基于特征匹配的遷移學習算法

特征匹配方法是通過特征變換的方式互相遷移,來減少源域和目標域之間的差異,或者將源域和目標域的數(shù)據(jù)特征變換到統(tǒng)一的特征空間中,然后利用傳統(tǒng)的機器學習方法進行分類識別.本文引入遷移成分分析[14](transfer component analysis,TCA),是基于特征匹配思想的經(jīng)典遷移算法.TCA假設存在一個特征映射?,使得映射后數(shù)據(jù)分布P(?(xs))≈P(?(xt)).值得一提的是,TCA假設如果邊緣分布接近,那么兩個領域的條件分布也會接近,即條件分布P(ys|?(xs))≈P(ys|?(xt)).

具體而言,TCA利用最大均值差異(maximum mean discrepancy, MMD)來計算源域和目標域映射后的距離:

(1)

其中,n1和n2分別為源域和目標域的樣本個數(shù).

將式(1)展開,引入核矩陣

(2)

其中,K=[?(xi)T?(xj)].

以及MMD矩陣L,它的每個元素的計算方式為

(3)

將矩陣K進行分解:

(4)

(5)

MMD(xs,xt)=tr((KWWTK)L)=tr(WTKLKW) .

(6)

為了減小源域和目標域之間的分布差異,即MMD距離,TCA將優(yōu)化目標定義為

(7)

s.t.WTKHKW=Im.

最后,解決式(7)的拉格朗日對偶問題:

(8)

得到的矩陣W就是映射并降維后的樣本,它的解為(KLK+μI)-1KHK的前m個特征向量,其中m≤n1+n2-1.

1.3 距離度量方法

距離是用來衡量兩個數(shù)據(jù)域之間差異的基礎手段,常用的距離度量方法有很多,例如歐氏距離、最大均值差異和馬氏距離[15]等.本文所提出的算法使用的是馬氏距離,由印度統(tǒng)計學家Mahalanobis提出,是基于樣本分布的距離.它是一種有效計算兩個未知樣本集的相似度的方法,與歐氏距離相比,它考慮到各種特性之間的聯(lián)系并且與尺度無關.在計算樣本大、特征多的人體運動數(shù)據(jù)時,簡單的計算方式可以大幅度減少計算時間,提高算法運行效率.

(9)

其中:μ為樣本分布的均值;S是樣本分布的斜方差矩陣.

2 T-WMD算法介紹

本文提出基于加權馬氏距離的遷移學習算法T-WMD.傳統(tǒng)的算法在進行遷移學習時,只考慮縮小源域和目標域之間的距離,沒有考慮噪聲樣本對遷移效果的影響,T-WMD算法在傳統(tǒng)算法的基礎上加入了篩選噪聲樣本的步驟.

T-WMD算法首先利用TCA將源域數(shù)據(jù)集和目標域數(shù)據(jù)集進行特征映射和降維,從而達到縮小源域和目標域之間數(shù)據(jù)邊緣分布差異的目的,然后利用本文提出的基于馬氏距離的樣本篩選算法WMD對源域樣本進行噪聲樣本的篩選,這樣做的好處有:1)可以縮小源域和目標域之間的條件分布差異;2)將噪聲樣本篩選出來,從而提升遷移效果和識別準確率.算法具體流程如圖1所示.

圖1 T-WMD算法流程圖Fig.1 Flow diagram of T-WMD

2.1 基于馬氏距離的樣本選擇算法WMD

噪聲樣本是影響遷移學習效果和識別準確率的原因之一,本文所提出的WMD算法通過計算源域數(shù)據(jù)Ds和帶標簽的目標域DL之間的馬氏距離來對源域中的樣本進行篩選.

首先,計算DL各類樣本的均值μc:

(10)

其中:μc是DL中第c類樣本的均值;nc是第c類樣本的總數(shù);xLi是DL中第c類的第i個樣本.

其次,計算DL中各類樣本的協(xié)方差矩陣Sc:

(11)

其中,xLm是DL中樣本的第m個特征.

然后,計算Ds中的樣本到DL中各類的馬氏距離:

(12)

其中:xi表示源域Ds中的第i個樣本;yi表示樣本xi的標簽;α是本文引入的權重因子.

最后,當xi對DL中各類馬氏距離計算完成后,判斷和xi距離最近的類的標簽與yi是否相同,如果相同則保留這個樣本,否則刪除.

本算法在馬氏距離算法的基礎上,根據(jù)生理信號采集過程中易產(chǎn)生噪聲樣本的特點引入了權重因子α.

由于人行為的不確定性,在使用可穿戴傳感器針對各種不同動作進行生理信號采集的過程中,可能會采集到不屬于同一類的噪聲信號,也有可能導致本屬于同一動作的部分信號相較于其他信號產(chǎn)生較大的差異,這兩部分信號都有可能對最后的遷移效果和識別分類的準確率造成影響.

為了剔除出不屬于同一類的噪聲信號,同時篩選出產(chǎn)生較大偏差的信號,本算法引入權重因子α.在計算Ds中的樣本對DL中各類樣本的馬氏距離時,如果兩者屬于同一類,則利用式(13)進行計算:

(13)

其中,α∈(-1,1].當α→-1時,會使樣本xi對同類的計算的馬氏距離減少,從而保留下產(chǎn)生較大偏差的同類樣本.當α→1,會使樣本xi對同類的計算的馬氏距離增加,從而保留下與目標域距離最近的同類樣本.算法流程見算法1.

算法1 WMD

輸入:

過程:

1.計算DL中各類的均值μc;

2.計算DL中各類的協(xié)方差矩陣Sc;

3.forDs中的每個樣本xido:

forDL中每個標簽cdo:

根據(jù)式(12)計算Ds中的樣本xi到DL中c類的馬氏距離;

判斷距離xi最近的類標簽與yi是否相同,相同則保留xi,不同則刪除xi.

4. end

5.end

輸出:

樣本選擇后的源域數(shù)據(jù)集Ds.

2.2 T-WMD算法

T-WMD算法的基本流程是:首先利用TCA算法將源域數(shù)據(jù)集和目標域數(shù)據(jù)集同時使用核函數(shù)映射到高維希爾伯特空間,再進行降維操作,來縮小邊緣分布差異.然后使用本文提出的樣本選擇算法WMD對映射和降維后的源域數(shù)據(jù)進行噪聲樣本的篩選,來縮小條件分布差異.最后使用處理好的源域數(shù)據(jù)訓練分類器,將目標域數(shù)據(jù)送入分類器中得到分類結果.算法流程見算法2.

算法2 T-WMD

輸入:

過程:

1.投影后的Ds,DL和DU= TCA(Ds,Dt,m);

2.樣本選擇后的Ds= WMD(Ds,DL,α);

3.把樣本選擇后的Ds作為訓練集輸入到分類器f中進行訓練;

4.使用分類器f對投影后的DU進行分類;

輸出:

無標簽目標域DU的標簽.

本文提出的算法主要由4個步驟組成:第一步投影和降維的時間復雜度為O(N),第二步樣本選擇的時間復雜度為O(MN),第三步訓練分類器和第四步使用分類器進行分類的時間復雜度均為O(N).所以T-WMD算法的時間復雜度為O(3N+MN)≈O(MN),其中M為標簽個數(shù),N為樣本個數(shù).

3 實驗結果與分析

3.1 實驗數(shù)據(jù)集

為了驗證T-WMD算法的有效性,本文使用了兩個真實世界的人體活動識別數(shù)據(jù)集來進行實驗.它們是PAMAP2數(shù)據(jù)集[16]和mHealth數(shù)據(jù)集[17-18],分別來自德國人工智能研究中心和格拉納達大學.

PAMAP2數(shù)據(jù)集包含18種不同體育活動的數(shù)據(jù)(步行、騎自行車、踢足球等).數(shù)據(jù)集選取9位受試者,令他們佩戴3個慣性測量單元和心率檢測器.在進行信號采集過程中,要求受試者遵循12種不同活動的協(xié)議.數(shù)據(jù)文件包含54行,每行有一個時間戳、一個活動標簽和52個原始感官數(shù)據(jù)屬性.

mHealth數(shù)據(jù)集包含了12種不同的體育活動數(shù)據(jù).數(shù)據(jù)集采集了10名不同身材的志愿者在體育鍛煉時的身體運動和生命體征記錄.mHealth將傳感器放置在實驗對象的胸部、右手腕和左腳踝,來測量身體各個部位在運動時的加速度、轉(zhuǎn)彎速率和磁場方向.除此之外,放置在胸部的傳感器還提供2導聯(lián)的心電測量.

3.2 實驗流程及設置

本實驗從兩個數(shù)據(jù)集中選取了坐、躺、走四類生活中常見的人體活動樣本,在這些樣本中選取了在x、y、z三個方向上的胸部、手臂和腳踝的加速度以及手臂、腳踝的角速度和磁場強度共計21維數(shù)據(jù).將這些數(shù)據(jù)進行標準化處理,并對每一維數(shù)據(jù)進行了特征提取工作,提取的特征包括平均值、方差、極差、偏度和峰度等時域特征、前5個最高峰值以及對應的頻率和11個自相關系數(shù)共計546維特征.本實驗所使用的處理后的數(shù)據(jù)集信息如表2所示.

表2 數(shù)據(jù)集說明Table 2 Description of data set

本實驗選擇的對比算法包括基于特征匹配的遷移算法TCA[14]、基于實例加權的遷移算法TJM[11]、基于聯(lián)合分布自適應的遷移算法BDA[19]和JDA[20],為了突出算法性能的比較結果,本文選擇KNN(K=1)作為基礎分類器.

本文提出的算法需要設置兩個超參數(shù),維度m和權重因子α,這兩個參數(shù)均為經(jīng)驗參數(shù),本文將在3.4節(jié)中對經(jīng)驗參數(shù)進行參數(shù)敏感性分析,以便確定α最佳的取值范圍.

實驗的具體流程:首先對PAMPA2和mHealth數(shù)據(jù)集進行特征提取和標準化處理,然后使用KNN,TCA,TJM,BDA和T-WMD算法對構建的遷移學習任務進行實驗,得到實驗結果并分析.

3.3 實驗結果分析

本實驗以分類準確率作為評價指標,將PAMPA2和mHealth數(shù)據(jù)集分別作為源域和目標域構建了兩組遷移任務,實驗結果如表3所示.

表3 對比算法與本文算法的準確率Table 3 The accuracy between the proposed algorithm and the contrast algorithm %

由實驗結果可以發(fā)現(xiàn),本文提出的算法在兩次實驗中都獲得了較高的準確率,分別為76.04%和67.64%.與未采用遷移學習的傳統(tǒng)機器學習算法KNN(假設訓練數(shù)據(jù)與測試數(shù)據(jù)滿足獨立同分布IID條件)相比,準確率高出了3.12%和4.71%;與其他遷移學習算法相比,準確率較最高的算法高出1.46%和2.49%,較最低的算法高出23.33%和4.93%.

TCA算法是基于特征匹配的遷移學習算法,假設通過拉近源域和目標域之間的邊緣分布來使條件分布接近.TCA沒有考慮樣本的因素,這使得當該算法應用在生理信號這種具有噪聲樣本的數(shù)據(jù)集時,遷移效果不好.

TJM算法是對TCA的改進,進一步考慮到樣本對遷移效果的影響,通過有限次的循環(huán)來給樣本進行加權.但是循環(huán)的次數(shù)會根據(jù)數(shù)據(jù)集的不同而變化,要找到最優(yōu)的循環(huán)次數(shù)可能要耗費大量的時間,而且僅僅加權并不能完全剔除噪聲樣本對遷移效果的影響.在本實驗中TJM的遷移效果不好,其原因是TJM算法是對所有樣本進行加權,但并沒有考慮有噪聲樣本的數(shù)據(jù)集的情況,在有噪聲樣本的數(shù)據(jù)集中,這種做法可能加大了噪聲樣本的影響,導致遷移效果下降.

JDA算法是從分布自適應的角度提出的遷移學習算法,BDA算法是對JDA算法的提升.兩者均沒有完全剔除噪聲樣本對遷移學習效果的影響.對于生理信號這類容易產(chǎn)生噪聲的數(shù)據(jù)集來說,遷移效果不好.

相較于其他對比算法,本文提出的算法考慮了特征和樣本兩個維度,利用部分有標簽的目標域,對源域中的樣本進行篩選,剔除噪聲樣本,提升了遷移效果.

3.4 參數(shù)敏感性分析

在本文提出的算法中,需要提前設置權重因子α.權重因子α的值會對剔除噪聲樣本的數(shù)量產(chǎn)生影響.本文按照TCA和JDA等算法原文中的設置,統(tǒng)一設置m為30,在兩組遷移任務上,使用遍歷的方式在[-1,1]范圍內(nèi)查找α的最優(yōu)取值范圍.圖2展示了在維度m為30時,兩次實驗中權重因子對分類準確率的影響.

圖2 權重因子對準確率的影響Fig.2 The influence of weighting factor on accuracy

由圖2可以發(fā)現(xiàn),不同的權重因子會影響分類準確率,在這兩組遷移任務上,當α→-1時,被刪除的噪聲樣本數(shù)量減少,噪聲樣本的存在影響著遷移效果,導致準確率下降;而當α→ 1時,被刪除的噪聲樣本數(shù)量增多,當α過大時還會影響正常的樣本,導致準確率下降.因此,從圖2中可以得到,α的最優(yōu)取值范圍應該在[-0.75, 0.5],在這個區(qū)間中選取α可以達到最高的準確率,且不同的α對準確率的影響不是很大.

4 結 語

本文針對生理信號中噪聲樣本會影響遷移效果的問題,通過利用部分有標簽的目標域來對源域樣本進行篩選,剔除噪聲樣本,提出了T-WMD算法,該算法同時考慮特征和樣本兩個維度.并在兩個公開的活動識別數(shù)據(jù)集上進行了實驗,同時與其他5種算法進行對比.實驗結果表明,本文提出的方法可以有效地提高活動識別的準確率,提升遷移效果,優(yōu)于其他對比算法.

本文提出的算法還有不足之處.在T-WMD算法中,需要指定權重因子的值,但目前只能使用遍歷的方式找到權重因子最優(yōu)的取值范圍,如何確定最佳的α值,找出與α有關的因素,這是未來要解決的問題.

猜你喜歡
馬氏源域準確率
多源域適應方法綜述
一類時間變換的強馬氏過程
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
有環(huán)的可逆馬氏鏈的統(tǒng)計確認
基于參數(shù)字典的多源域自適應學習算法
關于樹指標非齊次馬氏鏈的廣義熵遍歷定理
高速公路車牌識別標識站準確率驗證法
一致可數(shù)可加馬氏鏈不變測度的存在性
徐州市| 木里| 壤塘县| 原阳县| 河曲县| 常德市| 炉霍县| 延津县| 周至县| 即墨市| 蓬安县| 久治县| 启东市| 临朐县| 大竹县| 天柱县| 清远市| 宣恩县| 新兴县| 慈利县| 双城市| 阿克苏市| 高碑店市| 顺义区| 潮州市| 新晃| 宁德市| 图们市| 扬中市| 镇雄县| 赤峰市| 中江县| 神池县| 蒙城县| 陇南市| 萍乡市| 遂川县| 政和县| 社旗县| 汝阳县| 广丰县|