倪洪科 王斌 王英超 高慧敏
摘? 要: 提出一種基于粒子群優(yōu)化(PSO)的隨機森林(RF)識別方法。利用PSO算法搜尋最優(yōu)的RF超參數(shù)n_estimators和max_depth,構(gòu)建了PSO-RF人體活動識別模型?;谌A盛頓州立大學CASAS項目數(shù)據(jù)集的實驗共識別30種日?;顒?。仿真結(jié)果表明,PSO-RF模型的識別準確率達到95%,Accuracy、Precision、Recall和F1-score評價指標均優(yōu)于其他經(jīng)典的分類模型,具有較好的預測精度和泛化能力,可為智能家居系統(tǒng)個性化服務(wù)提供輔助決策。
關(guān)鍵詞: 隨機森林; 粒子群優(yōu)化; 人體活動識別; 傳感數(shù)據(jù)
中圖分類號:TP391.4? ? ? ? ? 文獻標識碼:A? ? ? ?文章編號:1006-8228(2023)05-131-04
Application of RF model based on PSO in human activity recognition
Ni Hongke1, Wang Bin2, Wang Yingchao3, Gao Huimin2
(1. School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018,China; 2. School of Information Science and Engineering, Jiaxing University; 3. Suzhou Lanhepenbo Intelligent Technology Co., Ltd)
Abstract: In this paper, an RF recognition method based on PSO is proposed. Using PSO algorithm to search for the optimal RF hyper-parameters n_estimators and max_depth, the PSO-RF human activity recognition model is constructed. An experiment is conducted on the CASAS project dataset of Washington State University, and a total of 30 daily activities are identified. The simulation results show that the recognition accuracy of the PSO-RF model reaches 95%, and the evaluation indicators of Accuracy, Precision, Recall and F1-score are superior to other classic classification models. It has good prediction accuracy and generalization ability, and can provide auxiliary decision-making for personalized service of smart home system.
Key words: random forest (RF); particle swarm optimization (PSO); human activity recognition; sensor data
0 引言
早在二十世紀九十年代,人體活動識別(Human Activity Recognition, HAR)研究就掀起了一陣熱潮[1]?;趥鞲衅鲾?shù)據(jù)是當下主流的人體活動識別方式之一,常用的識別方法包括樸素貝葉斯、k近鄰和支持向量機等[2-3],但由于分類器數(shù)量單一且活動本身具有多樣性和復雜性,識別準確率普遍不高。隨機森林[4](Random Forest, RF)作為一種多決策樹集成的分類器,引入了隨機性,具備預測精度高、不易陷入過擬合、訓練效率高的優(yōu)點。然而,到目前為止關(guān)于隨機森林超參數(shù)的研究文獻較少,加上超參數(shù)種類繁多,無法通過一個嚴謹?shù)臄?shù)學流程給出最優(yōu)解,通常只能根據(jù)經(jīng)驗設(shè)定或通過網(wǎng)格搜索的方法獲取,而超參數(shù)的選取對模型分類的準確性有較為顯著的影響[5]。針對上述問題,本文結(jié)合環(huán)境傳感器數(shù)據(jù)的特征,引入了隨機森林算法進行人體活動識別,并進一步利用粒子群優(yōu)化[6](Particle Swarm Optimization, PSO)算法來解決隨機森林超參數(shù)選取問題。PSO算法由于概念簡單、易于和其他算法結(jié)合以及收斂速度快的優(yōu)點,被廣泛應(yīng)用于參數(shù)優(yōu)化問題[7-9]。通過隨機初始化粒子群(RF超參數(shù)n_estimators和max_depth),選用合適的評價指標作為相應(yīng)的適應(yīng)度函數(shù),不斷迭代更新粒子的速度和位置來達到最佳的適應(yīng)度,從而搜索到RF最優(yōu)超參數(shù)組合,以提高模型的收斂速度和分類識別性能。
1 特征提取
智能家居環(huán)境中會產(chǎn)生大量的傳感器事件,每個傳感器事件由Date、Time、HighLevelSensorID、LowLevelSensorID、SensorValue和Label這六種元素組成。其中,Date表示傳感器事件發(fā)生的具體日期,格式為“年-月-日”;Time表示傳感器事件發(fā)生的具體時間,格式為“小時:分鐘:秒.毫秒”;HighLevelSensorID表示結(jié)合傳感器類型的房間名稱,LowLevelSensorID是傳感器具體描述,表示房間中的特定對象或區(qū)域;SensorValue表示當前傳感器生成的消息,Label表示傳感器事件對應(yīng)的活動標簽,部分傳感器事件示例如表1所示。
使用模型識別人體活動之前,一個重要的步驟是從原始數(shù)據(jù)中提取有用的特征或?qū)傩?。本文利用滑動窗口技術(shù)(窗口大小固定為30)分割時間序列,基于上下文傳感器事件提取特征,包括時間信息(例如窗口中事件發(fā)生的時間和持續(xù)時長等)和傳感器信息(事件發(fā)生的區(qū)域、次數(shù)等),所提取的特征如表2所示。
2 PSO-RF識別模型
RF模型包含多個超參數(shù),選取的超參數(shù)不同,相應(yīng)的模型預測精度和泛化能力也大相徑庭,相關(guān)實驗表明決策樹數(shù)目(n_estimators)和決策樹最大深度(max_depth)對RF的分類性能影響較為明顯。由于粒子群算法具有高效的搜索能力且通用性比較好,容易與傳統(tǒng)的機器學習方法結(jié)合加以改進,能更高效地解決實際問題。因此本文將粒子群優(yōu)化算法引入隨機森林模型,對模型中的超參數(shù)n_estimators和max_depth進行迭代優(yōu)化,來實現(xiàn)對傳統(tǒng)隨機森林模型的改進優(yōu)化?;赑SO-RF活動識別模型的構(gòu)建如圖1所示,具體步驟描述如下。
Step1 將ADL數(shù)據(jù)樣本利用滑動窗口技術(shù)分割時間序列進行特征提取,合理劃分出訓練集和測試集。
Step2 初始化粒子群(n_estimators和max_depth)并建立隨機森林模型,用Step1獲得的訓練集樣本進行訓練。
Step3 確定PSO-RF模型適應(yīng)度函數(shù),計算每個粒子的適應(yīng)度。本文選用“Accuracy”評價指標作為適應(yīng)度函數(shù),計算方法如下:
[Accuracy=TP+TNTP+TN+FP+FN]? ⑴
其中,TP指被預測為正類的正類樣本;FP指被預測為正類的負類樣本;TN指被預測為負類的負類樣本;FN則指被預測為負類的負類樣本。
Step4 迭代更新粒子的速度和位置,計算過程如公式⑵所示。計算相應(yīng)的適應(yīng)度,將其適應(yīng)度與個體極值pbest和全局極值gbest相比較,迭代更新獲取最優(yōu)適應(yīng)度。
[vk+1id=ωvkid+c1r1pkid,pbest-xkid+c2r2pkid,gbest-xkidxk+1id=xkid+vk+1id]? ⑵
其中,ω代表慣性權(quán)重,c1和c2依次代表個體學習因子和群體學習因子,r1和r2代表[0,1]區(qū)間的隨機數(shù),用來提高搜索的隨機性。
Step5 重復Step4,直至滿足設(shè)定的最大迭代次數(shù)k,輸出PSO全局最優(yōu)位置和對應(yīng)的適應(yīng)度,此時獲得的超參數(shù)n_estimators和max_depth即待優(yōu)化RF模型的最優(yōu)解。
Step6 將PSO優(yōu)化得到的超參數(shù)n_estimators和max_depth代入RF模型,用于構(gòu)建最優(yōu)參數(shù)識別模型,輸出人體活動識別結(jié)果并進行模型性能評估。
3 實驗結(jié)果與分析
本文使用CASAS項目ADL數(shù)據(jù)集(http://casas.wsu.edu)來驗證和評估模型性能。該數(shù)據(jù)集來源于一位中年女性,在2011年6月15日至7月14日一個月內(nèi)的日常生活,涵蓋了61577個傳感器事件。為了衡量模型的性能,選用Precision、Recall、Accuracy和F1-score作為綜合評價指標,同時將宏平均(Macro avg)和加權(quán)平均(Weighted avg)作為二級評價指標,宏平均是對各個分類評價指標求算術(shù)平均,而加權(quán)平均是對各個分類評價指標求加權(quán)平均,權(quán)重為該類別在總樣本中的占比。各項指標的計算方法如下:
[Precision=TPTP+FP]? ?⑶
[Recall=TPTP+FN]? ?⑷
[F1-score=2·Precision·RecallPrecision+Recall]? ? ⑸
PSO算法中,設(shè)置粒子群規(guī)模N為100,粒子維度D為2,迭代次數(shù)k為50,學習因子c1和c2均為2,慣性權(quán)重ω為0.8,隨機初始化粒子群。整個迭代尋優(yōu)過程共持續(xù)8小時15分鐘,當?shù)Y(jié)束,輸出最優(yōu)參數(shù)n_estimators為85,max_depth為12。進行3倍交叉驗證評估,適應(yīng)度函數(shù)隨迭代次數(shù)的變化如圖2所示。采用PSO-RF模型對本文分析數(shù)據(jù)集進行測試,仿真結(jié)果如表3所示。由表3可以看出,模型準確率達到了95%。為了可視化預測結(jié)果與實際情況之間存在的離散度,分類得到的標準混淆矩陣如圖3所示。
由圖3可以看出,最具影響力的權(quán)重分布在混淆矩陣的對角線上。這表明大多數(shù)識別結(jié)果都是準確的,模型能正確地識別出發(fā)生在同一房間或空間非常相近的活動,同時可以可以根據(jù)時序區(qū)分執(zhí)行過程相同的活動(例如Morning_Meds和Evening_Meds活動),能夠有效改善家庭健康用藥(忘記吃藥、重復吃藥、不按時吃藥等)問題。為進一步驗證模型的有效性,將PSO-RF模型和與樸素貝葉斯、邏輯回歸、多層感知機、線性判別分析、支持向量機進行仿真對比,結(jié)果如表4所示。由表4可以看出,本文提出的PSO-RF模型各項評價指標均優(yōu)于其他分類算法,相比其余算法的最優(yōu)指標,Precision提高了15.85%,Recall提高了15.85%,F(xiàn)1-score提高了17.5%,Accuracy提高了15.85%。然而,為了獲取更精確的結(jié)果,模型訓練時間相對比較長。
4 結(jié)束語
結(jié)合隨機森林高效的分類性能和粒子群優(yōu)化算法較強的全局搜索能力,本文提出了一種基于粒子群優(yōu)化的隨機森林模型用于人體活動識別,通過粒子群優(yōu)化算法搜索最優(yōu)超參數(shù)n_estimators和max_depth,從而將優(yōu)化改進后的隨機森林作為識別模型。結(jié)果表明,與傳統(tǒng)的分類算法相比,PSO-RF模型具有較高的預測精度和泛化能力,將其應(yīng)用到智能家居場景個性化服務(wù)推薦是下一步需要研究的。另外,由于模型本身的復雜性,使其在獲得更高精度的同時也需要更多的時間來訓練。因此,在今后的工作中,將會對模型的訓練進行優(yōu)化,以減少訓練成本。
參考文獻(References):
[1] Rashidi P,Cook D J.Multi home transfer learning for
resident activity discovery and recognition[J].Kdd Knowledge Discovery from Sensor Data,2010:56-63
[2] 石俊豪,左德承,張展,等.基于傳感器的人體活動識別技術(shù)
綜述[J].智能計算機與應(yīng)用,2021,11(9):1-5
[3] SEDKY M, HOWARD C, Alshammari T, et al. Evaluating
machine learning techniques for activity classification in smart home environments[J]. International Journal of Information Systems and Computer Sciences,2018,12(2):48-54
[4] De'ath G, Fabricius K E. Classification and regression trees:
a powerful yet simple technique for ecological data analysis[J]. Ecology,2000,81(11):3178-3192
[5] 呂紅燕,馮倩.隨機森林算法研究綜述[J].河北省科學院
學報,2019,36(3):37-41
[6] Ishigame A, Yasuda K. Swarm Intelligence:Particle Swarm
Optimization[J]. Journal of Japan Society for Fuzzy Theory and Intelligent Informatics,2008,20(6):829-839
[7] 管雪梅,吳馬超,李文峰,黃青龍.基于粒子群優(yōu)化Friele模型
木材染色配色算法研究[J].西北林學院學報,2020,35(6):244-248
[8] 楊峻山,紀震,謝維信,朱澤軒.基于粒子群優(yōu)化的生物組學數(shù)
據(jù)分類模型選擇[J].深圳大學學報(理工版),2016,33(3):264-271
[9] 劉洋,肖偉.粒子群優(yōu)化的改進機場車輛調(diào)度模型研究[J].
計算機工程與應(yīng)用,2015,51(11):252-255,270