基于時空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動作識別方法

2023-09-15 20:39:06何宗霖楊觀賜羅可欣

貴州大學學報（自然科學版） 2023年5期

關(guān)鍵詞：特征融合

何宗霖楊觀賜羅可欣

摘要：阿爾茲海默癥發(fā)病早期癥狀不明顯，被確診時往往已步入中晚期。為了通過日?；顒拥囊曨l監(jiān)控提早識別阿爾茲海默癥，提出了基于時空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動作識別方法（premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks， STADP ）。首先，從阿爾茲海默癥對人體機能的負面影響角度出發(fā)，基于醫(yī)學研究成果定義了日常活動中的阿爾茲海默癥先兆動作，構(gòu)建了阿爾茲海默癥先兆動作數(shù)據(jù)集（Alzheimers disease premonitory action dataset， ADP），給出了基于關(guān)鍵幀的視頻數(shù)據(jù)處理算法；其次，將基于三維卷積模型的空間特征提取模塊與基于Transformer模型的時間特征提取模塊結(jié)構(gòu)相融合，設(shè)計了時空雙流網(wǎng)絡(luò)以捕捉阿爾茲海默先兆動作的特征，從而形成了STADP算法；最后，對不同特征融合權(quán)重的模型性能進行比較，獲得了STADP的最優(yōu)工作參數(shù)。與2種模型的對比實驗結(jié)果表明：STADP的平均識別準確率、精確度、召回率以及F1值均優(yōu)于比較算法，分別為83.21%、84.61%、83.14%和82.14%。本研究將為日?；顒訑?shù)據(jù)驅(qū)動的阿爾茲海默癥先兆動作智能感知提供方法與實現(xiàn)手段。

關(guān)鍵詞：阿爾茲海默癥；動作識別；雙流網(wǎng)絡(luò)；特征融合；日常活動

中圖分類號：TP18

文獻標志碼：A

阿爾茲海默癥（Alzheimers disease， AD）是一種進行性神經(jīng)系統(tǒng)變性病，發(fā)病早期癥狀不明顯^［1］。由于迄今為止沒有任何有效藥物或治療可以逆轉(zhuǎn)AD的進程，因此提早發(fā)現(xiàn)和干預勝過治療。令人感到鼓舞的是計算機輔助技術(shù)、人工智能技術(shù)的發(fā)展為神經(jīng)病理學診斷和病癥早期預防開辟了新的道路。當前，運用人工智能技術(shù)輔助診斷AD患者，其數(shù)據(jù)集來源主要分為3類：1）基于專業(yè)儀器采集的醫(yī)學數(shù)據(jù)^［2-3］；2）基于AD神經(jīng)心理測試采集的臨床數(shù)據(jù)^［4-6］；3）從日常生活中采集的數(shù)據(jù)^［7-10］?；趯I(yè)儀器采集的數(shù)據(jù)具有測定準確、較為權(quán)威的特點，是醫(yī)生診斷AD的最重要的依據(jù)。AD神經(jīng)心理測試中的測試項目來源于長期對大量AD患者的觀察，進而總結(jié)出某些普遍規(guī)律，最終形成測試方案，是醫(yī)生做出診斷的重要依據(jù)。然而，上述兩種數(shù)據(jù)采集方式不僅需要專業(yè)人員來執(zhí)行，而且需要長時間的采集過程。與之相對的是，從日常生活中采集的數(shù)據(jù)能夠依托長期的個人行為監(jiān)控，實現(xiàn)AD的輔助診斷和提早發(fā)現(xiàn)。

從日常生活中采集的數(shù)據(jù)又可以分為：1）視覺傳感器獲得的視頻數(shù)據(jù)^［11-12］；2）聲音傳感器獲得的言語數(shù)據(jù)^［13-14］；3）其他傳感器（如：加速度計、人體傳感器等）獲得的單一或多模態(tài)數(shù)據(jù)^［10］。其中，視覺傳感器具有用戶容易接受、采集處理數(shù)據(jù)方便的特點，更適用于采集日常生活中潛在患者的動作數(shù)據(jù)。進一步，針對該數(shù)據(jù)基于視覺的深度學習算法可以通過識別潛在患者的日常行為^［15］，找到反應阿爾茲海默癥對人體機能產(chǎn)生負面影響的阿爾茲海默癥先兆動作（例如阿爾茲海默癥會導致人體記憶力下降，反映在生活中，患者更容易做飯時多次放鹽或未放鹽），從而實現(xiàn)AD的早期干預。

圍繞AD對人體機能的負面影響，利用深度學習技術(shù)實現(xiàn)AD的輔助診療，學界已經(jīng)做出了許多有益的嘗試。針對AD導致的記憶力的衰弱，Lussier等^［7］通過對比正常人和阿爾茲海默癥患者的日?；顒有袨?，發(fā)現(xiàn)阿爾茲海默癥患者在冰箱、櫥柜前經(jīng)常出現(xiàn)非正常的停頓。研究AD對人體行動能力的影響中，Bringas等^［10］發(fā)現(xiàn)AD患者在日常活動中存在動作的中斷，因此引入加速度計監(jiān)測患者的日?；顒訑?shù)據(jù)，實現(xiàn)了通過深度學習模型判定AD患者的患病階段。針對AD患者的認知能力情況測試，Negin等^［12］提出了一種Praxis測試，根據(jù)醫(yī)學的29個特定手勢，提出了一個深度學習框架，通過學習患者與正常人的手勢區(qū)別，判斷用戶是否發(fā)生了阿爾茲海默癥病變。

綜上所述，AD對人體產(chǎn)生的傷害主要有以下多種表現(xiàn)形式：喪失情緒管理能力、記憶力下降、認知能力不足、行動能力衰弱等，而這些表現(xiàn)形式都可以通過識別潛在患者的日常行為中的阿爾茲海默癥先兆動作加以認知。因此，本文基于醫(yī)學研究找到了反應人體機能衰退的阿爾茲海默癥先兆動作并構(gòu)建了數(shù)據(jù)集。同時，為了提高阿爾茲海默癥先兆動作的識別能力，通過融合視頻的空間維度特征和時間維度特征，提出了基于時空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動作識別方法。

1 阿爾茲海默癥先兆動作數(shù)據(jù)集的構(gòu)建

由上述對阿爾茲海默癥患者進行輔助診療的相關(guān)研究可知，現(xiàn)有的阿爾茲海默癥數(shù)據(jù)集存在諸多問題。一方面，這些數(shù)據(jù)集事先設(shè)定了阿爾茲海默癥的異常行為可能發(fā)生的具體場景，人為設(shè)計了一系列需要潛在患者逐項完成的動作，獲得了類似于阿爾茲海默癥臨床測試的視頻數(shù)據(jù)，但此類數(shù)據(jù)集并不能反映受測者的真實情況；另一方面，部分數(shù)據(jù)集利用多類型的傳感器長期監(jiān)測受測對象的日?；顒?，這種“飽和式”監(jiān)測會產(chǎn)生大量冗余數(shù)據(jù)，甚至是對阿爾茲海默癥識別做出相反判斷的沖突數(shù)據(jù)，反而對阿爾茲海默癥早期預防產(chǎn)生負面影響。針對上述情況，本文從現(xiàn)有醫(yī)學研究所揭示的阿爾茲海默癥先兆動作出發(fā)，采集日?；顒拥囊曨l數(shù)據(jù)并通過關(guān)鍵幀技術(shù)處理視頻，構(gòu)造了阿爾茲海默癥先兆動作數(shù)據(jù)集（Alzheimers disease premonitory action dataset， ADP），進而識別潛在患者日常生活中的異常動作，為AD早期診斷提供支撐。

發(fā)表在期刊《ALZHEIMERS & DEMENTIA》上的研究^［16］建議在AD的早期輕度認知障礙時期的臨床檢查中應引入記憶力方面的檢查，同時該研究舉了兩個記憶力檢查的例子，AD患者容易記憶不清物品擺放的位置以及忘記近期才做過的行為?；谠撗芯勘疚倪x取了日常生活中翻箱倒柜地尋找東西r_s、炒菜時重復放鹽a_s、出門后返回檢查門是否上鎖c_l這3個典型動作作為反應人體記憶力機能下降的阿爾茲海默癥先兆動作。

癡呆的行為和精神癥狀（behavioral and psychological symptoms of dementia， BPSD）是阿爾茲海默癥患者的一組異質(zhì)性非認知癥狀和行為，研究表明，BPSD在AD患病過程中影響了高達90%患者。文獻［17］歸納了BPSD影響人群中常見的一些情緒，例如焦慮、高興、易激惹、傷心、冷漠等?；谠撗芯浚疚倪x取了日常生活中哭泣c_r、大笑l_a、吸煙s_o、自言自語t_o、生氣地踢開或推開東西k_p以及情緒失控動手打人h_p這些典型動作作為反應人體情緒管理機能下降的阿爾茲海默癥先兆動作。

日常生活能力評定量表（activity of daily living scale， ADL Scale）是由美國心理學家勞頓（M. P. Lawton）等于1969年編制的用于評定個體日常生活能力的經(jīng)典評量表，在AD神經(jīng)心理學測驗中常作為評定患者日常生活功能損害程度的權(quán)威測試^［18］。該量表內(nèi)容有兩部分：一是軀體生活自理能力量表，即測定患者照顧自己生活的能力，本文中選取了吃東西e_t、喝飲料d_r、咀嚼食物c_h、吹干頭發(fā)b_l、刷牙b_t、梳頭b_r、爬樓梯c_s、摔倒f_d這些典型動作作為反應人體自理機能下降的阿爾茲海默癥先兆動作；二是工具使用能力量表，即測定患者使用日常生活工具的能力，本文中選取了攪拌食物m_i、切菜c_v、拖地m_f這3個典型動作作為反應人體工具使用機能下降的阿爾茲海默癥先兆動作。

能夠表征AD對人體機能負面影響的20種阿爾茲海默癥先兆動作如表1所示，視頻數(shù)據(jù)來源包括：從互聯(lián)網(wǎng)獲取，對現(xiàn)有數(shù)據(jù)集（HMDB-51、UCF-101）的篩選以及基于課題組搭建的智能家居環(huán)境自主拍攝。其中，翻箱倒柜地尋找東西r_s，出門后返回檢查門是否上鎖c_l，生氣地踢開或推開東西k_p這3類動作在公開文獻中沒有符合要求的數(shù)據(jù)，因此組織了20個志愿者分別拍攝了這3類動作，每類動作每人在相同的背景下拍攝120個視頻樣本，每個動作樣本時長1～5 s。

阿爾茲海默癥先兆動作數(shù)據(jù)采集涉及的智能家居環(huán)境和視覺傳感器如圖1所示。20名志愿者身材不一（體重在55～75 kg），身高范圍在1.60～1.85 m之間，符合日常生活中大部分人的身材比例，年齡在19～40歲之間，符合阿爾茲海默癥早期癥狀出現(xiàn)的時間。

最終獲得的ADP數(shù)據(jù)集有20個動作類別共2 301個視頻總計317 553幀，平均每個視頻超過138幀。由于所采集的動作均為原子動作（無法被進一步分解為多個動作的最小動作），完全可以用更少的幀表示動作的完整過程，因此為了減少視頻信息冗余的同時保留視頻主要內(nèi)容，本文構(gòu)建了基于關(guān)鍵幀的視頻數(shù)據(jù)處理算法，其步驟如算法1所示。

算法1 基于關(guān)鍵幀的視頻數(shù)據(jù)處理算法

輸入：采集的視頻數(shù)據(jù)D_v。

輸出：ADP數(shù)據(jù)集D_k。

Step 1 利用OpenCV將視頻數(shù)據(jù)D_v中的視頻進行幀切分，并將幀f_i的尺寸初始化為（3，340，240）。

Step 2 構(gòu)建視頻數(shù)據(jù)D_v中每一幀的兩種特征空間f_a、f_c和關(guān)鍵幀獲取模型R_m。

Step 2.1 利用多種圖像特征描述符（包括顏色直方圖、圖像熵、灰度共生矩陣等）為視頻數(shù)據(jù)D_v的每一幀f_i構(gòu)建起表征視頻幀圖像屬性的特征空間f_a。

Step 2.2 利用幀間距離特征為視頻數(shù)據(jù)D_v的每一幀f_i構(gòu)建起表征視頻幀之前距離差距的特征空間f_c。

Step 2.3 通過特征空間f_a和f_c構(gòu)建了基于特征交叉注意力機制的關(guān)鍵幀獲取模型R_m。

Step 3 構(gòu)建關(guān)鍵幀基準k_t，并將其作為用于R_m模型訓練的真實值。

Step 3.1 利用混合高斯模型實現(xiàn)視頻每一幀背景差分f_g的計算。

Step 3.2 利用聚類算法從由f_g組成的集群中獲得其聚類中心。該聚類中心即為視頻幀的代表和關(guān)鍵幀基準k_t。

Step 4 將數(shù)據(jù)D_v的特征f_a、f_c輸入推薦模型R_m以k_t為真實值訓練模型，并最終通過模型R_m輸出關(guān)鍵幀集合K。

Step 5 利用數(shù)據(jù)增廣技術(shù)擴充關(guān)鍵幀集合K，最終構(gòu)成ADP數(shù)據(jù)集D_k。

Step 5.1 將關(guān)鍵幀集合K的每一幀圖像f_j隨機裁剪兩次，獲得兩幀大小為（3，240，240）的圖像，并壓縮至大小（3，224，224）。

Step 5.2 將壓縮后的圖像通過水平翻轉(zhuǎn)和上下翻轉(zhuǎn)使關(guān)鍵幀集合K的大小擴充為最初始的4倍，最終形成了ADP數(shù)據(jù)集D_k。

需要說明的是，在步驟2.3中，基于特征交叉注意力機制的關(guān)鍵幀獲取模型R_m可以表示為

y_output=dnn（y_attention）

其中，y_cross表示特征空間f_a與f_c中的特征向量m_i與n_j兩兩相乘并以隱向量矩陣w_ij為系數(shù)構(gòu)建的交叉特征；a_ij為交叉特征經(jīng)過單層全連接網(wǎng)絡(luò)計算獲得的注意力分數(shù)，W_mlp和b_mlp為單層全連接網(wǎng)絡(luò)的權(quán)重和偏置矩陣；y_attention為每種交叉特征結(jié)合注意力分數(shù)的結(jié)果；y_output為經(jīng)過全連接神經(jīng)網(wǎng)絡(luò)dnn（.）獲得的概率值。

在步驟3.2中，聚類中心數(shù)量為視頻幀數(shù)量的25%。在步驟5中運用隨即裁剪和翻轉(zhuǎn)這兩種數(shù)據(jù)增廣方法實現(xiàn)擴充數(shù)據(jù)集的目的。

最終，通過基于關(guān)鍵幀的視頻數(shù)據(jù)處理算法，將每類動作的視頻幀的數(shù)量壓縮為原始數(shù)據(jù)的25%，但每個視頻至少保留16幀，獲得了每個視頻平均37幀數(shù)據(jù)壓縮率為26.8%的ADP數(shù)據(jù)集。

2 基于時空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動作識別算法

我們注意到雙流網(wǎng)絡(luò)在視頻動作識別任務(wù)中取得了較好的效果，該網(wǎng)絡(luò)的主要特點在于存在兩個通路分別處理動作姿態(tài)信息和動作變化信息。雙流網(wǎng)絡(luò)的一條通路主要關(guān)注視頻隨時間變化較小的動作姿態(tài)語義信息（例如：顏色、紋理、人物等），而另一條通路則尋找視頻隨時間變化劇烈的運動語義信息。通過上述兩路對一段視頻的“動”與“靜”或者說“空間”與“時間”兩個維度語義信息的提取，雙流網(wǎng)絡(luò)實現(xiàn)了對視頻內(nèi)容的準確識別。受此啟發(fā)，為了融合阿爾茲海默癥早期行為的空間維度特征、時間維度特征，提高動作識別的能力，提出基于時空雙流網(wǎng)絡(luò)的阿爾茲海默癥早期行為識別算法（premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks， STADP）（見圖2）。

圖2是基于時空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動作識別算法的總體架構(gòu)。輸入模塊從視頻流中截取所需要的幀并將獲得的幀片段整合為不同維度的特征向量；中間模塊使用所設(shè)計的時空雙流網(wǎng)絡(luò)提取特征，其中空間特征提取模塊將視頻視為相互獨立的幀，通過三維卷積獲取視頻中第一幀的動作姿態(tài)特征，時間特征提取模塊則將視頻視為按時間排列的幀序列，通過Transformer模型提取視頻中隨時間變化而變化的動態(tài)特征；輸出模塊根據(jù)上述兩種特征融合獲得的特征向量輸出動作類別、動作時間序列和動作質(zhì)量。

1）STADP算法流程

基于時空雙流網(wǎng)絡(luò)的視頻動作識別算法的詳細流程如算法2所示。需要說明的是，步驟8中的特征融合公式為

F_fusion=αF_s+（1-α）F_t

其中，α表示特征融合權(quán)重系數(shù)，用于平衡空間特征和時間特征的權(quán)重。后文給出了不同特征融合權(quán)重下模型性能的實驗結(jié)果。

算法2 基于時空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動作識別算法

輸入：視頻流V_f，時空雙流網(wǎng)絡(luò)N_st（空間特征提取模塊M_s，時間特征提取模塊M_t）。

輸出：視頻流識別結(jié)果A_result。

Step 1 加載模型N_st并置時間序列位置T=?，A_result=?，動作質(zhì)量Q_a=?。

Step 2 讀取t=T+1秒視頻流 if 幀速率f_v>24 f/s else 讀取t=math.ceil（f_v/24）秒視頻流。

Step 3 從讀取的視頻流中隨機且連續(xù)的截取16幀，設(shè)該片段的時間序列為T+=t。

Step 4 將16幀圖像表示為三維特征向量V_t=（16*3，224，224）。

Step 5 將16幀圖像表示為四維特征向量V_s=（3，16，224，224）。

Step 6 將特征向量V_s=（3，16，224，224）輸入空間特征提取模塊M_s，計算獲得空間特征F_s。

Step 7 將特征向量V_t=（16*3，224，224）輸入時間特征提取模塊M_t，計算獲得時間特征F_t。

Step 8 融合空間特征F_s與時間特征F_t輸出融合特征F_fusion。

Step 9 將F_fusion輸入至softmax（）獲得視頻動作類別概率分布A_p，輸出動作類別A_result。

Step 10 若max（A_p）>0.7，置Q_a=high；否則置Q_a=low。

Step 11 輸出（T，A_result， Q_a）。

2）時空雙流網(wǎng)絡(luò)結(jié)構(gòu)

由于原子動作持續(xù)時間短，因此對視頻每一幀的全部特征信息的深度提取對準確識別動作具有重要意義。為了捕捉圖像空間和時間維度上的細節(jié)特征，將三維卷積網(wǎng)絡(luò)與Transformer模型結(jié)構(gòu)相結(jié)合，設(shè)計了時空雙流網(wǎng)絡(luò)（spatiotemporal two-stream network， ST2SN），圖3是其模型結(jié)構(gòu)。

ST2SN模型由空間特征提取模塊、時間特征提取模塊構(gòu)成。

（1）空間特征提取模塊

空間特征提取模塊由6個三維卷積特征提取單元和1個全連接網(wǎng)絡(luò)單元組成。空間特征提取模塊的輸入特征向量S_in可以表示為

S_in=（b，c，f，w，h）

其中，b表示1個批次內(nèi)樣本的數(shù)量；（c，f，w，h）表示1個樣本包含f幀c個通道、寬高尺寸為（w，h）的圖像。

空間特征提取模塊進行特征提取時，三維卷積特征提取單元的卷積核K_s= （f_s，w_s，h_s）在（f，w，h）三個維度上滑動，但由于卷積核的深度大小f_ss幀的信息，于是特征主要集中于圖像特征即視頻的空間特征。

三維卷積特征提取單元包括三維卷積層C和三維池化層P，輸入向量（c_in，f_in，w_in，h_in）經(jīng)過三維卷積層C獲得輸出向量（c_out，f_out，w_out，h_out）的計算公式為

其中，K_s= （f_s，w_s，h_s）表示卷積核的尺寸，p表示填充值，s表示滑動步長；k表示一次卷積操作中掃描過的幀的數(shù)量。

同理，輸入向量（c_in，f_in，w_in，h_in）經(jīng)過三維池化層P獲得輸出向量（c_out，f_out，w_out，h_out）的計算公式為

其中，|_._|表示向上取整。

經(jīng)三維卷積提取單元提取空間特征后獲得的特征向量x_in輸入全連接網(wǎng)絡(luò)單元獲得輸出y_out的過程可以表示為

y_out=W_l（…σ（W₀x_in+b₀）…）+b_l

其中，l表示全連接網(wǎng)絡(luò)單元中全連接層的數(shù)量；σ（.）表示激活函數(shù)ReLU；W_i和b_j為各全連接層的權(quán)重和偏置矩陣。

（2）時間特征提取模塊

時間特征提取模塊由分塊單元、Transformer 編碼器單元以及全連接網(wǎng)絡(luò)單元構(gòu)建。時間特征提取模塊的總體輸入特征向量T_in可以表示為

T_in=（b，c*f，w，h）

其中，b表示1個批次內(nèi)樣本的數(shù)量；（c*f，w，h）表示單個樣本是通道大小為c*f、寬高尺寸為（w，h）的三維向量。

時間特征提取模塊將幀圖像沿深度按順序排列。當分塊單元進行特征提取時，卷積核K_s= （w_s，h_s）在（w，h）兩個維度上滑動，由于卷積核的深度大小為c*f，因此空間特征提取模塊能獲得全部幀的信息，于是特征主要集中于運動變化特征即視頻時間特征。

分塊單元可以表示為

P_embed=conv2d（c*f，v，K_s=P_s=（w_s，h_s））

其中，v表示得到的每1個小塊展開后特征向量的維度；conv2d（.）表示利用2D卷積同時實現(xiàn)分塊和塊編碼；K_s=P_s= （w_s，h_s）表示卷積核的尺寸與分塊的尺寸相同。

分塊單元為圖3中時間特征提取模塊的分塊和塊編碼兩個步驟。編碼器單元和全連接網(wǎng)絡(luò)單元與VIT^［19］模型的相對應模塊完全相同，在此不再贅述。

3 測試與分析

實驗所用的軟硬件平臺如表2所示。

3.1 不同特征融合系數(shù)的模型性能分析

特征融合公式為

F_fusion=αF_s+（1-α）F_t

其中，α為特征融合系數(shù)；F_s為空間特征；F_t為時間特征。劃定 α的取值集合為{0.3，0.35，…，0.65，0.7}。對于每1個α的取值，基于ADP數(shù)據(jù)集將本文提出的時空雙流網(wǎng)絡(luò)的空間特征模塊和時間特征模塊進行加權(quán)平均融合，對得到的融合模型進行訓練與測試。實驗參數(shù)設(shè)置如下。

訓練循環(huán)2 000輪，批處理參數(shù)為8，采用Adam為模型優(yōu)化器，損失計算公式為CrossEntropyLoss，初始學習率設(shè)為0.001，學習率的L2正則系數(shù)為5e^-4，學習率衰減公式為LambdaLR，衰減系數(shù)為 0.000 1。實驗中將ADP數(shù)據(jù)集以7∶1∶2進行隨機劃分，獲得訓練集、測試集和驗證集。實驗測試結(jié)果如表3所示。

當α=0.7時，時空特征融合方法的準確率方差最小，識別準確率均值為80.33%，排在所有α取值情況下平均準確率的最后一位；當α=0.35時，融合方法的識別準確率均值最高，準確率方差為2.949。研究發(fā)現(xiàn)，α=0.35時，融合方法的識別兼顧識別的效果與穩(wěn)定性，性能最優(yōu)。因此，下文的比較分析中α取值0.35。

3.2 比較結(jié)果與分析

3.2.1 對比模型、測評指標及實驗設(shè)置

為了評價所提STADP對阿爾茲海默癥先兆動作的識別性能，選擇C3D^［17］和VIT^［19］作為比較基準。

采用識別準確率（Accuracy）、精確率（Precision）、召回率（Recall）以及F1值（F1score）4個性能指標評估模型識別阿爾茲海默癥先兆動作的效果。

對比實驗的參數(shù)設(shè)置如表4所示。

3.2.2 實驗結(jié)果與分析

基于構(gòu)建的ADP數(shù)據(jù)集和3.2.1設(shè)定的對比實驗的參數(shù)，對各模型進行訓練與測試，3種模型的識別精度、準確率、召回率以及F1值的平均值和方差統(tǒng)計結(jié)果如表5所示，各指標統(tǒng)計結(jié)果的盒圖如圖4所示。

觀察圖4和表5的數(shù)據(jù)可得：

1）在平均識別準確率方面，本文提出的STADP方法比其他2種比較模型分別提高了3.33%、6.74%。同時，圖4（a）表明STADP在總體上的識別準確率明顯最優(yōu)。

2）在3個模型中，VIT的平均識別精度最高但其方差也是最高的，STADP的平均識別精度為第二，但方差最低。因此，本文提出的方法穩(wěn)定性是最優(yōu)的。

3）從平均召回率來看，STADP的平均值最高。因此，STADP的性能是最好的，這說明對于測試數(shù)據(jù)，STADP在每種類型的樣本中識別正樣本的能力最強。

4）觀察圖4可知，VIT模型的識別能力總體上不如STADP。但由圖4（b）可以看出，VIT模型在識別精度上接近STADP，這表明VIT模型在極限性能上或許接近STADP，但由于整體基于Transformer模型構(gòu)建，在沒有大規(guī)模數(shù)據(jù)集訓練的情況下VIT模型難以收斂，同時難以找到好的超參數(shù)。

總體上，STADP的平均識別準確率、平均精確率、平均召回率、平均F1值分別為83.21%、84.61%、83.14%和82.14%，正是因為ST2SN能夠獲得空間特征和時間特征，輸出阿爾茲海默癥早期行為的時空信息，進而使得提出的STADP識別性能優(yōu)于其他2種模型。

4 結(jié)束語

第一時間發(fā)現(xiàn)AD出現(xiàn)的苗頭可以為早確診早干預贏得黃金時間。為此，本文通過基于醫(yī)學研究的知識構(gòu)建了阿爾茲海默癥先兆動作數(shù)據(jù)集，以及基于關(guān)鍵幀的視頻數(shù)據(jù)集預處理方法，設(shè)計了提取空間特征與時間特征的時空雙流網(wǎng)絡(luò)，提出了基于時空雙流網(wǎng)絡(luò)的阿爾茲海默癥早期行為識別方法。實驗結(jié)果表明，STADP的識別準確率優(yōu)于其他比較的模型。在后續(xù)的研究中，將依據(jù)醫(yī)學知識進一步細化和擴充數(shù)據(jù)集，深入研究多模態(tài)特征融合方法，集成開發(fā)可應用的基于STADP的阿爾茲海默癥早期行為識別系統(tǒng)。

參考文獻：

[1]孔祥怡，杜建時，馬明，等. 阿爾茲海默癥血清多肽組生物標志物研究［J］. 分析化學， 2017， 45（7）： 937-943.

［2］黃悅，胡廣書，孫學智. 阿爾茨海默癥海馬區(qū)顯微圖像的分割算法［J］. 清華大學學報（自然科學版）， 2008： 1511-1514.

［3］ CHANG T S， COEN M H， LA RUE A， et al. Machine learning amplifies the effect of parental family history of alzheimers disease on list learning strategy［J］. Journal of the International Neuropsychological Society， 2012， 18（3）： 428-439.

［4］ DA SILVA R C R， DE CARVALHO R L S， DOURADO M C N. Deficits in emotion processing in Alzheimers disease： a systematic review［J］. Dementia & Neuropsychologia， 2021， 15（3）： 314-330.

［5］ TALER V， PHILLIPS N A. Language performance in Alzheimers disease and mild cognitive impairment： a comparative review［J］. Journal of Clinical and Experimental Neuropsychology， 2008， 30（5）： 501-556.

［6］ DOROCIAK K E， MATTEK N， LEE J， et al. The survey for memory， attention， and reaction time （SMART）： development and validation of a brief web-based measure of cognition for older adults［J］. Gerontology， 2021， 67（6）： 740-752.

［7］ LUSSIER M， ADAM S， CHIKHAOUI B， et al. Smart home technology： a new approach for performance measurements of activities of daily living and prediction of mild cognitive impairment in older adults［J］. Journal of Alzheimers Disease， 2019， 68（1）： 85-96.

［8］ LEE B， AHN C R， MOHAN P， et al. Evaluating routine variability of daily activities in smart homes with image complexity measures［J］. Journal of Computing in Civil Engineering， 2020， 34（6）： 376-377.

［9］ AKL A， TAATI B， MIHAILIDIS A. Autonomous unobtrusive detection of mild cognitive impairment in older adults［J］. IEEE Transactions on Biomedical Engineering， 2015， 62（5）： 1383-1394.

［10］BRINGAS S， SALOMON S， DUQUE R， et al. Alzheimers disease stage identification using deep learning models［J］. Journal of Biomedical Informatics， 2020， 109： 103514.

［11］ALBERDI A， WEAKLEY A， SCHMITTER-EDGECOMBE M， et al. Smart home-based prediction of multidoma n symptoms related to Alzheimers disease［J］. IEEE Journal of Biomedical and Health Informatics， 2018， 22（6）： 1720-1731.

［12］NEGIN F， RODRIGUEZ P， KOPERSKI M， et al. PRAXIS： towards automatic cognitive assessment using gesture recognition［J］. Expert Systems with Applications， 2018， 106： 21-35.

［13］ROSHANZAMIR A， AGHAJAN H， SOLEYMANI BAGHSHAH M. Transformer-based deep neural network language models for Alzheimers disease risk assessment from targeted speech［J］. Bmc Medical Informatics and Decision Making， 2021， 21（1）： 92.

［14］MARTINEZ-SANCHEZ F， MEILAN J J G， CARRO J， et al. A prototype for the voice analysis diagnosis of Alzheimers disease［J］. Journal of Alzheimers Disease， 2018， 64（2）： 473-481.

［15］陳曦，劉本永. 基于深度網(wǎng)絡(luò)特征提取與核非線性分類的視頻行為識別［J］. 貴州大學學報（自然科學版）， 2017， 34： 51-56.

［16］ALBERT M S， DEKOSKY S T， DICKSON D， et al. The diagnosis of mild cognitive impairment due to Alzheimers disease： recommendations from the national institute on aging-Alzheimers association workgroups on diagnostic guidelines for Alzheimers disease［J］.Alzheimers & Dementia， 2011， 7（3）： 270-279.

［17］CEREJEIRA J， LAGARTO L， MUKAETOVA-LADINSKA E B. Behavioral and psychological symptoms of dementia. ［J］. Frontiers in Neurology， 2012， 3： 73.

［18］JEKEL K， DAMIAN M， WATTMO C， et al. Mild cognitive impairment and deficits in instrumental activities of daily living： a systematic review［J］. Alzheimers Research & Therapy， 2015， 7（1）： 17.

［19］DOSOVITSKIY A， BEYER L， KOLESNIKOV A， et al. An image is worth 16×16 words： transformers for image recognition at scale［C］//International Conference on Learning Representations. Vienna， Austria： Open Review， 2021.

［20］DU T， BOURDEV L， FERGUS R， et al. Learning spatiotemporal features with 3D convolutional networks［C］// 2015 IEEE International Conference on Computer Vision （ICCV）. Santiago， Chile： IEEE Computer Society， 2015： 4489-4497.

（責任編輯：曾晶）

Premonitory Behavioral Identification of Alzheimers Disease Based on Spatiotemporal Two-stream Networks

HE Zonglin1， YANG Guanci^{*1，2，3，4}， LUO Kexin^1，2

（1.Key Laboratory of Advanced Manufacturing Technology of the Ministry of Education， Guizhou University， Guiyang 550025， China; 2.School of Mechanical Engineering， Guizhou University， Guiyang 550025， China; 3.State Key Laboratory of Public Big Data， Guizhou University， Guiyang 550025， China; 4.Guizhou Provincial Key Laboratory of "Internet+" Collaborative Intelligent Manufacturing， Guizhou University， Guiyang 550025， China））

Abstract： The early symptoms of Alzheimers disease （AD） are not obvious， and they are often in the middle or late stages when diagnosed. In order to identify AD early through video surveillance of daily activities， the premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks （STADP） is proposed. Firstly， from the viewpoint of the negative impact of AD on the ability of individuals， based on medical research results， the premonitory actions of AD in daily activities are defined and an AD premonitory behaviors dataset （ADP） is constructed， and a video data processing algorithm based on key frame recommendation is put forward. Then， by combining the space feature extraction module based on the 3D convolutional model and the temporal feature extraction module based on the Transformer model， a spatiotemporal two-stream Networks is designed to capture the action features of Alzheimers early behavior， and then the STADP has been proposed. Finally， the performance of STADP with different feature fusion weights was investigated to obtain the optimal parameters; Comparative experiment results on ADP dataset show that the proposed STADP outperforms the compared state-of-the-art methods in terms of average recognition accuracy， precision， recall， and F1 score with 83.21%， 84.61%， 83.14%， and 82.14%， respectively. This study will provide methods and implementation means for intelligent perception of Alzheimers disease premonitory actions driven by daily activity data.

Key words： Alzheimers disease; action recognition; two-stream network; feature fusion; daily activities

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于時空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動作識別方法