国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多源動(dòng)作信息的手衛(wèi)生動(dòng)作質(zhì)量評(píng)估

2024-01-21 15:14:14李德康王福田涂子健
計(jì)算機(jī)與現(xiàn)代化 2023年12期
關(guān)鍵詞:差分衛(wèi)生分?jǐn)?shù)

李德康,湯 進(jìn),王福田,涂子健

(1.安徽醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院,安徽 合肥 230032;2.合肥綜合性國家科學(xué)中心人工智能研究院,安徽 合肥 230088;3.安徽大學(xué),安徽 合肥 230039)

0 引 言

世界衛(wèi)生組織將10 月15 日定為“世界洗手日”,呼吁全世界人民掌握良好的洗手習(xí)慣和正確的洗手方法,并且強(qiáng)調(diào)勤洗手對(duì)防控疾病感染的重要性。據(jù)統(tǒng)計(jì),我國每年因醫(yī)院感染而死亡的人數(shù)達(dá)到數(shù)十萬人,且需額外支出100~150 億元醫(yī)療費(fèi)用[1]?,F(xiàn)有的感染防控手段可以預(yù)防55%~70%的醫(yī)院感染風(fēng)險(xiǎn),其中手衛(wèi)生是預(yù)防醫(yī)院感染最直接、最經(jīng)濟(jì)、最有效的方法[2]。

手衛(wèi)生為洗手、衛(wèi)生手消毒和外科手消毒的總稱。其中,六步洗手法是完成手衛(wèi)生不可或缺的一個(gè)行為,它包含了6 個(gè)步驟,如圖1 所示。研究表明,六步洗手法對(duì)于預(yù)防細(xì)菌和病毒感染至關(guān)重要,完整且規(guī)范地完成六步洗手法能夠有效地將細(xì)菌感染率從58%下降到10%[3]。因此,通過對(duì)手衛(wèi)生行為進(jìn)行干預(yù)能夠減少病毒感染的風(fēng)險(xiǎn)。

圖1 六步洗手法步驟圖

在干預(yù)手衛(wèi)生行為的研究中,手衛(wèi)生動(dòng)作質(zhì)量評(píng)估任務(wù)尤為關(guān)鍵。這項(xiàng)研究主要是針對(duì)手衛(wèi)生行為進(jìn)行評(píng)估并提供反饋,以幫助人們掌握正確的洗手方法和技巧,并養(yǎng)成良好的手衛(wèi)生習(xí)慣。傳統(tǒng)的手衛(wèi)生動(dòng)作質(zhì)量評(píng)估方法主要依賴于人工觀察和評(píng)估,這種方法需要投入大量的人力和資源。因此,基于智能技術(shù)的手衛(wèi)生動(dòng)作質(zhì)量評(píng)估方法的研究變得尤為重要,通過利用智能算法和計(jì)算機(jī)視覺技術(shù),能夠更高效地評(píng)估手衛(wèi)生動(dòng)作的質(zhì)量,從而節(jié)約資源的同時(shí)提供準(zhǔn)確的評(píng)估結(jié)果,能夠及時(shí)提供有效的反饋。

在基于智能方法的手衛(wèi)生動(dòng)作質(zhì)量的研究中,基于深度學(xué)習(xí)的方法已經(jīng)得到了廣泛應(yīng)用。Llorca 等人[4]利用皮膚顏色和手部運(yùn)動(dòng)相結(jié)合來分析洗手過程中的手部動(dòng)作,通過測量用戶在每個(gè)姿態(tài)中花費(fèi)的時(shí)間來衡量洗手質(zhì)量。Zhong等人[5]應(yīng)用迭代工程過程設(shè)計(jì)了手衛(wèi)生行為檢測系統(tǒng),其使用了動(dòng)作識(shí)別的方式來完成手衛(wèi)生評(píng)估任務(wù)。然而上述方法未能直觀地通過分?jǐn)?shù)來反饋出手衛(wèi)生動(dòng)作質(zhì)量。為了解決上述問題,Li等人[6]在真實(shí)場景下采集了一批高質(zhì)量的手衛(wèi)生視頻,通過細(xì)粒度標(biāo)注,創(chuàng)建了名為HHA300(https://github. com/mmic-lcl/Datasets-andbenchmark-code)的手衛(wèi)生數(shù)據(jù)集。同時(shí)他們提出了一個(gè)能夠直接輸出預(yù)測得分的算法模型,該模型結(jié)合了動(dòng)作分割算法,用于提取手衛(wèi)生視頻中的每個(gè)步驟的I3D[7]特征片段。此外,他們?yōu)槊總€(gè)步驟設(shè)計(jì)了一個(gè)專門的打分器,用于評(píng)估步驟的質(zhì)量和規(guī)范程度。其研究中還引入了2 個(gè)評(píng)價(jià)指標(biāo),用以衡量手衛(wèi)生動(dòng)作質(zhì)量評(píng)估得分的準(zhǔn)確性。這一綜合方法在實(shí)現(xiàn)動(dòng)作質(zhì)量評(píng)估準(zhǔn)確性的同時(shí),也為手衛(wèi)生行為質(zhì)量提供了客觀可量化的評(píng)估方法,為深入的手衛(wèi)生干預(yù)提供了有力支持。盡管他們設(shè)計(jì)的方法可評(píng)估分析手衛(wèi)生視頻的動(dòng)作信息,然而從視頻中提取的融合了RGB 和光流信息的I3D 特征并不敏感于捕獲視頻中的手部運(yùn)動(dòng)信息。手衛(wèi)生評(píng)估涉及細(xì)微動(dòng)作信息,如手部姿勢、手指移動(dòng)等,這些動(dòng)作可能不僅僅通過運(yùn)動(dòng)模式來表達(dá)。為了更準(zhǔn)確地評(píng)估手衛(wèi)生動(dòng)作的質(zhì)量,本文提出一種基于多源動(dòng)作信息的手衛(wèi)生動(dòng)作質(zhì)量評(píng)估算法,該算法綜合利用視頻數(shù)據(jù)和差分圖像數(shù)據(jù),著重關(guān)注手衛(wèi)生動(dòng)作的微妙細(xì)節(jié),從而實(shí)現(xiàn)更為精確的評(píng)估。

該算法在分割模塊中,將獲取特征中的每個(gè)步驟片段,從而為后續(xù)的評(píng)估模塊提供有效的特征信息。在評(píng)估模塊中,將差分圖像特征步驟所在片段與視頻的I3D 特征步驟所在片段使用包含交叉注意力機(jī)制的手衛(wèi)生信息解碼器結(jié)合起來,這種綜合的特征表示能夠更好地捕捉到細(xì)微的手部運(yùn)動(dòng)信息,可以提供更豐富和全面的信息,使評(píng)估模型能夠更準(zhǔn)確地理解和評(píng)價(jià)手衛(wèi)生動(dòng)作的質(zhì)量。

綜上所述,本文對(duì)手衛(wèi)生動(dòng)作質(zhì)量評(píng)估任務(wù)做出的工作有以下3點(diǎn):

1)設(shè)計(jì)一個(gè)動(dòng)作分割模塊,通過精確地對(duì)手衛(wèi)生視頻進(jìn)行分割,為后續(xù)的評(píng)估模塊提供準(zhǔn)確的定位信息。

2)設(shè)計(jì)一個(gè)多源動(dòng)作信息作為輸入的手衛(wèi)生評(píng)估模塊。通過引入差分圖像數(shù)據(jù)作為補(bǔ)充,更好地對(duì)手衛(wèi)生動(dòng)作的細(xì)微運(yùn)動(dòng)進(jìn)行建模,提高手衛(wèi)生評(píng)估的準(zhǔn)確性。

3)以端到端的方式對(duì)手衛(wèi)生動(dòng)作質(zhì)量進(jìn)行評(píng)估,有效地提高評(píng)估的準(zhǔn)確性和效率。同時(shí)在公開數(shù)據(jù)集HHA300上取得了最好的結(jié)果。

1 相關(guān)工作

1.1 視頻動(dòng)作分割

近年來,視頻動(dòng)作分割任務(wù)取得了顯著的進(jìn)展。其中,時(shí)域卷積網(wǎng)絡(luò)[8](Temporal Convolutional Network,TCN)在該領(lǐng)域發(fā)揮了重要作用。TCN 結(jié)構(gòu)由擴(kuò)張卷積[9]和因果卷積[10]組成,能夠有效建模復(fù)雜的時(shí)間結(jié)構(gòu),實(shí)現(xiàn)時(shí)間序列的預(yù)測。Lea 等人[11]首次提出了基于視頻動(dòng)作分割的TCN,采用編碼器-解碼器架構(gòu),利用TCN 捕捉長期依賴關(guān)系。然而,這種方法可能缺乏動(dòng)作識(shí)別所需的細(xì)粒度信息。Lei 等人[12]在Lea 等人的基礎(chǔ)上將可變形卷積代替普通卷積,同時(shí)添加了殘差流,使得性能得到了提升。為了克服細(xì)粒度缺失問題,F(xiàn)arha 等人[13]通過多層堆疊TCN,在全時(shí)域分辨率下運(yùn)行模型。Ishikawa 等人[14]使用TCN 網(wǎng)絡(luò)為主干網(wǎng)絡(luò),通過將動(dòng)作分割網(wǎng)絡(luò)進(jìn)行解耦為動(dòng)作分類和動(dòng)作邊界回歸3 大模塊更好地完成動(dòng)作分割任務(wù)。Wang 等人[15]也采用了TCN 作為主干結(jié)構(gòu),通過級(jí)聯(lián)網(wǎng)絡(luò)方式提高動(dòng)作識(shí)別的準(zhǔn)確性,并關(guān)注邊界信息以緩解過度分割問題。

除了TCN,Transformer[16]是另一種在順序性數(shù)據(jù)中具有出色關(guān)系建模能力的模型。Yi等人[17]首次提出了一種有效的分層注意力機(jī)制,用于捕獲幾分鐘長的視頻序列中的依賴關(guān)系,并設(shè)計(jì)了解碼器來優(yōu)化輸出結(jié)果。

1.2 動(dòng)作質(zhì)量評(píng)估

近年來大多數(shù)研究都是將動(dòng)作質(zhì)量評(píng)估任務(wù)轉(zhuǎn)換為回歸問題。Pirsiavash 等人[18]將質(zhì)量評(píng)估視為監(jiān)督回歸問題,使用離散余弦變換對(duì)關(guān)節(jié)軌跡編碼作為輸入特征,通過線性支持向量回歸映射出最終分?jǐn)?shù)?;谝曈X的方法,對(duì)視頻中動(dòng)作評(píng)估時(shí),人類的注意力會(huì)集中到重要的視頻區(qū)域,Li 等人[19]提出一種基于遞歸神經(jīng)網(wǎng)絡(luò)的空間注意力模型。Parmar 等人[20]收集體育領(lǐng)域的數(shù)據(jù)集,且提出了直接利用C3D[21]提取的視頻特征信息,能夠提升動(dòng)作質(zhì)量評(píng)估算法的性能。Zeng 等人[22]通過利用上下文感知注意力模塊來結(jié)合動(dòng)態(tài)信息和靜態(tài)信息實(shí)現(xiàn)動(dòng)作質(zhì)量評(píng)估任務(wù)。Yu 等人[23]提出了一個(gè)對(duì)比回歸框架,通過視頻之間的差異,引導(dǎo)模型進(jìn)行學(xué)習(xí)評(píng)估。Xu 等人[24]提出了一個(gè)大規(guī)模的花樣滑冰運(yùn)動(dòng)視頻數(shù)據(jù)集,并設(shè)計(jì)了基于注意力機(jī)制的花樣滑冰動(dòng)作質(zhì)量評(píng)估方法。Xu 等人[25]通過Likert量表[26]設(shè)計(jì)了一種新的評(píng)分范式,提出不同等級(jí)對(duì)評(píng)估分?jǐn)?shù)的影響。

2 方法

本文提出的算法模型是以端到端的方式完成手衛(wèi)生動(dòng)作質(zhì)量評(píng)估,算法流程如圖2 所示,該算法主要分為動(dòng)作分割模塊、差分圖像特征提取以及評(píng)估模塊3個(gè)部分。算法的執(zhí)行起始點(diǎn)為動(dòng)作分割模塊。

圖2 手衛(wèi)生動(dòng)作質(zhì)量評(píng)估算法流程圖

2.1 動(dòng)作分割模塊

在手衛(wèi)生視頻中,在步驟切換、視頻開始和視頻結(jié)束等時(shí)間片段中存在著無關(guān)的動(dòng)作,如圖3 所示。這些動(dòng)作對(duì)手衛(wèi)生動(dòng)作質(zhì)量評(píng)估結(jié)果有著一定的負(fù)面影響。

圖3 六步洗手法非步驟動(dòng)作圖

為了準(zhǔn)確地評(píng)估手衛(wèi)生動(dòng)作,本文設(shè)計(jì)一個(gè)動(dòng)作分割模塊提取手衛(wèi)生動(dòng)作中每個(gè)步驟的位置索引,通過這些位置索引可以定位并截取出步驟所在片段。通過這種方法,能夠單獨(dú)針對(duì)步驟中的動(dòng)作進(jìn)行手衛(wèi)生評(píng)估,有效避免了無關(guān)動(dòng)作對(duì)評(píng)估結(jié)果的噪聲影響。

在本文中,動(dòng)作分割模塊是基于BCN[15]模型為基本框架進(jìn)行設(shè)計(jì)的。BCN 模型的貢獻(xiàn)主要包括引入級(jí)聯(lián)結(jié)構(gòu)思想以及語義邊界信息來提高動(dòng)作分割的準(zhǔn)確性和穩(wěn)定性。通過引入級(jí)聯(lián)結(jié)構(gòu),以時(shí)間動(dòng)態(tài)建模的方式對(duì)動(dòng)作進(jìn)行精細(xì)的建模,從而獲得更可信的結(jié)果,并提高幀級(jí)別的識(shí)別精度。同時(shí)通過將引入的邊界信息與幀預(yù)測進(jìn)行結(jié)合,使得模型能夠識(shí)別和關(guān)注動(dòng)作的邊界位置,從而緩解過度分割的問題。

本文在級(jí)聯(lián)結(jié)構(gòu)之前引入ASFormer[17]模型的編碼器部分作為前置模塊,來處理視頻特征?;谧宰⒁饬C(jī)制的編碼器能夠自適應(yīng)地捕捉特征序列中的關(guān)鍵特征和上下文依賴關(guān)系,為后續(xù)的級(jí)聯(lián)結(jié)構(gòu)提供更具有豐富性和準(zhǔn)確性的特征表示。

在級(jí)聯(lián)結(jié)構(gòu)和融合階段的結(jié)構(gòu)中,本文將其中的TCN 替換為ASFormer 中的解碼器部分。相較于TCN,ASFormer的解碼器包含了交叉注意力層,能夠在時(shí)間維度上進(jìn)行更精確的建模,捕捉到不同時(shí)間步之間的依賴關(guān)系,并將語義信息進(jìn)行更有效的傳遞和整合,這使得它能夠輸出更準(zhǔn)確和具有語義信息的特征表示。

級(jí)聯(lián)結(jié)構(gòu)和融合階段的目的是為了處理較難識(shí)別的模糊幀。在每個(gè)級(jí)聯(lián)階段的輸出中,獲取到每一幀的預(yù)測概率,將其記作為置信度分?jǐn)?shù),同時(shí)級(jí)聯(lián)階段會(huì)通過判斷置信度分?jǐn)?shù)的值來為每一幀分配權(quán)重。公式如下:

在式(1)中,θ是參數(shù),是第i級(jí)聯(lián)階段第t幀的置信度分?jǐn)?shù)。通過置信度分?jǐn)?shù)與參數(shù)相比較,來判斷如何通過因子exp()調(diào)整下一階段的權(quán)重。通過這種方式能夠增加模糊幀的置信度分?jǐn)?shù),從而使得模糊幀能夠有精準(zhǔn)的預(yù)測。在所有階段中,只要存在一個(gè)階段的置信度分?jǐn)?shù)大于參數(shù),則停止使用因子進(jìn)行調(diào)整權(quán)重。

融合階段的目的是為了降低對(duì)單個(gè)階段的過度依賴,從而減少可能由于某個(gè)階段的誤差或不準(zhǔn)確而引起的幀識(shí)別錯(cuò)誤。在融合階段,將自適應(yīng)組合每個(gè)級(jí)聯(lián)階段中所有幀的置信度分?jǐn)?shù),以這種方式利用到所有階段的預(yù)測結(jié)果。公式如下:

式(2)中,n為級(jí)聯(lián)結(jié)構(gòu)中的階段次數(shù),是融合階段中置信度分?jǐn)?shù),為所有級(jí)聯(lián)階段的權(quán)重聚合的結(jié)果。

另外,在BCN 模型中,屏障生成模塊通過利用視頻特征信息以及細(xì)粒度注釋,幫助模型更好地捕捉到動(dòng)作的邊界信息,用于指導(dǎo)局部屏障池的權(quán)重計(jì)算。局部屏障池利用這些信息來調(diào)整幀的權(quán)重,以改善分割結(jié)果的平滑性,緩解過度分割的問題。在本文模型中保留了這些組件,以緩解分割手衛(wèi)生視頻時(shí)過度分割的問題。

2.2 差分圖像特征提取

幀間差分法是一種常用的計(jì)算機(jī)視覺技術(shù),通過對(duì)連續(xù)幀之間的像素值進(jìn)行差分運(yùn)算生成差分圖像,從差分圖像中能夠捕捉到細(xì)微的手部運(yùn)動(dòng)信息。例如第t幀的圖像Rt的像素值減去第t-1 幀的圖像Rt-1的像素值得到第t幀的差分圖像Tt,公式如下:

在完成手衛(wèi)生的過程中,手部運(yùn)動(dòng)信息能夠提供手部姿態(tài)的精確度和準(zhǔn)確性,從而在評(píng)估過程中能夠判斷手部動(dòng)作是否符合規(guī)范。本文算法采用了幀間差分法來獲取手衛(wèi)生視頻的差分圖像數(shù)據(jù),捕捉手衛(wèi)生中更為精細(xì)的手部運(yùn)動(dòng)信息。隨后,使用預(yù)訓(xùn)練的ResNet50[27]特征提取器對(duì)差分圖像數(shù)據(jù)進(jìn)行特征提取,從而獲取更具表征性的差分圖像特征ftd。

在處理第一幀圖像時(shí),由于無法與前一幀圖像進(jìn)行差分處理,無法獲取手部的運(yùn)動(dòng)變化信息。為了解決這個(gè)問題,在提取的差分圖像特征中的時(shí)間維度的第1 列上添加1 個(gè)2048 維的張量,其中所有元素均設(shè)置為0,在保持?jǐn)?shù)據(jù)的一致性的同時(shí),也表示缺失的手部運(yùn)動(dòng)信息。

2.3 評(píng)估模塊

手衛(wèi)生動(dòng)作質(zhì)量評(píng)估任務(wù)旨在獲得一個(gè)與真實(shí)分?jǐn)?shù)接近的預(yù)測分?jǐn)?shù)。本文采用回歸方法來完成動(dòng)作質(zhì)量評(píng)估,利用差分圖像特征和視頻特征之間的相互依賴性來得出最終的預(yù)測結(jié)果。

本文模型在進(jìn)行評(píng)估之前需要對(duì)分割結(jié)果進(jìn)行預(yù)篩選。設(shè)定每個(gè)步驟的最短時(shí)長為10 幀,如果某一步驟的幀數(shù)低于10 幀,則可以判斷發(fā)生了錯(cuò)誤的分割,該步驟將不進(jìn)行下一步的評(píng)估任務(wù),從而減少錯(cuò)誤的分割結(jié)果對(duì)后續(xù)分析和評(píng)估的影響。

經(jīng)過預(yù)篩選得到每個(gè)步驟的特征片段索引,通過這些索引可以查詢和截取差分圖像特征步驟所在片段和視頻特征步驟所在片段fi。為避免過擬合現(xiàn)象的出現(xiàn),對(duì)和fi進(jìn)行最大池化處理得到較少參數(shù)量的差分圖像特征步驟所在片段和視頻特征步驟所在片段f?i。

然后,將f?tdi輸入到雙向長短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM),通過正向和反向的傳遞來捕捉上下文關(guān)系,從而提取出步驟i更豐富的動(dòng)作特征,為手部運(yùn)動(dòng)信息提供更全面的特征表示。

將差分圖像特征以及視頻特征進(jìn)行一系列處理后,需要對(duì)和f?i這2 個(gè)特征片段的信息進(jìn)行相關(guān)性建模。通過引入基于交叉注意力機(jī)制的手衛(wèi)生信息解碼器,將和f?i作為輸入,輸出結(jié)果是匯聚了2 個(gè)特征片段信息的綜合特征。之后將輸入全連接層完成降維處理。為更靈活地將最終的結(jié)果映射到0~1 之間,引入可學(xué)習(xí)的Sigmoid 激活函數(shù)進(jìn)行處理。最后將輸出結(jié)果取平均值,可以得到步驟評(píng)估分?jǐn)?shù)。最終將所有分割出來的步驟評(píng)估分?jǐn)?shù)進(jìn)行求和,得到最終的手衛(wèi)生動(dòng)作質(zhì)量評(píng)估結(jié)果。公式如下:

式(4)~式(8)中,MAX 代表最大池化處理,BL 代表BiLSTM,HID 代表手衛(wèi)生信息解碼器,F(xiàn)C 代表全連接層,LS代表可學(xué)習(xí)的Sigmoid激活函數(shù),MEAN代表求平均值,S代表該算法對(duì)手衛(wèi)生視頻的評(píng)估分?jǐn)?shù)。

2.4 手衛(wèi)生信息解碼器

手衛(wèi)生信息解碼器是基于交叉注意力機(jī)制設(shè)計(jì)的,可以在不同特征之間建立相關(guān)性并將它們進(jìn)行融合。在本文中,將f?tdi和f?i作為輸入,該解碼器通過交叉注意力機(jī)制對(duì)2 個(gè)特征片段的信息進(jìn)行關(guān)聯(lián)建模和融合,生成一個(gè)包含更豐富和具有表征能力的綜合特征,這種綜合特征不僅包含了2 個(gè)特征片段的信息,還考慮了它們之間的相關(guān)性,從而更好地捕捉到手衛(wèi)生動(dòng)作的更細(xì)微的動(dòng)態(tài)變化和重要特征。

在手衛(wèi)生信息解碼器中,查詢Q為經(jīng)過全連接層處理之后的,鍵K和值V為經(jīng)過全連接層處理之后的f?i。在計(jì)算查詢與鍵之間的注意力權(quán)重時(shí)引入增強(qiáng)內(nèi)積的可學(xué)習(xí)參數(shù),更好地捕捉它們之間的相關(guān)性。之后將注意力權(quán)重應(yīng)用于值,根據(jù)注意力權(quán)重對(duì)值進(jìn)行加權(quán)平均,以獲取綜合特征。公式如下:

式(9)~式(10)中,dk代表張量維度,τ為增強(qiáng)內(nèi)積的可學(xué)習(xí)參數(shù),softmax為激活函數(shù),A代表注意力圖。

2.5 可學(xué)習(xí)的Sigmoid激活函數(shù)

普通的Sigmoid 激活函數(shù)可以將輸入值映射到0和1 之間,但它的形狀是固定的,無法根據(jù)數(shù)據(jù)的特點(diǎn)和任務(wù)的需求進(jìn)行調(diào)整。因此本文引入更具靈活性的可學(xué)習(xí)的Sigmoid激活函數(shù),公式如下:

其中,ε是可學(xué)習(xí)參數(shù),x為輸入值。

在訓(xùn)練過程中,可學(xué)習(xí)的Sigmoid 激活函數(shù)通過反向傳播算法能夠修改激活函數(shù)的形狀和位置,自適應(yīng)地學(xué)習(xí)到最優(yōu)的參數(shù)值,從而能夠適應(yīng)數(shù)據(jù)的特征和任務(wù)的需求,將輸入值映射到適合的評(píng)估分?jǐn)?shù)范圍。這種自適應(yīng)性能夠讓模型更好地適應(yīng)實(shí)際情況。

2.6 損失函數(shù)

手衛(wèi)生動(dòng)作質(zhì)量評(píng)估任務(wù)可以被視為多任務(wù)學(xué)習(xí)問題,其中包括動(dòng)作分割和動(dòng)作質(zhì)量評(píng)估這2 個(gè)任務(wù)。通過端到端的方式同時(shí)進(jìn)行這2 個(gè)任務(wù)的學(xué)習(xí),可以更好地利用它們之間的相關(guān)性和互補(bǔ)性。本文模型的損失函數(shù)也為2 個(gè)部分,包括動(dòng)作分割損失函數(shù)和評(píng)估損失函數(shù)。

2.6.1 動(dòng)作分割損失函數(shù)

對(duì)于動(dòng)作分割損失函數(shù),需要考慮動(dòng)作的準(zhǔn)確性和平滑性,這樣能夠有效地指導(dǎo)模型在手衛(wèi)生視頻中準(zhǔn)確地劃分動(dòng)作步驟,并生成具有連貫性的分割結(jié)果。該損失函數(shù)通常由分類損失和平滑損失2 個(gè)部分組成。

1)分類損失。

該損失用于確保每個(gè)視頻幀被正確分類到對(duì)應(yīng)的動(dòng)作步驟。在動(dòng)作分割任務(wù)中,視頻序列中每一幀都需要被準(zhǔn)確地分類到相應(yīng)的動(dòng)作步驟,以實(shí)現(xiàn)準(zhǔn)確的動(dòng)作分割。幀級(jí)分類損失通過比較預(yù)測的動(dòng)作步驟類別和真實(shí)標(biāo)簽之間的差異來度量分類的準(zhǔn)確性。其計(jì)算公式如下:

式(12)中,T代表視頻長度,yt,c代表類別c在t時(shí)刻的概率值。

2)平滑損失。

該損失是為了提高動(dòng)作分割結(jié)果的平滑性和連續(xù)性而引入的。平滑損失通?;谙噜弾g的分割結(jié)果的差異進(jìn)行計(jì)算,以鼓勵(lì)模型生成連續(xù)且平滑的分割邊界。通過最小化平滑損失,模型被引導(dǎo)去學(xué)習(xí)生成連貫的分割結(jié)果,使得分割邊界更加平滑且符合實(shí)際動(dòng)作的連續(xù)性。其計(jì)算公式如下:

式(13)~式(15)中,C代表類別數(shù)量,τ為截?cái)鄵p失函數(shù)的閾值。

對(duì)于平滑損失,融合階段和級(jí)聯(lián)結(jié)構(gòu)的平滑損失函數(shù)與式(13)相同。對(duì)于分類損失,融合階段的分類損失函數(shù)LCLS與式(12)相同,級(jí)聯(lián)結(jié)構(gòu)中的分類損失函數(shù)LSC則是根據(jù)每一階段的權(quán)重進(jìn)行調(diào)整,公式如下:

2.6.2 評(píng)估損失

對(duì)于評(píng)估損失,它使用了均方誤差損失,該損失用于衡量預(yù)測值與真實(shí)值之間的差異程度。通過計(jì)算預(yù)測值與真實(shí)值之間的均方誤差,可以量化它們之間的差異,通過最小化均方誤差損失,模型可以學(xué)習(xí)到使預(yù)測值盡可能接近真實(shí)值的參數(shù),從而提高手衛(wèi)生動(dòng)作質(zhì)量評(píng)估的準(zhǔn)確性。其計(jì)算公式如下:

最終的損失函數(shù)為以上提到的動(dòng)作分割損失和評(píng)估損失的組合:

式(18)中λ與μ為不同損失貢獻(xiàn)的參數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

為了驗(yàn)證算法模型的有效性,本文采用公開數(shù)據(jù)集HHA300 進(jìn)行訓(xùn)練和測試。HHA300 是一個(gè)包含真人洗手視頻以及細(xì)粒度標(biāo)注的手衛(wèi)生數(shù)據(jù)集,總共包含301 條視頻,其中226 條用于訓(xùn)練,75 條用于測試。該數(shù)據(jù)集的視頻特征是融合了RGB 和光流信息的I3D 特征,標(biāo)簽則是結(jié)合了逐幀標(biāo)注的動(dòng)作類別以及專業(yè)人員提供的評(píng)估分?jǐn)?shù)。

3.2 評(píng)價(jià)指標(biāo)

對(duì)于動(dòng)作分割任務(wù),使用常見的逐幀精度(acc)、編輯距離(edit)和重疊閾值為10%、25%和50%的分段F1 分?jǐn)?shù)(F1@{10,25,50})來反映每一幀動(dòng)作識(shí)別的準(zhǔn)確性以及步驟分割的效果。acc、edit、F1@{10,25,50}的值越大越好。

對(duì)于評(píng)估任務(wù),本文使用斯皮爾曼等級(jí)相關(guān)系數(shù)(ρ)和相對(duì)L2 距離[23](R-?2)作為評(píng)價(jià)指標(biāo),通過這2個(gè)評(píng)價(jià)指標(biāo)來反映手衛(wèi)生動(dòng)作質(zhì)量評(píng)估中的評(píng)估性能。ρ的值越大越好,R-?2的值越小越好。公式如下:

式(19)中,pi、qi分別為第i條數(shù)據(jù)的預(yù)測排名分?jǐn)?shù)與真實(shí)排名分?jǐn)?shù),pˉ、qˉ分別為預(yù)測排名分?jǐn)?shù)與真實(shí)排名分?jǐn)?shù)2 組數(shù)據(jù)的平均值。式(20)中,N為數(shù)據(jù)集中視頻樣本數(shù)量,sn、s?n分別表示第n個(gè)視頻樣本的真實(shí)分?jǐn)?shù)和預(yù)測分?jǐn)?shù),smax、smin分別代表視頻樣本的最高分和最低分。

3.3 對(duì)比實(shí)驗(yàn)

在對(duì)比實(shí)驗(yàn)中,采用組合模型來驗(yàn)證不同模塊的性能優(yōu)勢。這些模型主要分成2個(gè)部分。

一部分為結(jié)合先進(jìn)的動(dòng)作分割算法和本文設(shè)計(jì)的評(píng)估模塊,形成一個(gè)組合模型,如BCN+評(píng)估模塊。通過對(duì)比實(shí)驗(yàn)結(jié)果,表1 顯示本文模型在動(dòng)作分割任務(wù)的評(píng)價(jià)指標(biāo)上表現(xiàn)優(yōu)于其他先進(jìn)的動(dòng)作分割算法。

表1 手衛(wèi)生動(dòng)作質(zhì)量評(píng)估算法對(duì)比實(shí)驗(yàn)

另一部分類似于Xu 等人[24]給出的對(duì)比實(shí)驗(yàn)方法,采用本文方法中的動(dòng)作分割模塊與其他評(píng)估方法的組合,包括多層感知機(jī)(Multilayer Perceptron,MLP)和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)。在本文的對(duì)比實(shí)驗(yàn)中,使用了2 層的多層感知機(jī)MLP,用于直接映射數(shù)據(jù)特征以生成預(yù)測分?jǐn)?shù)。另外,本文還利用了長短期記憶網(wǎng)絡(luò)LSTM,它可以捕捉特征之間的長期依賴關(guān)系,并將其用于更好地描述特征。在對(duì)比實(shí)驗(yàn)中,本文將LSTM 與一個(gè)用于回歸任務(wù)的全連接層相連接,以生成預(yù)測分?jǐn)?shù)。通過表1 的結(jié)果分析可知,本文提出的模型在與其他評(píng)估方法的對(duì)比中,在動(dòng)作分割任務(wù)方面的編輯距離edit評(píng)價(jià)指標(biāo)雖然稍低,但acc 和F1@{10,25,50}仍然是最優(yōu)的,這表明模型在捕捉幀級(jí)預(yù)測和分割性能方面依然表現(xiàn)出色。此外,在動(dòng)作質(zhì)量評(píng)估任務(wù)中,模型的評(píng)價(jià)指標(biāo)表現(xiàn)出最優(yōu)的結(jié)果。

3.4 消融實(shí)驗(yàn)

3.4.1 動(dòng)作分割對(duì)評(píng)估結(jié)果的影響

在手衛(wèi)生動(dòng)作質(zhì)量評(píng)估算法中,通過對(duì)步驟進(jìn)行評(píng)估可以更精確地衡量每個(gè)步驟的質(zhì)量,排除無關(guān)動(dòng)作的噪聲影響。相比之下,直接評(píng)估完整視頻特征可能受到無關(guān)動(dòng)作的干擾,導(dǎo)致評(píng)估結(jié)果的準(zhǔn)確性下降。與直接評(píng)估完整視頻特征進(jìn)行對(duì)比實(shí)驗(yàn)后,實(shí)驗(yàn)結(jié)果如表2 所示,表明本文的方法在動(dòng)作質(zhì)量評(píng)估的評(píng)價(jià)指標(biāo)上表現(xiàn)最佳。

表2 手衛(wèi)生動(dòng)作質(zhì)量評(píng)估中評(píng)估任務(wù)消融實(shí)驗(yàn)

3.4.2 BiLSTM 對(duì)評(píng)估結(jié)果的影響

在本文算法中,使用預(yù)訓(xùn)練的ResNet50 特征提取器提取的差分圖像特征經(jīng)過BiLSTM 網(wǎng)絡(luò)處理,是為了充分捕捉時(shí)間和空間信息的關(guān)聯(lián)性,并更好地反映手部運(yùn)動(dòng)的特征信息。這種處理方式可以更全面地考慮手部運(yùn)動(dòng)的動(dòng)態(tài)變化和時(shí)序關(guān)系。為驗(yàn)證思路,與直接使用差分圖像特征進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2 所示,本文的方法在動(dòng)作質(zhì)量評(píng)估的評(píng)價(jià)指標(biāo)上取得了更好的性能。

3.4.3 差分圖像對(duì)評(píng)估結(jié)果的影響

除了使用視頻特征信息外,評(píng)估模塊引入了差分圖像特征作為輸入來表達(dá)手部運(yùn)動(dòng)信息,目的是為了更準(zhǔn)確地捕捉和表達(dá)手部運(yùn)動(dòng)的動(dòng)態(tài)信息,從而提高手衛(wèi)生動(dòng)作質(zhì)量的評(píng)估性能。為驗(yàn)證這一思路,與僅使用視頻特征信息進(jìn)行對(duì)比實(shí)驗(yàn)后,實(shí)驗(yàn)結(jié)果如表2所示,表明本文的方法在動(dòng)作質(zhì)量評(píng)估的評(píng)價(jià)指標(biāo)上表現(xiàn)最佳。

3.4.4 可學(xué)習(xí)的Sigmoid函數(shù)對(duì)評(píng)估結(jié)果的影響

引入可學(xué)習(xí)的Sigmoid函數(shù)是為了增加模型對(duì)輸出結(jié)果的靈活性和適應(yīng)性。這種可學(xué)習(xí)的Sigmoid函數(shù)具有可調(diào)節(jié)的參數(shù),通過訓(xùn)練過程進(jìn)行優(yōu)化,可以靈活地調(diào)整函數(shù)的非線性程度和敏感性,從而更好地適應(yīng)手衛(wèi)生動(dòng)作質(zhì)量評(píng)估任務(wù)的復(fù)雜性。為驗(yàn)證引入可學(xué)習(xí)的Sigmoid 函數(shù)的有效性,與使用普通的Sigmoid 函數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2 所示,表明本文方法在動(dòng)作質(zhì)量評(píng)估的評(píng)價(jià)指標(biāo)上表現(xiàn)最佳。

4 結(jié)束語

本文提出了一種基于多源動(dòng)作信息的手衛(wèi)生動(dòng)作質(zhì)量評(píng)估算法。該算法引入了差分圖像數(shù)據(jù),以更精確地關(guān)注手部微妙的運(yùn)動(dòng)信息。它通過分析差分圖像特征和視頻特征片段之間的相關(guān)依賴性,來評(píng)估手衛(wèi)生動(dòng)作的質(zhì)量。這一方法可以更全面地捕捉動(dòng)作的細(xì)節(jié),提高了質(zhì)量評(píng)估的準(zhǔn)確性。在實(shí)驗(yàn)中,本文使用了公開數(shù)據(jù)集HHA300 進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的算法在各項(xiàng)評(píng)價(jià)指標(biāo)上都取得了優(yōu)越的性能。這些結(jié)果驗(yàn)證了該方法的有效性,并表明本文的工作對(duì)于手衛(wèi)生評(píng)估具有顯著的使用價(jià)值。

猜你喜歡
差分衛(wèi)生分?jǐn)?shù)
數(shù)列與差分
分?jǐn)?shù)的由來
無限循環(huán)小數(shù)化為分?jǐn)?shù)的反思
衛(wèi)生與健康
可怕的分?jǐn)?shù)
算分?jǐn)?shù)
衛(wèi)生歌
基于差分隱私的大數(shù)據(jù)隱私保護(hù)
辦好衛(wèi)生 讓人民滿意
相對(duì)差分單項(xiàng)測距△DOR
太空探索(2014年1期)2014-07-10 13:41:50
金堂县| 呈贡县| 开阳县| 阿克苏市| 台湾省| 东港市| 政和县| 嘉禾县| 松溪县| 浪卡子县| 余姚市| 靖西县| 西青区| 绥芬河市| 南雄市| 临潭县| 鄂伦春自治旗| 独山县| 萨嘎县| 清新县| 儋州市| 临邑县| 文成县| 乐平市| 丰台区| 麦盖提县| 巴青县| 阜宁县| 福泉市| 云霄县| 通化县| 班玛县| 光泽县| 广汉市| 天祝| 上高县| 大荔县| 长治市| 当涂县| 时尚| 弥勒县|