兒童運(yùn)動(dòng)協(xié)調(diào)障礙AI診斷系統(tǒng)研究綜述

2021-01-22 05:59陳艷杰舒大偉楊吉江

計(jì)算機(jī)工程與應(yīng)用 2021年2期

關(guān)鍵詞：關(guān)鍵點(diǎn)姿態(tài)卷積

陳艷杰，舒大偉，楊吉江，王歡，王青，雷毅

1.首都醫(yī)科大學(xué) 附屬北京兒童醫(yī)院兒童保健中心，北京100045

2.清華大學(xué) 深圳國(guó)際研究生院信息科學(xué)與技術(shù)學(xué)部，廣東深圳518055

3.清華大學(xué) 信息技術(shù)研究院，北京100084

4.國(guó)家體育總局體育科學(xué)研究所，北京100061

兒童的運(yùn)動(dòng)協(xié)調(diào)能力是兒童發(fā)育過(guò)程中的核心能力之一，該能力正常的發(fā)展對(duì)兒童的語(yǔ)言、智力、情感等方面的發(fā)展也具有促進(jìn)作用[1]，患有運(yùn)動(dòng)協(xié)調(diào)能力障礙（Developmental Coordination Disorder，DCD）的兒童通常語(yǔ)言、認(rèn)知等方面的能力也會(huì)受到影響，在兒童階段及成人遠(yuǎn)期都可能會(huì)影響其生活自理能力及社會(huì)性相關(guān)功能，所以運(yùn)動(dòng)協(xié)調(diào)能力的評(píng)估成為兒童早期發(fā)育水平的重要指標(biāo)[2]。

根據(jù)美國(guó)精神聯(lián)合學(xué)會(huì)（American Psychiatric Association，APA）的調(diào)查顯示，5～11 歲兒童的發(fā)病率為5%～6%[3]，我國(guó)2011 年上海地區(qū)的一項(xiàng)調(diào)查顯示7～12 歲兒童的發(fā)病率為8.3%[4]。其較高的發(fā)病率不容忽視，但其病因復(fù)雜，目前發(fā)病機(jī)制仍不明確[5]，而多項(xiàng)研究表明，早發(fā)現(xiàn)早干預(yù)是目前行之有效的治療手段。

目前的兒童運(yùn)動(dòng)協(xié)調(diào)障礙的主要診斷手段是通過(guò)各種專(zhuān)業(yè)量表法[6]，如兒童運(yùn)動(dòng)協(xié)調(diào)能力評(píng)估量表第二版（Movement Assessment Battery for Children-Second Edition，MABC-2）、發(fā)育性協(xié)調(diào)障礙量表（Developmental Coordination Disorder Questionnaire，DCDQ）等，評(píng)分依據(jù)有客觀標(biāo)準(zhǔn)，如動(dòng)作的頻次，也有主觀標(biāo)準(zhǔn)，如動(dòng)作標(biāo)準(zhǔn)程度判斷，這就要求做診斷的醫(yī)生需要有一定經(jīng)驗(yàn)及專(zhuān)業(yè)性，才能有效評(píng)估得出正確診斷結(jié)果。我國(guó)兒科醫(yī)師缺乏情況一直比較突出，且由于地域發(fā)展的不平衡，基層的兒科醫(yī)師更為缺乏，所以需要一套簡(jiǎn)單易行且診斷準(zhǔn)確度在一定水平之上的解決方案。

計(jì)算機(jī)動(dòng)作識(shí)別系統(tǒng)可對(duì)人體動(dòng)作進(jìn)行識(shí)別，目前主要應(yīng)用于電影演員動(dòng)作捕捉、運(yùn)動(dòng)員動(dòng)作評(píng)估等方面，通過(guò)觀察者在身體各部位攜帶一定數(shù)目的標(biāo)記進(jìn)行動(dòng)作數(shù)據(jù)的采集，計(jì)算機(jī)進(jìn)行后臺(tái)數(shù)據(jù)處理及動(dòng)作分析，其對(duì)設(shè)備和場(chǎng)地都有較高的要求，有著成本高、操作復(fù)雜、泛用性差的缺陷，這就意味著難以大范圍地推廣使用。

隨著人工智能的發(fā)展，僅基于移動(dòng)端所拍攝的視頻數(shù)據(jù)進(jìn)行動(dòng)作識(shí)別輔助診斷系統(tǒng)有了實(shí)現(xiàn)的可能，患者根據(jù)提示完成一系列的動(dòng)作，系統(tǒng)根據(jù)所得視頻數(shù)據(jù)即可對(duì)疾病做出診斷，這種形式的診斷方式有著易推廣、易實(shí)施的特點(diǎn)，具備良好的應(yīng)用前景。利用移動(dòng)端設(shè)備進(jìn)行視頻采集，服務(wù)端對(duì)視頻數(shù)據(jù)進(jìn)行診斷，該方式可有效向基層進(jìn)行推廣，在此基礎(chǔ)上可獲得大量的數(shù)據(jù)并進(jìn)一步提升診療識(shí)別能力，對(duì)緩解醫(yī)療資源不足問(wèn)題有著重要意義。

1 相關(guān)領(lǐng)域研究現(xiàn)狀

當(dāng)前，兒童運(yùn)動(dòng)協(xié)調(diào)障礙人工智能診斷系統(tǒng)領(lǐng)域的研究較少，動(dòng)作識(shí)別多用于體育視頻分析，Joshi 等[7]基于深度學(xué)習(xí)方法提出一種視頻分析方法，對(duì)體育視頻中的高光時(shí)刻進(jìn)行分析捕捉并截取精華片段，但其只是對(duì)視頻內(nèi)容作是否精華部分的判斷，并不涉及對(duì)運(yùn)動(dòng)員實(shí)例級(jí)別的動(dòng)作評(píng)估。Wang 等[8]提出一種分析自由滑雪運(yùn)動(dòng)項(xiàng)目的動(dòng)作評(píng)估方法，第一步對(duì)視頻數(shù)據(jù)輸入進(jìn)行目標(biāo)跟蹤任務(wù)，第二步對(duì)抽取出的跟蹤目標(biāo)進(jìn)行單人姿態(tài)估計(jì)，第三步對(duì)得到的姿態(tài)估計(jì)數(shù)據(jù)進(jìn)行動(dòng)作評(píng)估，即對(duì)動(dòng)作好壞做二分類(lèi)任務(wù)。Tian等[9]基于花式滑冰動(dòng)作分析任務(wù)，提出利用多個(gè)不同視角的攝像頭捕捉動(dòng)作，然后進(jìn)行位置矯正補(bǔ)償從二維影像數(shù)據(jù)獲得三維立體數(shù)據(jù)的方法，給從二維數(shù)據(jù)獲取更為準(zhǔn)確的三維數(shù)據(jù)任務(wù)提供了新思路。

先做人體姿態(tài)估計(jì)再去做動(dòng)作識(shí)別任務(wù)是一個(gè)普遍采用的思路，Chen 等[10]基于Openpose[11]框架，提出使用人體姿態(tài)估計(jì)的輸出來(lái)做摔倒檢測(cè)任務(wù)，摔倒檢測(cè)可以認(rèn)為是動(dòng)作識(shí)別中的子任務(wù)，其使用skeleton-base的人體姿態(tài)估計(jì)數(shù)據(jù)根據(jù)手工設(shè)計(jì)的特征標(biāo)準(zhǔn)進(jìn)行摔倒動(dòng)作的識(shí)別，王新文等[12]使用雙重殘差網(wǎng)絡(luò)做摔倒檢測(cè)任務(wù)。唐心宇等[13]指出直接使用Kinect 作為姿態(tài)估計(jì)的數(shù)據(jù)輸入對(duì)動(dòng)作識(shí)別的準(zhǔn)確度有較大影響，因其對(duì)遮擋情況的判斷精度較差，結(jié)合深度學(xué)習(xí)的方法進(jìn)行姿態(tài)估計(jì)能大大改善遮擋識(shí)別不準(zhǔn)確的問(wèn)題。騰訊醫(yī)療AI實(shí)驗(yàn)室提出帕金森疾病診斷系統(tǒng)，該系統(tǒng)提示患者作出相應(yīng)動(dòng)作并對(duì)其進(jìn)行診斷，通過(guò)深度學(xué)習(xí)方法識(shí)別人體的關(guān)鍵點(diǎn)構(gòu)建人體動(dòng)作模型，依據(jù)成熟的帕金森疾病打分量表進(jìn)行診斷，其也針對(duì)訓(xùn)練數(shù)據(jù)不足的情況結(jié)合自動(dòng)融合技術(shù)做了數(shù)據(jù)增強(qiáng)。

2 運(yùn)動(dòng)協(xié)調(diào)障礙的輔助診斷步驟

基于深度學(xué)習(xí)方法做運(yùn)動(dòng)障礙診斷目前有兩種思路，關(guān)鍵區(qū)別在于是否進(jìn)行人體姿態(tài)估計(jì)的中間處理生成skeleton數(shù)據(jù)，因而產(chǎn)生了兩種不同的處理步驟，需要注意的是由于后續(xù)動(dòng)作識(shí)別任務(wù)的輸入數(shù)據(jù)類(lèi)型不同，所以動(dòng)作識(shí)別任務(wù)中采用的模型將有較大差別。

步驟類(lèi)型1見(jiàn)圖1：

（1）使用移動(dòng)設(shè)備根據(jù)提示進(jìn)行幼兒動(dòng)作指導(dǎo)并視頻采集，為保證最終檢測(cè)效果，對(duì)輸入數(shù)據(jù)的一致性要有一定要求，如光照環(huán)境、拍攝角度等方面，對(duì)拍攝后的視頻進(jìn)行必要的預(yù)處理操作。

（2）由于得到的視頻數(shù)據(jù)是已經(jīng)剪裁好的對(duì)應(yīng)動(dòng)作視頻，對(duì)其分別進(jìn)行人體姿態(tài)估計(jì)任務(wù)，生成人體姿態(tài)估計(jì)的skeleton數(shù)據(jù)，為了保證對(duì)兒童識(shí)別的準(zhǔn)確度，人體姿態(tài)估計(jì)任務(wù)的模型要在對(duì)應(yīng)的兒童數(shù)據(jù)集上做finetune。

（3）將skeleton數(shù)據(jù)輸入Skeleton-based類(lèi)型的動(dòng)作識(shí)別模型，輸出動(dòng)作準(zhǔn)確度的評(píng)估結(jié)果，對(duì)相應(yīng)動(dòng)作根據(jù)打分量表進(jìn)行診斷打分，匯總打分結(jié)果輸出診斷結(jié)果。

圖1 輔助診斷流程圖類(lèi)型1

步驟類(lèi)型2見(jiàn)圖2：

此類(lèi)型無(wú)需進(jìn)行人體姿態(tài)估計(jì)的中間任務(wù)，直接將視頻數(shù)據(jù)輸入Video-based類(lèi)型的動(dòng)作識(shí)別模型進(jìn)行動(dòng)作識(shí)別，然后進(jìn)行診斷打分操作，這種類(lèi)型對(duì)動(dòng)作數(shù)據(jù)集的要求較高，需要大量的帶標(biāo)注的動(dòng)作視頻數(shù)據(jù)進(jìn)行訓(xùn)練。

圖2 輔助診斷流程圖類(lèi)型2

3 人體姿態(tài)估計(jì)

人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺(jué)的基礎(chǔ)任務(wù)之一，在目前權(quán)威的公開(kāi)比賽COCO keypoint track[14]中，COCO數(shù)據(jù)集把人體表示為17 個(gè)關(guān)鍵點(diǎn)，分別是鼻子、左右眼、左右耳、左右肩、左右肘、左右腕、左右臀、左右膝、左右腳踝，該任務(wù)需要對(duì)人體的關(guān)鍵點(diǎn)進(jìn)行位置估計(jì)，這個(gè)任務(wù)通常還可細(xì)分：根據(jù)檢測(cè)畫(huà)面中的人數(shù)分為單人姿態(tài)估計(jì)和多人姿態(tài)估計(jì)，根據(jù)關(guān)鍵點(diǎn)信息是否包含三維深度信息分為2D姿態(tài)估計(jì)和3D姿態(tài)估計(jì)，此外還有對(duì)關(guān)鍵點(diǎn)進(jìn)行跟蹤的人體姿態(tài)跟蹤任務(wù)。

在應(yīng)用上，人體姿態(tài)估計(jì)可用于電影動(dòng)畫(huà)、虛擬現(xiàn)實(shí)、人機(jī)交互、視頻監(jiān)控、醫(yī)療輔助診斷、運(yùn)動(dòng)分析、自動(dòng)駕駛等方面，同時(shí)人體姿態(tài)估計(jì)面臨著諸多挑戰(zhàn)[15]：

（1）人體是柔性的，這就意味著人體是一個(gè)具有高度自由度的物體，對(duì)這樣物體的估計(jì)難度較高[16]。

（2）對(duì)于背景復(fù)雜或光照條件弱的待處理圖片，人體與背景的外觀相似性可能較高，且身體的各個(gè)部分是被不同的紋理（衣服）所覆蓋的，有時(shí)不同部位的紋理是接近的。

（3）環(huán)境的復(fù)雜性會(huì)造成較大的影響，比如出現(xiàn)遮擋，尤其是對(duì)于不同人人體相似部位的遮擋。

3.1 傳統(tǒng)方法

相對(duì)于目前主流的深度學(xué)習(xí)方法，早期的傳統(tǒng)方法已經(jīng)很少被使用了，其主要原因很大程度上是因?yàn)樯疃葘W(xué)習(xí)領(lǐng)域的發(fā)展，在各類(lèi)人體姿態(tài)估計(jì)的數(shù)據(jù)集上，深度學(xué)習(xí)的方法已經(jīng)全面超過(guò)了傳統(tǒng)方法的效果，但傳統(tǒng)方法提供的基本思路依然值得學(xué)習(xí)借鑒。

傳統(tǒng)方法主要針對(duì)的是單人的姿態(tài)估計(jì)任務(wù)，粗略可分為兩類(lèi)，一類(lèi)方法是直接使用全局的feature，將問(wèn)題轉(zhuǎn)化為分類(lèi)或者回歸問(wèn)題來(lái)進(jìn)行解決，如文獻(xiàn)[17]中采用的是HOG 直接抽取淺層的全局特征，然后利用Random Forest的方法轉(zhuǎn)化為分類(lèi)問(wèn)題來(lái)解決姿態(tài)估計(jì)問(wèn)題，第二類(lèi)方法是基于圖模型，如pictorial structure framework，對(duì)圖像的單個(gè)part進(jìn)行特征表示，Andriluka等[18]基于pictorial structure framework 對(duì)特征表示優(yōu)化，來(lái)提取更好的特征表示，傳統(tǒng)的方法基本上還是利用的比較淺層的特征，如HOG、SIFT 等，然后對(duì)空間位置關(guān)系進(jìn)行建模，而深度學(xué)習(xí)方法將二者合為一體，這樣的優(yōu)勢(shì)是便于設(shè)計(jì)和優(yōu)化。

3.2 深度學(xué)習(xí)方法

深度學(xué)習(xí)的方法自2012年AlexNet[19]提出以來(lái)就引發(fā)了研究熱潮，在人體姿態(tài)估計(jì)領(lǐng)域也引入了深度學(xué)習(xí)模型，在2013 年就有文章提出使用CNN 來(lái)解決人體姿態(tài)估計(jì)問(wèn)題[20]，但當(dāng)時(shí)的網(wǎng)絡(luò)設(shè)計(jì)還比較簡(jiǎn)單，而且利用CNN只是替代了原有姿態(tài)估計(jì)方法中的特征表示部分，但在性能上卻已經(jīng)和傳統(tǒng)方法一致，甚至超過(guò)，表1總結(jié)了目前主流的人體姿態(tài)估計(jì)模型。

3.2.1 單人姿態(tài)估計(jì)

在早期主要發(fā)展的是用于2D 單人姿態(tài)估計(jì)的方法，其中最具有代表性的是2016年發(fā)表的Hourglass[21]、CPM[22]兩個(gè)工作。CPM 里已經(jīng)把空間位置關(guān)系和特征表示建模在一個(gè)模型之中了，不像之前僅把CNN 作為特征表示的方式，輸出的每個(gè)channel 實(shí)際上就代表一個(gè)關(guān)鍵點(diǎn)，采用多stage的方式，每個(gè)stage可以看作是在前stage 的基礎(chǔ)上做refine，在輸出關(guān)鍵點(diǎn)坐標(biāo)的方式上，不是采用直接回歸坐標(biāo)的方式，而是采用先預(yù)測(cè)出heatmap，然后再取argmax等操作獲得最終坐標(biāo)值，heatmap相對(duì)而言能保留更多context 信息，是一種中間態(tài)的信息，在此之后的人體姿態(tài)估計(jì)問(wèn)題，基本上都是采用heatmap 的方式來(lái)獲得關(guān)鍵點(diǎn)坐標(biāo)。Hourglass 網(wǎng)絡(luò)的突出特點(diǎn)是結(jié)構(gòu)簡(jiǎn)單明了，通過(guò)融合feature map 的前后特征來(lái)獲取具有更強(qiáng)表示能力的特征，這種U型結(jié)構(gòu)也廣泛用于其他任務(wù)，如圖像分割、檢測(cè)等。整體的pipeline和CPM是相似的，這本質(zhì)上是back-bone層面的改進(jìn)提升。除了以CPM 為代表的思路之外，還有一些思路是基于GAN 的方式[26]進(jìn)行單人姿態(tài)估計(jì)任務(wù)，在MPII上取得了很好的效果。

表1 人體姿態(tài)估計(jì)深度學(xué)習(xí)模型

3.2.2 多人姿態(tài)估計(jì)

隨著COCO數(shù)據(jù)集中多人姿態(tài)估計(jì)任務(wù)的提出，用于2D 多人姿態(tài)估計(jì)的方法逐漸增加，其中較有影響力的代表是Openpose[11]，這是多人姿態(tài)估計(jì)中基于bottomup 的思路，而基于top-down 的思路，后續(xù)提出的有CPN[24]、MSPN[25]。

在多人姿態(tài)估計(jì)中bottom-up思路是先檢測(cè)出所有關(guān)鍵點(diǎn)，然后對(duì)這些關(guān)鍵點(diǎn)進(jìn)行分組，確定關(guān)鍵點(diǎn)所屬的對(duì)象，openpose基于CPM組件，首先找出圖中的所有關(guān)鍵點(diǎn)，然后使用PAF（Part Affinity Fields）方法將這些檢測(cè)出來(lái)的關(guān)鍵點(diǎn)分組確定所屬對(duì)象。除了利用PAF來(lái)確定關(guān)鍵點(diǎn)所屬對(duì)象之外，還有一種利用Associative Embedding 的思路[27]，就是對(duì)每個(gè)輸出的關(guān)鍵點(diǎn)都輸出對(duì)應(yīng)的embedding，使同一個(gè)人的embedding 結(jié)果接近，不同人embedding結(jié)果差距變大。

多人姿態(tài)估計(jì)的第二種思路是top-down思路，即先進(jìn)行檢測(cè)任務(wù)將圖中的人都找出來(lái)，然后進(jìn)行單個(gè)人的姿態(tài)估計(jì)，此思路下的模型精度更好，由于人體目標(biāo)比關(guān)鍵點(diǎn)更大，檢測(cè)到人比檢測(cè)關(guān)鍵點(diǎn)更容易，這就意味著recall 會(huì)更高，其次不需要對(duì)類(lèi)似的關(guān)鍵點(diǎn)進(jìn)行所屬對(duì)象分組，而這個(gè)問(wèn)題在bottom-up 思路中會(huì)比較困難。CPN[24]設(shè)計(jì)兩個(gè)stage，第一步的GlobalNet 輸出一個(gè)coarse的結(jié)果，第二步進(jìn)行進(jìn)一步的refine，此外和之前研究的不同是采用了更主流的backbone，即ResNet50，更強(qiáng)的backbone對(duì)特征具有更好的表征能力。MSPN[25]同樣是基于top-down 的思路，是在CPN 的基礎(chǔ)上做的改進(jìn)，相比于CPN的兩個(gè)stage設(shè)計(jì)，這篇工作采用了多個(gè)stage 的設(shè)計(jì)，相當(dāng)于有多步的refine，這樣取得的結(jié)果也會(huì)更好。

3.3 數(shù)據(jù)集及評(píng)估標(biāo)準(zhǔn)

在深度學(xué)習(xí)方法中，數(shù)據(jù)集是尤為重要的，好的數(shù)據(jù)集不僅可以作為評(píng)估不同方法效果的標(biāo)準(zhǔn)，還可以隨著數(shù)據(jù)集的擴(kuò)張變化來(lái)提升深度學(xué)習(xí)網(wǎng)絡(luò)的性能，下面將對(duì)主要數(shù)據(jù)集及評(píng)估標(biāo)準(zhǔn)進(jìn)行介紹。

3.3.1 2D人體姿態(tài)估計(jì)主要數(shù)據(jù)集

在深度學(xué)習(xí)興起之前就已經(jīng)存在許多2D人體姿態(tài)估計(jì)的數(shù)據(jù)集，這些數(shù)據(jù)集具有一些缺點(diǎn)，如場(chǎng)景過(guò)少、單一視角、圖片數(shù)量過(guò)少等，這些缺陷導(dǎo)致其無(wú)法在深度學(xué)習(xí)任務(wù)中達(dá)到更好的效果，尤其是數(shù)據(jù)量過(guò)少，這就會(huì)導(dǎo)致深度學(xué)習(xí)網(wǎng)絡(luò)的魯棒性減弱，也會(huì)導(dǎo)致容易過(guò)擬合等問(wèn)題，所以本文主要介紹數(shù)據(jù)量級(jí)在千級(jí)及以上的數(shù)據(jù)集，這些數(shù)據(jù)集出現(xiàn)的時(shí)間節(jié)點(diǎn)為深度學(xué)習(xí)興起之后，具有更多樣化的場(chǎng)景及圖片數(shù)量，數(shù)據(jù)集的總結(jié)見(jiàn)表2。

Frames Labeled in Cinema（FLIC）Dataset[28]，此數(shù)據(jù)集包含從好萊塢電影中收集到的5 003 張圖片，通過(guò)人體檢測(cè)器捕捉到了20 000多個(gè)人體候選圖片，這些候選圖片送到Amazon Mechanical Turk 進(jìn)行人體姿態(tài)的標(biāo)注（10個(gè)關(guān)鍵點(diǎn)），然后手動(dòng)刪除其中遮擋較為嚴(yán)重的數(shù)據(jù)最后得到總數(shù)5 000級(jí)別的數(shù)據(jù)集。

表2 人體姿態(tài)估計(jì)數(shù)據(jù)集

Leeds Sports Pose（LSP）Dataset[29]，這是一個(gè)收集于Flickr 中的運(yùn)動(dòng)圖片數(shù)據(jù)集，包含8 種運(yùn)動(dòng)標(biāo)簽（棒球、體操、跑酷、足球、網(wǎng)球、排球、羽毛球、田徑），其包含2 000張圖片，關(guān)鍵點(diǎn)數(shù)目為14個(gè)。

Max Planck Institute for Informatics（MPII）Human Pose Dataset[30]，這個(gè)數(shù)據(jù)集是目前最為主流的數(shù)據(jù)集，其標(biāo)注信息相當(dāng)豐富，數(shù)據(jù)集數(shù)量首次達(dá)到了萬(wàn)級(jí)別，數(shù)據(jù)集的原始來(lái)源是youtube 的視頻，從中挑出大約24 920幀的圖片數(shù)據(jù)，標(biāo)注了16個(gè)關(guān)鍵點(diǎn)，相較于之前的數(shù)據(jù)集增加了眼鼻關(guān)鍵點(diǎn)。

3.3.2 2D人體姿態(tài)估計(jì)的評(píng)估標(biāo)準(zhǔn)

數(shù)據(jù)集的不同也意味著其特點(diǎn)（人體體長(zhǎng)標(biāo)準(zhǔn)選用上半身或全身）和適用的任務(wù)范圍不同（單人多人），這就需要不同的評(píng)估標(biāo)準(zhǔn)來(lái)進(jìn)行算法模型效果的衡量。

Percentage of Correct Parts（PCP）[31]，早期使用的標(biāo)準(zhǔn)之一，主要用于表明軀干的定位精準(zhǔn)程度，如果兩個(gè)端點(diǎn)定位偏差在ground-truth 的一定閾值范圍之內(nèi)（通常這個(gè)閾值設(shè)定為50%）則表明定位正確，這個(gè)軀干部位包括身體、大腿、小腿、前臂、頭部等，在每個(gè)部位的基礎(chǔ)上取其平均值即可得到mPCP值。

Percentage of Correct Keypoints（PCK）[32]，與PCP不同，PCK的評(píng)判標(biāo)準(zhǔn)適用于判斷關(guān)鍵點(diǎn)（如手關(guān)節(jié)、踝關(guān)節(jié)、膝蓋等）的預(yù)測(cè)準(zhǔn)確度，定位正確的判斷標(biāo)準(zhǔn)為判斷定位的位置是否落在groud-truth 的一定閾值半徑范圍之內(nèi)，這個(gè)閾值通常設(shè)定為軀干長(zhǎng)度的一定比例值或者頭部長(zhǎng)度的一定比例值，常用的標(biāo)準(zhǔn)為頭部50%的比例值，標(biāo)記為PCKh@0.5。

The Average Precision（AP），這個(gè)指標(biāo)主要用于多人姿態(tài)估計(jì)的準(zhǔn)確度評(píng)估，且適用于那些沒(méi)有標(biāo)注人體的bounding-box圖片，這些圖片通常只標(biāo)注了對(duì)應(yīng)的人體部位，其評(píng)判方式類(lèi)似于目標(biāo)檢測(cè)的評(píng)判方式，主要通過(guò)判斷關(guān)鍵點(diǎn)是否落在一定區(qū)域范圍內(nèi)來(lái)進(jìn)行評(píng)判，在這個(gè)范圍內(nèi)即被判斷為正樣本（true positive），所有預(yù)測(cè)出的關(guān)鍵點(diǎn)會(huì)依據(jù)PCKh的得分情況次序列出，沒(méi)有在ground-truth 范圍內(nèi)的檢出結(jié)果被判定為負(fù)樣本（false positive），mAP 表示的是所有關(guān)鍵點(diǎn)的AP 指標(biāo)平均值。COCO[14]中，這個(gè)評(píng)判方式被進(jìn)一步細(xì)化，提出了Object Keypoint Similarity（OKS）的計(jì)算方式，以O(shè)KS為評(píng)判正負(fù)樣本的標(biāo)準(zhǔn)，此指標(biāo)與目標(biāo)檢測(cè)中Intersection over Union（IoU）的功能是一致的。

3.4 小結(jié)

人體姿態(tài)估計(jì)作為動(dòng)作識(shí)別任務(wù)的前置任務(wù)，直接影響了動(dòng)作識(shí)別任務(wù)的最終效果，由于目前的數(shù)據(jù)集數(shù)量約束，人體姿態(tài)估計(jì)可作為動(dòng)作識(shí)別的中間任務(wù)，進(jìn)一步進(jìn)行下游任務(wù)時(shí)也可以處理得比較靈活，既可以使用手工特征對(duì)動(dòng)作進(jìn)行判斷識(shí)別，也可以進(jìn)一步使用更高級(jí)的算法對(duì)動(dòng)作進(jìn)行識(shí)別，在動(dòng)作識(shí)別實(shí)現(xiàn)落地的過(guò)程中，人體姿態(tài)估計(jì)是必不可少的一環(huán)。

4 動(dòng)作識(shí)別

動(dòng)作識(shí)別是視覺(jué)任務(wù)中理解范疇的任務(wù)，即對(duì)視頻中的人的行為進(jìn)行識(shí)別，其應(yīng)用范圍廣泛，包括智能安防、虛擬現(xiàn)實(shí)、多媒體視頻內(nèi)容理解等，其中簡(jiǎn)單層面的動(dòng)作識(shí)別任務(wù)又叫做動(dòng)作分類(lèi)，這類(lèi)任務(wù)是給定了一小段視頻片段，然后對(duì)其進(jìn)行分類(lèi)，處理起來(lái)相對(duì)容易，還有一類(lèi)任務(wù)是檢測(cè)并分類(lèi)，即給定一段視頻要先進(jìn)行人的定位和視頻時(shí)間區(qū)間上的分段，然后再對(duì)檢測(cè)出來(lái)的段進(jìn)行動(dòng)作分類(lèi)，這類(lèi)任務(wù)相對(duì)較難。

4.1 傳統(tǒng)方法

在傳統(tǒng)方法中，其主要特點(diǎn)是動(dòng)作識(shí)別所使用的特征是手工設(shè)計(jì)的特征，如iDT[33-34]，其使用的分類(lèi)器主要是SVM、決策樹(shù)或隨機(jī)森林，相對(duì)深度學(xué)習(xí)方法，傳統(tǒng)方法的可解釋性更強(qiáng)，在理論分析上更有優(yōu)勢(shì)。

4.2 深度學(xué)習(xí)方法

隨著計(jì)算機(jī)視覺(jué)[19，35]和自然語(yǔ)言處理[36-37]的深度學(xué)習(xí)方法的興起，基于深度學(xué)習(xí)方法的動(dòng)作識(shí)別模型也得到了進(jìn)一步的研究，且相較于傳統(tǒng)方式取得了更好的效果，其主要優(yōu)勢(shì)在于用深度學(xué)習(xí)模型抽取特征替代了傳統(tǒng)的手工設(shè)計(jì)特征，且可以實(shí)現(xiàn)端到端的訓(xùn)練方式，但在可解釋性上目前還存在一些問(wèn)題。動(dòng)作識(shí)別的最初直接思路是對(duì)視頻中的每一幀靜止圖像進(jìn)行動(dòng)作識(shí)別，這種做法丟失了時(shí)間維度的信息，在區(qū)分高度相似的動(dòng)作時(shí)會(huì)存在很大的問(wèn)題，如“開(kāi)門(mén)動(dòng)作”和“關(guān)門(mén)動(dòng)作”，所以如何建模時(shí)間維度的信息是動(dòng)作識(shí)別準(zhǔn)確度的關(guān)鍵要素。后續(xù)發(fā)展的方向可以根據(jù)是否進(jìn)行檢測(cè)人體關(guān)鍵點(diǎn)的上游任務(wù)來(lái)區(qū)分為不檢測(cè)關(guān)鍵點(diǎn)的videobased的方法和檢測(cè)關(guān)鍵點(diǎn)的skeleton-based的方法，表3是對(duì)動(dòng)作識(shí)別模型的總結(jié)。

4.2.1 Video-based

這類(lèi)思路是直接方式，即對(duì)視頻輸入進(jìn)行直接檢測(cè)分類(lèi)，不需要skeleton關(guān)鍵點(diǎn)生成的中間步驟，相對(duì)關(guān)鍵點(diǎn)檢測(cè)能建模更多豐富的上下文信息，其中有兩類(lèi)主要采用的方法。

第一類(lèi)方法是三維卷積，為了解決前述時(shí)間維度信息建模的問(wèn)題，直接思路是引入三維卷積，在原來(lái)二維卷積的基礎(chǔ)上擴(kuò)展空間特征到時(shí)間維度上，直接提取包含時(shí)間維信息的特征表示，卷積核擴(kuò)展為3D卷積核，卷積的結(jié)果是通過(guò)堆疊的方式產(chǎn)生的，Ji等[45]首次將三維卷積的方法引入了人體動(dòng)作識(shí)別領(lǐng)域，7個(gè)連續(xù)的圖像幀被隨機(jī)地從視頻中截取出來(lái)，通過(guò)一些手工設(shè)計(jì)的操作輸出有33 個(gè)通道的特征圖（如灰度特征圖和光流特征圖），這些特征圖作為卷積網(wǎng)絡(luò)的輸入，通過(guò)一組設(shè)計(jì)好的卷積網(wǎng)絡(luò)抽取更深層的特征表示，最末端接上全連接層進(jìn)行分類(lèi)任務(wù)，文中的實(shí)驗(yàn)證明在有噪聲干擾、有遮擋的情況下也能取得很好的識(shí)別效果。

Tran 等[39]分析了三維卷積核的尺寸對(duì)模型性能的影響，文中用大量實(shí)驗(yàn)證明，對(duì)于多數(shù)情況下，使用3×3×3尺寸的卷積核能獲得最佳性能，文中設(shè)計(jì)了一個(gè)簡(jiǎn)單的三維卷積模型C3D，結(jié)構(gòu)簡(jiǎn)單且容易訓(xùn)練，該模型除了可應(yīng)用于動(dòng)作識(shí)別之外也可用于目標(biāo)檢測(cè)。

Sun 等[40]提出可將三維卷積進(jìn)行分解的思路，將三維卷積分解為二維卷積和一維卷積，在模型的低層使用二維卷積來(lái)抽取低層的特征，然后在高層使用一維卷積來(lái)進(jìn)行時(shí)間維度的特征融合，這樣的設(shè)計(jì)降低了模型的復(fù)雜度，其實(shí)驗(yàn)結(jié)果表明此設(shè)計(jì)有利于緩解過(guò)擬合問(wèn)題。

第二類(lèi)方法是Two-stream，這是目前研究最為主流的方法，視覺(jué)方面的研究表明，視覺(jué)信息的處理是由兩個(gè)不同信息處理函數(shù)的分支組成，分別是做動(dòng)作的指導(dǎo)調(diào)整分支和認(rèn)知識(shí)別分支，由這個(gè)思路啟發(fā)，Simonyan等[41]將Two-stream的思路用于動(dòng)作識(shí)別領(lǐng)域，思路是做兩個(gè)分支，一個(gè)分支的輸入是隨機(jī)選取的一幀靜止圖像，將靜止圖像輸入RGB 分支提取空間域的特征，另一個(gè)分支是光流分支來(lái)提取時(shí)間域的特征，光流分支采取的輸入是該幀靜止圖像的前后10 幀圖像，這兩個(gè)分支是獨(dú)立的，提取空間特征的網(wǎng)絡(luò)結(jié)構(gòu)和做圖像識(shí)別任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)類(lèi)似，所以可以采用ImageNet上的預(yù)訓(xùn)練模型，然后結(jié)合起來(lái)做動(dòng)作識(shí)別任務(wù)，其實(shí)驗(yàn)結(jié)果表明可在小數(shù)據(jù)集上也取得良好的效果。

表3 動(dòng)作識(shí)別模型

Feichtenhofer 等[46]基于Two-stream 進(jìn) 一步進(jìn) 行改良，將三維卷積融合的方式加入到卷積網(wǎng)絡(luò)的后段進(jìn)行時(shí)空域信息的融合操作，其文中的實(shí)驗(yàn)結(jié)果表明這種操作可明顯提升網(wǎng)絡(luò)性能且縮短訓(xùn)練時(shí)間。

之前的研究提出的方法是在一個(gè)預(yù)固定好的區(qū)間范圍內(nèi)做的動(dòng)作識(shí)別任務(wù)，即對(duì)一段完整的視頻進(jìn)行采樣，選取其中需要判斷的部分進(jìn)行識(shí)別，而不是直接對(duì)完整視頻進(jìn)行處理識(shí)別，Wang 等[42]提出了Temporal Segment Network（TSN），這是首次實(shí)現(xiàn)對(duì)完整視頻的端到端處理，TSN基于Two-stream的思路，引入了VGG網(wǎng)絡(luò)結(jié)構(gòu)，一段較長(zhǎng)的時(shí)間序列視頻經(jīng)過(guò)時(shí)間域稀疏采樣策略被分割成了不交疊的視頻片段，然后每一段視頻都獨(dú)立作為訓(xùn)練樣本輸入，最后通過(guò)融合函數(shù)將不同序列段的輸出特征進(jìn)行融合，最后輸出整個(gè)視頻的動(dòng)作描述。

4.2.2 Skeleton-based

人體的骨架信息實(shí)際上是對(duì)人體的拓?fù)浣Y(jié)構(gòu)進(jìn)行簡(jiǎn)化，其在描述人體動(dòng)作上是信息充分的，相較于直接對(duì)視頻片段進(jìn)行處理，既可以降低噪聲干擾，也可以減少多余的計(jì)算消耗，在面對(duì)圖像的各種變化時(shí)也具有更強(qiáng)的魯棒性，同時(shí)也有一些針對(duì)人體骨架識(shí)別的傳感器被開(kāi)發(fā)出來(lái)，如微軟的Kinect[47]，還有一些優(yōu)秀算法也可以輕松生成人體骨架數(shù)據(jù)，基于骨架信息進(jìn)行的動(dòng)作識(shí)別可能會(huì)是之后動(dòng)作識(shí)別領(lǐng)域的主流方式。

基于骨架序列做動(dòng)作識(shí)別問(wèn)題實(shí)際上是時(shí)序問(wèn)題，傳統(tǒng)的方式是通過(guò)手工設(shè)計(jì)的特征來(lái)進(jìn)行動(dòng)作識(shí)別和判斷，這些特征包括不同關(guān)鍵點(diǎn)之間的位置偏移旋轉(zhuǎn)等，Wang 等[48]指出這種方式做動(dòng)作識(shí)別會(huì)導(dǎo)致模型的泛化性能很差，基本只能針對(duì)特定的任務(wù)才能表現(xiàn)出效果，深度學(xué)習(xí)方式具有很強(qiáng)的抽取特征能力，在模型泛化性上會(huì)比手工設(shè)計(jì)特征的方式要好得多。

由于動(dòng)作識(shí)別存在時(shí)域的信息，最早的思路是引入具有抽取時(shí)域特征能力的RNN 網(wǎng)絡(luò)，Du 等[43]采用了RNN 結(jié)構(gòu)進(jìn)行序列特征的表示，文中將人體的骨架序列分為五個(gè)序列部分分別輸入五個(gè)RNN子網(wǎng)絡(luò)之中進(jìn)行序列特征的表示，采用了多層堆疊的方式處理前后輸入的特征，對(duì)最后輸出的特征向量進(jìn)行分類(lèi)判別動(dòng)作。

人體骨架是一個(gè)自然的拓?fù)浣Y(jié)構(gòu)，而RNN 只能抽取其序列信息，在表征其特征時(shí)仍有不足，而圖結(jié)構(gòu)可以有效表征圖拓?fù)浣Y(jié)構(gòu)數(shù)據(jù)特征，所以基于GCN 的方法被越來(lái)越多地應(yīng)用于基于人體骨架的動(dòng)作識(shí)別任務(wù)之中，使用GCN 的核心問(wèn)題是如何將原始數(shù)據(jù)組織為特定的圖結(jié)構(gòu)。Yan 等[44]首次提出了基于GCN 的動(dòng)作識(shí)別模型ST-GCN（Spatial Temporal Graph Convolutional Networks），其將人的關(guān)鍵點(diǎn)作為時(shí)空?qǐng)D的頂點(diǎn)，而時(shí)空?qǐng)D的邊是用人體連通性和時(shí)間來(lái)表示，最后使用標(biāo)準(zhǔn)的SoftMax分類(lèi)器對(duì)輸出的特征進(jìn)行分類(lèi)。

4.3 數(shù)據(jù)集

動(dòng)作識(shí)別的數(shù)據(jù)集有兩種類(lèi)型，一種是RGB 類(lèi)型的，另一種是適用于基于骨架的行為識(shí)別數(shù)據(jù)集，這種類(lèi)型的數(shù)據(jù)集通常還包含深度數(shù)據(jù)，這兩類(lèi)數(shù)據(jù)集分別適用于不同的任務(wù)，進(jìn)而又使得這些任務(wù)采用不同的方法，基于RGB的數(shù)據(jù)集主要用于Video-based的方法，而基于骨架行為識(shí)別類(lèi)型的數(shù)據(jù)集主要用于Skeletonbased的方法。

UCF-101[49]，這個(gè)數(shù)據(jù)集包含13 320個(gè)視頻片段，包含了101 種戶(hù)外的動(dòng)作類(lèi)別，是RGB 類(lèi)型的數(shù)據(jù)集，其中視頻的幀率為25幀，視頻的分辨率為320×240，每段視頻剪輯的平均時(shí)長(zhǎng)為7.21 s，視頻的總時(shí)長(zhǎng)約為1 600 min，最短時(shí)長(zhǎng)為1.06 s，最長(zhǎng)時(shí)長(zhǎng)為71.04 s。

HMDB-51[50]，這個(gè)數(shù)據(jù)集的數(shù)據(jù)來(lái)源是youtube 上的電影以及視頻，具有7 000左右數(shù)量的視頻片段，分成了51組動(dòng)作類(lèi)別，這個(gè)數(shù)據(jù)集被分成了3個(gè)訓(xùn)練集和3個(gè)測(cè)試集，集合之間是沒(méi)有重疊部分的，這個(gè)數(shù)據(jù)集也是RGB類(lèi)型的數(shù)據(jù)集。

NTU-RGB+D[51]，與其他數(shù)據(jù)集最大的不同是增加了深度數(shù)據(jù)，目前已有基于深度數(shù)據(jù)的算法[52]，這個(gè)數(shù)據(jù)集的主要采集設(shè)備是Kinect v2，包含了56 880 個(gè)視頻片段，是目前最大的基于骨架行為識(shí)別類(lèi)型的數(shù)據(jù)集，其包含了25個(gè)關(guān)鍵點(diǎn)的3D空間坐標(biāo)位置。為適應(yīng)不同任務(wù)目標(biāo)的需求，其有兩個(gè)部分，分別適用于不同的評(píng)判標(biāo)準(zhǔn)，一個(gè)是Cross-Subject類(lèi)型，總共包含40 320個(gè)視頻片段用于訓(xùn)練集，另外的16 560個(gè)用于驗(yàn)證集，根據(jù)不同的subject劃分為40個(gè)組，另外一類(lèi)是Cross-View類(lèi)型，包含37 920 個(gè)視頻片段用于訓(xùn)練集，18 960 段用于驗(yàn)證集，劃分的標(biāo)準(zhǔn)是根據(jù)相機(jī)視角不同劃分，相機(jī)2和3作為訓(xùn)練集，相機(jī)1作為驗(yàn)證集。

NTU-RGB+D 120[53]，這個(gè)數(shù)據(jù)集屬于骨架動(dòng)作識(shí)別類(lèi)型，是近期出現(xiàn)的數(shù)據(jù)集，其包含120個(gè)動(dòng)作類(lèi)別，包含114 480 個(gè)骨架序列數(shù)據(jù)，在NTU-RGB+D 中表現(xiàn)良好的模型，在這個(gè)數(shù)據(jù)集中仍表現(xiàn)較差，是目前較為有挑戰(zhàn)性的數(shù)據(jù)集。

4.4 動(dòng)作識(shí)別與智能診斷難點(diǎn)分析

常規(guī)人體動(dòng)作識(shí)別本質(zhì)上是屬于視頻分類(lèi)任務(wù)，根據(jù)視頻數(shù)據(jù)判斷動(dòng)作類(lèi)別，而智能診斷系統(tǒng)需要對(duì)動(dòng)作做更加細(xì)粒度的判斷分析，如動(dòng)作的細(xì)節(jié)姿態(tài)、動(dòng)作的頻度等方面，相比于常規(guī)動(dòng)作識(shí)別，智能診斷系統(tǒng)對(duì)動(dòng)作精度的要求更高，除此之外目前主流動(dòng)作識(shí)別算法還存在一些難點(diǎn)：

（1）目前的動(dòng)作識(shí)別算法對(duì)場(chǎng)景和物體的依賴(lài)性較大，由于視頻信息提取后建模的主要部分包括外觀信息，其中場(chǎng)景以及物體信息和動(dòng)作信息耦合在一起，動(dòng)作識(shí)別的結(jié)果不得不依賴(lài)于外觀信息的建模，這對(duì)模型的泛化性能是一個(gè)挑戰(zhàn)。

（2）主流動(dòng)作識(shí)別算法中提取的光流特征是用來(lái)建模時(shí)域信息的，由于光流是計(jì)算視頻幀間差異，其表征長(zhǎng)時(shí)動(dòng)作能力有限，在建模時(shí)域信息上仍存在不足，智能診斷系統(tǒng)的輸入是長(zhǎng)視頻段，具有豐富的時(shí)域信息，如何對(duì)時(shí)域信息的建模是核心問(wèn)題之一。

（3）目前的動(dòng)作識(shí)別數(shù)據(jù)集對(duì)于動(dòng)作細(xì)粒度并沒(méi)有定義，如人體的變化姿態(tài)角度等更細(xì)節(jié)的問(wèn)題，而這對(duì)于智能診斷系統(tǒng)的診斷效果很關(guān)鍵，因?yàn)樵\斷判斷的依據(jù)有時(shí)就是動(dòng)作的細(xì)微差別，這要求診斷系統(tǒng)對(duì)于動(dòng)作的細(xì)粒度如何定義需要更加明確，這也對(duì)數(shù)據(jù)集提出了更高的要求。

4.5 小結(jié)

動(dòng)作識(shí)別相對(duì)人體姿態(tài)估計(jì)是更高語(yǔ)義層次的任務(wù)，依據(jù)目前的主流數(shù)據(jù)集和方法可以分為Video-based類(lèi)型和Skeleton-based類(lèi)型，相較于Video-based的方法，Skeleton-based 的方法使用的數(shù)據(jù)是骨架序列數(shù)據(jù)，其魯棒性要更強(qiáng)而計(jì)算消耗會(huì)更少，其數(shù)據(jù)的獲取方式可來(lái)源于Kinect 的采集數(shù)據(jù)也可來(lái)源于優(yōu)秀的人體姿態(tài)估計(jì)算法，對(duì)于基于骨架模型的方式如何更好建模動(dòng)作信息是核心問(wèn)題之一，尤其針對(duì)骨架動(dòng)作識(shí)別類(lèi)型的數(shù)據(jù)集而言，目前比較有效建模的方法是基于GCN 的方法，因?yàn)閳D結(jié)構(gòu)是更好表征自然拓?fù)浣Y(jié)構(gòu)的方式。

依據(jù)動(dòng)作識(shí)別的Video-based和Skeleton-based方法可將兒童運(yùn)動(dòng)障礙AI診斷系統(tǒng)的分為兩種方式：

Video-based診斷，這類(lèi)方式的優(yōu)勢(shì)是可實(shí)現(xiàn)端到端的訓(xùn)練，網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單，但是缺點(diǎn)是對(duì)數(shù)據(jù)集要求更高，且由于是直接處理的視頻數(shù)據(jù)，對(duì)于算力的要求也更高，適用于有良好數(shù)據(jù)集標(biāo)注的情況。

Skeleton-based 診斷，這類(lèi)方式的優(yōu)勢(shì)是對(duì)算力需求較低，因?yàn)閯?dòng)作識(shí)別步驟需要處理的是skeleton數(shù)據(jù)，數(shù)據(jù)量比視頻更少，也減少了更多的干擾成分，但其目前的性能相對(duì)較差，且性能依賴(lài)于人體姿態(tài)估計(jì)算法的skeleton 生成結(jié)果，但其可作為一個(gè)模態(tài)的特征作為其他模型的補(bǔ)充，適用于多模態(tài)學(xué)習(xí)的情況。

5 結(jié)束語(yǔ)

人體姿態(tài)估計(jì)和動(dòng)作識(shí)別是做兒童運(yùn)動(dòng)協(xié)調(diào)障礙兩個(gè)核心子任務(wù)，由優(yōu)秀的人體姿態(tài)估計(jì)算法來(lái)生成準(zhǔn)確的人體骨架模型，然后結(jié)合動(dòng)作識(shí)別中基于骨架動(dòng)作識(shí)別的算法進(jìn)行動(dòng)作判斷和打分，最終得到醫(yī)療層面的診斷結(jié)果，這是目前而言最能實(shí)現(xiàn)落地的技術(shù)路線(xiàn)方向，而不采用人體骨架模型中間層的技術(shù)路線(xiàn)實(shí)現(xiàn)起來(lái)的難度以目前的研究進(jìn)展來(lái)看是相當(dāng)大的，但其優(yōu)勢(shì)是可實(shí)現(xiàn)端到端的訓(xùn)練，對(duì)人體的特征建模能包含更豐富的信息。

兒童運(yùn)動(dòng)協(xié)調(diào)障礙AI 診斷系統(tǒng)想要實(shí)現(xiàn)落地目標(biāo)，其未來(lái)重點(diǎn)研究方向包含兩個(gè)層面，第一是提升識(shí)別準(zhǔn)確度方向，目前通用的數(shù)據(jù)集還沒(méi)有針對(duì)兒童的數(shù)據(jù)集，在做遷移學(xué)習(xí)過(guò)程中可能會(huì)產(chǎn)生準(zhǔn)確度下降的問(wèn)題，第二是降低計(jì)算成本方向，目前移動(dòng)端設(shè)備的算力水準(zhǔn)不夠滿(mǎn)足要求，直接在移動(dòng)端給出診斷結(jié)果不僅診斷準(zhǔn)確性會(huì)有所下降，計(jì)算速度也不達(dá)標(biāo)，目前的常規(guī)解決思路是通過(guò)移動(dòng)端進(jìn)行數(shù)據(jù)采集，在服務(wù)端進(jìn)行運(yùn)算，這樣可以緩解移動(dòng)端算力不足問(wèn)題，該問(wèn)題的另一個(gè)解決思路是做輕量化的模型，可將整體算力上的要求降低。

對(duì)于兒童運(yùn)動(dòng)障礙診斷系統(tǒng)目前數(shù)據(jù)集缺失問(wèn)題，可行的解決手段主要有兩種方式，第一類(lèi)是通過(guò)與醫(yī)院加強(qiáng)合作，這樣可以直接獲得所需的數(shù)據(jù)集，但這樣得到的數(shù)據(jù)集數(shù)量可能存在限制，第二類(lèi)是在已有的小數(shù)據(jù)集基礎(chǔ)上，通過(guò)數(shù)據(jù)增強(qiáng)等技術(shù)手段擴(kuò)展目前數(shù)據(jù)，可通過(guò)在主流數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，在小數(shù)據(jù)集上進(jìn)行fine-tune的方式解決數(shù)據(jù)集不足問(wèn)題。

AI 診斷系統(tǒng)的開(kāi)發(fā)仍面臨著諸多難點(diǎn)，自動(dòng)化診斷是其主流發(fā)展方向之一，通過(guò)建立數(shù)據(jù)采樣、數(shù)據(jù)分析、數(shù)據(jù)產(chǎn)出等自動(dòng)化流程，可進(jìn)一步實(shí)現(xiàn)技術(shù)落地和推廣，該技術(shù)的進(jìn)一步發(fā)展有助于提升醫(yī)療普惠程度和醫(yī)療效率，對(duì)緩解醫(yī)療資源不足有著重要意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡