陳艷杰,舒大偉,楊吉江,王 歡,王 青,雷 毅
1.首都醫(yī)科大學(xué) 附屬北京兒童醫(yī)院 兒童保健中心,北京100045
2.清華大學(xué) 深圳國(guó)際研究生院 信息科學(xué)與技術(shù)學(xué)部,廣東 深圳518055
3.清華大學(xué) 信息技術(shù)研究院,北京100084
4.國(guó)家體育總局體育科學(xué)研究所,北京100061
兒童的運(yùn)動(dòng)協(xié)調(diào)能力是兒童發(fā)育過(guò)程中的核心能力之一,該能力正常的發(fā)展對(duì)兒童的語(yǔ)言、智力、情感等方面的發(fā)展也具有促進(jìn)作用[1],患有運(yùn)動(dòng)協(xié)調(diào)能力障礙(Developmental Coordination Disorder,DCD)的兒童通常語(yǔ)言、認(rèn)知等方面的能力也會(huì)受到影響,在兒童階段及成人遠(yuǎn)期都可能會(huì)影響其生活自理能力及社會(huì)性相關(guān)功能,所以運(yùn)動(dòng)協(xié)調(diào)能力的評(píng)估成為兒童早期發(fā)育水平的重要指標(biāo)[2]。
根據(jù)美國(guó)精神聯(lián)合學(xué)會(huì)(American Psychiatric Association,APA)的調(diào)查顯示,5~11 歲兒童的發(fā)病率為5%~6%[3],我國(guó)2011 年上海地區(qū)的一項(xiàng)調(diào)查顯示7~12 歲兒童的發(fā)病率為8.3%[4]。其較高的發(fā)病率不容忽視,但其病因復(fù)雜,目前發(fā)病機(jī)制仍不明確[5],而多項(xiàng)研究表明,早發(fā)現(xiàn)早干預(yù)是目前行之有效的治療手段。
目前的兒童運(yùn)動(dòng)協(xié)調(diào)障礙的主要診斷手段是通過(guò)各種專(zhuān)業(yè)量表法[6],如兒童運(yùn)動(dòng)協(xié)調(diào)能力評(píng)估量表第二版(Movement Assessment Battery for Children-Second Edition,MABC-2)、發(fā)育性協(xié)調(diào)障礙量表(Developmental Coordination Disorder Questionnaire,DCDQ)等,評(píng)分依據(jù)有客觀標(biāo)準(zhǔn),如動(dòng)作的頻次,也有主觀標(biāo)準(zhǔn),如動(dòng)作標(biāo)準(zhǔn)程度判斷,這就要求做診斷的醫(yī)生需要有一定經(jīng)驗(yàn)及專(zhuān)業(yè)性,才能有效評(píng)估得出正確診斷結(jié)果。我國(guó)兒科醫(yī)師缺乏情況一直比較突出,且由于地域發(fā)展的不平衡,基層的兒科醫(yī)師更為缺乏,所以需要一套簡(jiǎn)單易行且診斷準(zhǔn)確度在一定水平之上的解決方案。
計(jì)算機(jī)動(dòng)作識(shí)別系統(tǒng)可對(duì)人體動(dòng)作進(jìn)行識(shí)別,目前主要應(yīng)用于電影演員動(dòng)作捕捉、運(yùn)動(dòng)員動(dòng)作評(píng)估等方面,通過(guò)觀察者在身體各部位攜帶一定數(shù)目的標(biāo)記進(jìn)行動(dòng)作數(shù)據(jù)的采集,計(jì)算機(jī)進(jìn)行后臺(tái)數(shù)據(jù)處理及動(dòng)作分析,其對(duì)設(shè)備和場(chǎng)地都有較高的要求,有著成本高、操作復(fù)雜、泛用性差的缺陷,這就意味著難以大范圍地推廣使用。
隨著人工智能的發(fā)展,僅基于移動(dòng)端所拍攝的視頻數(shù)據(jù)進(jìn)行動(dòng)作識(shí)別輔助診斷系統(tǒng)有了實(shí)現(xiàn)的可能,患者根據(jù)提示完成一系列的動(dòng)作,系統(tǒng)根據(jù)所得視頻數(shù)據(jù)即可對(duì)疾病做出診斷,這種形式的診斷方式有著易推廣、易實(shí)施的特點(diǎn),具備良好的應(yīng)用前景。利用移動(dòng)端設(shè)備進(jìn)行視頻采集,服務(wù)端對(duì)視頻數(shù)據(jù)進(jìn)行診斷,該方式可有效向基層進(jìn)行推廣,在此基礎(chǔ)上可獲得大量的數(shù)據(jù)并進(jìn)一步提升診療識(shí)別能力,對(duì)緩解醫(yī)療資源不足問(wèn)題有著重要意義。
當(dāng)前,兒童運(yùn)動(dòng)協(xié)調(diào)障礙人工智能診斷系統(tǒng)領(lǐng)域的研究較少,動(dòng)作識(shí)別多用于體育視頻分析,Joshi 等[7]基于深度學(xué)習(xí)方法提出一種視頻分析方法,對(duì)體育視頻中的高光時(shí)刻進(jìn)行分析捕捉并截取精華片段,但其只是對(duì)視頻內(nèi)容作是否精華部分的判斷,并不涉及對(duì)運(yùn)動(dòng)員實(shí)例級(jí)別的動(dòng)作評(píng)估。Wang 等[8]提出一種分析自由滑雪運(yùn)動(dòng)項(xiàng)目的動(dòng)作評(píng)估方法,第一步對(duì)視頻數(shù)據(jù)輸入進(jìn)行目標(biāo)跟蹤任務(wù),第二步對(duì)抽取出的跟蹤目標(biāo)進(jìn)行單人姿態(tài)估計(jì),第三步對(duì)得到的姿態(tài)估計(jì)數(shù)據(jù)進(jìn)行動(dòng)作評(píng)估,即對(duì)動(dòng)作好壞做二分類(lèi)任務(wù)。Tian等[9]基于花式滑冰動(dòng)作分析任務(wù),提出利用多個(gè)不同視角的攝像頭捕捉動(dòng)作,然后進(jìn)行位置矯正補(bǔ)償從二維影像數(shù)據(jù)獲得三維立體數(shù)據(jù)的方法,給從二維數(shù)據(jù)獲取更為準(zhǔn)確的三維數(shù)據(jù)任務(wù)提供了新思路。
先做人體姿態(tài)估計(jì)再去做動(dòng)作識(shí)別任務(wù)是一個(gè)普遍采用的思路,Chen 等[10]基于Openpose[11]框架,提出使用人體姿態(tài)估計(jì)的輸出來(lái)做摔倒檢測(cè)任務(wù),摔倒檢測(cè)可以認(rèn)為是動(dòng)作識(shí)別中的子任務(wù),其使用skeleton-base的人體姿態(tài)估計(jì)數(shù)據(jù)根據(jù)手工設(shè)計(jì)的特征標(biāo)準(zhǔn)進(jìn)行摔倒動(dòng)作的識(shí)別,王新文等[12]使用雙重殘差網(wǎng)絡(luò)做摔倒檢測(cè)任務(wù)。唐心宇等[13]指出直接使用Kinect 作為姿態(tài)估計(jì)的數(shù)據(jù)輸入對(duì)動(dòng)作識(shí)別的準(zhǔn)確度有較大影響,因其對(duì)遮擋情況的判斷精度較差,結(jié)合深度學(xué)習(xí)的方法進(jìn)行姿態(tài)估計(jì)能大大改善遮擋識(shí)別不準(zhǔn)確的問(wèn)題。騰訊醫(yī)療AI實(shí)驗(yàn)室提出帕金森疾病診斷系統(tǒng),該系統(tǒng)提示患者作出相應(yīng)動(dòng)作并對(duì)其進(jìn)行診斷,通過(guò)深度學(xué)習(xí)方法識(shí)別人體的關(guān)鍵點(diǎn)構(gòu)建人體動(dòng)作模型,依據(jù)成熟的帕金森疾病打分量表進(jìn)行診斷,其也針對(duì)訓(xùn)練數(shù)據(jù)不足的情況結(jié)合自動(dòng)融合技術(shù)做了數(shù)據(jù)增強(qiáng)。
基于深度學(xué)習(xí)方法做運(yùn)動(dòng)障礙診斷目前有兩種思路,關(guān)鍵區(qū)別在于是否進(jìn)行人體姿態(tài)估計(jì)的中間處理生成skeleton數(shù)據(jù),因而產(chǎn)生了兩種不同的處理步驟,需要注意的是由于后續(xù)動(dòng)作識(shí)別任務(wù)的輸入數(shù)據(jù)類(lèi)型不同,所以動(dòng)作識(shí)別任務(wù)中采用的模型將有較大差別。
步驟類(lèi)型1見(jiàn)圖1:
(1)使用移動(dòng)設(shè)備根據(jù)提示進(jìn)行幼兒動(dòng)作指導(dǎo)并視頻采集,為保證最終檢測(cè)效果,對(duì)輸入數(shù)據(jù)的一致性要有一定要求,如光照環(huán)境、拍攝角度等方面,對(duì)拍攝后的視頻進(jìn)行必要的預(yù)處理操作。
(2)由于得到的視頻數(shù)據(jù)是已經(jīng)剪裁好的對(duì)應(yīng)動(dòng)作視頻,對(duì)其分別進(jìn)行人體姿態(tài)估計(jì)任務(wù),生成人體姿態(tài)估計(jì)的skeleton數(shù)據(jù),為了保證對(duì)兒童識(shí)別的準(zhǔn)確度,人體姿態(tài)估計(jì)任務(wù)的模型要在對(duì)應(yīng)的兒童數(shù)據(jù)集上做finetune。
(3)將skeleton數(shù)據(jù)輸入Skeleton-based類(lèi)型的動(dòng)作識(shí)別模型,輸出動(dòng)作準(zhǔn)確度的評(píng)估結(jié)果,對(duì)相應(yīng)動(dòng)作根據(jù)打分量表進(jìn)行診斷打分,匯總打分結(jié)果輸出診斷結(jié)果。
圖1 輔助診斷流程圖類(lèi)型1
步驟類(lèi)型2見(jiàn)圖2:
此類(lèi)型無(wú)需進(jìn)行人體姿態(tài)估計(jì)的中間任務(wù),直接將視頻數(shù)據(jù)輸入Video-based類(lèi)型的動(dòng)作識(shí)別模型進(jìn)行動(dòng)作識(shí)別,然后進(jìn)行診斷打分操作,這種類(lèi)型對(duì)動(dòng)作數(shù)據(jù)集的要求較高,需要大量的帶標(biāo)注的動(dòng)作視頻數(shù)據(jù)進(jìn)行訓(xùn)練。
圖2 輔助診斷流程圖類(lèi)型2
人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺(jué)的基礎(chǔ)任務(wù)之一,在目前權(quán)威的公開(kāi)比賽COCO keypoint track[14]中,COCO數(shù)據(jù)集把人體表示為17 個(gè)關(guān)鍵點(diǎn),分別是鼻子、左右眼、左右耳、左右肩、左右肘、左右腕、左右臀、左右膝、左右腳踝,該任務(wù)需要對(duì)人體的關(guān)鍵點(diǎn)進(jìn)行位置估計(jì),這個(gè)任務(wù)通常還可細(xì)分:根據(jù)檢測(cè)畫(huà)面中的人數(shù)分為單人姿態(tài)估計(jì)和多人姿態(tài)估計(jì),根據(jù)關(guān)鍵點(diǎn)信息是否包含三維深度信息分為2D姿態(tài)估計(jì)和3D姿態(tài)估計(jì),此外還有對(duì)關(guān)鍵點(diǎn)進(jìn)行跟蹤的人體姿態(tài)跟蹤任務(wù)。
在應(yīng)用上,人體姿態(tài)估計(jì)可用于電影動(dòng)畫(huà)、虛擬現(xiàn)實(shí)、人機(jī)交互、視頻監(jiān)控、醫(yī)療輔助診斷、運(yùn)動(dòng)分析、自動(dòng)駕駛等方面,同時(shí)人體姿態(tài)估計(jì)面臨著諸多挑戰(zhàn)[15]:
(1)人體是柔性的,這就意味著人體是一個(gè)具有高度自由度的物體,對(duì)這樣物體的估計(jì)難度較高[16]。
(2)對(duì)于背景復(fù)雜或光照條件弱的待處理圖片,人體與背景的外觀相似性可能較高,且身體的各個(gè)部分是被不同的紋理(衣服)所覆蓋的,有時(shí)不同部位的紋理是接近的。
(3)環(huán)境的復(fù)雜性會(huì)造成較大的影響,比如出現(xiàn)遮擋,尤其是對(duì)于不同人人體相似部位的遮擋。
相對(duì)于目前主流的深度學(xué)習(xí)方法,早期的傳統(tǒng)方法已經(jīng)很少被使用了,其主要原因很大程度上是因?yàn)樯疃葘W(xué)習(xí)領(lǐng)域的發(fā)展,在各類(lèi)人體姿態(tài)估計(jì)的數(shù)據(jù)集上,深度學(xué)習(xí)的方法已經(jīng)全面超過(guò)了傳統(tǒng)方法的效果,但傳統(tǒng)方法提供的基本思路依然值得學(xué)習(xí)借鑒。
傳統(tǒng)方法主要針對(duì)的是單人的姿態(tài)估計(jì)任務(wù),粗略可分為兩類(lèi),一類(lèi)方法是直接使用全局的feature,將問(wèn)題轉(zhuǎn)化為分類(lèi)或者回歸問(wèn)題來(lái)進(jìn)行解決,如文獻(xiàn)[17]中采用的是HOG 直接抽取淺層的全局特征,然后利用Random Forest的方法轉(zhuǎn)化為分類(lèi)問(wèn)題來(lái)解決姿態(tài)估計(jì)問(wèn)題,第二類(lèi)方法是基于圖模型,如pictorial structure framework,對(duì)圖像的單個(gè)part進(jìn)行特征表示,Andriluka等[18]基于pictorial structure framework 對(duì)特征表示優(yōu)化,來(lái)提取更好的特征表示,傳統(tǒng)的方法基本上還是利用的比較淺層的特征,如HOG、SIFT 等,然后對(duì)空間位置關(guān)系進(jìn)行建模,而深度學(xué)習(xí)方法將二者合為一體,這樣的優(yōu)勢(shì)是便于設(shè)計(jì)和優(yōu)化。
深度學(xué)習(xí)的方法自2012年AlexNet[19]提出以來(lái)就引發(fā)了研究熱潮,在人體姿態(tài)估計(jì)領(lǐng)域也引入了深度學(xué)習(xí)模型,在2013 年就有文章提出使用CNN 來(lái)解決人體姿態(tài)估計(jì)問(wèn)題[20],但當(dāng)時(shí)的網(wǎng)絡(luò)設(shè)計(jì)還比較簡(jiǎn)單,而且利用CNN只是替代了原有姿態(tài)估計(jì)方法中的特征表示部分,但在性能上卻已經(jīng)和傳統(tǒng)方法一致,甚至超過(guò),表1總結(jié)了目前主流的人體姿態(tài)估計(jì)模型。
3.2.1 單人姿態(tài)估計(jì)
在早期主要發(fā)展的是用于2D 單人姿態(tài)估計(jì)的方法,其中最具有代表性的是2016年發(fā)表的Hourglass[21]、CPM[22]兩個(gè)工作。CPM 里已經(jīng)把空間位置關(guān)系和特征表示建模在一個(gè)模型之中了,不像之前僅把CNN 作為特征表示的方式,輸出的每個(gè)channel 實(shí)際上就代表一個(gè)關(guān)鍵點(diǎn),采用多stage的方式,每個(gè)stage可以看作是在前stage 的基礎(chǔ)上做refine,在輸出關(guān)鍵點(diǎn)坐標(biāo)的方式上,不是采用直接回歸坐標(biāo)的方式,而是采用先預(yù)測(cè)出heatmap,然后再取argmax等操作獲得最終坐標(biāo)值,heatmap相對(duì)而言能保留更多context 信息,是一種中間態(tài)的信息,在此之后的人體姿態(tài)估計(jì)問(wèn)題,基本上都是采用heatmap 的方式來(lái)獲得關(guān)鍵點(diǎn)坐標(biāo)。Hourglass 網(wǎng)絡(luò)的突出特點(diǎn)是結(jié)構(gòu)簡(jiǎn)單明了,通過(guò)融合feature map 的前后特征來(lái)獲取具有更強(qiáng)表示能力的特征,這種U型結(jié)構(gòu)也廣泛用于其他任務(wù),如圖像分割、檢測(cè)等。整體的pipeline和CPM是相似的,這本質(zhì)上是back-bone層面的改進(jìn)提升。除了以CPM 為代表的思路之外,還有一些思路是基于GAN 的方式[26]進(jìn)行單人姿態(tài)估計(jì)任務(wù),在MPII上取得了很好的效果。
表1 人體姿態(tài)估計(jì)深度學(xué)習(xí)模型
3.2.2 多人姿態(tài)估計(jì)
隨著COCO數(shù)據(jù)集中多人姿態(tài)估計(jì)任務(wù)的提出,用于2D 多人姿態(tài)估計(jì)的方法逐漸增加,其中較有影響力的代表是Openpose[11],這是多人姿態(tài)估計(jì)中基于bottomup 的思路,而基于top-down 的思路,后續(xù)提出的有CPN[24]、MSPN[25]。
在多人姿態(tài)估計(jì)中bottom-up思路是先檢測(cè)出所有關(guān)鍵點(diǎn),然后對(duì)這些關(guān)鍵點(diǎn)進(jìn)行分組,確定關(guān)鍵點(diǎn)所屬的對(duì)象,openpose基于CPM組件,首先找出圖中的所有關(guān)鍵點(diǎn),然后使用PAF(Part Affinity Fields)方法將這些檢測(cè)出來(lái)的關(guān)鍵點(diǎn)分組確定所屬對(duì)象。除了利用PAF來(lái)確定關(guān)鍵點(diǎn)所屬對(duì)象之外,還有一種利用Associative Embedding 的思路[27],就是對(duì)每個(gè)輸出的關(guān)鍵點(diǎn)都輸出對(duì)應(yīng)的embedding,使同一個(gè)人的embedding 結(jié)果接近,不同人embedding結(jié)果差距變大。
多人姿態(tài)估計(jì)的第二種思路是top-down思路,即先進(jìn)行檢測(cè)任務(wù)將圖中的人都找出來(lái),然后進(jìn)行單個(gè)人的姿態(tài)估計(jì),此思路下的模型精度更好,由于人體目標(biāo)比關(guān)鍵點(diǎn)更大,檢測(cè)到人比檢測(cè)關(guān)鍵點(diǎn)更容易,這就意味著recall 會(huì)更高,其次不需要對(duì)類(lèi)似的關(guān)鍵點(diǎn)進(jìn)行所屬對(duì)象分組,而這個(gè)問(wèn)題在bottom-up 思路中會(huì)比較困難。CPN[24]設(shè)計(jì)兩個(gè)stage,第一步的GlobalNet 輸出一個(gè)coarse的結(jié)果,第二步進(jìn)行進(jìn)一步的refine,此外和之前研究的不同是采用了更主流的backbone,即ResNet50,更強(qiáng)的backbone對(duì)特征具有更好的表征能力。MSPN[25]同樣是基于top-down 的思路,是在CPN 的基礎(chǔ)上做的改進(jìn),相比于CPN的兩個(gè)stage設(shè)計(jì),這篇工作采用了多個(gè)stage 的設(shè)計(jì),相當(dāng)于有多步的refine,這樣取得的結(jié)果也會(huì)更好。
在深度學(xué)習(xí)方法中,數(shù)據(jù)集是尤為重要的,好的數(shù)據(jù)集不僅可以作為評(píng)估不同方法效果的標(biāo)準(zhǔn),還可以隨著數(shù)據(jù)集的擴(kuò)張變化來(lái)提升深度學(xué)習(xí)網(wǎng)絡(luò)的性能,下面將對(duì)主要數(shù)據(jù)集及評(píng)估標(biāo)準(zhǔn)進(jìn)行介紹。
3.3.1 2D人體姿態(tài)估計(jì)主要數(shù)據(jù)集
在深度學(xué)習(xí)興起之前就已經(jīng)存在許多2D人體姿態(tài)估計(jì)的數(shù)據(jù)集,這些數(shù)據(jù)集具有一些缺點(diǎn),如場(chǎng)景過(guò)少、單一視角、圖片數(shù)量過(guò)少等,這些缺陷導(dǎo)致其無(wú)法在深度學(xué)習(xí)任務(wù)中達(dá)到更好的效果,尤其是數(shù)據(jù)量過(guò)少,這就會(huì)導(dǎo)致深度學(xué)習(xí)網(wǎng)絡(luò)的魯棒性減弱,也會(huì)導(dǎo)致容易過(guò)擬合等問(wèn)題,所以本文主要介紹數(shù)據(jù)量級(jí)在千級(jí)及以上的數(shù)據(jù)集,這些數(shù)據(jù)集出現(xiàn)的時(shí)間節(jié)點(diǎn)為深度學(xué)習(xí)興起之后,具有更多樣化的場(chǎng)景及圖片數(shù)量,數(shù)據(jù)集的總結(jié)見(jiàn)表2。
Frames Labeled in Cinema(FLIC)Dataset[28],此數(shù)據(jù)集包含從好萊塢電影中收集到的5 003 張圖片,通過(guò)人體檢測(cè)器捕捉到了20 000多個(gè)人體候選圖片,這些候選圖片送到Amazon Mechanical Turk 進(jìn)行人體姿態(tài)的標(biāo)注(10個(gè)關(guān)鍵點(diǎn)),然后手動(dòng)刪除其中遮擋較為嚴(yán)重的數(shù)據(jù)最后得到總數(shù)5 000級(jí)別的數(shù)據(jù)集。
表2 人體姿態(tài)估計(jì)數(shù)據(jù)集
Leeds Sports Pose(LSP)Dataset[29],這是一個(gè)收集于Flickr 中的運(yùn)動(dòng)圖片數(shù)據(jù)集,包含8 種運(yùn)動(dòng)標(biāo)簽(棒球、體操、跑酷、足球、網(wǎng)球、排球、羽毛球、田徑),其包含2 000張圖片,關(guān)鍵點(diǎn)數(shù)目為14個(gè)。
Max Planck Institute for Informatics(MPII)Human Pose Dataset[30],這個(gè)數(shù)據(jù)集是目前最為主流的數(shù)據(jù)集,其標(biāo)注信息相當(dāng)豐富,數(shù)據(jù)集數(shù)量首次達(dá)到了萬(wàn)級(jí)別,數(shù)據(jù)集的原始來(lái)源是youtube 的視頻,從中挑出大約24 920幀的圖片數(shù)據(jù),標(biāo)注了16個(gè)關(guān)鍵點(diǎn),相較于之前的數(shù)據(jù)集增加了眼鼻關(guān)鍵點(diǎn)。
3.3.2 2D人體姿態(tài)估計(jì)的評(píng)估標(biāo)準(zhǔn)
數(shù)據(jù)集的不同也意味著其特點(diǎn)(人體體長(zhǎng)標(biāo)準(zhǔn)選用上半身或全身)和適用的任務(wù)范圍不同(單人多人),這就需要不同的評(píng)估標(biāo)準(zhǔn)來(lái)進(jìn)行算法模型效果的衡量。
Percentage of Correct Parts(PCP)[31],早期使用的標(biāo)準(zhǔn)之一,主要用于表明軀干的定位精準(zhǔn)程度,如果兩個(gè)端點(diǎn)定位偏差在ground-truth 的一定閾值范圍之內(nèi)(通常這個(gè)閾值設(shè)定為50%)則表明定位正確,這個(gè)軀干部位包括身體、大腿、小腿、前臂、頭部等,在每個(gè)部位的基礎(chǔ)上取其平均值即可得到mPCP值。
Percentage of Correct Keypoints(PCK)[32],與PCP不同,PCK的評(píng)判標(biāo)準(zhǔn)適用于判斷關(guān)鍵點(diǎn)(如手關(guān)節(jié)、踝關(guān)節(jié)、膝蓋等)的預(yù)測(cè)準(zhǔn)確度,定位正確的判斷標(biāo)準(zhǔn)為判斷定位的位置是否落在groud-truth 的一定閾值半徑范圍之內(nèi),這個(gè)閾值通常設(shè)定為軀干長(zhǎng)度的一定比例值或者頭部長(zhǎng)度的一定比例值,常用的標(biāo)準(zhǔn)為頭部50%的比例值,標(biāo)記為PCKh@0.5。
The Average Precision(AP),這個(gè)指標(biāo)主要用于多人姿態(tài)估計(jì)的準(zhǔn)確度評(píng)估,且適用于那些沒(méi)有標(biāo)注人體的bounding-box圖片,這些圖片通常只標(biāo)注了對(duì)應(yīng)的人體部位,其評(píng)判方式類(lèi)似于目標(biāo)檢測(cè)的評(píng)判方式,主要通過(guò)判斷關(guān)鍵點(diǎn)是否落在一定區(qū)域范圍內(nèi)來(lái)進(jìn)行評(píng)判,在這個(gè)范圍內(nèi)即被判斷為正樣本(true positive),所有預(yù)測(cè)出的關(guān)鍵點(diǎn)會(huì)依據(jù)PCKh的得分情況次序列出,沒(méi)有在ground-truth 范圍內(nèi)的檢出結(jié)果被判定為負(fù)樣本(false positive),mAP 表示的是所有關(guān)鍵點(diǎn)的AP 指標(biāo)平均值。COCO[14]中,這個(gè)評(píng)判方式被進(jìn)一步細(xì)化,提出了Object Keypoint Similarity(OKS)的計(jì)算方式,以O(shè)KS為評(píng)判正負(fù)樣本的標(biāo)準(zhǔn),此指標(biāo)與目標(biāo)檢測(cè)中Intersection over Union(IoU)的功能是一致的。
人體姿態(tài)估計(jì)作為動(dòng)作識(shí)別任務(wù)的前置任務(wù),直接影響了動(dòng)作識(shí)別任務(wù)的最終效果,由于目前的數(shù)據(jù)集數(shù)量約束,人體姿態(tài)估計(jì)可作為動(dòng)作識(shí)別的中間任務(wù),進(jìn)一步進(jìn)行下游任務(wù)時(shí)也可以處理得比較靈活,既可以使用手工特征對(duì)動(dòng)作進(jìn)行判斷識(shí)別,也可以進(jìn)一步使用更高級(jí)的算法對(duì)動(dòng)作進(jìn)行識(shí)別,在動(dòng)作識(shí)別實(shí)現(xiàn)落地的過(guò)程中,人體姿態(tài)估計(jì)是必不可少的一環(huán)。
動(dòng)作識(shí)別是視覺(jué)任務(wù)中理解范疇的任務(wù),即對(duì)視頻中的人的行為進(jìn)行識(shí)別,其應(yīng)用范圍廣泛,包括智能安防、虛擬現(xiàn)實(shí)、多媒體視頻內(nèi)容理解等,其中簡(jiǎn)單層面的動(dòng)作識(shí)別任務(wù)又叫做動(dòng)作分類(lèi),這類(lèi)任務(wù)是給定了一小段視頻片段,然后對(duì)其進(jìn)行分類(lèi),處理起來(lái)相對(duì)容易,還有一類(lèi)任務(wù)是檢測(cè)并分類(lèi),即給定一段視頻要先進(jìn)行人的定位和視頻時(shí)間區(qū)間上的分段,然后再對(duì)檢測(cè)出來(lái)的段進(jìn)行動(dòng)作分類(lèi),這類(lèi)任務(wù)相對(duì)較難。
在傳統(tǒng)方法中,其主要特點(diǎn)是動(dòng)作識(shí)別所使用的特征是手工設(shè)計(jì)的特征,如iDT[33-34],其使用的分類(lèi)器主要是SVM、決策樹(shù)或隨機(jī)森林,相對(duì)深度學(xué)習(xí)方法,傳統(tǒng)方法的可解釋性更強(qiáng),在理論分析上更有優(yōu)勢(shì)。
隨著計(jì)算機(jī)視覺(jué)[19,35]和自然語(yǔ)言處理[36-37]的深度學(xué)習(xí)方法的興起,基于深度學(xué)習(xí)方法的動(dòng)作識(shí)別模型也得到了進(jìn)一步的研究,且相較于傳統(tǒng)方式取得了更好的效果,其主要優(yōu)勢(shì)在于用深度學(xué)習(xí)模型抽取特征替代了傳統(tǒng)的手工設(shè)計(jì)特征,且可以實(shí)現(xiàn)端到端的訓(xùn)練方式,但在可解釋性上目前還存在一些問(wèn)題。動(dòng)作識(shí)別的最初直接思路是對(duì)視頻中的每一幀靜止圖像進(jìn)行動(dòng)作識(shí)別,這種做法丟失了時(shí)間維度的信息,在區(qū)分高度相似的動(dòng)作時(shí)會(huì)存在很大的問(wèn)題,如“開(kāi)門(mén)動(dòng)作”和“關(guān)門(mén)動(dòng)作”,所以如何建模時(shí)間維度的信息是動(dòng)作識(shí)別準(zhǔn)確度的關(guān)鍵要素。后續(xù)發(fā)展的方向可以根據(jù)是否進(jìn)行檢測(cè)人體關(guān)鍵點(diǎn)的上游任務(wù)來(lái)區(qū)分為不檢測(cè)關(guān)鍵點(diǎn)的videobased的方法和檢測(cè)關(guān)鍵點(diǎn)的skeleton-based的方法,表3是對(duì)動(dòng)作識(shí)別模型的總結(jié)。
4.2.1 Video-based
這類(lèi)思路是直接方式,即對(duì)視頻輸入進(jìn)行直接檢測(cè)分類(lèi),不需要skeleton關(guān)鍵點(diǎn)生成的中間步驟,相對(duì)關(guān)鍵點(diǎn)檢測(cè)能建模更多豐富的上下文信息,其中有兩類(lèi)主要采用的方法。
第一類(lèi)方法是三維卷積,為了解決前述時(shí)間維度信息建模的問(wèn)題,直接思路是引入三維卷積,在原來(lái)二維卷積的基礎(chǔ)上擴(kuò)展空間特征到時(shí)間維度上,直接提取包含時(shí)間維信息的特征表示,卷積核擴(kuò)展為3D卷積核,卷積的結(jié)果是通過(guò)堆疊的方式產(chǎn)生的,Ji等[45]首次將三維卷積的方法引入了人體動(dòng)作識(shí)別領(lǐng)域,7個(gè)連續(xù)的圖像幀被隨機(jī)地從視頻中截取出來(lái),通過(guò)一些手工設(shè)計(jì)的操作輸出有33 個(gè)通道的特征圖(如灰度特征圖和光流特征圖),這些特征圖作為卷積網(wǎng)絡(luò)的輸入,通過(guò)一組設(shè)計(jì)好的卷積網(wǎng)絡(luò)抽取更深層的特征表示,最末端接上全連接層進(jìn)行分類(lèi)任務(wù),文中的實(shí)驗(yàn)證明在有噪聲干擾、有遮擋的情況下也能取得很好的識(shí)別效果。
Tran 等[39]分析了三維卷積核的尺寸對(duì)模型性能的影響,文中用大量實(shí)驗(yàn)證明,對(duì)于多數(shù)情況下,使用3×3×3尺寸的卷積核能獲得最佳性能,文中設(shè)計(jì)了一個(gè)簡(jiǎn)單的三維卷積模型C3D,結(jié)構(gòu)簡(jiǎn)單且容易訓(xùn)練,該模型除了可應(yīng)用于動(dòng)作識(shí)別之外也可用于目標(biāo)檢測(cè)。
Sun 等[40]提出可將三維卷積進(jìn)行分解的思路,將三維卷積分解為二維卷積和一維卷積,在模型的低層使用二維卷積來(lái)抽取低層的特征,然后在高層使用一維卷積來(lái)進(jìn)行時(shí)間維度的特征融合,這樣的設(shè)計(jì)降低了模型的復(fù)雜度,其實(shí)驗(yàn)結(jié)果表明此設(shè)計(jì)有利于緩解過(guò)擬合問(wèn)題。
第二類(lèi)方法是Two-stream,這是目前研究最為主流的方法,視覺(jué)方面的研究表明,視覺(jué)信息的處理是由兩個(gè)不同信息處理函數(shù)的分支組成,分別是做動(dòng)作的指導(dǎo)調(diào)整分支和認(rèn)知識(shí)別分支,由這個(gè)思路啟發(fā),Simonyan等[41]將Two-stream的思路用于動(dòng)作識(shí)別領(lǐng)域,思路是做兩個(gè)分支,一個(gè)分支的輸入是隨機(jī)選取的一幀靜止圖像,將靜止圖像輸入RGB 分支提取空間域的特征,另一個(gè)分支是光流分支來(lái)提取時(shí)間域的特征,光流分支采取的輸入是該幀靜止圖像的前后10 幀圖像,這兩個(gè)分支是獨(dú)立的,提取空間特征的網(wǎng)絡(luò)結(jié)構(gòu)和做圖像識(shí)別任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)類(lèi)似,所以可以采用ImageNet上的預(yù)訓(xùn)練模型,然后結(jié)合起來(lái)做動(dòng)作識(shí)別任務(wù),其實(shí)驗(yàn)結(jié)果表明可在小數(shù)據(jù)集上也取得良好的效果。
表3 動(dòng)作識(shí)別模型
Feichtenhofer 等[46]基 于Two-stream 進(jìn) 一 步 進(jìn) 行 改良,將三維卷積融合的方式加入到卷積網(wǎng)絡(luò)的后段進(jìn)行時(shí)空域信息的融合操作,其文中的實(shí)驗(yàn)結(jié)果表明這種操作可明顯提升網(wǎng)絡(luò)性能且縮短訓(xùn)練時(shí)間。
之前的研究提出的方法是在一個(gè)預(yù)固定好的區(qū)間范圍內(nèi)做的動(dòng)作識(shí)別任務(wù),即對(duì)一段完整的視頻進(jìn)行采樣,選取其中需要判斷的部分進(jìn)行識(shí)別,而不是直接對(duì)完整視頻進(jìn)行處理識(shí)別,Wang 等[42]提出了Temporal Segment Network(TSN),這是首次實(shí)現(xiàn)對(duì)完整視頻的端到端處理,TSN基于Two-stream的思路,引入了VGG網(wǎng)絡(luò)結(jié)構(gòu),一段較長(zhǎng)的時(shí)間序列視頻經(jīng)過(guò)時(shí)間域稀疏采樣策略被分割成了不交疊的視頻片段,然后每一段視頻都獨(dú)立作為訓(xùn)練樣本輸入,最后通過(guò)融合函數(shù)將不同序列段的輸出特征進(jìn)行融合,最后輸出整個(gè)視頻的動(dòng)作描述。
4.2.2 Skeleton-based
人體的骨架信息實(shí)際上是對(duì)人體的拓?fù)浣Y(jié)構(gòu)進(jìn)行簡(jiǎn)化,其在描述人體動(dòng)作上是信息充分的,相較于直接對(duì)視頻片段進(jìn)行處理,既可以降低噪聲干擾,也可以減少多余的計(jì)算消耗,在面對(duì)圖像的各種變化時(shí)也具有更強(qiáng)的魯棒性,同時(shí)也有一些針對(duì)人體骨架識(shí)別的傳感器被開(kāi)發(fā)出來(lái),如微軟的Kinect[47],還有一些優(yōu)秀算法也可以輕松生成人體骨架數(shù)據(jù),基于骨架信息進(jìn)行的動(dòng)作識(shí)別可能會(huì)是之后動(dòng)作識(shí)別領(lǐng)域的主流方式。
基于骨架序列做動(dòng)作識(shí)別問(wèn)題實(shí)際上是時(shí)序問(wèn)題,傳統(tǒng)的方式是通過(guò)手工設(shè)計(jì)的特征來(lái)進(jìn)行動(dòng)作識(shí)別和判斷,這些特征包括不同關(guān)鍵點(diǎn)之間的位置偏移旋轉(zhuǎn)等,Wang 等[48]指出這種方式做動(dòng)作識(shí)別會(huì)導(dǎo)致模型的泛化性能很差,基本只能針對(duì)特定的任務(wù)才能表現(xiàn)出效果,深度學(xué)習(xí)方式具有很強(qiáng)的抽取特征能力,在模型泛化性上會(huì)比手工設(shè)計(jì)特征的方式要好得多。
由于動(dòng)作識(shí)別存在時(shí)域的信息,最早的思路是引入具有抽取時(shí)域特征能力的RNN 網(wǎng)絡(luò),Du 等[43]采用了RNN 結(jié)構(gòu)進(jìn)行序列特征的表示,文中將人體的骨架序列分為五個(gè)序列部分分別輸入五個(gè)RNN子網(wǎng)絡(luò)之中進(jìn)行序列特征的表示,采用了多層堆疊的方式處理前后輸入的特征,對(duì)最后輸出的特征向量進(jìn)行分類(lèi)判別動(dòng)作。
人體骨架是一個(gè)自然的拓?fù)浣Y(jié)構(gòu),而RNN 只能抽取其序列信息,在表征其特征時(shí)仍有不足,而圖結(jié)構(gòu)可以有效表征圖拓?fù)浣Y(jié)構(gòu)數(shù)據(jù)特征,所以基于GCN 的方法被越來(lái)越多地應(yīng)用于基于人體骨架的動(dòng)作識(shí)別任務(wù)之中,使用GCN 的核心問(wèn)題是如何將原始數(shù)據(jù)組織為特定的圖結(jié)構(gòu)。Yan 等[44]首次提出了基于GCN 的動(dòng)作識(shí)別模型ST-GCN(Spatial Temporal Graph Convolutional Networks),其將人的關(guān)鍵點(diǎn)作為時(shí)空?qǐng)D的頂點(diǎn),而時(shí)空?qǐng)D的邊是用人體連通性和時(shí)間來(lái)表示,最后使用標(biāo)準(zhǔn)的SoftMax分類(lèi)器對(duì)輸出的特征進(jìn)行分類(lèi)。
動(dòng)作識(shí)別的數(shù)據(jù)集有兩種類(lèi)型,一種是RGB 類(lèi)型的,另一種是適用于基于骨架的行為識(shí)別數(shù)據(jù)集,這種類(lèi)型的數(shù)據(jù)集通常還包含深度數(shù)據(jù),這兩類(lèi)數(shù)據(jù)集分別適用于不同的任務(wù),進(jìn)而又使得這些任務(wù)采用不同的方法,基于RGB的數(shù)據(jù)集主要用于Video-based的方法,而基于骨架行為識(shí)別類(lèi)型的數(shù)據(jù)集主要用于Skeletonbased的方法。
UCF-101[49],這個(gè)數(shù)據(jù)集包含13 320個(gè)視頻片段,包含了101 種戶(hù)外的動(dòng)作類(lèi)別,是RGB 類(lèi)型的數(shù)據(jù)集,其中視頻的幀率為25幀,視頻的分辨率為320×240,每段視頻剪輯的平均時(shí)長(zhǎng)為7.21 s,視頻的總時(shí)長(zhǎng)約為1 600 min,最短時(shí)長(zhǎng)為1.06 s,最長(zhǎng)時(shí)長(zhǎng)為71.04 s。
HMDB-51[50],這個(gè)數(shù)據(jù)集的數(shù)據(jù)來(lái)源是youtube 上的電影以及視頻,具有7 000左右數(shù)量的視頻片段,分成了51組動(dòng)作類(lèi)別,這個(gè)數(shù)據(jù)集被分成了3個(gè)訓(xùn)練集和3個(gè)測(cè)試集,集合之間是沒(méi)有重疊部分的,這個(gè)數(shù)據(jù)集也是RGB類(lèi)型的數(shù)據(jù)集。
NTU-RGB+D[51],與其他數(shù)據(jù)集最大的不同是增加了深度數(shù)據(jù),目前已有基于深度數(shù)據(jù)的算法[52],這個(gè)數(shù)據(jù)集的主要采集設(shè)備是Kinect v2,包含了56 880 個(gè)視頻片段,是目前最大的基于骨架行為識(shí)別類(lèi)型的數(shù)據(jù)集,其包含了25個(gè)關(guān)鍵點(diǎn)的3D空間坐標(biāo)位置。為適應(yīng)不同任務(wù)目標(biāo)的需求,其有兩個(gè)部分,分別適用于不同的評(píng)判標(biāo)準(zhǔn),一個(gè)是Cross-Subject類(lèi)型,總共包含40 320個(gè)視頻片段用于訓(xùn)練集,另外的16 560個(gè)用于驗(yàn)證集,根據(jù)不同的subject劃分為40個(gè)組,另外一類(lèi)是Cross-View類(lèi)型,包含37 920 個(gè)視頻片段用于訓(xùn)練集,18 960 段用于驗(yàn)證集,劃分的標(biāo)準(zhǔn)是根據(jù)相機(jī)視角不同劃分,相機(jī)2和3作為訓(xùn)練集,相機(jī)1作為驗(yàn)證集。
NTU-RGB+D 120[53],這個(gè)數(shù)據(jù)集屬于骨架動(dòng)作識(shí)別類(lèi)型,是近期出現(xiàn)的數(shù)據(jù)集,其包含120個(gè)動(dòng)作類(lèi)別,包含114 480 個(gè)骨架序列數(shù)據(jù),在NTU-RGB+D 中表現(xiàn)良好的模型,在這個(gè)數(shù)據(jù)集中仍表現(xiàn)較差,是目前較為有挑戰(zhàn)性的數(shù)據(jù)集。
常規(guī)人體動(dòng)作識(shí)別本質(zhì)上是屬于視頻分類(lèi)任務(wù),根據(jù)視頻數(shù)據(jù)判斷動(dòng)作類(lèi)別,而智能診斷系統(tǒng)需要對(duì)動(dòng)作做更加細(xì)粒度的判斷分析,如動(dòng)作的細(xì)節(jié)姿態(tài)、動(dòng)作的頻度等方面,相比于常規(guī)動(dòng)作識(shí)別,智能診斷系統(tǒng)對(duì)動(dòng)作精度的要求更高,除此之外目前主流動(dòng)作識(shí)別算法還存在一些難點(diǎn):
(1)目前的動(dòng)作識(shí)別算法對(duì)場(chǎng)景和物體的依賴(lài)性較大,由于視頻信息提取后建模的主要部分包括外觀信息,其中場(chǎng)景以及物體信息和動(dòng)作信息耦合在一起,動(dòng)作識(shí)別的結(jié)果不得不依賴(lài)于外觀信息的建模,這對(duì)模型的泛化性能是一個(gè)挑戰(zhàn)。
(2)主流動(dòng)作識(shí)別算法中提取的光流特征是用來(lái)建模時(shí)域信息的,由于光流是計(jì)算視頻幀間差異,其表征長(zhǎng)時(shí)動(dòng)作能力有限,在建模時(shí)域信息上仍存在不足,智能診斷系統(tǒng)的輸入是長(zhǎng)視頻段,具有豐富的時(shí)域信息,如何對(duì)時(shí)域信息的建模是核心問(wèn)題之一。
(3)目前的動(dòng)作識(shí)別數(shù)據(jù)集對(duì)于動(dòng)作細(xì)粒度并沒(méi)有定義,如人體的變化姿態(tài)角度等更細(xì)節(jié)的問(wèn)題,而這對(duì)于智能診斷系統(tǒng)的診斷效果很關(guān)鍵,因?yàn)樵\斷判斷的依據(jù)有時(shí)就是動(dòng)作的細(xì)微差別,這要求診斷系統(tǒng)對(duì)于動(dòng)作的細(xì)粒度如何定義需要更加明確,這也對(duì)數(shù)據(jù)集提出了更高的要求。
動(dòng)作識(shí)別相對(duì)人體姿態(tài)估計(jì)是更高語(yǔ)義層次的任務(wù),依據(jù)目前的主流數(shù)據(jù)集和方法可以分為Video-based類(lèi)型和Skeleton-based類(lèi)型,相較于Video-based的方法,Skeleton-based 的方法使用的數(shù)據(jù)是骨架序列數(shù)據(jù),其魯棒性要更強(qiáng)而計(jì)算消耗會(huì)更少,其數(shù)據(jù)的獲取方式可來(lái)源于Kinect 的采集數(shù)據(jù)也可來(lái)源于優(yōu)秀的人體姿態(tài)估計(jì)算法,對(duì)于基于骨架模型的方式如何更好建模動(dòng)作信息是核心問(wèn)題之一,尤其針對(duì)骨架動(dòng)作識(shí)別類(lèi)型的數(shù)據(jù)集而言,目前比較有效建模的方法是基于GCN 的方法,因?yàn)閳D結(jié)構(gòu)是更好表征自然拓?fù)浣Y(jié)構(gòu)的方式。
依據(jù)動(dòng)作識(shí)別的Video-based和Skeleton-based方法可將兒童運(yùn)動(dòng)障礙AI診斷系統(tǒng)的分為兩種方式:
Video-based診斷,這類(lèi)方式的優(yōu)勢(shì)是可實(shí)現(xiàn)端到端的訓(xùn)練,網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,但是缺點(diǎn)是對(duì)數(shù)據(jù)集要求更高,且由于是直接處理的視頻數(shù)據(jù),對(duì)于算力的要求也更高,適用于有良好數(shù)據(jù)集標(biāo)注的情況。
Skeleton-based 診斷,這類(lèi)方式的優(yōu)勢(shì)是對(duì)算力需求較低,因?yàn)閯?dòng)作識(shí)別步驟需要處理的是skeleton數(shù)據(jù),數(shù)據(jù)量比視頻更少,也減少了更多的干擾成分,但其目前的性能相對(duì)較差,且性能依賴(lài)于人體姿態(tài)估計(jì)算法的skeleton 生成結(jié)果,但其可作為一個(gè)模態(tài)的特征作為其他模型的補(bǔ)充,適用于多模態(tài)學(xué)習(xí)的情況。
人體姿態(tài)估計(jì)和動(dòng)作識(shí)別是做兒童運(yùn)動(dòng)協(xié)調(diào)障礙兩個(gè)核心子任務(wù),由優(yōu)秀的人體姿態(tài)估計(jì)算法來(lái)生成準(zhǔn)確的人體骨架模型,然后結(jié)合動(dòng)作識(shí)別中基于骨架動(dòng)作識(shí)別的算法進(jìn)行動(dòng)作判斷和打分,最終得到醫(yī)療層面的診斷結(jié)果,這是目前而言最能實(shí)現(xiàn)落地的技術(shù)路線(xiàn)方向,而不采用人體骨架模型中間層的技術(shù)路線(xiàn)實(shí)現(xiàn)起來(lái)的難度以目前的研究進(jìn)展來(lái)看是相當(dāng)大的,但其優(yōu)勢(shì)是可實(shí)現(xiàn)端到端的訓(xùn)練,對(duì)人體的特征建模能包含更豐富的信息。
兒童運(yùn)動(dòng)協(xié)調(diào)障礙AI 診斷系統(tǒng)想要實(shí)現(xiàn)落地目標(biāo),其未來(lái)重點(diǎn)研究方向包含兩個(gè)層面,第一是提升識(shí)別準(zhǔn)確度方向,目前通用的數(shù)據(jù)集還沒(méi)有針對(duì)兒童的數(shù)據(jù)集,在做遷移學(xué)習(xí)過(guò)程中可能會(huì)產(chǎn)生準(zhǔn)確度下降的問(wèn)題,第二是降低計(jì)算成本方向,目前移動(dòng)端設(shè)備的算力水準(zhǔn)不夠滿(mǎn)足要求,直接在移動(dòng)端給出診斷結(jié)果不僅診斷準(zhǔn)確性會(huì)有所下降,計(jì)算速度也不達(dá)標(biāo),目前的常規(guī)解決思路是通過(guò)移動(dòng)端進(jìn)行數(shù)據(jù)采集,在服務(wù)端進(jìn)行運(yùn)算,這樣可以緩解移動(dòng)端算力不足問(wèn)題,該問(wèn)題的另一個(gè)解決思路是做輕量化的模型,可將整體算力上的要求降低。
對(duì)于兒童運(yùn)動(dòng)障礙診斷系統(tǒng)目前數(shù)據(jù)集缺失問(wèn)題,可行的解決手段主要有兩種方式,第一類(lèi)是通過(guò)與醫(yī)院加強(qiáng)合作,這樣可以直接獲得所需的數(shù)據(jù)集,但這樣得到的數(shù)據(jù)集數(shù)量可能存在限制,第二類(lèi)是在已有的小數(shù)據(jù)集基礎(chǔ)上,通過(guò)數(shù)據(jù)增強(qiáng)等技術(shù)手段擴(kuò)展目前數(shù)據(jù),可通過(guò)在主流數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,在小數(shù)據(jù)集上進(jìn)行fine-tune的方式解決數(shù)據(jù)集不足問(wèn)題。
AI 診斷系統(tǒng)的開(kāi)發(fā)仍面臨著諸多難點(diǎn),自動(dòng)化診斷是其主流發(fā)展方向之一,通過(guò)建立數(shù)據(jù)采樣、數(shù)據(jù)分析、數(shù)據(jù)產(chǎn)出等自動(dòng)化流程,可進(jìn)一步實(shí)現(xiàn)技術(shù)落地和推廣,該技術(shù)的進(jìn)一步發(fā)展有助于提升醫(yī)療普惠程度和醫(yī)療效率,對(duì)緩解醫(yī)療資源不足有著重要意義。