歐陽惠卿 舒文華 李楊 祝瑞男 張瑞
摘要:為了降低因?yàn)槌丝臀kU(xiǎn)行為導(dǎo)致的自動(dòng)扶梯安全事故/傷人事件,基于三維視覺和人工智能技術(shù),提出了一種自動(dòng)扶梯乘客危險(xiǎn)行為識(shí)別和預(yù)警技術(shù),并詳細(xì)介紹了該系統(tǒng)主要硬件和現(xiàn)場(chǎng)布置方案。為了對(duì)該系統(tǒng)進(jìn)行科學(xué)評(píng)價(jià),還提出了準(zhǔn)確率、查全率、誤報(bào)率、響應(yīng)時(shí)間等綜合性能評(píng)價(jià)指標(biāo),并分別在實(shí)際現(xiàn)場(chǎng)和實(shí)驗(yàn)室模擬條件下對(duì)該系統(tǒng)進(jìn)行了大量的測(cè)試,測(cè)試結(jié)果表明,所構(gòu)建的系統(tǒng)在不同光照、不同客流強(qiáng)度環(huán)境下,均能有效識(shí)別自動(dòng)扶梯乘客攜帶嬰兒車、摔倒、逆行、出入口逗留、出入口擁堵、探頭等多種危險(xiǎn)行為。
關(guān)鍵詞:自動(dòng)扶梯;乘客行為;三維視覺
中圖分類號(hào):TU857文獻(xiàn)標(biāo)志碼:A文章編號(hào):1009-9492(2021)11-0059-04
Application of 3D Machine Vision in Escalator Passenger Dangerous Behavior Recognition and Early Warning
Ouyang Huiqing1,Shu Wenhua1,Li Yang2,Zhu Ruinan 3, Zhang Rui4
(1. Shanghai Institute of Special Equipment Inspection and Technical Research, Shanghai 200062, China;2. School of Electronic Science andEngineering, Nanjing University, Nanjing 210023, China;3. Beijing Metro Operation Co., Ltd., Electromechanical Branch, Beijing 100044,
China;4. Beijing Metro Technology Development Co., Ltd., Beijing 100044, China)
Abstract: In order to reduce the escalator safety accidents/injuries caused by passengers′dangerous behaviors, based on three-dimensional vision and artificial intelligence technology, a kind of escalator passengers′dangerous behavior recognition and early warning technology was proposed, and the main hardware and layout scheme of the system was introduced in detail. In order to evaluate the system scientifically, also the comprehensive performance evaluation indexes were put forward, such as precision, recall, false alarm rate, average response time, etc., and a lot of tests under the actual field and laboratory simulation conditions were carried out respectively. The test results show that the system constructed has good performance under different lighting and different passenger flow intensity environments. It can effectively identify a variety of dangerous behaviors of escalator passengers, such as carrying baby carriage, falling, retrograde, staying at the entrance or exit, congestion, head out of handrail and so on.
Key words: escalators; passenger behavior;3D vision
0 引言
截止2020年底,我國(guó)在用電梯數(shù)量已達(dá)786.55萬臺(tái)[1],穩(wěn)居世界第一,其中自動(dòng)扶梯和自動(dòng)人行道約85萬臺(tái),且主要應(yīng)用于軌道交通樞紐、商場(chǎng)等人流量大的場(chǎng)所。以北京軌道交通為例,軌道交通總里程達(dá)到727 km,自動(dòng)扶梯數(shù)量近4000部,自動(dòng)扶梯已經(jīng)成為公共安全的重要組成部分,每天客流量超過1000萬人次。近年來,自動(dòng)扶梯安全事故/傷人事件偶有發(fā)生,往往造成嚴(yán)重的人身傷害和惡劣的社會(huì)影響。除了設(shè)備的不安全狀態(tài),人的不安全行為也是導(dǎo)致事故的重要原因,比如乘客在自動(dòng)扶梯上逆行、出入口滯留等,特別是在近幾年,兒童在自動(dòng)扶梯上玩耍造成的事故呈現(xiàn)高發(fā)趨勢(shì)。
為了提高自動(dòng)扶梯的安全水平,電梯行業(yè)一直致力于通過增加各種安全保護(hù)裝置來提高設(shè)備的本質(zhì)安全水平。但是,針對(duì)自動(dòng)扶梯乘客危險(xiǎn)行為導(dǎo)致的故事,傳統(tǒng)技術(shù)手段有很大的局限性。近年來,隨著機(jī)器視覺和人工智能等新一代信息技術(shù)的發(fā)展,機(jī)器視覺已經(jīng)具備了對(duì)乘客的行為、姿態(tài)進(jìn)行智能識(shí)別的可能性,特別是三維機(jī)器視覺,優(yōu)勢(shì)特別明顯,為自動(dòng)扶梯的乘客危險(xiǎn)行為識(shí)別和預(yù)警帶來新的解決思路,從而提高自動(dòng)扶梯的事故預(yù)防和應(yīng)急能力,降低事故率[2]。
雙目立體視覺(Binocular Stereo Vision)是計(jì)算視覺中一種重要的三維感知手段,它是基于視差原理并利用成像設(shè)備從不同的位置獲取被測(cè)物體的兩幅圖像,通過計(jì)算圖像對(duì)應(yīng)點(diǎn)間的位置偏差,來獲取物體三維幾何信息的方法。雙目立體視覺測(cè)量方法具有效率高、精度合適、系統(tǒng)結(jié)構(gòu)簡(jiǎn)單、成本低等優(yōu)點(diǎn),對(duì)運(yùn)動(dòng)物體(包括動(dòng)物和人體形體)測(cè)量中,由于圖像獲取是在瞬間完成的,因此立體視覺方法是一種更有效的測(cè)量方法。
本文將基于三維視覺和人工智能技術(shù),開發(fā)自動(dòng)扶梯乘客危險(xiǎn)行為識(shí)別與預(yù)警技術(shù)研究及應(yīng)用,該技術(shù)采用三維視覺和人工智能技術(shù)對(duì)電梯乘客行為進(jìn)行識(shí)別和預(yù)警,一旦識(shí)別到乘客危險(xiǎn)行為或狀態(tài),根據(jù)預(yù)先設(shè)定的方案,通過聲光報(bào)警或及時(shí)停止扶梯運(yùn)行,防止事故的發(fā)生或擴(kuò)大。
1 三維視覺行為分析的研究背景
人體姿態(tài)估計(jì)通過檢測(cè)圖像中人體的關(guān)鍵點(diǎn)(如頭部、肩部、髖部、四肢等)得到人的姿態(tài),根據(jù)其輸出信息維度,可以分為二維(2D)和三維(3D)的人體姿態(tài)估計(jì),而根據(jù)輸入圖片的目標(biāo)人體數(shù)量,又可以分為單人和多人的姿態(tài)估計(jì)。對(duì)于2D 的人體姿態(tài)估計(jì)有較長(zhǎng)的研究歷史,目前基于深度學(xué)習(xí)人體姿態(tài)估計(jì)在精度方面取得了很大的突破,CPM[3]基于熱圖、Hourglass[4]基于堆疊 U 型神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)層都得到了很好的效果。
檢測(cè)人體關(guān)鍵點(diǎn)的3D 的姿態(tài)估計(jì)主要有兩類。一類是先采用2D 姿態(tài)估計(jì)方法獲取2D 關(guān)鍵點(diǎn),再映射到3D 。如 Deva Ramenan等[5]提出“3D人體姿態(tài)估計(jì)=2D姿態(tài)估計(jì)+匹配”的策略,采用 CPM的方法估計(jì)出圖像中人體的2D關(guān)節(jié)點(diǎn),選擇最相近的2D關(guān)節(jié)點(diǎn)骨架對(duì)應(yīng)的3D關(guān)節(jié)點(diǎn)骨架作為測(cè)試數(shù)據(jù)的3D關(guān)節(jié)點(diǎn)。Martinez 等[6]首先基于 Hourglass做一個(gè)2D關(guān)節(jié)點(diǎn)的姿態(tài)估計(jì),然后根據(jù)獲得的2D關(guān)節(jié)點(diǎn),在神經(jīng)網(wǎng)絡(luò)后面接入兩個(gè)全連接層,直接回歸3D坐標(biāo)點(diǎn),將2D到3D關(guān)節(jié)點(diǎn)的估計(jì)問題轉(zhuǎn)化為2D 到3D 坐標(biāo)的求映射關(guān)系問題。 Li C 等[7]于2019年提出混合密度模型,提出了多峰混合密度網(wǎng)絡(luò)預(yù)測(cè)多個(gè)可能的3D關(guān)節(jié)點(diǎn)骨架,選取其中權(quán)重最高的作為最終估計(jì)的3D關(guān)節(jié)點(diǎn)骨架。另一類3D姿態(tài)估計(jì)則將3D 的估計(jì)認(rèn)為是一個(gè)整體。如 Sun X等[8]將2D 以及3D 的關(guān)節(jié)點(diǎn)骨架估計(jì)問題結(jié)合來做優(yōu)化,訓(xùn)練模型前背景點(diǎn)分割能力,然后只需要關(guān)注前景的3D骨架估計(jì)。L Zhao等[9]根據(jù)2D人體關(guān)節(jié)點(diǎn)的圖連接結(jié)構(gòu)提出使用圖卷積的方法生成3D 的姿態(tài)坐標(biāo)。
一些研究者嘗試通過將人體模型如 SMPL[10]作為先驗(yàn)信息,獲得更準(zhǔn)確稠密的3D人體姿態(tài)。Bogo F等[11]提出了SMPLify方法,采用DeepCut檢測(cè)出2D 骨骼關(guān)鍵點(diǎn),優(yōu)化使得 SMPL模型投影到圖像后關(guān)節(jié)點(diǎn)與 CNN檢測(cè)出的關(guān)節(jié)點(diǎn)之間的距離最小,從而最終獲得一組 SMPL模型的參數(shù)。Kanazawa A 等[12]提出 HMR 方法,實(shí)現(xiàn)了由圖像直接得到 SMPL模型參數(shù)的端到端的估計(jì)方法,輸入圖像經(jīng)過編碼器提取圖像特征,然后通過回歸器獲得 SMPL模型參數(shù)。
在實(shí)際場(chǎng)景中,往往面臨多人的姿態(tài)估計(jì),往往存在多個(gè)人關(guān)鍵點(diǎn)靠的很近或互相重疊。OpenPose[13]采取自底向上的策略,基于 CPM首先找到所有關(guān)鍵點(diǎn),并基于 Part Affinity Field ( PAF)進(jìn)行人體的拼接,將相鄰且可靠的關(guān)鍵點(diǎn)組裝成一個(gè)完整的人,從而實(shí)現(xiàn)對(duì)多人場(chǎng)景下的人體姿態(tài)檢測(cè)。AlphaPose[14]則采取自頂向下的方式,先進(jìn)行目標(biāo)檢測(cè),并對(duì)每個(gè)檢測(cè)到的人進(jìn)行單人的姿態(tài)估計(jì)。
2基于三維機(jī)器視覺的扶梯乘客危險(xiǎn)行為識(shí)別與預(yù)警系統(tǒng)
本文所述方法采用的雙目視覺傳感器(Visual Sens- ing Module ,VSM)本質(zhì)上是一個(gè)雙目深度傳感器,通過兩個(gè)存在視差的幀同步圖像信號(hào)計(jì)算場(chǎng)景的深度信息,運(yùn)用雙目立體匹配算法獲取視差圖并輸出深度圖,實(shí)時(shí)測(cè)量三維環(huán)境中的目標(biāo),具體參數(shù)如表1所述,外觀如圖1所示。
本文介紹的系統(tǒng)如圖2所示,其核心硬件部分包括一個(gè)雙目深度傳感器(Visual Sensing Module, VSM)、行為分析模組(Visual Processing Module, VPM)、聲光報(bào)警,該系統(tǒng)可以進(jìn)一步拓展,將相關(guān)系統(tǒng)傳輸至控制服務(wù)器,融入扶梯物聯(lián)網(wǎng)系統(tǒng)。VSM 用于捕捉環(huán)境內(nèi)的 RGB-D 數(shù)據(jù)信息(彩色圖像與深度信息),傳輸?shù)?VPM 上進(jìn)行處理。VPM 接收數(shù)據(jù)后進(jìn)行計(jì)算和處理,實(shí)時(shí)檢測(cè)是否有異常行為,并對(duì)異常行為進(jìn)行聲光報(bào)警或傳輸?shù)骄W(wǎng)絡(luò)平臺(tái)(中控室),也可以接入自動(dòng)扶梯控制系統(tǒng),在緊急情況下制停自動(dòng)扶梯。該系統(tǒng)既能實(shí)現(xiàn)邊緣計(jì)算,也可以將數(shù)據(jù)通過網(wǎng)絡(luò)傳送至遠(yuǎn)程服務(wù)器,實(shí)現(xiàn)云端處理。
雙目深度傳感器的布置和覆蓋范圍如圖2所示。 VSM安裝在自動(dòng)扶梯入口梳齒板上方約3 m處,單個(gè)傳感器能夠有效監(jiān)測(cè)距離梳齒板前后共3~5 m的范圍,該范圍也是乘客最容易發(fā)生傷害的地方。該方案的最大優(yōu)點(diǎn)是避免了人員相互遮擋,能適應(yīng)大流量的人群。
3 測(cè)試結(jié)果分析
3.1 評(píng)價(jià)指標(biāo)
本文采用準(zhǔn)確率( Precision )、查全率(Recall)、誤報(bào)率(False Alarm Rate)、平均響應(yīng)時(shí)間(Average Re- sponding Time)等對(duì)系統(tǒng)的識(shí)別水平進(jìn)行評(píng)價(jià)。系統(tǒng)識(shí)別到相關(guān)事件,并發(fā)出報(bào)警,視為檢出。事件定義如表2所示。
(1) 準(zhǔn)確率: P =
(2) 誤報(bào)率: F =
(3) 查全率: R =
(4) 平均響應(yīng)時(shí)間為事件發(fā)生時(shí)間至系統(tǒng)檢測(cè)出來并做出響應(yīng)的時(shí)間。
3.2 實(shí)際應(yīng)用現(xiàn)場(chǎng)測(cè)試
本文介紹的系統(tǒng)在北京地鐵某車站上行扶梯進(jìn)行了長(zhǎng)期測(cè)試。項(xiàng)目組在實(shí)際場(chǎng)景通過實(shí)際客流可模擬測(cè)試兩種形式對(duì)系統(tǒng)進(jìn)行了測(cè)試,測(cè)試結(jié)果如表3~4所示。表3所示為實(shí)際客流測(cè)試條件下的測(cè)試結(jié)果。測(cè)試選取了連續(xù)3036 h的測(cè)試數(shù)據(jù),系統(tǒng)檢測(cè)到443822人次乘客通行。為了分析客流統(tǒng)計(jì)精度,人工選取了10000人次客流進(jìn)行人工復(fù)查核驗(yàn),得到表4中的結(jié)果。
此外,為了進(jìn)一步驗(yàn)證不安全行為的性能,項(xiàng)目組還對(duì)系統(tǒng)進(jìn)行了模擬客流測(cè)試,模擬測(cè)試還在不同的光照、客流強(qiáng)度等情況下進(jìn)行測(cè)試,由測(cè)試人員對(duì)主要功能進(jìn)行了測(cè)試,結(jié)果如表4所示。
從測(cè)試結(jié)果來看,本項(xiàng)目的研究成果具有很高的準(zhǔn)確性,而且具有很好的環(huán)境適用能力。
4 結(jié)束語
本文介紹了一種基于三維視覺與人工智能相結(jié)合的、自動(dòng)扶梯和自動(dòng)人行道乘客危險(xiǎn)行為識(shí)別與預(yù)警技術(shù)。該方法通過三維視覺對(duì)人體進(jìn)行精確的測(cè)量,基于人體的深度信息和彩色信息,結(jié)合人體姿態(tài)的語義分析和深度學(xué)習(xí),能對(duì)人的行為做出精確的識(shí)別和判斷?,F(xiàn)場(chǎng)和實(shí)驗(yàn)室測(cè)試結(jié)果表明,本文介紹的方法具有很高的識(shí)別準(zhǔn)確度和很好的環(huán)境適應(yīng)能力,將為提高自動(dòng)扶梯和自動(dòng)人行道的事故預(yù)防能力和應(yīng)急能力、降低電梯事故/傷人事件概率提供新的有效解決方案。
對(duì)于新技術(shù)的應(yīng)用,還需要思考以下問題:一方面,新技術(shù)的應(yīng)用如何融合自動(dòng)扶梯的整體安全。自動(dòng)扶梯屬于特種設(shè)備,其安全性是產(chǎn)品生產(chǎn)和使用中最重要的關(guān)注點(diǎn)?;跈C(jī)器視覺和人工智能技術(shù),為乘客危險(xiǎn)行為識(shí)別和實(shí)現(xiàn)自動(dòng)扶梯自主管理提供了新的思路和解決方案,但是也應(yīng)思考新技術(shù)的應(yīng)用帶來新的風(fēng)險(xiǎn),包括新技術(shù)的可靠性、信息的安全、科技倫理等。另一方面,自動(dòng)扶梯本身的設(shè)計(jì)(包括標(biāo)準(zhǔn))如何適應(yīng)新的技術(shù)發(fā)展?;跈C(jī)器視覺和人工智能技術(shù),為乘客危險(xiǎn)行為識(shí)別和實(shí)現(xiàn)自動(dòng)扶梯自主管理提供了新的解決方案,但是緊急情況下的停梯會(huì)產(chǎn)生新的風(fēng)險(xiǎn),可以引入“緩?fù)!钡牟呗裕瓤梢栽诰o急情況下及時(shí)制停扶梯,又可以避免過大的減速度,造成其他乘客摔倒。
參考文獻(xiàn):
[1]市場(chǎng)監(jiān)管總局.關(guān)于2020年全國(guó)特種設(shè)備安全狀況的通告[Z].2020.
[2]何成, 史熙,歐陽惠卿.基于 AI 圖像識(shí)別與功能安全的自動(dòng)扶梯智能監(jiān)控系統(tǒng)及相關(guān)安全標(biāo)準(zhǔn)要求[J].中國(guó)電梯,2019,30(15):6-8.
[3] Wei S E , Ramakrishna V , Kanade T , et al. Convolutional Pose Machines[C]//CVPR. IEEE, 2016.
[4] Newell A , Yang K , Deng J . Stacked Hourglass Networks for Hu- man Pose Estimation[C]//European Conference on Computer Vi- sion. Springer International Publishing, 2016.
[5] Chen C H , Ramanan D .3D Human Pose Estimation =2D Pose Estimation + Matching[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017.
[6] Martinez J ,Hossain R ,Romero J , et al. A Simple Yet Effective Baseline for 3d Human Pose Estimation[C]//2017 IEEE In- ternational Conference on Computer Vision (ICCV). IEEE, 2017.
[7] Li C ,Lee G H . Generating Multiple Hypotheses for 3D Human PoseEstimationwithMixtureDensityNetwork[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
[8] Sun X , Shang J , Liang S , et al. Compositional Human Pose Re- gression[C]//Computer Vision and Image Understanding, 2017.
[9] L Zhao, X Peng, Y Tian, et al. Metaxas, Semantic graph convolu- tional networks for 3D human pose regression[J]. Proc. IEEEComput. Soc. Conf. Comput. Vis. Pattern Recognit.,2019(6):3420–3430.
[10] Loper, Matthew, Mahmood, et al. SMPL: a skinned multi-per- son linear model[J]. Acm Transactions on Graphics, 2015.
[11] FBogo,Kanazawa A ,Lassner C , et al. Keep It SMPL: Auto- matic Estimation of 3D Human Pose and Shape from a Single Image[J]. European Conference on Computer Vision, 2016.
[12] Kanazawa A , Black M J , Jacobs D W , et al. End-to-End Re- covery of Human Shape and Pose[C]//2018 IEEE/CVF Confer- enceonComputerVisionandPatternRecognition (CVPR). IEEE, 2018.
[13] Z Cao, T Simon, S Wei, et al. Realtime Multi-person 2D Pose Estimation Using Part Affinity Fields[C]//2017 IEEE Confer- ence on Computer Vision and Pattern Recognition (CVPR), Ho- nolulu, HI, 2017.
[14] Fang H S ,Xie S , Tai Y W , et al. RMPE: Regional Multi-per- son PoseEstimation[C]//2017 IEEEInternationalConference on Computer Vision (ICCV), 2017.
第一作者簡(jiǎn)介:歐陽惠卿(1979-),男,湖南衡南縣人,正高級(jí)工程師,研究領(lǐng)域?yàn)殡娞菁夹g(shù)研發(fā)及其標(biāo)準(zhǔn)化。
(編輯:刁少華)