王懷豹 楊觀賜 李楊 林家丞
摘 要:為獲得機器人聽覺行為隱私感知方法,解決語音監(jiān)聽設(shè)備存在的隱私泄露風險,本文提出了基于卷積神經(jīng)網(wǎng)絡的服務機器人聽覺隱私信息分類算法(APICA)。首先,設(shè)計了基于卷積神經(jīng)網(wǎng)絡的服務機器人聽覺隱私信息分類算法及其卷積神經(jīng)網(wǎng)絡模型;其次,給出了機器人的聽覺隱私信息監(jiān)聽系統(tǒng)工作流程;最后,為評估該聽覺隱私信息分類算法性能,構(gòu)建了訓練和測試數(shù)據(jù)集,并在服務機器人平臺上部署和實現(xiàn)了該算法。測試結(jié)果表明:系統(tǒng)識別隱私信息的平均精確率P、召回率R和F1值分別為96.35%、93.20%和94.53%,具有良好的識別和分類效果。
關(guān)鍵詞:隱私感知方法;服務機器人;分類算法;聽覺隱私信息
中圖分類號:TP181
文獻標識碼: A
隨著人口老齡化趨勢加快,越來越多的獨居老人需要被照顧,人們對助老機器人的需求也越來越明顯[1]。
為輔助老年人日常生活,薛同來等[2]研究了基于激光SLAM的助老機器人,其擁有自主構(gòu)建室內(nèi)地圖以及自主導航的功能,可以定位目標物體和自主移動,并使用機械臂對物體進行抓取。為解決老年人心理健康問題,劉策等[3]構(gòu)建了具有語音識別、手勢識別、人臉識別和遠程控制功能的多模式友好交互系統(tǒng),實現(xiàn)了注冊與驗證、移動控制、新聞點播、日程提醒及語音對話5種功能。與此同時,為給老年人提供科學合理的飲食建議,蘇志東等[4-5]提出了基于服務機器人聽覺的個體膳食構(gòu)成自主感知算法,實現(xiàn)了對用戶膳食構(gòu)成的智能感知,為用戶醫(yī)療診斷、飲食干預和機器人的主動服務等提供決策依據(jù)。為了應對老年人記憶力衰退的情況,Ahn Ho等[6]提出了一種基于家庭服務機器人的大腦訓練方法,將記憶訓練部署到機器人上,以增強機器人功能性。為增強老年人的體質(zhì),降低老年人摔倒的風險,F(xiàn)oukarakis等[7]提出了一種利用機器人視覺系統(tǒng)來識別和跟蹤用戶行為的方法,可以提供相關(guān)的練習和反饋來激勵用戶進行體育鍛煉和康復訓練。為滿足老年人的遠程護理需求,Zhou等[8]提出了一種基于服務機器人的遠程醫(yī)療系統(tǒng)。該系統(tǒng)在家庭成員和醫(yī)生之間建立連接,利用自動健康數(shù)據(jù)采集技術(shù)和目標檢測算法,實現(xiàn)遠程護理。然而,智能家居系統(tǒng)和服務機器人廣泛使用語音監(jiān)聽設(shè)備,這存在用戶隱私泄露的風險。
有研究表明,用戶會因擔憂語音監(jiān)聽設(shè)備泄露隱私而影響心理狀態(tài)甚至引起心理障礙[9]。如何構(gòu)建對隱私內(nèi)容有符合人心理需求反應的系統(tǒng),是值得深入研究的課題。為獲得機器人聽覺行為隱私感知方法,解決語音監(jiān)聽設(shè)備存在的隱私泄露的風險,本文提出了基于卷積神經(jīng)網(wǎng)絡的服務機器人聽覺隱私信息分類算法。
1 基于卷積神經(jīng)網(wǎng)絡的服務機器人聽覺隱私信息分類算法
卷積神經(jīng)網(wǎng)絡是受生物學啟發(fā)而提出形成的一種前饋神經(jīng)網(wǎng)絡,利用局部連接和權(quán)值共享特性,減少模型參數(shù),并具有平移、尺度和視角不變性[10]。卷積神經(jīng)網(wǎng)絡不僅在圖像分類領(lǐng)域貢獻巨大,而且在自然語言方面也取得了引人注目的成果[11-13]。針對機器人聽覺行為隱私感知,本文提出了算法1所示的基于卷積神經(jīng)網(wǎng)絡的服務機器人聽覺隱私信息分類算法(Social Robot Auditory Privacy Information Classification Algorithm based on Convolutional Neural Network, APICA)。圖1是卷積神經(jīng)網(wǎng)絡模型。
2 機器平臺
圖2所示為課題組搭建的服務機器人平臺MAT[5,14],主要包括Intel NUC mini主機、EAI DashgoB1移動底盤、IPad顯示屏、科大訊飛六麥環(huán)形麥克風陣列板、Microsoft Kinect V2深度攝像頭、輔助傳感器和數(shù)據(jù)處理器等。聽覺系統(tǒng)采用的六麥環(huán)形麥克風陣列板具有聲源定位、回聲消除、噪聲過濾等功能,用于實現(xiàn)對音頻信號的采集;視覺采用的Microsoft Kinect V2深度攝像頭用于采集RGB彩色圖像;機器人上配備的GSM通信模塊可以在緊急狀況下與監(jiān)護人進行通話。為減少機器人平臺運算負荷,訓練數(shù)據(jù)和數(shù)據(jù)分析由數(shù)據(jù)處理工作站完成。服務機器人主機安裝了Ubuntu16.04操作系統(tǒng)、Kinect 版本 ROS(Robot Operation System)系統(tǒng)、TensorFlow CPU版本深度學習框架和機器視覺工具包Opencv3.3.0。課題組運用Python語言實現(xiàn)了APICA算法,并將其部署在MAT機器人上。
3 測試與分析
3.1 訓練數(shù)據(jù)集、測試數(shù)據(jù)集和性能指標
使用MAT服務機器人的六麥環(huán)形麥克風陣列收集訓練語音數(shù)據(jù)。與此同時,考慮到法律、文化習俗、認知心理學等與隱私信息形成有關(guān)的因素,調(diào)研相關(guān)文獻資料,收集、整理、歸納出家庭生活中涉及語音隱私信息的特殊場景,研究確定不同場景下所涉及的語音隱私內(nèi)容特征,設(shè)計了以下6種場景:(1)對話內(nèi)容涉及家庭人員出行計劃的場景;(2)對話內(nèi)容涉及家庭人員聯(lián)系方式的場景;(3)對話內(nèi)容涉及支付密碼的場景;(4)對話內(nèi)容涉及宗教的場景;(5)對話內(nèi)容涉及貴重物存放處的聊天場景;(6)對話內(nèi)容涉及言語批評朋友或者攻擊雙方父母的場景。
基于上述6種場景構(gòu)建了包括7種類別的訓練數(shù)據(jù)集:
(1)第1類數(shù)據(jù) 對話內(nèi)容涉及家庭人員出行計劃的場景,其對話內(nèi)容中包含:①未來出行計劃的時間名詞;②未來出行計劃的地理名詞。
(2)第2類數(shù)據(jù) 對話內(nèi)容涉及家庭人員聯(lián)系方式的場景,其對話內(nèi)容中包含:①聯(lián)系方式的相關(guān)表達;②有關(guān)聯(lián)系方式的數(shù)字。
(3)第3類數(shù)據(jù) 對話內(nèi)容涉及支付密碼的場景,其對話內(nèi)容中包含:①支付密碼的相關(guān)表達;②有關(guān)支付密碼的數(shù)字和字母。
(4)第4類數(shù)據(jù) 對話內(nèi)容涉及宗教的場景,其對話內(nèi)容中包含:①某人是某宗教成員;②某人表達愿意加入某宗教;③某人喜歡、尊崇、信仰某宗教。
(5)第5類數(shù)據(jù) 對話內(nèi)容涉及貴重物存放處的場景,其對話內(nèi)容中包含:①貴重物品的名稱;②對應貴重物品的存放地點。
(6)第6類數(shù)據(jù) 對話內(nèi)容涉及言語批評朋友或者言語攻擊雙方父母的場景,其對話內(nèi)容中包含批評或謾罵朋友或父母的詞匯。
(7)第7類數(shù)據(jù) 不屬于上述6種場景的對話,屬于不包含隱私信息的數(shù)據(jù)。
測試數(shù)據(jù)集構(gòu)建方面,對話內(nèi)容通過網(wǎng)上收集和課題組成員構(gòu)思獲得。訓練數(shù)據(jù)集和測試數(shù)據(jù)規(guī)模見表1。
采用精確率P、召回率R與綜合評價指標F1值度量算法的性能。
3.2 測試結(jié)果與分析
在已搭建的服務機器人平臺上部署設(shè)計的算法,將超參數(shù)設(shè)置為:迭代次數(shù)為3 000,卷積核數(shù)目為256,批處理參數(shù)為64,初始學習率為0.001,Dropout保留比例為0.5。測試數(shù)據(jù)識別結(jié)果的混淆矩陣如表2所示。精確率P、召回率R和綜合評價指標F1值統(tǒng)計結(jié)果如表3所示。
觀察表2和表3可知:
(1)第1類測試數(shù)據(jù)共75條,其中正確識別數(shù)為68條,錯誤識別的有7條,系統(tǒng)的精確率和召回率分別為93.15%和90.67%。核查識別錯誤的數(shù)據(jù),發(fā)現(xiàn)識別錯誤的原因為:①對話未出現(xiàn)具體的地理名詞,而是通過其中一般名詞和方向名詞可以推理出地理名詞;②對話出現(xiàn)多個地理名詞,且對話雙方經(jīng)過反復談論出行計劃但最終又否定出行計劃。
(2)第2類、第3類和第5類測試數(shù)據(jù)分別有72條、76條和48條,系統(tǒng)的精確率和召回率均為100%。
(3)第4類測試數(shù)據(jù)共58條,其中正確識別數(shù)為54條,錯誤識別為類別7的有4條,系統(tǒng)的精確率和召回率分別為96.43%和93.10%。核查識別錯誤的數(shù)據(jù),發(fā)現(xiàn)識別錯誤的原因為:對話內(nèi)容中存在否定是某個宗教人員的話語,如“我不是佛教成員,我是基督教成員?!?/p>
(4)第6類測試數(shù)據(jù)共58條,其中正確識別數(shù)為42條,錯誤識別為類別7的有16條,其精確率和召回率分別為95.45%和72.41%。核查識別錯誤的數(shù)據(jù),發(fā)現(xiàn)識別錯誤的原因為:①言語批評的對象為影視劇或歷史人物;②一些詞語在不同的語句中含義不同,例:“我身體不舒服,有點想吐”與“我每次看到我們領(lǐng)導都想吐”,這兩句話中的“吐”字,用在不同的地方具有不同的語義;③語氣導致的語義改變而導致識別錯誤。
(5)第7類測試數(shù)據(jù)共238條,系統(tǒng)正確識別229條,錯誤識別為類別1、4、6的數(shù)據(jù)分別有5條、2條和2條,系統(tǒng)的精確率和召回率分別為89.45%和96.22%。
綜上,測試數(shù)據(jù)集共625條數(shù)據(jù),系統(tǒng)正確識別數(shù)為589條,總體識別準確率為94.24%,平均精確率為96.35%,平均召回率為93.20%,綜合評價指標為94.53%,系統(tǒng)具有很好的識別和分類效果。
4 結(jié)語
研究服務機器人聽覺隱私信息的感知和保護技術(shù),有助于服務機器人的推廣與普及。本文正是針對機器人所監(jiān)聽到的語音數(shù)據(jù),提出和實現(xiàn)了基于卷積神經(jīng)網(wǎng)絡的服務機器人聽覺隱私信息分類算法,來判定語音數(shù)據(jù)的隱私類別,為隱私數(shù)據(jù)的保護奠定基礎(chǔ)。下一步將繼續(xù)補充和完善訓練數(shù)據(jù)集,使監(jiān)聽系統(tǒng)具有更好的魯棒性;此外,聽覺隱私數(shù)據(jù)的保護機制與方法也是值得深入研究的方向。
參考文獻:
[1]ZHAO J M, LI X Y. The status quo of and development strategies for healthcare towns against the background of aging population[J]. Journal of Landscape Research, 2018, 10(4): 41-44.
[2]薛同來,趙冬暉,韓菲,等. 基于激光SLAM的助老機器人[J]. 工業(yè)控制計算機, 2019, 32(6): 35-36.
[3]劉策,劉小峰. 助老服務機器人多模式友好交互系統(tǒng)設(shè)計與實現(xiàn)[J]. 電子測量與儀器學報, 2019, 33(1): 177-182.
[4]蘇志東,楊觀賜,李楊,等. 基于服務機器人聽覺的個人膳食構(gòu)成自主感知算法[J]. 貴州大學學報(自然科學版), 2019, 36(4): 80-86.
[5]SU Z D, LI Y, YANG G C. Dietary composition perception algorithm using social robot audition for mandarin Chinese[J]. IEEE Access, 2020, 8: 8768-8782.
[6]AHN H S, SANTOS M P G, WADHWA C, et al. Development of brain training games for a healthcare service robot for older people[C]//6th International Conference on Social Robotics (ICSR 2014). Sydney, NSW, Australia: Springer Verlag, 2014 :1-10.
[7]FOUKARAKIS M, ADAMI I, IOANNIDI D, et al. A Robot-based application for physical exercise training[C]//Proceedings of the International Conference on Information and Communication Technologies for Ageing Well and e-Health. Rome, Italy: SciTePress, 2016: 45-52.
[8]ZHOU B, WU K, LV P, et al. A new remote health-care system based on moving robot intended for the elderly at home[J]. Journal of Healthcare Engineering, 2018, 2018:4949863.
[9]KALPANA S, JEAN C, KAY C, et al. Aging, privacy, and home-based computing: development of a framework for design[J]. IEEE Pervasive Computing, 2012, 11(4): 46-54.
[10]籍祥. 卷積神經(jīng)網(wǎng)絡在中文問題分類中的應用[J]. 軟件導刊, 2018, 17(9): 25-27.
[11]趙力,將春輝,鄒采榮,等. 語音信號中的情感特征分析和識別的研究[J]. 電子學報, 2004, 32(4): 606-609.
[12]韓文靜,李海峰,阮華斌,等. 語音情感識別研究進展綜述[J]. 軟件學報, 2014, 25(1): 37-50.
[13]徐濟仁,陳家松,徐屹. 語音信號預處理技術(shù)綜述[J]. 電子工程師, 2001,27(6): 26-27.
[14]楊觀賜,楊靜,蘇志東,等. 改進的YOLO特征提取算法及其在服務機器人隱私情境檢測中的應用[J]. 自動化學報, 2018, 44(12): 2238-2249.
(責任編輯:曾 晶)