城市軌道交通智能語音售票機(jī)關(guān)鍵技術(shù)及應(yīng)用研究

2022-12-13 03:32:14陳悅勤錢小毅

城市軌道交通研究 2022年10期

陳悅勤錢小毅

(上海申通地鐵集團(tuán)有限公司， 201103，上?！蔚谝蛔髡撸?工程師)

0 引言

發(fā)展城市軌道交通是建設(shè)綠色城市、智慧城市的有效途徑。智慧車站基于全面的智能感知、深度的數(shù)據(jù)融合、高效的數(shù)據(jù)治理理念，利用多種智能化手段，實(shí)現(xiàn)豐富乘客乘車體驗(yàn)、提升乘客滿意度、提高設(shè)備設(shè)施可靠性及實(shí)用性等目標(biāo)[1]。

簡便購票流程、提高購票效率能夠有效提升乘客滿意度。傳統(tǒng)的乘客購票方式主要有人工窗口購票和自動售票機(jī)(TVM)購票兩種。自動售票機(jī)能夠快速實(shí)現(xiàn)線路查詢、車票發(fā)售、找零等功能，相較于人工窗口購票，其能夠有效提高乘客的購票效率，節(jié)約乘客購票時間。但當(dāng)乘客不熟悉操作流程或不識字時，可能造成購票耗時的增加，甚至可能因操作不當(dāng)引起設(shè)備故障以及增加人工窗口的負(fù)擔(dān)[2]。

智能語音售票機(jī)引入了語音識別功能，能夠幫助不熟悉的乘客完成購票全部流程，以避免發(fā)生上述問題。乘客購票時，可通過觸發(fā)語音切換按鈕將手動操作轉(zhuǎn)化為單純語音輸入操作，高效便捷地實(shí)現(xiàn)票價咨詢、站點(diǎn)信息查詢、換乘信息查詢、嘈雜環(huán)境下語音正確識別、車票購買等功能[3]。僅需通過口述目的站點(diǎn)及車票張數(shù)等信息即可實(shí)現(xiàn)正確購票，大大簡化了購票流程，提高了購票效率，也減輕了票務(wù)人員人工操作壓力。

智能語音售票機(jī)需具備嘈雜環(huán)境語音識別能力。公眾空間混合強(qiáng)噪聲環(huán)境中的多人人聲、車輛行駛轟鳴聲、廣播播報聲、大封閉空間產(chǎn)生的混響等多種因素會嚴(yán)重影響語音識別的效果，因此該技術(shù)的關(guān)鍵及難點(diǎn)在于噪聲處理[4]。此外，在該環(huán)境下售票機(jī)的喚醒方式不宜采用語音喚醒，人臉識別技術(shù)能夠更加有效地保證設(shè)備喚醒效率[5]。

目前，智能語音輔助購票技術(shù)已應(yīng)用于上海軌道交通部分車站的自動售票機(jī)，在乘客購票的關(guān)鍵步驟中提供“因人而宜”的個性化語音提示，使乘客在購票準(zhǔn)確度、購票服務(wù)支持等方面的體驗(yàn)有了較為明顯的提高[6]。

本文針對地鐵車站嘈雜環(huán)境和實(shí)際用戶需求，探討新型智能語音售票機(jī)系統(tǒng)的線性麥克風(fēng)陣列語音增強(qiáng)技術(shù)、基于視頻的人臉識別技術(shù)和多模態(tài)信息融合技術(shù)應(yīng)用，該系統(tǒng)可實(shí)現(xiàn)售票機(jī)“免喚醒”，以及高效的智能語音購票和地點(diǎn)查詢功能，可有效提升乘客購票效率。

1 智能語音售票機(jī)關(guān)鍵技術(shù)

為了應(yīng)對嘈雜環(huán)境對智能售票機(jī)語音識別能力的影響，智能語音售票機(jī)系統(tǒng)采用了線性麥克風(fēng)陣列語音增強(qiáng)技術(shù)、基于視頻的人臉識別技術(shù)和多模態(tài)信息融合技術(shù)。

1.1 麥克風(fēng)陣列語音增強(qiáng)技術(shù)

圖1為麥克風(fēng)陣列拾音示意圖。

常見的單麥克風(fēng)前端語音增強(qiáng)方法雖然能實(shí)現(xiàn)大量降噪，但對非平穩(wěn)噪聲抑制能力較弱，同時會使引入的語音信號失真，導(dǎo)致在地鐵車站等噪聲動態(tài)范圍大、噪聲模式多樣的場景下難以獲得較高的語音信號信噪比，無法滿足語音識別的要求。

均勻線性陣列示意圖如圖2所示。圖2中，M個麥克風(fēng)以δ為間隔，接收由聲源發(fā)出的聲音信號X(f)(f為頻率)，聲波入射角度為θd，第i個麥克風(fēng)接收信號為Yi(f)，Vi(f)為第i個麥克風(fēng)的加性高斯白噪聲。

麥克風(fēng)接受信號組成的矢量Y(f)為：

Y(f)=d(f,cosθd)X(f)+V(f)

(1)

式中：

d(f,cosθd)——陣列的導(dǎo)向矢量；

X(f)——由聲源發(fā)出的聲音信號矢量；

V(f)——麥克風(fēng)的加性高斯白噪聲矢量。

d(f,cosθd)=[1 e-j2πfτ0cos θd…

e-j(M-1)2πfτ0cos θd]T

(2)

式中：

j——虛數(shù)；

τ0——聲波入射角度θd=0時相鄰兩個麥克風(fēng)之間的時間延遲。

麥克風(fēng)陣列的主要性能指標(biāo)包括波束圖和白噪聲增益。波束圖可表述陣列在特定頻率f對不同入射角信號的增益B(f,θd)，應(yīng)用延遲求和波束成形算法的波束增益公式為：

B(f,θd)=dH(f,cosθd)h(f)

(3)

其中：h(f)=[H1(f)H2(f) …HM(f)]，Hi(f)表示第i個麥克風(fēng)在頻率f上的響應(yīng)；dH表示對向量d作共軛轉(zhuǎn)置。

白噪聲增益為空間非相干白噪聲場下的陣列增益，即指向方向的增益與平均噪聲功率之比。當(dāng)采用延遲求和算法時，其陣列增益W(f)表達(dá)式為：

W(f)=M

(4)

可見，白噪聲增益與麥克風(fēng)數(shù)量M成正比，麥克風(fēng)數(shù)量越多，指向方向獲得越好的抗噪性能。

1.2 基于視頻的人臉識別技術(shù)

地鐵環(huán)境聲音嘈雜，也無法對乘客提前進(jìn)行語音購票機(jī)使用培訓(xùn)，采用“喚醒詞+命令句式”實(shí)現(xiàn)語音購票功能喚醒不適用于地鐵車站環(huán)境。智能語音售票機(jī)系統(tǒng)采用視頻攝像頭檢測人臉，確定人員正在購票，從而喚醒語音購票功能。

地鐵車站環(huán)境視頻檢測復(fù)雜性較高，存在大量背景雜物，人臉姿態(tài)角度不一，光照和遮擋也會對檢測造成影響，進(jìn)行快速準(zhǔn)確的人臉檢測難度較大。

本文基于多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)架構(gòu)設(shè)計了一種人臉匹配算法，對人臉特征進(jìn)行多重檢測后提取人臉信息。其網(wǎng)絡(luò)構(gòu)架(見圖3)主要包含PNet(Proposal Network，候選網(wǎng)絡(luò))、RNet(Refine Network，修正網(wǎng)絡(luò))和ONet(Output Network，輸出網(wǎng)絡(luò))，分別負(fù)責(zé)人臉的初步檢測、位置修正、復(fù)雜樣本分類，最終輸出人臉位置和關(guān)鍵點(diǎn)信息。

1.3 多模態(tài)信息融合技術(shù)

多模態(tài)信息融合是指整合或融合兩種及兩種以上信息來源，利用不同信息媒介的優(yōu)勢，使得識別或信息處理更加精準(zhǔn)。在智能語音售票機(jī)系統(tǒng)中，多模態(tài)體現(xiàn)在以下兩個方面：

1) 音視頻協(xié)同處理：可同時采集高清視頻流、麥克風(fēng)陣列信號和用戶操作信息，通過用戶點(diǎn)擊“語音購票”按鈕或攝像頭檢測到有人走到售票機(jī)屏幕前，語音模塊自動喚起。其采用免喚醒語音輸入，不需要輸入其他同類產(chǎn)品的喚醒詞，免去了用戶培訓(xùn)過程。此后，攝像頭通過用戶臉部關(guān)鍵點(diǎn)來定位用戶聲源位置，麥克風(fēng)陣列通過8個麥克風(fēng)孔來進(jìn)行波束成形，將主瓣對準(zhǔn)用戶，結(jié)合攝像頭和麥克風(fēng)陣列來判斷當(dāng)前說話用戶的位置是否一致，一致則用戶語音有效，不一致則用戶語音無效。即通過視頻識別與聲音識別進(jìn)行多模態(tài)信息融合判斷。

2) 地圖知識庫支撐的地鐵站點(diǎn)查詢：一般語義識別方案僅支持查詢特定地鐵站名作為購票起止點(diǎn)，不具備模糊查詢功能，如根據(jù)地標(biāo)設(shè)定附近車站。智能語音售票機(jī)系統(tǒng)采用外部地圖的成熟技術(shù)數(shù)據(jù)，協(xié)同語義識別的起止點(diǎn)信息，自動反推最近的地鐵站，大大提高了語音售票機(jī)服務(wù)的便捷性和易用性，更適應(yīng)乘客常用的起止點(diǎn)表達(dá)方式。

2 智能語音售票機(jī)系統(tǒng)

基于上文所述的麥克風(fēng)陣列語音增強(qiáng)技術(shù)、人臉檢測算法和多模態(tài)信息融合技術(shù)，在傳統(tǒng)TVM基礎(chǔ)上增加了智能語音模塊，使其具備車站復(fù)雜環(huán)境下的語音購票功能。本節(jié)重點(diǎn)介紹具體硬件架構(gòu)和購票業(yè)務(wù)流程。

2.1 硬件架構(gòu)

智能語音售票機(jī)系統(tǒng)硬件架構(gòu)(見圖4)包含以下主要模塊：

1) TVM主控：地鐵站現(xiàn)有的售票機(jī)箱體機(jī)器通過串口與智能處理工控機(jī)進(jìn)行數(shù)據(jù)交互。

2) 智能處理工控機(jī)：負(fù)責(zé)麥克風(fēng)陣列語音增強(qiáng)處理和視頻人臉檢測處理。

3) 語音處理云服務(wù)器：部署在地鐵運(yùn)營公司數(shù)據(jù)中心，是一臺專有云語音識別和自然語言理解服務(wù)器，由地鐵專網(wǎng)保障其網(wǎng)絡(luò)信息安全。

4) 第三方地圖信息服務(wù)器：部署在地鐵運(yùn)營公司數(shù)據(jù)中心，是一臺專有云第三方地圖服務(wù)器，為語音購票技術(shù)提供地理位置查詢功能。

5) 高清攝像頭和麥克風(fēng)陣列：工業(yè)級別的攝像頭和麥克風(fēng)陣列，需要在TVM機(jī)器上打洞安裝，通過USB與信號處理工控機(jī)通信。

6) 數(shù)據(jù)回傳模塊：由無線或有線網(wǎng)絡(luò)連接至AFC(自動售檢票)專網(wǎng)，將語音和視頻信息經(jīng)過數(shù)據(jù)安全性增強(qiáng)后接入專有云服務(wù)器。

2.2 典型交互流程

語音購票過程中的典型人機(jī)交互流程如圖5所示。

當(dāng)工控機(jī)通過高清攝像頭檢測到用戶靠近時，會主動發(fā)送OnWakeup(喚醒指令)請求給TVM主控。TVM主控需返回確認(rèn)喚醒ACK(確認(rèn)喚醒)，并顯示語音提示窗口。

隨著用戶說話的過程，工控機(jī)會多次發(fā)送ASR，逐字返回用戶語音內(nèi)容。TVM主控需要多次刷新語音提示窗口中的語音內(nèi)容。當(dāng)用戶說完以后，工控機(jī)查詢到結(jié)果，則會發(fā)送路徑請求給TVM主控，直接跳轉(zhuǎn)路徑導(dǎo)航頁面。如果有超過一個候選項(xiàng)，則顯示多個候選項(xiàng)。

在語音提示窗口狀態(tài)下，用戶點(diǎn)擊屏幕其他區(qū)域或者點(diǎn)擊返回按鈕，則TVM主控發(fā)送睡眠請求，并關(guān)閉語音提示窗口。

2.3 主要功能

1) 語音問詢：乘客在問詢時，可以直接通過語音說出要去的地點(diǎn)，問詢機(jī)會推薦附近的地鐵站和引導(dǎo)相關(guān)購票流程。

2) 免喚醒啟動：監(jiān)測到用戶走到問詢機(jī)器前時，語音模塊會自動喚起，隨即進(jìn)入問詢初始化界面，乘客從而可以直接進(jìn)行語音問詢。

3) 地點(diǎn)確認(rèn)：用戶每說完一句話，經(jīng)過語音轉(zhuǎn)文本、語義分析后，結(jié)合第三方地圖信息查詢到最近站點(diǎn)，給出出行建議。如果有存在多個地點(diǎn)或者多個地鐵站的情況，將備選項(xiàng)(包含地點(diǎn)、附近地鐵站推薦)顯示在界面上供用戶選擇，最多顯示5個。

3 應(yīng)用效果

智能語音售票機(jī)需具有良好的實(shí)時響應(yīng)性能和準(zhǔn)確的乘客語音識別能力。因此，需能夠?qū)崟r監(jiān)測乘客靠近、高抗擾語音識別和提供無延遲綜合服務(wù)。

本文從麥克風(fēng)陣列的抗噪性能、智能TVM總體技術(shù)性能和用戶體驗(yàn)3個角度分析應(yīng)用效果。

3.1 麥克風(fēng)陣列語音抗噪性能

通過仿真計算得到基于8個麥克風(fēng)的線性陣列和語音增強(qiáng)技術(shù)的波束圖，如圖6～7所示。圖6中，兩側(cè)旁瓣相對于正前方主瓣至少弱18 dB，圖7中的也至少弱13 dB?？梢?，該語音增強(qiáng)技術(shù)可有效提升正前方聲音增益，屏蔽側(cè)方其他TVM的乘客語音。結(jié)合人臉識別和關(guān)鍵點(diǎn)定位，可進(jìn)一步在時域或空間域處理目標(biāo)語音，消除其他方向的干擾。

3.2 TVM總體技術(shù)性能

在實(shí)際應(yīng)用中，通過測試驗(yàn)證，該智能語音售票機(jī)可滿足以下性能指標(biāo)：

1) 在80～90 dB的強(qiáng)噪聲環(huán)境下仍然可以正常工作；

2) 滿足人距離設(shè)備1 m以內(nèi)的語音交互場景；

3) 支持免喚醒語音輸入、拼音首字母輸入和模糊地點(diǎn)查詢功能；

4) 設(shè)置地鐵車站名詞415個(涵蓋所有地鐵站名)，導(dǎo)入上海地標(biāo)、景區(qū)、地鐵周邊設(shè)施、小區(qū)等名詞近3 000個(幾乎涵蓋所有地點(diǎn))；

5) 地址名詞正確率>90%；

6) 網(wǎng)絡(luò)通暢時，時延≤0.5 s；

7) 支持地址模糊查詢；

8) 滿足IP54(防塵防水等級)、部署、長期維護(hù)和檢測、數(shù)據(jù)統(tǒng)計等各類其他要求。

3.3 用戶體驗(yàn)

在上海軌道交通漢中路站進(jìn)行了傳統(tǒng)售票機(jī)和智能語音售票機(jī)的購票測試。共采集兩種售票機(jī)的購票時間數(shù)據(jù)樣本89個。購票時間是指用戶開始與TVM交互，至購票結(jié)束為止所用時間。傳統(tǒng)售票機(jī)用戶平均購票時間為30.64 s，而智能語音售票機(jī)的僅需11.85 s，大大提升了售票效率。

4 結(jié)語

本文探討了智能語音售票機(jī)系統(tǒng)麥克風(fēng)陣列語音增強(qiáng)技術(shù)、人臉關(guān)鍵點(diǎn)識別技術(shù)及多模態(tài)信息融合技術(shù)，介紹了具體硬件架構(gòu)和業(yè)務(wù)流程。智能語音售票機(jī)系統(tǒng)可實(shí)現(xiàn)乘客智能語音購票、縮短乘客購票時間、減少購票排隊壓力，同時也能有效降低設(shè)備故障率及維修人力、物力的投入，提升服務(wù)質(zhì)量。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡