国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

城市軌道交通智能語音售票機(jī)關(guān)鍵技術(shù)及應(yīng)用研究

2022-12-13 03:32:14陳悅勤錢小毅
城市軌道交通研究 2022年10期
關(guān)鍵詞:售票機(jī)購票麥克風(fēng)

陳悅勤 錢小毅

(上海申通地鐵集團(tuán)有限公司, 201103, 上?!蔚谝蛔髡撸?工程師)

0 引言

發(fā)展城市軌道交通是建設(shè)綠色城市、智慧城市的有效途徑。智慧車站基于全面的智能感知、深度的數(shù)據(jù)融合、高效的數(shù)據(jù)治理理念,利用多種智能化手段,實(shí)現(xiàn)豐富乘客乘車體驗(yàn)、提升乘客滿意度、提高設(shè)備設(shè)施可靠性及實(shí)用性等目標(biāo)[1]。

簡便購票流程、提高購票效率能夠有效提升乘客滿意度。傳統(tǒng)的乘客購票方式主要有人工窗口購票和自動售票機(jī)(TVM)購票兩種。自動售票機(jī)能夠快速實(shí)現(xiàn)線路查詢、車票發(fā)售、找零等功能,相較于人工窗口購票,其能夠有效提高乘客的購票效率,節(jié)約乘客購票時間。但當(dāng)乘客不熟悉操作流程或不識字時,可能造成購票耗時的增加,甚至可能因操作不當(dāng)引起設(shè)備故障以及增加人工窗口的負(fù)擔(dān)[2]。

智能語音售票機(jī)引入了語音識別功能,能夠幫助不熟悉的乘客完成購票全部流程,以避免發(fā)生上述問題。乘客購票時,可通過觸發(fā)語音切換按鈕將手動操作轉(zhuǎn)化為單純語音輸入操作,高效便捷地實(shí)現(xiàn)票價咨詢、站點(diǎn)信息查詢、換乘信息查詢、嘈雜環(huán)境下語音正確識別、車票購買等功能[3]。僅需通過口述目的站點(diǎn)及車票張數(shù)等信息即可實(shí)現(xiàn)正確購票,大大簡化了購票流程,提高了購票效率,也減輕了票務(wù)人員人工操作壓力。

智能語音售票機(jī)需具備嘈雜環(huán)境語音識別能力。公眾空間混合強(qiáng)噪聲環(huán)境中的多人人聲、車輛行駛轟鳴聲、廣播播報聲、大封閉空間產(chǎn)生的混響等多種因素會嚴(yán)重影響語音識別的效果,因此該技術(shù)的關(guān)鍵及難點(diǎn)在于噪聲處理[4]。此外,在該環(huán)境下售票機(jī)的喚醒方式不宜采用語音喚醒,人臉識別技術(shù)能夠更加有效地保證設(shè)備喚醒效率[5]。

目前,智能語音輔助購票技術(shù)已應(yīng)用于上海軌道交通部分車站的自動售票機(jī),在乘客購票的關(guān)鍵步驟中提供“因人而宜”的個性化語音提示,使乘客在購票準(zhǔn)確度、購票服務(wù)支持等方面的體驗(yàn)有了較為明顯的提高[6]。

本文針對地鐵車站嘈雜環(huán)境和實(shí)際用戶需求,探討新型智能語音售票機(jī)系統(tǒng)的線性麥克風(fēng)陣列語音增強(qiáng)技術(shù)、基于視頻的人臉識別技術(shù)和多模態(tài)信息融合技術(shù)應(yīng)用,該系統(tǒng)可實(shí)現(xiàn)售票機(jī)“免喚醒”,以及高效的智能語音購票和地點(diǎn)查詢功能,可有效提升乘客購票效率。

1 智能語音售票機(jī)關(guān)鍵技術(shù)

為了應(yīng)對嘈雜環(huán)境對智能售票機(jī)語音識別能力的影響,智能語音售票機(jī)系統(tǒng)采用了線性麥克風(fēng)陣列語音增強(qiáng)技術(shù)、基于視頻的人臉識別技術(shù)和多模態(tài)信息融合技術(shù)。

1.1 麥克風(fēng)陣列語音增強(qiáng)技術(shù)

圖1為麥克風(fēng)陣列拾音示意圖。

常見的單麥克風(fēng)前端語音增強(qiáng)方法雖然能實(shí)現(xiàn)大量降噪,但對非平穩(wěn)噪聲抑制能力較弱,同時會使引入的語音信號失真,導(dǎo)致在地鐵車站等噪聲動態(tài)范圍大、噪聲模式多樣的場景下難以獲得較高的語音信號信噪比,無法滿足語音識別的要求。

均勻線性陣列示意圖如圖2所示。圖2中,M個麥克風(fēng)以δ為間隔,接收由聲源發(fā)出的聲音信號X(f)(f為頻率),聲波入射角度為θd,第i個麥克風(fēng)接收信號為Yi(f),Vi(f)為第i個麥克風(fēng)的加性高斯白噪聲。

麥克風(fēng)接受信號組成的矢量Y(f)為:

Y(f)=d(f,cosθd)X(f)+V(f)

(1)

式中:

d(f,cosθd)——陣列的導(dǎo)向矢量;

X(f)——由聲源發(fā)出的聲音信號矢量;

V(f)——麥克風(fēng)的加性高斯白噪聲矢量。

d(f,cosθd)=[1 e-j2πfτ0cos θd…

e-j(M-1)2πfτ0cos θd]T

(2)

式中:

j——虛數(shù);

τ0——聲波入射角度θd=0時相鄰兩個麥克風(fēng)之間的時間延遲。

麥克風(fēng)陣列的主要性能指標(biāo)包括波束圖和白噪聲增益。波束圖可表述陣列在特定頻率f對不同入射角信號的增益B(f,θd),應(yīng)用延遲求和波束成形算法的波束增益公式為:

B(f,θd)=dH(f,cosθd)h(f)

(3)

其中:h(f)=[H1(f)H2(f) …HM(f)],Hi(f)表示第i個麥克風(fēng)在頻率f上的響應(yīng);dH表示對向量d作共軛轉(zhuǎn)置。

白噪聲增益為空間非相干白噪聲場下的陣列增益,即指向方向的增益與平均噪聲功率之比。當(dāng)采用延遲求和算法時,其陣列增益W(f)表達(dá)式為:

W(f)=M

(4)

可見,白噪聲增益與麥克風(fēng)數(shù)量M成正比,麥克風(fēng)數(shù)量越多,指向方向獲得越好的抗噪性能。

1.2 基于視頻的人臉識別技術(shù)

地鐵環(huán)境聲音嘈雜,也無法對乘客提前進(jìn)行語音購票機(jī)使用培訓(xùn),采用“喚醒詞+命令句式”實(shí)現(xiàn)語音購票功能喚醒不適用于地鐵車站環(huán)境。智能語音售票機(jī)系統(tǒng)采用視頻攝像頭檢測人臉,確定人員正在購票,從而喚醒語音購票功能。

地鐵車站環(huán)境視頻檢測復(fù)雜性較高,存在大量背景雜物,人臉姿態(tài)角度不一,光照和遮擋也會對檢測造成影響,進(jìn)行快速準(zhǔn)確的人臉檢測難度較大。

本文基于多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)架構(gòu)設(shè)計了一種人臉匹配算法,對人臉特征進(jìn)行多重檢測后提取人臉信息。其網(wǎng)絡(luò)構(gòu)架(見圖3)主要包含PNet(Proposal Network,候選網(wǎng)絡(luò))、RNet(Refine Network,修正網(wǎng)絡(luò))和ONet(Output Network,輸出網(wǎng)絡(luò)),分別負(fù)責(zé)人臉的初步檢測、位置修正、復(fù)雜樣本分類,最終輸出人臉位置和關(guān)鍵點(diǎn)信息。

1.3 多模態(tài)信息融合技術(shù)

多模態(tài)信息融合是指整合或融合兩種及兩種以上信息來源,利用不同信息媒介的優(yōu)勢,使得識別或信息處理更加精準(zhǔn)。在智能語音售票機(jī)系統(tǒng)中,多模態(tài)體現(xiàn)在以下兩個方面:

1) 音視頻協(xié)同處理:可同時采集高清視頻流、麥克風(fēng)陣列信號和用戶操作信息,通過用戶點(diǎn)擊“語音購票”按鈕或攝像頭檢測到有人走到售票機(jī)屏幕前,語音模塊自動喚起。其采用免喚醒語音輸入,不需要輸入其他同類產(chǎn)品的喚醒詞,免去了用戶培訓(xùn)過程。此后,攝像頭通過用戶臉部關(guān)鍵點(diǎn)來定位用戶聲源位置,麥克風(fēng)陣列通過8個麥克風(fēng)孔來進(jìn)行波束成形,將主瓣對準(zhǔn)用戶,結(jié)合攝像頭和麥克風(fēng)陣列來判斷當(dāng)前說話用戶的位置是否一致,一致則用戶語音有效,不一致則用戶語音無效。即通過視頻識別與聲音識別進(jìn)行多模態(tài)信息融合判斷。

2) 地圖知識庫支撐的地鐵站點(diǎn)查詢:一般語義識別方案僅支持查詢特定地鐵站名作為購票起止點(diǎn),不具備模糊查詢功能,如根據(jù)地標(biāo)設(shè)定附近車站。智能語音售票機(jī)系統(tǒng)采用外部地圖的成熟技術(shù)數(shù)據(jù),協(xié)同語義識別的起止點(diǎn)信息,自動反推最近的地鐵站,大大提高了語音售票機(jī)服務(wù)的便捷性和易用性,更適應(yīng)乘客常用的起止點(diǎn)表達(dá)方式。

2 智能語音售票機(jī)系統(tǒng)

基于上文所述的麥克風(fēng)陣列語音增強(qiáng)技術(shù)、人臉檢測算法和多模態(tài)信息融合技術(shù),在傳統(tǒng)TVM基礎(chǔ)上增加了智能語音模塊,使其具備車站復(fù)雜環(huán)境下的語音購票功能。本節(jié)重點(diǎn)介紹具體硬件架構(gòu)和購票業(yè)務(wù)流程。

2.1 硬件架構(gòu)

智能語音售票機(jī)系統(tǒng)硬件架構(gòu)(見圖4)包含以下主要模塊:

1) TVM主控:地鐵站現(xiàn)有的售票機(jī)箱體機(jī)器通過串口與智能處理工控機(jī)進(jìn)行數(shù)據(jù)交互。

2) 智能處理工控機(jī):負(fù)責(zé)麥克風(fēng)陣列語音增強(qiáng)處理和視頻人臉檢測處理。

3) 語音處理云服務(wù)器:部署在地鐵運(yùn)營公司數(shù)據(jù)中心,是一臺專有云語音識別和自然語言理解服務(wù)器,由地鐵專網(wǎng)保障其網(wǎng)絡(luò)信息安全。

4) 第三方地圖信息服務(wù)器:部署在地鐵運(yùn)營公司數(shù)據(jù)中心,是一臺專有云第三方地圖服務(wù)器,為語音購票技術(shù)提供地理位置查詢功能。

5) 高清攝像頭和麥克風(fēng)陣列:工業(yè)級別的攝像頭和麥克風(fēng)陣列,需要在TVM機(jī)器上打洞安裝,通過USB與信號處理工控機(jī)通信。

6) 數(shù)據(jù)回傳模塊:由無線或有線網(wǎng)絡(luò)連接至AFC(自動售檢票)專網(wǎng),將語音和視頻信息經(jīng)過數(shù)據(jù)安全性增強(qiáng)后接入專有云服務(wù)器。

2.2 典型交互流程

語音購票過程中的典型人機(jī)交互流程如圖5所示。

當(dāng)工控機(jī)通過高清攝像頭檢測到用戶靠近時,會主動發(fā)送OnWakeup(喚醒指令)請求給TVM主控。TVM主控需返回確認(rèn)喚醒ACK(確認(rèn)喚醒),并顯示語音提示窗口。

隨著用戶說話的過程,工控機(jī)會多次發(fā)送ASR,逐字返回用戶語音內(nèi)容。TVM主控需要多次刷新語音提示窗口中的語音內(nèi)容。當(dāng)用戶說完以后,工控機(jī)查詢到結(jié)果,則會發(fā)送路徑請求給TVM主控,直接跳轉(zhuǎn)路徑導(dǎo)航頁面。如果有超過一個候選項(xiàng),則顯示多個候選項(xiàng)。

在語音提示窗口狀態(tài)下,用戶點(diǎn)擊屏幕其他區(qū)域或者點(diǎn)擊返回按鈕,則TVM主控發(fā)送睡眠請求,并關(guān)閉語音提示窗口。

2.3 主要功能

1) 語音問詢:乘客在問詢時,可以直接通過語音說出要去的地點(diǎn),問詢機(jī)會推薦附近的地鐵站和引導(dǎo)相關(guān)購票流程。

2) 免喚醒啟動:監(jiān)測到用戶走到問詢機(jī)器前時,語音模塊會自動喚起,隨即進(jìn)入問詢初始化界面,乘客從而可以直接進(jìn)行語音問詢。

3) 地點(diǎn)確認(rèn):用戶每說完一句話,經(jīng)過語音轉(zhuǎn)文本、語義分析后,結(jié)合第三方地圖信息查詢到最近站點(diǎn),給出出行建議。如果有存在多個地點(diǎn)或者多個地鐵站的情況,將備選項(xiàng)(包含地點(diǎn)、附近地鐵站推薦)顯示在界面上供用戶選擇,最多顯示5個。

3 應(yīng)用效果

智能語音售票機(jī)需具有良好的實(shí)時響應(yīng)性能和準(zhǔn)確的乘客語音識別能力。因此,需能夠?qū)崟r監(jiān)測乘客靠近、高抗擾語音識別和提供無延遲綜合服務(wù)。

本文從麥克風(fēng)陣列的抗噪性能、智能TVM總體技術(shù)性能和用戶體驗(yàn)3個角度分析應(yīng)用效果。

3.1 麥克風(fēng)陣列語音抗噪性能

通過仿真計算得到基于8個麥克風(fēng)的線性陣列和語音增強(qiáng)技術(shù)的波束圖,如圖6~7所示。圖6中,兩側(cè)旁瓣相對于正前方主瓣至少弱18 dB,圖7中的也至少弱13 dB??梢?,該語音增強(qiáng)技術(shù)可有效提升正前方聲音增益,屏蔽側(cè)方其他TVM的乘客語音。結(jié)合人臉識別和關(guān)鍵點(diǎn)定位,可進(jìn)一步在時域或空間域處理目標(biāo)語音,消除其他方向的干擾。

3.2 TVM總體技術(shù)性能

在實(shí)際應(yīng)用中,通過測試驗(yàn)證,該智能語音售票機(jī)可滿足以下性能指標(biāo):

1) 在80~90 dB的強(qiáng)噪聲環(huán)境下仍然可以正常工作;

2) 滿足人距離設(shè)備1 m以內(nèi)的語音交互場景;

3) 支持免喚醒語音輸入、拼音首字母輸入和模糊地點(diǎn)查詢功能;

4) 設(shè)置地鐵車站名詞415個(涵蓋所有地鐵站名),導(dǎo)入上海地標(biāo)、景區(qū)、地鐵周邊設(shè)施、小區(qū)等名詞近3 000個(幾乎涵蓋所有地點(diǎn));

5) 地址名詞正確率>90%;

6) 網(wǎng)絡(luò)通暢時,時延≤0.5 s;

7) 支持地址模糊查詢;

8) 滿足IP54(防塵防水等級)、部署、長期維護(hù)和檢測、數(shù)據(jù)統(tǒng)計等各類其他要求。

3.3 用戶體驗(yàn)

在上海軌道交通漢中路站進(jìn)行了傳統(tǒng)售票機(jī)和智能語音售票機(jī)的購票測試。共采集兩種售票機(jī)的購票時間數(shù)據(jù)樣本89個。購票時間是指用戶開始與TVM交互,至購票結(jié)束為止所用時間。傳統(tǒng)售票機(jī)用戶平均購票時間為30.64 s,而智能語音售票機(jī)的僅需11.85 s,大大提升了售票效率。

4 結(jié)語

本文探討了智能語音售票機(jī)系統(tǒng)麥克風(fēng)陣列語音增強(qiáng)技術(shù)、人臉關(guān)鍵點(diǎn)識別技術(shù)及多模態(tài)信息融合技術(shù),介紹了具體硬件架構(gòu)和業(yè)務(wù)流程。智能語音售票機(jī)系統(tǒng)可實(shí)現(xiàn)乘客智能語音購票、縮短乘客購票時間、減少購票排隊壓力,同時也能有效降低設(shè)備故障率及維修人力、物力的投入,提升服務(wù)質(zhì)量。

猜你喜歡
售票機(jī)購票麥克風(fēng)
不同的購票方法
自動售票機(jī)拆移的必要性及施工注意事項(xiàng)分析
Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
直擊痛點(diǎn)的“候補(bǔ)購票”可多來一些
售票機(jī)取現(xiàn)
基于重慶軌道自動售票機(jī)充值模塊的技改設(shè)計
電子制作(2019年23期)2019-02-23 13:21:22
鐵路候補(bǔ)購票服務(wù)擴(kuò)大到全部列車
基于數(shù)字麥克風(fēng)的WIFI語音發(fā)射機(jī)
電子測試(2018年23期)2018-12-29 11:11:24
麥克風(fēng)的藝術(shù)
淺析自動售票機(jī)創(chuàng)新的設(shè)計
叙永县| 南昌县| 桑日县| 长宁区| 霍林郭勒市| 绥德县| 班戈县| 双峰县| 辽源市| 子长县| 庆云县| 红安县| 中江县| 雅安市| 兴宁市| 河源市| 咸丰县| 绥江县| 萨嘎县| 荔波县| 榕江县| 太仓市| 常熟市| 司法| 黎平县| 通化市| 惠来县| 沽源县| 镇康县| 承德县| 巨野县| 鲜城| 凤阳县| 太康县| 安西县| 辰溪县| 武安市| 固始县| 筠连县| 阿瓦提县| 喀喇沁旗|