郭成龍,廖 偉,田 晨,林 毅,吳九州,趙雅珺,游學(xué)杭,李錦恒
(1.中國民用航空西南地區(qū)空中交通管理局,四川 成都 610065;2.四川大學(xué)計(jì)算機(jī)學(xué)院,四川 成都 610065)
空中交通管制是空中交通運(yùn)輸過程中的重要環(huán)節(jié),空中交通管制員(以下簡稱“管制員”)通過無線電通信對飛行員發(fā)送指令,對航空器飛行活動進(jìn)行干預(yù),以保證航空器安全高效通過指定空域,維護(hù)空中交通秩序。合格的管制員是保證空中交通安全有序的必要條件。中國民用航空局2022 年5 月發(fā)布的《2021年民航行業(yè)發(fā)展統(tǒng)計(jì)公報(bào)》顯示,2021年民航全行業(yè)完成旅客運(yùn)輸量44 055.74萬人次,起飛395.20萬架次[1]。隨著民航運(yùn)輸業(yè)的發(fā)展,航空運(yùn)輸量將逐年增加,而在現(xiàn)有管制模式和空域資源有限的條件下,管制員工作量也會遞增,這將導(dǎo)致管制員在管制過程中可能出現(xiàn)漏、忘、錯(cuò)等情況。因此,有必要進(jìn)一步提高管制員的業(yè)務(wù)水平。
根據(jù)我國《民用航空空中交通管制培訓(xùn)管理規(guī)則》[2]規(guī)定,管制員培訓(xùn)一般要經(jīng)過基礎(chǔ)培訓(xùn)和崗位培訓(xùn)。傳統(tǒng)管制模擬培訓(xùn)流程如圖1所示。在訓(xùn)練過程中,管制員的管制指令通過模擬機(jī)設(shè)備發(fā)送至飛行員席位,飛行員通過設(shè)備向管制員復(fù)誦指令,并輸入管制指令,驅(qū)動模擬設(shè)備中航空器飛行。
圖1 傳統(tǒng)模擬機(jī)培訓(xùn)示意圖Fig.1 Diagram of traditional simulator training
隨著航空器飛行量逐年增長,對管制員數(shù)量和質(zhì)量的要求也越來越高。傳統(tǒng)管制模擬培訓(xùn)無法滿足日益增長的管制培訓(xùn)需求,主要體現(xiàn)在以下2個(gè)方面。
1) 傳統(tǒng)的模擬機(jī)設(shè)備設(shè)有機(jī)長席位,需要有人扮演飛行員角色協(xié)同管制員完成管制培訓(xùn),每一次管制員培訓(xùn),至少需要1個(gè)人來擔(dān)當(dāng)飛行員角色,因而會產(chǎn)生額外的人力成本,導(dǎo)致設(shè)備資源利用率低。
2) 由于模擬機(jī)設(shè)備價(jià)格昂貴,目前,只在國內(nèi)設(shè)有樞紐機(jī)場的城市建立了管制員培訓(xùn)模擬中心,培訓(xùn)資源有限?;诂F(xiàn)有培訓(xùn)體系及方式,每次培訓(xùn)前需要對培訓(xùn)人員、時(shí)間等進(jìn)行安排協(xié)調(diào),培訓(xùn)效率不高。
針對目前管制員培訓(xùn)面臨的各種問題,研究者提出線上培訓(xùn)和智能機(jī)長的概念:文獻(xiàn)[3]提出了基于深度學(xué)習(xí)的自動機(jī)長框架,并對指令生成、語音合成技術(shù)進(jìn)行論述;文獻(xiàn)[4]提出利用“互聯(lián)網(wǎng)+”技術(shù)設(shè)計(jì)顯示空管智能學(xué)習(xí)平臺;文獻(xiàn)[5]利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了空管語音識別模型。但現(xiàn)有相關(guān)工作主要聚焦于空管語音識別、指令解析、語音合成等單模塊上。關(guān)于語音識別、指令解析以及語音合成技術(shù)發(fā)展如下所述。
1) 語音識別。20 世紀(jì)50 年代,貝爾實(shí)驗(yàn)室研發(fā)的能夠?qū)?~9 單個(gè)數(shù)字進(jìn)行識別的AUDERY 語音識別系統(tǒng)[6],揭開了語音識別研究工作的序幕。進(jìn)入21世紀(jì)后,隨著計(jì)算機(jī)算力的不斷提高,研究人員將深度學(xué)習(xí)算法[7-8]應(yīng)用于語音識別領(lǐng)域,并取得了大量成果。2009 年,Hinton 等利用深度前饋網(wǎng)絡(luò)建立聲學(xué)模型,掀起了將深度學(xué)習(xí)應(yīng)用于語音識別的浪潮,大大提高了語音識別的準(zhǔn)確率[9]。
隨著深度學(xué)習(xí)的出現(xiàn),語音識別技術(shù)雖然有了突破性的進(jìn)展,但是目前仍然存在一些難以解決的問題,例如識別過程中的噪聲處理,在一些復(fù)雜環(huán)境下的語音識別難度依然很大。
2) 文本指令處理。目前,對空管通話指令的研究大多集中于指令語義學(xué)習(xí)上:文獻(xiàn)[10]使用卷積神經(jīng)網(wǎng)絡(luò)以及余弦相似度分類器判斷復(fù)誦指令與管制指令的語義是否一致;文獻(xiàn)[11]通過雙向長短期記憶網(wǎng)絡(luò)進(jìn)行語義匹配;文獻(xiàn)[12]利用語義網(wǎng)絡(luò)構(gòu)建三元組,將空管語音解析為結(jié)構(gòu)化的指令;文獻(xiàn)[13]在1 個(gè)空管安全監(jiān)控的框架中使用1 個(gè)聯(lián)合模型,用于意圖識別與語義槽填充任務(wù),推斷出文本指令的意圖并將指令轉(zhuǎn)換為1種預(yù)定義的數(shù)據(jù)格式,用于檢測復(fù)誦告警。
3) 語音合成。傳統(tǒng)的語音合成技術(shù)主要有波形拼接法、參數(shù)合成法。波形拼接法需要的語音語料庫龐大,使用成本巨大,可擴(kuò)展性差;參數(shù)合成法則是通過設(shè)計(jì)聲碼器,根據(jù)發(fā)音特征合成波形,傳統(tǒng)的參數(shù)合成法如共振峰合成[14]、Griffin-Lim 算法。隨著深度學(xué)習(xí)算法的廣泛應(yīng)用,研究人員嘗試使用神經(jīng)網(wǎng)絡(luò)模型代替?zhèn)鹘y(tǒng)統(tǒng)計(jì)模型,建立聲碼器、聲學(xué)模型等,其中,典型的方法有Google 推出的Wavenet 聲碼器[15]、Tacotron模型[16]和Baidu的Deep Voice[17]等。
針對目前空管培訓(xùn)中出現(xiàn)的各種問題,前序研究[3]提出了1 個(gè)完整的應(yīng)用框架,攻克了相關(guān)技術(shù)難點(diǎn)。而實(shí)際應(yīng)用中,智能機(jī)長系統(tǒng)仍面臨以下挑戰(zhàn):
1) 基于深度學(xué)習(xí)的飛行員復(fù)誦文本及對應(yīng)指令文本[3]對數(shù)據(jù)依賴性較強(qiáng),在未見環(huán)境下泛化能力不足,復(fù)誦效果有待提升;
2) 語音合成模塊無法對中英文混合的文本進(jìn)行合成;
3) 現(xiàn)有系統(tǒng)的復(fù)誦性能都是基于實(shí)驗(yàn)條件的測試,缺乏真實(shí)場景下的性能驗(yàn)證。
本文在前序研究[3]的基礎(chǔ)上,針對上述問題,設(shè)計(jì)了面向空管模擬機(jī)培訓(xùn)的智能應(yīng)答機(jī)長系統(tǒng)。
本文主要對智能機(jī)長的智能應(yīng)答系統(tǒng)展開研究,分析、總結(jié)真實(shí)空管對話特點(diǎn)及規(guī)律,具體研究內(nèi)容及創(chuàng)新點(diǎn)如下:
1) 設(shè)計(jì)了1 套完整的智能應(yīng)答機(jī)長系統(tǒng),減少了人力成本,簡化了傳統(tǒng)模擬培訓(xùn)的流程,并為線上培訓(xùn)、智能培訓(xùn)提供了技術(shù)支撐;
2) 設(shè)計(jì)了1 套應(yīng)對不同場景的指令復(fù)誦規(guī)則,該規(guī)則能夠適應(yīng)不同的管制階段,可對中英文管制語音以及中英文混合語音進(jìn)行復(fù)誦生成;
3) 在智能機(jī)長系統(tǒng)中添加了人為觸發(fā)模式下的特情場景,可對管制員應(yīng)對特情處置能力進(jìn)行針對性的訓(xùn)練及考核;
4) 本文智能應(yīng)答機(jī)長系統(tǒng)集成在中國民用航空西南地區(qū)空中交通管理局成都區(qū)管中心管制模擬培訓(xùn)系統(tǒng)上,在真實(shí)模擬培訓(xùn)場景下完成了測試,并能較好地實(shí)現(xiàn)管制員指令復(fù)誦需求。
基于管制員訓(xùn)練程序標(biāo)準(zhǔn),智能機(jī)長系統(tǒng)是1 個(gè)面向任務(wù)的對話系統(tǒng),對外包含1個(gè)輸入接口、輸出接口以及1個(gè)人機(jī)交互界面。智能機(jī)長的邏輯處理流程如圖2所示。
1) 語音輸入:接收由麥克風(fēng)采集的管制員語音數(shù)據(jù),并對語音數(shù)據(jù)進(jìn)行歸一化處理,轉(zhuǎn)為內(nèi)部數(shù)據(jù)結(jié)構(gòu),同時(shí)通過消息中間件發(fā)送至下一模塊并保存至數(shù)據(jù)庫。
2) 語音識別:將管制員的語音數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)和人類可讀的文本數(shù)據(jù)。
3) 指令理解:對管制員語音文本進(jìn)行再處理,生成與空中交通管制相關(guān)的結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)包括管制意圖、航空器呼號、高度、速度以及其他必要參數(shù)。
4) 指令復(fù)誦:根據(jù)空中交通管制的標(biāo)準(zhǔn)程序,生成與管制員結(jié)構(gòu)化數(shù)據(jù)對應(yīng)的飛行員復(fù)誦文本以及模擬機(jī)系統(tǒng)可識別的指令數(shù)據(jù)。同時(shí),還增加了特情場景下復(fù)誦模式。在人工干預(yù)下,觸發(fā)預(yù)定義的特情場景,智能機(jī)長系統(tǒng)根據(jù)相關(guān)特情場景生成對應(yīng)的特情指令。
5) 語音合成:將飛行員復(fù)誦文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù),再傳輸給管制員,形成管制培訓(xùn)對話協(xié)商回路閉環(huán)。
語音識別系統(tǒng)通常包括聲音特征提取、聲學(xué)模型、語言模型等幾個(gè)模塊。將輸入的語音信號轉(zhuǎn)換為與之對應(yīng)的文字序列,其數(shù)學(xué)表達(dá)[18]如下:
式(1)中:P(X|W)為語音識別系統(tǒng)中的聲學(xué)模型;P(W)為語言模型。
隨著深度學(xué)習(xí)的快速發(fā)展,學(xué)者們將深度學(xué)習(xí)技術(shù)應(yīng)用到語音識別領(lǐng)域進(jìn)行了深入研究,取得了許多重大成果,本文參考部分研究,應(yīng)用深度學(xué)習(xí)技術(shù),采取了1 種基于端到端的語音識別網(wǎng)絡(luò)模型,包含CNN(Convolutional Neural Network)、FC(Fully Connection Layer)以及改進(jìn)的BiLSTM(Bidirectional Long Short-Term Memory)結(jié)構(gòu),如圖3 所示。其中,CNN 用于提取語音局部特征,BiLSTM用于提取時(shí)序特征[19-21]。
圖3 語音識別模型結(jié)構(gòu)圖Fig.3 Structure of automatic speech recognition model
空管語義解析主要包括文本分詞、語義槽填充以及意圖識別3個(gè)子任務(wù)。
語義槽填充是對文本序列進(jìn)行語義成分分析,將預(yù)先定義好的語義標(biāo)簽填充到對應(yīng)的分詞位置上。語義槽填充是1 個(gè)序列標(biāo)注任務(wù),即對于給定的文本序列[22]W= (w1,w2, …,wt),需要在預(yù)定義的語義標(biāo)簽集中找到1 組對應(yīng)的語義標(biāo)簽序列S= (s1,s2, …,s3),使得:
式(2)中:S?表示給定文本序列W對應(yīng)的語義標(biāo)簽。
意圖識別的本質(zhì)是1 個(gè)分類任務(wù),其目的是將輸入的文本序列分類為1 個(gè)或多個(gè)具體的意圖類別,其數(shù)學(xué)表達(dá)[23]為:
式(3)中:P(C|W)表示在給定文本序列W條件下指令意圖為C的概率;C?表示最終的意圖分類結(jié)果。
本文基于前人工作研究成果,對意圖識別和語義槽填充2 個(gè)任務(wù)進(jìn)行聯(lián)合建模,提出了1 個(gè)基于交叉注意力的文本指令理解模型(Cross-Attention based Text Instruction Understanding,CA-TIU),它包含2 個(gè)BiLSTM 模型,分別用于語義槽填充以及意圖識別,如圖4所示。
圖4 語義解析網(wǎng)絡(luò)模型圖Fig.4 Structure of instruction understanding model
1.3.1 指令復(fù)誦
指令復(fù)誦是智能機(jī)長系統(tǒng)中智能應(yīng)答模塊的關(guān)鍵步驟,也是本文研究的重點(diǎn)。
根據(jù)對真實(shí)空管場景下地空對話內(nèi)容的研究,本文將管制員指令分為3種類型:常規(guī)陳述指令、管制識別指令和協(xié)商疑問指令。根據(jù)不同類型指令,本系統(tǒng)以不同方式復(fù)誦應(yīng)答。在1.2 節(jié)中,語義解析模塊輸出格式化數(shù)據(jù)(包括指令文本、意圖參數(shù)字典以及語義標(biāo)簽)如下:
式(4)中:It表示意圖參數(shù)字典;I1,I2, …,In是語義解析模 塊 提 取 的 指 令 意 圖 ;P1(x1,x2, …,xn)、P2(x1,x2, …,xn),…,Pn(x1,x2, …,xn)是提取的每一類意圖指令的意圖參數(shù),該參數(shù)為不定參數(shù),具體由實(shí)際意圖指令決定。指令類別見表1。
表1 管制指令復(fù)誦樣本Tab.1 Sample of controlling instruction repetition
1) 常規(guī)陳述指令。它是以陳述性語句向飛行員發(fā)布的交通干預(yù)指令。這類指令通常要求飛行員對航空器飛行狀態(tài)做出調(diào)整。常見的陳述性管制指令有高度調(diào)整指令、速度調(diào)整指令、飛行目的地指令、航向調(diào)整指令、航跡偏置指令、取消偏置指令、起飛及復(fù)飛指令、放行許可以及其他管制許可、聯(lián)系頻率等?;诳罩薪煌ü苤七\(yùn)行規(guī)則,此類陳述性指令的復(fù)誦規(guī)則是重復(fù)指令關(guān)鍵要素信息,以航空器呼號為結(jié)束。因此,通過調(diào)整管制員指令文本中航空器呼號順序來實(shí)現(xiàn)復(fù)誦,其復(fù)誦規(guī)則如下:
針對常規(guī)性陳述性管制指令,本系統(tǒng)參考大量空管指令復(fù)誦實(shí)例,建立了指令文本、指令意圖、意圖參數(shù)列表及與其相關(guān)意圖與參數(shù)的匹配關(guān)系,實(shí)現(xiàn)復(fù)誦規(guī)則如下:
①提取指令解析結(jié)果的意圖參數(shù),包括指令意圖和相關(guān)重要參數(shù);
②根據(jù)預(yù)先設(shè)計(jì)的復(fù)誦規(guī)則,將管制文本中的航空器呼號和其他指令進(jìn)行分割,并重新排序,以航空器呼號作為結(jié)束,生成復(fù)誦文本。
2) 管制識別指令。管制識別指令是航空器進(jìn)入某管制扇區(qū)時(shí)首次與管制員聯(lián)系后接收到的管制指令,通常為雷達(dá)識別或廣播式自動相關(guān)監(jiān)視(Automatic Dependent Surveillance-Broadcast,ADSB)識別。如表1中管制識別指令示例,依據(jù)我國《空中交通無線電通話用語》規(guī)定,當(dāng)管制員指令意圖為雷達(dá)識別時(shí),飛行員需要復(fù)誦航空器呼號作為回應(yīng)。
3) 協(xié)商疑問指令。在地空通話中,管制員除了直接向飛行員下達(dá)陳述性指令外,還可能向飛行員發(fā)出詢問。本文將管制員向飛行員發(fā)出的詢問稱之為協(xié)商疑問指令。協(xié)商疑問指令大致可分為證實(shí)類指令和協(xié)商類指令。證實(shí)類指令是飛行員向管制員發(fā)出請求后,管制員向飛行員請求的重復(fù)確認(rèn);協(xié)商類指令是當(dāng)發(fā)生特情或者面對飛行員請求時(shí),管制員向飛行員詢問所發(fā)管制指令的可行性。針對不同類型指令,復(fù)誦方式不同。
如圖5所示,當(dāng)判定管制指令為協(xié)商詢問指令后,指令復(fù)誦模塊會判定該指令具體類型,其判定依據(jù)是指令意圖I1,I2, …,In及指令文本。
圖5 指令復(fù)誦邏輯流程圖Fig.5 Flow chat of instruction repetition logical processing
依據(jù)管制規(guī)則,針對證實(shí)類指令,飛行員需要復(fù)誦陳述指令,如表1中示例,其復(fù)誦規(guī)則同常規(guī)陳述指令一樣,詳見式(5)。證實(shí)類指令的復(fù)誦程序與陳述性指令的復(fù)誦基本相同,根據(jù)語義標(biāo)簽判定管制指令為重復(fù)確認(rèn)類指令后,根據(jù)提取的意圖及其相關(guān)參數(shù),生成陳述類指令文本,然后以航空器呼號作為結(jié)束,生成完整的指令復(fù)誦文本。針對協(xié)商類指令,飛行員需依據(jù)實(shí)際飛行狀態(tài)對管制員的協(xié)商類指令進(jìn)行復(fù)誦。本系統(tǒng)接入模擬機(jī)系統(tǒng)數(shù)據(jù),通過模擬機(jī)系統(tǒng)中的飛機(jī)飛行態(tài)勢與提取到的管制指令意圖及參數(shù)進(jìn)行對比判斷,確定管制員發(fā)出的指令是否合法:若合法則復(fù)述管制指令;否則,與管制員協(xié)商。如表1示例,其復(fù)誦規(guī)則同常規(guī)陳述指令一樣,詳見式(5)。
1.3.2 特情處理
本文針對實(shí)際空中交通中可能存在的突發(fā)狀況或者緊急情況等,設(shè)計(jì)了1 套特情模式下機(jī)長復(fù)誦方案,旨在培訓(xùn)和考察管制員或?qū)W員在特情突發(fā)狀態(tài)下的臨時(shí)應(yīng)變能力。在可視化的人機(jī)交互面板中,設(shè)置了1 個(gè)特情觸發(fā)按鈕供教員選擇。觸發(fā)按鈕后,系統(tǒng)會彈出1個(gè)特情選擇窗口,按照“航空器故障”“機(jī)組突發(fā)狀況”“外部環(huán)境干擾”分類設(shè)置特情,具體特情及復(fù)誦方案如表2所示。
表2 特情類別及復(fù)誦方案Tab.2 Categories of flight emergency and repletion program
當(dāng)教員選擇某個(gè)具體特情時(shí),系統(tǒng)通過提前建立的特情處置語音庫,向管制員主動報(bào)告相關(guān)特情并且向模擬機(jī)系統(tǒng)發(fā)送相關(guān)特情指令,得以讓管制員在可視化模擬界面中看到相關(guān)狀態(tài),使特情盡可能真實(shí)。系統(tǒng)處理特情指令復(fù)誦時(shí),按表2中的復(fù)誦方案向管制員復(fù)誦。
基于空管語音涉及大量專業(yè)術(shù)語、特殊名詞,中英文混合,發(fā)音特殊、韻律語速等情況,具有強(qiáng)烈行業(yè)特殊性,本文通過對大量真實(shí)空管語音進(jìn)行研究分析,制作了專業(yè)空管語音合成訓(xùn)練數(shù)據(jù)庫,極大提高了空管語音合成模型合成語音的質(zhì)量,合成語音可更真實(shí)反映空管語音特點(diǎn)。
本文參考前人研究工作,采用1個(gè)端到端神經(jīng)網(wǎng)絡(luò)模型,使用自建空管語音語料庫,對文本進(jìn)行分詞、標(biāo)注等預(yù)處理后,與詞匯表進(jìn)行匹配,將其轉(zhuǎn)為音素;然后,傳入編碼器模型和解碼器模型生成語音頻譜;最后,通過聲碼器轉(zhuǎn)換為語音波形。
本文涉及的深度學(xué)習(xí)模型均基于開源框架Py-Torch,編程語言為Python# 3.7。本文訓(xùn)練及測試服務(wù)器環(huán)境配置如下:2×Intel Core i7,2×NVIDIA GeForce GTX 1080Ti和64GB內(nèi)存,操作系統(tǒng)為Ubuntu 16.04。
本文收集來自成都區(qū)管采集的真實(shí)空中交通管制歷史通話數(shù)據(jù),其中,管制員語音指令包含進(jìn)近、塔臺以及區(qū)管指令。本文對這些語音進(jìn)行篩選、切割、文本標(biāo)注、意圖標(biāo)注、語義槽填充,構(gòu)建了1個(gè)專用的空管語音數(shù)據(jù)集,共100 000 條語音數(shù)據(jù),總時(shí)長為100 h。其中,中文語音67 586 條,合計(jì)72.5 h,英文數(shù)據(jù)32 414條,合計(jì)27.5 h。按照8 ∶1 ∶1 的比例將數(shù)據(jù)集分為訓(xùn)練集、測試集和驗(yàn)證集。
本文使用字錯(cuò)誤率(Character Error Rate,CER)作為識別精度,衡量模型性能。Cer定義如下[18]:
式(6)中:CI、CD、CS分別表示將語音識別模型預(yù)測結(jié)果轉(zhuǎn)換為真實(shí)文本過程中,替換、刪除以及插入的字/字母數(shù);C表示字/字母總數(shù)。
實(shí)驗(yàn)中,使用2.1 節(jié)介紹的空管語音數(shù)據(jù)集中的管制員語音作為語音識別模型的輸入,對應(yīng)的識別文本作為模型的輸出。為驗(yàn)證本文語音識別模型性能,同時(shí)對當(dāng)前流行的3 個(gè)語音識別模型Wav2letter++、Deep Speech 2(DS2)、Jasper 進(jìn)行訓(xùn)練與測試,與本文模型作對比使用,實(shí)驗(yàn)結(jié)果如表3所示。
表3 語音識別實(shí)驗(yàn)結(jié)果Tab.3 Experimental results of automatic speech recognition
從實(shí)驗(yàn)結(jié)果可知,與當(dāng)下流行的3個(gè)語音識別模型相比,本文ASR 的中文及英文語音識別性能更加優(yōu)異,表明本文ASR 模型采用LSTM 結(jié)構(gòu)提升語音識別精度的策略是有效的。與英文識別相比,本文ASR 模型中文的識別效果更加優(yōu)異。但是,通過對實(shí)驗(yàn)結(jié)果的進(jìn)一步分析,ASR 模型還存在一些不足,比如對航班號的識別精度不高,這是由于中文發(fā)音特殊性導(dǎo)致,如數(shù)字6 和9 發(fā)音相近,容易識別混淆。未來將通過對數(shù)據(jù)集進(jìn)行擴(kuò)充及優(yōu)化,同時(shí)對模型結(jié)構(gòu)進(jìn)一步調(diào)整,以增強(qiáng)本文ASR模型的識別性能。
本節(jié)實(shí)驗(yàn)中,使用2.1 節(jié)介紹的空管語音數(shù)據(jù)集中的管制員語音文本作為指令解析模型的輸入,對應(yīng)的語義槽標(biāo)注、指令意圖識別作為模型的輸出,使用準(zhǔn)確率作為評價(jià)標(biāo)準(zhǔn),衡量語義槽填充任務(wù)以及意圖分類任務(wù)的效果。準(zhǔn)確率定義如下[22]:
式(7)中:Sc為預(yù)測正確的樣本數(shù);S為總樣本數(shù)。
為驗(yàn)證本文指令理解模型的語義槽標(biāo)注及意圖分類效果,本文同時(shí)使用2個(gè)用于自然語言理解任務(wù)的模型BiGRU-CRF 和Slot-gated 來對本文的指令解析進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。
表4 指令解析實(shí)驗(yàn)結(jié)果Tab.4 Experimental results of instruction understanding
從表4中可以看出,本文指令理解方法在語義槽填充任務(wù)和意圖識別任務(wù)中的表現(xiàn)性能均優(yōu)于BiGRUCRF 和Slot-gated 模型,表明本文指令理解模型所采用的自注意編碼器加深了對輸入指令的語義編碼,基于詞級別的意圖識別,提高了意圖識別的準(zhǔn)確率。使用交叉注意力機(jī)制加強(qiáng)了意圖與語義槽的信息交互與融合的策略,能有效地提升語義槽填充及意圖識別的準(zhǔn)確率。
為了驗(yàn)證本文智能應(yīng)答機(jī)長系統(tǒng)在智能復(fù)誦應(yīng)答上的實(shí)際效果,將本系統(tǒng)作為子系統(tǒng)連接在成都區(qū)管中心管制員培訓(xùn)模擬機(jī)上,供管制員測試。本文對測試數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。本次測試時(shí)間為10 d,共5 000條指令。其中包括進(jìn)近指令1 000 條,塔臺指令1 000條,區(qū)管指令3 000 條,所有指令涵蓋了從起飛到進(jìn)近、降落的完整的飛行模擬場景。本文使用管制員指令語音作為輸入,系統(tǒng)的復(fù)誦文本作為輸出,對比復(fù)誦指令與管制員指令之間的意圖類別、參數(shù)等信息,制定了專門針對復(fù)誦準(zhǔn)確率的評價(jià)標(biāo)準(zhǔn),其定義如下式所示[22]:
式(8)中:Ic為預(yù)測正確的樣本數(shù);I為總樣本數(shù)。
由于目前沒有現(xiàn)成可用的模擬機(jī)自動應(yīng)答系統(tǒng),本節(jié)沒有設(shè)計(jì)對照實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表5所示。
表5 指令復(fù)誦實(shí)驗(yàn)結(jié)果Tab.5 Experimental results of instruction repetition
從實(shí)驗(yàn)結(jié)果可以看出,本文智能機(jī)長自動應(yīng)答的準(zhǔn)確率達(dá)到88.6%,在管制員培訓(xùn)中可以充當(dāng)代理機(jī)長,對管制員指令做出回應(yīng)。從表5 可以看出,本文智能機(jī)長系統(tǒng)對進(jìn)近指令和區(qū)管指令的應(yīng)答準(zhǔn)確率較高,表現(xiàn)明顯優(yōu)于對塔臺指令的復(fù)誦應(yīng)答。通過對實(shí)驗(yàn)過程分析發(fā)現(xiàn),這是不同類型指令的復(fù)雜度的差異性導(dǎo)致的。
如表6所示,進(jìn)近指令、區(qū)管指令內(nèi)容比較簡短,意圖類型、參數(shù)相對較少,易于識別和提取。而塔臺指令相對比較復(fù)雜,需要飛行員完成的動作比較多。因此,對意圖的分類識別要求以及參數(shù)提取的要求更高,這就導(dǎo)致系統(tǒng)在對塔臺指令復(fù)誦時(shí)可能出現(xiàn)參數(shù)或意圖遺漏的情況,因而復(fù)誦準(zhǔn)確率要低一些。
表6 指令樣本數(shù)據(jù)示例Tab.6 Sample of instruction data
本文通過對空管管制指令及復(fù)誦業(yè)務(wù)的分析,制定了管制指令相應(yīng)復(fù)誦方案,并通過對語音識別技術(shù)、指令解析技術(shù)以及語音合成技術(shù)的綜合運(yùn)用,設(shè)計(jì)了1套面向空管模擬機(jī)管制員培訓(xùn)的智能應(yīng)答機(jī)長系統(tǒng),同時(shí)設(shè)計(jì)了1 套特情處理復(fù)誦方案。通過實(shí)驗(yàn)測試及分析,發(fā)現(xiàn)本文系統(tǒng)能在一定程度上代替機(jī)長角色,降低管制員培訓(xùn)過程中的人力成本。后續(xù)工作中,將進(jìn)一步增加指令解析訓(xùn)練樣本數(shù)據(jù)量,并對復(fù)誦方案進(jìn)行優(yōu)化,使本文系統(tǒng)能適應(yīng)更復(fù)雜的空管管制場景。