向 倩
(中國民航大學(xué) 空中交通管理學(xué)院,天津 300300)
陸空通話用于管制員與飛行員交互空中交通動(dòng)態(tài)信息,是保障航空安全和效率的最基礎(chǔ)手段,是一種全球通用的管制員和飛行員英文對話標(biāo)準(zhǔn)。為加強(qiáng)管制員培訓(xùn)效果,滿足非英語國家陸空通話用語規(guī)范和發(fā)音標(biāo)準(zhǔn)的需求,提出管制員飛行員人機(jī)對話系統(tǒng),利用計(jì)算機(jī)響應(yīng)管制指令替代機(jī)長席位。對話系統(tǒng)分為語音識別模塊和語言理解模塊。語音識別與語音合成技術(shù)[1-2]已廣泛應(yīng)用于陸空通話領(lǐng)域,而直到最近幾年,自然語言理解研究才得到了初步發(fā)展。2017年,盧薇冰[3]和路玉君[4]基于改進(jìn)CNN和RNN模型利用詞向量對陸空通話語義相似度進(jìn)行比較,輔助計(jì)算機(jī)判斷復(fù)誦過程中的失誤。
2013年,詞向量被證明能捕獲更復(fù)雜的語言屬性,最大限度保留單詞語義、結(jié)構(gòu)信息[5]。人機(jī)對話系統(tǒng)語言理解模塊基于神經(jīng)網(wǎng)絡(luò),以對話文本為網(wǎng)絡(luò)實(shí)際輸入,文本向量為本質(zhì)輸入,高質(zhì)量的詞向量能賦予神經(jīng)網(wǎng)絡(luò)更多學(xué)習(xí)信息,因此除優(yōu)化系統(tǒng)網(wǎng)絡(luò)模型外,需要對詞向量進(jìn)行評價(jià)以保證源頭輸入向量的質(zhì)量。
早期詞向量內(nèi)部評估通過直接測量語義相關(guān)性和幾何相關(guān)性來測量詞向量的質(zhì)量,包括相似性計(jì)算、類比、分類等方法[6]。后來的學(xué)者更加關(guān)注詞向量在下游任務(wù)的表現(xiàn),使用詞向量作為下游任務(wù)的輸入特性,并度量特定于該任務(wù)的性能指標(biāo)的變化稱為外部評估方法。Schnabel[7]、Anna[8]等人結(jié)合了傳統(tǒng)內(nèi)部評估方法和諸如名詞短語分塊、命名實(shí)體識別、情緒分類、推理任務(wù)等外部評估方法。Tulkens[9]提出了利用詞向量將荷蘭語方言文本映射到文本原始分類區(qū)域,借此衡量詞向量的相似分類特性。
對于低資源語言如陸空通話用語,由于缺乏前人標(biāo)注文件和工具材料,需要制定自身的評估方法和標(biāo)準(zhǔn)。詞向量的首要功能是表征語義,對詞向量質(zhì)量評估即對詞向量表征語義的能力進(jìn)行評估??紤]到下游管制員飛行員人機(jī)對話系統(tǒng)的任務(wù),制定了一個(gè)基于K-Means的概念分類和基于Siamese網(wǎng)絡(luò)句子相似度計(jì)算的陸空通話詞向量評估方法。首先建立陸空通話數(shù)據(jù)集,借助word2vec模型生成詞向量;其次利用概念分類的方法,通過比較詞向量分類和人工分類詞典的差異來證明詞向量表征語義區(qū)分單詞的功能;最后建立陸空通話指令比較集,通過詞向量來比較指令相似度,利用判斷準(zhǔn)確率來進(jìn)一步證明詞向量表征語義的功能。
自然語言理解的發(fā)展得益于語義表達(dá)技術(shù)的發(fā)展,早期人類知識被表示為知識庫的形式;隨著計(jì)算機(jī)技術(shù)的更新,以自然文本為輸入,高維稀疏向量為輸出的傳統(tǒng)語義表達(dá)方法開始盛行[10];然而高維稀疏的語義表達(dá)方法無法有效地表達(dá)出詞語之間的相似度信息,1986年Hinton[11]提出了詞的分布式表示,能通過刻畫詞的多重屬性更高效表示詞義和語言結(jié)構(gòu)等信息,在形式上表示為低維連續(xù)的向量。以管制員指揮國航1421航班調(diào)整航向的指令為例,展示了兩種語義表示方法的具體形式,如表1所示。
表1 語義表示方式示例
每個(gè)單詞以幾十上百維的向量形式表示,涵蓋了語義、語法、上下文關(guān)系等多種特征。詞向量將單詞映射到向量空間里,通過計(jì)算單詞的“距離”信息來捕捉它們之間存在的句法(結(jié)構(gòu))和語義(語義)等相關(guān)關(guān)系。
陸空通話語料數(shù)據(jù)集來源于飛行進(jìn)離場階段真實(shí)通話錄音文件。進(jìn)場階段是指航路飛行航空器下降對準(zhǔn)跑道的過程,離場階段是指離場航空器加入航路飛行的階段。該階段涉及到的空管指令主要包括:高度、速度、航向、進(jìn)離場程序。其對話結(jié)構(gòu)如下:
對方呼號+通話內(nèi)容
復(fù)述通話內(nèi)容+己方呼號
示例:
C:CCA1421,Dongfang Approach,radar contact.
P:Dongfang Approach,CCA1421.
C:CCA1421,turn right heading 110 for spacing.
P:Right heading 110,CCA1421.
管制員用語分為許可類、指令類、限制類、報(bào)告類、證實(shí)類和信息類,飛行員用語分為請求類、狀態(tài)報(bào)告類、復(fù)訟類。
陸空通話標(biāo)準(zhǔn)用語具有以下幾個(gè)特點(diǎn):語法結(jié)構(gòu)單一,指令長度適中,指令重復(fù)率高,詞匯量有限,屬于小型語料庫。分析陸空通話語言結(jié)構(gòu)及詞向量評估方法可得出:
(1)對話多為祈使句和陳述句,不具有主觀情緒色彩,因此不能用情感分類來評估陸空通話詞向量。
(2)語料庫詞匯較少,指令之間存在較弱的上下文語境關(guān)系,單詞之間缺乏有效的類比關(guān)系,故不能用類比(關(guān)系識別)來評估。
(3)指令主語一般為航空器呼號,選擇偏好用于判斷句子語義和動(dòng)賓等邏輯信息,同樣也不適合該方法。
多個(gè)傳統(tǒng)詞向量內(nèi)部評估標(biāo)準(zhǔn)均不適用于陸空通話詞向量的評估。結(jié)合管制員飛行員人機(jī)對話系統(tǒng)需求和詞向量內(nèi)部、外部評估標(biāo)準(zhǔn),利用概念分類和句子相似度計(jì)算來評價(jià)陸空通話詞向量。
根據(jù)上述陸空通話呼叫結(jié)構(gòu)形式和終端區(qū)信息,建立指令類-復(fù)訟類常規(guī)陸空通話數(shù)據(jù)集,共計(jì)360個(gè)單詞,3 167 641條指令-回答語句對,涉及5架航空器、1家管制單位。
目前應(yīng)用最為廣泛的詞向量訓(xùn)練方法有word2vec、Glove,經(jīng)過眾多研究顯示word2vec在大部分測評指標(biāo)優(yōu)于Glove。word2vec可利用CBOW和Skip-gram兩種方法產(chǎn)生詞向量,CBOW是輸入已知上下文,輸出對當(dāng)前單詞預(yù)測的模型,Skip-Gram是推測當(dāng)前單詞上下文單詞的模型,模型網(wǎng)絡(luò)結(jié)構(gòu)見圖1。
圖1 CBOW網(wǎng)絡(luò)結(jié)構(gòu)、Skip-gram網(wǎng)絡(luò)結(jié)構(gòu)
簡而言之,word2vec模型其實(shí)是一個(gè)由輸入層、隱藏層、輸出層組成的簡單神經(jīng)網(wǎng)絡(luò),隱藏層為線性的單元。該模型以O(shè)ne-Hot向量為輸入,經(jīng)過訓(xùn)練之后,使用輸入層和隱藏層之間的連接權(quán)重矩陣表示單詞之間的關(guān)系,輸出層與輸入層具有相同維度。
(1)CBOW模型。
CBOW模型又稱連續(xù)詞袋模型,以某中心詞臨近的上下文單詞所對應(yīng)的詞向量為輸入,輸出該特定中心詞的詞向量。
(2)Skip-gram模型。
Skip-gram顛倒了CBOW的輸入輸出關(guān)系,即已知當(dāng)前單詞,預(yù)測其上下文單詞。不根據(jù)上下文單詞來猜測目標(biāo)單詞,而是推測當(dāng)前單詞可能的前后單詞。該模型輸入為某一中心詞的詞向量,而輸出則是該中心詞對應(yīng)的上下文詞向量。
建立一個(gè)可以沿文本滑動(dòng)的時(shí)間窗,窗口大小N表示窗里含特定詞在內(nèi)的單詞數(shù)目,利用該滑動(dòng)窗就能統(tǒng)計(jì)出每個(gè)單詞可能出現(xiàn)的上下文單詞;為加快訓(xùn)練速度,將預(yù)測相鄰單詞這一任務(wù)改變?yōu)樘崛≥斎肱c輸出單詞的模型,并輸出一個(gè)表明它們是否是鄰居的分?jǐn)?shù)(0表示“不是鄰居”,1表示“鄰居”)。這個(gè)簡單的變換將需要的模型從神經(jīng)網(wǎng)絡(luò)改為邏輯回歸模型,因此更簡單,計(jì)算速度更快。同時(shí)為避免所有例子都是鄰居即準(zhǔn)確率為100%時(shí)而產(chǎn)生低質(zhì)量詞向量,可在數(shù)據(jù)集中引入不是鄰居單詞樣本作為負(fù)樣本,為這些樣本返回0,并隨機(jī)填充輸出單詞;最后訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,減小損失值,不斷更新模型參數(shù)用以表示單詞之間的關(guān)系。
CBOW在小型數(shù)據(jù)庫中表現(xiàn)更佳,而Skip-gram多用于大型語料庫,陸空通話語料庫為小型語料庫,更適用前者。詞向量生成訓(xùn)練選擇gensim庫中的word2vec模塊,在陸空通話數(shù)據(jù)集上進(jìn)行訓(xùn)練產(chǎn)生詞向量,窗口大小設(shè)置為5,維度設(shè)置為300。
傳統(tǒng)詞向量評估基于更高得分向量必然會改善下游任務(wù)結(jié)果的假設(shè),往往根據(jù)得分來比選不同方法產(chǎn)生的詞向量。然而該假設(shè)有時(shí)并不成立,不同的自然語言處理任務(wù)可能依賴于詞向量的不同語言特征,不能將這些評估分?jǐn)?shù)用作向量質(zhì)量的絕對評估標(biāo)準(zhǔn)。詞向量作為無監(jiān)督技術(shù)的產(chǎn)物缺乏目標(biāo)值比較,如果不參考下游任務(wù)的性能,不能較客觀地對其質(zhì)量進(jìn)行評估,因此針對特殊任務(wù)需要一套絕對的指標(biāo)來評估詞向量。
陸空通話指令分類明顯,內(nèi)部評估任務(wù)設(shè)定為概念分類實(shí)驗(yàn),根據(jù)詞向量將具有相同相似屬性的單詞聚類,淺層分析詞向量詞義和詞性的表征效果[12]。外部評估任務(wù)設(shè)定為指令相似度計(jì)算實(shí)驗(yàn),通過對比基于詞向量的句子相似度計(jì)算方法和基于wordnet、基于編輯距離的方法來佐證詞向量表征語義的功能。
手工制作陸空通話詞典并標(biāo)注分類,利用詞向量將其所對應(yīng)文本映射到文本的手工分類區(qū)域,通過計(jì)算映射準(zhǔn)確率,判斷是否可以在沒有任何監(jiān)督的情況下創(chuàng)建與手工制作資源等價(jià)的資源。
手工詞典按指令類別分為4大類和19小類。大類:速度、高度、航向、其他進(jìn)離場指令。小類:航向動(dòng)作、航向數(shù)據(jù)、高度動(dòng)作、高度數(shù)據(jù)、速度動(dòng)作、速度數(shù)據(jù)、動(dòng)作原因、方位、跑道、航路點(diǎn)、航空器呼號、進(jìn)離場程序、管制單位、管制單位頻率、距離數(shù)據(jù)、氣壓數(shù)據(jù)、應(yīng)答機(jī)編碼、介詞、其他單詞。
利用K-means將詞向量聚類為10類。聚類數(shù)據(jù)i映射到原始分類中的數(shù)據(jù)個(gè)數(shù)和所占比例見公式1。各類別映射準(zhǔn)確率見表2。
表2 聚類數(shù)據(jù)映射到原始分類中數(shù)據(jù)的比例
(1)
其中,i為聚類類別,m為大類類別(≤4),n為小類類別(≤19),count()為數(shù)據(jù)個(gè)數(shù)。
注:數(shù)據(jù)過少的分組忽略不計(jì)。
表2聚類數(shù)據(jù)的映射結(jié)果顯示,當(dāng)聚類數(shù)據(jù)較少時(shí)映射準(zhǔn)確率較高,普遍能達(dá)到90%以上,分類特征明顯。而當(dāng)聚類數(shù)據(jù)較多時(shí),由于單詞涉及的航行動(dòng)作多且復(fù)雜,映射準(zhǔn)確率較低,不到60%。該結(jié)果從淺層證明了陸空通話詞向量具有一定分類特性,符合陸空通話指令分類明顯的特征。
利用t-SNE(t-distributed stochastic neighbor embedding)機(jī)器學(xué)習(xí)算法將300維詞向量降至2維,圖2可視化了詞向量在二維空間的分布和詞向量聚類結(jié)果,不同灰度代表不同單詞分類。其中詞向量的空間距離不代表向量的實(shí)際距離。
圖2 陸空通話詞向量聚類二維平面圖
利用基于Siamese網(wǎng)絡(luò)的句子相似度計(jì)算模型來判斷兩句陸空通話指令的相似程度,其結(jié)構(gòu)如圖3所示。通過比較該方法與其他計(jì)算方法的判斷準(zhǔn)確率來評價(jià)詞向量。句子相似度計(jì)算的其他方法主要有基于編輯距離的方法、基于wordnet層級距離的方法,及其組合方法。
圖3 句子相似度計(jì)算模型結(jié)構(gòu)
基于編輯距離的方法是指計(jì)算兩個(gè)句子之間,由一句話轉(zhuǎn)成另一句話所需的最少編輯操作次數(shù),次數(shù)越多,說明它們越不同,多以單詞共現(xiàn)程度來衡量兩句話相似度。這種方法從單詞和語句表面結(jié)構(gòu)出發(fā),弱化了同義詞的語義關(guān)系,可視為基于語言結(jié)構(gòu)的度量方法[13]。
wordnet詞典詳細(xì)定義了每個(gè)單位的詞性和詞義,利用單詞上下位關(guān)系構(gòu)成分類樹,基于wordnet層級距離的方法將分類樹中的路徑作為相似度計(jì)算的參數(shù)。這種方法從語句深層詞義出發(fā),可視為基于單詞詞義的度量方法,容易忽略掉反義詞包含的可用上下文相關(guān)性[14]。對于字面不相似語義相似、語義不相似句子結(jié)構(gòu)相似的場景需要更復(fù)雜的模型來捕捉語義和結(jié)構(gòu)信息。
(1)網(wǎng)絡(luò)結(jié)構(gòu)。
Siamese網(wǎng)絡(luò)是一種神經(jīng)網(wǎng)絡(luò)框架,利用2個(gè)共享權(quán)值的網(wǎng)絡(luò)學(xué)習(xí)一對輸入數(shù)據(jù)的差異,能同時(shí)考慮單詞詞義和語言結(jié)構(gòu)[15]。具體使用LSTM來構(gòu)建句子相似度計(jì)算模型,該模型由輸入層、嵌入層、LSTM層、全連接層和輸出層5部分組成。LSTM讀取表示每個(gè)輸入句子的詞向量,它的最終隱藏狀態(tài)即為每個(gè)句子的向量表示,這些句向量由詞向量構(gòu)成,它們之間的相似性被用作語義相似性的預(yù)測。該方法依賴于預(yù)先訓(xùn)練好的詞向量作為LSTM輸入,因此它將受益于詞向量質(zhì)量的提升。損失函數(shù)選擇交叉熵?fù)p失函數(shù)binary_cross entropy,當(dāng)x1和x2相等時(shí)loss=0,否則loss為一個(gè)正數(shù),概率相差越大,loss越大。
(2)
其中,xi1表示第i個(gè)樣本第1個(gè)屬性的取值,xi2表示第i個(gè)樣本第2個(gè)屬性的取值。
(2)數(shù)據(jù)構(gòu)造。
陸空通話指令比較集以{x1,x2,y}的形式構(gòu)造,示例如下:x1和x2為兩個(gè)句子,y為相似度標(biāo)簽,1表示相似,0表示不相似。比較集總計(jì)27 452對標(biāo)注數(shù)據(jù),訓(xùn)練集占70%,驗(yàn)證集和測試集各占20%和10%。其形式如下:
指令1
指令2
標(biāo)簽
示例:
CCA142,turn left heading 200 .
CCA142,turn left heading 200 for spacing.
1
CCA142,descend to 2100 meters.
CCA142,climb to 900 meters .
0
(3)模型訓(xùn)練。
隨著訓(xùn)練輪數(shù)的增加,損失函數(shù)值呈下降趨勢,準(zhǔn)確率呈上升趨勢,在訓(xùn)練輪數(shù)達(dá)到第34輪時(shí),兩者變化趨于平穩(wěn),準(zhǔn)確率接近99%,損失函數(shù)值降到了0.002 8,模型基本達(dá)到收斂狀態(tài)(見圖4)。
圖4 模型準(zhǔn)確率、模型損失函數(shù)值的變化情況
(4)結(jié)果分析。
以相似度0.9作為判斷相似與否的分界閾值,相似度高于0.9則認(rèn)為兩句話相似,反之不相似。三種方法在測試集上的準(zhǔn)確率如表3所示?;诰庉嬀嚯x的方法表現(xiàn)最差,由于陸空通話對飛行動(dòng)作和動(dòng)作數(shù)據(jù)有確切要求,因此在語言結(jié)構(gòu)不變的基礎(chǔ)上變換單詞為反義詞時(shí)語義正好相反,而該方法無法準(zhǔn)確度量語義,造成相似度比較準(zhǔn)確率低的結(jié)果?;趙ordnet層級距離的方法雖能夠識別同義詞和反義詞,但語言結(jié)構(gòu)變化會引起相似度計(jì)算減小,造成判斷準(zhǔn)確率下降。以神經(jīng)網(wǎng)絡(luò)和詞向量來計(jì)算句子相似度的方法取得了較好的收益,準(zhǔn)確率達(dá)到了93.6%,證明詞向量是表征語義的良好手段,相對能更大限度蘊(yùn)含詞義和語言結(jié)構(gòu)信息,作為網(wǎng)絡(luò)輸入能對下游管制員飛行員人機(jī)對話系統(tǒng)產(chǎn)生正面的影響。
表3 句子相似度算法比較
以近階段常規(guī)陸空通話為知識來源,將概念分類和句子相似度計(jì)算納入詞向量評價(jià)當(dāng)中。概念分類的準(zhǔn)確率平均值達(dá)80.2%,淺層證明了詞向量表征語義區(qū)分單詞的特性?;谠~向量的句子相似度計(jì)算準(zhǔn)確達(dá)93.6%,遠(yuǎn)超基于詞義和語言結(jié)構(gòu)的其他方法,進(jìn)一步證實(shí)了詞向量表征語義的功能,具備作為下游人機(jī)對話系統(tǒng)輸入的條件。
研究存在兩點(diǎn)不足:構(gòu)造比較數(shù)據(jù)集時(shí)方法不夠規(guī)范,耗時(shí)長覆蓋少;人為設(shè)定閾值作為相似與否的分界存在較大主觀性。后續(xù)工作研究重點(diǎn)將圍繞數(shù)據(jù)集構(gòu)造、相似分界閾值設(shè)定展開。