王艾,林孟陽
(中國民用航空飛行學(xué)院外國語學(xué)院,四川 廣漢 618307)
無線電陸空通話是指飛行員與空中交通管制員在無線電頻率上進(jìn)行的以信息傳遞為目的的口語語言[1]。語言是人類傳遞情緒信息的工具。語音不僅包含說話人所要表達(dá)的語義信息,還蘊(yùn)含說話人所要表達(dá)的情緒信息[2]。民航英語作為一門專門用途的語言,具備語言的社會性功能,也會傳遞情緒。
在民航飛行的過程中,可能遭遇如火災(zāi)、劫機(jī)、惡劣氣象、鳥擊、發(fā)動機(jī)失效、起落架故障等各種險情。當(dāng)面對險情時,飛行員的不同情緒狀態(tài)會在無線電陸空通話這一載體中顯現(xiàn)出來。從2009年1 月15日遭遇黑雁撞擊、雙發(fā)熄火,飛機(jī)失去動力后成功迫降哈德遜河的全美航空1549航班薩利機(jī)長,到2018年5月14日川航3U8633飛機(jī)駕駛艙副駕駛席風(fēng)擋玻璃突然炸裂,駕駛艙嚴(yán)重失壓情況下成功返航的劉傳建機(jī)長,以及2019年8月15日遭遇鳥擊、飛機(jī)雙發(fā)失效,成功迫降玉米地的俄羅斯機(jī)長達(dá)米爾·尤蘇波夫的通話錄音中可以看出,三位機(jī)長均具備一個共同的特點(diǎn),即情緒穩(wěn)定,思維清晰。他們的無線電陸空通話符合通話規(guī)范,其語速平穩(wěn),內(nèi)容較清晰(川航通訊失效后除外)。因此,穩(wěn)定的情緒對民航飛行安全至關(guān)重要。面向飛行員的情緒識別是保證民航安全的重要一環(huán)。
情緒是一種復(fù)雜的心理狀態(tài),會影響人的高級認(rèn)知過程,包括解釋、判斷、推理以及決策[3]。按照其特性和對個體的影響,分為積極情緒、消極情緒和中性情緒。積極情緒即正性情緒,是指個體由于體內(nèi)外刺激、事件滿足個體需要而產(chǎn)生的伴有愉悅感受的情緒,包括快樂、滿意、興趣、自豪、感激等[4]。消極情緒指一種心情低落和陷于不愉快境況的基本主觀體驗(yàn),包括抑郁、焦慮、憤怒、悲傷等情緒狀態(tài)[5]。中性情緒指既不明顯積極也不明顯消極的情緒狀態(tài),是一種介于積極情緒與消極情緒之間的一種情緒狀態(tài),如平靜、冷靜。
當(dāng)面臨特情時,積極穩(wěn)定的情緒是飛行員正確操縱飛機(jī)安全著陸的保障。積極的情緒可以讓飛行員集中精力記憶重要信息,正確流暢地進(jìn)行陸空通話,并根據(jù)飛機(jī)的情況尋求最佳解決方案。而負(fù)面情緒則會影響飛行員的注意力、記憶力以及邏輯思維能力,進(jìn)而影響空管人員對陸空通話的理解,進(jìn)而對飛機(jī)狀態(tài)和飛行員意圖做出錯誤的判斷,失去對飛機(jī)的控制,讓險情雪上加霜。飛行員的情緒穩(wěn)定性與飛行的安全績效息息相關(guān)[6]。保持積極穩(wěn)定的情緒對飛行安全具有重要意義。因此,識別飛行員的情緒狀態(tài),對其負(fù)面情緒進(jìn)行干預(yù),并對情緒不穩(wěn)定的飛行員進(jìn)行情緒自控力的訓(xùn)練,將極大地促進(jìn)民航安全。
本文擬根據(jù)飛行員的工作特點(diǎn),結(jié)合人工智能技術(shù),提出一種基于無線電陸空通話的民航飛行員的語音情緒識別模型,可對飛行員的情緒進(jìn)行識別和監(jiān)控,并對頻繁出現(xiàn)沮喪、焦慮、緊張等負(fù)面情緒的飛行員及時采取干預(yù)措施,進(jìn)行情緒自控力的訓(xùn)練,以確保飛行安全。
情緒識別是指計(jì)算機(jī)通過對采集的信號進(jìn)行分析,自動識別人的情緒狀態(tài)的技術(shù)。隨著人工智能的快速發(fā)展,情緒識別技術(shù)得到廣泛的應(yīng)用。目前,人的情緒可以通過四種模式進(jìn)行識別。第一種是通過對心率、皮膚電、腦電等生理信號的情緒檢測。第二種是通過對眼睛、嘴角、眉毛等面部肌肉的運(yùn)動進(jìn)行面部情緒識別。第三種是文本情緒識別,即通過情緒詞典以及深度學(xué)習(xí)的方法,提取單詞、句子中的情緒特征進(jìn)行識別。第四種是語音情緒識別,利用計(jì)算機(jī)分析語音信息,提取情緒特征,將特征值與情緒進(jìn)行匹配,然后對情緒信息分類,進(jìn)而推斷出情緒狀態(tài)的過程[7]。每種情緒識別方式因其不同的特點(diǎn),均有其相應(yīng)的應(yīng)用場景。如果條件允許,也可以進(jìn)行多模態(tài)的情緒識別,以提高其識別的準(zhǔn)確性。
由于飛行員特殊的工作環(huán)境和工作性質(zhì),無論是通過佩戴腦電圖帽進(jìn)行腦電測試,還是在手上固定電極進(jìn)行皮膚電測試,對飛行員都是一種入侵式的檢測方式,會干擾其正常的操作。同時,由于這些設(shè)備的不舒適性、不便攜等缺陷,基于生理信號的情緒識別并不適用于民航飛行員。對于面部情緒識別技術(shù),一方面由于白天駕駛艙的紫外線較強(qiáng),飛行員佩戴的太陽鏡遮擋了面部,另一方面由于夜間駕駛艙的光線較暗,采集面部特征較難,所以飛行員的面部情緒識別較難實(shí)現(xiàn)。此外,在飛行過程中,飛行員與空中交通管制員及機(jī)組人員均是語音的交流,基本沒有文本信息的交流,因此文本情緒識別同樣不適用。
通過上述分析,基于生理信號、面部情緒或文本的情緒檢測方法均不適用于飛行員。在整個執(zhí)飛過程中,飛行員需要與空中交通管理員進(jìn)行關(guān)于航路、高度、航行速度等信息的無線電陸空通話。因此,在無線電通信系統(tǒng)中融入語音情緒識別技術(shù),從中提取出語音信號特征,包括音量、音調(diào)等,即可實(shí)現(xiàn)情緒狀態(tài)分析。因此,語音情緒識別是面向飛行員特殊工作環(huán)境的最佳情緒識別形式。
無線電陸空通話是一種高度限制的英語,要求最大限度地提高準(zhǔn)確性、簡明性和清晰度,從而有助于航空安全[1]。這種高度限制的英語與普通英語在語音特征、使用場景、語言風(fēng)格等方面均存在不同。
1)語音特征的差異:由于飛機(jī)駕駛艙較大的背景噪音,無線電陸空通話可能存在信號失真、噪音干擾等問題,導(dǎo)致語音質(zhì)量下降,從而對語音的聲調(diào)、語速和音色等關(guān)鍵聲學(xué)特征產(chǎn)生影響。而普通英語通話在日常生活場景中發(fā)生,語音較自然和清晰,質(zhì)量相對更好。
2)語言內(nèi)容和語言使用規(guī)范的特殊性:無線電陸空通話是一種在特定環(huán)境下交流的語言,其包含很多民航專業(yè)術(shù)語和特殊的語言使用規(guī)范。因此在進(jìn)行飛行員情緒識別時,有必要針對這些特點(diǎn)進(jìn)行相應(yīng)的語料庫構(gòu)建和情感分析模型的訓(xùn)練,以確保準(zhǔn)確地捕捉和識別情緒信號。
3)語言風(fēng)格的差異:為避免歧義和提高通訊效率,飛行員和空中交通管制員需要使用簡短、清晰和直接的語言。因此,無線電陸空通話較普通英語相比,更加規(guī)范、簡潔和明了。這種語言風(fēng)格可能會使情緒識別的難度較普通英語更難。
無線電陸空通話和普通英語存在著語音特征、語境和語言風(fēng)格等方面的差異。因此,基于無線電陸空通話的情緒識別,需要充分考慮其特殊的語音特征、語言內(nèi)容和語言使用規(guī)范以及語言風(fēng)格的差異,進(jìn)行定制化的情感分析模型訓(xùn)練和情緒分類,以便更好地捕捉飛行員的情緒,為飛行員自我情緒調(diào)節(jié)管理提供依據(jù)。
為了從無線電陸空通話中提取出飛行員的情緒特征,本文針對飛行員的特殊工作環(huán)境和安全需求,提出了一種可行的技術(shù)應(yīng)用框架,如圖1所示。
圖1 基于無線電陸空通話的飛行員語音情緒識別技術(shù)及應(yīng)用框架
步驟1:構(gòu)建飛行員陸空通話的語音情緒識別語料庫。從飛行訓(xùn)練、模擬飛行、實(shí)際飛行中收集大量的飛行員語音數(shù)據(jù),包含了各種飛行場景和任務(wù),可以充分反映飛行員在飛行任務(wù)中可能出現(xiàn)的各種情緒。定義“積極情緒”“消極情緒”和“中性情緒”三類標(biāo)簽。根據(jù)語音內(nèi)容和語調(diào)給每段語音打上情緒標(biāo)簽。在標(biāo)注過程中,特別注意到飛行員在執(zhí)行任務(wù)時可能表現(xiàn)出的微妙情緒和特殊情緒表達(dá)方式。
步驟2:采集飛行員與空中交通管制員之間的無線電陸空通話錄音,根據(jù)時間維度連續(xù)采樣,并切分成連續(xù)的音頻數(shù)據(jù)樣本。考慮到飛行環(huán)境中可能有較大的背景噪聲,可基于最小均方誤差(MSE)原理,采用最小化噪聲和期望語音信號之間的均方誤差實(shí)現(xiàn)Wiener濾波器,如公式(1):
同時,還可以設(shè)計(jì)一個高通濾波器,強(qiáng)調(diào)高頻部分,降低低頻部分,以提高語音信號的質(zhì)量,使其更加接近人耳的感知特性,如公式(2):
步驟3:從錄音中提取梅爾頻率倒譜系數(shù)[7](MFCC)作為關(guān)鍵的聲學(xué)特征。梅爾頻率倒譜系數(shù)的定義如公式(3)所示:
然后,基于混合高斯模型GMM,從特征中識別飛行員的身份,以確認(rèn)每段音頻中的說話人。GMM 的概率密度函數(shù)可以表示為:
步驟4:從錄音中提取出短時能量(Short-Time Energy),聲門開閉周期(Jitter)和頻譜子帶噪聲(Shimmer)等情緒特征。短時能量的定義如公式(5),聲門開閉周期的定義如公式(6),頻譜子帶噪聲的定義如公式(7)。
步驟5:基于飛行員語音情緒語料庫,利用深度卷積神經(jīng)網(wǎng)絡(luò)對語音中提取的情緒特征進(jìn)行情緒分類,可分為積極情緒、消極情緒和中性情緒。為了提升檢測效果,可以在網(wǎng)絡(luò)中加入注意力機(jī)制。
步驟6:對分類數(shù)據(jù)進(jìn)行動態(tài)分析和可視化呈現(xiàn)。通過情緒變化的動態(tài)圖表,了解和掌握飛行員的情緒狀態(tài)。
步驟7:基于上述結(jié)果,實(shí)現(xiàn)對飛行員的情緒分析,并對其情緒自控力進(jìn)行量化評價。
基于上述模型,一方面飛行員可以根據(jù)情緒的識別結(jié)果對自己的情緒進(jìn)行調(diào)節(jié),通過情緒識別結(jié)果,飛行員可以清楚了解自己的情緒狀態(tài)。如有負(fù)面情緒,則分析出現(xiàn)負(fù)面情緒狀態(tài)的原因,并采用一定的情緒調(diào)節(jié)策略或者情緒管理方法對自己的情緒進(jìn)行管理和調(diào)節(jié),提高工作效率和安全。另一方面,航空公司可以針對經(jīng)常容易處于負(fù)面情緒的飛行員進(jìn)行情緒疏導(dǎo)或情緒自控力訓(xùn)練,使他們能更好地應(yīng)對飛行過程中的壓力和挑戰(zhàn),以提高其工作表現(xiàn)和安全能力水平。
本文從提升民航飛行安全出發(fā),闡述了飛行員情緒識別的必要性,梳理了當(dāng)前基于人工智能的情緒識別方法,分析了無線電陸空通話與普通英語的區(qū)別,并結(jié)合飛行員的工作環(huán)境和工作特點(diǎn),提出了民航飛行員情緒識別的可行性技術(shù)方案,并構(gòu)建了一種基于無線電陸空通話的飛行員情緒識別技術(shù)和應(yīng)用框架,可為飛行員和航空公司提供動態(tài)的情緒狀態(tài)反饋,進(jìn)而為情緒分析和情緒自控力訓(xùn)練提供有力的參考依據(jù)。
當(dāng)然,該技術(shù)也面臨著很多挑戰(zhàn)。首先,情緒識別需要空管局及航空公司提供海量的語音數(shù)據(jù)。此外,情緒標(biāo)注數(shù)據(jù)需要投入大量的時間和人力成本。由于無線電陸空通話的特殊性,其特定的句型及大量專業(yè)術(shù)語進(jìn)一步增加了語音識別的難度。另外,情緒是一種對客觀事物的個人體驗(yàn),會受文化、個人特質(zhì)、環(huán)境、社會習(xí)俗等因素的影響。盡管還存在著若干挑戰(zhàn),隨著語音識別技術(shù)的發(fā)展,可為民航提供了一種新的角度和方法實(shí)現(xiàn)對飛行員的情緒管理。