胡譽
摘? ?要:基于空管模擬訓(xùn)練機(jī)對空管人員訓(xùn)練的重要性和優(yōu)越性以及塔席特點,利用計算機(jī)實現(xiàn)飛行器動態(tài)特征的場景再現(xiàn),設(shè)定多場景、多任務(wù)的訓(xùn)練科目是目前采用的普遍做法。文章依托塔臺模擬機(jī)性能特點,采用有限詞匯量識別方法,結(jié)合空管發(fā)音規(guī)則、語法結(jié)構(gòu)、發(fā)音標(biāo)準(zhǔn)以及中英雙語等特點,采用動態(tài)時間歸正識別技術(shù)和語音同步疊加算法實現(xiàn)語音編碼、識別與合成,實現(xiàn)了多局部最優(yōu)化決策。
關(guān)鍵詞:塔臺模擬機(jī);語音技術(shù);動態(tài)時間規(guī)整識別;PSOLA算法;內(nèi)容擾亂系統(tǒng)
科學(xué)技術(shù)的飛速發(fā)展,對空中管制人員數(shù)量和綜合素質(zhì)提出了更高的專業(yè)性要求,采用先進(jìn)技術(shù)手段對空中交通管制人員進(jìn)行高水平訓(xùn)練的需求與日俱增,利用塔臺模擬訓(xùn)練系統(tǒng),通過模擬器模擬現(xiàn)實環(huán)境可能遇到的大流量、惡劣天氣、緊急特情等狀態(tài),對空中管制人員進(jìn)行不受航班時刻限制、不受時間限制的有效強度、全面的業(yè)務(wù)培訓(xùn),大大降低了實地訓(xùn)練的風(fēng)險和成本。依托塔臺模擬機(jī)性能特點,采用小詞匯量合成手段和基音同步疊加算法,實現(xiàn)訓(xùn)練人員及教練員、機(jī)長之間的語音通信,既可以滿足實訓(xùn)任務(wù)要求,又可以實時調(diào)整語調(diào)、語速,滿足語音識別需求??傊?,利用模擬的方法進(jìn)行管制服務(wù),通過真實場景再現(xiàn),從而提高空管人員訓(xùn)練的質(zhì)量和安全[1]。
1? ? 語音合成及識別技術(shù)
1.1? 語音編碼技術(shù)
語音編碼技術(shù)是實現(xiàn)語音合成及語音識別的關(guān)鍵技術(shù)。20世紀(jì)80年代之前的語音編碼技術(shù)主要采用波形編碼和參數(shù)編碼。波形編碼以取樣定理為基礎(chǔ),其特點是音質(zhì)效果較好,但是編碼碼數(shù)較多,占用較大空間;參數(shù)編碼是依據(jù)人類發(fā)音機(jī)理,同步提取語音特征參數(shù)實現(xiàn)編碼傳輸?shù)囊环N方法,數(shù)碼率低、音質(zhì)效果差。隨后很多國家采用了混合編碼技術(shù),其采用軟件算法對語音信號進(jìn)行解析,多采用多數(shù)線性預(yù)測和多帶激勵等算法實現(xiàn)波形的激勵和聲道傳輸功能。
混合編碼線性預(yù)測算法是應(yīng)用最廣泛、最有效的語音分析技術(shù)之一。線性預(yù)測算法能夠快速、精準(zhǔn)地提取一組估計語音信號譜幅度,形成語音信號的聲道濾波器,實現(xiàn)語音快速編碼和語音識別、合成。線性預(yù)測算法采用數(shù)學(xué)模型中的夾逼準(zhǔn)則對語音信號當(dāng)前某個樣位進(jìn)行階數(shù)(項數(shù))線性組合的逼近,階數(shù)系數(shù)利用最小誤差(實際樣位與預(yù)測值誤差)階乘準(zhǔn)則計算求得,系數(shù)隨時間(5~20毫秒每幀)變化,根據(jù)幀實現(xiàn)參數(shù)的刷新。線性預(yù)測算法的碼激勵(Code Excited Linear Prediction,CELP)為多帶激勵模型,由于純濁音(周期性)和純清音(非周期性)構(gòu)成每幀語音信號,在語音編碼模型中對話音進(jìn)行多段分解,依據(jù)清濁音(周期性和非周期性)判決,從而實現(xiàn)激勵的語音譜混合。因此線性預(yù)測算法對于語音合成的自然度、抗噪聲等功能比較優(yōu)秀。另外,隨著科學(xué)技術(shù)不斷發(fā)展,現(xiàn)在的語音編碼技術(shù)具備更加優(yōu)秀的語音質(zhì)量,而且抗干擾性更強,數(shù)碼率更低,時延特性更加優(yōu)越。
語音識別技術(shù)一般采取特征提取、語音識別單元選取、模式匹配準(zhǔn)則、模型訓(xùn)練等技術(shù)實現(xiàn)。特征參數(shù)提取主要采用線性預(yù)測(Linear Prediction,LP)分析、Mel參數(shù)、小波分析等技術(shù);模式匹配及訓(xùn)練多采用動態(tài)時間歸整(Dynamic Time Warping,DTW)、隱馬爾可夫模型(Hidden Markov Model,HMM)以及人工神經(jīng)元網(wǎng)絡(luò)(Artificial Neural Networks,ANNs)等技術(shù)實現(xiàn)[2]。
1.2? 語音合成技術(shù)
語音合成技術(shù)主要采用計算機(jī)實現(xiàn)語音編碼、識別、合成,最終形成清晰、明確、自然、具有張力和表現(xiàn)力的人類語言。20世紀(jì)60年代,國外首次研發(fā)并應(yīng)用了英語文本朗讀(Text to Speech,TTS)系統(tǒng),我國也在20世紀(jì)80年代完成了漢語語音合成TTS技術(shù),這是特定應(yīng)用場景下的一種語音輸出系統(tǒng),尤其是塔臺空中管制領(lǐng)域,應(yīng)用錄音、重放對有限語言詞匯進(jìn)行特殊拼接,實現(xiàn)航班信息發(fā)布、語音報時、航空語音通信等。另外一種為文字-語音轉(zhuǎn)換系統(tǒng),可以實現(xiàn)文字到語音的轉(zhuǎn)換,結(jié)合人類語言特點,模擬人類語音并提取特征參數(shù),然后利用計算機(jī)估計出聲道截面積函數(shù)或者聲道諧振特性,再利用Holmes共振峰、線性預(yù)測編碼(Linear Predictive Coding,LPC)、分層服務(wù)提供程序(Layered Service Provider ,LSP)等參數(shù)合成器形成規(guī)則語音波形。再有是采用拼接語音合成技術(shù),廣泛采用語音合成算法把聲音基元(音素、二元組 、三音子、音節(jié)、詞或句子)相互拼接組合,輸出連續(xù)語流。計算機(jī)存儲語音基元,合成時從語音數(shù)據(jù)庫中讀取基元、拼接、韻律修飾。拼接語音基元具有重音、聲調(diào)、發(fā)音速率等特征,因此,拼接語音合成輸出的語音更加清晰自然,音質(zhì)效果更高,語音更貼合人類自然聲音,語音基元存儲不受限制,但是拼接語音合成韻律參數(shù)如基頻、時長、音強等修改規(guī)則比較困難。TTS系統(tǒng)通過韻律修飾,利用計算機(jī)系統(tǒng)對語調(diào)、重音等快速模擬,實現(xiàn)語速、調(diào)高需求[3]。
2? ? 塔臺模擬機(jī)語音合成系統(tǒng)設(shè)計實現(xiàn)
2.1? 系統(tǒng)設(shè)計
結(jié)合航空塔臺管制語言特點,塔臺模擬系統(tǒng)語音識別管制指令、語句和短句等詞匯量有限,屬于有限詞匯量識別范疇;再有現(xiàn)實管制應(yīng)用場景中,要求語音識別具有速度快、響應(yīng)及時、通信流暢等特點,因此采用動態(tài)時間歸正識別技術(shù)和語音同步疊加算法實現(xiàn)語音編碼、識別與合成。塔臺模擬系統(tǒng)語音合成流程如圖1所示。塔臺模擬訓(xùn)練時,教練員通過其工作站對訓(xùn)練計劃、訓(xùn)練場景、訓(xùn)練難度、訓(xùn)練次數(shù)和進(jìn)度、飛行特情等進(jìn)行設(shè)置、保存,并對訓(xùn)練過程進(jìn)行監(jiān)控,通過語音通信系統(tǒng)掌握受訓(xùn)人員實時動態(tài)。模擬機(jī)長工作站主要對培訓(xùn)人員進(jìn)行機(jī)長任務(wù)臨時授權(quán),通過顯示器和通信設(shè)備完成機(jī)長職責(zé),進(jìn)一步增加訓(xùn)練的真實度。管制員工作站主要是復(fù)現(xiàn)塔臺管制員真實工作環(huán)境,嚴(yán)格按照管制席位設(shè)置,進(jìn)行設(shè)備重現(xiàn),受訓(xùn)人員通過模擬器訓(xùn)練平臺可以觀察模擬機(jī)場場面圖、飛行數(shù)據(jù)流量圖以及機(jī)場氣象數(shù)據(jù)實時信息,指揮飛行計劃,制定飛機(jī)進(jìn)場單等真實工作狀態(tài)。具體訓(xùn)練流程是管制員向模擬機(jī)長位發(fā)出飛機(jī)調(diào)度指令后,模擬機(jī)長席位根據(jù)指令與管制員進(jìn)行語音通話同時在模擬系統(tǒng)命令行中輸入飛機(jī)動作指令,指令輸入并正常執(zhí)行后,模擬系統(tǒng)中的命令行發(fā)聲系統(tǒng)自動向管制員席位應(yīng)答管制語句。
2.2? 語音合成實現(xiàn)
根據(jù)國際民航組織統(tǒng)一標(biāo)準(zhǔn)的航管語音標(biāo)準(zhǔn)專業(yè)用語,空管調(diào)度語句具有規(guī)范的語法和結(jié)構(gòu),因此,語音合成前,要建立指令規(guī)則庫、基音庫以及語音規(guī)則庫。指令規(guī)則庫實現(xiàn)各種指令信息的分解,并提取特征參數(shù)形成指令序列串;語音規(guī)則庫為空管調(diào)度發(fā)音規(guī)則與結(jié)構(gòu)庫。命令行發(fā)聲系統(tǒng)中的命令序列串生成后,再利用漢明窗函數(shù)和插值(二次線性插值)處理實現(xiàn)基元拼接,即根據(jù)基音庫生成映射的基音元序列后在調(diào)取語音規(guī)則庫發(fā)音規(guī)則和語音結(jié)構(gòu)最終合成需要的語音波形通過計算機(jī)系統(tǒng)進(jìn)行語音輸出[4]。
3? ? 結(jié)語
塔臺模擬培訓(xùn)系統(tǒng)語言相對規(guī)范、統(tǒng)一和有限。因此采用有限詞匯量識別方法,結(jié)合空管發(fā)音規(guī)則、語法結(jié)構(gòu)、發(fā)音標(biāo)準(zhǔn)以及中英雙語等特點,采用動態(tài)時間歸正識別技術(shù)和語音同步疊加算法實現(xiàn)語音編碼、識別與合成,實現(xiàn)了多局部最優(yōu)化決策。語音同步疊加算法能夠?qū)σ羲?、二元組 、三音子、音節(jié)、詞或句子等聲音基元進(jìn)行韻律特征(時長、基頻、短時能量等)進(jìn)行調(diào)控,使語音合成自然度和清晰度高,而且語音合成技術(shù)具備抗干擾性強、數(shù)碼率低、時延特性優(yōu)越等優(yōu)點。
[參考文獻(xiàn)]
[1]任蕊,苗振江.基于PSOLA算法的情感語音合成[J].系統(tǒng)仿真學(xué)報,2008(S1):423-426.
[2]楊璐字.中文語音識別技術(shù)在塔臺模擬機(jī)中的研究與應(yīng)用[J].微計算機(jī)信息,2012(10):243-245.
[3]張曉蕊.語音變調(diào)算法研究及其在語音合成中的應(yīng)用[D].濟(jì)南:山東大學(xué),2011.
[4]李銳.語音技術(shù)在塔臺模擬機(jī)上的應(yīng)用[D].成都:四川大學(xué),2004.