語音技術(shù)在塔臺模擬機(jī)上的應(yīng)用

2020-04-22 20:37胡譽

無線互聯(lián)科技 2020年4期

胡譽

摘? ?要：基于空管模擬訓(xùn)練機(jī)對空管人員訓(xùn)練的重要性和優(yōu)越性以及塔席特點，利用計算機(jī)實現(xiàn)飛行器動態(tài)特征的場景再現(xiàn)，設(shè)定多場景、多任務(wù)的訓(xùn)練科目是目前采用的普遍做法。文章依托塔臺模擬機(jī)性能特點，采用有限詞匯量識別方法，結(jié)合空管發(fā)音規(guī)則、語法結(jié)構(gòu)、發(fā)音標(biāo)準(zhǔn)以及中英雙語等特點，采用動態(tài)時間歸正識別技術(shù)和語音同步疊加算法實現(xiàn)語音編碼、識別與合成，實現(xiàn)了多局部最優(yōu)化決策。

關(guān)鍵詞：塔臺模擬機(jī);語音技術(shù);動態(tài)時間規(guī)整識別;PSOLA算法;內(nèi)容擾亂系統(tǒng)

科學(xué)技術(shù)的飛速發(fā)展，對空中管制人員數(shù)量和綜合素質(zhì)提出了更高的專業(yè)性要求，采用先進(jìn)技術(shù)手段對空中交通管制人員進(jìn)行高水平訓(xùn)練的需求與日俱增，利用塔臺模擬訓(xùn)練系統(tǒng)，通過模擬器模擬現(xiàn)實環(huán)境可能遇到的大流量、惡劣天氣、緊急特情等狀態(tài)，對空中管制人員進(jìn)行不受航班時刻限制、不受時間限制的有效強度、全面的業(yè)務(wù)培訓(xùn)，大大降低了實地訓(xùn)練的風(fēng)險和成本。依托塔臺模擬機(jī)性能特點，采用小詞匯量合成手段和基音同步疊加算法，實現(xiàn)訓(xùn)練人員及教練員、機(jī)長之間的語音通信，既可以滿足實訓(xùn)任務(wù)要求，又可以實時調(diào)整語調(diào)、語速，滿足語音識別需求?？傊?，利用模擬的方法進(jìn)行管制服務(wù)，通過真實場景再現(xiàn)，從而提高空管人員訓(xùn)練的質(zhì)量和安全[1]。

1? ? 語音合成及識別技術(shù)

1.1? 語音編碼技術(shù)

語音編碼技術(shù)是實現(xiàn)語音合成及語音識別的關(guān)鍵技術(shù)。20世紀(jì)80年代之前的語音編碼技術(shù)主要采用波形編碼和參數(shù)編碼。波形編碼以取樣定理為基礎(chǔ)，其特點是音質(zhì)效果較好，但是編碼碼數(shù)較多，占用較大空間;參數(shù)編碼是依據(jù)人類發(fā)音機(jī)理，同步提取語音特征參數(shù)實現(xiàn)編碼傳輸?shù)囊环N方法，數(shù)碼率低、音質(zhì)效果差。隨后很多國家采用了混合編碼技術(shù)，其采用軟件算法對語音信號進(jìn)行解析，多采用多數(shù)線性預(yù)測和多帶激勵等算法實現(xiàn)波形的激勵和聲道傳輸功能。

混合編碼線性預(yù)測算法是應(yīng)用最廣泛、最有效的語音分析技術(shù)之一。線性預(yù)測算法能夠快速、精準(zhǔn)地提取一組估計語音信號譜幅度，形成語音信號的聲道濾波器，實現(xiàn)語音快速編碼和語音識別、合成。線性預(yù)測算法采用數(shù)學(xué)模型中的夾逼準(zhǔn)則對語音信號當(dāng)前某個樣位進(jìn)行階數(shù)（項數(shù)）線性組合的逼近，階數(shù)系數(shù)利用最小誤差（實際樣位與預(yù)測值誤差）階乘準(zhǔn)則計算求得，系數(shù)隨時間（5～20毫秒每幀）變化，根據(jù)幀實現(xiàn)參數(shù)的刷新。線性預(yù)測算法的碼激勵（Code Excited Linear Prediction，CELP）為多帶激勵模型，由于純濁音（周期性）和純清音（非周期性）構(gòu)成每幀語音信號，在語音編碼模型中對話音進(jìn)行多段分解，依據(jù)清濁音（周期性和非周期性）判決，從而實現(xiàn)激勵的語音譜混合。因此線性預(yù)測算法對于語音合成的自然度、抗噪聲等功能比較優(yōu)秀。另外，隨著科學(xué)技術(shù)不斷發(fā)展，現(xiàn)在的語音編碼技術(shù)具備更加優(yōu)秀的語音質(zhì)量，而且抗干擾性更強，數(shù)碼率更低，時延特性更加優(yōu)越。

語音識別技術(shù)一般采取特征提取、語音識別單元選取、模式匹配準(zhǔn)則、模型訓(xùn)練等技術(shù)實現(xiàn)。特征參數(shù)提取主要采用線性預(yù)測（Linear Prediction，LP）分析、Mel參數(shù)、小波分析等技術(shù);模式匹配及訓(xùn)練多采用動態(tài)時間歸整（Dynamic Time Warping，DTW）、隱馬爾可夫模型（Hidden Markov Model，HMM）以及人工神經(jīng)元網(wǎng)絡(luò)（Artificial Neural Networks，ANNs）等技術(shù)實現(xiàn)[2]。

1.2? 語音合成技術(shù)

語音合成技術(shù)主要采用計算機(jī)實現(xiàn)語音編碼、識別、合成，最終形成清晰、明確、自然、具有張力和表現(xiàn)力的人類語言。20世紀(jì)60年代，國外首次研發(fā)并應(yīng)用了英語文本朗讀（Text to Speech，TTS）系統(tǒng)，我國也在20世紀(jì)80年代完成了漢語語音合成TTS技術(shù)，這是特定應(yīng)用場景下的一種語音輸出系統(tǒng)，尤其是塔臺空中管制領(lǐng)域，應(yīng)用錄音、重放對有限語言詞匯進(jìn)行特殊拼接，實現(xiàn)航班信息發(fā)布、語音報時、航空語音通信等。另外一種為文字-語音轉(zhuǎn)換系統(tǒng)，可以實現(xiàn)文字到語音的轉(zhuǎn)換，結(jié)合人類語言特點，模擬人類語音并提取特征參數(shù)，然后利用計算機(jī)估計出聲道截面積函數(shù)或者聲道諧振特性，再利用Holmes共振峰、線性預(yù)測編碼（Linear Predictive Coding，LPC）、分層服務(wù)提供程序（Layered Service Provider ，LSP）等參數(shù)合成器形成規(guī)則語音波形。再有是采用拼接語音合成技術(shù)，廣泛采用語音合成算法把聲音基元（音素、二元組、三音子、音節(jié)、詞或句子）相互拼接組合，輸出連續(xù)語流。計算機(jī)存儲語音基元，合成時從語音數(shù)據(jù)庫中讀取基元、拼接、韻律修飾。拼接語音基元具有重音、聲調(diào)、發(fā)音速率等特征，因此，拼接語音合成輸出的語音更加清晰自然，音質(zhì)效果更高，語音更貼合人類自然聲音，語音基元存儲不受限制，但是拼接語音合成韻律參數(shù)如基頻、時長、音強等修改規(guī)則比較困難。TTS系統(tǒng)通過韻律修飾，利用計算機(jī)系統(tǒng)對語調(diào)、重音等快速模擬，實現(xiàn)語速、調(diào)高需求[3]。

2? ? 塔臺模擬機(jī)語音合成系統(tǒng)設(shè)計實現(xiàn)

2.1? 系統(tǒng)設(shè)計

結(jié)合航空塔臺管制語言特點，塔臺模擬系統(tǒng)語音識別管制指令、語句和短句等詞匯量有限，屬于有限詞匯量識別范疇;再有現(xiàn)實管制應(yīng)用場景中，要求語音識別具有速度快、響應(yīng)及時、通信流暢等特點，因此采用動態(tài)時間歸正識別技術(shù)和語音同步疊加算法實現(xiàn)語音編碼、識別與合成。塔臺模擬系統(tǒng)語音合成流程如圖1所示。塔臺模擬訓(xùn)練時，教練員通過其工作站對訓(xùn)練計劃、訓(xùn)練場景、訓(xùn)練難度、訓(xùn)練次數(shù)和進(jìn)度、飛行特情等進(jìn)行設(shè)置、保存，并對訓(xùn)練過程進(jìn)行監(jiān)控，通過語音通信系統(tǒng)掌握受訓(xùn)人員實時動態(tài)。模擬機(jī)長工作站主要對培訓(xùn)人員進(jìn)行機(jī)長任務(wù)臨時授權(quán)，通過顯示器和通信設(shè)備完成機(jī)長職責(zé)，進(jìn)一步增加訓(xùn)練的真實度。管制員工作站主要是復(fù)現(xiàn)塔臺管制員真實工作環(huán)境，嚴(yán)格按照管制席位設(shè)置，進(jìn)行設(shè)備重現(xiàn)，受訓(xùn)人員通過模擬器訓(xùn)練平臺可以觀察模擬機(jī)場場面圖、飛行數(shù)據(jù)流量圖以及機(jī)場氣象數(shù)據(jù)實時信息，指揮飛行計劃，制定飛機(jī)進(jìn)場單等真實工作狀態(tài)。具體訓(xùn)練流程是管制員向模擬機(jī)長位發(fā)出飛機(jī)調(diào)度指令后，模擬機(jī)長席位根據(jù)指令與管制員進(jìn)行語音通話同時在模擬系統(tǒng)命令行中輸入飛機(jī)動作指令，指令輸入并正常執(zhí)行后，模擬系統(tǒng)中的命令行發(fā)聲系統(tǒng)自動向管制員席位應(yīng)答管制語句。

2.2? 語音合成實現(xiàn)

根據(jù)國際民航組織統(tǒng)一標(biāo)準(zhǔn)的航管語音標(biāo)準(zhǔn)專業(yè)用語，空管調(diào)度語句具有規(guī)范的語法和結(jié)構(gòu)，因此，語音合成前，要建立指令規(guī)則庫、基音庫以及語音規(guī)則庫。指令規(guī)則庫實現(xiàn)各種指令信息的分解，并提取特征參數(shù)形成指令序列串;語音規(guī)則庫為空管調(diào)度發(fā)音規(guī)則與結(jié)構(gòu)庫。命令行發(fā)聲系統(tǒng)中的命令序列串生成后，再利用漢明窗函數(shù)和插值（二次線性插值）處理實現(xiàn)基元拼接，即根據(jù)基音庫生成映射的基音元序列后在調(diào)取語音規(guī)則庫發(fā)音規(guī)則和語音結(jié)構(gòu)最終合成需要的語音波形通過計算機(jī)系統(tǒng)進(jìn)行語音輸出[4]。

3? ? 結(jié)語

塔臺模擬培訓(xùn)系統(tǒng)語言相對規(guī)范、統(tǒng)一和有限。因此采用有限詞匯量識別方法，結(jié)合空管發(fā)音規(guī)則、語法結(jié)構(gòu)、發(fā)音標(biāo)準(zhǔn)以及中英雙語等特點，采用動態(tài)時間歸正識別技術(shù)和語音同步疊加算法實現(xiàn)語音編碼、識別與合成，實現(xiàn)了多局部最優(yōu)化決策。語音同步疊加算法能夠?qū)σ羲?、二元組、三音子、音節(jié)、詞或句子等聲音基元進(jìn)行韻律特征（時長、基頻、短時能量等）進(jìn)行調(diào)控，使語音合成自然度和清晰度高，而且語音合成技術(shù)具備抗干擾性強、數(shù)碼率低、時延特性優(yōu)越等優(yōu)點。

[參考文獻(xiàn)]

[1]任蕊，苗振江.基于PSOLA算法的情感語音合成[J].系統(tǒng)仿真學(xué)報，2008（S1）：423-426.

[2]楊璐字.中文語音識別技術(shù)在塔臺模擬機(jī)中的研究與應(yīng)用[J].微計算機(jī)信息，2012（10）：243-245.

[3]張曉蕊.語音變調(diào)算法研究及其在語音合成中的應(yīng)用[D].濟(jì)南：山東大學(xué)，2011.

[4]李銳.語音技術(shù)在塔臺模擬機(jī)上的應(yīng)用[D].成都：四川大學(xué)，2004.

無線互聯(lián)科技2020年4期

無線互聯(lián)科技的其它文章: 微波通信系統(tǒng)發(fā)射機(jī)技術(shù)的發(fā)展與應(yīng)用研究; 無人機(jī)配送的發(fā)展現(xiàn)狀及改進(jìn)措施; 基于激光雷達(dá)的圓孔圓心定位研究; 機(jī)場管制運行效率提升策略研究; 無線傳輸技術(shù)在校園打鈴系統(tǒng)中的有效應(yīng)用; 大規(guī)模MIMO系統(tǒng)導(dǎo)頻污染問題研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

語音技術(shù)在塔臺模擬機(jī)上的應(yīng)用