智能音頻檢索技術(shù)在偵收系統(tǒng)中的應(yīng)用研究*

2016-11-11 06:22:26石軍

信息安全與通信保密 2016年10期

關(guān)鍵詞：檢索系統(tǒng)語種音頻

石軍

（北京市保密技術(shù)研究中心，北京 100005）

智能音頻檢索技術(shù)在偵收系統(tǒng)中的應(yīng)用研究*

石軍

（北京市保密技術(shù)研究中心，北京 100005）

為提高各類偵收系統(tǒng)的自動(dòng)化程度，提出基于智能音頻檢索技術(shù)的偵收設(shè)備工作原理，討論其特點(diǎn)，并給出提高檢索效率的方法以及語種識(shí)別、

檢索、

語音檢索、關(guān)鍵音頻檢索及關(guān)鍵說話人檢索等工作模型。對(duì)于基于移動(dòng)通信網(wǎng)的多通道、基于無線電偵測(cè)的單通道偵收系統(tǒng)和internet等公共信息網(wǎng)，分別給出了智能音頻檢索技術(shù)應(yīng)用的工作原理框圖及實(shí)現(xiàn)方式，希望研究結(jié)果能夠?qū)π畔⒈O(jiān)管起到重大的推動(dòng)作用，最終達(dá)到為國(guó)家安全服務(wù)的目的。

元信息；語種識(shí)別；

檢索；音頻檢索；偵收設(shè)備

0　引言

隨著大數(shù)據(jù)（Big Data）時(shí)代的到來，僅靠人工方式獲取所需要的音頻信息已遠(yuǎn)遠(yuǎn)不能滿足偵收工作的需要。據(jù)2004年法國(guó)《世界報(bào)》報(bào)道，2003年全球電話通話1 800億分鐘，其中1/10被美國(guó)國(guó)家安全局竊聽；而到2013年，據(jù)英國(guó)《衛(wèi)報(bào)》報(bào)道，美國(guó)安全局在年初僅僅一個(gè)月內(nèi)就收集了1 240億次電話數(shù)據(jù)?？梢?，快速獲取所需要的音頻信息已成為緊迫的需要。音頻與其他信息一樣，是一種重要的信息載體，但又與其他載體明顯不同，具有瞬時(shí)性。若能夠?qū)⒅悄苷Z音檢索技術(shù)應(yīng)用于各類偵收系統(tǒng)，則無疑會(huì)大大降低工作量。尤其在反恐等活動(dòng)中，快速獲取目標(biāo)音頻信息，有利于將損失降到最低。例如，據(jù)中國(guó)光明日?qǐng)?bào)網(wǎng)2007年報(bào)道，德國(guó)挫敗一起歷史上最大的恐怖襲擊事例，其緣由就是從截獲電話和電子郵件等以及美國(guó)情報(bào)部門提供的資料中獲得了重要線索，就是現(xiàn)實(shí)中智能語音檢索技術(shù)應(yīng)用于偵收系統(tǒng)的具體體現(xiàn)。這種音頻信息借助于智能音頻檢索技術(shù)（在線或離線）檢索的系統(tǒng)稱為智能音頻檢索系統(tǒng)。音頻檢索系統(tǒng)可對(duì)各類固定通信、移動(dòng)通信內(nèi)容進(jìn)行自動(dòng)語種識(shí)別、關(guān)鍵字（文本、語音、說話人確認(rèn)、關(guān)鍵音頻等）檢索，可廣泛應(yīng)用于公安、安全、保密、國(guó)防等需要對(duì)通信音頻內(nèi)容進(jìn)行監(jiān)控管理的行業(yè)，以實(shí)現(xiàn)對(duì)特定信息的全天候自動(dòng)化監(jiān)控。

1　基于智能音頻檢索技術(shù)的偵收設(shè)備工作原理與特點(diǎn)

1.1 智能音頻檢索系統(tǒng)工作原理

智能音頻檢索系統(tǒng)的工作結(jié)構(gòu)如圖1所示。

圖1　基于智能音頻檢索技術(shù)的偵收設(shè)備系統(tǒng)組成原理

圖1中，偵收設(shè)備主要指的是并行輸出設(shè)備，如各類G、C網(wǎng)移動(dòng)通信偵收系統(tǒng)、串行輸出設(shè)備如無線電監(jiān)測(cè)系統(tǒng)等；樣本信息轉(zhuǎn)化設(shè)備主要是指各類聲電轉(zhuǎn)換設(shè)備、各類關(guān)鍵詞音頻信息獲取系統(tǒng)等，目的是獲得各類音頻信息樣本。

音頻通過轉(zhuǎn)化設(shè)備輸入到音頻檢索系統(tǒng)，系統(tǒng)將得到的音頻樣本與偵收設(shè)備輸出的即時(shí)、模型庫(kù)存儲(chǔ)的信息進(jìn)行比較，輸出最匹配的音頻庫(kù)文件、位置等結(jié)果，從而完成所需音頻信息的輸出過程，這就是智能音頻檢索系統(tǒng)的工作原理。

1.2 智能音頻檢索系統(tǒng)特點(diǎn)

（1）工作方式分為在線和離線兩種，前者是對(duì)現(xiàn)場(chǎng)實(shí)時(shí)采集（存儲(chǔ)）數(shù)據(jù)進(jìn)行分析處理，后者是對(duì)已存儲(chǔ)數(shù)據(jù)進(jìn)行分析處理。

（2）支持以下及其組合檢索方式：語種識(shí)別、文本、

語音、關(guān)鍵語音及關(guān)鍵說話人等。

語音、關(guān)鍵語音與關(guān)鍵說話人三種檢索方式主要分別是指對(duì)詞的意思、詞的意思和音頻屬性、被檢索人在音頻庫(kù)中所有的音頻信息（即檢索的是特定人的音頻屬性）的搜索。

（3）支持多路并行在線離線檢索方式。根據(jù)系統(tǒng)軟硬件配置情況，為提高工作效率，采取多通道值守與輪詢可相互切換結(jié)合工作方式，即既可只輪詢也可只值守，也可自由選擇輪詢和值守信道數(shù)量。

（4）支持語音識(shí)別模型庫(kù)的自適應(yīng)優(yōu)化處理，尤其對(duì)在線工作模式下，建立特定人的專用語音識(shí)別模型尤為重要。該模型能夠根據(jù)采樣量的累加自動(dòng)進(jìn)行優(yōu)化保存。

（5）支持自行調(diào)節(jié)音頻檢索系統(tǒng)閾值，以提高檢索結(jié)果中標(biāo)率。

在智能音頻檢索系統(tǒng)設(shè)計(jì)階段，引入以下三個(gè)概念：

第一個(gè)概念：檢索有效性。定義為正確檢出的樣本數(shù)/

檢出的樣本總數(shù)，又稱正確率。

第二個(gè)概念：檢索可靠性。定義為正確檢出的樣本數(shù)/

樣本總數(shù)，又稱召回率。

第三個(gè)概念：檢索系統(tǒng)相對(duì)誤差。定義為絕對(duì)值（樣本總數(shù)-

正確檢出的樣本數(shù)）/

樣本總數(shù)。

總體設(shè)計(jì)階段要求檢索系統(tǒng)相對(duì)誤差要小，對(duì)每一個(gè)單獨(dú)的系統(tǒng)設(shè)計(jì)來說，要求具有更高的有效性和可靠性。在音頻檢索系統(tǒng)算法不變的情況下，提高檢索效率的方式：第一，對(duì)存儲(chǔ)的音頻信息進(jìn)行多關(guān)鍵詞交叉檢索；第二，選用適合特定應(yīng)用環(huán)境的經(jīng)驗(yàn)閾值；第三，選用在特定應(yīng)用環(huán)境中的語音信息，分別建立各自的參考模型庫(kù)，并分別應(yīng)用于各自的檢索環(huán)境中。

2　智能音頻檢索系統(tǒng)方案設(shè)計(jì)

音頻檢索總體方案設(shè)計(jì)模型如圖2所示。

圖2　音頻檢索方案設(shè)計(jì)原理模型

圖2中，預(yù)處理功能主要有音頻信號(hào)處理、文件多格式轉(zhuǎn)換等。特征提取主要是利用聲學(xué)、文法模型進(jìn)行語音識(shí)別并進(jìn)行說話人分析，最終輸出元信息（特征、因素圖、說話人分析結(jié)果等）。元信息是指可以描述音頻屬性和內(nèi)容的信息。為了正確有效地充分利用音頻，系統(tǒng)必須具有提取并結(jié)構(gòu)化地描述元信息的能力。訓(xùn)練是按一定規(guī)則對(duì)元信息聚類，最終形成參考模型庫(kù)；模式識(shí)別是根據(jù)一定的規(guī)則及相關(guān)知識(shí)，計(jì)算輸入音頻特征與參考模型庫(kù)之間的相似度，最終從音頻庫(kù)中檢測(cè)出與給定關(guān)鍵信息一致的音頻信息。

2.1語種識(shí)別模型［1］

語種識(shí)別檢索結(jié)構(gòu)框圖如圖3所示。

圖3　語種識(shí)別檢索工作原理

圖3中，首先根據(jù)各種語音音頻數(shù)據(jù)和EM算法（Expectation Maximization，EM）訓(xùn)練一個(gè)全局背景模型（Universal Background Model，UBM），然后通過這個(gè)模型基于最大后驗(yàn)概率（Maximum a Posteriori，MAP）進(jìn)行自適應(yīng)，生成各語種高斯混合模型（Gaussian Mixture Model，GMM），并根據(jù)輸入音頻特征，在GMM上通過自然對(duì)數(shù)似然比假設(shè)檢驗(yàn)來進(jìn)行判決。設(shè)H0表示待識(shí)別音頻來自目標(biāo)語言，H1表示來自假冒者，Th表示根據(jù)實(shí)際場(chǎng)景所選用的門限值，則：可見，在實(shí)際監(jiān)測(cè)環(huán)境下，若不小于所選定的閾值Th，則可以給出待識(shí)別語音屬于何種語言；否則，檢索系統(tǒng)給不出待識(shí)別語音的語種。

基于聲學(xué)特征和音素層次的主流語種識(shí)別系統(tǒng)主要有GMM-UBM系統(tǒng)、GMM-SVM系統(tǒng)、兩者的組合、及其基于音素搭配的系統(tǒng)等。本文采用第一種方式，并在以后工作過程中不斷加以完善。另外，基于文本的語種識(shí)別目前可集成語種識(shí)別應(yīng)用軟件（如互聯(lián)網(wǎng)Langid在線、Polyglot 3000及各種通專用識(shí)別等軟硬件）進(jìn)行識(shí)別，但出于信息安全性考慮，具有自主知識(shí)產(chǎn)權(quán)產(chǎn)品是以后工作的重點(diǎn)。

2.2檢索［2］

檢索結(jié)構(gòu)框圖如圖4所示。

圖4檢索工作原理

圖4中，在檢索階段，聲學(xué)模塊識(shí)別使用了基于段長(zhǎng)分布的非齊次隱馬爾科夫模型（Duration Distribution Based Hidden Markov Model，DDBHMM）、基于語音學(xué)分類的三音子識(shí)別及無監(jiān)督最大似然線性回歸自適應(yīng)等算法，提取出關(guān)鍵音素串，在元信息因素圖中基于動(dòng)態(tài)規(guī)劃（Dynamic Programming，DP）原理進(jìn)行匹配搜索，最終形成多個(gè)

候選列表（語音文件，文件內(nèi)偏移，置信概率），再根據(jù)后驗(yàn)概率置信度計(jì)算進(jìn)行排序，輸出最終檢測(cè)結(jié)果。用戶可根據(jù)實(shí)際運(yùn)行情況，使用置信度門限值對(duì)候選結(jié)果進(jìn)行篩選。由于大計(jì)算量的語音識(shí)別只運(yùn)行一次形成模型庫(kù)，

對(duì)應(yīng)的音素串只在多候選拼音圖上搜索匹配，因此檢索速度快。

2.3 關(guān)鍵音頻檢索［3］

關(guān)鍵音頻檢索結(jié)構(gòu)框圖如圖5所示。

圖5　關(guān)鍵音頻檢索工作原理

圖5中，由關(guān)鍵音頻和音頻庫(kù)文件與之長(zhǎng)度一致的各分段區(qū)間，提取聲學(xué)特征并建立公共分量高斯混合模型（Common Component GMM，CCGMM），計(jì)算在關(guān)鍵音頻與每個(gè)區(qū)間段之間的庫(kù)爾貝克-萊布勒（Kullback-Leibler，KL）距離，用KL距離衡量關(guān)鍵音頻片段與在音頻文件頻庫(kù)模板GMM上作滑動(dòng)窗滑動(dòng)等長(zhǎng)區(qū)間的匹配度。若當(dāng)前匹配度較大，則可以跳過一定數(shù)量的段時(shí)間進(jìn)行下一次區(qū)間匹配。優(yōu)點(diǎn)是使用KL距離準(zhǔn)確度量了兩個(gè)概率模型的差異，提高了關(guān)鍵音頻檢索對(duì)不同壓縮方式、不同程度失真的魯棒性。

2.4 關(guān)鍵說話人檢索［4］

關(guān)鍵音頻檢索結(jié)構(gòu)框圖如圖6所示。

圖6　關(guān)鍵說話人檢索工作原理

圖6中，在關(guān)鍵說話人檢索階段，根據(jù)MAP準(zhǔn)則由UBM自適應(yīng)建立說話人GMM模型，再通過對(duì)數(shù)似然比假設(shè)檢驗(yàn)檢索結(jié)果：

實(shí)際工作過程中，分母由離線計(jì)算，以加快在線檢索速度。

3　智能音頻檢索系統(tǒng)在偵收系統(tǒng)中的應(yīng)用案例

3.1 應(yīng)用于各類移動(dòng)通信G、C網(wǎng)多通道偵收系統(tǒng)

由于G、C網(wǎng)偵收系統(tǒng)具有N路信息輸出，其系統(tǒng)組成結(jié)構(gòu)如圖7所示。

圖7　基于智能音頻檢索系統(tǒng)的移動(dòng)通信偵收設(shè)備工作原理

圖7中，虛線框圖傳輸系統(tǒng)可包括交換機(jī)、路由器、加密系統(tǒng)等；偵收系統(tǒng)作為客戶端，負(fù)責(zé)把G、C網(wǎng)接收的多路語音數(shù)據(jù)發(fā)送到多臺(tái)檢索系統(tǒng)服務(wù)器端；服務(wù)器端負(fù)責(zé)接收以太網(wǎng)傳輸過來的數(shù)據(jù)包，并進(jìn)行相應(yīng)的并行處理。在在線工作模式下，數(shù)據(jù)包采用UDP包，且使用固定IP方式傳輸數(shù)據(jù)。不同服務(wù)器端依靠端口號(hào)和IP地址識(shí)別接收不同路語音數(shù)據(jù)包并進(jìn)行相應(yīng)處理。圖7中，虛線框圖表示如在本地工作，不需遠(yuǎn)程傳輸數(shù)據(jù)，可把傳輸系統(tǒng)改為交換設(shè)備，最簡(jiǎn)單的如Hub或直連網(wǎng)線等，

以適應(yīng)偵收的便攜式要求。

3.2 應(yīng)用于單通道無線電偵測(cè)系統(tǒng)

智能音頻檢索系統(tǒng)可應(yīng)用于無線電偵測(cè)系統(tǒng)，目的是提高偵收設(shè)備的自動(dòng)化程度，其系統(tǒng)組成架構(gòu)如圖8所示。

圖8　基于智能音頻檢索系統(tǒng)的無線電偵測(cè)工作原理

圖8中，自動(dòng)掃頻解調(diào)設(shè)備應(yīng)具有自動(dòng)掃描、場(chǎng)強(qiáng)探測(cè)、自動(dòng)信號(hào)可識(shí)別性解調(diào)、間隔處理等功能。

本部分主要介紹一個(gè)在保密工作中的應(yīng)用。檢索系統(tǒng)在保密工作中主要體現(xiàn)在監(jiān)控、取證等任務(wù)中。根據(jù)一段涉密信息，通過檢索系統(tǒng)提取嫌疑人的語音信息，進(jìn)而對(duì)這一特定說話人身份進(jìn)行識(shí)別，根據(jù)相關(guān)法律，錄音作為法定證據(jù)形式之一，可作為案件查處過程中的重要取證手段。

3.3 應(yīng)用于公共信息（互聯(lián)）網(wǎng)音頻信息檢索

互聯(lián)網(wǎng)音頻信息檢索系統(tǒng)組成結(jié)構(gòu)如圖9所示。

圖9　基于智能音頻檢索系統(tǒng)的公共信息監(jiān)控網(wǎng)工作原理

圖9中，網(wǎng)絡(luò)爬蟲是按一定目標(biāo)抓取網(wǎng)頁語音信息的一種信息平臺(tái)（程序），一般主要有數(shù)據(jù)挖掘器、采集管理、URL哈希表等幾部分組成。信息處理平臺(tái)能夠有效對(duì)采集到的海量語音數(shù)據(jù)處理任務(wù)自動(dòng)合理地進(jìn)行任務(wù)調(diào)配，并且能夠方便地根據(jù)需求配置服務(wù)器容量。

4　結(jié) 語

本文基本能夠?qū)崿F(xiàn)對(duì)音頻信息進(jìn)行檢測(cè)的需求，能夠及時(shí)準(zhǔn)確地響應(yīng)用戶的查詢監(jiān)控，具有較好的社會(huì)與經(jīng)濟(jì)價(jià)值，但應(yīng)加大后續(xù)維護(hù)工作，并在現(xiàn)實(shí)中不斷加以改進(jìn)。音頻檢索系統(tǒng)除了應(yīng)用于公安、安全、保密、國(guó)防等領(lǐng)域外，還可廣泛應(yīng)用于民用公共事業(yè)領(lǐng)域，如各廣電音頻公司剪輯、各外語口語學(xué)習(xí)系統(tǒng)、電話交換系統(tǒng)（通信信息審計(jì)等）等方面。未來隨著技術(shù)的不斷成熟，也可應(yīng)用于安防設(shè)備進(jìn)行身份識(shí)別、訪問控制等領(lǐng)域，以實(shí)現(xiàn)登錄密碼的增強(qiáng)要求。同理，更擴(kuò)展一步來說，圖像識(shí)別也與語音識(shí)別一樣，應(yīng)用于以上領(lǐng)域，但具體有效性實(shí)現(xiàn)常態(tài)工作不易，是以后可以進(jìn)一步研究的領(lǐng)域。

［1］劉杰.自動(dòng)語種識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)［D］.哈爾濱：哈爾濱工業(yè)大學(xué)，2011. LIU Jie.The Design and Implementation of Automatic Language Recognition System［D］.Harbin：Harbin Institute of Technology，2011.

［2］羅駿，歐智堅(jiān).一種高效的語音檢索系統(tǒng)［J］.通信學(xué)報(bào)，2006，27（02）：113-118. LUO Jun，OU Zhi-jian.Efficient Keyword Spotting System for Information Retrieval［J］.Journal on Communicatio ns，2006，27（02）：113-118.

［3］ Y·陳.用于快速音頻搜索的方法和設(shè)備［EB/OL］.（2014-06-01）［2016-07-09］.http：//www.google.co.uk/ patents/CN101553799A？cl=zh&hl=zh-CN. CHEN Y R.Method and Apparatus for Fast Audio Search［EB/OL］.（2014-06-01）［2016-07-09］.http：//www. google.co.uk/patents/CN101553799A？cl=zh&hl=zh-CN.

［4］張彩紅，洪青陽，陳燕.基于GMM-UBM的說話人確認(rèn)系統(tǒng)的研究［J］.心智與計(jì)算，2007，1（04）：420-425. ZHANG Cai-hong，HONG Qing-yang，CHEN Yan. The Research of Speaker Verification based on GMMUBM［J］.Mind and Computation，2007，1（04）：420-425.

石軍（1975—），男，碩士，高級(jí)工程師，主要研究方向?yàn)榛煦缭谕ㄐ畔到y(tǒng)及信息技術(shù)中的應(yīng)用、通信信號(hào)識(shí)別及信息安全等。

Research on Intelligent Audio Information Retrieval Technology Application of Electronic Reconnaissance Receiving and Processing System

SHI Jun
（Institute of Information Security Technology， Beijing State Secrets Bureau， Beijing 100005， China）

In order to increase electronic reconnaissance receiving and processing system automation，its working principle based on intelligent audio information retrieval technology was proposed and its characteristics was discussed.These methods for improving the retrieval efficiency was given. Language identification、keyword spotting、keyaudio spotting and keyspeaker verification working principle model were proposed. These working principle diagrams based on intelligent audio information retrieval system of electronic reconnaissance receiving and processing system based on both the multi-channel mobile communication network and the single channel radio detection system and public information network such as Internet are presented. It is hoped that this research results can play a major role of information supervision，and eventually serve for the national security.

meta-information； language identification； keyword spotting； intelligent audio information retrieval； electronic reconnaissance receiving and processing system

TN912.34

1002-0802（2016）-10-1415-04

10.3969/j.issn.1002-0802.2016.10.028

2016-06-07；

2016-09-15

data：2016-06-07；Revised data：2016-09-15

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

智能音頻檢索技術(shù)在偵收系統(tǒng)中的應(yīng)用研究*

0 引 言

1 基于智能音頻檢索技術(shù)的偵收設(shè)備工作原理與特點(diǎn)

2 智能音頻檢索系統(tǒng)方案設(shè)計(jì)

3 智能音頻檢索系統(tǒng)在偵收系統(tǒng)中的應(yīng)用案例

4 結(jié) 語

0　引言

1　基于智能音頻檢索技術(shù)的偵收設(shè)備工作原理與特點(diǎn)

2　智能音頻檢索系統(tǒng)方案設(shè)計(jì)

3　智能音頻檢索系統(tǒng)在偵收系統(tǒng)中的應(yīng)用案例

4　結(jié) 語