石 軍
(北京市保密技術研究中心,北京 100005)
智能音頻檢索技術在偵收系統(tǒng)中的應用研究*
石軍
(北京市保密技術研究中心,北京 100005)
為提高各類偵收系統(tǒng)的自動化程度,提出基于智能音頻檢索技術的偵收設備工作原理,討論其特點,并給出提高檢索效率的方法以及語種識別、
檢索、
語音檢索、關鍵音頻檢索及關鍵說話人檢索等工作模型。對于基于移動通信網(wǎng)的多通道、基于無線電偵測的單通道偵收系統(tǒng)和internet等公共信息網(wǎng),分別給出了智能音頻檢索技術應用的工作原理框圖及實現(xiàn)方式,希望研究結(jié)果能夠?qū)π畔⒈O(jiān)管起到重大的推動作用,最終達到為國家安全服務的目的。
元信息;語種識別;
檢索;音頻檢索;偵收設備
隨著大數(shù)據(jù)(Big Data)時代的到來,僅靠人工方式獲取所需要的音頻信息已遠遠不能滿足偵收工作的需要。據(jù)2004年法國《世界報》報道,2003年全球電話通話1 800億分鐘,其中1/10被美國國家安全局竊聽;而到2013年,據(jù)英國《衛(wèi)報》報道,美國安全局在年初僅僅一個月內(nèi)就收集了1 240億次電話數(shù)據(jù)??梢姡焖佾@取所需要的音頻信息已成為緊迫的需要。音頻與其他信息一樣,是一種重要的信息載體,但又與其他載體明顯不同,具有瞬時性。若能夠?qū)⒅悄苷Z音檢索技術應用于各類偵收系統(tǒng),則無疑會大大降低工作量。尤其在反恐等活動中,快速獲取目標音頻信息,有利于將損失降到最低。例如,據(jù)中國光明日報網(wǎng)2007年報道,德國挫敗一起歷史上最大的恐怖襲擊事例,其緣由就是從截獲電話和電子郵件等以及美國情報部門提供的資料中獲得了重要線索,就是現(xiàn)實中智能語音檢索技術應用于偵收系統(tǒng)的具體體現(xiàn)。這種音頻信息借助于智能音頻檢索技術(在線或離線)檢索的系統(tǒng)稱為智能音頻檢索系統(tǒng)。音頻檢索系統(tǒng)可對各類固定通信、移動通信內(nèi)容進行自動語種識別、關鍵字(文本、語音、說話人確認、關鍵音頻等)檢索,可廣泛應用于公安、安全、保密、國防等需要對通信音頻內(nèi)容進行監(jiān)控管理的行業(yè),以實現(xiàn)對特定信息的全天候自動化監(jiān)控。
1.1智能音頻檢索系統(tǒng)工作原理
智能音頻檢索系統(tǒng)的工作結(jié)構(gòu)如圖1所示。
圖1 基于智能音頻檢索技術的偵收設備系統(tǒng)組成原理
圖1中,偵收設備主要指的是并行輸出設備,如各類G、C網(wǎng)移動通信偵收系統(tǒng)、串行輸出設備如無線電監(jiān)測系統(tǒng)等;樣本信息轉(zhuǎn)化設備主要是指各類聲電轉(zhuǎn)換設備、各類關鍵詞音頻信息獲取系統(tǒng)等,目的是獲得各類音頻信息樣本。
音頻通過轉(zhuǎn)化設備輸入到音頻檢索系統(tǒng),系統(tǒng)將得到的音頻樣本與偵收設備輸出的即時、模型庫存儲的信息進行比較,輸出最匹配的音頻庫文件、位置等結(jié)果,從而完成所需音頻信息的輸出過程,這就是智能音頻檢索系統(tǒng)的工作原理。
1.2智能音頻檢索系統(tǒng)特點
(1)工作方式分為在線和離線兩種,前者是對現(xiàn)場實時采集(存儲)數(shù)據(jù)進行分析處理,后者是對已存儲數(shù)據(jù)進行分析處理。
(2)支持以下及其組合檢索方式:語種識別、文本、
語音、關鍵語音及關鍵說話人等。
語音、關鍵語音與關鍵說話人三種檢索方式主要分別是指對詞的意思、詞的意思和音頻屬性、被檢索人在音頻庫中所有的音頻信息(即檢索的是特定人的音頻屬性)的搜索。
(3)支持多路并行在線離線檢索方式。根據(jù)系統(tǒng)軟硬件配置情況,為提高工作效率,采取多通道值守與輪詢可相互切換結(jié)合工作方式,即既可只輪詢也可只值守,也可自由選擇輪詢和值守信道數(shù)量。
(4)支持語音識別模型庫的自適應優(yōu)化處理,尤其對在線工作模式下,建立特定人的專用語音識別模型尤為重要。該模型能夠根據(jù)采樣量的累加自動進行優(yōu)化保存。
(5)支持自行調(diào)節(jié)音頻檢索系統(tǒng)閾值,以提高檢索結(jié)果中標率。
在智能音頻檢索系統(tǒng)設計階段,引入以下三個概念:
第一個概念:檢索有效性。定義為正確檢出的樣本數(shù)/
檢出的樣本總數(shù),又稱正確率。
第二個概念:檢索可靠性。定義為正確檢出的樣本數(shù)/
樣本總數(shù),又稱召回率。
第三個概念:檢索系統(tǒng)相對誤差。定義為絕對值(樣本總數(shù)-
正確檢出的樣本數(shù))/
樣本總數(shù)。
總體設計階段要求檢索系統(tǒng)相對誤差要小,對每一個單獨的系統(tǒng)設計來說,要求具有更高的有效性和可靠性。在音頻檢索系統(tǒng)算法不變的情況下,提高檢索效率的方式:第一,對存儲的音頻信息進行多關鍵詞交叉檢索;第二,選用適合特定應用環(huán)境的經(jīng)驗閾值;第三,選用在特定應用環(huán)境中的語音信息,分別建立各自的參考模型庫,并分別應用于各自的檢索環(huán)境中。
音頻檢索總體方案設計模型如圖2所示。
圖2 音頻檢索方案設計原理模型
圖2中,預處理功能主要有音頻信號處理、文件多格式轉(zhuǎn)換等。特征提取主要是利用聲學、文法模型進行語音識別并進行說話人分析,最終輸出元信息(特征、因素圖、說話人分析結(jié)果等)。元信息是指可以描述音頻屬性和內(nèi)容的信息。為了正確有效地充分利用音頻,系統(tǒng)必須具有提取并結(jié)構(gòu)化地描述元信息的能力。訓練是按一定規(guī)則對元信息聚類,最終形成參考模型庫;模式識別是根據(jù)一定的規(guī)則及相關知識,計算輸入音頻特征與參考模型庫之間的相似度,最終從音頻庫中檢測出與給定關鍵信息一致的音頻信息。
2.1語種識別模型[1]
語種識別檢索結(jié)構(gòu)框圖如圖3所示。
圖3 語種識別檢索工作原理
圖3中,首先根據(jù)各種語音音頻數(shù)據(jù)和EM算法(Expectation Maximization,EM)訓練一個全局背景模型(Universal Background Model,UBM),然后通過這個模型基于最大后驗概率(Maximum a Posteriori,MAP)進行自適應,生成各語種高斯混合模型(Gaussian Mixture Model,GMM),并根據(jù)輸入音頻特征,在GMM上通過自然對數(shù)似然比假設檢驗來進行判決。設H0表示待識別音頻來自目標語言,H1表示來自假冒者,Th表示根據(jù)實際場景所選用的門限值,則:
基于聲學特征和音素層次的主流語種識別系統(tǒng)主要有GMM-UBM系統(tǒng)、GMM-SVM系統(tǒng)、兩者的組合、及其基于音素搭配的系統(tǒng)等。本文采用第一種方式,并在以后工作過程中不斷加以完善。另外,基于文本的語種識別目前可集成語種識別應用軟件(如互聯(lián)網(wǎng)Langid在線、Polyglot 3000及各種通專用識別等軟硬件)進行識別,但出于信息安全性考慮,具有自主知識產(chǎn)權(quán)產(chǎn)品是以后工作的重點。
2.2檢索[2]
檢索結(jié)構(gòu)框圖如圖4所示。
圖4檢索工作原理
圖4中,在檢索階段,聲學模塊識別使用了基于段長分布的非齊次隱馬爾科夫模型(Duration Distribution Based Hidden Markov Model,DDBHMM)、基于語音學分類的三音子識別及無監(jiān)督最大似然線性回歸自適應等算法,提取出關鍵音素串,在元信息因素圖中基于動態(tài)規(guī)劃(Dynamic Programming,DP)原理進行匹配搜索,最終形成多個
候選列表(語音文件,文件內(nèi)偏移,置信概率),再根據(jù)后驗概率置信度計算進行排序,輸出最終檢測結(jié)果。用戶可根據(jù)實際運行情況,使用置信度門限值對候選結(jié)果進行篩選。由于大計算量的語音識別只運行一次形成模型庫,
對應的音素串只在多候選拼音圖上搜索匹配,因此檢索速度快。
2.3關鍵音頻檢索[3]
關鍵音頻檢索結(jié)構(gòu)框圖如圖5所示。
圖5 關鍵音頻檢索工作原理
圖5中,由關鍵音頻和音頻庫文件與之長度一致的各分段區(qū)間,提取聲學特征并建立公共分量高斯混合模型(Common Component GMM,CCGMM),計算在關鍵音頻與每個區(qū)間段之間的庫爾貝克-萊布勒(Kullback-Leibler,KL)距離,用KL距離衡量關鍵音頻片段與在音頻文件頻庫模板GMM上作滑動窗滑動等長區(qū)間的匹配度。若當前匹配度較大,則可以跳過一定數(shù)量的段時間進行下一次區(qū)間匹配。優(yōu)點是使用KL距離準確度量了兩個概率模型的差異,提高了關鍵音頻檢索對不同壓縮方式、不同程度失真的魯棒性。
2.4關鍵說話人檢索[4]
關鍵音頻檢索結(jié)構(gòu)框圖如圖6所示。
圖6 關鍵說話人檢索工作原理
圖6中,在關鍵說話人檢索階段,根據(jù)MAP準則由UBM自適應建立說話人GMM模型,再通過對數(shù)似然比假設檢驗檢索結(jié)果:
實際工作過程中,分母由離線計算,以加快在線檢索速度。
3.1應用于各類移動通信G、C網(wǎng)多通道偵收系統(tǒng)
由于G、C網(wǎng)偵收系統(tǒng)具有N路信息輸出,其系統(tǒng)組成結(jié)構(gòu)如圖7所示。
圖7 基于智能音頻檢索系統(tǒng)的移動通信偵收設備工作原理
圖7中,虛線框圖傳輸系統(tǒng)可包括交換機、路由器、加密系統(tǒng)等;偵收系統(tǒng)作為客戶端,負責把G、C網(wǎng)接收的多路語音數(shù)據(jù)發(fā)送到多臺檢索系統(tǒng)服務器端;服務器端負責接收以太網(wǎng)傳輸過來的數(shù)據(jù)包,并進行相應的并行處理。在在線工作模式下,數(shù)據(jù)包采用UDP包,且使用固定IP方式傳輸數(shù)據(jù)。不同服務器端依靠端口號和IP地址識別接收不同路語音數(shù)據(jù)包并進行相應處理。圖7中,虛線框圖表示如在本地工作,不需遠程傳輸數(shù)據(jù),可把傳輸系統(tǒng)改為交換設備,最簡單的如Hub或直連網(wǎng)線等,
以適應偵收的便攜式要求。
3.2應用于單通道無線電偵測系統(tǒng)
智能音頻檢索系統(tǒng)可應用于無線電偵測系統(tǒng),目的是提高偵收設備的自動化程度,其系統(tǒng)組成架構(gòu)如圖8所示。
圖8 基于智能音頻檢索系統(tǒng)的無線電偵測工作原理
圖8中,自動掃頻解調(diào)設備應具有自動掃描、場強探測、自動信號可識別性解調(diào)、間隔處理等功能。
本部分主要介紹一個在保密工作中的應用。檢索系統(tǒng)在保密工作中主要體現(xiàn)在監(jiān)控、取證等任務中。根據(jù)一段涉密信息,通過檢索系統(tǒng)提取嫌疑人的語音信息,進而對這一特定說話人身份進行識別,根據(jù)相關法律,錄音作為法定證據(jù)形式之一,可作為案件查處過程中的重要取證手段。
3.3應用于公共信息(互聯(lián))網(wǎng)音頻信息檢索
互聯(lián)網(wǎng)音頻信息檢索系統(tǒng)組成結(jié)構(gòu)如圖9所示。
圖9 基于智能音頻檢索系統(tǒng)的公共信息監(jiān)控網(wǎng)工作原理
圖9中,網(wǎng)絡爬蟲是按一定目標抓取網(wǎng)頁語音信息的一種信息平臺(程序),一般主要有數(shù)據(jù)挖掘器、采集管理、URL哈希表等幾部分組成。信息處理平臺能夠有效對采集到的海量語音數(shù)據(jù)處理任務自動合理地進行任務調(diào)配,并且能夠方便地根據(jù)需求配置服務器容量。
本文基本能夠?qū)崿F(xiàn)對音頻信息進行檢測的需求,能夠及時準確地響應用戶的查詢監(jiān)控,具有較好的社會與經(jīng)濟價值,但應加大后續(xù)維護工作,并在現(xiàn)實中不斷加以改進。音頻檢索系統(tǒng)除了應用于公安、安全、保密、國防等領域外,還可廣泛應用于民用公共事業(yè)領域,如各廣電音頻公司剪輯、各外語口語學習系統(tǒng)、電話交換系統(tǒng)(通信信息審計等)等方面。未來隨著技術的不斷成熟,也可應用于安防設備進行身份識別、訪問控制等領域,以實現(xiàn)登錄密碼的增強要求。同理,更擴展一步來說,圖像識別也與語音識別一樣,應用于以上領域,但具體有效性實現(xiàn)常態(tài)工作不易,是以后可以進一步研究的領域。
[1] 劉杰.自動語種識別系統(tǒng)設計與實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學,2011. LIU Jie.The Design and Implementation of Automatic Language Recognition System[D].Harbin:Harbin Institute of Technology,2011.
[2] 羅駿,歐智堅.一種高效的語音檢索系統(tǒng)[J].通信學報,2006,27(02):113-118. LUO Jun,OU Zhi-jian.Efficient Keyword Spotting System for Information Retrieval[J].Journal on Communicatio ns,2006,27(02):113-118.
[3] Y·陳.用于快速音頻搜索的方法和設備[EB/OL].(2014-06-01)[2016-07-09].http://www.google.co.uk/ patents/CN101553799A?cl=zh&hl=zh-CN. CHEN Y R.Method and Apparatus for Fast Audio Search[EB/OL].(2014-06-01)[2016-07-09].http://www. google.co.uk/patents/CN101553799A?cl=zh&hl=zh-CN.
[4] 張彩紅,洪青陽,陳燕.基于GMM-UBM的說話人確認系統(tǒng)的研究[J].心智與計算,2007,1(04):420-425. ZHANG Cai-hong,HONG Qing-yang,CHEN Yan. The Research of Speaker Verification based on GMMUBM[J].Mind and Computation,2007,1(04):420-425.
石 軍(1975—),男,碩士,高級工程師,主要研究方向為混沌在通信系統(tǒng)及信息技術中的應用、通信信號識別及信息安全等。
Research on Intelligent Audio Information Retrieval Technology Application of Electronic Reconnaissance Receiving and Processing System
SHI Jun
(Institute of Information Security Technology, Beijing State Secrets Bureau, Beijing 100005, China)
In order to increase electronic reconnaissance receiving and processing system automation,its working principle based on intelligent audio information retrieval technology was proposed and its characteristics was discussed.These methods for improving the retrieval efficiency was given. Language identification、keyword spotting、keyaudio spotting and keyspeaker verification working principle model were proposed. These working principle diagrams based on intelligent audio information retrieval system of electronic reconnaissance receiving and processing system based on both the multi-channel mobile communication network and the single channel radio detection system and public information network such as Internet are presented. It is hoped that this research results can play a major role of information supervision,and eventually serve for the national security.
meta-information; language identification; keyword spotting; intelligent audio information retrieval; electronic reconnaissance receiving and processing system
TN912.34
A
1002-0802(2016)-10-1415-04
10.3969/j.issn.1002-0802.2016.10.028
2016-06-07;
2016-09-15
data:2016-06-07;Revised data:2016-09-15