厲鵬,李曄,王銘欣
摘 要:語音識別在經歷了近六十年的發(fā)展之后,在近幾年的時間里呈現(xiàn)出井噴式的發(fā)展,給人們的生活和工作帶來了巨大的改變。而正是由于語音識別具有的穩(wěn)定性和唯一性、采集的便利性、處理的強大性、識別的智能性等獨特的優(yōu)勢,使其在公安機關中獲得了多方面的深度應用。公安機關應當盡快明確語音識別的定義,結合公安的具體工作和實際問題,積極探討語音識別在信息錄入、保密工作、偵查破案、審訊詢問、便民服務等公安工作中的深入應用,才能進一步實現(xiàn)公安工作的創(chuàng)新,成為未來公安工作發(fā)展和變革的強大推力。
關鍵詞:語音識別;公安工作;應用
中圖分類號:D631.2 文獻標志碼:A 文章編號:2095-2945(2018)06-0132-03
Abstract: Speech recognition has experienced nearly 60 years of development. In recent years it has shown the development of blowout in bringing great changes to people's lives and work. And because of its unique advantages - stability and uniqueness, convenience of collection, robustness of processing, and identification of intelligence, speech recognition will be applied deeply in many aspects of the public security organ. The public security organs should follow the pace of the times and clarify the definition and characteristics of speech recognition as soon as possible. It should combine with the specific work and practical problems of public security, and actively explore the voice recognition in the information entry, confidential work, investigation and detection, interrogation, convenience services in order to further achieve the innovation of public security work and become a strong thrust for the public security work in the future development and transformation.
Keywords: speech recognition; public security organ's work; application
1 語音識別技術概述
1.1 語音識別的發(fā)展歷程。語音識別技術依托人工智能技術的研究而不斷取得進步。自計算機科學之父阿蘭·圖靈提出了人與計算機進行交流的設想開始,人類便開始了語音識別的研究。語音識別起始于20世紀50年代的Audry系統(tǒng)[1]。1952年,世界上第一個語音識別系統(tǒng)在美國貝爾研究所研制成功,這成為了語音識別技術的歷史開端。1960年,計算機語音識別系統(tǒng)首先在英國研制成功。20世紀70年代,隨著統(tǒng)計語言學在語音識別中的應用,語音識別的研究從微觀轉向宏觀,從小數(shù)量轉向大數(shù)量,從特殊轉向一般。20世紀80年代中期,語音識別的研發(fā)借助HMM模型和人工神經網絡(ANN)將純數(shù)學模型工程化、程序化和簡單化,掀起了新一輪的研究熱潮。20世紀90年代以后,語音識別以人工神經網絡技術作為突破點,促使語音識別真正的從理論走向了實際的應用。2006年,深度神經網絡研究的巨大突破,使得人工智能迎來了第三次浪潮,而語音識別的也在此基礎上,依托大數(shù)據(jù)技術、云計算技術不斷的開拓創(chuàng)新。谷歌、微軟、百度、科大訊飛等公司不斷的強化了語言識別的新功能,將語音識別的精確性、迅捷性和智能性提高到了一個新的高度。語音識別的應用也在多國語音文字的智能轉化、智能家居、金融服務、汽車導航等等方面開啟了人機交互、萬物互聯(lián)的智能化語音識別時代。
1.2 音識別的概念。一般的語音識別是指將人發(fā)出的聲音信號轉化為文字或者其他指令的過程[2]。于瑞華認為,語音識別是憑借人發(fā)出的語音波形中能夠反映發(fā)聲人的生理、心理和行為等語音特性的參數(shù),進一步識別和確認發(fā)聲人身份的過程。[3]。聲紋鑒定的概念是應用語言學、行為學、心理學等學科的知識,判斷是否為同一聲源,或者斷定聲音或聲源的性質和特點的一種專門技術手段[4]。公安機關中語音識別的概念更接近于聲紋鑒定,包括通過語音識別技術和語音數(shù)據(jù)庫對語音信號的處理、分析、鑒別、類比,進行發(fā)聲人的辨識和確認,進而為偵查破案提供偵查方向和線索、確定軌跡路線、固定證據(jù)材料等工作。而隨著新理念和新技術的出現(xiàn),語音識別的概念內涵和外延也會更加的豐富,從而更好的服務與不斷變化的公安工作。
2 語音識別在公安工作中應用的可行性分析
2.1 穩(wěn)定性和唯一性。語音是由人的聲帶作為聲源振動產生的,而由于聲帶的長短、寬窄、厚薄等生理屬性的不同,使得語音音調、音色和聲強等特征也不盡相同。而且這些特征具有相對穩(wěn)定性和唯一性。穩(wěn)定性是指人的語音特征在固定的年齡斷是基本不變的,除非受過專業(yè)訓練,否則任何人說話都會帶有母語腔,而隨著生理和心理上的成熟,這種穩(wěn)定性會更加突出。唯一性也叫差異性,是指因人的聲帶先天的生理構造的不同,以及后天形成的說話習慣、心理素質、知識水平的不同而具有特殊性,這是區(qū)分發(fā)聲人,實行語音同一認定的重要依據(jù)。
2.2 采集的便利性。語音的傳播和采集所需條件十分簡單,入門門檻很低,相應的語音記錄、存儲整理和傳輸技術已經非常成熟。每個人的手機都是一個天然的語音采集器,語音的采集可以實現(xiàn)同步識別,并借助軟件后臺進行備份上傳云端,從而大批量的進行語音數(shù)據(jù)的采集處理。語音識別的采集對于被采集對象沒有過多的限制和要求,不需要直接接觸,還可以對環(huán)境進行清零和降噪,可在大多數(shù)場景下進行語音的采集,大大提高了采集的可實施性和便利性。
2.3 處理的強大性。語音識別研究的不斷突破,使得語音識別展現(xiàn)出了自身獨一無二的強大性。第一,處理的及時性。語音識別的實時處理速度迅速,反饋時間很短,完全可以跟上普通人說話的速度,這便保證了系統(tǒng)的持續(xù)工作能力和識別的連續(xù)性。第二,轉化的準確性。語音識別系統(tǒng)會自行進行相應學習和升級,語音的處理變得越來越智能化和準確化,最新研發(fā)的語音識別系統(tǒng)的詞錯率已降到了5.5%,達到專業(yè)記錄員的水平。第三,多國語言的無縫對接。語音識別支持多國語言的實時翻譯和同聲傳譯,實現(xiàn)了不同語言之間的實時交流,像微軟的Siri就會說36個國家的21種語言,這進一步提高了語音識別的應用領域。
2.4 識別的智能性。語音識別的智能性體現(xiàn)在其不僅僅可以充分準確的對語音信息進行快速的記錄、存儲和翻譯,以及對形成的電子版文字進行人聲的智能修改等傳統(tǒng)語音識別工作,根據(jù)工作人員下達的語音指令,結合心理學、行為學等其他學科的模型體系,根據(jù)語速、語調和停頓對發(fā)聲人的意圖進行分析做出說話人意圖的準確判斷;自動對語音進行實時多點收集、大數(shù)據(jù)的智能化的分析,并通過將發(fā)聲人的音調、音色和聲強對發(fā)聲人的身份進動態(tài)的分析和全天候跟蹤、確認,并及時報警或者反饋給工作人員。
2.5 應用的廣泛性。語音識別技術除了可以用在圖像識別、機器翻譯、智能家居、汽車導航、生產的自動控制、手機語音合成等多個技術和領域之外,也可以在公安、司法、醫(yī)療、商務辦公等領域發(fā)揮作用。單就公安機關來講,各個部門、各個警種的各項工作中都可以大量應用語音識別技術,來進一步提高公安工作的效率和能力,實現(xiàn)智能化警務的轉變和發(fā)展。而大數(shù)據(jù)技術和云計算技術的深度應用,人與機器的耦合會不斷加強,語音技術的應用也將會更加普及。
3 語音識別在公安工作中的具體應用
3.1 語音識別技術在信息錄入工作中的應用。公安機關每天面臨著大量的數(shù)據(jù)錄入工作,尤其是基層工作單位,需要將海量的數(shù)據(jù)進行錄入和整理。而這些信息是每天都需要動態(tài)錄入的,總量巨大的信息占用了公安工作人員大量的時間和精力,而且還會由于計算機硬件設施和操作水平的緣故,造成相關工作的延誤。而語音識別技術為這類工作帶來了極大的便捷,采用語音自動識別錄入技術,不僅可以快速進行語音到文字的轉化,還能都及時的對語法錯誤、拼寫錯誤進行檢查和語音更正,根據(jù)需要對數(shù)據(jù)進行歸檔整理和存儲,語音的搜索和提取方便快捷,公安工作的效率得到極大的提高。
3.2 語音識別在公安保密工作中的應用。傳統(tǒng)的紙質保密存在一定泄露和丟失的風險,尤其是涉穩(wěn)、涉毒和涉恐的信息,一旦泄露即會造成嚴重的后果。而語音識別的保密功能卻可以很好避免此類事件的發(fā)生。對于一些重要的、涉密的會議在使用語音技術進行全程的文字轉化的同時,還可以對語音進行全程加密,防止第三方的竊取和竊聽。只有獲得相應的權限才能查閱和聽取相應的會議內容,不留紙質文件,直接形成電子版文件。一來便于信息的共享和攜帶,二來可以及時對文件進行加密處理和保存,更好地完成公安機關相關工作的保密工作。
3.3 語音識別在偵查破案中的應用。語音識別在偵查破案中早有應用,其根據(jù)對于收集的原始語音數(shù)據(jù)進行分析,可以確定嫌疑人的身份信息為偵查劃定范圍和提供方向。依據(jù)法律規(guī)定的相關程序,搜集案發(fā)時周邊相應的語音數(shù)據(jù),包括微信、QQ等社交軟件中的語音信息、通話錄音等,對留下的語音進行分析辨認。針對在逃人員,可以根據(jù)已經搜集的關于他的語音信息,與語音大數(shù)據(jù)庫進行碰撞和關聯(lián),進行蹤跡追蹤和團伙深挖。同時,將其語音信息與社會中每天收集的語音信息進行動態(tài)對比,實現(xiàn)語音的全天候跟蹤,并結合PGPS系統(tǒng)對其進行及時的定位,及時報警和反饋,發(fā)現(xiàn)其蹤跡和隱藏地點,以便進行圍堵和抓捕。
3.4 語音識別在審訊訊問中的應用。公安機關可以運用語言學、行為學、心理學等多門學科的理論設置相關參數(shù)和模型,對被訊問人的音色、音調以及配合說話時的微表情和肢體動作進行分析,抓住其語音中反映出的微妙變化,識破其謊言,抓住弱點進行突破?;谡Z音識別的深層語音情感評測技術更可以讓內在的情感外在化、客觀化、直觀化、數(shù)據(jù)化,具有更強的應用性和操作性。訊問人員如能及時了解和掌握犯罪嫌疑人的心理活動和情感走向,就能找到其供述的薄弱點和障礙,從而幫助訊問人員及時把握和調整訊問方向。語音識別便成為了公安機關訊問方法的一種新的模式[5]。
3.5 語音識別在便民服務中的應用。而語音識別的應用,會提高公安機關的服務能力,改進服務方式,突破服務障礙,更好的營造良好的警民關系。首先,提高民警溝通能力。外籍或者異地的民警在與群眾進行情況了解、案件調查和走訪慰問時,只需攜帶輕便的語音識別裝備,就可以迅速準確的將方言與普通話進行相互轉換,及時化解語言不通帶來的誤解和矛盾。其次,打造智能警務服務模式。在公安行政部門、出入境部門和地方所隊的戶籍等服務部門,引入智能化語音識別機器人,根據(jù)用戶的語音來進行相關業(yè)務的指導和辦理,方便文盲或者年老者等少數(shù)群體,提高公安機關對于群眾的服務質量。
參考文獻:
[1]高新濤,陳乖麗.語音識別技術的發(fā)展現(xiàn)狀及應用前景[J].甘肅科技縱橫,2007(4):13.
[2]中華人民共和國國家質量監(jiān)督檢驗檢疫總局.GB/T21023-2007中文語音識別系統(tǒng)通用技術規(guī)范[S].北京:中國標準出版社,2007.
[3]于瑞華.語音識別在公安工作中的應用[J].中國人民公安大學學報(自然科學版),2007(4):96-99.
[4]王英利,李敬陽,曹洪林.聲紋鑒定技術綜述[J].警察技術,2012(4):54-56.
[5]畢惜茜.偵查訊問方法研究[J].中國人民公安大學學報(社會科學版),2013(5):55-59.