劉曉峰 吳粵野
摘 要:本文主要探討建立一個具備采集、比對、分析功能的全國方音云端數(shù)據(jù)庫和自動識別平臺的可行性,該平臺既可實現(xiàn)對全國各地方言方音的系統(tǒng)化采集,又可智能、直觀服務(wù)于偵查部門的辦案需要,更重要的是,填補了國內(nèi)甚至國際方音云采集、地域自動識別系統(tǒng)的空白。
關(guān)鍵詞:云端數(shù)據(jù)庫;方言;語音識別;系統(tǒng)平臺
中國是一個方言眾多、方音復(fù)雜的國家,即便是一個專業(yè)的言語識別專家,也難以做到通曉全國方言。在科學(xué)技術(shù)發(fā)達(dá)的今天,樹立“云”理念建立“全國一片云”的方音自動識別平臺,在偵查辦案中“聽音識地”已成為可能。
一、建立全國方音自動識別平臺有需求
中國現(xiàn)代漢語方言按照通俗的分法,可分為官話方言(或稱北方方言)、吳方言、湘方言、客家方言、閩方言、粵方言、贛方言七大方言。大方言再分為方言片(也叫次方言),如官話方言內(nèi)部按其語言特點一般可以分為8個次方言:東北官話、北京官話、冀魯官話(齊趙官話)、登遼官話、中原官話、蘭銀官話、西南官話和江淮官話。復(fù)雜一些的方言還可能再分為方言小片、甚至再細(xì)分到方言點,如閩方言還可分為閩東區(qū)、閩南區(qū)、閩北區(qū)、閩中區(qū)、莆仙區(qū)、邵將區(qū)和瓊文區(qū)7個區(qū),閩南區(qū)又可再分為泉漳、大田、潮汕、雷州4個片。一些地方比如潮汕地區(qū),甚至同一個方言點相鄰的兩個村之間說話都會有差異。有經(jīng)驗的言語識別專家或者熟知某個地區(qū)方言特點的人,從某一二個特殊的字的發(fā)音,就可以知道說話的人是哪里人。
但是面對這樣紛繁復(fù)雜的各地方言,任何人想掌握所有或者大部分方言的特點、特征都是很難的,一方面目前還沒有收集、歸納出系統(tǒng)、完整、權(quán)威的資料;另一方面憑借個人或幾個人短期內(nèi)收集、歸納遍布全國的這么多方言的特點、規(guī)律,工作量、工作難度相當(dāng)大。這就造成了方言識別在偵查辦案中只能是先請教專家劃出大而泛之的地域范圍,然后視案件具體情況再臨時請教方言地的群眾。這樣的辦案方式時間久、效率低、準(zhǔn)確性差,過后的總結(jié)也只能體現(xiàn)個別方言點的極少部分特點,且難以與同行共享。在目前方音自動識別系統(tǒng)缺乏的情況下,建立一個全國公安偵查部門甚至方言研究機(jī)構(gòu)共享的平臺已經(jīng)迫在眉睫[1]。
二、建立全國方音自動識別平臺有可能
(1)環(huán)境上已具備
目前我國互聯(lián)網(wǎng)已經(jīng)相當(dāng)普及,智能手機(jī)應(yīng)用廣泛。據(jù)國家統(tǒng)計局公布數(shù)據(jù)顯示,2017年我國互聯(lián)網(wǎng)普及率達(dá)到55.8%,互聯(lián)網(wǎng)上網(wǎng)人數(shù)7.72億人,其中手機(jī)上網(wǎng)7.53億人。公安機(jī)關(guān)內(nèi)部網(wǎng)、互聯(lián)網(wǎng)都已經(jīng)延伸到基層單位,即使沒有人手一部電腦,一個單位一部電腦也是有的。這樣的網(wǎng)絡(luò)時代、手機(jī)時代,讓建立全國方音“云”平臺具備了環(huán)境條件。
(2)技術(shù)上已成熟
一方面,“云”理念正成為各行各業(yè)的最新運營模式。通過網(wǎng)絡(luò)服務(wù)器建立一個全國方音的云端數(shù)據(jù)庫,大流量傳送語音流已毫無問題。另一方面,通過電腦或手機(jī)麥克風(fēng)采集人類語音并轉(zhuǎn)換為計算機(jī)可讀的文字輸入,這種技術(shù)目前也已經(jīng)相當(dāng)成熟。通過基于語音學(xué)和聲學(xué)的方法,對輸入的語音與內(nèi)置國際音標(biāo)發(fā)音模板的匹配,從而與庫中文字(單字或詞、詞組)的發(fā)音進(jìn)行相似度的比對,這種聲、韻、調(diào)識別功能在智能手機(jī)的語音輸入、語音撥號、語音檢索上,也已經(jīng)日臻完善,識別度不斷提高。目前國外的IBM、谷歌,國內(nèi)的百度、騰訊云、普強、靈犀、科大訊飛、阿里巴巴、云知聲、捷通華聲、思必馳等公司這方面技術(shù)都比較成熟,而且各有特色,購買或借助他們的技術(shù)程序段,植入平臺程序中進(jìn)行調(diào)試磨合即可。當(dāng)然還需要根據(jù)我們的需求進(jìn)行一定的改進(jìn)。
(3)采集上可解決
一個平臺,沒有海量的數(shù)據(jù)是難以支撐其正常運作的。我們有200多萬民警遍布全國各地,可以說,有方言的地方就有民警,就有刑警。作為警察,現(xiàn)在基本都用上了智能手機(jī),不少地方也已經(jīng)配發(fā)了雙系統(tǒng)的移動警務(wù)終端。民警可以通過智能手機(jī)APP、互聯(lián)網(wǎng)電腦登錄方音自動識別平臺,把自己熟練掌握的家鄉(xiāng)方言方音錄入平臺,做到全國民警都是“方音采集員”,有效解決方音采集的問題。
(4)功能上可拓展
除了語音輸入簡單快捷外,在結(jié)果的顯現(xiàn)上還可以借助現(xiàn)有的地圖平臺、大數(shù)據(jù)分析、模糊計算等功能,將方音自動識別系統(tǒng)拓展出更多更智能的功能,甚至可以應(yīng)用于民族語言、外國語言和非語言分析,研究、應(yīng)用前景相當(dāng)廣泛[2]。
三、建立全國方音自動識別平臺有內(nèi)涵
全國方音自動識別平臺最主要是語音采集和語音識別二大模塊,其它還有采集者和被采集者身份確認(rèn)、后期維護(hù)、功能拓展接口等。最核心的技術(shù)是語音識別技術(shù),其它還有識別比中的地點在地圖上的矢量化顯示、數(shù)據(jù)庫安全及備份等等。
(1)身份確認(rèn)模塊
一個是采集員的帳號登錄,另一個是被采集人的狀態(tài)描述。
采集員對于本平臺來說,多是公安民警或是從事方言語音研究的人員,設(shè)置采集員帳號,主要是方便其對本人采集內(nèi)容的整理、維護(hù)、注釋,并從方言點、片的層面,逐步填充、完善方音的采集,同時還可統(tǒng)計所采集內(nèi)容的被應(yīng)用情況,接受各使用單位對其采集內(nèi)容使用結(jié)果的反饋等。
被采集人的狀態(tài)描述,主要是對所采集的每一個方音發(fā)音標(biāo)明發(fā)音者的年齡、性別、職業(yè)、方言點、社會背景等,有助于大數(shù)據(jù)分析和辦案、方言研究的參考。如某個方言點的方音采集,既要考慮被采集人的年齡層,又要考慮其人生閱歷;太過年輕的被采集人,方言發(fā)音不能完全體現(xiàn)方言點的特點,而人生閱歷豐富、社會背景復(fù)雜、活動范圍廣的被采集人,其方言發(fā)音又會受環(huán)境的影響而夾雜其它方言的元素。這些都是在辦案和研究中必須考慮的問題。
(2)采集模塊
方音采集是方音識別的前提,沒有采集相當(dāng)數(shù)量的方音特征并建成庫,方音識別只能是空中樓閣。
①單字讀音采集
系統(tǒng)逐一顯示漢語3000個常用字,由采集員指導(dǎo)被采集人按本地方言點的發(fā)音逐個錄入讀音并回放確認(rèn),后以音頻和轉(zhuǎn)換為國際音標(biāo)二種形式保存。方音的采集,對環(huán)境的要求比較嚴(yán)格,最好是靜音環(huán)境,最大限度減少噪音的干擾。完成3000個常用字后,如有時間,可以擴(kuò)大到5000個常用字和非常用字的讀音采集錄入。
②詞組讀音采集
系統(tǒng)逐一顯示漢語3000個常用詞,由采集員指導(dǎo)被采集人按本地方言點的發(fā)音,逐個錄入每個詞的讀音并回放確認(rèn),后以音頻和轉(zhuǎn)換為國際音標(biāo)二種形式保存。如有時間,可以擴(kuò)大到非常用詞組的采集錄入。在對詞和詞組的讀音采集后,還可以分析歸納出這個方言點的詞組連讀變調(diào)規(guī)律。
③特殊詞語采集
主要是對被采集人所在方言點的俗語、俚語、方言詞進(jìn)行采集。這個除了要采集詞的發(fā)音,還要錄入特殊詞的詞義,有可能的話,還要描述形成這個方言詞的歷史原因。每種方言在不同方言點經(jīng)歷不同的發(fā)展變化,都會形成獨具特色的俗語、俚語、方言詞,有時往往一個俗語、俚語、方言詞,就能判斷出發(fā)音人源自哪個方言點。
④生活習(xí)俗采集
這個屬于拓展功能,非語音識別范疇,但有助于偵查辦案和方言研究。一些方言地,都有其獨特的民俗活動,比如潮州市湘橋區(qū)磷溪鎮(zhèn)溪口村每年正月十九的“鉆蔗巷”,估計全國就這一個地方有這個民俗。這與方言方音無關(guān),但如果案件中涉及到這個內(nèi)容,案犯就肯定與溪口村有過一定的交集。通過這個平臺收集這些民俗活動,對辦案和方言研究有一定的幫助。
(3)語音建庫
利用語音識別技術(shù)對字詞讀音進(jìn)行建庫是方音識別的關(guān)鍵。建庫是識別系統(tǒng)對采集的字、詞讀音采用語音識別技術(shù)的標(biāo)準(zhǔn)進(jìn)行特征描述,分別按方言點、聲、韻、調(diào)、連讀音變規(guī)律以及其它外圍參考指數(shù)如被采集人的各項狀態(tài)特征等為字段,在云端服務(wù)器建立數(shù)據(jù)庫。由于其間含有大量的音頻,所以這個數(shù)據(jù)庫是比較龐大的。但音頻文件又不能舍棄,字、詞的讀音音頻文件,可以隨時印證輸入字詞的國際音標(biāo),而且可以直觀、方便地提供給不熟悉國際音標(biāo)的辦案人員。
(4)識別比對模塊
方音識別是平臺應(yīng)用的核心,不論是用于破案,還是用于方言研究。
①輸入
對讀音的識別可以采取多種輸入方式:
一是電腦或手機(jī)的麥克風(fēng)輸入。即讓嫌疑人當(dāng)場朗讀念出平臺顯示出來的一定數(shù)量的常用字、詞,這個適合嫌疑人已經(jīng)被抓獲的情況。
二是播放音(視)頻文件+輸入文字的方式。這種情況是嫌疑人未被抓獲或未達(dá)抓捕條件,只提取到其聲音,并知道他所說的是什么。這種方式還需要對音頻進(jìn)行逐字?jǐn)X取,每個字的發(fā)音從哪里開始到哪里結(jié)束,畢竟這種錄音一般比較吵雜,會有很多現(xiàn)場音,通過擷取單字發(fā)音,能盡量減少現(xiàn)場聲音的干擾。
三是國際音標(biāo)輸入。這需要輸入人員具有一定的國際音標(biāo)知識。這種情況適合于辦案人員靠大腦記住嫌疑人對某個字、詞、句的發(fā)音,事后在平臺上逐字逐詞錄入。
②識別比對
這里的識別比對,即把新輸入的字詞語音特征(檢材)與庫中無數(shù)方言點的該字詞語音特征(樣本)進(jìn)行比對,找出相似度最高的方言點坐標(biāo)清單,在地圖上顯示出來。這種比對只要識別核心技術(shù)對語音特征描述的標(biāo)準(zhǔn)一致,錄入操作員不出差錯,比對效果應(yīng)該還是比較好的。
一是單字讀音比對比較簡單,按照先聲母后韻母再音調(diào)的順序,給出相似度最高的方言點或向地圖傳輸該方言點的地理坐標(biāo)即可。
二是詞組讀音的識別比對,除了對每個單字的讀音進(jìn)行比對以外,還要對單字組詞之后的連讀音變(含變聲、變韻、變調(diào)、輕化等)進(jìn)行比對。但這種音變的重要性,要排列在聲、韻、調(diào)之后。
三是特殊語義識別和生活習(xí)俗的比對,由于都是文本形式錄入的,這二項可以采用全文模糊查詢的方式,對字、詞或詞義進(jìn)行檢索,再從中尋找想要的線索。
③顯示
識別后要對得到的方言點進(jìn)行地圖顯示,這里不僅包含對字、詞識別出來的方言點,對特殊語義和生活習(xí)俗都可以復(fù)選進(jìn)行合并顯示。
地圖顯示是本平臺的亮點,能夠直觀標(biāo)識出方音識別出來后方言點的地域分布態(tài)勢。因為嫌疑人在讀出指定單字、詞組后,系統(tǒng)對每個字詞的識別,符合特征的會有多個地區(qū),在篩除一些普遍特征后,對這些字詞的方音特征通過邏輯運算“與”求出交集后符合的地域,并以高亮顯示。對高亮點集中的地區(qū),還可以用熱力圖顯示。由于系統(tǒng)使用的是谷歌、百度等矢量地圖,辦案人員可以對局部地區(qū)放大顯示到方言點,這就大大方便了偵查破案工作[3]。
(5)拓展模塊
①采集員培訓(xùn)區(qū)
原則上采集員應(yīng)有專業(yè)資質(zhì)或受過專業(yè)培訓(xùn),以保證方音采集的準(zhǔn)確性和質(zhì)量。作為平臺的建設(shè)方,可以適時舉辦培訓(xùn)班,邀請方言專業(yè)人士傳授方音采集知識,總結(jié)采集和應(yīng)用的經(jīng)驗,接受平臺建設(shè)改進(jìn)建議。同時可以將培訓(xùn)內(nèi)容錄成視頻放在平臺上,供采集員學(xué)習(xí)之用,提高采集水平。還可以設(shè)立咨詢客服,及時解答采集員的問題。
②江湖英雄榜
這里主要是采集員的成績及排行。對采集員的激勵機(jī)制,可以采用體現(xiàn)采集量的積分等級制和體現(xiàn)對偵查破案幫助程度的勛章制二個體系。完成一個方言點所有常用字、常用詞的采集,提升一個級別,而且級別數(shù)是無上限的;每在一個案件的偵破中發(fā)揮關(guān)鍵作用,獎勵一枚勛章,勛章數(shù)也是無限的。
③語音庫維護(hù)
主要是對方言點在地圖上地理位置的修改、對方音及習(xí)俗的糾錯,以及數(shù)據(jù)庫的安全及備份等等。為避免混亂,對方言片、小片、點的劃分,采用字典式錄入,這些字典詞必須由系統(tǒng)管理員后臺錄入,并賦予地圖矢量坐標(biāo)。
④留言區(qū)
提供給采集員之間進(jìn)行互相交流探討,以及向平臺管理員提出建設(shè)、改進(jìn)平臺的意見建議,或者發(fā)布涉及方言方面的懸賞通緝等[4]。
四、建立全國方音自動識別平臺有前景
(1)偵查破案
這是建設(shè)這個平臺的首要目的。平臺一旦建立,即可實現(xiàn)全國方音大匯集,每一個常用字、詞在每一個方言點的發(fā)音都可以查到,偵查民警在辦案中一涉及到方音問題就能求助這個平臺,要么將案件中提取的發(fā)音檢材上傳比對,要么將未知籍貫的犯罪嫌疑人進(jìn)行錄音采集,等于是增加了一個偵查手段,甚至可以直接認(rèn)定嫌疑人的主要活動地。
(2)方言體系及發(fā)展研究
由于平臺匯集了幾乎全國所有方言點常用字詞的發(fā)音和變音,大大方便了方言研究人員對某種甚至各種方言的研究,特別是對方言的發(fā)展、變遷、融合、影響等歷史變遷的挖掘,都將起到不可估量的作用。這也大大減少了研究人員采集樣品的時間,將主要精力集中到分析研究上,提高了效率。
(3)方言保護(hù)
在現(xiàn)今“地球村”時代,網(wǎng)絡(luò)的高度發(fā)達(dá),人員的大流動,加速了各地方言的大融合,也加速了地方小方言的消亡。但是,方言是地域文化的載體,是地區(qū)文化特色的表現(xiàn),也是民族傳統(tǒng)文化的活化石和寶貴文化遺產(chǎn)。一種方言的消亡,一個方言點的被融合,都意味著一系列的民俗文化被吞噬。保護(hù)方言意義重大而深遠(yuǎn)。著名語言學(xué)家周海中教授認(rèn)為:語言是人類文化的載體和重要組成部分。每種語言都能表達(dá)出使用者所在民族的世界觀、思維方式、社會特性以及文化、歷史等,都是人類珍貴的無形遺產(chǎn)。當(dāng)一種語言消失后,與之對應(yīng)的整個文明也會消失。當(dāng)今處于弱勢的民族語言正面臨著強勢語言、全球化、互聯(lián)網(wǎng)等的沖擊,正處于逐漸消失的危險之中。語言如此,方言亦是如此。作為語言研究人員,應(yīng)該采取積極而有效的措施,搶救瀕危方言,保護(hù)弱勢方言,如此才能傳承地域文化,營造多姿多彩的民族文化氛圍,促進(jìn)社會安定。
而方音自動識別平臺采用的是云端儲存,除了發(fā)生全球性大災(zāi)難,否則各種方言的方音特征將會長久保存,這對我國這個方言大國將具有深遠(yuǎn)的歷史意義,對全球性語言文化的存續(xù)與發(fā)展也是一個很好的借鑒。
參考文獻(xiàn)
[1]王自萬.刑事案件偵查中的方言識別技術(shù)[J/OL].北京警察學(xué)院學(xué)報:1-7[2018-08-16].https://doi.org/10.16478/j.cnki.jbjpc.20180703.001.
[2]歐陽國亮,李志芳.方言識別在偵查應(yīng)用中面臨的問題及對策[J].山西警察學(xué)院學(xué)報,2017,25(01):51-54.
[3]張穎,王鋼,安然.方言語料數(shù)據(jù)庫管理系統(tǒng)設(shè)計[J].新鄉(xiāng)學(xué)院學(xué)報(自然科學(xué)版),2008,25(03):57-58.
[4]趙文.社會方言及其在案件言語識別中的應(yīng)用[J].湖南公安高等??茖W(xué)校學(xué)報,2002(01):93-95.
作者簡介:
劉曉峰(1970.10--),男,廣東省潮州人,本科學(xué)歷,畢業(yè)于中國刑事警察學(xué)院,中級工程師,文件檢驗,
吳粵野(1987.07--),男,廣東省潮州人,本科學(xué)歷,畢業(yè)于廣東警官學(xué)院,助理工程師,文件檢驗,
(作者單位:廣東省潮州市公安局)