薛輝
(商洛學(xué)院數(shù)學(xué)與計(jì)算機(jī)應(yīng)用學(xué)院,陜西 商洛 726000)
訊飛語音技術(shù)在會(huì)議記錄手機(jī)APP中的應(yīng)用
薛輝
(商洛學(xué)院數(shù)學(xué)與計(jì)算機(jī)應(yīng)用學(xué)院,陜西 商洛 726000)
為了實(shí)現(xiàn)自動(dòng)生成會(huì)議文字記錄,設(shè)計(jì)了一款會(huì)議記錄手機(jī)APP,研究了在會(huì)議記錄手機(jī)APP中應(yīng)用訊飛語音的關(guān)鍵技術(shù),包括語音技術(shù)的選取、語音聽寫的流程、上傳用戶自定義詞表和識別結(jié)果合成。該會(huì)議記錄手機(jī)APP能夠識別會(huì)議參與人員的講話并轉(zhuǎn)換為文字,可以有效減輕會(huì)議秘書的工作負(fù)擔(dān)。
訊飛;語音識別;會(huì)議記錄
會(huì)議記錄是有關(guān)會(huì)議情況的原始筆錄和第一手材料[1],需要會(huì)議秘書把會(huì)議參與人員的講話記錄下來。由于人講話的速度明顯快于書寫的速度,會(huì)議秘書在記錄時(shí)往往只能記錄重要的部分,無法完整地呈現(xiàn)會(huì)議的內(nèi)容。采取錄音的方式雖然可以完整記錄會(huì)議參與人員的講話,但會(huì)議記錄一般要求文字形式,錄音資料只能用作輔助材料,文字仍然需要會(huì)議秘書人工記錄。如今,語音識別技術(shù)已經(jīng)比較成熟,可以應(yīng)用語音技術(shù)開發(fā)智能程序[2],自動(dòng)完成文字生成和記錄工作,會(huì)議秘書只需在會(huì)后稍加整理即可,可以大大減輕會(huì)議秘書的工作負(fù)擔(dān)。本文應(yīng)用訊飛語音技術(shù)設(shè)計(jì)了一款會(huì)議記錄手機(jī)APP。
科大訊飛經(jīng)過多年的積累,整合了科大訊飛研究院、中國科技大學(xué)訊飛語音實(shí)驗(yàn)室和清華大學(xué)訊飛語音實(shí)驗(yàn)室等在語音技術(shù)上的成果,語音核心技術(shù)達(dá)到了國際領(lǐng)先的水平[3],并引進(jìn)國內(nèi)外最先進(jìn)的人工智能技術(shù) ,與學(xué)術(shù)界、產(chǎn)業(yè)界合作,共同打造了語音技術(shù)應(yīng)用平臺,提供語音合成、語音識別、聲紋密碼等語音技術(shù)[4]。已經(jīng)有許多軟件應(yīng)用訊飛語音技術(shù),并取得了良好的效果。
本文設(shè)計(jì)的會(huì)議記錄手機(jī) APP 基于 Android 平臺,使用Java 語言開發(fā) ,采用 Eclipse 進(jìn)行編譯 ,適用于 Android4.2以上版本的手機(jī),工作時(shí)需要聯(lián)網(wǎng)環(huán)境支持。該手機(jī)APP主要是應(yīng)用訊飛語音技術(shù)把會(huì)議參與人員的講話識別成文字保存下來,應(yīng)用的關(guān)鍵技術(shù)如下:
3.1 語音技術(shù)的選取
訊飛語音技術(shù)主要包括語音合成、語音識別、語音評測、聲紋識別等功能,其中語音識別技術(shù)又分為語音聽寫、命令詞識別和語義理解三種[5]。語音聽寫技術(shù)可以靈活識別語句和分詞,并將語音識別的結(jié)果轉(zhuǎn)換成文字;命令詞識別技術(shù)可以根據(jù)設(shè)置的語法規(guī)則識別用戶說出的關(guān)鍵詞,從而進(jìn)行一些控制操作;語義理解技術(shù)可以分析用戶所說的話語的需求,返回用戶關(guān)心的相關(guān)查詢結(jié)果。使用手機(jī)APP進(jìn)行會(huì)議記錄,主要是把會(huì)議參與人員的講話轉(zhuǎn)換成為文字,所以采用語音聽寫技術(shù)比較合適,可以快速把會(huì)議的內(nèi)容記錄下來[6]。訊飛語音技術(shù)的語音聽寫還包括云端識別和本地識別兩種,為了獲得更加準(zhǔn)確的識別結(jié)果,本系統(tǒng)采用云端識別。
3.2 語音聽寫的流程
使用語音聽寫技術(shù)的流程如下:
(1)導(dǎo)入 SDK:將訊飛語音平臺提供的 Android SDK 壓縮包中 libs文件夾下所有文件復(fù)制到 APP 工程的 libs文件夾下。
(2)添加權(quán)限:在 APP 工程的 AndroidManifest.xml文件中添加相關(guān)權(quán)限,本APP需要使用連接網(wǎng)絡(luò)、使用錄音機(jī)、讀取網(wǎng)絡(luò)信息狀態(tài)、獲取wifi狀態(tài)等權(quán)限。
(3)創(chuàng)建語音配置對象:創(chuàng)建語音配置對象即初始化,包括設(shè)置 appid、開發(fā)者賬號、引擎模式等,本 APP 的引擎模式設(shè)置為“auto”。
(4)創(chuàng)建 SpeechRecognizer對象 :要使用語音聽寫技術(shù),需創(chuàng)建SpeechRecognizer對象,云端識別時(shí)第二個(gè)參數(shù)設(shè)置為“null”。
(5)設(shè)置聽寫參數(shù):設(shè)置聽寫的參數(shù),比如應(yīng)用領(lǐng)域、語言區(qū)域等。本APP設(shè)置應(yīng)用領(lǐng)域?yàn)槎绦藕腿粘S谜Z,即“iat”,語言區(qū)域?yàn)橹形闹袊础皕h_cn”。
(6)開始聽寫:開始把聽到的語音識別成為文字并記錄下來。
3.3 上傳用戶自定義詞表
特定會(huì)議往往會(huì)有一些特定的詞語,這些特定的詞語用戶可以自定義并上傳到云端,以提高識別的準(zhǔn)確率。上傳自定義詞表的關(guān)鍵代碼如下:
3.4 識別結(jié)果合成
語音聽寫的結(jié)果返回 JSON 格式文檔,JSON(JavaScript Object Notation) 是一種輕量級的數(shù)據(jù)交換格式,易于機(jī)器解析和生成,也便于人閱讀和編寫[7]。語音識別模塊返回 JSON格式文本后,順序檢測“cw”,把“cw”里的“w”依次連接到一起即可合成語音識別的結(jié)果。如果一個(gè)“cw”里有多個(gè)“w”,即說明有多候選結(jié)果,此時(shí),得分越高識別準(zhǔn)確的可能性越大,所以連接分?jǐn)?shù)最高的一個(gè)。
本文設(shè)計(jì)了一款會(huì)議記錄手機(jī)APP,應(yīng)用訊飛語音技術(shù)實(shí)現(xiàn)自動(dòng)完成會(huì)議記錄工作,能夠生成會(huì)議講話的文字信息,給會(huì)議秘書帶來便利,減輕工作負(fù)擔(dān),提高工作效率。本APP 尚沒有區(qū)分不同的講話人[8],隨著聲紋技術(shù)的發(fā)展,如果可以根據(jù)聲紋自動(dòng)區(qū)分出每句話為哪個(gè)參會(huì)人所講[9],就可以把參會(huì)人的姓名直接記錄在語句之前,分離開不同講話人所講的文字,給會(huì)議秘書的工作帶來更大的方便。
[1] 劉偉.會(huì)議記錄整理與寫作撮要[J].秘書,2015(02):31-32.
[2]張建華.基于深度學(xué)習(xí)的語音識別應(yīng)用研究[D].北京:北京郵電大學(xué),2015.
[3]李慧.基于訊飛語音的安卓手機(jī)應(yīng)用開發(fā)步驟的研究[J].無線互聯(lián)科技,2015(14):123-124.
[4]王海洋,郭星.基于語音識別的智慧旅游系統(tǒng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015(05):143-147.
[5] 陳松.基于 A n d r o i d平臺的家居遠(yuǎn)程語音控制系統(tǒng)研究[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2016(21):25-26.
[6] 郭海賓,王艷秋,燕孝飛.基于 A n d r o i d平臺的手機(jī)語音記錄器的設(shè)計(jì)與實(shí)現(xiàn)[J].福建電腦,2015(10):24-25.
[7] 高靜,段會(huì)川.JSO N 數(shù)據(jù)傳輸效率研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2011(07):2267-2270.
[8]周雷.基于聲紋識別的說話人身份確認(rèn)方法的研究[D].上海:上海師范大學(xué),2016.
[9]裴鑫.聲紋識別系統(tǒng)關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱理工大學(xué),2014.
TheApplication of iFLYTEK’s Speech Technology in Mobile PhoneAPP for Meeting Minutes
Xue Hui
(Shangluo University,Shangluo 726000,Shaanxi)
In order to realize the automatic generation of meeting records,designed a conference record mobile phone APP,studied the key technologies of the application of Iflytek’s speech technology in the conference record APP,which included speech technology selection,speech dictation process,upload custom thesaurus and recognition results.The conference record mobile phone APP can identify the speech of the conference participants and convert it to text,which can effectively reduce the workload of the conference secretary.
iFLYTEK;speech recognition;meeting minutes
TN912.34
A
1008-6609(2017)05-0067-02
薛輝(1983-),男,陜西商洛人,碩士,工程師,研究方向?yàn)橛?jì)算機(jī)教育教學(xué)改革、應(yīng)用軟件開發(fā)。