王紹軼
(天津市濱海新區(qū)廣播電視臺(tái),天津 300450)
隨著“十三五”科技發(fā)展中對(duì)廣電發(fā)展的要求,未來廣電的發(fā)展應(yīng)朝著利用科技創(chuàng)新,推動(dòng)廣播影視中節(jié)目制作、內(nèi)容生產(chǎn)、安全監(jiān)管等多方面向智能化方向發(fā)展。而人工智能近幾年發(fā)展十分迅速,給廣電未來的發(fā)展提供了可能,智能語(yǔ)音技術(shù)作為一種全新的技術(shù),能夠?qū)崿F(xiàn)信息的快速錄入、人工交互等功能,時(shí)下的教育、醫(yī)療、汽車等多個(gè)行業(yè)中都有所涉及。盡管科技發(fā)展提出了新的發(fā)展目標(biāo),且廣電媒體在發(fā)展的過程中有大量的文稿和音頻需要處理,但實(shí)際工作中對(duì)智能人工語(yǔ)音技術(shù)的使用并不常見。傳統(tǒng)的人工處理方式不僅耗費(fèi)時(shí)間長(zhǎng),且工作效率低下,人工的方式稍有不慎就會(huì)造成內(nèi)容理解上的偏差和記錄出現(xiàn)問題。本文主要針對(duì)這樣的情況,討論人工智能語(yǔ)音技術(shù)在廣電媒體中的實(shí)際應(yīng)用情況,在傳統(tǒng)人工處理的基礎(chǔ)上,借鑒經(jīng)驗(yàn),建設(shè)全新的廣電媒體智能語(yǔ)音應(yīng)用平臺(tái)。
語(yǔ)音識(shí)別技術(shù)主要是指將說出的語(yǔ)音轉(zhuǎn)換成對(duì)應(yīng)的文字進(jìn)行錄入,是一種新型的信息錄入技術(shù)。語(yǔ)音識(shí)別技術(shù)首先要檢測(cè)音頻的端點(diǎn),確定說話的位置,然后進(jìn)行識(shí)別處理。通過識(shí)別語(yǔ)句的對(duì)話語(yǔ)境,智能地判斷所錄入信息的標(biāo)點(diǎn)等相關(guān)信息。系統(tǒng)在錄入的過程中通過識(shí)別用戶自定義的詞匯優(yōu)先選擇相對(duì)應(yīng)的詞匯。
語(yǔ)音轉(zhuǎn)寫技術(shù)是在語(yǔ)音識(shí)別技術(shù)的發(fā)展基礎(chǔ)上延伸出來的,通過識(shí)別和理解語(yǔ)音信號(hào),將信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文字內(nèi)容。語(yǔ)音轉(zhuǎn)寫可以通過大數(shù)據(jù)和用戶的歷史數(shù)據(jù)將上下文的相關(guān)語(yǔ)義、停頓、語(yǔ)氣等內(nèi)容提取出來,對(duì)句子和段落進(jìn)行劃分,并且可以處理遠(yuǎn)場(chǎng)噪音等相關(guān)問題。
語(yǔ)音合成主要是指將文字通過計(jì)算機(jī)的轉(zhuǎn)換形成流暢的語(yǔ)音并輸出出來,可以應(yīng)用在現(xiàn)階段的語(yǔ)音播報(bào)、語(yǔ)音提醒、語(yǔ)音導(dǎo)航等眾多場(chǎng)景中。語(yǔ)音合成主要是將文字序列進(jìn)行解析,將文本進(jìn)行參數(shù)化的處理,然后輸出語(yǔ)音波形信號(hào),最后將波形單元序列進(jìn)行串聯(lián),形成完整的信號(hào)進(jìn)行輸出。
從人工智能語(yǔ)音識(shí)別平臺(tái)的系統(tǒng)架構(gòu)的組成看,它是由基礎(chǔ)支撐層、核心能力層、應(yīng)用服務(wù)層、應(yīng)用接入層和服務(wù)應(yīng)用平臺(tái)5個(gè)部分組成。
基礎(chǔ)支撐層。基礎(chǔ)支撐層主要是利用云計(jì)算對(duì)平臺(tái)底部的硬件和存儲(chǔ)的資源進(jìn)行管理。
核心能力層。能夠利用核心引擎為廣電媒體的實(shí)際應(yīng)用提供語(yǔ)音合成和語(yǔ)音識(shí)別等相關(guān)服務(wù),同時(shí)能夠?qū)Y源進(jìn)行優(yōu)化管理。
應(yīng)用服務(wù)層。應(yīng)用服務(wù)層能夠?qū)⒆钚碌恼Z(yǔ)音技術(shù)集合起來,為平臺(tái)的管理和服務(wù)提供強(qiáng)有力的語(yǔ)音服務(wù)等相關(guān)功能。
應(yīng)用接入層。利用應(yīng)用接入層能夠?qū)崿F(xiàn)服務(wù)接口和語(yǔ)音處理,能夠提供智能語(yǔ)音業(yè)務(wù)上的服務(wù)。
服務(wù)應(yīng)用平臺(tái)。服務(wù)應(yīng)用平臺(tái)能夠?qū)崿F(xiàn)文稿唱詞、虛擬播報(bào)、內(nèi)容轉(zhuǎn)寫等相關(guān)功能,支持第三方服務(wù)的對(duì)接工作。
人工智能語(yǔ)音識(shí)別技術(shù)中的軟件架構(gòu)主要有5種。第一種是采用J2EE組成的Java應(yīng)用規(guī)范架構(gòu)。這種系統(tǒng)具有系統(tǒng)上的可移植性,通過將其部署在相關(guān)的應(yīng)用服務(wù)器上,進(jìn)行高度靈活和擴(kuò)展的系統(tǒng)設(shè)計(jì)工作。第二種是在客戶端采用Node-Webkit這種應(yīng)用程序,提供交互界面方便業(yè)務(wù)人員的使用,管理員可以在任何地點(diǎn)查看使用情況,使數(shù)據(jù)的安全得到可靠的保證。第三種使采用REST設(shè)計(jì)的接口,能夠提高響應(yīng)速度,具有很高的性能、效率和易用性。第四種是JSON設(shè)計(jì)的數(shù)據(jù)交換的格式,這是一種方便閱讀和編寫的語(yǔ)言文本格式,可以跨平臺(tái)使用、跨系統(tǒng)使用、跨語(yǔ)言使用,通用性、靈活性和擴(kuò)展性極強(qiáng)。第五種是Spring Boot框架,這種框架能夠?qū)崿F(xiàn)方便的部署和配置,可以提供XML配置和準(zhǔn)生產(chǎn)應(yīng)用監(jiān)控。
利用人工智能語(yǔ)音識(shí)別技術(shù)搭建智能化發(fā)展平臺(tái)是廣電媒體未來發(fā)展中必然的趨勢(shì),因此對(duì)人工智能語(yǔ)音技術(shù)的使用,就要明確人工智能語(yǔ)音技術(shù)能夠應(yīng)用在廣電媒體中的系統(tǒng)環(huán)節(jié)。
利用文稿唱詞系統(tǒng),采編人員可以很快地將音頻文件和口述的內(nèi)容轉(zhuǎn)變成文稿,這里需要注意的是,非普通話的文稿需要記者使用麥克風(fēng)進(jìn)行跟讀識(shí)別。針對(duì)一些方言,系統(tǒng)可以利用方言聲學(xué)模型包進(jìn)行識(shí)別,一方面提高了文字識(shí)別的效率,另一方面將錄音的定位、校正等問題一并解決。在晚會(huì)中進(jìn)行錄制的音頻文件,系統(tǒng)可以對(duì)其進(jìn)行降噪處理,解決好分句與分段的問題。
內(nèi)容轉(zhuǎn)寫系統(tǒng)主要是將未進(jìn)入媒資庫(kù)的視音頻的內(nèi)容形成語(yǔ)言內(nèi)容,為媒體文件生成自己的“文字名片”,然后將媒體文件與名片一起提交審核,這樣一來編目人員能夠通過“文字名片”獲取更多關(guān)于視音頻文件的信息,更好地進(jìn)行編目工作,降低編目工作的差錯(cuò)率。
虛擬主持人、智能語(yǔ)音機(jī)器人和主播音庫(kù)共同組成,在使用的過程中將文稿導(dǎo)入就可以進(jìn)行配音工作,實(shí)現(xiàn)新聞的自動(dòng)播報(bào)功能,在播報(bào)的過程中,能夠?qū)崿F(xiàn)對(duì)語(yǔ)速、響度、聲音模板等的調(diào)控,以便適應(yīng)特定場(chǎng)合的要求。二次元的虛擬主持人主要是利用動(dòng)漫卡通虛擬的主持人進(jìn)行自動(dòng)播報(bào),在底層語(yǔ)言合成服務(wù)的基礎(chǔ)上,對(duì)節(jié)目播報(bào)形式進(jìn)行了創(chuàng)新。語(yǔ)音交互機(jī)器人能夠進(jìn)行中文聽寫,對(duì)人機(jī)對(duì)話的識(shí)別率達(dá)到90%以上,能夠?yàn)閺V播電視的需求提供對(duì)話內(nèi)容。
平臺(tái)通過提供應(yīng)用中的開發(fā)接口為第三方提供合成、語(yǔ)音識(shí)別等業(yè)務(wù)上的功能,其他的系統(tǒng)能夠?qū)?shù)據(jù)資源接入到語(yǔ)音云平臺(tái)中,利用智能融媒體實(shí)現(xiàn)對(duì)線索的分揀功能。通過融媒體線索匯聚的方式,可以將語(yǔ)音形成文字文件,將這些文字內(nèi)容按照用戶的需求進(jìn)行分類,為用戶提供訂閱線索的服務(wù),在內(nèi)容的選題策劃、生產(chǎn)發(fā)布等環(huán)節(jié)應(yīng)用得較多。
融媒體會(huì)議系統(tǒng)主要被應(yīng)用在廣電媒體的會(huì)議記錄中,在會(huì)議場(chǎng)景中根據(jù)采集信息實(shí)時(shí)轉(zhuǎn)化為文字內(nèi)容,用戶根據(jù)需要整理出會(huì)議要點(diǎn)。同時(shí)還可以將已經(jīng)錄好的音頻文件通過導(dǎo)入轉(zhuǎn)寫成文字內(nèi)容,轉(zhuǎn)寫的過程中自動(dòng)將會(huì)議的重點(diǎn)內(nèi)容進(jìn)行標(biāo)記,能夠通過雙擊文字回聽與之相關(guān)的音頻文件,使音頻與文字相對(duì)應(yīng)。通過對(duì)語(yǔ)氣詞的過濾、內(nèi)容的分段還可以讓記錄人員更有效地理解音頻文件,用戶還可以通過檢索等功能將會(huì)議模板導(dǎo)出,形成會(huì)議紀(jì)要內(nèi)容。
廣電媒體的日常工作中包括對(duì)節(jié)目制作、內(nèi)容編目、節(jié)目播報(bào)和會(huì)議記錄等,為了提高這些工作的轉(zhuǎn)寫效果,需要對(duì)相關(guān)的有用信息進(jìn)行采集,并且利用具有科學(xué)性和針對(duì)性的方式對(duì)語(yǔ)音轉(zhuǎn)寫進(jìn)行優(yōu)化,達(dá)到智能的要求。在這樣的基礎(chǔ)上形成相應(yīng)的信息資源數(shù)據(jù)庫(kù),能夠有效地進(jìn)行保存。
數(shù)據(jù)庫(kù)在使用上有相關(guān)的要求規(guī)范,主要包括以下幾個(gè)方面:第一,能夠支持多個(gè)用戶在聯(lián)機(jī)時(shí)進(jìn)行業(yè)務(wù)處理,滿足多個(gè)用戶對(duì)訪問數(shù)據(jù)庫(kù)的相關(guān)要求。第二,技術(shù)使用具有較高的可靠性,且為了保證效果更好,要具備高容錯(cuò)能力和自恢復(fù)能力。第三,分布數(shù)據(jù)源和異構(gòu)數(shù)據(jù)源使用具有相應(yīng)的支持,數(shù)據(jù)能夠自動(dòng)復(fù)制且多個(gè)副本之間的數(shù)據(jù)同步工作要做好。第四,能夠提供相應(yīng)的安全管理機(jī)制。第五,能夠提供一套軟件開發(fā)工具,支持軟件開發(fā)使用的整個(gè)周期。
從現(xiàn)階段人工智能語(yǔ)音技術(shù)在廣電媒體中的實(shí)際應(yīng)用來看,這種全新的技術(shù)在媒體中的實(shí)際應(yīng)用并不多,且有待進(jìn)一步的研究和探討。綜合來說,人工智能語(yǔ)音技術(shù)在廣電媒體中的使用主要在文稿唱詞、虛擬播報(bào)、內(nèi)容轉(zhuǎn)寫、融媒體會(huì)議和第三方接口服務(wù)幾個(gè)方面。這些功能的使用極大地提高了廣電媒體的工作效率,提升傳統(tǒng)的工作效率。未來廣電媒體的發(fā)展,更應(yīng)該注重人工智能語(yǔ)音技術(shù)的使用,根據(jù)相應(yīng)的規(guī)范合理進(jìn)行使用,只有使用到位才有可能推動(dòng)廣電媒體的進(jìn)一步發(fā)展,跟上新媒體發(fā)展的步伐,推動(dòng)行業(yè)整體邁上更高的發(fā)展臺(tái)階。