人工智能語(yǔ)音技術(shù)在廣電媒體的應(yīng)用

2018-03-28 16:48:13王紹軼

傳媒論壇 2018年9期

王紹軼

（天津市濱海新區(qū)廣播電視臺(tái)，天津 300450）

隨著“十三五”科技發(fā)展中對(duì)廣電發(fā)展的要求，未來廣電的發(fā)展應(yīng)朝著利用科技創(chuàng)新，推動(dòng)廣播影視中節(jié)目制作、內(nèi)容生產(chǎn)、安全監(jiān)管等多方面向智能化方向發(fā)展。而人工智能近幾年發(fā)展十分迅速，給廣電未來的發(fā)展提供了可能，智能語(yǔ)音技術(shù)作為一種全新的技術(shù)，能夠?qū)崿F(xiàn)信息的快速錄入、人工交互等功能，時(shí)下的教育、醫(yī)療、汽車等多個(gè)行業(yè)中都有所涉及。盡管科技發(fā)展提出了新的發(fā)展目標(biāo)，且廣電媒體在發(fā)展的過程中有大量的文稿和音頻需要處理，但實(shí)際工作中對(duì)智能人工語(yǔ)音技術(shù)的使用并不常見。傳統(tǒng)的人工處理方式不僅耗費(fèi)時(shí)間長(zhǎng)，且工作效率低下，人工的方式稍有不慎就會(huì)造成內(nèi)容理解上的偏差和記錄出現(xiàn)問題。本文主要針對(duì)這樣的情況，討論人工智能語(yǔ)音技術(shù)在廣電媒體中的實(shí)際應(yīng)用情況，在傳統(tǒng)人工處理的基礎(chǔ)上，借鑒經(jīng)驗(yàn)，建設(shè)全新的廣電媒體智能語(yǔ)音應(yīng)用平臺(tái)。

一、智能語(yǔ)音技術(shù)

（一）語(yǔ)音識(shí)別技術(shù)

語(yǔ)音識(shí)別技術(shù)主要是指將說出的語(yǔ)音轉(zhuǎn)換成對(duì)應(yīng)的文字進(jìn)行錄入，是一種新型的信息錄入技術(shù)。語(yǔ)音識(shí)別技術(shù)首先要檢測(cè)音頻的端點(diǎn)，確定說話的位置，然后進(jìn)行識(shí)別處理。通過識(shí)別語(yǔ)句的對(duì)話語(yǔ)境，智能地判斷所錄入信息的標(biāo)點(diǎn)等相關(guān)信息。系統(tǒng)在錄入的過程中通過識(shí)別用戶自定義的詞匯優(yōu)先選擇相對(duì)應(yīng)的詞匯。

（二）語(yǔ)音轉(zhuǎn)寫技術(shù)

語(yǔ)音轉(zhuǎn)寫技術(shù)是在語(yǔ)音識(shí)別技術(shù)的發(fā)展基礎(chǔ)上延伸出來的，通過識(shí)別和理解語(yǔ)音信號(hào)，將信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文字內(nèi)容。語(yǔ)音轉(zhuǎn)寫可以通過大數(shù)據(jù)和用戶的歷史數(shù)據(jù)將上下文的相關(guān)語(yǔ)義、停頓、語(yǔ)氣等內(nèi)容提取出來，對(duì)句子和段落進(jìn)行劃分，并且可以處理遠(yuǎn)場(chǎng)噪音等相關(guān)問題。

（三）語(yǔ)音合成技術(shù)

語(yǔ)音合成主要是指將文字通過計(jì)算機(jī)的轉(zhuǎn)換形成流暢的語(yǔ)音并輸出出來，可以應(yīng)用在現(xiàn)階段的語(yǔ)音播報(bào)、語(yǔ)音提醒、語(yǔ)音導(dǎo)航等眾多場(chǎng)景中。語(yǔ)音合成主要是將文字序列進(jìn)行解析，將文本進(jìn)行參數(shù)化的處理，然后輸出語(yǔ)音波形信號(hào)，最后將波形單元序列進(jìn)行串聯(lián)，形成完整的信號(hào)進(jìn)行輸出。

二、人工智能語(yǔ)音識(shí)別技術(shù)的技術(shù)架構(gòu)

（一）系統(tǒng)架構(gòu)

從人工智能語(yǔ)音識(shí)別平臺(tái)的系統(tǒng)架構(gòu)的組成看，它是由基礎(chǔ)支撐層、核心能力層、應(yīng)用服務(wù)層、應(yīng)用接入層和服務(wù)應(yīng)用平臺(tái)5個(gè)部分組成。

基礎(chǔ)支撐層。基礎(chǔ)支撐層主要是利用云計(jì)算對(duì)平臺(tái)底部的硬件和存儲(chǔ)的資源進(jìn)行管理。

核心能力層。能夠利用核心引擎為廣電媒體的實(shí)際應(yīng)用提供語(yǔ)音合成和語(yǔ)音識(shí)別等相關(guān)服務(wù)，同時(shí)能夠?qū)Y源進(jìn)行優(yōu)化管理。

應(yīng)用服務(wù)層。應(yīng)用服務(wù)層能夠?qū)⒆钚碌恼Z(yǔ)音技術(shù)集合起來，為平臺(tái)的管理和服務(wù)提供強(qiáng)有力的語(yǔ)音服務(wù)等相關(guān)功能。

應(yīng)用接入層。利用應(yīng)用接入層能夠?qū)崿F(xiàn)服務(wù)接口和語(yǔ)音處理，能夠提供智能語(yǔ)音業(yè)務(wù)上的服務(wù)。

服務(wù)應(yīng)用平臺(tái)。服務(wù)應(yīng)用平臺(tái)能夠?qū)崿F(xiàn)文稿唱詞、虛擬播報(bào)、內(nèi)容轉(zhuǎn)寫等相關(guān)功能，支持第三方服務(wù)的對(duì)接工作。

（二）軟件架構(gòu)

人工智能語(yǔ)音識(shí)別技術(shù)中的軟件架構(gòu)主要有5種。第一種是采用J2EE組成的Java應(yīng)用規(guī)范架構(gòu)。這種系統(tǒng)具有系統(tǒng)上的可移植性，通過將其部署在相關(guān)的應(yīng)用服務(wù)器上，進(jìn)行高度靈活和擴(kuò)展的系統(tǒng)設(shè)計(jì)工作。第二種是在客戶端采用Node-Webkit這種應(yīng)用程序，提供交互界面方便業(yè)務(wù)人員的使用，管理員可以在任何地點(diǎn)查看使用情況，使數(shù)據(jù)的安全得到可靠的保證。第三種使采用REST設(shè)計(jì)的接口，能夠提高響應(yīng)速度，具有很高的性能、效率和易用性。第四種是JSON設(shè)計(jì)的數(shù)據(jù)交換的格式，這是一種方便閱讀和編寫的語(yǔ)言文本格式，可以跨平臺(tái)使用、跨系統(tǒng)使用、跨語(yǔ)言使用，通用性、靈活性和擴(kuò)展性極強(qiáng)。第五種是Spring Boot框架，這種框架能夠?qū)崿F(xiàn)方便的部署和配置，可以提供XML配置和準(zhǔn)生產(chǎn)應(yīng)用監(jiān)控。

三、人工智能語(yǔ)音識(shí)別技術(shù)在廣電媒體中的應(yīng)用

利用人工智能語(yǔ)音識(shí)別技術(shù)搭建智能化發(fā)展平臺(tái)是廣電媒體未來發(fā)展中必然的趨勢(shì)，因此對(duì)人工智能語(yǔ)音技術(shù)的使用，就要明確人工智能語(yǔ)音技術(shù)能夠應(yīng)用在廣電媒體中的系統(tǒng)環(huán)節(jié)。

（一）文稿唱詞系統(tǒng)

利用文稿唱詞系統(tǒng)，采編人員可以很快地將音頻文件和口述的內(nèi)容轉(zhuǎn)變成文稿，這里需要注意的是，非普通話的文稿需要記者使用麥克風(fēng)進(jìn)行跟讀識(shí)別。針對(duì)一些方言，系統(tǒng)可以利用方言聲學(xué)模型包進(jìn)行識(shí)別，一方面提高了文字識(shí)別的效率，另一方面將錄音的定位、校正等問題一并解決。在晚會(huì)中進(jìn)行錄制的音頻文件，系統(tǒng)可以對(duì)其進(jìn)行降噪處理，解決好分句與分段的問題。

（二）內(nèi)容轉(zhuǎn)寫系統(tǒng)

內(nèi)容轉(zhuǎn)寫系統(tǒng)主要是將未進(jìn)入媒資庫(kù)的視音頻的內(nèi)容形成語(yǔ)言內(nèi)容，為媒體文件生成自己的“文字名片”，然后將媒體文件與名片一起提交審核，這樣一來編目人員能夠通過“文字名片”獲取更多關(guān)于視音頻文件的信息，更好地進(jìn)行編目工作，降低編目工作的差錯(cuò)率。

（三）虛擬播報(bào)系統(tǒng)

虛擬主持人、智能語(yǔ)音機(jī)器人和主播音庫(kù)共同組成，在使用的過程中將文稿導(dǎo)入就可以進(jìn)行配音工作，實(shí)現(xiàn)新聞的自動(dòng)播報(bào)功能，在播報(bào)的過程中，能夠?qū)崿F(xiàn)對(duì)語(yǔ)速、響度、聲音模板等的調(diào)控，以便適應(yīng)特定場(chǎng)合的要求。二次元的虛擬主持人主要是利用動(dòng)漫卡通虛擬的主持人進(jìn)行自動(dòng)播報(bào)，在底層語(yǔ)言合成服務(wù)的基礎(chǔ)上，對(duì)節(jié)目播報(bào)形式進(jìn)行了創(chuàng)新。語(yǔ)音交互機(jī)器人能夠進(jìn)行中文聽寫，對(duì)人機(jī)對(duì)話的識(shí)別率達(dá)到90%以上，能夠?yàn)閺V播電視的需求提供對(duì)話內(nèi)容。

（四）第三方的接口服務(wù)

平臺(tái)通過提供應(yīng)用中的開發(fā)接口為第三方提供合成、語(yǔ)音識(shí)別等業(yè)務(wù)上的功能，其他的系統(tǒng)能夠?qū)?shù)據(jù)資源接入到語(yǔ)音云平臺(tái)中，利用智能融媒體實(shí)現(xiàn)對(duì)線索的分揀功能。通過融媒體線索匯聚的方式，可以將語(yǔ)音形成文字文件，將這些文字內(nèi)容按照用戶的需求進(jìn)行分類，為用戶提供訂閱線索的服務(wù)，在內(nèi)容的選題策劃、生產(chǎn)發(fā)布等環(huán)節(jié)應(yīng)用得較多。

（五）融媒體會(huì)議系統(tǒng)

融媒體會(huì)議系統(tǒng)主要被應(yīng)用在廣電媒體的會(huì)議記錄中，在會(huì)議場(chǎng)景中根據(jù)采集信息實(shí)時(shí)轉(zhuǎn)化為文字內(nèi)容，用戶根據(jù)需要整理出會(huì)議要點(diǎn)。同時(shí)還可以將已經(jīng)錄好的音頻文件通過導(dǎo)入轉(zhuǎn)寫成文字內(nèi)容，轉(zhuǎn)寫的過程中自動(dòng)將會(huì)議的重點(diǎn)內(nèi)容進(jìn)行標(biāo)記，能夠通過雙擊文字回聽與之相關(guān)的音頻文件，使音頻與文字相對(duì)應(yīng)。通過對(duì)語(yǔ)氣詞的過濾、內(nèi)容的分段還可以讓記錄人員更有效地理解音頻文件，用戶還可以通過檢索等功能將會(huì)議模板導(dǎo)出，形成會(huì)議紀(jì)要內(nèi)容。

四、人工智能語(yǔ)音技術(shù)的資源數(shù)據(jù)庫(kù)

（一）對(duì)信息進(jìn)行采集

廣電媒體的日常工作中包括對(duì)節(jié)目制作、內(nèi)容編目、節(jié)目播報(bào)和會(huì)議記錄等，為了提高這些工作的轉(zhuǎn)寫效果，需要對(duì)相關(guān)的有用信息進(jìn)行采集，并且利用具有科學(xué)性和針對(duì)性的方式對(duì)語(yǔ)音轉(zhuǎn)寫進(jìn)行優(yōu)化，達(dá)到智能的要求。在這樣的基礎(chǔ)上形成相應(yīng)的信息資源數(shù)據(jù)庫(kù)，能夠有效地進(jìn)行保存。

（二）對(duì)數(shù)據(jù)庫(kù)規(guī)范上的要求

數(shù)據(jù)庫(kù)在使用上有相關(guān)的要求規(guī)范，主要包括以下幾個(gè)方面：第一，能夠支持多個(gè)用戶在聯(lián)機(jī)時(shí)進(jìn)行業(yè)務(wù)處理，滿足多個(gè)用戶對(duì)訪問數(shù)據(jù)庫(kù)的相關(guān)要求。第二，技術(shù)使用具有較高的可靠性，且為了保證效果更好，要具備高容錯(cuò)能力和自恢復(fù)能力。第三，分布數(shù)據(jù)源和異構(gòu)數(shù)據(jù)源使用具有相應(yīng)的支持，數(shù)據(jù)能夠自動(dòng)復(fù)制且多個(gè)副本之間的數(shù)據(jù)同步工作要做好。第四，能夠提供相應(yīng)的安全管理機(jī)制。第五，能夠提供一套軟件開發(fā)工具，支持軟件開發(fā)使用的整個(gè)周期。

五、結(jié)束語(yǔ)

從現(xiàn)階段人工智能語(yǔ)音技術(shù)在廣電媒體中的實(shí)際應(yīng)用來看，這種全新的技術(shù)在媒體中的實(shí)際應(yīng)用并不多，且有待進(jìn)一步的研究和探討。綜合來說，人工智能語(yǔ)音技術(shù)在廣電媒體中的使用主要在文稿唱詞、虛擬播報(bào)、內(nèi)容轉(zhuǎn)寫、融媒體會(huì)議和第三方接口服務(wù)幾個(gè)方面。這些功能的使用極大地提高了廣電媒體的工作效率，提升傳統(tǒng)的工作效率。未來廣電媒體的發(fā)展，更應(yīng)該注重人工智能語(yǔ)音技術(shù)的使用，根據(jù)相應(yīng)的規(guī)范合理進(jìn)行使用，只有使用到位才有可能推動(dòng)廣電媒體的進(jìn)一步發(fā)展，跟上新媒體發(fā)展的步伐，推動(dòng)行業(yè)整體邁上更高的發(fā)展臺(tái)階。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡