MRCPv2在電信智能語音識別業(yè)務中的應用

2014-05-26 05:37陳茂國

科技創(chuàng)新導報 2014年3期

陳茂國

摘要：隨著自然語音識別技術(shù)的成熟，智能語音識別業(yè)務將會在傳統(tǒng)電信行業(yè)迎來大發(fā)展，MRCPv2標準協(xié)議使得語音識別能力的集成變得更加方便快捷。該文詳細介紹了MRCPv2協(xié)議的系統(tǒng)架構(gòu)和控制流程，總結(jié)了MRCPv2協(xié)議的使用規(guī)范，并且通過MRCPv2在語音識別中狀態(tài)機變遷、關(guān)鍵方法、事件以及重要消息頭的講解，對一次典型語音識別業(yè)務中MRCPv2協(xié)議的應用進行了詳細的闡述。

關(guān)鍵詞：MRCPv2 智能語音識別系統(tǒng)結(jié)構(gòu) 控制機制電信

中圖分類號：TN912.34 文獻標識碼：A 文章編號：1674-098X（2014）01（c）-0057-04

Abstract：With natural language recognition technology matures， intelligent speech recognition service will get great development in the traditional telecommunications industry， MRCPv2 standard protocols enables the integration of speech recognition capabilities becoming more convenient. This paper describes the system architecture and control process of MRCPv2， summarizes MRCPv2 Use Agreement. Furthermore， by the detailed description of MRCPv2s state machine mechanism， key method， events and important message headers in speech recognition， it explains clearly the application of MRCPv2 in a typical speech recognition service.

Key words：MRCPv2 Intelligent Speech Recognition System Architecture Control Mechanism Telecommunication

1 MRCPv2協(xié)議簡介

媒體資源控制協(xié)議（Media Resource Control Protocol，MRCP）是一種基于TCP/IP的通訊協(xié)議，用于客戶端向媒體資源服務器請求提供各種媒體資源服務。此協(xié)議最初是由Cisco、Nuance等公司聯(lián)合開發(fā)，由IETF作為Internet草案發(fā)布，經(jīng)過不斷的更新，目前最新的版本為RFC6787[1]，可以支持的媒體資源業(yè)務包括文語轉(zhuǎn)換（Text to Speech，TTS）、自動語音識別（Automatic Speech Recognition，ASR）、錄音（Recording）、聲紋識別（Voiceprint Recognition， VPR）。

2 MRCPv2系統(tǒng)結(jié)構(gòu)及協(xié)議控制

MRCP協(xié)議本身不是獨立的，它不僅僅依賴于TCP/IP協(xié)議，還依賴于SIP、SDP、RTP、RTCP、RTSP等協(xié)議。

其系統(tǒng)結(jié)構(gòu)如圖1所示。[1]

（1）控制面：它通過SIP協(xié)議在客戶端（MRCP Client）和服務器（MRCP Server）之間建立和管理會話（注：MRCPv1就使用RTSP協(xié)議完成控制，MRCPv2改為SIP協(xié)議）。

（2）媒體面：它通過SDP交換媒體能力以及通過RTP協(xié)議完成媒體的承載交換。

（3）業(yè)務面：它通過MRCP協(xié)議來控制完成媒體資源服務的相關(guān)請求、響應和事件的傳遞，從而為客戶端提供所需要的媒體資源服務。

其協(xié)議控制機制如圖2所示。

（1）SIP協(xié)商過程中，MRCP Client在INVITE消息中攜帶自身用于傳遞MRCP協(xié)議以及RTP語音流的SDP（IP地址、端口號）[2-3]。

（2）協(xié)商成功返回的200消息中會帶上MRCP Server側(cè)的SDP；

（3）MRCP Client發(fā)起TCP連接創(chuàng)建，并且通過在TCP連接上發(fā)送MRCP協(xié)議消息控制MRCP Server分配的資源。

（4）MRCP Client/Server通過在RTP連接上傳輸語音數(shù)據(jù)從而實現(xiàn)媒體資源業(yè)務。

（5）當業(yè)務應用結(jié)束時，終止SIP會話的同時，還需要關(guān)閉TCP和RTP連接。

MRCPv2的使用規(guī)范可以總結(jié)如下：

（1）MRCP Client通過SIP&SDP建立與MRCP Server的MRCP控制通道（使用MRCP通道ID進行唯一標識，MRCP Server回200消息時通過a=channel屬性指定）。

（2）可以通過SIP的Re-INVITE消息添加或者刪除一個會話中的MRCP控制通道，所以一個會話可以擁有多個MRCP控制通道（比如一個會話可以同時擁有ASR&TTS通道）。

（3）多個MRCP控制通道可以共享同一個TCP連接。

（4）一個MRCP消息只能攜帶一個MRCP通道ID。

（5）MRCP控制消息不能更改SIP會話的狀態(tài)。

（6）由于MRCP不保證傳輸?shù)目煽啃?，所以必須使用TCP來保證其傳輸。

3 語音識別技術(shù)及其在電信智能語音識別業(yè)務中的應用

自動語音識別技術(shù)（Automatic Speech Recognition，ASR）是一種將人的語音轉(zhuǎn)換為文本的技術(shù)，其廣泛應用于語音通訊系統(tǒng)、聲控電話交換、數(shù)據(jù)查詢、訂票系統(tǒng)、電信銀行客服、計算機控制、工業(yè)控制等領(lǐng)域。endprint

通常，我們說的語音識別可以分為固定詞識別以及自然語音識別[4-5]，固定詞語音識別只能識別已經(jīng)指明的固定短語或詞，而且用戶也只能說這些固定的詞，否則無法識別，而自然語音識別可以識別用戶隨意說的短語或者句子，很顯然自然語音識別更易用，其技術(shù)難度也更大；

近幾年來，自然語音識別相關(guān)的技術(shù)隨著移動互聯(lián)網(wǎng)的發(fā)展迎來了迅猛的發(fā)展。在Google引領(lǐng)下，互聯(lián)網(wǎng)、通信公司紛紛把自然語音識別作為重要研究方向。

美國市場調(diào)查咨詢公司Gartner于2013年發(fā)布的新興技術(shù)成熟度曲線顯示，語音識別技術(shù)已經(jīng)走向成熟，在未來2～5年之內(nèi)將會有大幅度的利用，而自然語音問答目前處于技術(shù)期望過熱區(qū)，預計在未來的5～10年會有大幅度的利用，自然語音問答技術(shù)中就使用到自然語音識別。

在電信領(lǐng)域，語音識別技術(shù)應用多年來一直停留在固定詞識別上，基本限定在簡單IVR領(lǐng)域，因為限制了用戶的語音輸入范圍，易用性和可靠性受限導致應用實際并不廣泛，從目前國內(nèi)各大運營商的客服電話就很容易發(fā)現(xiàn)，采用按鍵式交互的IVR仍然是主流。

隨著近幾年語音識別技術(shù)的不斷發(fā)展，自然語音識別技術(shù)也逐漸成熟，而且在移動互聯(lián)網(wǎng)等可靠性要求不是太高的領(lǐng)域得到廣泛的應用，iPhone的Siri、QQ的語音輸入、Google的語音翻譯、科大和移動合作的靈犀等智能語音識別業(yè)務都廣泛應用到此技術(shù)。

擁有海量一手語音數(shù)據(jù)的電信行業(yè)也因為自然語音識別技術(shù)的成熟，智能語音識別業(yè)務將會迎來新的發(fā)展機遇。

4 MRCPv2協(xié)議在電信智能語音識別業(yè)務中的應用

由于識別技術(shù)的專一性，在電信領(lǐng)域，控制著語音接入的電信設備制造商，很少擁有扎實的語音識別技術(shù)，而提供語音識別技術(shù)的廠家很多。以前各電信設備集成商必須針對不同的語音識別廠家提供的API接口進行專門的集成開發(fā)，不同識別引擎的接口各不相同，從而導致了集成過程的復雜性和局限性。而利用MRCP協(xié)議提供的標準接口，電信設備集成商們不必再針對特定的識別引擎進行開發(fā)，而只需要滿足MRCP協(xié)議即可與多個不同廠商的識別引擎對接。這樣就為各種語音應用開發(fā)提供了更加靈活的選擇，并有效地降低業(yè)務開發(fā)周期和成本。正是由于具有以上優(yōu)勢，MRCP協(xié)議在推出以后得到了國外各電信設備制造商和語音識別提供商的廣泛支持[6]，各電信設備制造商提供MRCP Client，語音識別提供商提供MRCP Server，通過對接完成語音識別業(yè)務。

MRCPv2為語音識別業(yè)務提供除了公共的SIP、SDP、RTP配合機制，公共的方法、消息頭和事件之外，還包含如下兩個部分：

（1）語音識別業(yè)務中的狀態(tài)變遷機制；

（2）語音識別業(yè)務中的方法、事件以及配套的消息頭、參數(shù)。

4.1 MRCPv2語音識別業(yè)務中的狀態(tài)變遷機制介紹（圖4）

在MRCPv2定義的語音識別應用中，MRCP Client和MRCP Server必須遵循如上圖所示的狀態(tài)機變遷機制，只有空閑、識別中、識別完三個狀態(tài)。狀態(tài)的變遷依靠方法和事件的驅(qū)動：

（1）通過RECOGNIZE方法觸發(fā)進入識別中狀態(tài)；

（2）通過RECOGNITION-COMPLETE事件觸發(fā)進入識別完態(tài)；

（3）通過STOP方法觸發(fā)進入空閑態(tài)；

4.2 MRCPv2定義的語音識別應用中的方法、事件及重要消息頭

支持語音識別業(yè)務的方法和事件主要如下：

（1）RECOGNIZE方法：啟動識別命令，攜帶的主要消息頭有No-Input-Timeout、Recognition-Timeout、Speech-Complete-Timeout、Start-Input-Timers、Confidence-Threshold，其含義分別如下：

No-Input-Timeout：無話超時時間，單位為毫秒，用于定義MRCP server啟動識別后允許用戶無聲音輸入的最大時長；

Recognition-Timeout：識別超時時間，單位為毫秒，用于定義MRCP server啟動識別后允許返回識別結(jié)果的最大時長；

Speech-Complete-Timeout：說話完檢測超時時間，單位為毫秒，用于定義MRCP Server判斷用戶一句話已說完的靜默時長；

Start-Input-Timers：是否立即啟動無話超時定時器，為“true”時立即啟動，通常啟動識別時同時伴隨有提示音的情況下，可以置為“false”，即讓MRCP Server暫時不要啟動無話超時定時器；

Confidence-Threshold：識別置信度門檻，用于定義返回識別結(jié)果時必須滿足的最小置信度；

4.3 一次語音識別業(yè)務中完整MRCP交互

一次完整的語音識別業(yè)務交互如圖5所示：

（1）MRCP Client發(fā)送INVITE消息給MRCP Server請求建立會話，攜帶MRCP Client側(cè)的SDP；

（2）MRCP Server回復200表示請求已經(jīng)成功接受處理，攜帶MRCP Server側(cè)的SDP；

（3）MRCP Client隨后發(fā)送ACK消息證實200消息已經(jīng)收到，至此一個SIP會話成功建立；

（4）MRCP Client發(fā)送RECOGNIZE消息給MRCP Server，請求語音識別，按照MRCP協(xié)議規(guī)定的格式攜帶相關(guān)的語音識別控制消息頭，并且指定語法文件路徑；

（5）MRCP Server接收RECOGNIZE請求，編譯語法文件，回復200消息給MRCP Client，此時兩側(cè)進入識別中狀態(tài)；

（6）MRCP Client此時開始根據(jù)之前協(xié)商好的SDP，開始源源不斷的發(fā)送RTP語音流給MRCP Server；

（7）MRCP Server接收RTP語音流，當檢測到用戶開始說話時，發(fā)送START-OF-INPUT事件；

（8）當MRCP Server根據(jù)語法文件定義得到識別結(jié)果時，通過RECOGNITION-COMPLETE事件返回識別結(jié)果，兩側(cè)進入識別完狀態(tài)；

（9）MRCP Client發(fā)送BYE消息給MRCP Server結(jié)束會話；

（10）MRCP Server發(fā)送200消息給MRCP Client確認結(jié)束；

MRCP Client通過上述消息交互獲得MRCP Server提供的一次完整語音識別能力。

5 MRCPv2在電信實時智能語音識別業(yè)務中的應用展望

當前，MRCPv2協(xié)議已經(jīng)能夠很好的解決單次語音識別問題，各大電信運營商正火熱上線的智能語音導航、機器人客服等業(yè)務都基于MRCPv2協(xié)議，但是這些都是IVR性質(zhì)，其特定都是要識別的語音內(nèi)容不長。在人工業(yè)務輔助識別等大量連續(xù)識別場景中應用仍然受限，比如說話內(nèi)容實時回顯，此時需要完成不間斷的語音識別結(jié)果上報，而當前的MRCPv2協(xié)議只支持每次上報一個結(jié)果，所以需要進一步擴展MRCPv2協(xié)議才能完成。

參考文獻

[1] MRCPv2 RFC 6787： Media Resource Control Protocol Version 2.

[2] SDP RFC 2327： Session Description Protocol.

[3] SIP RFC 3261： Session Initiation Protocol.

[4] 薛德黔.交互式自然口語語音識別關(guān)鍵技術(shù)[J].計算機應用，2002，22（7）： 45-47.

[5] 馮俊蘭，杜利民.自然口語語音識別研究概況[J].電子商務，1999（9）：3-7.

[6] 史俊波，詹舒波.MRCPv2協(xié)議及其在分布式語音資源解決方案中的應用，2010.

[7] Gartner.Hype Cycle for Emerging Technologies 2013[R].2013.endprint

擁有海量一手語音數(shù)據(jù)的電信行業(yè)也因為自然語音識別技術(shù)的成熟，智能語音識別業(yè)務將會迎來新的發(fā)展機遇。

4 MRCPv2協(xié)議在電信智能語音識別業(yè)務中的應用

MRCPv2為語音識別業(yè)務提供除了公共的SIP、SDP、RTP配合機制，公共的方法、消息頭和事件之外，還包含如下兩個部分：

（1）語音識別業(yè)務中的狀態(tài)變遷機制；

（2）語音識別業(yè)務中的方法、事件以及配套的消息頭、參數(shù)。

4.1 MRCPv2語音識別業(yè)務中的狀態(tài)變遷機制介紹（圖4）

（1）通過RECOGNIZE方法觸發(fā)進入識別中狀態(tài)；

（2）通過RECOGNITION-COMPLETE事件觸發(fā)進入識別完態(tài)；

（3）通過STOP方法觸發(fā)進入空閑態(tài)；

4.2 MRCPv2定義的語音識別應用中的方法、事件及重要消息頭

支持語音識別業(yè)務的方法和事件主要如下：

No-Input-Timeout：無話超時時間，單位為毫秒，用于定義MRCP server啟動識別后允許用戶無聲音輸入的最大時長；

Recognition-Timeout：識別超時時間，單位為毫秒，用于定義MRCP server啟動識別后允許返回識別結(jié)果的最大時長；

Speech-Complete-Timeout：說話完檢測超時時間，單位為毫秒，用于定義MRCP Server判斷用戶一句話已說完的靜默時長；

Confidence-Threshold：識別置信度門檻，用于定義返回識別結(jié)果時必須滿足的最小置信度；

4.3 一次語音識別業(yè)務中完整MRCP交互

一次完整的語音識別業(yè)務交互如圖5所示：

（1）MRCP Client發(fā)送INVITE消息給MRCP Server請求建立會話，攜帶MRCP Client側(cè)的SDP；

（2）MRCP Server回復200表示請求已經(jīng)成功接受處理，攜帶MRCP Server側(cè)的SDP；

（3）MRCP Client隨后發(fā)送ACK消息證實200消息已經(jīng)收到，至此一個SIP會話成功建立；

（5）MRCP Server接收RECOGNIZE請求，編譯語法文件，回復200消息給MRCP Client，此時兩側(cè)進入識別中狀態(tài)；

（6）MRCP Client此時開始根據(jù)之前協(xié)商好的SDP，開始源源不斷的發(fā)送RTP語音流給MRCP Server；

（7）MRCP Server接收RTP語音流，當檢測到用戶開始說話時，發(fā)送START-OF-INPUT事件；

（8）當MRCP Server根據(jù)語法文件定義得到識別結(jié)果時，通過RECOGNITION-COMPLETE事件返回識別結(jié)果，兩側(cè)進入識別完狀態(tài)；

（9）MRCP Client發(fā)送BYE消息給MRCP Server結(jié)束會話；

（10）MRCP Server發(fā)送200消息給MRCP Client確認結(jié)束；

MRCP Client通過上述消息交互獲得MRCP Server提供的一次完整語音識別能力。

5 MRCPv2在電信實時智能語音識別業(yè)務中的應用展望

參考文獻

[1] MRCPv2 RFC 6787： Media Resource Control Protocol Version 2.

[2] SDP RFC 2327： Session Description Protocol.

[3] SIP RFC 3261： Session Initiation Protocol.

[4] 薛德黔.交互式自然口語語音識別關(guān)鍵技術(shù)[J].計算機應用，2002，22（7）： 45-47.

[5] 馮俊蘭，杜利民.自然口語語音識別研究概況[J].電子商務，1999（9）：3-7.

[6] 史俊波，詹舒波.MRCPv2協(xié)議及其在分布式語音資源解決方案中的應用，2010.

[7] Gartner.Hype Cycle for Emerging Technologies 2013[R].2013.endprint

擁有海量一手語音數(shù)據(jù)的電信行業(yè)也因為自然語音識別技術(shù)的成熟，智能語音識別業(yè)務將會迎來新的發(fā)展機遇。

4 MRCPv2協(xié)議在電信智能語音識別業(yè)務中的應用

MRCPv2為語音識別業(yè)務提供除了公共的SIP、SDP、RTP配合機制，公共的方法、消息頭和事件之外，還包含如下兩個部分：

（1）語音識別業(yè)務中的狀態(tài)變遷機制；

（2）語音識別業(yè)務中的方法、事件以及配套的消息頭、參數(shù)。

4.1 MRCPv2語音識別業(yè)務中的狀態(tài)變遷機制介紹（圖4）

（1）通過RECOGNIZE方法觸發(fā)進入識別中狀態(tài)；

（2）通過RECOGNITION-COMPLETE事件觸發(fā)進入識別完態(tài)；

（3）通過STOP方法觸發(fā)進入空閑態(tài)；

4.2 MRCPv2定義的語音識別應用中的方法、事件及重要消息頭

支持語音識別業(yè)務的方法和事件主要如下：

No-Input-Timeout：無話超時時間，單位為毫秒，用于定義MRCP server啟動識別后允許用戶無聲音輸入的最大時長；

Recognition-Timeout：識別超時時間，單位為毫秒，用于定義MRCP server啟動識別后允許返回識別結(jié)果的最大時長；

Speech-Complete-Timeout：說話完檢測超時時間，單位為毫秒，用于定義MRCP Server判斷用戶一句話已說完的靜默時長；

Confidence-Threshold：識別置信度門檻，用于定義返回識別結(jié)果時必須滿足的最小置信度；

4.3 一次語音識別業(yè)務中完整MRCP交互

一次完整的語音識別業(yè)務交互如圖5所示：

（1）MRCP Client發(fā)送INVITE消息給MRCP Server請求建立會話，攜帶MRCP Client側(cè)的SDP；

（2）MRCP Server回復200表示請求已經(jīng)成功接受處理，攜帶MRCP Server側(cè)的SDP；

（3）MRCP Client隨后發(fā)送ACK消息證實200消息已經(jīng)收到，至此一個SIP會話成功建立；

（5）MRCP Server接收RECOGNIZE請求，編譯語法文件，回復200消息給MRCP Client，此時兩側(cè)進入識別中狀態(tài)；

（6）MRCP Client此時開始根據(jù)之前協(xié)商好的SDP，開始源源不斷的發(fā)送RTP語音流給MRCP Server；

（7）MRCP Server接收RTP語音流，當檢測到用戶開始說話時，發(fā)送START-OF-INPUT事件；

（8）當MRCP Server根據(jù)語法文件定義得到識別結(jié)果時，通過RECOGNITION-COMPLETE事件返回識別結(jié)果，兩側(cè)進入識別完狀態(tài)；

（9）MRCP Client發(fā)送BYE消息給MRCP Server結(jié)束會話；

（10）MRCP Server發(fā)送200消息給MRCP Client確認結(jié)束；

MRCP Client通過上述消息交互獲得MRCP Server提供的一次完整語音識別能力。

5 MRCPv2在電信實時智能語音識別業(yè)務中的應用展望

參考文獻

[1] MRCPv2 RFC 6787： Media Resource Control Protocol Version 2.

[2] SDP RFC 2327： Session Description Protocol.

[3] SIP RFC 3261： Session Initiation Protocol.

[4] 薛德黔.交互式自然口語語音識別關(guān)鍵技術(shù)[J].計算機應用，2002，22（7）： 45-47.

[5] 馮俊蘭，杜利民.自然口語語音識別研究概況[J].電子商務，1999（9）：3-7.

[6] 史俊波，詹舒波.MRCPv2協(xié)議及其在分布式語音資源解決方案中的應用，2010.

[7] Gartner.Hype Cycle for Emerging Technologies 2013[R].2013.endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

MRCPv2在電信智能語音識別業(yè)務中的應用