陳可新,黃偉民
(福州職業(yè)技術學院,福建福州350108)
近年來,隨著用戶信息服務需求的快速發(fā)展,呼叫中心已經在國內各行業(yè)得到廣泛的應用。傳統(tǒng)的呼叫中心通過IVR(Interactive Voice Response)交互式語音應答,以提高呼叫服務質量并節(jié)省費用。IVR可以使用戶獲得7X24信息服務,提高服務質量并協(xié)調用戶操作過程。但是IVR也使得用戶要面對復雜、繁冗的系統(tǒng)IVR導航菜單,用戶需要逐層聽取菜單提示,根據(jù)引導逐步按鍵操作才能得到服務,這容易給用戶造成較差的系統(tǒng)信息服務體驗。同時,由于用戶不能通過IVR獲取便捷的自助服務,使人工座席資源大量地耗費于簡單、重復性的勞動中,這將降低呼叫中心整體工作效率。
利用語音傳遞信息是人類最方便、最快捷的一種方式,語音識別技術(Automatic Speech Recognition,ASR)是機器通過識別和理解,將語音信號中的詞匯內容轉換為計算機可讀的輸入,如按鍵、二進制編碼或者字符文本序列的技術。語音識別本質上是一種模式匹配識別過程,語音識別過程基本包括語音信號的預處理、語音的特征提取、訓練和識別等組成部分[1]。語音識別技術在電話信道上的應用已成為當前通訊領域中最重要的應用之一。通過在新一代呼叫中心系統(tǒng)中引入語音識別技術作為用戶和呼叫中心的交互手段,用戶可以直接使用語音與系統(tǒng)進行交互,由此能夠提升用戶的信息服務體驗,提高系統(tǒng)的工作效率。Asterisk軟交換系統(tǒng)是一個開源的軟件VoIP(Voice over Internet Protocol)解決方案,它在中小型企業(yè)預算可承受的范圍內提供商業(yè)交換機的功能和伸縮性,基于Asterisk的VoIP解決方案已成為當前中小型企業(yè)呼叫中心的首選。
在企業(yè)呼叫中心系統(tǒng)中通過引入語音識別技術,可以創(chuàng)建智能化IVR語音導航系統(tǒng),使系統(tǒng)成為能聽懂自然語言的互動式語音應答系統(tǒng),將傳統(tǒng)的IVR樹形的按鍵操作,轉換為扁平化的系統(tǒng)對話,使用戶能直達業(yè)務節(jié)點接受服務。語音識別技術的應用,將使傳統(tǒng)的IVR語音導航菜單扁平化并大大縮短通話時間,降低IVR業(yè)務節(jié)點的放棄率,提升用戶服務體驗。通過在人工服務中應用語音識別,能夠實現(xiàn)用戶語音的“可視化”,完成用戶需解決問題的詞條及關鍵字的識別,使輔助座席人員快速地進行知識庫知識節(jié)點的搜索匹配,提高系統(tǒng)中座席人員的工作效率和服務能力[2]。以下將以基于Asterisk的呼叫中心系統(tǒng)為例,說明語音識別在呼叫中心中的應用及具體實現(xiàn)方法。
Asterisk是一個應用廣泛、結構明晰、可擴展性好的軟交換系統(tǒng)。Asterisk內核包含了5個必要的核心操作模塊和4個可加載的應用接口,5個核心模塊分別是PBX核心模塊、動態(tài)加載器模塊、實時調度和I/O管理器、編解碼轉換模塊和應用啟動器模塊。Asterisk的4個擴展接口分別是編碼轉換接口、Asterisk通道接口(SIP,IAX等)、擴展應用接口(AGI,AMI)、文件格式接口。Asterisk的可擴展性使其廣泛地應用于電話通信的各個領域[3]。
作為Asterisk與外部交互的主要方式,AGI(Asterisk Gateway Interface)提供給開發(fā)者強大的功能及靈活性。通過調用AGI接口程序,開發(fā)者可以采用perl、php、C、java等多種編程語言編寫AGI程序與Asterisk交互,程序可以在Asterisk的撥號方案中被調用。Asterisk與AGI通過標準的輸入輸出流交換信息,Asterisk系統(tǒng)內部通過輸入輸出流與外部資源進行信息交互,實際交互過程中Asterisk默認給AGI傳送相應的輸入變量,AGI程序接收后處理,返回信息給Asterisk系統(tǒng)[4]。
在基于Asterisk系統(tǒng)中進行通信應用開發(fā),需要完成相關應用的撥號方案及AGI接口程序設計。撥號方案是Asterisk系統(tǒng)的核心,它定義了Asterisk對來話和去話的處理流程,控制系統(tǒng)的呼入和呼出的處理和路由,也是系統(tǒng)配置連接行為的地方。Asterisk啟動后,系統(tǒng)核心將啟動一個線程監(jiān)聽通道消息,接受并處理通道上的會話請求,當Asterisk從一個通道上收到一個用戶的呼入連接,Asterisk可從撥號方案中查詢對應的通道命令,通道接口負責管理呼入者的連接狀態(tài)。撥號方案的每一次執(zhí)行屬于一個通道(channel),實際的交互過程為AGI程序與某一通道進行信息交互。
在基于Asterisk的語音識別過程中,系統(tǒng)將在用戶呼入時在撥號方案中執(zhí)行AGI語音識別程序。用戶通過系統(tǒng)接入號呼入系統(tǒng),系統(tǒng)提示用戶通過語音輸入提交問題信息,用戶根據(jù)系統(tǒng)提示完成語音問題提交,系統(tǒng)在撥號方案調用AGI程序錄制用戶語音信息,在把語音轉換成系統(tǒng)調用的語音識別引擎(如Google語音識別引擎)可接收的音頻格式后,將接收到的語音音頻文件提交給語音識別引擎進行分析處理[5]。系統(tǒng)語音識別引擎對接收到的用戶語音音頻文件進行分析處理,并將分析的結果文本和語音識別率回送給Asterisk系統(tǒng)。若識別率達到系統(tǒng)要求則進行處理并提供后續(xù)服務,若未達到系統(tǒng)要求則提示用戶重新提交語音信息。基于Asterisk的用戶語音信息識別處理流程如圖1所示。
圖1 Asterisk語音識別流程
Asterisk系統(tǒng)允許基于AGI接口開發(fā)電信應用模塊,通過AGI接口程序,開發(fā)人員可以在電話呼叫的任意階段與Asterisk交互。通過在Asterisk的撥號方案中調用語音識別AGI應用程序,系統(tǒng)允許用戶在呼入系統(tǒng)聽到提示音后采用語音方式與系統(tǒng)進行信息交互。支持對用戶語音輸入進行識別的Asterisk撥號方案設計如下:
exten= > 1235,1,Answer()
exten= > 1235,n,Playback(hello)
;;調用AGI程序記錄用戶語音信息,并進行語音識別
exten= > 1235,n(record),agi(speech -rec.agi)
在上述Asterisk的撥號方案中,speech-rec.agi是負責實現(xiàn)用戶語音識別的AGI應用程序,可在程序中調用系統(tǒng)設置的語音識別引擎,該語音識別引擎可以是系統(tǒng)基于自身業(yè)務特點的語音識別系統(tǒng),也可以是通用的語音識別系統(tǒng),如谷歌、微軟等提供的語音識別系統(tǒng)等。語音識別引擎對系統(tǒng)發(fā)送的語音音頻信息進行分析,并將分析后的結果,即用戶語音信息對應的文本返回給Asterisk通道變量,最后在Asterisk的撥號方案中對通道變量中的返回值進行分析和處理。
利用Asterisk的RECORD FILE函數(shù)能夠實現(xiàn)對電話通道內用戶語音信息的錄制,直到接收到DTMF(Dual Tone Multi Frequency)再確認結束按鍵,或者超時結束[6]。在用戶語音信息錄制結束后,可以將用戶語音數(shù)據(jù)封裝,編碼成符合系統(tǒng)要求的音頻文件(如x-flac格式)并提交給語音識別引擎進行處理,提交語音信息時需要事先設置語音識別引擎的URL地址,將編碼后的音頻文件采用POST方式提交到語音分析引擎的接口地址,下面給出使用perl語言完成的語音信息錄制及音頻文件提交代碼:
最后,將語音識別引擎回送的識別結果文本和識別率返回到Asterisk的通道變量中,若識別率達到要求(程序中設置識別率不低于80%),則可以對用戶提交的問題進行后續(xù)處理,若未達要求則提示用戶需再次提交語音信息,或采用其它方式與系統(tǒng)進行交互。
綜上所述,本文簡要地分析了當前呼叫中心系統(tǒng)中傳統(tǒng)IVR語音導航存在的問題,介紹了語音識別技術在呼叫中心智能IVR導航系統(tǒng)中的作用,對利用Asterisk的AGI編程接口開發(fā)語音識別功能的原理和過程進行闡述,并給出基于Asterisk調用語音識別引擎實現(xiàn)用戶語音識別的詳細實現(xiàn)過程。系統(tǒng)通過對呼叫中心呼入用戶的語音信息進行錄制、分析及轉換,使用戶采用更加靈活、人性化的方式與系統(tǒng)進行信息交互,較好地提升了用戶信息服務體驗,并提高了基于Asterisk的呼叫中心座席資源的工作效率。
[1]劉榮輝,彭世國,劉國英.基于智能家居控制的嵌入式語音識別系統(tǒng)[J].廣東工業(yè)大學學報,2014(2):49-53.
[2]劉向宇.探討語音識別在智能客服系統(tǒng)中的應用[J].中國新通信,2014(6):79.
[3]張平波,高承志.基于Asterisk的VoIP軟電話系統(tǒng)的設計與實現(xiàn)[J].信息化研究,2013(4):35-39.
[4]劉志偉,余金山.基于Trixbox電話語音通知系統(tǒng)的設計與實現(xiàn)[J].計算機與數(shù)字工程,2010(2):148-151.
[5]張巍,賈玉輝,張志楠.一種語音識別的可定制云計算方法[J].中國海洋大學學報:自然科學版,2014(1):112-117.
[6]Leif Madsen,Jim Van Meggelen,Russell Bryant.Asterisk:The Definitive Guide,Third Edition[M].O’Reilly,2011:475 -488.