李文琴, 尚雨琪, 張 巍
(西安科技大學 管理學院, 西安 710054)
客戶滿意度理論已逐漸成為現代經營思維或營銷實踐中的重要中心理論之一[1]。雖然客戶傳統(tǒng)上被視為企業(yè)服務和產品消費的接受者或消費者,但是企業(yè)家和一些學者們都認同企業(yè)需要與客戶建立更多的合作關系[2]。不僅如此,人們也開始逐漸意識到自身與企業(yè)之間的關系性質正在發(fā)生著某些變化。企業(yè)若要實現自身的優(yōu)勢性經營從而提升在市場中的競爭力,則需要發(fā)現和消除客戶滿意度低的根源,更加重視客戶滿意度的影響作用。與此同時,客戶滿意度的提升也促進了企業(yè)利潤的提升[3]。網絡購物與傳統(tǒng)的商業(yè)模式有著很大的不同,其客戶滿意度受諸多因素的影響,通常較低。網絡購物的客戶滿意度受商家服務態(tài)度的影響較大,而且客服語音對話中常常充斥著各種矛盾,雙方情緒的不協調和不穩(wěn)定更是加劇了矛盾的升級。因此,對于電商來說,在現有的客服語音服務系統(tǒng)中建立語音分析系統(tǒng)有助于企業(yè)在提高自身服務感知的同時便于信息的統(tǒng)計。
基于此,以我校京東校園實訓中心作為研究對象,進行實地調研來深入了解其客服語音服務的現狀。通過文獻閱讀以及資料搜查,并結合實訓中心自身的特點,建立了分析客服服務語音錄音的Matlab程序編程。量化客服語音情感值得到與之相對應的最大值、最小值與均值,便于研究語音差值、語音均值和客戶滿意之間的關系。
在對語音信號特征采集之前不可避免地需要對語音信號進行預處理來方便后續(xù)語音信號的采集處理工作。其目的不僅在于對傳輸或儲存的語音信號重要特征參數的提取,也在于對特征參數的運算處理來達到某種用途要求[4]。
人類的語音信號不管在時間上還是在振幅上都是連續(xù)的模擬信號,而計算機處理的音頻數據只能是時間和振幅都是離散的數字信號。因此,就需要把語音信號進行采樣和量化來實現計算機處理的需求,這個過程即語音信號的數字化。
根據國際電報電話咨詢委員會(Consultative Committee for International Telegraph and Telephone,CCITT)提出的 G.711標準[5],提倡語音信號的采樣頻率選擇8 kHz或者16 kHz。與英語發(fā)音相比,漢語發(fā)音時的音節(jié)轉換相對比較緩慢,鑒于此,選取8 kHz為本文所用的語音采樣頻率。
人們在發(fā)音時其共振峰的位置以及口腔形狀也在不斷地發(fā)生著變化,這些因素也都會對語音信號的采集產生影響。那么,所得到的語音信號即為在時間上不斷發(fā)生變化的非穩(wěn)定信號,而現行的語音數字處理技術并不能直接對其進行轉換分析。但是,人們發(fā)音時口腔肌肉的變形相對比較緩慢。相對于語音信號頻率的變化,口腔肌肉的變形頻率就小很多了。一般認為在10~30 ms之間的這一段時間內[6]語音信號的參數基本上是相對穩(wěn)定的,則認為該時間段內,緩慢的口腔肌肉形狀變化可以忽略不計,視其為固定口型,不計其對語音信號產生的影響。
通常一幀的持續(xù)時間大致為10~30 ms,該段持續(xù)時長即為幀長。幀長不僅會對信號的濾波作用產生影響,同時也會對后續(xù)基音周期的計算產生著某種影響作用[7]?,F有計算基音的方法中,不管是小波變換法還是自相關分析法,所選取的最優(yōu)幀長均為20 ms[8]。對語音信號來說,無論是時域分析還是頻域分析,都需要按幀對語音信號進行分解處理。實現語音信號的分解,并成為間隔開來的短時平穩(wěn)信號,需要窗函數持續(xù)平穩(wěn)地在語音信號上滑過。語音信號在每幀間隙處會有突變情況的產生,為了避免產生過大突變,就需要采用前一幀函數與后一幀函數交疊的方式來對這種突變進行平緩處理。該交疊的部分即為幀移,表示每幀窗函數相對于前一幀窗函數所前進的距離。同時,幀長一般為窗長的一半[9]。幀長與幀移間的關系如圖1所示。
圖1 幀長與幀移關系圖示
(1) 窗口形狀的選擇。不管是矩形窗函數還是漢明窗函數,都是目前最常用的窗函數,其中, 矩形窗形狀可以表示為:
(1)
式中:N為采樣點個數(一幀內);n為當前采樣點的排序。
由式(1)可以得出,矩形窗函數將語音信號一幀內所有的語音信號值均視為等同,并沒有突出語音信號之間的變化趨勢。
漢明窗形狀可以表示為:
(2)
對比式(1)和式(2)可以得出,漢明窗函數不同于矩形窗函數,并沒有忽略語音信號之間的變化趨勢,而是將信號進行區(qū)別對待。
通常來說,窗函數的作用是為了方便語音信號的低通濾波處理[10]。只是不同的窗函數的窗口形狀也不同,所以對語音信號進行的濾波處理所產生的效果也就截然不同[11]。表1為1s時間內矩形窗函數參數和漢明窗函數參數的對比比較,更為清楚地展示了兩種窗函數之間的區(qū)別。
表1 參數對比比較
由表1可以得出,漢明窗函數的主瓣寬度約為矩形窗函數主瓣寬度的2倍,較大的主瓣寬度保證了對語音幀兩端變化坡度的減緩效果。而且漢明窗函數的旁瓣高度較矩形窗函數又較低,這也更加有效地阻止了語音信號的泄露。另外,窗函數形狀的不同也會對后續(xù)所要計算的語音平均能量值產生一定的影響。語音短時能量值不斷發(fā)生著變化,漢明窗函數可以很敏銳地追蹤短時能量值的變化并記錄其變化趨勢[12],一定程度上,還可以對能量的起伏起到很好的平緩作用。當語音信號的突變處在一個變化周期內時,漢明窗也可以對語音的振幅進行有效的平滑處理,從而方便準確地對語音信號進行分析[13]。
(2) 窗長的選擇。語音信號的變化十分靈活,窗函數是否能夠敏銳地追蹤語音信號的變化趨勢也受到窗長的影響作用。
由圖2的趨勢對比可以看出,如果N的取值過小,濾波之后的函數變化趨勢明顯過于緩慢,且很長一段時間,所有的語音信號值也是基本相同的。這時,取值過小的窗長并不能及時追蹤原始語音信號的變化,且嚴重滯后于原始語音信號的變化;如果N的取值過大,即使原始語音出現特別微小的變化也會被反映出來,絲毫沒有起到一定的濾波作用,也不利于語音信號后續(xù)的分析和處理。因此,窗長的不同選擇會帶來截然不同的濾波效果。另外,人類的語音基音頻率變化通常處于80~500 Hz之間,周期變化處于2~12.5 ms之間。
圖2 窗長產生的影響作用
基音周期的計算過程中,語音發(fā)音所產生的阻尼振動導致了自相關函數采集圖形的凹凸不平,具體如圖3所示。此時,若使用圖像輸出中出現的第一個峰值點來計算得到基音的周期往往是不準確的。為了得到準確的基音周期則需要繼續(xù)尋找能夠使得基音周期清晰存在的自相關函數突起,相應地,每個語音幀周期內必然需要包含多個基音周期。一個語音幀周期內通常含有3~6個基音周期[14],不同人的基音周期也有差別,而且不管是男女之間的基音周期還是老幼之間的基音周期都有著很大的不同[15],這就導致了采樣點在20~250范圍內的不等。例如,采樣頻率為8 Hz時,那么對應的N的取值通常就處于100~250之間,且持續(xù)時間處于10~20 ms之間。本文選用的窗函數N值為200。
窗函數選擇好之后,還需要對語音信號進行某種變換處理,如平方變換、取絕對值變換等來實現語音信號特征值的采集。
每幀處理以后的輸出函數為:
(3)
式中:Qn為函數輸出表達;X(m)為第n處的語音信號函數;ω(n)為窗函數序列;T為對信號實施的某種變換處理。
短時能量計算流程如圖4所示。
圖4 短時能量處理計算流程
定義某語音信號n時刻的短時平均能量En,則有:
(4)
式中:h(n)=ω2(n)為語音音頻信號的平方經過單位沖擊響應為h(n)的線性濾波輸出。
分割后為N幀的語音信號,每一幀數據均可求得與之相對應的短時能量值,并將其放置于短時能量矩陣Energy(i)中,直至得到完整的短時能量矩陣。遍歷最后得出完整的短時能量矩陣Energy中的最小值和最大值即分別為相對應的語音短時能量最小值和最大值。
(1) 包絡信號的提取。原始的語音信號包絡并不平滑,能量最大值處又存在多個峰值點,而且,局部極值的現象又很普遍。因此,采用高斯濾波對其進行處理:
(5)
式中:σ2為方差。
如果對式(5)的語信號的所有數據點都進行濾波處理,則會涉及到大量的指數和浮點數的運算,這就嚴重影響了算法的實時性。合適平滑參數的選取,使得連續(xù)高斯濾波函數離散化和歸一化,得到一維高斯濾波模板。一維高斯濾波模板可以有效地在對所有的語音信號進行平滑處理,并進行多次的迭代運算[16]。語音信號數據中常存在著多個峰值點和局部極值點的現象,一維高斯濾波模板很大程度上去除了數據中的多峰值點和局部極值,而且也為后續(xù)的峰值點檢測提供了便利。
(2) 峰值點檢測。演奏樂曲時,為保證樂曲的優(yōu)美性,樂曲節(jié)奏通常不會超過240拍/min,即每秒不會多于4個節(jié)拍。由于語音信號數據的變化具有靈活性,在峰值點檢測時,如若某點為峰值點,則該點兩側至少有20個小于它的語音信號包絡數據。否則,該點不為峰值點。具體檢測過程如下:
① 設包絡數據為N(i),i的起始值為20。
② 從N(i-20)至N(i+20)依次檢查各語音數據,同時記錄該過程中的最小值(min)。如若這些數據中存在著大于N(i)的數據值,則當前點不是峰值點,停止遍歷;此時,i=i+1,重新開始過程②,繼續(xù)檢測下一個數據。
③ 如果N(i-20)到N(i+20)之間的數據均小于N(i),且abs(N(i)-min)>T,那么N(i)即為峰值點,并記錄該點的位置。由于下一個峰值點和當前峰值點的距離一定大于20,且有i=i+20,則繼續(xù)執(zhí)行過程②;如果abs(N(i)-min)≤T,那么N(i)為局部極值點而非峰值點,則有i=i+1,并重新開始執(zhí)行過程②。(式中T是為了進一步排除局部極值點所設的閾值。)
④ 當i與語音信號包絡數據末端處數據值之間的距離小于20時,則峰值檢測過程結束。
(3) 特征值計算。由峰值點檢測將節(jié)拍起音時刻序列轉化成節(jié)拍持續(xù)時間序列,其中節(jié)拍值tempo與拍周期Tbpm之間的關系如下:
tempo=60/Tbpm
采樣率為fs,有tempo=60×fs/Tn。式中,Tn=Tbpm×fs。
式中,Tn=Tbpm×fs。
那么,在峰值間隔最小位置處,即可求得tempo的最大值;峰值間隔最大的位置處即可求到tempo的最小值。又有,相鄰節(jié)拍點之間的時間差為DS(Duration Sequence),即:
DS=相鄰節(jié)拍點時間差(s)
平均速度tempo的計算:
(6)
式中:n為DS序列中的節(jié)拍點數量。
選取京東校園實訓中心語音數據庫中高客戶滿意度和低客戶滿意度的語音錄音各60組(語音選取周期為15組/周,共計4周)。并將語音錄音按客戶滿意度的評價等級進行匯總整理。具體為“非常滿意=5”,“滿意=4”,“一般=3”,“不滿意=2”“非常不滿意=1”(高滿意度組:非常滿意、滿意;低滿意度組:一般、不滿意、非常不滿意)。本文主要在于分析高客戶滿意度和低客戶滿意度之間的差異性,選取語音時,并沒有計入客戶滿意度評價為“滿意”的客服語音錄音。
利用建立的Matlab語音分析系統(tǒng),逐個分析計算出各個語音錄音中的語音特征值:節(jié)拍均值、節(jié)拍最大值、節(jié)拍最小值、短時能量均值、短時能量最大值、短時能量最小值,并將這120組數據進行匯總整理,之后進行節(jié)拍均值、節(jié)拍差值與客戶滿意度以及短時能量均值、短時能量差值與客戶滿意度之間的方差分析和相關性分析。
(1) 方差分析。分析高客戶滿意度組和低客戶滿意度組的語音特征值是否有差異性。具體如表1所示。
單因素ANONA分析(One-Way Analysis of Variance)結果顯示:評價尺度為“非常滿意”的客服語音節(jié)拍差值與評價尺度為“一般”“不滿意”“非常不滿意”的客服語音節(jié)拍差值有著顯著性差異,且評價尺度為“一般”“不滿意”“非常不滿意”的客服語音節(jié)拍差值之間的差異性并不明顯。
同理,評價尺度為“非常滿意”的客服語音短時能量差值與評價尺度為“一般”“不滿意”“非常不滿意”的客服語音短時能量差值間有著顯著性的差異,且評價尺度為“一般”“不滿意”“非常不滿意”間的客服語音短時能量差值差異性并不顯著;評價尺度為“非常滿意”的客服語音短時能量均值與評價尺度為“一般”“不滿意”“非常不滿意”的客服語音短時能量均值間有著顯著性的差異,且評價尺度為“一般”“不滿意”“非常不滿意”間的客服語音短時能量均值的差異性并不顯著。
但是,評價尺度為“非常滿意”的客服語音節(jié)拍均值與評價尺度為“一般”“不滿意”“非常不滿意”的客服語音節(jié)拍均值之間的差異并不顯著。
表1 客戶滿意度方差分析(節(jié)拍差值)
注:*P<0.05
(2) 相關性分析。分析客服語音特征值:節(jié)拍差值、節(jié)拍均值、短時能量差值、短時能量均值與客戶滿意度之間的相關關系。具體如下表2所示。
表2 相關性關系表
注:*P<0.05,**P<0.01
相關性分析結果顯示:節(jié)拍差值、短時能量差值、短時能量均值均與客戶滿意度有著顯著的負相關關系。也就是說在一定范圍內隨著節(jié)拍差值、短時能量差值、短時能量均值的增加,客戶滿意度是呈遞減趨勢的。
語音分析減少了語音信息數據在每次客服語音服務過程中的流失,方便了客服語音服務信息反饋的獲取和服務規(guī)范的管理。將大量客服與客戶交互過程的錄音從閑置的語音錄音庫中歸類整理出來,建立語音分析系統(tǒng)來進行語音情感值的量化,分析研究了其與客戶滿意度之間的關系。結果表明,語音節(jié)拍均值與客戶滿意度之間的相關關系并不顯著;語音短時能量差值、語音短時能量均值和語音節(jié)拍差值均與客戶滿意度有著顯著的負相關關系,如:語音服務過程中,一定范圍內隨著客服語音節(jié)拍差值的增加,其所對應的客戶滿意度就會有所降低。該結論為客服人員通過控制自身語音特征值的方式提高客戶滿意度提供了一定的參考價值,而且客戶滿意度的提升同時也有利于電商企業(yè)經濟效益的提升和實現優(yōu)勢性經營。