蔡發(fā)群
(南京科技職業(yè)學(xué)院,江蘇 南京 210048)
295463913@qq.com
隨著互聯(lián)網(wǎng)的發(fā)展,購(gòu)物方式發(fā)生了巨變。電子商務(wù)已成為主流商務(wù)形式,越來越多的商家實(shí)施線上交易。電商渠道的商家與客戶交流的主要紐帶就是客服。為了能夠提高客戶的滿意度,促成交易,商家不得不雇傭大量的客服人員。這就導(dǎo)致市場(chǎng)上客服人員供不應(yīng)求;另一方面,由于工作壓力大,晉升空間有限,所以,客服人員流失嚴(yán)重,服務(wù)質(zhì)量難以保證。人工客服招聘難,流動(dòng)大,成本高,促使客服機(jī)器人應(yīng)運(yùn)而生。部分企業(yè)也積極上馬客服機(jī)器人,取代人工客服。然而,客服機(jī)器人技術(shù)尚不成熟,很多店鋪的客服機(jī)器人不僅不能很好地解決客戶的疑慮,提高客戶滿意度,反而降低了客戶的滿意度,甚至答非所問,讓客戶抓狂。因此,如何構(gòu)建智能客服機(jī)器人,實(shí)現(xiàn)精準(zhǔn)解答客戶疑問和投訴成為客服機(jī)器人主攻研究方向。
1966 年世界上第一個(gè)對(duì)話機(jī)器人ELIZA誕生于麻省理工學(xué)院。1995 年Richard S.Wallace博士開發(fā)了ALICE系統(tǒng)。2001 年,機(jī)器人SmarterChild上線。2008 年,整合了眾多網(wǎng)絡(luò)服務(wù)功能的蘋果Siri上架。2015 年,京東JIMI正式接入。用戶可以通過與JIMI聊天了解商品的具體信息以及反饋購(gòu)物中存在的問題等。JIMI知道自己不能回答用戶的哪些問題,并且知道何時(shí)應(yīng)該轉(zhuǎn)向人工客服。
對(duì)話機(jī)器人以檢索式為主,必須由一個(gè)或若干個(gè)問答數(shù)據(jù)庫(kù)作為支撐。用戶提出問題時(shí),系統(tǒng)通過檢索、匹配技術(shù)從數(shù)據(jù)庫(kù)中找出答案來進(jìn)行回復(fù)。因此,數(shù)據(jù)庫(kù)的質(zhì)量對(duì)答復(fù)的有效性和準(zhǔn)確性有很大的影響。然而,數(shù)據(jù)庫(kù)規(guī)模再大,質(zhì)量再好,也不可能實(shí)現(xiàn)永遠(yuǎn)完美答復(fù),因?yàn)閷?duì)話的場(chǎng)景日新月異,人們的表達(dá)方式也隨著時(shí)間不斷變化,這些變化都需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行更新和補(bǔ)充。近年來,深度學(xué)習(xí)方法在自然語(yǔ)言、語(yǔ)音、圖像、視頻等領(lǐng)域發(fā)展迅猛。使用圖神經(jīng)網(wǎng)絡(luò)構(gòu)建推薦算法逐漸成為當(dāng)今推薦算法的研究熱潮。這個(gè)方法恰好可以解決客服機(jī)器人自動(dòng)更新和擴(kuò)充數(shù)據(jù)庫(kù)的需求。
客服機(jī)器人給出準(zhǔn)確答案的過程主要包括三個(gè)步驟。第一步,數(shù)據(jù)采集。數(shù)據(jù)采集包括客戶基本信息、客戶行為信息、客戶提問信息以及常見客戶歷史問題及對(duì)應(yīng)回復(fù)信息等。第二步,數(shù)據(jù)處理。數(shù)據(jù)處理主要是進(jìn)行客戶提問標(biāo)簽提取。首先,對(duì)客戶當(dāng)前提問進(jìn)行分詞處理,抽取出可以代表其含義的屬性詞,用具體的詞向量來表示客戶的抽象提問,每個(gè)詞對(duì)應(yīng)的權(quán)重由信息檢索算法TF-IDF來決定,然后利用客戶購(gòu)物、瀏覽、咨詢及評(píng)價(jià)等歷史信息的特征數(shù)據(jù),以及客戶的年齡、性別、地域等來分析出此用戶的提問特征,最終提取出客戶提問標(biāo)簽。第三步,答復(fù)推薦。通過對(duì)比客戶提問標(biāo)簽和數(shù)據(jù)庫(kù)中問題標(biāo)簽,為用戶推薦相關(guān)性最大的回復(fù)信息。具體步驟如圖1所示。
圖1 基于循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的智能機(jī)器人答復(fù)推薦系統(tǒng)Fig.1 Intelligent robot reply recommendation system based on recurrent neural network learning algorithm
客服機(jī)器人回復(fù)客戶提問的主要依據(jù),除了客戶當(dāng)下提問內(nèi)容外,還要考慮客戶年齡、性別、偏好、地域、受教育程度、人口統(tǒng)計(jì)學(xué)信息,用戶的瀏覽、購(gòu)買、評(píng)價(jià)行為信息等。因此,客服機(jī)器人必須先采集相關(guān)信息。
客戶提問可以通過相關(guān)入口直接錄入。而客戶年齡、性別、偏好、地域、受教育程度、人口統(tǒng)計(jì)學(xué)信息則可以在客戶注冊(cè)時(shí)錄入到客戶基本信息庫(kù),需要時(shí)再在客戶基本信息庫(kù)中提取。用戶的瀏覽、購(gòu)買、評(píng)價(jià)等行為信息可以在客戶購(gòu)物過程中錄入到客戶行為信息庫(kù)中。
對(duì)于客戶的提問,首先必須進(jìn)行分詞處理,將非結(jié)構(gòu)化的客戶提問分成一個(gè)個(gè)詞語(yǔ),并對(duì)每個(gè)詞語(yǔ)賦予權(quán)重,然后結(jié)合客戶的基本信息和行為信息,構(gòu)成客戶提問向量,從而獲取客戶提問標(biāo)簽。問題庫(kù)中的問題也用同樣的方法設(shè)置標(biāo)簽。最后將客戶提問標(biāo)簽與問題庫(kù)中的問題標(biāo)簽進(jìn)行對(duì)比,從而確定如何答復(fù)客戶。
要想實(shí)現(xiàn)精準(zhǔn)回答,智能客服機(jī)器人必須能夠分析客戶提問和問題庫(kù)中問題的語(yǔ)義。國(guó)內(nèi)客服機(jī)器人主要服務(wù)于中國(guó)人,因此,必須要先學(xué)會(huì)中文分詞。中文分詞作為中文自然語(yǔ)言處理領(lǐng)域的重要基礎(chǔ)研究,近些年來很多專家學(xué)者致力于該領(lǐng)域的研究,研究方法主要分為三種:(a)基于規(guī)則的方法;(b)基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的方法;(c)基于深度神經(jīng)網(wǎng)絡(luò)模型的方法。深度神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)算法是自然語(yǔ)言處理算法(Natural Language Processing,NLP),包括詞法分析、句法分析、語(yǔ)義分析、文檔分析等。
中文分詞是一個(gè)經(jīng)典的預(yù)測(cè)序列問題,方法主要有基于隱含馬爾柯夫模型(Hidden Markov Model,HMM)分詞法、基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)分詞法和基于LSTM的分詞方法。Hochreiter等人在1977 年又提出LSTM模型,LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一個(gè)變種,它克服了RNN模型訓(xùn)練過程中梯度消失和梯度爆炸的缺陷。LSTM模型的總體結(jié)構(gòu)如圖2所示。
圖2 LSTM模型總體結(jié)構(gòu)Fig.2 Overall structure of LSTM model
LSTM在循環(huán)單元內(nèi)部引入了門限(gate)結(jié)構(gòu)。LSTM模型中有三個(gè)“門”,分別是“遺忘門”“輸入門”和“輸出門”,分別用于決定哪些信息要舍棄,哪些信息要留下,最終輸出哪些信息。如圖3所示,時(shí)刻的相關(guān)信息受-1 時(shí)刻的信息影響,同時(shí)又影響著+1 時(shí)刻,從而保持持續(xù)性。
圖3 LSTM模型詳解圖Fig.3 LSTM model details
為了將中文分詞問題轉(zhuǎn)化成序列標(biāo)注問題,就需要將分詞中的每一個(gè)字進(jìn)行標(biāo)注。在深度學(xué)習(xí)分詞研究工作中,常用的標(biāo)注集是四詞位(B、M、E、S),分別表示一個(gè)分詞的開始詞位、中間詞位、結(jié)束詞位以及以單獨(dú)一個(gè)字構(gòu)成的分詞。中文分詞中,LSTM記憶單元就是文本的上下文,再結(jié)合相關(guān)函數(shù),推理出文本的分詞構(gòu)成。
客服機(jī)器人研究的對(duì)象主要是客戶的提問和問題庫(kù)問題,都屬于非結(jié)構(gòu)化數(shù)據(jù)。一般用向量空間模型(Vector Space Model,VSM)將非結(jié)構(gòu)化的問題結(jié)構(gòu)化。
這樣就可以實(shí)現(xiàn)對(duì)所有客戶可能提出問題歸一化??梢宰尣煌瑔栴}統(tǒng)一用向量表示,這些向量就可以作為對(duì)應(yīng)答復(fù)的標(biāo)簽。
客服機(jī)器人除了要考慮客戶的當(dāng)前提問,還需要考慮客戶的購(gòu)物經(jīng)歷、評(píng)價(jià)、瀏覽、以往提問等信息,以及年齡、性別、地域、受教育程度、地域等信息,還有人口統(tǒng)計(jì)學(xué)特征或行為特征等,也將作為向量維度。因此客戶提問標(biāo)簽可以表示為
目前搜索引擎、社交媒體等平臺(tái)使用的推薦算法主要有Rocchio算法、決策樹算法(Decision Tree,DT)、線性分類算法(Linear Classifer,LC)、樸素貝葉斯算法(Naive Bayes,NB)、余弦相似度算法(Cosine Similarity,CS)等。
Rocchio算法是一種匹配推薦算法,是處理反饋的著名算法,經(jīng)常用于搜索引擎。往往會(huì)先向客戶呈現(xiàn)各種可能結(jié)果。然后根據(jù)客戶的點(diǎn)擊情況,再縮小結(jié)果范圍,慢慢精準(zhǔn)化。這種方法顯然不適合客服機(jī)器人。
決策樹算法是一種逼近離散函數(shù)值法,是一種典型的分類方法。首先利用歸納算法生成可讀的規(guī)則和決策樹,然后對(duì)數(shù)據(jù)進(jìn)行分析。決策樹算法其實(shí)是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類。當(dāng)項(xiàng)目屬性較少而且是結(jié)構(gòu)化屬性時(shí),決策樹一般會(huì)是個(gè)好的選擇。但是如果項(xiàng)目的屬性較多,且都來源于非結(jié)構(gòu)化數(shù)據(jù),比如文章、問題等,那么決策樹算法的效果就不理想了。
線性分類算法指用一個(gè)線性方程把待分類數(shù)據(jù)分開。對(duì)于二維的情況,就是用一條直線將數(shù)據(jù)分開。對(duì)于三維的情況,則是用一個(gè)超平面將數(shù)據(jù)區(qū)分開來。它的分類算法基于一個(gè)線性預(yù)測(cè)函數(shù),決策的邊界是平的,比如直線和平面。這種方法顯然也不適合客服機(jī)器人。
樸素貝葉斯方法是在貝葉斯算法的基礎(chǔ)上進(jìn)行了簡(jiǎn)化。基于樸素貝葉斯算法進(jìn)行分類的基本原理是假設(shè)特征之間互相獨(dú)立,既沒有哪個(gè)屬性對(duì)于決策結(jié)果影響比較大,也沒有哪個(gè)屬性對(duì)于決策結(jié)果影響比較小。這種方法簡(jiǎn)化了貝葉斯方法的復(fù)雜性,但是,在一定程度上降低了貝葉斯分類算法的分類效果。
余弦相似度算法是通過向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)項(xiàng)目間相似性的方法。余弦值越接近1,角越接近0 度,表明兩個(gè)向量越相似性高,等于1時(shí)表明兩個(gè)向量完全相同,如圖4所示。余弦值越接近-1,角越接近180 度,表明兩個(gè)向量基本不相似,或相似度很低。兩個(gè)向量之間的角度的余弦值確定兩個(gè)向量的方向的一致性。余弦相似度通常用于正空間,因此給出的值為-1到1。
圖4 余弦相似度算法原理圖Fig.4 Schematic diagram of cosine similarity algorithm
向量空間余弦相似度理論就是基于上述原理來計(jì)算個(gè)體相似度的。假設(shè)向量(,)、向量(,)是二維向量,如圖5所示,那么余弦定理的表達(dá)形式,即向量和向量夾角的余弦為
圖5 二維向量夾角示意圖Fig.5 Schematic diagram of included angle of twodimensional vector
當(dāng)向量和向量為維向量時(shí),則向量與向量夾角的余弦為
余弦相似度算法通常用于數(shù)據(jù)挖掘中的文本比較。智能客服機(jī)器人在回答客戶問題時(shí)主要用到的就是文本比較。因此,余弦相似度算法比較適合客服機(jī)器人答復(fù)推薦。首先,基于LSTM網(wǎng)絡(luò)學(xué)習(xí)將客戶提問和問題庫(kù)中的問題向量化,然后就可以利用余弦相似度算法比較客戶提問和問題庫(kù)中問題向量的相似度,從而確定提交給客戶的答復(fù)信息。
假設(shè)某服裝店鋪的客戶提問:皮膚黑選哪個(gè)顏色比較合適呢?
假設(shè)問題庫(kù)中有9 個(gè)問題,其中只有問題A和問題B與客戶提問有共有詞。
問題A:皮膚白哪個(gè)顏色合適?
對(duì)應(yīng)答復(fù):親,皮膚白穿什么顏色都好看哦,只是不同的顏色彰顯的氣質(zhì)不同。粉色溫柔、甜美,黃色明快、純潔,紅色熱烈、有朝氣,深藍(lán)色低沉、神秘,紫色優(yōu)美高雅、雍容華貴。親可以根據(jù)自己的需要選哦。
問題B:皮膚黑哪個(gè)顏色合適?
對(duì)應(yīng)答復(fù):親,您好,根據(jù)我們的經(jīng)驗(yàn),淡黃色、豆沙粉、米白色比較襯皮膚,顯白哦!
在暫不考慮客戶基本信息和行為信息的情況下,到底應(yīng)該把哪個(gè)答復(fù)推薦給客戶呢?基本思路是要看客戶提問與問題庫(kù)中問題的相似性,而兩者之間的相似性取決于詞向量的關(guān)系,因此,先對(duì)它們進(jìn)行分詞,然后計(jì)算權(quán)重,最后得到詞向量,最后再利用余弦相似度算法計(jì)算客戶提問與問題庫(kù)中各問題的相似程度,取值最大的那個(gè)就是問題的答復(fù)。
第一步,對(duì)客戶提問和問題庫(kù)問題進(jìn)行分詞處理。
客戶提問:皮膚/黑/選/哪個(gè)/顏色/比較/合適/呢?
問題A:皮膚/白/哪個(gè)/顏色/合適
問題B:皮膚/黑/哪個(gè)/顏色/合適
第二步,通過對(duì)人工客服語(yǔ)料庫(kù)訓(xùn)練可知,語(yǔ)氣詞“呢”,形容詞“比較”,以及“?”等在聯(lián)系上下文的情況下可以忽略不計(jì)。因此,可以列出所有詞:皮膚,黑,白,選,哪個(gè),顏色,合適。
第三步,計(jì)算客戶提問和問題庫(kù)問題詞頻。
客戶提問:皮膚1,黑1,白0,選1,哪個(gè)1,顏色1,合適1
問題A:皮膚1,黑0,白1,選0,哪個(gè)1,顏色1,合適1
問題B:皮膚1,黑1,白0,選0,哪個(gè)1,顏色1,合適1
第四步,給出客戶提問和問題庫(kù)問題詞頻向量,即它們的標(biāo)簽。
客戶提問向量:[1,1,0,1,1,1,1]
問題A向量:[1,0,1,0,1,1,1]
問題B向量:[1,1,0,0,1,1,1]
根據(jù)TF-IDF算法可知,客戶提問標(biāo)簽如下式:
因此,客戶提問標(biāo)簽為[0.1,0.13,0,0.17,0.1,0.1,0.1]。
同理可知,問題A標(biāo)簽為[0.12,0,0.21,0,0.12,0.12,0.12],問題B標(biāo)簽為[0.12,0.16,0,0,0.12,0.12,0.12]。
現(xiàn)在,問題比較就變成如何計(jì)算向量夾角余弦值的問題了。三個(gè)問題就像空間中的三條向量,都是從原點(diǎn)(0,0,0,0,0,0,0,0)出發(fā),指向不同的方向。每?jī)蓚€(gè)向量之間形成一個(gè)夾角,夾角余弦值代表著兩個(gè)向量方向的一致性,也就是提問和問題間的相似性程度。
根據(jù)余弦相似度算法,客戶提問和問題A兩個(gè)向量之間夾角的余弦值,如式(9)所示。
同理,客戶提問和問題B兩個(gè)向量之間夾角的余弦值約為0.81。計(jì)算結(jié)果表明客戶提問與問題B兩個(gè)向量間的夾角的余弦值為0.81,遠(yuǎn)大于客戶提問與問題A間的夾角的余弦值0.52。所以客戶提問和問題B更相似,因此應(yīng)該將問題B對(duì)應(yīng)的答復(fù)提交給客戶。當(dāng)然從語(yǔ)義表達(dá)上可以看出,雖然問題A和問題B中沒有“選”這個(gè)詞,但加上有這兩個(gè)詞后語(yǔ)義是沒有什么改變的??紤]到這一點(diǎn),兩個(gè)余弦值應(yīng)該更高,相似性也會(huì)更明顯些。
中國(guó)語(yǔ)言博大精深,有的一詞多義,有的則是一義多詞,因此,不同語(yǔ)境下分詞結(jié)果可能會(huì)不同,不同的分詞結(jié)果,向量表達(dá)也有可能相同。要想精確表達(dá),還需進(jìn)一步優(yōu)化算法。本研究采用LSTM算法進(jìn)行分詞,還不能完全解決分詞歧義,序列長(zhǎng)度超過一定限度后,LSTM算法也會(huì)出現(xiàn)梯度消失的情況。另外,利用余弦相似度算法進(jìn)行答復(fù)推薦也存在一定的局限性。余弦相似度算法只考慮向量的方向,不考慮其大小。因此,推薦答復(fù)時(shí),可能還不夠準(zhǔn)確。智能機(jī)器人技術(shù)在不斷發(fā)展中,相關(guān)算法在不斷升級(jí),后期還要進(jìn)一步研究相關(guān)算法,以實(shí)現(xiàn)客服機(jī)器人精準(zhǔn)答復(fù)。