基于循環(huán)神經(jīng)網(wǎng)絡(luò)和余弦相似度算法的智能客服機(jī)器人研究

2022-11-04 03:41蔡發(fā)群

軟件工程 2022年11期

蔡發(fā)群

(南京科技職業(yè)學(xué)院，江蘇南京 210048)

295463913@qq.com

1 引言(Introduction)

隨著互聯(lián)網(wǎng)的發(fā)展，購(gòu)物方式發(fā)生了巨變。電子商務(wù)已成為主流商務(wù)形式，越來越多的商家實(shí)施線上交易。電商渠道的商家與客戶交流的主要紐帶就是客服。為了能夠提高客戶的滿意度，促成交易，商家不得不雇傭大量的客服人員。這就導(dǎo)致市場(chǎng)上客服人員供不應(yīng)求；另一方面，由于工作壓力大，晉升空間有限，所以，客服人員流失嚴(yán)重，服務(wù)質(zhì)量難以保證。人工客服招聘難，流動(dòng)大，成本高，促使客服機(jī)器人應(yīng)運(yùn)而生。部分企業(yè)也積極上馬客服機(jī)器人，取代人工客服。然而，客服機(jī)器人技術(shù)尚不成熟，很多店鋪的客服機(jī)器人不僅不能很好地解決客戶的疑慮，提高客戶滿意度，反而降低了客戶的滿意度，甚至答非所問，讓客戶抓狂。因此，如何構(gòu)建智能客服機(jī)器人，實(shí)現(xiàn)精準(zhǔn)解答客戶疑問和投訴成為客服機(jī)器人主攻研究方向。

2 文獻(xiàn)綜述(Literature review)

1966 年世界上第一個(gè)對(duì)話機(jī)器人ELIZA誕生于麻省理工學(xué)院。1995 年Richard S.Wallace博士開發(fā)了ALICE系統(tǒng)。2001 年，機(jī)器人SmarterChild上線。2008 年，整合了眾多網(wǎng)絡(luò)服務(wù)功能的蘋果Siri上架。2015 年，京東JIMI正式接入。用戶可以通過與JIMI聊天了解商品的具體信息以及反饋購(gòu)物中存在的問題等。JIMI知道自己不能回答用戶的哪些問題，并且知道何時(shí)應(yīng)該轉(zhuǎn)向人工客服。

對(duì)話機(jī)器人以檢索式為主，必須由一個(gè)或若干個(gè)問答數(shù)據(jù)庫(kù)作為支撐。用戶提出問題時(shí)，系統(tǒng)通過檢索、匹配技術(shù)從數(shù)據(jù)庫(kù)中找出答案來進(jìn)行回復(fù)。因此，數(shù)據(jù)庫(kù)的質(zhì)量對(duì)答復(fù)的有效性和準(zhǔn)確性有很大的影響。然而，數(shù)據(jù)庫(kù)規(guī)模再大，質(zhì)量再好，也不可能實(shí)現(xiàn)永遠(yuǎn)完美答復(fù)，因?yàn)閷?duì)話的場(chǎng)景日新月異，人們的表達(dá)方式也隨著時(shí)間不斷變化，這些變化都需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行更新和補(bǔ)充。近年來，深度學(xué)習(xí)方法在自然語(yǔ)言、語(yǔ)音、圖像、視頻等領(lǐng)域發(fā)展迅猛。使用圖神經(jīng)網(wǎng)絡(luò)構(gòu)建推薦算法逐漸成為當(dāng)今推薦算法的研究熱潮。這個(gè)方法恰好可以解決客服機(jī)器人自動(dòng)更新和擴(kuò)充數(shù)據(jù)庫(kù)的需求。

3 基于循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的智能機(jī)器人答復(fù)推薦系統(tǒng)(Intelligent robot reply recommendation system based on recurrent neural network learning algorithm)

客服機(jī)器人給出準(zhǔn)確答案的過程主要包括三個(gè)步驟。第一步，數(shù)據(jù)采集。數(shù)據(jù)采集包括客戶基本信息、客戶行為信息、客戶提問信息以及常見客戶歷史問題及對(duì)應(yīng)回復(fù)信息等。第二步，數(shù)據(jù)處理。數(shù)據(jù)處理主要是進(jìn)行客戶提問標(biāo)簽提取。首先，對(duì)客戶當(dāng)前提問進(jìn)行分詞處理，抽取出可以代表其含義的屬性詞，用具體的詞向量來表示客戶的抽象提問，每個(gè)詞對(duì)應(yīng)的權(quán)重由信息檢索算法TF-IDF來決定，然后利用客戶購(gòu)物、瀏覽、咨詢及評(píng)價(jià)等歷史信息的特征數(shù)據(jù)，以及客戶的年齡、性別、地域等來分析出此用戶的提問特征，最終提取出客戶提問標(biāo)簽。第三步，答復(fù)推薦。通過對(duì)比客戶提問標(biāo)簽和數(shù)據(jù)庫(kù)中問題標(biāo)簽，為用戶推薦相關(guān)性最大的回復(fù)信息。具體步驟如圖1所示。

圖1 基于循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的智能機(jī)器人答復(fù)推薦系統(tǒng)Fig.1 Intelligent robot reply recommendation system based on recurrent neural network learning algorithm

3.1 數(shù)據(jù)采集

客服機(jī)器人回復(fù)客戶提問的主要依據(jù)，除了客戶當(dāng)下提問內(nèi)容外，還要考慮客戶年齡、性別、偏好、地域、受教育程度、人口統(tǒng)計(jì)學(xué)信息，用戶的瀏覽、購(gòu)買、評(píng)價(jià)行為信息等。因此，客服機(jī)器人必須先采集相關(guān)信息。

客戶提問可以通過相關(guān)入口直接錄入。而客戶年齡、性別、偏好、地域、受教育程度、人口統(tǒng)計(jì)學(xué)信息則可以在客戶注冊(cè)時(shí)錄入到客戶基本信息庫(kù)，需要時(shí)再在客戶基本信息庫(kù)中提取。用戶的瀏覽、購(gòu)買、評(píng)價(jià)等行為信息可以在客戶購(gòu)物過程中錄入到客戶行為信息庫(kù)中。

3.2 數(shù)據(jù)處理

對(duì)于客戶的提問，首先必須進(jìn)行分詞處理，將非結(jié)構(gòu)化的客戶提問分成一個(gè)個(gè)詞語(yǔ)，并對(duì)每個(gè)詞語(yǔ)賦予權(quán)重，然后結(jié)合客戶的基本信息和行為信息，構(gòu)成客戶提問向量，從而獲取客戶提問標(biāo)簽。問題庫(kù)中的問題也用同樣的方法設(shè)置標(biāo)簽。最后將客戶提問標(biāo)簽與問題庫(kù)中的問題標(biāo)簽進(jìn)行對(duì)比，從而確定如何答復(fù)客戶。

要想實(shí)現(xiàn)精準(zhǔn)回答，智能客服機(jī)器人必須能夠分析客戶提問和問題庫(kù)中問題的語(yǔ)義。國(guó)內(nèi)客服機(jī)器人主要服務(wù)于中國(guó)人，因此，必須要先學(xué)會(huì)中文分詞。中文分詞作為中文自然語(yǔ)言處理領(lǐng)域的重要基礎(chǔ)研究，近些年來很多專家學(xué)者致力于該領(lǐng)域的研究，研究方法主要分為三種：(a)基于規(guī)則的方法；(b)基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的方法；(c)基于深度神經(jīng)網(wǎng)絡(luò)模型的方法。深度神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)算法是自然語(yǔ)言處理算法(Natural Language Processing，NLP)，包括詞法分析、句法分析、語(yǔ)義分析、文檔分析等。

中文分詞是一個(gè)經(jīng)典的預(yù)測(cè)序列問題，方法主要有基于隱含馬爾柯夫模型(Hidden Markov Model，HMM)分詞法、基于條件隨機(jī)場(chǎng)(Conditional Random Field，CRF)分詞法和基于LSTM的分詞方法。Hochreiter等人在1977 年又提出LSTM模型，LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)的一個(gè)變種，它克服了RNN模型訓(xùn)練過程中梯度消失和梯度爆炸的缺陷。LSTM模型的總體結(jié)構(gòu)如圖2所示。

圖2 LSTM模型總體結(jié)構(gòu)Fig.2 Overall structure of LSTM model

LSTM在循環(huán)單元內(nèi)部引入了門限(gate)結(jié)構(gòu)。LSTM模型中有三個(gè)“門”，分別是“遺忘門”“輸入門”和“輸出門”，分別用于決定哪些信息要舍棄，哪些信息要留下，最終輸出哪些信息。如圖3所示，時(shí)刻的相關(guān)信息受-1 時(shí)刻的信息影響，同時(shí)又影響著+1 時(shí)刻，從而保持持續(xù)性。

圖3 LSTM模型詳解圖Fig.3 LSTM model details

為了將中文分詞問題轉(zhuǎn)化成序列標(biāo)注問題，就需要將分詞中的每一個(gè)字進(jìn)行標(biāo)注。在深度學(xué)習(xí)分詞研究工作中，常用的標(biāo)注集是四詞位(B、M、E、S)，分別表示一個(gè)分詞的開始詞位、中間詞位、結(jié)束詞位以及以單獨(dú)一個(gè)字構(gòu)成的分詞。中文分詞中，LSTM記憶單元就是文本的上下文，再結(jié)合相關(guān)函數(shù)，推理出文本的分詞構(gòu)成。

客服機(jī)器人研究的對(duì)象主要是客戶的提問和問題庫(kù)問題，都屬于非結(jié)構(gòu)化數(shù)據(jù)。一般用向量空間模型(Vector Space Model，VSM)將非結(jié)構(gòu)化的問題結(jié)構(gòu)化。

這樣就可以實(shí)現(xiàn)對(duì)所有客戶可能提出問題歸一化?？梢宰尣煌瑔栴}統(tǒng)一用向量表示，這些向量就可以作為對(duì)應(yīng)答復(fù)的標(biāo)簽。

客服機(jī)器人除了要考慮客戶的當(dāng)前提問，還需要考慮客戶的購(gòu)物經(jīng)歷、評(píng)價(jià)、瀏覽、以往提問等信息，以及年齡、性別、地域、受教育程度、地域等信息，還有人口統(tǒng)計(jì)學(xué)特征或行為特征等，也將作為向量維度。因此客戶提問標(biāo)簽可以表示為

3.3 答復(fù)推薦算法

目前搜索引擎、社交媒體等平臺(tái)使用的推薦算法主要有Rocchio算法、決策樹算法(Decision Tree，DT)、線性分類算法(Linear Classifer，LC)、樸素貝葉斯算法(Naive Bayes，NB)、余弦相似度算法(Cosine Similarity，CS)等。

Rocchio算法是一種匹配推薦算法，是處理反饋的著名算法，經(jīng)常用于搜索引擎。往往會(huì)先向客戶呈現(xiàn)各種可能結(jié)果。然后根據(jù)客戶的點(diǎn)擊情況，再縮小結(jié)果范圍，慢慢精準(zhǔn)化。這種方法顯然不適合客服機(jī)器人。

決策樹算法是一種逼近離散函數(shù)值法，是一種典型的分類方法。首先利用歸納算法生成可讀的規(guī)則和決策樹，然后對(duì)數(shù)據(jù)進(jìn)行分析。決策樹算法其實(shí)是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類。當(dāng)項(xiàng)目屬性較少而且是結(jié)構(gòu)化屬性時(shí)，決策樹一般會(huì)是個(gè)好的選擇。但是如果項(xiàng)目的屬性較多，且都來源于非結(jié)構(gòu)化數(shù)據(jù)，比如文章、問題等，那么決策樹算法的效果就不理想了。

線性分類算法指用一個(gè)線性方程把待分類數(shù)據(jù)分開。對(duì)于二維的情況，就是用一條直線將數(shù)據(jù)分開。對(duì)于三維的情況，則是用一個(gè)超平面將數(shù)據(jù)區(qū)分開來。它的分類算法基于一個(gè)線性預(yù)測(cè)函數(shù)，決策的邊界是平的，比如直線和平面。這種方法顯然也不適合客服機(jī)器人。

樸素貝葉斯方法是在貝葉斯算法的基礎(chǔ)上進(jìn)行了簡(jiǎn)化。基于樸素貝葉斯算法進(jìn)行分類的基本原理是假設(shè)特征之間互相獨(dú)立，既沒有哪個(gè)屬性對(duì)于決策結(jié)果影響比較大，也沒有哪個(gè)屬性對(duì)于決策結(jié)果影響比較小。這種方法簡(jiǎn)化了貝葉斯方法的復(fù)雜性，但是，在一定程度上降低了貝葉斯分類算法的分類效果。

余弦相似度算法是通過向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)項(xiàng)目間相似性的方法。余弦值越接近1，角越接近0 度，表明兩個(gè)向量越相似性高，等于1時(shí)表明兩個(gè)向量完全相同，如圖4所示。余弦值越接近-1，角越接近180 度，表明兩個(gè)向量基本不相似，或相似度很低。兩個(gè)向量之間的角度的余弦值確定兩個(gè)向量的方向的一致性。余弦相似度通常用于正空間，因此給出的值為-1到1。

圖4 余弦相似度算法原理圖Fig.4 Schematic diagram of cosine similarity algorithm

向量空間余弦相似度理論就是基于上述原理來計(jì)算個(gè)體相似度的。假設(shè)向量(,)、向量(,)是二維向量，如圖5所示，那么余弦定理的表達(dá)形式，即向量和向量夾角的余弦為

圖5 二維向量夾角示意圖Fig.5 Schematic diagram of included angle of twodimensional vector

當(dāng)向量和向量為維向量時(shí)，則向量與向量夾角的余弦為

余弦相似度算法通常用于數(shù)據(jù)挖掘中的文本比較。智能客服機(jī)器人在回答客戶問題時(shí)主要用到的就是文本比較。因此，余弦相似度算法比較適合客服機(jī)器人答復(fù)推薦。首先，基于LSTM網(wǎng)絡(luò)學(xué)習(xí)將客戶提問和問題庫(kù)中的問題向量化，然后就可以利用余弦相似度算法比較客戶提問和問題庫(kù)中問題向量的相似度，從而確定提交給客戶的答復(fù)信息。

假設(shè)某服裝店鋪的客戶提問：皮膚黑選哪個(gè)顏色比較合適呢？

假設(shè)問題庫(kù)中有9 個(gè)問題，其中只有問題A和問題B與客戶提問有共有詞。

問題A：皮膚白哪個(gè)顏色合適？

對(duì)應(yīng)答復(fù)：親，皮膚白穿什么顏色都好看哦，只是不同的顏色彰顯的氣質(zhì)不同。粉色溫柔、甜美，黃色明快、純潔，紅色熱烈、有朝氣，深藍(lán)色低沉、神秘，紫色優(yōu)美高雅、雍容華貴。親可以根據(jù)自己的需要選哦。

問題B：皮膚黑哪個(gè)顏色合適？

對(duì)應(yīng)答復(fù)：親，您好，根據(jù)我們的經(jīng)驗(yàn)，淡黃色、豆沙粉、米白色比較襯皮膚，顯白哦！

在暫不考慮客戶基本信息和行為信息的情況下，到底應(yīng)該把哪個(gè)答復(fù)推薦給客戶呢？基本思路是要看客戶提問與問題庫(kù)中問題的相似性，而兩者之間的相似性取決于詞向量的關(guān)系，因此，先對(duì)它們進(jìn)行分詞，然后計(jì)算權(quán)重，最后得到詞向量，最后再利用余弦相似度算法計(jì)算客戶提問與問題庫(kù)中各問題的相似程度，取值最大的那個(gè)就是問題的答復(fù)。

第一步，對(duì)客戶提問和問題庫(kù)問題進(jìn)行分詞處理。

客戶提問：皮膚/黑/選/哪個(gè)/顏色/比較/合適/呢？

問題A：皮膚/白/哪個(gè)/顏色/合適

問題B：皮膚/黑/哪個(gè)/顏色/合適

第二步，通過對(duì)人工客服語(yǔ)料庫(kù)訓(xùn)練可知，語(yǔ)氣詞“呢”，形容詞“比較”，以及“？”等在聯(lián)系上下文的情況下可以忽略不計(jì)。因此，可以列出所有詞：皮膚，黑，白，選，哪個(gè)，顏色，合適。

第三步，計(jì)算客戶提問和問題庫(kù)問題詞頻。

客戶提問：皮膚1，黑1，白0，選1，哪個(gè)1，顏色1，合適1

問題A：皮膚1，黑0，白1，選0，哪個(gè)1，顏色1，合適1

問題B：皮膚1，黑1，白0，選0，哪個(gè)1，顏色1，合適1

第四步，給出客戶提問和問題庫(kù)問題詞頻向量，即它們的標(biāo)簽。

客戶提問向量：[1，1，0，1，1，1，1]

問題A向量：[1，0，1，0，1，1，1]

問題B向量：[1，1，0，0，1，1，1]

根據(jù)TF-IDF算法可知，客戶提問標(biāo)簽如下式：

因此，客戶提問標(biāo)簽為[0.1，0.13，0，0.17，0.1，0.1，0.1]。

同理可知，問題A標(biāo)簽為[0.12，0，0.21，0，0.12，0.12，0.12]，問題B標(biāo)簽為[0.12，0.16，0，0，0.12，0.12，0.12]。

現(xiàn)在，問題比較就變成如何計(jì)算向量夾角余弦值的問題了。三個(gè)問題就像空間中的三條向量，都是從原點(diǎn)(0，0，0，0，0，0，0，0)出發(fā)，指向不同的方向。每?jī)蓚€(gè)向量之間形成一個(gè)夾角，夾角余弦值代表著兩個(gè)向量方向的一致性，也就是提問和問題間的相似性程度。

根據(jù)余弦相似度算法，客戶提問和問題A兩個(gè)向量之間夾角的余弦值，如式(9)所示。

同理，客戶提問和問題B兩個(gè)向量之間夾角的余弦值約為0.81。計(jì)算結(jié)果表明客戶提問與問題B兩個(gè)向量間的夾角的余弦值為0.81，遠(yuǎn)大于客戶提問與問題A間的夾角的余弦值0.52。所以客戶提問和問題B更相似，因此應(yīng)該將問題B對(duì)應(yīng)的答復(fù)提交給客戶。當(dāng)然從語(yǔ)義表達(dá)上可以看出，雖然問題A和問題B中沒有“選”這個(gè)詞，但加上有這兩個(gè)詞后語(yǔ)義是沒有什么改變的?？紤]到這一點(diǎn)，兩個(gè)余弦值應(yīng)該更高，相似性也會(huì)更明顯些。

4 結(jié)論(Conclusion)

中國(guó)語(yǔ)言博大精深，有的一詞多義，有的則是一義多詞，因此，不同語(yǔ)境下分詞結(jié)果可能會(huì)不同，不同的分詞結(jié)果，向量表達(dá)也有可能相同。要想精確表達(dá)，還需進(jìn)一步優(yōu)化算法。本研究采用LSTM算法進(jìn)行分詞，還不能完全解決分詞歧義，序列長(zhǎng)度超過一定限度后，LSTM算法也會(huì)出現(xiàn)梯度消失的情況。另外，利用余弦相似度算法進(jìn)行答復(fù)推薦也存在一定的局限性。余弦相似度算法只考慮向量的方向，不考慮其大小。因此，推薦答復(fù)時(shí)，可能還不夠準(zhǔn)確。智能機(jī)器人技術(shù)在不斷發(fā)展中，相關(guān)算法在不斷升級(jí)，后期還要進(jìn)一步研究相關(guān)算法，以實(shí)現(xiàn)客服機(jī)器人精準(zhǔn)答復(fù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡