中央民族大學(xué)信息工程學(xué)院 伍逸興
中央民族大學(xué)經(jīng)濟(jì)學(xué)院 李秦青
近年來,互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)已成為人們生活中重要的信息來源,也是人們表達(dá)個人意向的重要途徑。人們在購買商品前,都習(xí)慣在網(wǎng)上查看他人對同一產(chǎn)品的評價;另外,人們也越來越喜歡在網(wǎng)上分享他們對使用過的產(chǎn)品的看法。同時,作為電子商務(wù)的重要載體,互聯(lián)網(wǎng)上的內(nèi)容對商家也存在導(dǎo)向作用。通過對網(wǎng)絡(luò)上顧客反饋的挖掘,商家可以及時了解市場行情,完善商品的質(zhì)量和營銷手段。
進(jìn)軍一個新市場是有風(fēng)險的,但如果事先做了周密的調(diào)查就沒有相關(guān)風(fēng)險。如今,產(chǎn)品評論對于在線銷售至關(guān)重要,因?yàn)樗鼈兎从沉水a(chǎn)品的市場接受度,而這是銷售策略的核心。眾所周知,世界上最大的網(wǎng)購平臺亞馬遜提供了三種評論:以星級的形式進(jìn)行評價(star ratings),用戶的文字評論,以及用戶和非用戶對原始評論的意見,稱為“幫助度”(helpfulness rating)。
本研究以吹風(fēng)機(jī)、微波爐、嬰兒奶嘴為例。公司已經(jīng)準(zhǔn)備了客戶評論的數(shù)據(jù)集,這些數(shù)據(jù)集不僅包含上述類型,而且還指明了時間段。在整個分析過程中,本研究不會使用除它們之外的任何數(shù)據(jù)。
簡而言之,研究的工作包括以下幾方面。
任務(wù)(1)描述性地分析數(shù)據(jù)并勾勒出粗略的市場圖景。任務(wù)(2)向公司營銷總監(jiān)展示如何衡量這些數(shù)據(jù),并獲得其想要的結(jié)果。這包括數(shù)學(xué)建模和數(shù)據(jù)處理的步驟。任務(wù)(3)確定衡量在線評論的關(guān)鍵因素。隨著時間的推移,發(fā)現(xiàn)銷售趨勢,并確定哪種產(chǎn)品是真正“成功”或“失敗”的。任務(wù)(4)揭示原始評論和二級評級(幫助性評級)之間的關(guān)系。任務(wù)(5)將以上步驟組織成建議。
由于缺乏必要的數(shù)據(jù)和知識有限,通過以下假設(shè)來幫助我們建模和分析。這些假設(shè)將是之后分析的先決條件。
(1)明星評論和客戶評論同等重要,重要性權(quán)重不會隨著時間而改變。(2) 顧客對三種產(chǎn)品的評價模式是相似的。(3)數(shù)據(jù)真實(shí)準(zhǔn)確。
我們刪除了包含缺失值和異常值的行。經(jīng)過簡短的選擇,我們發(fā)現(xiàn)三個數(shù)據(jù)集中有缺失值和離群值的行。例如,星級理論上從1星~5星,但一些產(chǎn)品被評為0星、10星,甚至144星。對于vine和verified purchase的標(biāo)簽,應(yīng)該是yes或no。因此,我們刪除了兩者都不包含的行。與此同時,有些線條還不完整。這些行總數(shù)很小,這不會對刪除后的總體數(shù)據(jù)輸出產(chǎn)生負(fù)面影響。最后,我們得到一個過濾后的數(shù)據(jù)記錄可以分析。
在對數(shù)據(jù)進(jìn)行預(yù)處理后,我們有意地從三個元素進(jìn)行分析,如圖1所示。
從圖1可知,vine上的會員只占審稿人總數(shù)的一小部分(低于2%),這意味著高可信度的客戶很少,所以我們必須仔細(xì)推測星級評分和評論之間的關(guān)系。
我們根據(jù)不同評級的人數(shù)制定三個獨(dú)立的星級評級直方圖。
我們還考察了驗(yàn)證采購在總采購中的比例。深藍(lán)色扇區(qū)表示“N”,淺藍(lán)色表示“Y”??梢钥闯?,吹風(fēng)機(jī)和嬰兒奶嘴產(chǎn)品在質(zhì)量和服務(wù)上都是值得信賴的,通過認(rèn)證購買的產(chǎn)品占總交易量的86%,而微波爐的性能則值得懷疑,因?yàn)槲唇?jīng)認(rèn)證購買的產(chǎn)品占總交易量的30%以上。
為了幫助公司更好地了解市場,我們將客戶評價量化,并結(jié)合星級評分提出客戶滿意度模型:
總分從0~10。分?jǐn)?shù)越高,客戶滿意度越高。
建立該模型是為了計(jì)算客戶滿意度得分,使公司能夠?qū)崟r跟蹤市場情緒。
在長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)中,每個細(xì)胞都持有已記憶的值。當(dāng)我們更新當(dāng)前單元格的輸出時,還需要決定在當(dāng)前單元格中可以記錄什么。長短期記憶神經(jīng)網(wǎng)絡(luò)于1997年正式提出,包括遺忘門、輸入門、輸出門這三個結(jié)構(gòu),如圖2所示。
遺忘門決定哪些信息應(yīng)該被丟棄或保留。之前隱藏狀態(tài)的信息和當(dāng)前輸入的信息同時加載到Sigmoid函數(shù)中。輸出值在0和1之間變化。1表示“完全保留”,而0表示“完全刪除”。因此,這個函數(shù)可以決定哪些信息應(yīng)該刪除。
輸入門用于更新單元狀態(tài)。之前的門已經(jīng)決定了要做什么,我們只需要實(shí)際去做。首先,將之前隱藏的狀態(tài)信息和當(dāng)前的輸入信息輸入到Sigmoid函數(shù)中,并將輸出值調(diào)整為0~1,以決定更新哪些信息。0表示不重要,1表示重要。另一種可能的解決方法是通過函數(shù)將隱藏狀態(tài)和電腦輸入放入,壓縮到-1~1來調(diào)整網(wǎng)絡(luò),然后乘以s型門的輸出。Sigmoid函數(shù)將決定輸出中哪些信息是重要的,哪些信息需要保留。
控制Ct輸出的門稱為輸出門。一個輸出門決定下一個隱藏狀態(tài)的值,它包含關(guān)于前一個輸入的信息。隱藏狀態(tài)也可以用于預(yù)測。首先,將先前的隱藏狀態(tài)和當(dāng)前輸入到Sigmoid函數(shù)中;其次,將新得到的單位態(tài)代入Tanh函數(shù);再次,將Tanh輸出與Sigmoid輸出相乘,確定隱藏狀態(tài)應(yīng)該攜帶的信息;最后,將隱藏狀態(tài)作為當(dāng)前單元輸出,并將新的單元狀態(tài)和新的隱藏狀態(tài)傳輸?shù)较乱粋€時間。
圖1 數(shù)據(jù)分析
由于星級評分已經(jīng)是可以直接分析的數(shù)據(jù),因此,我們需要將用戶的文本進(jìn)行數(shù)據(jù)化。同樣采用長短期記憶神經(jīng)網(wǎng)絡(luò)來為顧客的評論打分,LSTM單元數(shù)至64個,分類類別至2個,并使用24500個帶有情感標(biāo)簽(0和1)的評論文本作為模型培訓(xùn)的培訓(xùn)材料。
在模型訓(xùn)練過程中,我們對不同訓(xùn)練次數(shù)下生成的模型進(jìn)行準(zhǔn)確性和反向傳播損耗的評估,如表1所示。
表1 準(zhǔn)確度評估結(jié)果
對模型進(jìn)行設(shè)置后,以嬰兒奶嘴產(chǎn)品的評論主體作為模型輸入,得到輸出,即每次評論顯示積極情緒的可能性。
然后基于顧客滿意度模型,將評價分?jǐn)?shù)代入函數(shù)中,將結(jié)果(顧客滿意度分?jǐn)?shù))分為高[6,10]、平均[3,6]、低[0-3]三個層次。在確定人數(shù)后將結(jié)果可視化。
優(yōu)點(diǎn):(1)在從評論中提取特征詞時,首先對詞的詞性進(jìn)行篩選,分別提取名詞、動詞、形容詞,然后計(jì)算這些詞出現(xiàn)的頻率,再進(jìn)行比較。再處理,如刪除無意義的介詞,極大地簡化了計(jì)算,提高了模型的效率。(2)選取LSTM模型時,收集了大量的樣本對其進(jìn)行訓(xùn)練,提高了精度。更改了模型中的參數(shù),以檢查它是否會影響輸出結(jié)果。最后,模型是穩(wěn)定的。(3)對時間序列進(jìn)行預(yù)測,使用了prophet模型。與傳統(tǒng)的時間序列預(yù)測方法(如ARIMA模型)相比,ARIMA模型通常存在適用時間序列數(shù)據(jù)量小、缺失值需要填充、靈活性差、指導(dǎo)性差的局限性。prophet模型更簡單、更靈活,解決了預(yù)測定制季節(jié)和假期效果的時間問題。
缺點(diǎn):(1)由于帶有投票的評論很少,為了簡化模型,我們沒有過多考慮有用評論數(shù)的影響,這可能會對分析造成一定的誤差。(2)雖然特征詞提取的結(jié)果有效地揭示了客戶的主要關(guān)注點(diǎn),但出現(xiàn)頻率最高的詞包含無意義詞(如baby等)。這在一定程度上是因?yàn)槟套飚a(chǎn)品是針對嬰兒的。
圖2 LSTM的網(wǎng)絡(luò)結(jié)構(gòu)