董敏+王琨
摘 要:隨著Web3.0的迅速發(fā)展,人們無論在生活上還是工作中,對(duì)電子商務(wù)的依賴性都不斷的增強(qiáng)。因此用戶在電子商務(wù)平臺(tái)中對(duì)商品的選擇上,很大程度上依賴于該商品的用戶評(píng)價(jià)。對(duì)于商家來說,在投資產(chǎn)品時(shí)也依賴于用戶對(duì)該商品的評(píng)價(jià)等級(jí),因此如何建立電子商務(wù)平臺(tái)中產(chǎn)品的用戶評(píng)價(jià)分析模型,為用戶和商家提供可靠的決策依據(jù)有著重要的作用。本文主要是基于語義分析的模型,采取VSM來得到用戶評(píng)價(jià)總體情感傾向。
關(guān)鍵詞:電子商務(wù);語義分析;情感分析;VSM
一、引言
對(duì)于電子商務(wù)平臺(tái)中產(chǎn)品的用戶等級(jí)分析,通常都是采用對(duì)本文情感分析技術(shù)要進(jìn)行實(shí)現(xiàn)。文本的情感分析可以稱作為情感的傾向性計(jì)算,主要是對(duì)用戶的產(chǎn)品、服務(wù)、組織機(jī)構(gòu)和事件等進(jìn)行實(shí)時(shí)性評(píng)價(jià)分析。當(dāng)前對(duì)于文本的情感分析是一門較為新興的技術(shù)領(lǐng)域,其目的是利用機(jī)器人來對(duì)互聯(lián)網(wǎng)的文本信息進(jìn)行采集后的數(shù)據(jù),通過情感分析來對(duì)用戶發(fā)表信息時(shí)的情感心態(tài)。在電子商務(wù)領(lǐng)域則是體現(xiàn)在對(duì)用戶關(guān)注的產(chǎn)品的情感等級(jí)的分析,從而對(duì)產(chǎn)品操作得到可信的據(jù)測性依據(jù)。
二、電子商務(wù)產(chǎn)品用戶評(píng)價(jià)情感分析現(xiàn)狀
本文的情感分析技術(shù)早在上世紀(jì)90年代就有許多研究人員開始進(jìn)行初步的嘗試研究,并根據(jù)市場的實(shí)際需求建立起相關(guān)的產(chǎn)品和應(yīng)用。
哈爾濱工業(yè)大學(xué)對(duì)互聯(lián)網(wǎng)情感分析現(xiàn)狀和動(dòng)態(tài)進(jìn)行調(diào)研、挖掘和探究,提出現(xiàn)有的情感分析中存在的問題,通過對(duì)這些問題的闡述和探討,提出在情感分析領(lǐng)域未來的主要研究方向和目標(biāo)。同濟(jì)大學(xué)也以新浪微博的平臺(tái),對(duì)動(dòng)車事故網(wǎng)友發(fā)表的微博和評(píng)論進(jìn)行用戶情感分析,他們提出了微博中的六種情感類別,并據(jù)此建立了情感分析模型,研究微博文本的影響力和計(jì)算網(wǎng)友情感的技術(shù)和方法,對(duì)該事故之后的公共的情感進(jìn)行了分析和探討。清華大學(xué)的謝麗星等多人研究了基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征提出的方法。他們通過SVM的監(jiān)督學(xué)習(xí)實(shí)驗(yàn),對(duì)主題的識(shí)別和文本的情感傾向分析取得了不錯(cuò)的效果。
目前對(duì)于電子商務(wù)平臺(tái)的文本情感分析,還沒有出現(xiàn)較為系統(tǒng)的研究成果,不過根據(jù)市場的需要,也出現(xiàn)一些比價(jià)平臺(tái),通過對(duì)多個(gè)主流電子商務(wù)平臺(tái)的各項(xiàng)數(shù)據(jù)采集,特別是對(duì)于價(jià)格、用戶評(píng)價(jià),特別是對(duì)與好評(píng)和差評(píng)信息進(jìn)行動(dòng)態(tài)采集,形成一個(gè)多個(gè)電子商務(wù)平臺(tái)的價(jià)格對(duì)比,以引導(dǎo)用戶選擇高性價(jià)比的產(chǎn)品。比如,國內(nèi)的慢慢買、盒子比價(jià)網(wǎng)、瑯瑯比價(jià)網(wǎng)等,提供國內(nèi)外多個(gè)電子商務(wù)平臺(tái)的商品信息的價(jià)格和用戶評(píng)價(jià)的對(duì)比。
三、電子商務(wù)產(chǎn)品用戶評(píng)價(jià)分析算法研究
1.用戶評(píng)價(jià)信息的獲取
對(duì)于用戶評(píng)價(jià)信息的獲取,主要利用網(wǎng)絡(luò)爬蟲來進(jìn)行采集。因此可以設(shè)計(jì)一個(gè)基于電子商務(wù)平臺(tái)的主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)。由于一般的電子商務(wù)平臺(tái)的商品評(píng)價(jià)頁面都是動(dòng)態(tài)呈現(xiàn)的,因此如何解決對(duì)用戶評(píng)價(jià)的數(shù)據(jù)更新是設(shè)計(jì)該主題網(wǎng)絡(luò)爬蟲的技術(shù)關(guān)鍵。
對(duì)于動(dòng)態(tài)網(wǎng)站的數(shù)據(jù)采集,可以建立索引空間,采用哈希表的形式將用戶評(píng)價(jià)信息建立動(dòng)態(tài)索引,利用哈希查找算法,提高采集中查找的效率,從而實(shí)現(xiàn)對(duì)動(dòng)態(tài)用戶評(píng)價(jià)信息的采集。
由于目前各類型電子商務(wù)平臺(tái)眾多,如果需要多全平臺(tái)的產(chǎn)品用戶評(píng)價(jià)信息進(jìn)行采集,就需要較大的存儲(chǔ)空間和處理器,因此可以利用云計(jì)算平臺(tái)來建立云爬蟲,利用云計(jì)算的高計(jì)算、大存儲(chǔ)和高帶寬網(wǎng)絡(luò)的優(yōu)點(diǎn)實(shí)現(xiàn)大數(shù)據(jù)的用戶評(píng)價(jià)信息的采集,也為后續(xù)的情感分析提供龐大的數(shù)據(jù)集。
2.用戶評(píng)價(jià)信息的特征詞處理技術(shù)分析
特征詞的提出主要分為:文本切詞、文本去重和特征詞提取三個(gè)步驟。
文本切詞:將一段詞語獨(dú)立切分為多個(gè)獨(dú)立的詞語,這是文本特征詞處理的基礎(chǔ)技術(shù)。當(dāng)前分詞算法有字符串匹配算法、基于理解的算法和基于自動(dòng)學(xué)習(xí)的算法等。
字符串匹配算法是最為常見的算法之一,其特點(diǎn)是實(shí)現(xiàn)簡單,詞語的匹配精度性較高。可以建立和維護(hù)字符串庫,實(shí)現(xiàn)不斷的自我更新和自我學(xué)習(xí)。具體的匹配過程是,對(duì)文本進(jìn)行逐一分解后,通過對(duì)出現(xiàn)在字符串中的本文塊,則匹配成功。為了提高匹配的準(zhǔn)確性,可以使用正向最大匹配、逆向最大匹配和雙向最大匹配等方法。
文本去重:對(duì)于本文切詞后,會(huì)存在許多重復(fù)的詞語,這就需要進(jìn)行對(duì)切詞后的重復(fù)短語進(jìn)行去重處理。這里主要是研究使用布隆過濾器(Bloom Filter)來進(jìn)行對(duì)文本的去重處理。布隆過濾器是上世紀(jì)70年代Howard Bloom提出來的一種二進(jìn)制向量數(shù)據(jù)結(jié)構(gòu),它可以很好的利用空間和時(shí)間效率,來驗(yàn)證一個(gè)元素在集合中是否重復(fù)出現(xiàn)。
Bloom Filter的去重原理是:位數(shù)組K個(gè)獨(dú)立HASH函數(shù)。將HASH函數(shù)對(duì)應(yīng)的值的位數(shù)組置1,查找時(shí)如果發(fā)現(xiàn)所有HASH函數(shù)對(duì)應(yīng)位都是1說明存在,很明顯這個(gè)過程并不保證查找的結(jié)果是100%正確的。同時(shí)也不支持刪除一個(gè)已經(jīng)插入的關(guān)鍵字,因?yàn)樵撽P(guān)鍵字對(duì)應(yīng)的位會(huì)牽動(dòng)到其他的關(guān)鍵字。所以一個(gè)簡單的改進(jìn)就是counting Bloom filter,用一個(gè)counter數(shù)組代替位數(shù)組,就可以支持刪除了。
特征詞提取:文本的特征詞提出主要是選取文本中的特征項(xiàng),當(dāng)前的提取方法比較多,最為常見的是文檔詞頻提取法,也稱作為DF。DF是指在整個(gè)文本詞語集中,包含了所指定的某個(gè)或多個(gè)特征項(xiàng),其計(jì)算公式為:
在計(jì)算公式中,DF(t)是指所包含的特征項(xiàng)t的詞頻率,通過使用文檔詞頻提取法可以對(duì)每個(gè)特征項(xiàng)在整個(gè)文本出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),再根據(jù)設(shè)定的特征項(xiàng)設(shè)定的閾值,去掉一些小于閾值的特征項(xiàng),進(jìn)而從采集的文本中提取出所需的特征值。在電子商務(wù)平臺(tái)中的用戶評(píng)價(jià)信息,主要是對(duì)用戶評(píng)價(jià)信息分詞后,提取出用戶用于產(chǎn)品的評(píng)價(jià)特征項(xiàng),對(duì)產(chǎn)品的優(yōu)良、好壞進(jìn)行特征項(xiàng)的分析。
3.基于VSM技術(shù)的用戶評(píng)價(jià)信息的情感分析
對(duì)于電子商務(wù)平臺(tái)中用戶評(píng)價(jià)信息,經(jīng)過采集、切詞、特征值的提取和去重操作后,就剩下對(duì)處理后短語進(jìn)行情感分析,也就是信息相似度的計(jì)算。對(duì)于目前來說信息相似度技術(shù)較為成熟的就是向量空間模型技術(shù)(VSM),該中技術(shù)就是把兩個(gè)文本短語簡化為向量運(yùn)算,通過計(jì)算向量之間的相似度來衡量文本短語之間的相似度。
本文研究的電子商務(wù)平臺(tái)用戶評(píng)價(jià)研究的VSM情感分析過程如下:
(1)預(yù)處理,先對(duì)采集的用戶評(píng)價(jià)文本進(jìn)行中英文切詞,并過濾所有停用詞。
(2)對(duì)用戶評(píng)價(jià)文本中的分詞短語的關(guān)鍵詞進(jìn)行選擇與加權(quán),對(duì)用戶評(píng)價(jià)文本中若干個(gè)關(guān)鍵詞進(jìn)行頻度的計(jì)算。
(3)通過把兩個(gè)處理后的短語建立向量空間模型、求出向量空間中的余弦值。對(duì)于建立向量空間模型的方法就是把短語簡化為關(guān)鍵詞的權(quán)重為分量的N維向量來進(jìn)行表示。對(duì)于D1和D2兩個(gè)文本來說,要求的之間的相似度Sim(D1,D2),其余弦公式為:■,其中W1k和W2k分別表示D1和D2兩個(gè)短語第k(1<=k<=n)個(gè)關(guān)鍵字的權(quán)值。
(4)如果所求的兩個(gè)用戶評(píng)價(jià)文本的余弦值大于所設(shè)定的閾值,那么就說明這兩個(gè)短語是相似的,否則說明該個(gè)短語與評(píng)價(jià)信息并不相似。
經(jīng)過對(duì)所有切詞后的短語進(jìn)行相似度計(jì)算后,得出的余弦值與事先設(shè)定好的閾值進(jìn)行比較后,作為用戶評(píng)價(jià)情感傾向度分析的評(píng)價(jià)標(biāo)準(zhǔn),通過把所有評(píng)價(jià)中的文本短語進(jìn)行計(jì)算后,就可以判斷用戶評(píng)價(jià)對(duì)于商品的情感,也就可以作為對(duì)該商品的評(píng)價(jià)等級(jí)。對(duì)于設(shè)置的閾值可以在分析過程中,通過對(duì)詞語出現(xiàn)的頻度來不斷的進(jìn)行調(diào)整,實(shí)現(xiàn)自我學(xué)習(xí)的能力,從而進(jìn)一步的提高用戶評(píng)價(jià)情感傾向度分析的準(zhǔn)確性。
四、總結(jié)
綜上所述,對(duì)于電子商務(wù)平臺(tái)的用戶評(píng)價(jià)信息的分析中,主要是采取了SVM方法進(jìn)行分析,通過信息的采集、特征項(xiàng)的提取和情感的分析等來對(duì)產(chǎn)品的評(píng)價(jià)進(jìn)行分析,為用戶和商家提供決策上的有效依據(jù)。但是由于目前電子商務(wù)平臺(tái)的迅速的發(fā)展,各類電子商務(wù)信息量巨大,如何提高對(duì)用戶評(píng)價(jià)的采集效率,切詞的合理性和對(duì)用戶評(píng)價(jià)信息情感分析的準(zhǔn)確度方面,還需要進(jìn)一步提高研究的深度和廣度。
因此下一步的研究方向是如何把本文研究的分析平臺(tái)和當(dāng)前主流的云計(jì)算平臺(tái)相結(jié)合,依托云計(jì)算平臺(tái)的高計(jì)算能力、高可靠性和高存儲(chǔ)性等眾多優(yōu)點(diǎn)。進(jìn)一步的提高分析平臺(tái)的工作效率和對(duì)用戶評(píng)價(jià)的情感傾向度的分析能力。
參考文獻(xiàn):
[1]張冬雯,崔志超,許云峰.電子商務(wù)產(chǎn)品評(píng)論多級(jí)情感分析的研究構(gòu)架[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2013-09.
[2]楊彪.面向電子商務(wù)的評(píng)論文本情感分析研究[D].重慶交通大學(xué),2014-04.
[3]田金靈.B2C電子商務(wù)中情感因素與顧客滿意及購買行為的關(guān)系[J].湖南工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2013-08.
[4]嚴(yán)建援,張麗,張蕾.電子商務(wù)中在線評(píng)論內(nèi)容對(duì)評(píng)論有用性影響的實(shí)證研究[J].情報(bào)科學(xué),2012-05.
[5]游貴榮,吳為,錢沄濤.電子商務(wù)中垃圾評(píng)論檢測的特征提取方法[J].現(xiàn)代圖書情報(bào)技術(shù),2014-10.