鄧新潔,唐觀根,龔禮春,吳國華
(1.杭州電子科技大學計算機學院,杭州 310018;2.杭州電子科技大學網(wǎng)絡空間安全學院,杭州 310018)
隨著互聯(lián)網(wǎng)時代的到來,網(wǎng)絡購物在生活中日益普遍。中國互聯(lián)網(wǎng)絡信息中心(CNNIC)針對中國網(wǎng)絡購物市場的調(diào)研報告顯示,中國電子商務購物市場未來3年增速將逐漸變緩,市場日漸趨于成熟。至2020年,中國網(wǎng)絡購物的市場規(guī)模最高可能達到4.2萬億元,與目前美、日、英、德四國的市場規(guī)模之和相當[1]。
與網(wǎng)絡購物日漸火熱相伴而生的,是呈指數(shù)級態(tài)勢增長的電商在線評論。在線評論是由消費者自主填寫并發(fā)布在平臺上,以文字形式傳遞商品主觀評價的文本信息,同時也是網(wǎng)絡口碑的一種重要形式。發(fā)表在電商平臺的在線評論可供消費者免費閱讀[2]。在線評論本身由已購消費者發(fā)布,對商品的潛在購買者具有重要參考意義。當下主流電子商務網(wǎng)站普遍采用將“有用性投票”及“評論發(fā)布時間”作為評論排序的指標。這類排序方式的指標選取過于片面,且并未對評論具體內(nèi)容進行篩選,容易導致低可信度或者無意義評論出現(xiàn)在靠前位置,進而擾亂消費者判斷,拉低消費者購物體驗,影響電商購物市場的良性發(fā)展。
基于此,本文從實際應用角度出發(fā),分析影響在線評論有用性的多重因素,對在線評論有用性指標進行屬性量化計算,結(jié)合模糊層次分析法建立電商在線評論排序模型,對紛繁復雜的在線評論進行重新排序,篩選出對消費者更有參考價值的評論,對消費者做出購物決策有很好的輔助作用,同時也為電商平臺的評論管理提供了一種篩選排序方法。
EK Clemons[4]等認為,消費者閱讀在線評論主要有兩個目的,分別是獲取商品相關信息及降低購買決定中的不確定性。本文基于此構(gòu)建關于評論有用性的指標體系。根據(jù)指標特征,將評論指標體系分為評論形式特征和評論內(nèi)容特征兩類。其中,形式特征是可以從網(wǎng)站直接抓取的已量化特征;內(nèi)容特征需要對評論文字部分進行文本挖掘才能獲得,又稱為語義特征。評論形式特征借鑒文獻[5]的設置方法,設置評論長度、評論時效性、有用性投票、圖片數(shù)量四項特征;評論內(nèi)容特征根據(jù)信息種類,分為商品核心信息和商品輔助信息兩類,一共包括商品屬性、物流運輸、商家服務三項特征。如圖1所示。
(1)評論形式特征
①評論長度指標反映的是評論文本內(nèi)容長短,大部分學者認為長評論一般更詳細,包含的信息更全面豐富。我們通過計算評論中包含的有效信息量來測算評論有效長度,有效信息具體表現(xiàn)為評論中包含的屬性詞和情感詞總數(shù)。
②評論的時效性指標反映了評論和閱讀者的間隔時間大小。一般來說,時間越靠近閱讀時間的評論內(nèi)容越具有參考性。同時,考慮到消費者閱讀時間的多變性,利用當前評論和初始評論發(fā)布時間差值來衡量評論的時效性。
③有用性投票指標能反映其他消費者對這條評論的認可程度。目前主流的購物網(wǎng)站,如淘寶、京東、亞馬遜等都有設置一項類似點贊的有用性反饋指標,根據(jù)網(wǎng)站不同,一些購物平臺還支持消費者對評論進行公開回復??傮w來看,獲得消費者認可的評論會獲得更多有用性投票,這代表了這些評論的具體內(nèi)容更貼近消費者需求,對消費者的決策更有幫助作用。
④評論圖片是商品信息的直觀反映,比文本信息更為直接。適量的圖片有助于消費者提高商品認知。在一定閾值范圍內(nèi)圖片數(shù)量越多代表評論所包含信息越多,對消費者做出購買判斷也更有幫助。當圖片數(shù)量超過閾值后,圖片包含的信息存在冗余,同時也會對消費者的瀏覽造成負擔。
評論形式特征可從網(wǎng)站直接抓取,獲取相對簡單,參照文獻[6]進行量化。
圖1 電商在線評論排序指標圖
(2)評論內(nèi)容特征
①核心信息由商品屬性特征詞組成,一般為名詞或名詞性短語,主要反映了商品的質(zhì)量、價格、外觀、防護四個方面的相關信息。評論文本中所含的商品屬性特征詞越多,則該評論對商品的客觀性描述更具體,與商品的相關度也更高,對其他消費者的輔助決策作用也更好。
②輔助信息由物流運輸特征詞和商家服務特征詞兩項特征組成,一般為名詞或名詞性短語。物流運輸特征詞主要反映了商品的包裝、物流兩方面信息;商家服務特征詞主要反映了商家的售前、售后服務水平。消費者在購買某一商品時會在幾家店鋪間比較,此時物流運輸和商家服務作為購物體驗的重要組成部分,也是影響消費者購買決策的影響因素。
評論內(nèi)容特征的量化需要依靠構(gòu)建對應的特征詞表。以商品屬性特征詞為例,量化需要依靠商品屬性特征詞表。當評論中出現(xiàn)商品屬性特征詞表中的詞匯時,其商品屬性特征詞數(shù)量加一。通過統(tǒng)計每條評論中商品屬性特征詞出現(xiàn)的次數(shù)來計算量化值。
本文的排序模型框架主要由以下三個步驟構(gòu)成:首先,從電商網(wǎng)站獲取初始評論數(shù)據(jù);其次,通過評論獲取特征詞表集,并對評論排序的各項指標進行信息提取和量化,生成特征矩陣;最后,借助模糊層次分析法輸出新排序。具體流程圖如圖2所示。
圖2 電商在線評論排序模型流程圖
特征詞表的提取方式有人工提取和計算機自動提取兩種方式。人工提取需要相關領域的專家手動提取,準確度高但具有工作量大,可移植性差的缺陷;計算機自動提取和人工提取相比,提取速度快,工作量小,但提取精度和人工提取存在一定差距。本文使用計算機和人工提取相結(jié)合的方式。首先從評論庫中選取一定數(shù)量的評論作為樣本評論數(shù)據(jù)集。通過去重、分詞等對樣本評論數(shù)據(jù)集進行預處理,篩選出評論中的名詞或名詞性短語,隨后利用TF-IDF確定由高頻詞匯組成的候選特征詞集。最后通過人工篩選降噪,將得到的特征詞分別歸類為商品屬性特征詞表、物流運輸特征詞表、服務態(tài)度特征詞表。
模糊層次分析法是一種將模糊數(shù)學與層析分析相結(jié)合的系統(tǒng)分析方法[7],本文選用該方法來確定權(quán)值,并基于此實現(xiàn)對評論的排序。其主要步驟如下:
(1)建立排序?qū)游鼋Y(jié)構(gòu)模型
本文采用的層次結(jié)構(gòu)模型見圖1。
(2)確定指標權(quán)重和排序
借助矩陣表達個指標相對評論排序的重要性,采用0、0.5、1標度法確定因素值。該方法有簡單易行、便于簡化矩陣計算的優(yōu)點。
(3)電商在線評論排序
量化后的各項指標在量綱和數(shù)量級上存在差異,通過無量綱化處理得到指標值T=(t1,t2,…,t6)。依次計算各條評論分值Rj,并按照分值高低實現(xiàn)評論排序。排序總分計算公式如下:
(1)數(shù)據(jù)收集及預處理
以淘寶網(wǎng)iPhone 8手機評論為例,使用Python編寫爬蟲抓取在線評論,從兩家熱銷店鋪下共抓取有效評論5312條,從中隨機選出1500條構(gòu)成樣本評論數(shù)據(jù)集。另外,在每家店鋪抓取的評論中選取前500條評論,分別作為A組和B組,作為待排序評論數(shù)據(jù)集。本文使用哈爾濱工業(yè)大學語言處理平臺(LTP)對評論逐條進行分詞和詞性標注,分析結(jié)果以XML形式導出。
(2)特征詞表的提取
對獲得的XML文件進行分析,提取出其中所有的名詞或名詞性短語,借助TF-IDF進行篩選。將選出的高頻詞匯作為候選特征詞集。經(jīng)過手工降噪和分類后,獲得商品屬性特征詞表、物流運輸特征詞表、服務態(tài)度特征詞表。
將排序模型得到的排序結(jié)果與淘寶網(wǎng)站原始排序相比較。淘寶網(wǎng)站原始評論的排序主要基于評論時間、有用性投票等便于直接量化的因素。和本文排序結(jié)果的對比可以看出,評論中其他因素尤其是評論內(nèi)容特征也會對評論有用性產(chǎn)生很大影響。從本文根據(jù)模糊層次分析法得到的權(quán)重來看,評論的屬性特征詞和情感特征詞指標權(quán)重均大于評論時間和有用性投票。這也說明,僅僅依靠易于量化的因素對評論進行排序,會導致評論排序不夠全面,一些對消費者更有幫助的評論排名下降,這也說明了網(wǎng)站的初始評論排序存在弊端。限于篇幅,此處選取測試商品中排序前15名的評論進行對比,如表2和圖3所示。
表2 網(wǎng)站默認排序與本文排序前15名名次比較
圖3 排序前15名評論排序得分比較
觀察上述結(jié)果可知,網(wǎng)站原始排序由于選取指標存在片面性,其排名靠前評論的排序得分存在較大波動,本文模型排序靠前評論的排序分值呈穩(wěn)定緩慢下降趨勢。從消費者瀏覽效的角度來看,淘寶網(wǎng)站的排序存在一定缺陷,排名靠前的評論有用性差異較大,一些包含豐富信息的評論被排在后面。本文模型對評論進行重新排序,將排序得分高的評論排在前面,這些評論往往信息量豐富,對消費者做出潛在購物判斷更有幫助。
電商在線評論排序模型是有關提升消費者購物體驗,提高購物效率有輔助作用的研究,也是在線評論有用性領域研究的重要組成部分。本文從評論形式特征和內(nèi)容特征兩方面進行分析,將評論內(nèi)容特征分為核心信息和輔助信息兩類,綜合考慮了物流運輸、商家態(tài)度等因素。結(jié)合TF-IDF算法對影響在線評論有用性的7項指標進行分析和量化,結(jié)合模糊層次分析法建立排序模型。選擇淘寶網(wǎng)iPhone 8手機的在線評論作為研究對象,驗證了該排序模型的有效性。該模型能對特定商品的在線評論進行全面的篩選,縮短了消費者篩選有效評論信息的時間,能輔助消費者做出購物決策。
同時本文也存在一些局限,電子商務網(wǎng)站中存在相當數(shù)量的追加評論,這些評論和初次填寫有一定的時間間隔,內(nèi)容往往反映了評論使用商品一段時間后的新的體驗,是重要的排序判斷依據(jù)。依靠句法依存關系提取的屬性特征詞表對網(wǎng)絡新詞匯的識別容易出現(xiàn)誤判。這些也是筆者后續(xù)進一步的研究方向。