李金海+何有世
摘要:通過將研究分解成三個子任務(wù),對網(wǎng)絡(luò)數(shù)據(jù)從運(yùn)用PageRank與TrustRank剔除作弊網(wǎng)頁開始;借助結(jié)合網(wǎng)頁間主題相關(guān)度、時(shí)間差以及在線評論比例的權(quán)重的TCPageRank算法,提煉與產(chǎn)品主題高度相關(guān)并包含大量在線評論數(shù)據(jù)的網(wǎng)頁集;最后考慮了網(wǎng)頁與產(chǎn)品主題的相似度以及網(wǎng)頁的鏈接增幅對網(wǎng)頁權(quán)威性的影響,運(yùn)用改進(jìn)的HITS算法,確定在線評論分析數(shù)據(jù)來源的權(quán)威網(wǎng)頁集;而基于MapReduce的矩陣分塊運(yùn)算,降低了算法時(shí)空的復(fù)雜度。并通過仿真實(shí)驗(yàn)驗(yàn)證了該方法的可行性與準(zhǔn)確性。
關(guān)鍵詞:在線評論;PageRank;主題漂移;鏈接增幅
DOI:10.13956/j.ss.1001-8409.2015.04.21
中圖分類號:F71355 文獻(xiàn)標(biāo)識碼:A 文章編號:1001-8409(2015)04-0094-06
Analysis of Reliability Data Source on Online Reviews Information Mining
LI Jinhai, HE Youshi
(School of Management, Jiangsu University, Zhenjiang 212013
)
Abstract:Through resolve the research into three subtasks, starting from operation PageRank and Trust Rank eliminate cheating page of network. Refining web page of high topic relevance by TCPageRank combined topic relevancy between web pages and weight of time difference and reviews on web page. Finally, thought of similarity between page and topic of product and amplification of page have the influence on the web authority, determine the authority of the web page of online review analysis data source by the improved HITS. The partitioning of matrix operation based on Map Reduce, reduces the time and space complexity of the algorithm. And through the simulation experiments it verifies the feasibility and accuracy of the method.
Key words:online reviews; PageRank; topic drift; amplification of page
引言
據(jù)CNNIC報(bào)告,2013年我國新增網(wǎng)民5千萬人,互聯(lián)網(wǎng)普及率近46%,處于世界平均水平之上,其中網(wǎng)絡(luò)購物人數(shù)占網(wǎng)民的50%,中國預(yù)計(jì)將于2015年成為全球最大的網(wǎng)購市場[1]。
網(wǎng)絡(luò)購物的劣勢在于無法親自感受商品,因此越來越多的網(wǎng)購者通過瀏覽大量的在線評論來了解產(chǎn)品以及服務(wù)的口碑,依此作出可靠的決策[2]。
但是面對海量評論,消費(fèi)者無法快速辨別和利用有價(jià)值的信息來作出正確的決策。因此針對在線評論挖掘的研究被學(xué)者們所關(guān)注,Senecal等認(rèn)為在線評論影響消費(fèi)者的購買決定[3]。Popescuam等將在線評論挖掘細(xì)分為4個子任務(wù):特征抽取、觀點(diǎn)抽取、極性判斷、結(jié)果的匯總[4]。廖成林等借助亞馬遜商城的樣本進(jìn)行實(shí)證研究,分析了在線評論有用性的影響因素以及各影響因素之間的作用機(jī)制[5]。龔艷萍基于ELM視角構(gòu)建了消費(fèi)者處理在線評論的雙重路徑模型,并探討了在線評論的屬性對消費(fèi)者采用新技術(shù)產(chǎn)品意愿的影響機(jī)理[6]。
目前關(guān)于在線評論的研究集中于評論內(nèi)容挖掘模型以及評論有用性的研究,鮮有學(xué)者關(guān)注在線評論數(shù)據(jù)來源可靠性的研究,而可靠數(shù)據(jù)的獲取是研究的基礎(chǔ)也是關(guān)鍵的一步。
1可靠在線評論數(shù)據(jù)源的挖掘流程
若要在海量的網(wǎng)絡(luò)數(shù)據(jù)中獲得可靠的評論數(shù)據(jù),除了優(yōu)秀的網(wǎng)頁采集工具外,確定所要采集的數(shù)據(jù)來源是關(guān)鍵。傳統(tǒng)的用于在線評論分析的數(shù)據(jù)大多數(shù)來自購物網(wǎng)站,這些數(shù)據(jù)來源的優(yōu)勢在于分類明確、內(nèi)容精簡。這些評論數(shù)據(jù)可以應(yīng)付簡單的在線評論的特征挖掘,但是短文本的劣勢在于句式不完整,缺乏作者主觀情感的表達(dá),不利于評論的情感分析,而在線評論信息的有效挖掘不僅是對產(chǎn)品特征的提取,更是對作者情感傾向的分析,缺乏情感表達(dá)的在線評論對于消費(fèi)者的購買決策不能產(chǎn)生決定性的影響。
因此挖掘網(wǎng)絡(luò)中除了購物平臺之外的在線評論具有必要性,使對在線評論研究的數(shù)據(jù)源不再局限于購物平臺,擴(kuò)大在線評論領(lǐng)域的研究邊界。也可以為其他領(lǐng)域研究的數(shù)據(jù)來源確定提供可行的思路。
本文將從海量網(wǎng)絡(luò)數(shù)據(jù)中確定的可靠的在線評論數(shù)據(jù)來源分為三個子任務(wù),如圖1所示,其中A、B、C是與產(chǎn)品主題相關(guān)的網(wǎng)頁集合,首先辨別可靠網(wǎng)站A、B、C、D,其次從可靠的網(wǎng)站中提煉出與所需分析產(chǎn)品相關(guān)的主題網(wǎng)站A、B、C,最后從主題網(wǎng)站中確定當(dāng)中的權(quán)威網(wǎng)站A作為在線評論分析的數(shù)據(jù)來源。
任務(wù)1需要使用的算法是PageRank,任務(wù)2需要使用的算法是TCPageRank,任務(wù)3使用的算法是HITS。
2關(guān)鍵算法的流程
21PageRank算法及改進(jìn)
PageRank算法是谷歌搜索取得成功的關(guān)鍵技術(shù),是對網(wǎng)頁重要性進(jìn)行排序的一種方法[7]。但是在經(jīng)濟(jì)利益的驅(qū)使下,作弊者基于鏈接作弊等手段欺騙PageRank以改變作弊網(wǎng)站的重要性,使得通過傳統(tǒng)PageRank并不能得到滿意結(jié)果。PageRank表示如下:
v′=βMv+(1-β)e/n(1)
將PageRank以向量的形式表示,利于海量節(jié)點(diǎn)數(shù)的網(wǎng)頁的PR值計(jì)算,其中β(0<β<1)為阻尼系數(shù),通常取值085,M為轉(zhuǎn)移矩陣,v為本次迭代中所有節(jié)點(diǎn)的PR值組成的向量,n為所有節(jié)點(diǎn)的總量,e為n維單位列向量。
為了解決鏈接作弊,辨別網(wǎng)絡(luò)中的可靠網(wǎng)站,在任務(wù)1中引入TrustRank對PageRank加以改進(jìn),TrustRank是面向主題的PageRank的變形,這里的“主題”不是網(wǎng)頁內(nèi)容主題,而是一個可靠的網(wǎng)頁集。TrustRank可以避免鏈接作弊的思想,作弊網(wǎng)頁可以自動鏈向可靠網(wǎng)頁,但是可靠網(wǎng)頁不會鏈向作弊網(wǎng)頁,因此算法迭代的第一步設(shè)定隨機(jī)跳轉(zhuǎn)集合時(shí)需選擇一個可靠的網(wǎng)頁集。
改進(jìn)的PageRank的流程是:①計(jì)算傳統(tǒng)的PR值r;②計(jì)算TR值t;③設(shè)定一個閥值。
l1=(r-t)/rl1>05作弊網(wǎng)頁l1≤05正常網(wǎng)頁 (2)
l1表達(dá)的是網(wǎng)頁P(yáng)R值中屬于垃圾的比例。這樣就可以在任務(wù)1中去掉那些具有較高垃圾質(zhì)量的作弊網(wǎng)頁。
22TCPageRank算法及改進(jìn)
從式(1)中看出,由于PageRank僅利用網(wǎng)絡(luò)的鏈接結(jié)構(gòu)進(jìn)行排序,使得該算法存在主題漂移以及偏重舊網(wǎng)頁的缺點(diǎn)[8]。因此任務(wù)1中得到的網(wǎng)頁集雖然很大程度上排除了作弊網(wǎng)頁,但總量仍然過大,且存在大量非相關(guān)的網(wǎng)頁,產(chǎn)品的更新?lián)Q代對評論的新鮮度提出了要求,所以應(yīng)剔除過時(shí)的評論或減少它們的影響。
但并不是所有的網(wǎng)頁都含有在線評論的內(nèi)容,因此還需要辨別網(wǎng)頁中含有在線評論的比例,這主要通過衡量網(wǎng)頁中產(chǎn)品特征詞及情感詞占整個網(wǎng)頁特征詞的比例來賦予網(wǎng)頁不同的影響權(quán)重。
根據(jù)網(wǎng)頁主題的相關(guān)度來分配權(quán)重可以有效解決主題漂移問題[9],網(wǎng)頁主題的相關(guān)度通過向量空間模型計(jì)算,設(shè)網(wǎng)頁u和v的文檔向量形式:
U=u1,u2,…,um,V=v1,v2,…,vm
其中ui和vi表示特征詞i在各自網(wǎng)頁中的指標(biāo)值,通過TF.IDF計(jì)算:
w(v,u)=U·VU×V=∑mi=1uivi∑mi=1u2i∑mi=1v2i(3)
并用W(c)表示網(wǎng)頁v在網(wǎng)頁u所有出鏈中所占的權(quán)重,其中F(u)表示u的所有出鏈。
W(c)=W(v,u)∑p∈F(u)W(p,u) (4)
針對偏重舊網(wǎng)頁的問題,也通過降低權(quán)重的思想來降低舊網(wǎng)頁的主題相關(guān)度,假定網(wǎng)頁搜索到的時(shí)間t1與其最近一次更新時(shí)間t2的差值越大,則網(wǎng)頁主題相關(guān)度越低,引入時(shí)間差的權(quán)重函數(shù)W(t):
Wt=dt1-t2 (5)
可以看出,時(shí)間差與權(quán)重成反比,其中d為根據(jù)實(shí)際產(chǎn)品設(shè)定的常數(shù)。
在此基礎(chǔ)上,添加網(wǎng)頁的在線評論比例權(quán)重,對網(wǎng)頁文檔中產(chǎn)品屬性特征詞的挖掘采用的是Apriori算法,并且結(jié)合了依存句法分析來提高挖掘精度;在線評論中情感詞往往是對產(chǎn)品屬性特征詞的評價(jià),本文基于HowNet的情感本體庫采用模板和距離的方法來提取網(wǎng)頁中評論的情感詞,該方法的優(yōu)勢在于:①模板匹配的速度較快;②在線評論的文本不同于企業(yè)發(fā)布的產(chǎn)品信息,具有不規(guī)范性,而該方法對文本的規(guī)范化要求較小。
若網(wǎng)頁v的文檔向量形式是V=v1,v2,…,vm,共有特征詞m個,設(shè)v經(jīng)過統(tǒng)計(jì)的產(chǎn)品特征詞有i個,情感詞有j個,則v含有在線評論的權(quán)重:
W(v)=i+jm-(i+j)m(6)
W(z)=W(c)∑p∈F(u)W(p) (7)
考慮到每個網(wǎng)頁含有的文本內(nèi)容總量不同,式(6)、式(7)保證了含有大量文本內(nèi)容同時(shí)含有大量在線評論的網(wǎng)頁可以獲得更高的權(quán)重。加入時(shí)間差與評論數(shù)據(jù)比例的權(quán)重函數(shù)的TCPageRank如下:
v′=βMv×W(c)×W(t)×W(z)+(1-β)e/n(8)
設(shè)定閥值l2,網(wǎng)頁的TC-PR值大于等于l2的判定為與產(chǎn)品主題高度相關(guān)的網(wǎng)頁。
23HITS算法及改進(jìn)
HITS算法與PageRank算法的區(qū)別在于,PageRank將網(wǎng)頁看成只有一維的重要性,而HITS將網(wǎng)頁看成具有二維的重要性。任務(wù)3的作用是從已確定的海量主題網(wǎng)站中提取一定量的權(quán)威網(wǎng)站作為在線評論數(shù)據(jù)挖掘的來源。
HITS是WEB結(jié)構(gòu)挖掘算法,通過分析網(wǎng)頁間的鏈接關(guān)系,找出其中的權(quán)威網(wǎng)頁[10]。但在構(gòu)建WEB鄰接圖時(shí),根集是與主題相關(guān)的,而基集的擴(kuò)展只考慮了與根集的鏈接情況,忽略了主題相關(guān)性,會引入大量與主題相關(guān)度不大的網(wǎng)頁,這樣最后得到的權(quán)威網(wǎng)頁并不是需要的。基于TC-PageRank的思想,在基集擴(kuò)展過程中加入網(wǎng)頁主題的判斷,使得選入基集的網(wǎng)頁是與主題高度相關(guān)的。
考慮到網(wǎng)購產(chǎn)品更新?lián)Q代較快,關(guān)于產(chǎn)品的在線評論相應(yīng)地也需要最新的。但是新的在線評論網(wǎng)頁與其他網(wǎng)頁之間的鏈接較少,使得權(quán)威值較小。本文認(rèn)為權(quán)威網(wǎng)頁的確定不僅需要考慮鏈接數(shù)量,也需要考慮網(wǎng)頁的鏈接增幅情況,若一個網(wǎng)頁的鏈接數(shù)快速增長,說明它具有一定的參考性?;谏鲜鰞牲c(diǎn)改進(jìn),提出一種混合頁面相似度和鏈接增幅的HITS算法。
將產(chǎn)品主題和網(wǎng)頁內(nèi)容用向量表示,產(chǎn)品主題t=t1,t2,…,tn。改進(jìn)后的HITS在選取以及擴(kuò)展根集R時(shí),除了考慮網(wǎng)頁之間的鏈接關(guān)系,還要將網(wǎng)頁p與產(chǎn)品主題進(jìn)行相似度計(jì)算,若相似度小于閥值l3,過濾網(wǎng)頁p;在此基礎(chǔ)上,計(jì)算權(quán)威值。
相似度的計(jì)算是把每個網(wǎng)頁p表示成向量形式:
其中λ、μ是權(quán)重因子,用于平衡網(wǎng)頁主題相關(guān)性和網(wǎng)頁鏈接增幅對網(wǎng)頁的影響,LT是鏈接矩陣L的轉(zhuǎn)置矩陣,即若存在網(wǎng)頁j到i的鏈接,則LTij=1,否則LTij=0,設(shè)定閥值l4,權(quán)威值a≥l4的網(wǎng)頁確定為與產(chǎn)品主題相關(guān)的權(quán)威網(wǎng)頁。
3實(shí)驗(yàn)仿真
本文以百度搜索引擎作為實(shí)驗(yàn)數(shù)據(jù)來源,以手機(jī)、電腦、筆記本、相機(jī)作為產(chǎn)品主題,通過運(yùn)用上述方法確定用于在線評論信息挖掘分析的可靠數(shù)據(jù)來源。
用網(wǎng)絡(luò)爬蟲在百度上采集實(shí)驗(yàn)設(shè)定產(chǎn)品主題的網(wǎng)頁,以采集到10萬個網(wǎng)頁為停止條件。數(shù)據(jù)采集完后,進(jìn)行網(wǎng)頁預(yù)處理、文本預(yù)處理等操作后,將所需數(shù)據(jù)輸入計(jì)算模塊。如圖2所示。
31實(shí)驗(yàn)數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)網(wǎng)頁集是在百度搜索引擎上基于產(chǎn)品主題采集來的,其中包括百度推廣、廣告等大量的噪聲信息,網(wǎng)頁預(yù)處理用于清洗此類網(wǎng)頁,清洗后的網(wǎng)頁數(shù)為9萬個;而文本預(yù)處理是為了建立網(wǎng)頁的特征詞向量,以及通過網(wǎng)絡(luò)日志,記錄下網(wǎng)頁被搜索到的時(shí)間t1與其最近一次被更新時(shí)間t2的差值及兩次搜索間網(wǎng)頁鏈接的增幅情況等。
網(wǎng)頁預(yù)處理的下一步是統(tǒng)計(jì)網(wǎng)頁的前向與后向鏈接,建立轉(zhuǎn)移矩陣M,維數(shù)為90000×90000,部分轉(zhuǎn)移矩陣:
32基于MapReduce的矩陣計(jì)算
實(shí)驗(yàn)中的矩陣計(jì)算選擇MapReduce[11],是因?yàn)镻ageRank等算法的迭代次數(shù)較多,時(shí)空復(fù)雜度較大,而基于MapReduce的矩陣運(yùn)算,可以通過矩陣分塊,減少迭代次數(shù),從時(shí)間與空間上都能得到性能的提升。
針對式(1),向量v表示所有網(wǎng)頁的PR值,本次實(shí)驗(yàn)中v的維數(shù)只有9萬,但是系統(tǒng)的實(shí)現(xiàn)是在整個WEB環(huán)境下的,這時(shí)v的維數(shù)是數(shù)以億計(jì)的,向量v是無法直接放入內(nèi)存的,而且基于效率考慮,轉(zhuǎn)移矩陣M按列存儲,M的每一列都會與v′的每一分量有關(guān),這時(shí)當(dāng)向v′的某一分量添加某一項(xiàng)時(shí),v′的分量未存儲在內(nèi)存中,導(dǎo)致添加某一項(xiàng)時(shí)需要將頁面轉(zhuǎn)換到內(nèi)存之后才能完成,這就造成了內(nèi)存抖動使計(jì)算時(shí)間呈數(shù)量級的增長。
基于此,本文將轉(zhuǎn)移矩陣M分為k2塊,向量v分為k塊,分塊方法如圖3所示。
圖3矩陣分塊示意圖
依據(jù)M的分塊數(shù),設(shè)定k2個Map任務(wù),每個Map任務(wù)處理轉(zhuǎn)移矩陣M中的一塊Mij與向量v的一塊vj,其中v的每塊vj輸入給k個不同的處理Mij(i=1,2,…,k)的Map任務(wù),在處理Mij時(shí)將vj與vj′保留在內(nèi)存中,Mij與vj生產(chǎn)的所有項(xiàng)只用于vj′的計(jì)算。因此v會在算法中輸入k次,M中的每塊只輸入一次,而向量v相對于轉(zhuǎn)移矩陣M的大小是可以忽略不計(jì)的,這極大地降低了算法的復(fù)雜度。而且由于Map任務(wù)進(jìn)行了多次組合操作,Map任務(wù)輸出給Reduce任務(wù)的數(shù)據(jù)規(guī)模也被縮減了。
33實(shí)驗(yàn)仿真步驟與結(jié)果
采用10臺Intel酷睿i5四核,內(nèi)存4G的PC通過100M/s交換機(jī)互聯(lián),搭建分布式環(huán)境。其中設(shè)定迭代收斂的條件為某節(jié)點(diǎn)的PR值之差小于等于10-6。設(shè)定任務(wù)1中檢測作弊網(wǎng)頁的閥值l1=05,初始化向量v=(1,1,…,1)T,即迭代開始時(shí)每個網(wǎng)頁的PageRank值為1;任務(wù)2中判定與產(chǎn)品主題相關(guān)的閥值l2=2;任務(wù)3中權(quán)重因子λ=08、μ=02,構(gòu)建WEB鄰接圖時(shí)的閥值l3=01,用于確定權(quán)威網(wǎng)頁的閥值l4=4。
為了驗(yàn)證本文所提改進(jìn)方法的有效性,先對改進(jìn)算法精確度進(jìn)行驗(yàn)證,通過實(shí)驗(yàn)網(wǎng)頁集經(jīng)過傳統(tǒng)的PageRank計(jì)算得到的PR值和經(jīng)過改進(jìn)的PageRank計(jì)算得到的PR值,分別與Google給出的PR值進(jìn)行比較,如圖4所示,橫坐標(biāo)表示9萬個網(wǎng)頁在經(jīng)過傳統(tǒng)和改進(jìn)的PageRank計(jì)算得到的PR值與Google 的PR值的差值,縱坐標(biāo)則表示網(wǎng)頁個數(shù)。
由圖4可以看出,經(jīng)改進(jìn)的PageRank計(jì)算得到的PR值較傳統(tǒng)PageRank計(jì)算得到的PR值更加接近權(quán)威的Google PR值,其中PR值相同或較接近的網(wǎng)頁中,改進(jìn)的PageRank的網(wǎng)頁明顯多于傳統(tǒng)PageRank的網(wǎng)頁;PR值相差較大的網(wǎng)頁中,傳統(tǒng)PageRank明顯多于改進(jìn)的PageRank;并且經(jīng)過傳統(tǒng)PageRank計(jì)算的9萬個網(wǎng)頁的PR值與Google PR值的平均差值為309,而經(jīng)過改進(jìn)的PageRank計(jì)算的PR值與Google PR值的平均差值只有125,誤差減小了595%。
再進(jìn)行時(shí)間復(fù)雜度的對比分析,三個子任務(wù)中都包含矩陣的計(jì)算,其中以任務(wù)2涉及的矩陣運(yùn)算最多,以改進(jìn)的TC-PageRank在傳統(tǒng)的運(yùn)算與基于MapReduce的矩陣運(yùn)算條件下,根據(jù)既定的迭代收斂條件,在不同的網(wǎng)頁集數(shù)量下,驗(yàn)證兩運(yùn)算的執(zhí)行時(shí)間,并對比分析傳統(tǒng)環(huán)境下整體挖掘算法消耗時(shí)間與基于MapReduce的矩陣運(yùn)算所消耗的時(shí)間,結(jié)果如圖5所示。
由圖5可以看出,無論是運(yùn)算單個任務(wù),還是運(yùn)算整體挖掘算法,基于MapReduce的矩陣運(yùn)算執(zhí)行時(shí)間都小于傳統(tǒng)運(yùn)算所消耗的時(shí)間,并發(fā)現(xiàn)隨著網(wǎng)頁的增加,基于MapReduce的矩陣運(yùn)算執(zhí)行時(shí)間的增加速率也較小,說明基于MapReduce的矩陣運(yùn)算具有較低時(shí)間復(fù)雜度的優(yōu)勢。
在分析比較了算法的有效性、準(zhǔn)確性及基于MapReduce的矩陣運(yùn)算的及時(shí)性之后,下面將基于百度采集的網(wǎng)頁集進(jìn)行仿真實(shí)驗(yàn)。流程如下:
(1)利用表1中的lout2和lin2統(tǒng)計(jì)出所有網(wǎng)頁的前向與后向鏈接,建立轉(zhuǎn)移矩陣M ,運(yùn)用式(1)、式(2)去掉具有較高垃圾質(zhì)量的作弊網(wǎng)頁,依據(jù)PR值得到實(shí)驗(yàn)中采集到的網(wǎng)頁集中的可靠網(wǎng)頁集:
P=5,13,15,18,…,2568,…,35841,…,89994
(集合中的數(shù)字是網(wǎng)頁的標(biāo)識ID)。
(2)利用表1中的VSM和IDF,運(yùn)用式(3)計(jì)算出網(wǎng)頁間主題的相關(guān)度w(u,v),根據(jù)式(4)計(jì)算網(wǎng)頁v在網(wǎng)頁u中所有出鏈中所占的權(quán)重W(c)。利用表1中的t1和t2,運(yùn)用式(5)計(jì)算網(wǎng)頁更新時(shí)間差的權(quán)重W(t),利用表1中的v(c)、v(i)及v(j)計(jì)算評論數(shù)據(jù)占網(wǎng)頁比例的權(quán)重W(z),結(jié)合式(8),找出可靠網(wǎng)頁集中與產(chǎn)品主題高度相關(guān)且較新的在線評論網(wǎng)頁集:
P=5,13,18,…,2568,…,89994
(3)利用表1中的VSM,結(jié)合式(9)計(jì)算網(wǎng)頁與產(chǎn)品主題的相似度s,利用表1中l(wèi)out1、lout2、lin1、lin2結(jié)合式(10)、式(11)計(jì)算網(wǎng)頁p的鏈出增幅lout、鏈入增幅lin,再運(yùn)算式(12)和式(13)算出網(wǎng)頁集的權(quán)威值a以及導(dǎo)航值h,依據(jù)權(quán)威值a確定權(quán)威網(wǎng)頁集A=5,18,…,2568,…,最后通過表1中的ID、URL、Path三項(xiàng),找出網(wǎng)頁集A代表的網(wǎng)頁作為在線評論分析的可靠數(shù)據(jù)來源。本實(shí)驗(yàn)確定的部分可靠數(shù)據(jù)來源如表2所示。
通過對實(shí)驗(yàn)得到的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)權(quán)威值a較大的網(wǎng)頁一般集中在中關(guān)村在線、太平洋電腦網(wǎng)以及百度貼吧等國內(nèi)具有影響力的專業(yè)性論壇上,這是由于這些網(wǎng)頁時(shí)刻保持更新狀態(tài),并且以本實(shí)驗(yàn)中的產(chǎn)品主題進(jìn)行采集時(shí),它們處于根集位置。另外有些購物平臺對百度搜索引擎采取了屏蔽措施,這就需要對這類的網(wǎng)站采用其他網(wǎng)頁采集方法以彌補(bǔ)在線評論數(shù)據(jù)的不全面問題。
4結(jié)論與展望
在線評論作為產(chǎn)品口碑傳播的一種新形式,對消費(fèi)者網(wǎng)購的抉擇起著重要的影響,但其中大量的良莠不齊的評論也影響了消費(fèi)者對可靠信息的獲取。本文從目前在線評論數(shù)據(jù)挖掘存在的實(shí)際需求出發(fā),將在線評論數(shù)據(jù)獲取分成三個子任務(wù),從辨別作弊網(wǎng)頁獲取可靠網(wǎng)頁,到提煉出與產(chǎn)品主題高度相關(guān)的網(wǎng)頁,最后從相關(guān)網(wǎng)頁中確定其中的權(quán)威網(wǎng)頁作為在線評論分析的數(shù)據(jù)來源,三個任務(wù)循序漸進(jìn)地進(jìn)行,保證了獲取的網(wǎng)頁集不僅是與產(chǎn)品主題密切相關(guān),而是也保證了數(shù)據(jù)的權(quán)威性,對消費(fèi)者網(wǎng)購決策具有重要的指導(dǎo)意義。
在獲取了可靠的用于在線評論信息挖掘分析的數(shù)據(jù)源之后,下一步研究工作就是對這些在線評論數(shù)據(jù)集進(jìn)行產(chǎn)品特征的提取以及消費(fèi)者情感傾向的分析,以更加直觀的形式呈現(xiàn)給潛在消費(fèi)者,避免了其搜尋閱讀大量在線評論的不必要性,輔助其快速做出決策,并幫助企業(yè)理解消費(fèi)者對產(chǎn)品質(zhì)量與服務(wù)的感知,為企業(yè)改進(jìn)產(chǎn)品質(zhì)量與服務(wù)以及制定更加有效的營銷策略提供支持。
但是由于學(xué)術(shù)界目前缺乏可靠數(shù)據(jù)源挖掘這方面的研究,因此對實(shí)驗(yàn)仿真的準(zhǔn)確性并沒有可靠的評判標(biāo)準(zhǔn),只能通過人工排查來檢驗(yàn)結(jié)果的準(zhǔn)確度,實(shí)驗(yàn)中數(shù)據(jù)規(guī)模較小,依靠人力尚能檢驗(yàn)完,但若是放在系統(tǒng)中基于整個WEB環(huán)境,那通過人工檢驗(yàn)結(jié)果的準(zhǔn)確度是不可能完成的,借助簡單的檢測方法是完善實(shí)驗(yàn)的重點(diǎn)。
參考文獻(xiàn):
[1]CNNIC.2014年第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國互聯(lián)網(wǎng)絡(luò)信息中心,2014.
[2]李實(shí),葉強(qiáng),李一軍,等. 挖掘中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征及情感傾向[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):3016-3019.
[3]Senecal S, Nantel J. The Influence of Online Product Recommendations on Consumers Online Choices [J]. Journal of Retailing,2004,80:159-169.
[4]Ghose A, P Ipeirotis, A Sundararajan. The Dimensions of Reputation in Electronic Markets [J]. Working Paper, NewYork University,2005(12) :2.
[5]廖成林,蔡春江,李憶.電子商務(wù)中在線評論有用性影響因素實(shí)證研究[J].軟科學(xué),2013,27(5):46-50.
[6]龔艷萍,梁樹霖. 在線評論對新技術(shù)產(chǎn)品消費(fèi)者采用意愿的影響研究[J].軟科學(xué),2014,28(2):96-105.
[7]Bu Yiming, Huang Tingzhu. An Adaptive Reordered Method for Computing PageRank[J]. Journal of Applied Mathematics, 2013,1-6.
[8]Halu Arda, Mondragon Raul J, Panzarasa, et al. Multiplex PageRank [J]. PLOS ONE,2013,8(10):1-10.
[9]Havelieala T H.Topicsensitive PageRank[C].Proceedings of the 11th International World Wide Web Conference,Hawaii,2002.517-526.
[10]常慶,周明全,耿國華.基于PageRank和HITS的Web搜索[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,18(7):77-79.
[11]劉義,景寧,陳犖,等.MapReduce框架下基于R_樹的k_近鄰連接算法[J].軟件學(xué)報(bào),2013,24(8):1836-1851.
(責(zé)任編輯:秦穎)