姬軒+楊丹蕾+熊冠銘+褚伯然
摘 要:電子商務(wù)迅速發(fā)展的背景下,電子商務(wù)用戶大數(shù)據(jù)的應(yīng)用備受關(guān)注,其中用戶對(duì)商品的評(píng)價(jià)信息具有較高的研究?jī)r(jià)值。本文以天貓平臺(tái)特定男士T恤為例,使用爬蟲工具Selenium對(duì)用戶評(píng)價(jià)信息進(jìn)行了爬取,并通過預(yù)處理、建立情感詞典、產(chǎn)品特征提取與特征強(qiáng)度計(jì)算等方式,對(duì)獲取的數(shù)據(jù)進(jìn)行語義分析。在此基礎(chǔ)上,篩選有效數(shù)據(jù),建立經(jīng)濟(jì)計(jì)量模型以探究主要因素與銷量之間的關(guān)系,得出目前對(duì)銷量有顯著影響的因素,并且依據(jù)模型所得出彈性給予企業(yè)針對(duì)提高銷量的合理性建議。
關(guān)鍵詞:用戶評(píng)價(jià);爬蟲;語義分析;多元回歸;柯布道格拉斯效用函數(shù)
一、引言
互聯(lián)網(wǎng)在我國(guó)普及度逐步提升,人們對(duì)于網(wǎng)絡(luò)的依賴性越來越強(qiáng)。面對(duì)不斷產(chǎn)生的海量數(shù)據(jù),傳統(tǒng)人工處理的方式己經(jīng)不能適應(yīng)現(xiàn)代社會(huì)的需求。生產(chǎn)商、銷售商希望能夠簡(jiǎn)潔直觀的了解用戶對(duì)產(chǎn)品的反饋,從而有針對(duì)性地對(duì)產(chǎn)品或服務(wù)進(jìn)行改進(jìn);潛在的消費(fèi)者希望通過現(xiàn)有的評(píng)價(jià)來調(diào)整個(gè)人的購(gòu)買意向。因此,分析消費(fèi)者評(píng)價(jià),即帶有個(gè)人情感傾向的文本便具有相對(duì)重要的價(jià)值。
在國(guó)內(nèi)觀點(diǎn)挖掘領(lǐng)域中,有如下研究。劉群等人提出了基于WordNet詞匯語義相似度計(jì)算方法,成為目前中文詞語情感極性強(qiáng)度計(jì)算得主要根據(jù);HuM等人研究了評(píng)論對(duì)象特征識(shí)別問題,他們提出利用關(guān)聯(lián)規(guī)則方法挖掘評(píng)論穩(wěn)重隱藏的特征屬性,并提出了根據(jù)句子語義傾向?qū)ι唐愤M(jìn)行總體評(píng)價(jià)。本文創(chuàng)新點(diǎn)在于利用前人的研究成果,結(jié)合TF-IDF算法對(duì)評(píng)論特征的重要程度量化標(biāo)注,分別計(jì)算出產(chǎn)品特征的總值作為模型建立的基礎(chǔ)。依據(jù)經(jīng)濟(jì)學(xué)意義進(jìn)行數(shù)據(jù)篩選并建立模型,將影響銷量的各個(gè)因素的顯著性定量表示,并且進(jìn)一步探究各個(gè)影響因素與銷量之間的彈性關(guān)系。把彈性作為企業(yè)調(diào)提高銷量的依據(jù),最后按照經(jīng)濟(jì)學(xué)理論對(duì)企業(yè)提出可行性建議。
本文以天貓旗艦店中價(jià)格在100元-200元區(qū)間內(nèi),且數(shù)據(jù)采集時(shí)評(píng)價(jià)總量在300條以上的品牌男士短袖T恤作為研究對(duì)象。主要工作有:一是構(gòu)建了常用于衣服評(píng)價(jià)的網(wǎng)絡(luò)用語詞典,二是構(gòu)建了識(shí)別特定格式用于服裝評(píng)論挖掘結(jié)果分類的正則表達(dá)式,三是根據(jù)處理過的數(shù)據(jù)進(jìn)行經(jīng)濟(jì)計(jì)量模型構(gòu)建,探究影響銷量因素的顯著性及彈性,四是依據(jù)經(jīng)濟(jì)學(xué)原理為銷售該類服裝的電商提出合理建議。
二、研究框架
本文研究過程大致可以分為四個(gè)部分,用戶評(píng)論信息采集、數(shù)據(jù)預(yù)處理(數(shù)據(jù)清洗、分詞、詞性標(biāo)注、刪除停用詞)、評(píng)論挖掘(產(chǎn)品特征提取、評(píng)論觀點(diǎn)極性判斷,評(píng)論的強(qiáng)度計(jì)算)、回歸分析數(shù)據(jù)預(yù)處理、多元回歸模型建立、模型擬合優(yōu)度檢驗(yàn)、誤差原因分析及經(jīng)濟(jì)學(xué)意義分析。研究路線如圖1所示。
三、主要步驟及及關(guān)鍵點(diǎn)分析
1.數(shù)據(jù)爬取。通過WEB自動(dòng)化工具,編寫爬蟲軟件,將電商平臺(tái)上的相應(yīng)物品評(píng)價(jià)爬取
(1)數(shù)據(jù)清洗。網(wǎng)絡(luò)評(píng)論中有大量網(wǎng)絡(luò)化、口頭化的詞語等。所以需要先對(duì)數(shù)據(jù)集合進(jìn)行清洗,主要工作有刪除無用信息、重復(fù)信息等。
(2)分詞。中文分詞(Chinese Word Segmentation)指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。中文分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動(dòng)識(shí)別語句含義的效果。分詞的好壞直接決定了語義分析的準(zhǔn)確性。
(3)詞性標(biāo)注。詞性標(biāo)注(Part-of-Speech tagging或POS tagging),又稱詞類標(biāo)注或者簡(jiǎn)稱標(biāo)注,是指為分詞結(jié)果中的每個(gè)單詞標(biāo)注一個(gè)正確的詞性的程序,也即確定每個(gè)詞是名詞、動(dòng)詞、形容詞或其他詞性的過程。有效提取出產(chǎn)品特點(diǎn),并對(duì)用戶觀點(diǎn)進(jìn)行極性判斷。
(4)刪除停用詞。在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會(huì)自動(dòng)過濾掉某些字或詞。評(píng)論集合中存在大量頻率高,但無實(shí)際意義的詞語,例如“了”、“呢”等,將其刪除可以提高分析程序的運(yùn)行效率。
2.評(píng)論挖掘過程。用戶評(píng)論信息挖掘用戶評(píng)論信息挖掘包含產(chǎn)品特征提取、評(píng)論觀點(diǎn)極性判斷、特征強(qiáng)度計(jì)算三個(gè)部分。
(1)產(chǎn)品特征提取。產(chǎn)品特征提取的目的是基于分詞和詞性標(biāo)注后將產(chǎn)品的特征提取出來,其產(chǎn)品特征包括質(zhì)量、性價(jià)比、外觀等等。
(2)評(píng)論觀點(diǎn)極性判斷。評(píng)論觀點(diǎn)極性判斷是指確定用戶對(duì)該商品評(píng)論的極性,分為褒義和貶義。
判斷評(píng)論觀點(diǎn)的極性,有兩種方法,即基于詞典的方法和基于語料的方法?;谠~典的方法需要建立一個(gè)情感極性詞典,以獲得一個(gè)詞的極性?;谡Z料的方法是在大量語料基礎(chǔ)上,分析詞之間的語法形式或共現(xiàn)形式來判斷詞的極性。本文采用基于詞典的方法,需要根據(jù)所有評(píng)論數(shù)據(jù)建立兩個(gè)詞典,分別為褒義詞和貶義詞詞典,然后用詞典再對(duì)評(píng)論進(jìn)行一次詞性的標(biāo)注。
(3)特征強(qiáng)度計(jì)算。TF-IDF(term frequency-inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。它能將文本表示為文中出現(xiàn)的n個(gè)加權(quán)詞項(xiàng)組成的向量。因此,我們用它來評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。
詞頻頻率(TF)是某一詞在某一文檔中出現(xiàn)的頻率,因此,tf是關(guān)于文檔的統(tǒng)計(jì)數(shù)據(jù),它因文檔的不同而異,其作用是試圖度量該詞在文檔中的重要性。
以上式子中分子nij是詞匯ti在評(píng)論dj中的出現(xiàn)次數(shù),而分母則是在評(píng)論dj中所有詞匯出現(xiàn)次數(shù)之和。
逆向文檔頻率(IDF)是指,一個(gè)詞匯的普遍重要性度量。某一特定詞匯ti的逆向文檔頻率idfi,可以由總文檔數(shù)目N除以包含該詞匯的文檔數(shù)目{j:ti∈dj},再將得到的商取對(duì)數(shù),得到:
3.挖掘結(jié)果匯總
挖掘結(jié)果匯總是指利用統(tǒng)計(jì)學(xué)、圖表等形式對(duì)結(jié)果進(jìn)行展示和分析。
逐條評(píng)論計(jì)算強(qiáng)度之后通過正則表達(dá)式匹配。將每一個(gè)特征詞所包含極性詞的短句提取出來。例如將“快遞沒得說,那是一個(gè)快啊”處理成“{@快遞@WL@0.262@}沒得說/PRO#,那是一個(gè)快啊?!保?PRO表示褒義詞)這樣的格式,通過正則表達(dá)式提取出“{@快遞@WL@0.262@}沒得說/PRO#”,將其算作物流正向評(píng)價(jià)一個(gè)單位,計(jì)算出所有特征正面、負(fù)面的強(qiáng)度,使得分相加,就是購(gòu)買該商品用戶對(duì)其特征的情感強(qiáng)度,將此結(jié)果利用圖表形式顯示,并綜合起來進(jìn)行多元回歸分析。
4.回歸分析方法概述
(1)多元線性回歸。在最初建立模型時(shí)使用最小二乘多元線形回歸的方法探究銷量與各變量之間的關(guān)系。假設(shè)某一因變量y受k個(gè)自變量X1,X2,...,Xk的影響,其n組觀測(cè)值為(ya,x1a,x2a,……,xka)那么多元線性回歸模型的結(jié)構(gòu)形式為:
式中:β0,β1,...,βk為待定參數(shù);εa為隨機(jī)變量。為消除隨機(jī)變量不確定性,我們采用最小二乘法將回歸模型優(yōu)化。最小二乘(OLS)法使殘差(誤差項(xiàng)的估計(jì)值)平方和達(dá)到最小值來估測(cè)代訂參數(shù)的擬合值。
本研究借助柯布-道格拉斯生產(chǎn)函數(shù)分析效用的特性對(duì)于基礎(chǔ)模型加以改進(jìn),將原模型中的產(chǎn)量換為產(chǎn)品的銷量,技術(shù)、資本、勞動(dòng)轉(zhuǎn)換并擴(kuò)充為與服裝銷量相關(guān)的質(zhì)量、價(jià)格、物流等因素,使其能夠適用于本研究。
四、實(shí)驗(yàn)與結(jié)果分析
1.網(wǎng)絡(luò)評(píng)論的采集。我們?cè)谔熵堎?gòu)物平臺(tái)上采集25件價(jià)格為100元-200元男士t恤的全部評(píng)論,采集時(shí)間截止到2016年7月9日22點(diǎn)12分,累計(jì)采集到43553條服裝評(píng)論信息。根據(jù)收集到的信息建立產(chǎn)品評(píng)論語料庫。
2.數(shù)據(jù)預(yù)處理。經(jīng)過數(shù)據(jù)清洗后,利用哈工大LTP語言云平臺(tái)以及武漢大學(xué)ROSTCM6進(jìn)行分詞、詞性標(biāo)注以及刪除停用詞的工作。
3.評(píng)論挖掘。本文根據(jù)分詞結(jié)果,統(tǒng)計(jì)名詞出現(xiàn)頻率并按降序排列,得到了形容衣服特性以及電商服務(wù)方面的多個(gè)名詞,將其歸入特征詞匯的名詞集合,共有8個(gè)不同的特征詞集合,見表1。
4.挖掘結(jié)果顯示與分析。本文根據(jù)上文的正則表達(dá)式匹配方式,可將“質(zhì)量”等八個(gè)產(chǎn)品特征進(jìn)行同類詞語識(shí)別,這樣就可以得到盡可能多的且準(zhǔn)確的產(chǎn)品特征。
以“產(chǎn)品特征詞+褒義/貶義詞”的方法,采用“質(zhì)量”這一特征為例,結(jié)果如表2所示。
按照上表的方式,提取出評(píng)論中的版型、包裝、價(jià)格、客服、面料、圖案、物流、質(zhì)量這8個(gè)因素作為關(guān)鍵的影響銷量的因素從評(píng)論中分離出來,并且分別將每個(gè)因素的正負(fù)影響通過強(qiáng)度系數(shù)表示出來,作為回歸分析的基礎(chǔ)數(shù)據(jù)(由于數(shù)據(jù)量較多,取小數(shù)點(diǎn)后一位)。
5.多元回歸結(jié)果展示與分析。由于質(zhì)量這一因素本身包含“性價(jià)比”的含義,所以我們將質(zhì)量和價(jià)格兩個(gè)因素綜合作為性價(jià)比處理。在處理過程中,為了保證性價(jià)比這一因素?cái)?shù)據(jù)的準(zhǔn)確性,將性價(jià)比低的情況分為質(zhì)量好價(jià)格不合理,質(zhì)量不好價(jià)格不合理和質(zhì)量不好價(jià)格合理,將性價(jià)比高的情況描述為質(zhì)量好價(jià)格合理,并將數(shù)據(jù)進(jìn)行加權(quán)求和。
6.模型的建立及擬合度檢驗(yàn)。第一個(gè)模型為線性回歸模型,將銷量作為因變量Y,面料好,面料差,物流快,物流慢,性價(jià)比高,性價(jià)比低6個(gè)變量分別作為自變量X1至X6。利用最小二乘法對(duì)于數(shù)據(jù)進(jìn)行多元回歸,得到圖2的模型:
模型表達(dá)式為:
Y=59X1-246X2+194X3-350X4-197X5+156X6-1698
R2值為0.76,擬合度較好,調(diào)整過的R2值為0.67出現(xiàn)了一些下降,說明存在一定的相對(duì)無關(guān)參數(shù),F(xiàn)值為9.46,其相伴的概率為0.000092擬合度較好。
由于多元線性模型只能反映各個(gè)關(guān)鍵因素對(duì)于銷量影響的顯著性,是相對(duì)靜態(tài)的模型,如果企業(yè)想要對(duì)于某種因素進(jìn)行調(diào)整,需要得出各個(gè)因素的彈性及投資的效用,以保證收益的最大化。
為實(shí)現(xiàn)這一目的,我們引入柯布-道格拉斯效用函數(shù),并且將其自變量分別定義為為面料好,面料差,物流快,物流慢,性價(jià)比高,性價(jià)比低,將經(jīng)對(duì)數(shù)處理后的數(shù)據(jù)通過最小二乘法進(jìn)行回歸,得到圖3所示結(jié)果:
模型方程為:
Y=0.66X1+0.04X2+0.98X3-0.04X4-1.92X5+1.43X6+4.2
R2值為0.74,擬合度較好,調(diào)整過的R2值為0.65出現(xiàn)了一些下降,說明存在一定的相對(duì)無關(guān)參數(shù),F(xiàn)值為8.75,其相伴的概率為0.000150擬合度較好。
7.數(shù)據(jù)處理結(jié)果簡(jiǎn)述。(1)最小二乘法多元回歸分析結(jié)果。模型表達(dá)式為:Y=59X1-246X2+194X3-350X4-197X5+156X6-1698,因變量Y是銷量,自變量X1至X6分別是面料好,面料差,物流快,物流慢,性價(jià)比高,性價(jià)比低這六個(gè)變量。
對(duì)銷量的正面影響最顯著的是物流快,其次是性價(jià)比低,面料好。對(duì)銷量有顯著負(fù)面影響的首先是物流慢,其次是面料差,性價(jià)比高。
(2)柯布-道格拉斯效用函數(shù)結(jié)果。模型表達(dá)式為Y=0.66X1+0.04X2+0.98X3-0.04X4-1.92X5+1.43X6+4.2,因變量Y是銷量,自變量分別定義為為面料好,面料差,物流快,物流慢,性價(jià)比高,性價(jià)比低。
銷售正彈性最大的是性價(jià)比低,其次是面料好,第三是物流快。銷售負(fù)彈性最顯著的是性價(jià)比高,其次是物流慢。
8.模型的經(jīng)濟(jì)學(xué)意義。本研究運(yùn)用兩個(gè)模型進(jìn)行綜合分析,第一個(gè)模型運(yùn)用OLS對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行回歸分析得出各個(gè)因素在此時(shí)間節(jié)點(diǎn)對(duì)于銷量影響的顯著性;第二個(gè)模型運(yùn)用道格拉斯效用函數(shù)的變形結(jié)合最小二乘回歸分析得到各個(gè)因素影響銷量的彈性大小,從而得到各個(gè)因素變化多少對(duì)于銷量改變的影響程度。兩個(gè)模型結(jié)合分析即能夠就現(xiàn)狀進(jìn)行有效把握,又能夠探究因素的變動(dòng)對(duì)銷量的影響。
以下將結(jié)合數(shù)據(jù)處理結(jié)果,針對(duì)在天貓旗艦店中出售價(jià)格在100元-200元區(qū)間內(nèi),且數(shù)據(jù)采集時(shí)評(píng)價(jià)總量在300條以上的品牌男士短袖T恤的商家,從經(jīng)濟(jì)學(xué)角度提出在正常營(yíng)業(yè)情況下,即非降價(jià)促銷情況下提高銷量的合理性建議。
(1)合理提高質(zhì)量——基于性價(jià)比考慮。性價(jià)比顯示了性能和價(jià)格的比例關(guān)系,在衣服這種產(chǎn)品中性能表現(xiàn)為質(zhì)量,因此可以用質(zhì)量/價(jià)格作為性價(jià)比的量化公式。
面對(duì)性價(jià)比降低的兩種情況需要進(jìn)一步考慮消費(fèi)者偏好,即由原T恤價(jià)格質(zhì)量同時(shí)上升或同時(shí)下降產(chǎn)生的兩種新T恤中更傾向于哪一個(gè)。面對(duì)性價(jià)比消費(fèi)者往往先考慮質(zhì)量再考慮價(jià)格,即消費(fèi)者更偏向于質(zhì)量好的產(chǎn)品,若該產(chǎn)品的價(jià)格在價(jià)格區(qū)間內(nèi),消費(fèi)者將優(yōu)先購(gòu)買。
綜上所述商家在保證利潤(rùn)的情況下要提高銷量可以選擇同時(shí)提高質(zhì)量和價(jià)格,且在消費(fèi)者承受能力范圍內(nèi)價(jià)格提升幅度大于質(zhì)量。
(2)優(yōu)化面料選擇。優(yōu)化面料的選擇可以從三個(gè)方面進(jìn)行:面料厚度,紡織工藝,成分含量。
就面料厚度來講,要針對(duì)該服裝的穿著季節(jié),穿著人群,服裝風(fēng)格等因素進(jìn)行綜合考慮。面料過薄會(huì)影響著裝的得體性。
就紡織工藝而言,為了使服裝不至于因?yàn)橄礈熳冃位蛎摼€,應(yīng)保證其紡織線密度不低于一定標(biāo)準(zhǔn),并且根據(jù)利潤(rùn)空間進(jìn)行設(shè)置,控制生產(chǎn)成本。
就成分含量來看,主要依據(jù)現(xiàn)有消費(fèi)者的消費(fèi)偏好,如果消費(fèi)者傾向于穿著舒適而不過多在意服裝穿著后是否變形,則可以提高服裝棉含量。
(3)提升物流服務(wù)。在數(shù)據(jù)處理結(jié)果中除去產(chǎn)品本身質(zhì)量外,服務(wù)質(zhì)量中的物流質(zhì)量對(duì)銷量也有顯著影響。消費(fèi)者認(rèn)可商品后會(huì)對(duì)服務(wù)產(chǎn)生要求,較快的物流速度會(huì)使產(chǎn)品對(duì)消費(fèi)者更有吸引力。
通過改進(jìn)補(bǔ)貨模式可以維持一定水平庫存,縮短因缺貨導(dǎo)致的客戶等待時(shí)間,提高客戶滿意度,同時(shí)選擇適當(dāng)?shù)难a(bǔ)貨模式可以降低庫存成本、訂貨成本和短缺成本。選擇補(bǔ)貨模式主要考慮庫存檢查周期,訂貨量,以及訂貨點(diǎn),根據(jù)商家自身庫存規(guī)模,銷售預(yù)測(cè)和缺貨訂貨成本來制定具體模式。采用計(jì)算機(jī)系統(tǒng)來管理庫存也是提升物流效率的有效方法。
建立多地點(diǎn)倉(cāng)庫需要投入較多成本。商家對(duì)消費(fèi)者收貨地點(diǎn)進(jìn)行統(tǒng)計(jì),在購(gòu)買密集的地區(qū)建立分倉(cāng)庫,通過分散庫存來提高物流速度。如果已有多個(gè)倉(cāng)庫,應(yīng)提高各個(gè)倉(cāng)庫之間的信息共享程度。
五、總結(jié)與不足
本文挖掘了產(chǎn)品的用戶評(píng)論并應(yīng)用在電商服裝的分析中,結(jié)合多元回歸分析,并以100元-200元價(jià)格區(qū)間的男士t恤為例,進(jìn)行了系統(tǒng)的分析實(shí)踐。根據(jù)實(shí)驗(yàn)結(jié)果,本文采用的方法可用有效挖掘出產(chǎn)品的各類特征并提取其優(yōu)劣,經(jīng)過分析后對(duì)該類服裝的改進(jìn)提出了建議,對(duì)產(chǎn)品情報(bào)分析以及改進(jìn)策略具有現(xiàn)實(shí)意義。
本研究通過回歸分析最終得出的結(jié)論是可以通過合理提高質(zhì)量、優(yōu)化面料選擇及提升物流服務(wù)三種方式提升服裝銷量。商家需要在保證利潤(rùn)的情況下要提高銷量可以選擇同時(shí)提高質(zhì)量和價(jià)格,且在消費(fèi)者承受能力范圍內(nèi)價(jià)格提升幅度大于質(zhì)量。而提高質(zhì)量是一個(gè)比較模糊的建議通過對(duì)數(shù)據(jù)的處理發(fā)現(xiàn)在質(zhì)量中面料對(duì)于銷量的影響最為顯著,所以在質(zhì)量提升時(shí)應(yīng)優(yōu)先選擇面料的優(yōu)化。物流方面的影響也十分顯著,提升物流速度的渠道根據(jù)成本投入由少到多可以分別從選擇合作物流商,改進(jìn)庫存補(bǔ)貨機(jī)制,建立多地點(diǎn)倉(cāng)庫三個(gè)方面來進(jìn)行。具體的措施還需根據(jù)成本、收益、未來經(jīng)營(yíng)規(guī)劃等進(jìn)行綜合考慮。
本文的研究存在一些不足之處,首先采集數(shù)據(jù)時(shí)樣本量稍小,而且樣本內(nèi)容也偏簡(jiǎn)單,在今后研究中可以加入更多的變量信息,如銷售時(shí)間,月銷量等;其次由于網(wǎng)絡(luò)評(píng)論句式過于自由化,本文利用正則表達(dá)式提取的句式比較簡(jiǎn)單、單一,可能會(huì)影響數(shù)據(jù)的準(zhǔn)確度,針對(duì)這一方面,建立的正則表達(dá)式還有待于進(jìn)一步改進(jìn)。
參考文獻(xiàn):
[1]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[A].臺(tái)北第三屆漢語詞匯語義學(xué)研討會(huì)論文集,2002:59-76.
[2]Hu M,Liu B.Mining and summarizing Customer Reviews[C].In:Proc of KDD-2004,2004:168-177.
[3]趙會(huì)芬.電商營(yíng)銷過程中的商品評(píng)價(jià)體系研究[D].吉林大學(xué),2015.
[4]唐先富.電子商務(wù)網(wǎng)站的評(píng)價(jià)研究[D].安徽大學(xué),2014.
[5]孫鐵利,楊鳳芹.根據(jù)用戶隱式反饋建立和更新用戶興趣模型[J].東北師大學(xué)報(bào)自然科學(xué)版,2003,35(3):101.
[6]Greengrass E. Information retrieval: a survey[EB/OL].http://dewey.yonsei.ac.kr/ir/data/Greengrass-IR.report.120600.book.pdf,2000- 18-14.
[7]翟東升,徐穎,黃魯成等.基于產(chǎn)品評(píng)論挖掘的競(jìng)爭(zhēng)產(chǎn)品優(yōu)勢(shì)分析[J].情報(bào)雜志,2013,32(2):45-52.
[8]孫建旺,呂學(xué)強(qiáng),張雷瀚.基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(7):177-181.
[9]吳金源,冀俊忠,趙學(xué)武.基于特征選擇技術(shù)的情感詞權(quán)重計(jì)算[J].北京工業(yè)大學(xué)學(xué)報(bào),2016,42(1):142-151.