国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于邏輯回歸的中文在線評(píng)論有效性檢測(cè)模型

2015-06-09 20:18吳含前朱云杰
關(guān)鍵詞:評(píng)論者主題詞分類

吳含前 朱云杰 謝 玨

(1東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院, 南京 210018)(2東南大學(xué)-蒙納士大學(xué)蘇州聯(lián)合研究生院, 蘇州 215123)

?

基于邏輯回歸的中文在線評(píng)論有效性檢測(cè)模型

吳含前1朱云杰1謝 玨2

(1東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院, 南京 210018)(2東南大學(xué)-蒙納士大學(xué)蘇州聯(lián)合研究生院, 蘇州 215123)

為了實(shí)現(xiàn)電子商務(wù)和社交網(wǎng)絡(luò)中文在線評(píng)論有效性的自動(dòng)化檢測(cè),提出了一種單一主題環(huán)境下基于邏輯回歸的垃圾評(píng)論檢測(cè)模型.中文在線評(píng)論有效性的檢測(cè)可以歸結(jié)為分類問(wèn)題,結(jié)合中文在線評(píng)論的特點(diǎn)提取了9個(gè)特征以構(gòu)建分類模型;為獲取核心特征主題的相關(guān)度,采用基于關(guān)聯(lián)規(guī)則的評(píng)論名詞模式優(yōu)化了ICTCLAS中文分詞系統(tǒng)的主題識(shí)別,進(jìn)而利用交叉語(yǔ)言模型獲取在線評(píng)論主題相關(guān)度.實(shí)驗(yàn)中采取了人為標(biāo)定的1 000條評(píng)論作為樣本,把支持向量機(jī)分類模型作為對(duì)比進(jìn)行試驗(yàn),利用數(shù)據(jù)挖掘工具Weka進(jìn)行計(jì)算.結(jié)果表明,采用優(yōu)化評(píng)論名詞模式下基于邏輯回歸的垃圾評(píng)論檢測(cè)模型結(jié)果的準(zhǔn)確率達(dá)到83.54%,比支持向量機(jī)分類模型計(jì)算得到的準(zhǔn)確率高2.10%.

在線評(píng)論有效性;邏輯回歸;關(guān)聯(lián)規(guī)則

電子商務(wù)領(lǐng)域中,在線評(píng)論對(duì)網(wǎng)購(gòu)用戶購(gòu)買決策起著關(guān)鍵的影響作用.2013年中國(guó)網(wǎng)絡(luò)購(gòu)物市場(chǎng)研究報(bào)告指出:直至2013年12月,國(guó)內(nèi)網(wǎng)購(gòu)用戶達(dá)到3.02×109人,37.5%的用戶在購(gòu)買不熟悉產(chǎn)品時(shí)主要考慮的是用戶評(píng)價(jià),其次為網(wǎng)站知名度和口碑[1].由于在線評(píng)論的好壞直接影響產(chǎn)品的銷售[2-3],電子商務(wù)網(wǎng)站中出現(xiàn)了大量誤導(dǎo)網(wǎng)購(gòu)用戶的、具有惡意目的的評(píng)論;同時(shí),由于網(wǎng)購(gòu)用戶規(guī)模巨大,在線評(píng)論數(shù)量的爆炸式遞增,增加了網(wǎng)購(gòu)用戶識(shí)別評(píng)論有效性的難度.因此,如何實(shí)現(xiàn)在線評(píng)論有效性的自動(dòng)化識(shí)別成為了當(dāng)前學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn).

結(jié)合評(píng)論內(nèi)容及其評(píng)論發(fā)布者,研究者們從以下2個(gè)方面對(duì)評(píng)論的有效性展開研究:① 評(píng)論者異常行為的檢測(cè)[4-6],即通過(guò)研究評(píng)論者制造無(wú)效評(píng)論的方式和目的來(lái)發(fā)現(xiàn)無(wú)效評(píng)論者,從而識(shí)別無(wú)效評(píng)論;② 評(píng)論內(nèi)容的檢測(cè)[7-9],將評(píng)論有效性識(shí)別歸結(jié)為基于監(jiān)督學(xué)習(xí)的文本分類問(wèn)題,通過(guò)構(gòu)建分類模型識(shí)別無(wú)效評(píng)論.針對(duì)基于評(píng)論者異常行為的檢測(cè),通常采取的方法包括:① 建立無(wú)效評(píng)論者檢測(cè)模型并對(duì)其打分[4],識(shí)別出無(wú)效評(píng)論制造者;② 采用關(guān)聯(lián)規(guī)則[5]發(fā)現(xiàn)異常評(píng)論模式并識(shí)別產(chǎn)生無(wú)效性評(píng)論行為,發(fā)現(xiàn)無(wú)效評(píng)論制造者.由于網(wǎng)站十分重視對(duì)評(píng)論者信息資源的保護(hù),在實(shí)際研究中難以完整獲取評(píng)論者的行為信息,故對(duì)實(shí)際評(píng)論者行為檢測(cè)的研究較為困難.基于評(píng)論內(nèi)容有效性的檢測(cè)是目前的研究重點(diǎn),最初工作可以追溯到Jindal等[7]對(duì)亞馬遜網(wǎng)站2.14×106位用戶編寫的5.8×106條英文評(píng)論中無(wú)效評(píng)論檢測(cè)的研究,給出了無(wú)效評(píng)論的定義,從評(píng)論內(nèi)容出發(fā)把無(wú)效評(píng)論劃分為不真實(shí)評(píng)論、僅針對(duì)品牌的評(píng)論以及無(wú)關(guān)評(píng)論3種類型,通過(guò)重復(fù)評(píng)論的檢測(cè)來(lái)識(shí)別不真實(shí)評(píng)論,并建立分類模型用于判別僅針對(duì)品牌的評(píng)論及無(wú)關(guān)評(píng)論.由于語(yǔ)言的差異性,這種基于英文評(píng)論的有效性檢測(cè)結(jié)果難以適用于在線中文評(píng)論的處理.

本文研究了單一主題環(huán)境下中文在線評(píng)論有效性的檢測(cè)問(wèn)題.首先,結(jié)合中文評(píng)論特點(diǎn),提取9個(gè)特征構(gòu)建了分類模型;然后,針對(duì)ICTCLAS中文分詞系統(tǒng)內(nèi)置名稱模式在單一主題中文評(píng)論環(huán)境下識(shí)別主題詞準(zhǔn)確度不高的問(wèn)題,提出了一種具有更高精度的基于關(guān)聯(lián)規(guī)則的評(píng)論名詞模式,并采用交叉語(yǔ)言模型來(lái)判斷評(píng)論名詞與主題的相關(guān)度;最后,利用邏輯回歸分類模型來(lái)檢測(cè)中文在線評(píng)論的有效性.實(shí)驗(yàn)結(jié)果表明,該模型在中文在線評(píng)論的有效性檢測(cè)中能夠得到較高的檢測(cè)準(zhǔn)確率.

1 評(píng)論有效性檢測(cè)分類模型

1.1 邏輯回歸分類模型

評(píng)論有效性檢測(cè)是一種典型的二值分類問(wèn)題,通常利用分類模型進(jìn)行研究.分類模型是通過(guò)對(duì)已知類別數(shù)據(jù)集進(jìn)行學(xué)習(xí),構(gòu)造分類器來(lái)預(yù)測(cè)新數(shù)據(jù)的類別.數(shù)據(jù)集由特征值和類別組成,單條數(shù)據(jù)格式的表達(dá)式為{f1,f2,…,fn;y},其中,fj為特征值,y為類別.分類器可以采用邏輯回歸分類模型或者支持向量機(jī)分類模型來(lái)構(gòu)造.

邏輯回歸分類模型可以描述為

(1)

式中,hθ(x)為預(yù)測(cè)值;x為分類模型特征向量;θ為特征向量系數(shù).

邏輯回歸分類模型是基于最大似然估計(jì)來(lái)計(jì)算對(duì)應(yīng)特征向量系數(shù)的,即

(2)

(3)

由式(2)和(3)可得

(4)

最大似然估計(jì)為

(5)

基于邏輯回歸分類模型求解的關(guān)鍵是確定特征向量系數(shù).因此,針對(duì)中文在線評(píng)論有效的檢測(cè)需要結(jié)合中文評(píng)論內(nèi)容的特點(diǎn)來(lái)提取相應(yīng)的特征向量.

1.2 評(píng)論內(nèi)容特征提取

Jindal等[7]在關(guān)于英文在線評(píng)論有效性的研究中,基于評(píng)論、評(píng)論者和評(píng)論對(duì)象提取了36個(gè)評(píng)論特征,其中包括了針對(duì)評(píng)論文本內(nèi)容的7個(gè)特征,即評(píng)論正向情感詞、評(píng)論負(fù)向情感詞、評(píng)論與產(chǎn)品特性的相似度、品牌名個(gè)數(shù)、數(shù)字個(gè)數(shù)、大寫個(gè)數(shù)和由大寫構(gòu)成的單詞個(gè)數(shù).由于語(yǔ)言的差異性,上述7個(gè)特征只有評(píng)論正向情感詞和評(píng)論負(fù)向情感詞適用于中文評(píng)論.評(píng)論具有主觀性,應(yīng)包含評(píng)論者的情緒;如果評(píng)論中沒(méi)有情感特征,則為客觀表述,應(yīng)被判別為無(wú)效評(píng)論.針對(duì)中文在線評(píng)論,本文通過(guò)獲取評(píng)論中的顯式情感詞[10]與中文情感詞庫(kù)[11]來(lái)判別評(píng)論的情感特征,從而獲取評(píng)論正向情感度和評(píng)論負(fù)向情感度,即評(píng)論中包含贊揚(yáng)產(chǎn)品的形容詞個(gè)數(shù)與貶低產(chǎn)品的形容詞個(gè)數(shù).

本文將評(píng)論主題相關(guān)度作為評(píng)論特征,以量化中文在線評(píng)論與評(píng)論主題之間的相關(guān)程度.

常規(guī)評(píng)論由評(píng)論對(duì)象和評(píng)論者態(tài)度構(gòu)成,應(yīng)具備一定的長(zhǎng)度.而現(xiàn)實(shí)的在線評(píng)論網(wǎng)站上,評(píng)論中往往只具備評(píng)論者態(tài)度而無(wú)評(píng)論對(duì)象.無(wú)效評(píng)論制造者為吸引人們的注意力,往往會(huì)編寫較長(zhǎng)的評(píng)論.因此,本文采用評(píng)論文本長(zhǎng)度作為評(píng)論特征向量之一,評(píng)論文本長(zhǎng)度即中文在線評(píng)論文本包含的字?jǐn)?shù).

基于對(duì)實(shí)際評(píng)論的觀察和研究發(fā)現(xiàn),中文文本注重采用整齊的、排比的句型,多采用短句,評(píng)論者在編寫評(píng)論時(shí),必定會(huì)合理使用標(biāo)點(diǎn)符號(hào).而垃圾評(píng)論制造者在編寫沒(méi)有主題的評(píng)論時(shí),為快速表達(dá)出自己的想法和意愿,會(huì)產(chǎn)生不使用或?yàn)E用標(biāo)點(diǎn)符號(hào)的情況.因此,本文采用評(píng)論標(biāo)點(diǎn)數(shù)量和評(píng)論標(biāo)點(diǎn)符號(hào)差異數(shù)量作為評(píng)論特征向量,其中評(píng)論標(biāo)點(diǎn)數(shù)量是指評(píng)論中標(biāo)點(diǎn)符號(hào)的總個(gè)數(shù),評(píng)論標(biāo)點(diǎn)符號(hào)差異數(shù)量是指評(píng)論中標(biāo)點(diǎn)符號(hào)類型的個(gè)數(shù).

同時(shí),本文還引入了Bhattarai等[12]檢測(cè)博客空間中垃圾評(píng)論使用的3個(gè)特征向量:評(píng)論詞重復(fù)率(即中文在線評(píng)論中重復(fù)的中文字出現(xiàn)的比例)、評(píng)論名詞率(即評(píng)論詞性標(biāo)注之后名詞所占的比例)和評(píng)論句子數(shù)量(即在線評(píng)論文本中句子的個(gè)數(shù)).

基于上述分析,針對(duì)中文在線垃圾評(píng)論檢測(cè),本文共提取了9個(gè)評(píng)論內(nèi)容特征:評(píng)論正向情感度、評(píng)論負(fù)向情感度、評(píng)論主題相關(guān)度、評(píng)論文本長(zhǎng)度、評(píng)論標(biāo)點(diǎn)數(shù)量、評(píng)論標(biāo)點(diǎn)符號(hào)差異數(shù)量、評(píng)論詞重復(fù)率、評(píng)論名詞率以及評(píng)論句子數(shù)量.其中,評(píng)論主題相關(guān)度的處理最為關(guān)鍵和復(fù)雜.

2 評(píng)論主題相關(guān)度

2.1 評(píng)論主題詞的提取

評(píng)論主題詞往往采用名詞來(lái)表示.目前,評(píng)論主題詞獲取的常用方式是通過(guò)中文分詞系統(tǒng)對(duì)評(píng)論進(jìn)行分詞、詞性標(biāo)注處理,然后提取分詞系統(tǒng)中內(nèi)置名詞模式標(biāo)示的名詞.ICTCLAS是我國(guó)最具代表性的中文分詞系統(tǒng),其包含中文分詞和詞性標(biāo)注的功能,分詞準(zhǔn)確率達(dá)到98.45%.ICTCLAS考慮了文本的通用性,沒(méi)有針對(duì)評(píng)論的特殊處理方式,因此很多評(píng)論主題詞無(wú)法被ICTCLAS內(nèi)置名詞模式標(biāo)示.

以電影《速度與激情6》影評(píng)中的一條評(píng)論為例:“這個(gè)系列的任何一部,一點(diǎn)劇情都記不住.”該評(píng)論中出現(xiàn)的主題詞包括 “系列”、“一部”和“劇情”.通過(guò)ICTCLAS處理之后,評(píng)論顯示為:“這個(gè)/rz系列/n的/ude1 任何/rz一/m部/q,/wd一點(diǎn)/m劇情/n都/d記/v不/d住/vi./wj”.在這條評(píng)論中,評(píng)論主題詞 “一部”沒(méi)有被標(biāo)示出.考慮到相鄰2個(gè)詞性標(biāo)注的組合關(guān)系可以歸結(jié)為有序關(guān)聯(lián)規(guī)則問(wèn)題,因此,本文采用一種改進(jìn)的Apriori算法以獲取評(píng)論名詞模式,從而在實(shí)際中提高中文評(píng)論主題詞的獲取精度.

本文采用關(guān)聯(lián)規(guī)則[13]來(lái)尋找具有最小支持度的評(píng)論名詞模式.通過(guò)關(guān)聯(lián)規(guī)則可從大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系,其規(guī)則形式可以表示為

X→Y

式中,X,Y為數(shù)據(jù)集中的非空子集.支持度是關(guān)聯(lián)規(guī)則計(jì)算中的一個(gè)主要指標(biāo),即所計(jì)算的關(guān)聯(lián)規(guī)則模式必須滿足預(yù)先設(shè)置的最小支持度.最小支持度計(jì)算數(shù)學(xué)表達(dá)式為

(6)

式中,c為非空子集X和Y同時(shí)出現(xiàn)的次數(shù);n為數(shù)據(jù)集中記錄總數(shù).

評(píng)論名詞模式是一種通過(guò)相鄰詞性標(biāo)注組合關(guān)系得到的名詞模式.本文首先采用ICTCLAS中文分詞系統(tǒng)對(duì)評(píng)論集進(jìn)行詞性標(biāo)注,然后采用Apriori算法獲取評(píng)論名詞模式.在Apriori算法中,主要采用以下步驟尋找關(guān)聯(lián)規(guī)則:① 生成任意2個(gè)非空子集(如X和Y)的并集,若其在所有數(shù)據(jù)集空間中出現(xiàn)的次數(shù)超過(guò)用戶預(yù)先指定的值,則把該并集歸類到頻繁集中;② 根據(jù)頻繁集生成關(guān)聯(lián)規(guī)則.由于評(píng)論名詞模式主要尋找相鄰詞性標(biāo)注的組合關(guān)系,采用Apriori算法在頻繁集生成過(guò)程中會(huì)產(chǎn)生大量的組合,這將導(dǎo)致Apriori算法性能下降.為此,本文對(duì)Apriori算法進(jìn)行了如下修改:① 將數(shù)據(jù)集合中各詞性標(biāo)注實(shí)現(xiàn)有序排列;② 頻繁集由相鄰詞性標(biāo)注構(gòu)成.由此便可有效降低頻繁集生成規(guī)模,從而提高Apriori算法效率.

2.2 評(píng)論主題相關(guān)識(shí)別

獲取評(píng)論主題詞后,需要判斷這些主題詞與評(píng)論主題的相關(guān)度,可用Zhai等[14]提出的交叉語(yǔ)言模型來(lái)判斷名詞與主題之間的關(guān)系.該模型假定一個(gè)文檔是由一個(gè)目標(biāo)短語(yǔ)向量和一個(gè)資料庫(kù)短語(yǔ)向量構(gòu)成的,即

θ1=αθcorpus+βθquery

(7)

式中,θ1為從評(píng)論集合中獲取的名詞向量;θcorpus為資料庫(kù)名詞向量;θquery為與主題相關(guān)的名詞向量;α,β分別為對(duì)應(yīng)于θcorpus,θquery的系數(shù),且α+β=1.

Zhang等[15]利用時(shí)間復(fù)雜度為O(klog(k))的算法來(lái)獲取交叉語(yǔ)言模型中的θ.交叉語(yǔ)言模型的簡(jiǎn)單表述為

r=αp+βq

(8)

式中,r,p和q均為多維向量.

為計(jì)算q,先假設(shè)fi,pi分別為r,p中第i個(gè)詞出現(xiàn)的頻度.計(jì)算步驟如下:

① 計(jì)算pi/fi,按照從大到小的方式排列,結(jié)果為f1/p1>f2/p3>…>fk/pk.

③ 計(jì)算得到

將計(jì)算結(jié)果大于0的qi組成θquery,評(píng)論主題相關(guān)度可以通過(guò)計(jì)算單條評(píng)論中評(píng)論主題詞在θquery中的個(gè)數(shù)獲得.

3 實(shí)驗(yàn)結(jié)果與分析

本文以電影《速度與激情6》的影評(píng)為目標(biāo)評(píng)論對(duì)象進(jìn)行實(shí)驗(yàn).首先,選取1 000條影評(píng),讓5位研究生(編號(hào)為S1~S5)對(duì)其進(jìn)行人工標(biāo)示,將無(wú)效評(píng)論記為1,有效評(píng)論記為0;然后,將標(biāo)示結(jié)果求和后取平均值,當(dāng)平均值大于0.5時(shí)視為無(wú)效評(píng)論,反之則為有效評(píng)論.5位研究生對(duì)1 000條影評(píng)做出的有效評(píng)論和無(wú)效評(píng)論統(tǒng)計(jì)數(shù)量結(jié)果見(jiàn)表1.

表1 評(píng)論樣本人工標(biāo)示的統(tǒng)計(jì)數(shù)量結(jié)果

為了獲取評(píng)論主題相關(guān)度和評(píng)論情感分析,在將評(píng)論文本轉(zhuǎn)換為評(píng)論文本特征向量的過(guò)程中需要對(duì)評(píng)論進(jìn)行預(yù)處理.首先,構(gòu)建中文情感詞庫(kù),根據(jù)該詞庫(kù)來(lái)判斷評(píng)論文本中形容詞的詞性.然后,利用時(shí)間復(fù)雜度為O(klog(k))的算法來(lái)建立評(píng)論主題詞庫(kù),從而獲取評(píng)論主題相關(guān)度.除評(píng)論主題相關(guān)度和評(píng)論情感分析外,其他特征向量值都能直接從評(píng)論文本中獲取.

本文采用支持向量機(jī)分類模型作為對(duì)比,驗(yàn)證基于邏輯回歸垃圾評(píng)論檢測(cè)模型的有效性.同時(shí),為了驗(yàn)證評(píng)論名詞模式在垃圾評(píng)論檢測(cè)中的效果,將ICTCLAS中文分詞系統(tǒng)的內(nèi)置名詞模式作為對(duì)比進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)共分5次進(jìn)行,每次對(duì)1 000條樣本評(píng)論進(jìn)行隨機(jī)排列,計(jì)算時(shí)采用開源的數(shù)據(jù)挖掘工具Weka,并利用基于十折交叉驗(yàn)證法來(lái)獲取垃圾評(píng)論檢測(cè)模型的準(zhǔn)確性.給定樣本評(píng)論的有效性檢測(cè)準(zhǔn)確率結(jié)果見(jiàn)表2.

表2 樣本評(píng)論的有效性檢測(cè)準(zhǔn)確率 %

由表2可知,采用本文提出的評(píng)論名詞模式較采用ICTCLAS中文分詞系統(tǒng)的內(nèi)置名詞模式在計(jì)算垃圾評(píng)論檢測(cè)模型時(shí)具有更高的準(zhǔn)確率.在4種情況的對(duì)比試驗(yàn)中,采用評(píng)論名詞模式下基于邏輯回歸的垃圾評(píng)論檢測(cè)模型準(zhǔn)確率(83.54%)最高,比支持向量機(jī)分類模型計(jì)算得到的準(zhǔn)確率高2.10%.

4 結(jié)語(yǔ)

目前國(guó)外學(xué)術(shù)界關(guān)于在線評(píng)論有效性的研究對(duì)象大都采用英文評(píng)論,由于語(yǔ)言的差異性,相關(guān)英文在線評(píng)論有效性檢測(cè)的研究成果難以推廣到中文評(píng)論的有效性檢測(cè)中.本文研究了單一主題環(huán)境下中文在線評(píng)論有效性的檢測(cè)問(wèn)題.結(jié)合中文評(píng)論特點(diǎn),從評(píng)論文本內(nèi)容中提取9個(gè)特征向量來(lái)構(gòu)建邏輯回歸分類模型;針對(duì)核心特征向量評(píng)論主題相關(guān)度的研究過(guò)程中,利用一種改進(jìn)的Apriori算法來(lái)獲取評(píng)論名詞模式,從而提高了中文評(píng)論主題詞的識(shí)別精度,并基于交叉語(yǔ)言模型計(jì)算評(píng)論名詞與主題的相關(guān)度.實(shí)驗(yàn)結(jié)果表明,基于邏輯回歸的中文在線評(píng)論有效性檢測(cè)模型在評(píng)論有效性檢測(cè)中表現(xiàn)出較高的檢測(cè)準(zhǔn)確率.

References)

[1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心. 2013年中國(guó)網(wǎng)絡(luò)購(gòu)物市場(chǎng)研究報(bào)告[EB/OL]. (2014-04-21)[2014-10-20]. http://www.cnnic.cn/hlwfzyj/hlwxzbg/dzswbg/201404/t20140421_46598.htm.

[2]Karkare V Y, Gupta S R. A survey on product evaluation using opinion mining [J].InternationalJournalofComputerScienceandApplications, 2013, 6(2): 306-312.

[3]Sheibani A A. Opinion mining and opinion spam: a literature review focusing on product reviews[C]//2012SixthInternationalSymposiumonTelecommunications(IST). Tehran, Iran, 2012: 1109-1113.

[4]Lim E P, Nguyen V A, Jindal N, et al. Detecting product review spammers using rating behaviors[C]//Proceedingsofthe19thACMInternationalConferenceonInformationandKnowledgeManagement. New York, USA, 2010: 939-948.

[5]Jindal N, Liu B, Lim E P. Finding unusual review patterns using unexpected rules[C]//Proceedingsofthe19thACMInternationalConferenceonInformationandKnowledgeManagement. New York, USA, 2010: 1549-1552.

[6]Mukherjee A, Kumar A, Liu B, et al. Spotting opinion spammers using behavioral footprints[C]//Proceedingsofthe19thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining. New York, USA, 2013: 632-640.

[7]Jindal N, Liu B. Opinion spam and analysis[C]//Proceedingsofthe2008InternationalConferenceonWebSearchandDataMining. New York, USA, 2008: 219-230.

[8]Ott M, Cardie C, Hancock J T. Negative deceptive opinion spam[C]//NorthAmericanChapteroftheAssociationforComputationalLinguistics-HumanLanguageTechnologies. Atlanta, Georgia, 2013: 497-501.

[9]Lin Y, Zhu T, Wang X, et al. Towards online review spam detection[C]//ProceedingsoftheCompanionPublicationofthe23rdInternationalConferenceonWorldWideWebCompanion. New York, USA, 2014: 341-342.

[10]Liu B. Sentiment analysis and opinion mining [J].SynthesisLecturesonHumanLanguageTechnologies, 2012, 5(1): 1-167.

[11]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào),2008,27(2):180-185. Xu Linhong, Lin Hongfei, Pan Yu, et al. Constructing the affective lexicon ontology [J].JournaloftheChinaSocietyforScientificandTechnicalInformation, 2008, 27(2): 180-185. (in Chinese)

[12]Bhattarai A, Rus V, Dasgupta D. Characterizing comment spam in the blogosphere through content analysis[C]//2009IEEESymposiumonComputationalIntelligenceinCyberSecurity. Nashville, TN, USA, 2009: 37-44.

[13]AL-Zawaidah F H, Jbara Y H, Abu-Zanona M A. An improved algorithm for mining association rules in large databases [J].WorldofComputerScienceandInformationTechnology, 2011, 1(7): 311-316.

[14]Zhai C, Lafferty J. Model-based feedback in the language modeling approach to information retrieval[C]//ProceedingsoftheTenthInternationalConferenceonInformationandKnowledgeManagement. New York, USA, 2001: 403-410.

[15]Zhang Y, Xu W. Fast exact maximum likelihood estimation for mixture of language model[J].InformationProcessing&Management, 2008, 44(3): 1076-1085.

Detection model of effectiveness of Chinese online reviews based on logistic regression

Wu Hanqian1Zhu Yunjie1Xie Jue2

(1School of Computer Science and Engineering, Southeast University, Nanjing 210018, China) (2Southeast University-Monash University Joint Graduate School, Suzhou 215123, China)

In order to realize automated detection of the effectiveness of Chinese online reviews in the context of e-commerce and social networks, a spam detection model based on logistic regression to solve single topic classification problem is proposed. The detection of effectiveness of Chinese online reviews can be regarded as a classification problem. According to the characteristics of Chinese online reviews, nine features are extracted to build the classification model. In order to extract the core feature-topic relevance, an association rule based review term mode is utilized to optimize the topics identification in ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System). The cross language model is then used to retrieve relevancy between online review topics. In the experiment, a sample of 1 000 human-labeled reviews is used, and the support vector machine (SVM) classification model is adopted as a comparison. The calculation results of the data mining tool Weka demonstrate that the accuracy rate of the proposed logistic regression classification model based on the optimized review term classification mode is 83.54%, which is 2.10% higher than that of the SVM classification model.

effectiveness of online review; logistic regression; association rule

10.3969/j.issn.1001-0505.2015.03.004

2014-12-05. 作者簡(jiǎn)介: 吳含前(1972—),男,博士,副教授,hanqian@seu.edu.cn.

國(guó)家自然科學(xué)基金資助項(xiàng)目(60803057)、國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)資助項(xiàng)目(2015AA015904).

吳含前,朱云杰,謝玨.基于邏輯回歸的中文在線評(píng)論有效性檢測(cè)模型[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2015,45(3):433-437.

10.3969/j.issn.1001-0505.2015.03.004

P315.69

A

1001-0505(2015)03-0433-05

猜你喜歡
評(píng)論者主題詞分類
人工智能技術(shù)的電子商務(wù)虛假評(píng)論者檢測(cè)
網(wǎng)絡(luò)新聞評(píng)論者的倫理責(zé)任問(wèn)題及應(yīng)對(duì)路徑探析
分類算一算
分類討論求坐標(biāo)
基于D-S證據(jù)理論的電子商務(wù)虛假評(píng)論者檢測(cè)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
《老年醫(yī)學(xué)與保健》2017年第23卷主題詞索引
新聞評(píng)論的寫作方法討論和研究
我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞