国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的商品垃圾評(píng)論識(shí)別過程研究

2016-01-25 10:14:48李京蔚
現(xiàn)代經(jīng)濟(jì)信息 2016年1期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘要:在線商品評(píng)論信息泛濫,使得如何海量文本信息中挖掘有效的信息已經(jīng)成為網(wǎng)絡(luò)信息時(shí)代亟需解決的重點(diǎn)問題。本文分析如何將數(shù)據(jù)挖掘技術(shù)用于商品評(píng)論識(shí)別,旨在闡明數(shù)據(jù)挖掘技術(shù)發(fā)展現(xiàn)狀,垃圾評(píng)論的特點(diǎn),以及分析數(shù)據(jù)挖掘技術(shù)運(yùn)用到垃圾評(píng)論挖掘過程,為后續(xù)的研究提供理論支撐。

關(guān)鍵詞:垃圾評(píng)論;商品評(píng)論;數(shù)據(jù)挖掘;識(shí)別過程

中圖分類號(hào):TP391 文獻(xiàn)識(shí)別碼:A 文章編號(hào):1001-828X(2016)001-000-02

一、前言

隨著B2C電子商務(wù)模式的日趨成熟,網(wǎng)絡(luò)購物人數(shù)激增,口碑網(wǎng)站、虛擬社區(qū)等在線評(píng)論系統(tǒng)應(yīng)運(yùn)而生,越來越多的人在購買商品后熱衷與在網(wǎng)絡(luò)上發(fā)表評(píng)論,使得在線評(píng)論數(shù)量爆炸式增長(zhǎng)。越來越多的消費(fèi)者根據(jù)這些評(píng)論選擇產(chǎn)品。同時(shí)商家也能根據(jù)這些評(píng)論及時(shí)地獲取消費(fèi)者對(duì)他們的產(chǎn)品和服務(wù)的評(píng)價(jià)信息,從而完善自己的產(chǎn)品或服務(wù)。

然而,網(wǎng)絡(luò)評(píng)論可以是網(wǎng)民在不受約束的情況下隨意發(fā)表的,這種隨意性造成了這些產(chǎn)品評(píng)論中充斥了大量的無用的、不真實(shí)的信息。這些信息既有毫無意義的空話、臟話,又有大量的廣告,甚至還有惡意的誹謗信息。這些信息不是對(duì)產(chǎn)品的真實(shí)評(píng)論,無論是對(duì)于消費(fèi)者還是用戶而言,它們都是垃圾信息。我們稱這些垃圾信息是垃圾評(píng)論。由于網(wǎng)絡(luò)產(chǎn)品評(píng)論的存在不僅是海量的,而且每天都是在大量增加的,產(chǎn)品垃圾評(píng)論的人工識(shí)別是不實(shí)用的。評(píng)論中蘊(yùn)含有很大的信息量,怎樣從海量文本信息中挖掘有效的信息已經(jīng)成為網(wǎng)絡(luò)信息時(shí)代亟需解決的重點(diǎn)問題。

本文針對(duì)基于數(shù)據(jù)挖掘的商品垃圾評(píng)論識(shí)別進(jìn)行了研究。通過分析如何將數(shù)據(jù)挖掘技術(shù)用于商品評(píng)論識(shí)別,進(jìn)而幫助分析評(píng)論中蘊(yùn)含的大量信息,可以了解目標(biāo)產(chǎn)品的市場(chǎng)情況,對(duì)輔助輔助消費(fèi)者做出正確決策、商家提升商品質(zhì)量有著重要作用。

二、研究理論知識(shí)

1.數(shù)據(jù)挖掘技術(shù)及其現(xiàn)狀

隨著信息技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)上產(chǎn)生的數(shù)據(jù)越來越多,人民迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘(data mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程[1]。數(shù)據(jù)挖掘的步驟不是固定不變的,它會(huì)隨應(yīng)用領(lǐng)域的不同而有所變化,結(jié)合不同的專業(yè)知識(shí),會(huì)產(chǎn)生不同的實(shí)施步驟。一般來講,數(shù)據(jù)挖掘通常需要有以下8個(gè)步驟:(1)信息收集,根據(jù)確定的數(shù)據(jù)分析對(duì)象抽象出在數(shù)據(jù)分析中所需要的特征信息,選擇合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫;(2)數(shù)據(jù)集成,把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中;(3)數(shù)據(jù)規(guī)約,得到數(shù)據(jù)集的規(guī)約表示;(4)數(shù)據(jù)清理,將不完整的、含噪聲的、不一致的數(shù)據(jù)清理為完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)倉庫中;(5)數(shù)據(jù)變換,將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式;(6)數(shù)據(jù)挖掘?qū)嵤┻^程,選擇合適的分析工具與統(tǒng)計(jì)方法處理信息,得出有用的分析信息;(7)模式評(píng)估,由專家來驗(yàn)證數(shù)據(jù)挖掘結(jié)果的正確性;(8)知識(shí)表示,將得到的信息以可視化的方式呈現(xiàn)給用戶。

數(shù)據(jù)挖掘的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)有分析價(jià)值與需求的數(shù)據(jù)庫,皆可利用數(shù)據(jù)挖掘工具進(jìn)行有目的的發(fā)掘分析。常見的應(yīng)用案例多發(fā)生在零售業(yè)、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊及醫(yī)療服務(wù)等,伴隨著數(shù)據(jù)挖掘的三個(gè)支撐技術(shù)數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、概率與數(shù)理統(tǒng)計(jì)技術(shù)的快速發(fā)展,數(shù)據(jù)挖掘技術(shù)將應(yīng)用到更為廣闊的領(lǐng)域。

2.垃圾評(píng)論的特點(diǎn)與分類

中文產(chǎn)品評(píng)論領(lǐng)域的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面[2]:(1)評(píng)論文本格式自由多樣(2)評(píng)價(jià)對(duì)象的多樣化(3)評(píng)論內(nèi)容具有近似重復(fù)性(4)不真實(shí)評(píng)論(5)廣告(6)不帶有感情色彩的隨機(jī)文本。因此,本文將垃圾評(píng)論的類型分為以下4種:(1)虛假評(píng)論。虛假評(píng)論既包括槍手代寫的出于推銷、詆毀等目的而故意發(fā)布的不合實(shí)際的評(píng)論,也包括出于發(fā)泄情緒、敷衍應(yīng)付的虛假評(píng)論。第一種評(píng)論發(fā)布者為了節(jié)省時(shí)間和效率,往往大規(guī)模復(fù)制,語言上存在共性,易于識(shí)別;第二種即使人工也難以識(shí)別。(2)廣告。一種是其他商家借助評(píng)論板塊發(fā)布與此商品毫無關(guān)系的廣告信息,包括產(chǎn)品的技術(shù)參數(shù)、產(chǎn)品的鏈接等;另一種是商家自身在進(jìn)行產(chǎn)品促銷時(shí)對(duì)自己產(chǎn)品夸贊,從而更好的銷售該產(chǎn)品。(3)產(chǎn)品咨詢文本。僅僅通過發(fā)布評(píng)論咨詢產(chǎn)品的性能和參數(shù)等,不涉及對(duì)產(chǎn)品的評(píng)價(jià)內(nèi)容。(4)無意義文本??赡苁窃u(píng)論者出于情緒發(fā)泄而隨手發(fā)布的無意義文本,甚至可能是謾罵、人身攻擊等言論,總之與產(chǎn)品毫不相干。

三、基于數(shù)據(jù)挖掘的商品垃圾評(píng)論識(shí)別過程

1.垃圾評(píng)論預(yù)處理

一般使用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行垃圾評(píng)論的抓取,網(wǎng)絡(luò)爬蟲[3]又被稱為網(wǎng)絡(luò)機(jī)器人、網(wǎng)頁蜘蛛,它能夠按照一定的規(guī)則自動(dòng)抓取萬維網(wǎng)的信息。爬蟲的主要目的是電商購物網(wǎng)站上的評(píng)論網(wǎng)頁下載到本地形成一個(gè)或聯(lián)網(wǎng)內(nèi)容的鏡像備份。爬蟲首先將研究者提供的目標(biāo)頁面的URL放入待抓取URL隊(duì)列,然后從待抓取URL隊(duì)列中取出待抓取在URL解析DNS,并將URL對(duì)應(yīng)的網(wǎng)頁內(nèi)容下載下來,存儲(chǔ)進(jìn)已下載網(wǎng)頁庫中。

從網(wǎng)頁上抽取到所需的產(chǎn)品介紹和評(píng)論數(shù)據(jù)后,本文就要根據(jù)產(chǎn)品介紹提取出產(chǎn)品特征詞和將評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理。首先根據(jù)相應(yīng)商品介紹提取商品信息的特征詞,例如對(duì)衣服尺寸、顏色的介紹等。然后對(duì)評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理,評(píng)論數(shù)據(jù)的預(yù)處理從評(píng)論情感極性與評(píng)論內(nèi)容兩方面入手,前者可以借助中科院的情感詞庫進(jìn)行分詞,后者可采用分詞工具進(jìn)行分詞處理。

接著根據(jù)評(píng)論語言特點(diǎn),將評(píng)論特征分為4個(gè)方面,分別為(1)產(chǎn)品相關(guān)程度,可根據(jù)情感詞與特征詞出現(xiàn)的情況,將無意義的評(píng)論剔除;(2)超鏈接特征,可提出評(píng)論中含有超鏈接的廣告垃圾評(píng)論;(3)咨詢特征,如果語句中出現(xiàn)過多的“?”標(biāo)點(diǎn),且疑問句的個(gè)數(shù)與句子總數(shù)的比值過大,則為咨詢文本。

2.垃圾評(píng)論識(shí)別方法

(1)評(píng)論相似度分析。評(píng)論相似度分析是指依據(jù)評(píng)論內(nèi)容相似程度來識(shí)別垃圾評(píng)論,由于一些垃圾評(píng)論者出于減少工作量并提高效率的目的,會(huì)大量復(fù)制相同的評(píng)論,因此可以將重復(fù)的評(píng)論作為訓(xùn)練集,建立機(jī)器學(xué)習(xí)模型來區(qū)分垃圾評(píng)論與非垃圾評(píng)論[4]。如果訓(xùn)練集難以標(biāo)記,可以基于評(píng)論中共同評(píng)價(jià)的產(chǎn)品特征進(jìn)行文本匹配,評(píng)論內(nèi)容中存在大量的復(fù)制或近乎復(fù)制的內(nèi)容則可視為垃圾評(píng)論,幾乎不相關(guān)的則可視為無關(guān)評(píng)論。

(2)評(píng)論情感分析。評(píng)論情感分析則是對(duì)評(píng)論中帶有情感色彩的主觀性文本進(jìn)行分析、處理,如通過自然語言文本來計(jì)算評(píng)論情感的分值,即情感詞占評(píng)論總詞匯的數(shù)量值、情感詞處于評(píng)論語句兩端還是中間等特征進(jìn)行計(jì)算,如果評(píng)論的情感極性過強(qiáng),則說明該評(píng)論很有可能是虛假評(píng)論?;蛘呤褂眠z傳算法對(duì)語言結(jié)構(gòu)及情感極性進(jìn)行優(yōu)化,也能使得實(shí)驗(yàn)效果更佳。

(3)評(píng)論相關(guān)性分析。評(píng)論相關(guān)性分析是通過分析評(píng)論表達(dá)的主題是否與商品、服務(wù)、店家有關(guān)來識(shí)別出垃圾評(píng)論。如可以使用建模的方法針對(duì)一些評(píng)論樣本,提取出各種評(píng)論表達(dá)的主題,建立統(tǒng)計(jì)模型來識(shí)別垃圾評(píng)論。也可以使用LDA[5]的主題模型,用來識(shí)別大規(guī)模文檔集貨語料集中潛藏的主題信息。傳統(tǒng)判斷兩個(gè)文檔相似性的方法是通過查看兩個(gè)文檔共同出現(xiàn)的單詞的多少,如TF-IDF等,這種方法沒有考慮到文字背后的語義關(guān)聯(lián),可能在兩個(gè)文檔共同出現(xiàn)的單詞很少甚至沒有, 在主題模型中,主題表示一個(gè)概念、一個(gè)方面,表現(xiàn)為一系列相關(guān)的單詞,是這些單詞的條件概率。主題就是一個(gè)桶,里面裝了出現(xiàn)概率較高的單詞,這些單詞與這個(gè)主題有很強(qiáng)的相關(guān)性。

四、總結(jié)與展望

隨著云時(shí)代的來臨,大數(shù)據(jù)已經(jīng)和我們密不可分,越來越多的人在購物時(shí)可以發(fā)表自己的購物體驗(yàn)與使用效果,購物網(wǎng)站中的評(píng)論信息不斷增加。面對(duì)這些海量的、雜亂的、真假不一的產(chǎn)品評(píng)論信息,商品垃圾評(píng)論的識(shí)別與治理工作日趨迫切。本文結(jié)合以往學(xué)者研究,進(jìn)行基于數(shù)據(jù)挖掘的商品垃圾評(píng)論識(shí)別過程研究,旨在闡明數(shù)據(jù)挖掘技術(shù)發(fā)展現(xiàn)狀,垃圾評(píng)論的特點(diǎn),以及分析數(shù)據(jù)挖掘技術(shù)運(yùn)用到垃圾評(píng)論挖掘過程,為后續(xù)的研究提供理論支撐。

參考文獻(xiàn):

[1]韓家煒等著.數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版).北京:機(jī)械工業(yè)出版社,2012.

[2]N.Jindal,B. Liu. Opinion spam and analysis. Proceedings of the first ACM international conference on Web search and data mining,2008:219-229.

[3]曾偉輝.支持 AJAX 的網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 中國(guó)科學(xué)技術(shù)大學(xué),2009.

[4] Jindal N, Liu B. Review spam detection[C]. In: 16th International World Wide Web Conference, WWW2007, May 8,2007 - May 12,2007. Association for Computing Machinery, New York, NY,USA,2007:1189-1190.

[5]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8): 1423-1436.

作者簡(jiǎn)介:李京蔚(1993-),女,湖北省襄陽市南漳縣,華中師范大學(xué)信息管理學(xué)院,本科,研究方向:管理系統(tǒng)模擬。

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
新安县| 登封市| 亚东县| 西宁市| 梁河县| 临桂县| 杭锦旗| 眉山市| 昆山市| 托克逊县| 沙洋县| 沐川县| 墨玉县| 依安县| 乐安县| 井冈山市| 汝州市| 颍上县| 额尔古纳市| 湖南省| 定远县| 桦川县| 板桥市| 东兰县| 缙云县| 三明市| 庆城县| 资兴市| 历史| 梁平县| 青阳县| 乌兰县| 铜山县| 临邑县| 绥滨县| 丹寨县| 西青区| 泰安市| 温州市| 涿州市| 库尔勒市|