国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感分析的商品評(píng)價(jià)模型構(gòu)建研究

2018-05-17 06:49陳曉玲許鈞儒
銅陵學(xué)院學(xué)報(bào) 2018年6期
關(guān)鍵詞:詞典情感評(píng)價(jià)

陳曉玲 褚 漢 許鈞儒

(安徽財(cái)經(jīng)大學(xué),安徽 蚌埠 233030)

一、引言

隨著網(wǎng)上購(gòu)物行為的增多,商品評(píng)論數(shù)量也越來(lái)越多,評(píng)論數(shù)據(jù)的可讀性與豐富性,使得評(píng)論往往成為消費(fèi)者決定是否購(gòu)買(mǎi)的標(biāo)尺。由于評(píng)論數(shù)據(jù)量過(guò)于巨大,討論的主題涉及商品的各個(gè)屬性,想從大量的商品評(píng)論中整理出有用信息,是非常困難的。筆者采用情感分析方法,將海量評(píng)論中所蘊(yùn)含的信息挖掘整理出來(lái)——建立基于情感分析的商品評(píng)價(jià)模型,對(duì)特定商品進(jìn)行評(píng)價(jià)。

情感分析是2001年在分析股票的留言板上首次出現(xiàn),作者認(rèn)為,股票的走勢(shì)會(huì)受到投資者的情感影響,而投資者的情感則可以通過(guò)股票留言板中的留言來(lái)提取。次年,Turney和Pang[1]分別提出了有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的情感分類研究。

Pang(2002)認(rèn)為,對(duì)文檔進(jìn)行分類時(shí)不必對(duì)整個(gè)文檔進(jìn)行研究,應(yīng)該將文本分類技術(shù)用于文檔中含有主觀情緒的部分。Abbasi(2008)對(duì)提取特征的過(guò)程進(jìn)行了改進(jìn),開(kāi)發(fā)了熵加權(quán)遺傳算法,通過(guò)對(duì)阿拉伯語(yǔ)與英語(yǔ)的語(yǔ)法句法特征分析,提取特征集,有效提高了學(xué)習(xí)的準(zhǔn)確度,數(shù)據(jù)的準(zhǔn)確識(shí)別達(dá)到了95%[2],這些屬于有監(jiān)督的機(jī)器學(xué)習(xí)。

無(wú)監(jiān)督學(xué)習(xí),也稱基于詞典的規(guī)則匹配,通過(guò)對(duì)特定語(yǔ)言的語(yǔ)法結(jié)構(gòu)進(jìn)行分析,制定規(guī)則和詞典,對(duì)語(yǔ)句進(jìn)行分析。pak(2010)等人對(duì)國(guó)外流行的推特上的內(nèi)容進(jìn)行情感分析表明,利用這種社交平臺(tái)監(jiān)控國(guó)民輿情具有可操作性,并且發(fā)現(xiàn)越來(lái)越多的人喜歡在這種平臺(tái)表達(dá)自己情感[3]。

國(guó)內(nèi)關(guān)于情感分析的研究較晚。朱嫣嵐(2006)認(rèn)為,詞作為文章的基礎(chǔ)單元,首先要對(duì)詞的正負(fù)面做研究,進(jìn)而研究出詞義傾向模型。其核心思想在于相同極性的詞會(huì)經(jīng)常在一起出現(xiàn),或者是可以相互替換[4]。張子瓊等人在2010年對(duì)當(dāng)時(shí)情感分析的狀況進(jìn)行了一個(gè)總結(jié),論述了商品評(píng)論挖掘的經(jīng)濟(jì)價(jià)值,對(duì)于股票、電影和一些電子商品的商品評(píng)論中含有的褒貶義情感與商品的銷量成正相關(guān)[5]。

隨著電子商務(wù)的蓬勃發(fā)展,消費(fèi)者迫切需要科學(xué)有效的商品評(píng)價(jià)數(shù)據(jù)指導(dǎo)消費(fèi)。如何利用網(wǎng)上海量評(píng)論數(shù)據(jù),有效地分析得出真實(shí)、準(zhǔn)確的評(píng)價(jià)信息,成為信息科學(xué)、統(tǒng)計(jì)學(xué)等領(lǐng)域的研究熱點(diǎn)。本文以情感分析理論為基礎(chǔ),側(cè)重分析基于情感分析的商品評(píng)價(jià)模型的構(gòu)建,以便對(duì)電子商務(wù)產(chǎn)品進(jìn)行評(píng)價(jià)。

二、基于情感分析的商品評(píng)價(jià)模型構(gòu)建

基于情感分析的評(píng)價(jià),其評(píng)價(jià)指標(biāo)源于大量的評(píng)論數(shù)據(jù),數(shù)據(jù)的獲取和處理是構(gòu)建模型的基礎(chǔ)。

1.數(shù)據(jù)的獲取

利用python對(duì)電商評(píng)論數(shù)據(jù)進(jìn)行抓取,需要在發(fā)鏈接請(qǐng)求時(shí)附帶上完善的header信息即可,如圖1所示。

圖1 請(qǐng)求信息

2.數(shù)據(jù)的清洗

由于刷單行為越演越烈,數(shù)據(jù)清洗成為構(gòu)建商品評(píng)價(jià)模型的重要一環(huán)。數(shù)據(jù)清洗基于二個(gè)規(guī)則,第一,每個(gè)買(mǎi)家每天最多在一件商品下評(píng)論一次,這是為了杜絕同一賬號(hào)在同一商品下多次刷評(píng)論的行為,也是為了刪除爬取過(guò)程中的重復(fù)數(shù)據(jù)。第二,從評(píng)價(jià)內(nèi)容的角度,利用余弦定理,從評(píng)價(jià)內(nèi)容中找出相似的文本向量,剔除極度相似的評(píng)論。

3.指標(biāo)體系的建立

本文以手機(jī)為例,討論指標(biāo)體系的構(gòu)建。

(1)主題模型

利用LDA(Latent Dirichlet Allocation)主題模型,我們可以從經(jīng)過(guò)清洗的大量數(shù)據(jù)文本中找出潛在主題——即消費(fèi)者所關(guān)心的商品屬性,通過(guò)人為的判定這些主題的類別,來(lái)確定出商品的評(píng)價(jià)指標(biāo)體系。

LDA模型對(duì)詞語(yǔ)和文章的關(guān)系有著這么一種認(rèn)識(shí),即每一篇文章或者每一段文字都是由一個(gè)或者多個(gè)主題構(gòu)成,每一個(gè)主題又是由特定的詞組合而成。LDA的聯(lián)合概率公式為:

每一篇文章首先從主題分布θ中挑選出一個(gè)主題 z(p(θ|α)),同時(shí) z對(duì)應(yīng)著一個(gè)詞分布 p(zn|θ),從詞分布中挑選出N詞語(yǔ),再重新回到主題分布中挑選主題,循環(huán)K次就是一篇文章的詞分布。α,β是主題分布與詞分布的先驗(yàn)分布(狄里克雷分布)的參數(shù)。計(jì)算后驗(yàn)概率為

似然函數(shù):

該式中含有的參數(shù)α,β是無(wú)法直接求解的,只能使用計(jì)算機(jī)進(jìn)行大量的樣本抽取,對(duì)后驗(yàn)分布進(jìn)行估計(jì)。

(2)指標(biāo)體系

利用主題模型,從大量評(píng)論中挑出消費(fèi)者最關(guān)注的商品屬性,構(gòu)成評(píng)價(jià)指標(biāo)體系。

表1 指標(biāo)體系表

4.情感單元的抽取

情感單元包含兩部分信息,情感的主體和情感。情感單元的抽取目的是將雜亂的評(píng)論變?yōu)橐?guī)范的問(wèn)卷式數(shù)據(jù),一段評(píng)論可能包含多個(gè)情感單元,筆者只抽取每段評(píng)論中與最終評(píng)價(jià)指標(biāo)息息相關(guān)的情感單元。

情感單元中的情感主體利用一些篩選規(guī)則即可以很快判定情感。從可實(shí)現(xiàn)性與高效的角度,筆者將每一條規(guī)則定為四個(gè)部分[關(guān)鍵詞、聯(lián)合詞1、聯(lián)合詞2、互斥詞]。 例如[(容量),(電),(…),(內(nèi)存、存儲(chǔ)、空間)],這樣一條簡(jiǎn)單的規(guī)則,已經(jīng)可以將電池容量這個(gè)主體抽取出來(lái)了,經(jīng)過(guò)反復(fù)測(cè)試,筆者建立了90余條規(guī)則用于抽取情感主體。

情感單元中的情感抽取則是根據(jù)三部分決定的,情感詞(褒貶義詞)、程度詞和轉(zhuǎn)意詞,如表2所示:

表2 詞性標(biāo)注

每一個(gè)褒貶義詞都有自己的褒貶義得分,褒義詞正分,貶義詞負(fù)分,程度詞0.8至2分,轉(zhuǎn)意詞-1分,每一句計(jì)算公式為:

最終的情感分還需要進(jìn)行規(guī)范:

最終的抽取結(jié)果如表3所示:

表3 評(píng)論情感單元提取表

5.情感詞典的擴(kuò)充

盡管與前幾年相比,大學(xué)新生的英語(yǔ)水平有了明顯提高,但仍有相當(dāng)一部分學(xué)生的英語(yǔ)水平并不足以滿足ESP課程的要求。如果學(xué)習(xí)者沒(méi)有一定的英語(yǔ)基礎(chǔ),ESP教學(xué)因增加了專業(yè)內(nèi)容,且教學(xué)目標(biāo)并不僅僅是對(duì)語(yǔ)言技能的訓(xùn)練,從而將加重這些學(xué)生的學(xué)習(xí)負(fù)擔(dān),他們會(huì)喪失英語(yǔ)學(xué)習(xí)的興趣。因而,現(xiàn)階段在我國(guó)高校大面積推廣ESP取代EGP顯然過(guò)于冒進(jìn)。一個(gè)普遍接受的做法是在學(xué)習(xí)者通過(guò)大學(xué)英語(yǔ)四級(jí)考試以后再開(kāi)展ESP教學(xué),這樣教學(xué)效果將大大提高。目前,可以在學(xué)生入學(xué)英語(yǔ)水平普遍較高的院校進(jìn)行試點(diǎn)ESP取代EGP,以為下一步改革積累經(jīng)驗(yàn)。

情感詞典是幫助確定情感強(qiáng)弱與翻轉(zhuǎn)的詞典,本文使用的基礎(chǔ)詞典是hownet情感詞典。“這部手機(jī)好”和“這部手機(jī)很好“這兩句話都是褒義,但是“很”這個(gè)程度詞就讓后一句的褒義要大于前一句。由于,Hownet詞典沒(méi)有基于特定方向,像發(fā)燙、黑屏、卡機(jī)、自動(dòng)關(guān)機(jī)這類過(guò)于專業(yè)化的詞匯沒(méi)有出現(xiàn)在詞典中,需要根據(jù)研究方向進(jìn)行擴(kuò)充和修改詞典。筆者將利用Apriori和word2vec模型對(duì)評(píng)論進(jìn)行處理,找出和研究主體相關(guān)的詞,再人工篩選出合適的詞加入詞典。利用非監(jiān)督的機(jī)器學(xué)習(xí)找出行業(yè)相關(guān)的詞,再人工篩選,能夠有效提高詞典的擴(kuò)充效率與準(zhǔn)確率。

6.評(píng)論的有效度模型

在商品的評(píng)價(jià)中,貼合消費(fèi)者思維模式的評(píng)論是高質(zhì)量的評(píng)論,筆者希望評(píng)論的質(zhì)量越高對(duì)模型最終結(jié)果影響越大,因此,在建立商品評(píng)價(jià)模型前,就需要先建立評(píng)論的有效度模型。

在爬取的評(píng)論數(shù)據(jù)中,除了有每一條評(píng)論的文本內(nèi)容,還含有一些其他信息,比如買(mǎi)家的昵稱、等級(jí)、評(píng)論的點(diǎn)贊數(shù)量、回復(fù)數(shù)量和評(píng)價(jià)時(shí)間,這些信息可以代表問(wèn)卷質(zhì)量,表4為評(píng)論的附帶信息。

表4 買(mǎi)家相關(guān)信息

指標(biāo)都是效益型指標(biāo),我們利用熵值法確定權(quán)重,熵值法的核心公式:

計(jì)算第i個(gè)評(píng)論第j項(xiàng)指標(biāo)的占比

計(jì)算評(píng)論的第j項(xiàng)指標(biāo)熵

7.商品評(píng)價(jià)模型

在選取評(píng)價(jià)模型時(shí)考慮了共性和個(gè)性兩個(gè)要求:共性,評(píng)價(jià)模型將海量評(píng)論的信息總結(jié)出規(guī)律,同時(shí)又盡可能的保留更多的信息。個(gè)性,商品的同一屬性可能不同的人的評(píng)價(jià)是不一樣的,所以希望在最終評(píng)價(jià)時(shí)可以針對(duì)不同類型的客戶,給予不同的評(píng)價(jià)結(jié)果。

模糊關(guān)系矩陣R可以解決共性問(wèn)題,不僅從評(píng)論中提取出有效的信息,最終的信息是根據(jù)評(píng)論信息計(jì)算該商品屬性對(duì)于非常滿意、滿意、一般、不太滿意和非常不滿意五個(gè)消費(fèi)者態(tài)度的隸屬度,這樣的隸屬度矩陣富含更多的信息。

權(quán)數(shù)與關(guān)系矩陣分別代表了個(gè)性與共性,筆者很難斷定兩者的重要性,所以筆者更傾向選擇算子值得注意的是模糊關(guān)系矩陣的構(gòu)造不同于一般的計(jì)算公式,矩陣的計(jì)算與前文評(píng)論的有效度是密不可分的:

每條評(píng)論有以下幾個(gè)指標(biāo),見(jiàn)表5

表5 隸屬度指標(biāo)

評(píng)價(jià)模型的構(gòu)建邏輯見(jiàn)圖2。

圖2 評(píng)價(jià)模型構(gòu)建邏輯

三、結(jié)論

筆者通過(guò)爬蟲(chóng)技術(shù)從電商網(wǎng)站獲取評(píng)論數(shù)據(jù),利用情感分析技術(shù)將不規(guī)則的評(píng)論數(shù)據(jù)轉(zhuǎn)變成規(guī)范的問(wèn)卷樣式,再利用模糊數(shù)學(xué)方法建立商品評(píng)價(jià)模型,整個(gè)流程省時(shí)省力。評(píng)論數(shù)據(jù)作為評(píng)價(jià)模型的源數(shù)據(jù),包含了非常重要的消費(fèi)者體驗(yàn)信息,模型評(píng)價(jià)結(jié)果貼合消費(fèi)者感受。研究表明,利用評(píng)價(jià)結(jié)果幫助消費(fèi)者挑選商品是可行的,當(dāng)擁有大量手機(jī)的模糊矩陣后,就可以在更大范圍內(nèi)幫助不同消費(fèi)者挑選商品。

猜你喜歡
詞典情感評(píng)價(jià)
SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
中藥治療室性早搏系統(tǒng)評(píng)價(jià)再評(píng)價(jià)
如何在情感中自我成長(zhǎng),保持獨(dú)立
米蘭·昆德拉的A-Z詞典(節(jié)選)
米沃什詞典
情感
詞典引發(fā)的政治辯論由來(lái)已久 精讀
詩(shī)歌與情感的斷想
如何在情感中自我成長(zhǎng),保持獨(dú)立
漫畫(huà)詞典
西丰县| 蒲江县| 响水县| 胶州市| 兴安盟| 洪雅县| 泗水县| 沿河| 马山县| 天长市| 苏尼特左旗| 集安市| 晋中市| 衡山县| 澳门| 惠来县| 宜城市| 迁西县| 汕尾市| 榆林市| 轮台县| 谢通门县| 陇南市| 宣威市| 昌都县| 绵阳市| 莱芜市| 武乡县| 温泉县| 府谷县| 邛崃市| 灵石县| 汤阴县| 西和县| 马鞍山市| 浪卡子县| 武义县| 修武县| 墨竹工卡县| 当涂县| 长垣县|