国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的在線(xiàn)評(píng)論傾向性分析

2021-06-25 06:44:26支世堯
科學(xué)技術(shù)創(chuàng)新 2021年15期
關(guān)鍵詞:傾向性分詞消極

支世堯 彭 棟 朱 旭

(南京審計(jì)大學(xué)信息工程學(xué)院,江蘇 南京211815)

1 概述

隨著社交網(wǎng)絡(luò)的迅猛發(fā)展,互聯(lián)網(wǎng)上的用戶(hù)評(píng)論和觀(guān)點(diǎn)激增。這些隱含用戶(hù)情感傾向的文本在產(chǎn)品推薦、輿情監(jiān)控以及信息預(yù)測(cè)等方面具有重要意義,并得到了廣泛應(yīng)用。本次研究以去哪兒網(wǎng)站上南京地區(qū)如家和漢庭酒店的客戶(hù)評(píng)論為分析對(duì)象,運(yùn)用樸素貝葉斯方法對(duì)評(píng)論文本進(jìn)行傾向性分析研究。

2 傾向性分析

2.1 相關(guān)文獻(xiàn)

Pang[1]等人于2002 年針對(duì)電影評(píng)論數(shù)據(jù)進(jìn)行傾向性分析,此次試驗(yàn)首次應(yīng)用機(jī)器學(xué)習(xí)算法。結(jié)果表明,基于SVM、NB 等機(jī)器學(xué)習(xí)方法的得出的實(shí)驗(yàn)結(jié)果要優(yōu)于大部分基于規(guī)則的算法。Ye[2]等人使用了N-gran、NB 以及SVM 三種方法進(jìn)行了文本分類(lèi)研究,研究結(jié)果表明,當(dāng)訓(xùn)練集不斷增大,NB 的分類(lèi)效果與其余兩種漸趨統(tǒng)一。

2.2 研究思路

研究思路分為以下步驟:先使用爬蟲(chóng)從去哪兒網(wǎng)站爬取所需的評(píng)論數(shù)據(jù),接著對(duì)文本數(shù)據(jù)進(jìn)行清洗和預(yù)處理,預(yù)處理包括中文分詞、詞性標(biāo)注、停用詞去除等步驟,然后運(yùn)用樸素貝葉斯方法對(duì)處理好的文本進(jìn)行傾向性分析,最后對(duì)分類(lèi)結(jié)果進(jìn)行LDA 主題挖掘,圖1。

圖1 研究流程與框架

2.3 實(shí)驗(yàn)數(shù)據(jù)集

數(shù)據(jù)采集:(1)如家酒店和漢庭酒店在2019 年的“中國(guó)連鎖酒店品牌規(guī)模排行榜”上占據(jù)前兩名。因此本次實(shí)驗(yàn)以去哪兒網(wǎng)作為數(shù)據(jù)來(lái)源,爬取了該網(wǎng)站上南京的如家和漢庭酒店的用戶(hù)評(píng)價(jià)。(2)譚松波博士分享的標(biāo)注了褒貶類(lèi)別的10000 條中文酒店評(píng)論語(yǔ)料。

2.4 文本預(yù)處理

數(shù)據(jù)清洗:去除沒(méi)有分析價(jià)值的文本語(yǔ)料,包括:存在emoji表情符號(hào)與亂碼文本、存在大量無(wú)意義字符的文本、語(yǔ)料太短的無(wú)意義文本。經(jīng)過(guò)數(shù)據(jù)清洗,最終獲取如家用戶(hù)評(píng)價(jià)21362 條和漢庭用戶(hù)評(píng)價(jià)18341 條。中文分詞:中文分詞任務(wù)是按照需求將中文文本切分為詞序列。未登錄詞識(shí)別和歧義消解是中文分詞的兩大難點(diǎn)。未登錄詞是指分詞詞典中沒(méi)有的詞或詞組,歧義是指對(duì)同一個(gè)待切分字符串存在多個(gè)分詞結(jié)果[3]。中文分詞算法可以分為機(jī)械分詞法、統(tǒng)計(jì)分詞法以及理解分詞法三種。在中文分詞過(guò)程中,很多工具通常是結(jié)合使用機(jī)械分詞法與統(tǒng)計(jì)分詞法。比如本文選用的自然語(yǔ)言處理工具-結(jié)巴分詞,就先采用機(jī)械分詞法進(jìn)行中文分詞,然后利用HMM 識(shí)別未登錄詞,圖2。

圖2 隱馬爾可夫模型

詞性標(biāo)注:詞性表示一個(gè)詞的特點(diǎn)以及在上下文中的作用。詞性標(biāo)注是指在中文分詞的基礎(chǔ)上,根據(jù)詞在句子中的含義,結(jié)合上下文確定該詞在句子中的詞性,例如名詞、動(dòng)詞等,并添加標(biāo)簽的過(guò)程。由于中文中的詞組不具有前綴、后綴且詞性不固定,導(dǎo)致了中文的詞性標(biāo)注相比較英文更加困難。中文的詞性標(biāo)注算法可以分為兩大類(lèi):一是基于規(guī)則的詞性標(biāo)注;二是基于統(tǒng)計(jì)算法的詞性標(biāo)注。本文選用的NLP 工具-結(jié)巴分詞,就是同時(shí)采用詞典和HMM 對(duì)文本進(jìn)行詞性標(biāo)注。停用詞去除:停用詞一般出現(xiàn)頻率較高但自身卻不具有實(shí)際意義。本文采用正則表達(dá)式法將其過(guò)濾[4]。

2.5 模型訓(xùn)練

通過(guò)查閱資料發(fā)現(xiàn),基于樸素貝葉斯算法判斷積極、消極情感傾向,對(duì)訓(xùn)練樣本有著較強(qiáng)的依賴(lài)性。為了提高效率以及準(zhǔn)確率,本文直接使用了中科院計(jì)算所的譚松波博士分享的標(biāo)注了褒貶類(lèi)別的10000 條中文酒店評(píng)論語(yǔ)料。其中積極評(píng)價(jià)7000條,消極評(píng)價(jià)3000 條。抽取積極評(píng)價(jià)樣本6000 條和消極評(píng)價(jià)樣本2000 條進(jìn)行訓(xùn)練,將剩余的各1000 條評(píng)價(jià)樣本進(jìn)行測(cè)試。訓(xùn)練結(jié)果如表1 所示。

表1 模型訓(xùn)練結(jié)果

基于樸素貝葉斯方法進(jìn)行傾向性分析,其中消極評(píng)價(jià)準(zhǔn)確率達(dá)到了82%,召回率達(dá)到81%;積極評(píng)價(jià)準(zhǔn)確率達(dá)到了86%,召回率達(dá)到83%。該算法能較好地反映文本針對(duì)酒店評(píng)論的意見(jiàn)傾向數(shù)值。但由于消極評(píng)價(jià)訓(xùn)練集樣本較少,無(wú)法完全學(xué)習(xí)消極評(píng)價(jià)特征,導(dǎo)致消極評(píng)價(jià)準(zhǔn)確率較低。

2.6 實(shí)驗(yàn)結(jié)果分析

利用上文得到模型,對(duì)已清洗過(guò)的酒店評(píng)論數(shù)據(jù)進(jìn)行情感分析并收集所有包含標(biāo)簽的情感評(píng)論文本,得到表2 所示結(jié)果。

表2 評(píng)論數(shù)目

經(jīng)過(guò)傾向性分析得知,如家酒店積極評(píng)價(jià)數(shù)占比77%,消極評(píng)價(jià)數(shù)占比23%;漢庭酒店積極評(píng)價(jià)數(shù)占比75%,消極評(píng)價(jià)數(shù)占比25%。兩家酒店的消費(fèi)者消極評(píng)價(jià)占比接近總評(píng)價(jià)數(shù)的1/4,說(shuō)明消費(fèi)者對(duì)兩家酒店不滿(mǎn)意的情況較多。即酒店自身需要重點(diǎn)關(guān)注消費(fèi)者的消極評(píng)價(jià),并對(duì)消費(fèi)者關(guān)注的領(lǐng)域進(jìn)行改進(jìn)完善。若想直觀(guān)體現(xiàn)兩家酒店各自的優(yōu)劣勢(shì),只關(guān)注傾向性分析的結(jié)果還遠(yuǎn)遠(yuǎn)不夠。為了進(jìn)一步展示兩家酒店的利弊,下面使用LDA 主題模型挖掘消費(fèi)者對(duì)如家酒店和漢庭酒店的滿(mǎn)意和不滿(mǎn)的地方。

3 基于LDA 的評(píng)論主題挖掘

3.1 LDA 主題模型介紹

2003 年,David Blei 等三人[5]提出具有重要意義的LDA 主題模型(潛在狄利克雷分布,Latent Dirichlet Allocation),掀起了主題模型研究的浪潮。該模型有特征詞層、主題層、文檔層三個(gè)層次,實(shí)質(zhì)就是利用文本的特征詞的共現(xiàn)特征來(lái)挖掘文本的主題。

LDA 主要是通過(guò)無(wú)監(jiān)督學(xué)習(xí),在眾多文本中挖掘其中隱含著的主題信息,提高用戶(hù)了解文檔內(nèi)容的效率。其主要思想為:整個(gè)文本集是基于主題的概率分布,而每個(gè)主題又是基于特征詞的概率分布[6]。

3.2 LDA 流程

3.2.1 對(duì)使用樸素貝葉斯分類(lèi)器完成情感分析的語(yǔ)料進(jìn)行分詞。

3.2.2 使用向量化工具對(duì)于文本集進(jìn)行向量化。

3.2.3 調(diào)用LDA 函數(shù),獲得主題識(shí)別結(jié)果[7]。

3.3 LDA 主題挖掘結(jié)果展示

LDA 結(jié)果只有一系列用于描述該主題的高頻關(guān)鍵字。經(jīng)過(guò)梳理總結(jié),得到表3 結(jié)論。

表3 積極評(píng)價(jià)主題挖掘結(jié)論

積極評(píng)論主題挖掘結(jié)論兩家酒店基本相同,可見(jiàn)兩家酒店的優(yōu)勢(shì)無(wú)太大差異。消極評(píng)論主題挖掘結(jié)論才是影響消費(fèi)者選擇的重點(diǎn),表4-5。

表4 消極評(píng)價(jià)主題挖掘結(jié)論

表5 消極評(píng)價(jià)主題挖掘結(jié)論

兩家酒店的消極評(píng)論主題挖掘結(jié)論有部分差異,但也有許多相似點(diǎn),這些可以說(shuō)是經(jīng)濟(jì)型快捷酒店的通病。

4 結(jié)論

本文對(duì)兩家酒店的用戶(hù)評(píng)論進(jìn)行傾向性分析和LDA 主題挖掘,分析出兩家酒店各自的優(yōu)點(diǎn)和缺點(diǎn),為消費(fèi)者的選擇提供了幫助。也希望兩家酒店的管理人員在發(fā)揚(yáng)優(yōu)點(diǎn)的同時(shí)對(duì)各自的缺點(diǎn)加以改進(jìn),為消費(fèi)者提供更優(yōu)質(zhì)的服務(wù)。

猜你喜歡
傾向性分詞消極
避免消極溝通
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
結(jié)巴分詞在詞云中的應(yīng)用
值得重視的分詞的特殊用法
關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
“沒(méi)準(zhǔn)兒”“不一定”“不見(jiàn)得”和“說(shuō)不定”的語(yǔ)義傾向性和主觀(guān)性差異
家庭教育:你種的是積極樹(shù)還是消極樹(shù)?
海峽姐妹(2015年3期)2015-02-27 15:10:14
“消極保護(hù)”不如“積極改變”
一種面向博客群的主題傾向性分析模型
高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
荥阳市| 滦平县| 双桥区| 平山县| 班戈县| 织金县| 池州市| 石泉县| 溆浦县| 磐石市| 察雅县| 阳泉市| 莱州市| 弥勒县| 敖汉旗| 德清县| 枣庄市| 延津县| 浦北县| 南华县| 叙永县| 宜良县| 富平县| 永平县| 河池市| 黄梅县| 舞钢市| 柘荣县| 安图县| 台南市| 四会市| 友谊县| 汉源县| 安福县| 左权县| 于都县| 绵竹市| 太保市| 万荣县| 繁峙县| 平乡县|