国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于評(píng)論文本的情感分析研究

2018-11-07 02:19:20任高山韓友德
中小企業(yè)管理與科技 2018年14期
關(guān)鍵詞:分詞段落語料

任高山,韓友德

(南昌航空大學(xué),南昌330063)

1 引言

文本情感分析是指分析作者在傳達(dá)信息時(shí)所隱含的情緒狀態(tài),對(duì)作者的意見進(jìn)行判斷或者評(píng)估,給出作者態(tài)度是褒義、貶義的結(jié)論。企業(yè)和商家面對(duì)用戶的大量情感評(píng)論信息,可以不斷挖掘有傾向的數(shù)據(jù),統(tǒng)計(jì)用戶對(duì)消費(fèi)產(chǎn)品的反饋,向消費(fèi)者推薦潛在消費(fèi)品等用途。

本文的結(jié)構(gòu)是這樣組織的:第一部分介紹了情感分析的相關(guān)研究現(xiàn)狀;第二部分對(duì)情感分析語料文本的預(yù)處理進(jìn)行了概要闡述;第三部分對(duì)不同的特征提取模型和不同的機(jī)器學(xué)習(xí)分類算法做出了實(shí)驗(yàn)驗(yàn)證,并對(duì)結(jié)果進(jìn)行了詳細(xì)的分析;第四部分給出了結(jié)語。

2 相關(guān)研究現(xiàn)狀

基于詞向量表征模型,Mikolov提出了一種基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方式將詞語映射成連續(xù)(高維)向量的Word2vec算法[1],利用中心詞及其上下文建立局部詞嵌入窗口模型,用以進(jìn)行詞語特征向量的優(yōu)化訓(xùn)練[1]。詞向量具有良好的語義特性,是表示詞語特征?;赪ord2Vec,Le和Mikolov等人[2]提出了Doc2Vec方法作為一個(gè)處理可變長(zhǎng)度文本的總結(jié)性方法。除了在增加一個(gè)段落向量以外,Doc2vec幾乎等同于Word2Vec。相比于Word2Vec,Doc2Vec優(yōu)勢(shì)在于訓(xùn)練出每一篇文本的向量,更能全面理解文本的語義特征。

3 文本預(yù)處理的技術(shù)

對(duì)于語料文本信息需要進(jìn)行文本預(yù)處理,主要包括規(guī)范編碼格式、文本分詞等步驟。

①規(guī)范編碼格式,對(duì)于評(píng)論語料,通常情況下,會(huì)統(tǒng)一存儲(chǔ)為規(guī)范的編碼格式,如utf-8格式等。

②文本分詞,文本的單詞將會(huì)被后續(xù)分類操作中作為特征來表征文本,文本分詞是否正確、高效直接影響后續(xù)實(shí)驗(yàn)結(jié)果。Python中文分詞組件Jieba,可以實(shí)現(xiàn)分詞、添加自定義詞典、關(guān)鍵詞提取、詞性標(biāo)注、并行分詞等功能,在全模式下,速度可達(dá)到1.5MB/s,本文采取的便是Jieba分詞。

4 關(guān)于Doc2vec模型原理概述

圖1 DBOW模型結(jié)構(gòu)圖

Doc2vec是一個(gè)無監(jiān)督框架,學(xué)習(xí)文本段落的連續(xù)分布向量表示。文本可以是可變長(zhǎng)度的從句子到文檔。該方法可以應(yīng)用于可變長(zhǎng)度的文本,任何從短語或句子到大型文檔。Doc2vec 有兩種模型:Distributed Bag of Words(DBOW)和Distributed Memory(DM),分別對(duì)應(yīng) Word2vec中CBOW與Skip-gram。以文本短句“The cat sat on mat”為例,其模型結(jié)構(gòu)如圖1所示。在訓(xùn)練過程中,文本片段Paragraph的ID保持不變,共享著同一個(gè)段落向量(即“The cat sat on mat”的向量表示)。DM在給定上下文和段落向量的情況下預(yù)測(cè)中心單詞的概率;DBOW則在僅給定段落向量的情況下預(yù)測(cè)段落中一組隨機(jī)單詞的概率。針對(duì)概率的目標(biāo)函數(shù),DM與DBOW利用隨機(jī)梯度下降進(jìn)行詞向量與段落向量的聯(lián)合更新[2]。

5 實(shí)驗(yàn)結(jié)果及分析

5.1 實(shí)驗(yàn)數(shù)據(jù)集及誤差評(píng)估標(biāo)準(zhǔn)

本文采用的是譚松波教授整理的酒店評(píng)論語料正負(fù)平衡語料各3000個(gè)和標(biāo)記好的淘寶網(wǎng)商品評(píng)論好評(píng)與差評(píng)的語料,正向標(biāo)記文本共17696個(gè),負(fù)向標(biāo)記文本13428個(gè),數(shù)據(jù)類型為短文本,用以研究情感分析分類的特征選擇算法及分類算法。

本文在評(píng)價(jià)分類器效果時(shí),引入了信息檢索中的混淆矩陣:傳統(tǒng)的準(zhǔn)確率計(jì)算公式就是考慮精確度Accuracy,考量了分類器對(duì)于兩個(gè)類別的總體的分類效果,由于其在不平衡樣本中效果不好,所以提出了精度(precision)和召回率(recall)這兩個(gè)。本文采用一種F-measure檢驗(yàn)的方法。

式1是經(jīng)常用到的F1指標(biāo),本文采用精確度、召回率、F1值來評(píng)估實(shí)驗(yàn)結(jié)果。

5.2 實(shí)驗(yàn)

實(shí)驗(yàn)針對(duì)正向標(biāo)記文本共17696個(gè),負(fù)向標(biāo)記文本13428個(gè)建立詞向量,選擇80%的數(shù)據(jù)作為訓(xùn)練集,20%的作為測(cè)試集,先對(duì)標(biāo)記語料進(jìn)行文本預(yù)處理工作,然后分別采用Word2vec的 cbow(continuous bag of words,cbow) 型和Doc2vec 的 dbow(distributed bag of words,dbow),同時(shí)分別采用支持向量機(jī)(Support Vector Machine,SVM)、邏輯回歸(LogisticRegression,LR)、隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)、高斯樸素貝葉斯 (Gassian Naive Bayes,GassianNB)四種機(jī)器學(xué)習(xí)的分類算法建立預(yù)測(cè)模型,完成各種模型組合之下的實(shí)驗(yàn)預(yù)測(cè)效果對(duì)比。

實(shí)驗(yàn)將上述2種特征提取方法與4種機(jī)器學(xué)習(xí)算法分別進(jìn)行組合預(yù)測(cè),比較最終的誤差率,其中Word2vec與Doc2vec采用默認(rèn)參數(shù),模型采用CBOW(DBOW),文本window(表示當(dāng)前詞與預(yù)測(cè)詞在一個(gè)句子中的最大距離)設(shè)為5,詞向量維度100,訓(xùn)練epoch為10。設(shè)置min_count=1,min_coun(t以下都稱為詞典詞頻)是模型中很重要的一個(gè)參數(shù),表示模型在訓(xùn)練詞向量對(duì)詞典做截?cái)鄷r(shí),少于該參數(shù)次數(shù)的詞會(huì)去掉。將SVM、SGD、GassianNB、LR四種機(jī)器學(xué)習(xí)算法的參數(shù)設(shè)置成較好預(yù)測(cè)效果的參數(shù)。實(shí)驗(yàn)結(jié)果如表1所示:

表1 實(shí)驗(yàn)結(jié)果

由表1可知,采用Doc2vec模型的精確率,召回率,F(xiàn)1值都大于Word2vec模型的??梢奃oc2vec提取的特征向量表達(dá)了更多的情感傾向信息,原因在于:Word2vec對(duì)詞向量進(jìn)行平均處理,忽略了詞語之間的語序,語序?qū)ξ谋厩楦袃A向信息產(chǎn)生的影響很大,而Doc2vec具有上下文分析的上下文“語義分析”能力。

6 結(jié)語

本文首先對(duì)情感分析研究現(xiàn)狀和文本語料的預(yù)處理做了概述,然后通過實(shí)驗(yàn)驗(yàn)證了Doc2Vec基于短文本分類的情感傾向性的有效性,證明了Doc2Vec加SVM方法可以有效提高文本傾向性分析的預(yù)測(cè)精度。

猜你喜歡
分詞段落語料
【短文篇】
心理小測(cè)試
結(jié)巴分詞在詞云中的應(yīng)用
夏天,愛情的第四段落
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
值得重視的分詞的特殊用法
弄清段落關(guān)系 按圖索驥讀文
讀寫算(下)(2016年11期)2016-05-04 03:44:07
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
永德县| 永泰县| 仁布县| 深泽县| 潼南县| 天台县| 宜兰市| 宣恩县| 靖州| 石台县| 花莲市| 赣榆县| 通许县| 六盘水市| 朝阳市| 舒兰市| 东乌珠穆沁旗| 宣汉县| 台江县| 常德市| 滕州市| 方正县| 图木舒克市| 牡丹江市| 南和县| 临高县| 东光县| 来凤县| 斗六市| 威远县| 景德镇市| 隆德县| 东阳市| 湘阴县| 壶关县| 日照市| 宣汉县| 连南| 六盘水市| 瑞丽市| 民勤县|