国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本情感分析研究

2019-12-02 18:41李青松
現(xiàn)代計(jì)算機(jī) 2019年4期
關(guān)鍵詞:貝葉斯詞典向量

李青松

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

0 引言

文本情感分析又稱意見挖掘,是自然語(yǔ)言處理領(lǐng)域的一項(xiàng)研究熱點(diǎn),目的在于從具有情感傾向的文本中提取出評(píng)論者的情感信息,并對(duì)其進(jìn)行分析、處理、歸納和推理的過程。文本情感分析已經(jīng)被廣泛應(yīng)用于商品推薦、市場(chǎng)分析、輿論控制等領(lǐng)域,具有很高的商業(yè)和社會(huì)價(jià)值。目前主流的情感分析方法可以分為三類,一類是基于情感詞典的方法,這類方法主要依賴于情感詞典,并通過特定的語(yǔ)義規(guī)則進(jìn)行情感分析;第二類是基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,這類方法首先要挖掘文本的特征,再使用支持向量機(jī)、樸素貝葉斯、最大熵等模型對(duì)文本進(jìn)行情感分析;最后一類為基于深度學(xué)習(xí)的方法,首先將文本轉(zhuǎn)換為文本向量,然后作為深度學(xué)習(xí)模型的輸入進(jìn)行訓(xùn)練,最后驗(yàn)證并保存訓(xùn)練好的模型。

1 基于情感詞典的方法

基于情感詞典的方法主要通過情感詞典對(duì)文本進(jìn)行情感分析。該方法通常不考慮文本中詞與詞間的關(guān)系,而是將文本看作多個(gè)詞語(yǔ)或短語(yǔ)的集合。該方法的一般步驟是:首先根據(jù)語(yǔ)料等構(gòu)建情感詞典,然后將

1.1 相關(guān)技術(shù)

在構(gòu)建情感詞典時(shí),會(huì)經(jīng)常用到點(diǎn)互信息算法(Pointwise Mutual Information,PMI)和隱含狄利克雷模型(Latent Dirichlet Allocation,LDA)。PMI可以用來判斷詞語(yǔ)的情感傾向,而LDA則用來從語(yǔ)料中提取情感詞。

(1)點(diǎn)互信息算法

點(diǎn)互信息算法主要用于計(jì)算詞語(yǔ)間的相似度,其基本思想是統(tǒng)計(jì)兩個(gè)詞語(yǔ)在文本中共現(xiàn)的概率PMI值。如果PMI值大于0,說明兩個(gè)詞語(yǔ)是相關(guān)的;如果等于0,說明兩個(gè)詞語(yǔ)是統(tǒng)計(jì)獨(dú)立的;如果小于0,說明兩個(gè)詞語(yǔ)是不相關(guān)的。PMI值越大,證明兩個(gè)詞語(yǔ)的相關(guān)性越高?;诖?,我們可以通過一個(gè)詞語(yǔ)分別與文本進(jìn)行分詞,再使用構(gòu)建好的情感詞典將文本中的詞語(yǔ)進(jìn)行詞性和情感強(qiáng)度標(biāo)注,最后通過語(yǔ)義規(guī)則計(jì)算情感得分并得出文本的情感傾向。在構(gòu)建情感詞典時(shí)需要使用傳統(tǒng)情感詞典,目前傳統(tǒng)情感詞典主要有:哈佛大學(xué)的GI(General Inquirer)英文情感詞典、普林斯頓大學(xué)的WordNet英文情感詞典、知網(wǎng)HowNet中文情感詞典、國(guó)立臺(tái)灣大學(xué)的NTU中文情感詞典、大連理工大學(xué)的中文情感詞匯本體庫(kù)等。正向情感詞和負(fù)向情感詞的PMI值,來判斷這個(gè)詞語(yǔ)的情感傾向性。

(2)隱含狄利克雷模型

隱含狄利克雷模型是一種基于貝葉斯概率的文檔主題生成模型。它可以用來識(shí)別語(yǔ)料庫(kù)中潛藏的主題信息,并提取其中的主題詞。該模型包含三層結(jié)構(gòu):文檔,主題和詞,文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布。利用該模型,可以從正向語(yǔ)料庫(kù)中提取出正向情感詞,從負(fù)向語(yǔ)料庫(kù)中提取出負(fù)向情感詞。

1.2 國(guó)內(nèi)外研究現(xiàn)狀

Taboada等[1]提出了一種情感傾向計(jì)算模型(SOCAL),并將其應(yīng)用于情感極性二分類任務(wù)中,在書籍、汽車、電腦等多個(gè)領(lǐng)域的評(píng)論數(shù)據(jù)集上取得了不錯(cuò)的效果。Yang等[2]提出一種構(gòu)建特定領(lǐng)域情感詞典的方法。該方法使用傳統(tǒng)情感詞典作為先驗(yàn)知識(shí),然后通過LDA模型從語(yǔ)料中提取主題詞來擴(kuò)展特定領(lǐng)域的詞典。Turney等[3]通過使用PMI算法來擴(kuò)展情感詞典,然后使用語(yǔ)義極性算法來分析文本的情感傾向,處理文本數(shù)據(jù)的準(zhǔn)確率在74%左右。周詠梅等[4]提出了一種構(gòu)建中文微博情感詞典的方法,利用上下文熵識(shí)別微博網(wǎng)絡(luò)用語(yǔ),再使用SO-PMI算法篩選出網(wǎng)絡(luò)用語(yǔ)情感詞,最后進(jìn)行人工標(biāo)注并加入情感詞典。Zhang等[5]提出了一種基于情感詞典的中文微博情感分析方法,以便更好地支持網(wǎng)絡(luò)監(jiān)管機(jī)構(gòu)的工作。他們通過傳統(tǒng)情感詞典、程度副詞、網(wǎng)絡(luò)詞典和微博表情詞典來擴(kuò)展和構(gòu)建微博情感詞典,然后通過語(yǔ)義規(guī)則計(jì)算權(quán)重來獲得微博的情感值,最后得出微博的情感傾向是正面,中立還是負(fù)面的。

基于情感詞典的方法可以體現(xiàn)文本的非結(jié)構(gòu)化特征,并且在構(gòu)建完情感詞典后,就可以根據(jù)制定的語(yǔ)義規(guī)則進(jìn)行情感分析。但一般構(gòu)建的情感詞典都是針對(duì)某些特定領(lǐng)域的,并不能完全覆蓋到其他領(lǐng)域中出現(xiàn)的情感詞。所以對(duì)于跨領(lǐng)域情感分析來說,基于情感詞典的方法效果并不是很好。

2 基于機(jī)器學(xué)習(xí)的方法

基于傳統(tǒng)機(jī)器學(xué)習(xí)進(jìn)行情感分析也是目前主流的方法,此類方法可以對(duì)多種特征建模并進(jìn)行分類,其本質(zhì)上是特征工程提取,即如何從標(biāo)注好的數(shù)據(jù)集中提取出不同類別的特征。通過在大量的語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,最終輸出的模型不僅能夠提取出特征詞之間的關(guān)系,而且能夠考慮到文本中隨機(jī)詞和詞共現(xiàn)的影響。

2.1 相關(guān)技術(shù)

基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法主要用到了三類機(jī)器學(xué)習(xí)方法,分別是支持向量機(jī)(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayes,NB)和最大熵(ME)。

(1)樸素貝葉斯

樸素貝葉斯是一種簡(jiǎn)單高效的分類模型,在貝葉斯定理以及特征條件獨(dú)立假設(shè)的基礎(chǔ)上進(jìn)行分類。在處理訓(xùn)練數(shù)據(jù)時(shí),首先使用特征條件獨(dú)立假設(shè)計(jì)算出輸入/輸出的聯(lián)合概率分布,然后結(jié)合貝葉斯定理輸出后延概率最大的預(yù)測(cè)項(xiàng)。

(2)支持向量機(jī)

支持向量機(jī)是一種有監(jiān)督的機(jī)器學(xué)習(xí)方法,經(jīng)常被用到二分類任務(wù)上。它的主要思想是尋找一個(gè)保證最小分類錯(cuò)誤率的超平面來分割二分類訓(xùn)練樣本點(diǎn)。對(duì)于線性可分的情況,至少存在一個(gè)超平面將訓(xùn)練樣本點(diǎn)分開,SVM的目的是找到一個(gè)超平面,使得兩類樣本點(diǎn)組成的特征空間的距離這個(gè)超平面的間隔最大,這個(gè)超平面被稱為最優(yōu)超平面;對(duì)于線性不可分的情況,通過使用核函數(shù)將低維空間轉(zhuǎn)化為線性可分的高維空間。

(3)最大熵

熵是用來度量隨機(jī)變量的不確定性,隨機(jī)變量的不確定性越大,熵值越大,反之亦然。最大熵是一種選擇隨機(jī)變量統(tǒng)計(jì)特性最符合客觀情況的準(zhǔn)則,本質(zhì)上是一個(gè)條件約束準(zhǔn)則?;谧畲箪卦恚梢栽谒袧M足約束的模型中選擇具有最大熵模型的分類器。

2.2 國(guó)內(nèi)外研究現(xiàn)狀

Pang等[6]最早將機(jī)器學(xué)習(xí)方法用于情感分析,他們比較了支持向量機(jī)、樸素貝葉斯、最大熵與多種特征組合在電影評(píng)論領(lǐng)域中情感分類的效果,實(shí)驗(yàn)結(jié)果表明一元特征與支持向量機(jī)組合效果最好。Wikarsa等[7]將樸素貝葉斯分類器用于Twitter用戶的評(píng)論文本情感分析,將情緒分為六種,即快樂、悲傷、憤怒、厭惡、恐懼和驚訝,在處理數(shù)據(jù)時(shí)考慮到了表情符號(hào)轉(zhuǎn)換,實(shí)驗(yàn)的準(zhǔn)確率達(dá)到了83%。Govindarajan[8]結(jié)合樸素貝葉斯和遺傳算法提出了一種新的情感分類器,并且在電影評(píng)論數(shù)據(jù)集上取得了比樸素貝葉斯和遺傳算法更好的效果。蘇瑩等[9]將樸素貝葉斯模型和潛在狄利克雷分布(LDA)相結(jié)合,提出了一種無監(jiān)督的文本情感分析模型NB-LDA,該模型的正確率優(yōu)于其他無監(jiān)督模型。Chikersal等[10]將語(yǔ)義規(guī)則和SVM結(jié)合在一起對(duì)Twitter進(jìn)行情感分析,實(shí)驗(yàn)結(jié)果表明語(yǔ)義規(guī)則可以改善SVM的分類效果。Kumari等[11]將支持向量機(jī)模型用于智能手機(jī)評(píng)論的情感分析,實(shí)驗(yàn)的準(zhǔn)確率達(dá)到了91%。Lee等[12]將最大熵分類模型用于分析電子產(chǎn)品評(píng)論的情感傾向性。黃文明等[13]提出了一個(gè)基于最大熵的中文短文本的情感分析模型,該模型在時(shí)效性和冷啟動(dòng)兩個(gè)方面具有魯棒性,并且分類效果很好。

基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析時(shí),通常采用UniRam/Bigram等語(yǔ)言模型構(gòu)建文本特征,然后使用機(jī)器學(xué)習(xí)算法對(duì)特征進(jìn)行提取和分類,在很多數(shù)據(jù)集上的實(shí)驗(yàn)效果都很好。但是該方法在特征提取時(shí),可能出現(xiàn)特征向量稀疏、維度爆炸、特征提取困難等問題。

3 基于深度學(xué)習(xí)的方法

深度學(xué)習(xí)是一種多層表征學(xué)習(xí)算法,相較于傳統(tǒng)機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)具有更深的網(wǎng)絡(luò)結(jié)構(gòu),更強(qiáng)的表達(dá)能力。深度學(xué)習(xí)模型可以從數(shù)據(jù)中提取出深層次的特征。近年來,深度學(xué)習(xí)模型已經(jīng)在情感分析中取得了許多矚目的成果。

3.1 相關(guān)技術(shù)

基于深度學(xué)習(xí)的情感分析方法一般將詞嵌入(Word Embedding)訓(xùn)練得到的詞向量作為情感分析模型的輸入,通過訓(xùn)練后驗(yàn)證并保存模型。該方法常用的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Net?work,RNN)。

(1)詞嵌入

詞嵌入技術(shù)是一種語(yǔ)言建模和特征學(xué)習(xí)技術(shù),可以將文本中的詞語(yǔ)轉(zhuǎn)換為帶有語(yǔ)義規(guī)則的詞向量。目前主流的詞向量模型是谷歌提出的Word2Vec模型,其本質(zhì)上是一個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,可以從文本中學(xué)習(xí)得到詞向量。Word2Vec包含了兩種模型,一種是CBOW(Continuous Bag-of-Words)模型,和 Skip-Gram模型。CBOW模型是通過上下文來預(yù)測(cè)目標(biāo)單詞的概率,而Skip-Gram模型則相反,它通過目標(biāo)詞來預(yù)測(cè)上下文單詞出現(xiàn)的概率。CBOW模型通過將上下文視為一個(gè)觀察對(duì)象來平滑文本中單詞的分布信息,它適用于較小的數(shù)據(jù)集。Skip-Gram模型則是將每個(gè)上下文與目標(biāo)視為一個(gè)新的觀察對(duì)象,適用于較大的數(shù)據(jù)集。

(2)卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是一種包含卷積及其相關(guān)計(jì)算的前饋神經(jīng)網(wǎng)絡(luò),是目前主流的神經(jīng)網(wǎng)絡(luò)模型。卷積核是該網(wǎng)絡(luò)的基本組成單位,可以把卷積核看作是一個(gè)局部特征提取器。常見的卷積神經(jīng)網(wǎng)絡(luò)一般包含五層,分別是輸入層,卷積層,池化層,全連接層和Softmax層。卷積神經(jīng)網(wǎng)絡(luò)在對(duì)文本進(jìn)行建模時(shí),通過滑動(dòng)窗口對(duì)文本向量進(jìn)行卷積操作,提取出的特征是局部相連詞語(yǔ)之間的特征。卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被很好地用于情感分析、機(jī)器翻譯等自然語(yǔ)言處理任務(wù)中。

(3)循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)是目前主流的神經(jīng)網(wǎng)絡(luò)模型,適用于處理和與預(yù)測(cè)序列數(shù)據(jù)。該網(wǎng)絡(luò)采用循環(huán)反饋機(jī)制來學(xué)習(xí)數(shù)據(jù)的特征,每一時(shí)刻的輸入都包括上一時(shí)刻隱藏層單元的輸出,通過這種機(jī)制實(shí)現(xiàn)記憶功能保存歷史信息,并隨著新數(shù)據(jù)的輸入不斷更新。因此循環(huán)神經(jīng)網(wǎng)絡(luò)能夠有效利用數(shù)據(jù)中長(zhǎng)距離依賴的能力,對(duì)于語(yǔ)言任務(wù)更具有說服力?;谶@些優(yōu)勢(shì)RNN已經(jīng)在自然語(yǔ)言處理領(lǐng)域得到成功應(yīng)用,例如情感分析、機(jī)器翻譯等。

長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的一種改進(jìn)模型,是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),適用于預(yù)測(cè)和處理時(shí)間序列中間隔和延遲相對(duì)較長(zhǎng)的重要事件。LSTM相較于RNN多了一個(gè)cell結(jié)構(gòu),cell結(jié)構(gòu)中被放置了三扇門,分別叫做輸入門、遺忘門和輸出門。一個(gè)信息進(jìn)入LSTM的網(wǎng)絡(luò)當(dāng)中,可以根據(jù)規(guī)則來判斷哪些需要保留,哪些需要遺忘,只有算法認(rèn)定的部分才能被保留,不被認(rèn)定的部分會(huì)被遺忘門遺忘。

3.2 國(guó)內(nèi)外研究現(xiàn)狀

Kim等[14]將CNN與預(yù)訓(xùn)練的詞向量相結(jié)合進(jìn)行文本情感分析,實(shí)驗(yàn)證明通過將預(yù)訓(xùn)練的詞向量與微調(diào)后的詞向量作為雙通道輸入并結(jié)合不同大小的卷積核,CNN在處理情感分析任務(wù)時(shí)的效果會(huì)更好。Kal?chbrenner等[15]提出了動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)模型用來進(jìn)行文本情感分析。該模型使用動(dòng)態(tài)K-Max池化層,可以進(jìn)行線性序列的全局池化操作,能夠處理不同長(zhǎng)度的句子,可以在句子中捕獲單詞之間的關(guān)系以及句子的特征。Wang等[16]通過模擬句子中詞語(yǔ)的相互作用,將LSTM用于Twitter的情感分析,與傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)相比,LSTM通過增加了門結(jié)構(gòu)提升了模型的靈活性。Qian等[17]提出了一種將情感極性,否定詞和情感強(qiáng)度等信息與LSTM相結(jié)合的模型,以更準(zhǔn)確地捕捉句子中的情感效應(yīng)。Huang等[18]提出了樹形LSTM來模仿句子的結(jié)構(gòu)并將其用于文本情感分析。杜等[19]使用了卷積神經(jīng)網(wǎng)絡(luò)模型,采用分段池化的策略將句子結(jié)構(gòu)考慮進(jìn)來,分段提取句子不同結(jié)構(gòu)的主要特征,并且引入Dropout算法以避免模型的過擬合并提升模型的泛化能力。Wang等[20]聯(lián)合了CNN與LSTM模型,提出了CNN-LSTM模型并將其應(yīng)用于文本情感分析,他們利用了CNN處理局部特征的優(yōu)勢(shì)和LSTM處理遠(yuǎn)程依賴性的優(yōu)勢(shì)。

基于深度學(xué)習(xí)的方法在建模、解釋、學(xué)習(xí)和表達(dá)等方面要優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法。該方法能夠提取出文本的深層特征,實(shí)驗(yàn)中效果比傳統(tǒng)機(jī)器學(xué)習(xí)方法要好。但是該方法易受詞向量的影響,因此訓(xùn)練出好的詞向量是該方法成功的關(guān)鍵,使用深度學(xué)習(xí)模型已經(jīng)成為文本情感分析領(lǐng)域的熱門研究方向。

4 結(jié)語(yǔ)

本文對(duì)文本情感分析進(jìn)行了研究,將現(xiàn)階段的情感分析方法概括為基于情感詞典的方法,基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法,并對(duì)這些方法進(jìn)行了介紹。文本情感分析作為自然語(yǔ)言處理的一個(gè)熱門研究方向,具有十分廣泛的應(yīng)用前景,可以應(yīng)用在輿情控制、市場(chǎng)分析、商業(yè)決策、金融預(yù)測(cè)等領(lǐng)域??梢灶A(yù)見,未來將會(huì)涌現(xiàn)大量文本情感分析的相關(guān)工作。

猜你喜歡
貝葉斯詞典向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
米蘭·昆德拉的A-Z詞典(節(jié)選)
米沃什詞典
基于貝葉斯網(wǎng)絡(luò)的海盜襲擊事件影響因素
詞典引發(fā)的政治辯論由來已久 精讀
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
貝葉斯公式的應(yīng)用和推廣
向量垂直在解析幾何中的應(yīng)用
满洲里市| 双江| 吴堡县| 莆田市| 喀喇沁旗| 和政县| 南陵县| 九龙坡区| 清丰县| 望都县| 固镇县| 上高县| 霍邱县| 济阳县| 西华县| 长阳| 临潭县| 高清| 观塘区| 岐山县| 拉萨市| 威信县| 钟山县| 四平市| 青神县| 常州市| 宜君县| 松原市| 广元市| 阿拉善盟| 红原县| 汪清县| 丁青县| 涟水县| 礼泉县| 乌拉特前旗| 黄浦区| 罗山县| 禹城市| 嘉善县| 建昌县|