羅亞偉, 田生偉, 禹 龍, 吐爾根·依布拉音, 艾斯卡爾·艾木都拉
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院, 新疆 烏魯木齊 830046; 2. 新疆大學(xué) 軟件學(xué)院, 新疆 烏魯木齊 830008; 3. 新疆大學(xué) 網(wǎng)絡(luò)中心, 新疆 烏魯木齊 830046)
細粒度意見挖掘中維吾爾語文本情感分析研究
羅亞偉1, 田生偉2, 禹 龍3, 吐爾根·依布拉音1, 艾斯卡爾·艾木都拉2
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院, 新疆 烏魯木齊 830046; 2. 新疆大學(xué) 軟件學(xué)院, 新疆 烏魯木齊 830008; 3. 新疆大學(xué) 網(wǎng)絡(luò)中心, 新疆 烏魯木齊 830046)
傳統(tǒng)的情感分析研究通過分析, 確定詞語、句子或篇章的情感, 但忽略了情感表達的主題。針對這一不足, 該文提出了一種基于雙層CRFs模型的細粒度意見挖掘中維吾爾語意見型文本陳述級情感分析方法。第一層模型識別意見型文本中的主題詞和意見詞, 確定意見陳述的范圍, 并將識別結(jié)果傳遞給第二層模型, 將其作為重要特征之一, 用于陳述級情感分析。細粒度意見挖掘中情感分析的目標是構(gòu)建<意見陳述, 主題詞, 意見詞, 情感>四元組。該方法用于維吾爾語陳述級情感分析的準確率為77.41%, 召回率為78.51%, 證明了該方法在細粒度意見挖掘中情感分析任務(wù)上的有效性。
細粒度; 陳述級; 情感分析; CRFs; 維吾爾語
隨著Web2.0的迅速發(fā)展, 互聯(lián)網(wǎng)用戶數(shù)量急劇增加。大量的用戶不再只是被動接受互聯(lián)網(wǎng)的信息, 而是更加主動地對產(chǎn)品、服務(wù)和人物等進行意見型評論。這些意見型評論具有極大的研究價值和應(yīng)用價值: 一方面, 潛在用戶可以通過瀏覽這些意見型評論來了解大眾輿論對于某一事件或產(chǎn)品的看法; 另一方面, 這些來自網(wǎng)民真實情感的反饋又能使決策者們迅速而廣泛地了解到大眾的意見或支持率, 以便及時調(diào)整相應(yīng)政策。但是面對網(wǎng)絡(luò)上海量的評論信息, 單純依靠人工方式對其進行收集和處理是低效的, 因此, 自動情感分析技術(shù)是現(xiàn)在研究的重點。
為了便于讀者把握文章脈絡(luò), 現(xiàn)說明文章結(jié)構(gòu)如下:第二節(jié)介紹了國內(nèi)外情感分析研究的相關(guān)工作; 預(yù)備知識將在第三節(jié)予以詳細說明; 本文所采用的基于雙層CRFs模型的特征提取和特征選擇以及維吾爾語陳述級情感分析的方法在第四節(jié)予以詳細介紹; 實驗結(jié)果和分析在第五節(jié)全面展開; 最后在第六節(jié)將總結(jié)本文的工作, 提出下一步研究方向。
目前, 情感分析的大部分工作集中在句子級和篇章級別上[1]。國外學(xué)者對情感分析的研究開展得比較早,情感資源已有了一定積累,且研究成果也很豐碩。Turney[2]應(yīng)用情感詞組對文檔進行情感分類,該方法首先對包含形容詞或副詞的詞組進行詞性標注,然后采用PMI-IR(Pointwise Mutual Information-Information Retrieval)的方法計算候選情感詞組的傾向,最后使用文檔中所有情感詞組極性的平均值代表整體的情感傾向。B Pang等[3]采用NB、ME和SVM對電影評論進行情感分類,結(jié)果顯示,用機器學(xué)習(xí)的方法優(yōu)于基于人工標記特征的方法。國內(nèi)的情感分析研究雖然起步較晚,但也取得了一定成果。趙軍等[4]運用CRFs對句子級情感進行分類,此方法利用分層的框架借助增加冗余特征獲取標記冗余,且考慮了上下文語境的依賴性。林政等[5]提出一種情感關(guān)鍵句的自動抽取算法,將抽取的關(guān)鍵句分別用于監(jiān)督和半監(jiān)督的情感分類,特別是其中采用分類器融合的方法進行監(jiān)督的情感分類和使用Co-training算法進行半監(jiān)督的情感分類效果較為理想。
上述情感分析的方法大多針對句子或文檔的情感進行分類。但是,該類方法忽視了情感傾向性是由意見詞及其所修飾的主題詞共同決定的這一客觀規(guī)律。所幸的是部分學(xué)者已經(jīng)注意到了這一點,為了彌補該缺陷,他們提出了基于主題詞和意見詞對的情感分析方法。有些學(xué)者基于LDA模型拓展出其他模型,將句子中的主題詞和意見詞統(tǒng)一起來,然后利用意見詞的極性判定句子或文檔的情感傾向[6-8]。一些學(xué)者運用句法關(guān)系,依據(jù)句子中特定方面的情感判斷句子的極性[9-10]。還有一些學(xué)者研究多種情感分析的方法,最終實驗結(jié)果都證明了在引入主題相關(guān)的信息后,準確率比不依賴主題信息時有明顯的提升[11-13]。趙妍研等[14]利用句法路徑來描述評價對象及其評價詞語之間的修飾關(guān)系,但是該方法沒有識別句子的情感傾向性。
綜上所述,發(fā)現(xiàn)針對主題的情感分析研究已經(jīng)取得了一定的成果,但是針對本文所研究的問題仍然存在著如下不足: (1)現(xiàn)有的情感分析研究工作大多集中在句子級或篇章級,將整個句子或文檔作為情感表述的最小單元,分析比較粗糙,對細膩的情感描述不是十分準確,難以進行高準確度的情感分析,而對于陳述級細粒度的情感分析研究還很少。(2)現(xiàn)有的研究語種主要是英語和漢語等大語種,而對于像維吾爾語這樣小語種的情感分析研究還不夠深入。本文提出了細粒度意見挖掘中意見型文本陳述級情感分析方法,將意見陳述作為情感表述的最小單元,分析意見陳述的主題詞和意見詞,并確定意見表達的范圍及意見陳述的極性,用以構(gòu)建<意見陳述,主題詞,意見詞,情感>四元組。
為了便于讀者理解本文對細粒度意見挖掘中維吾爾語文本情感分析研究的方法,先明確以下定義:
定義1 意見挖掘: 針對主觀性文本主動獲取有用的意見信息和知識[15]。其中意見由主題(Topic)、持有者(Holder)、陳述(Claim)和情感(Sentiment)四個元素組成[16]。
定義2 陳述: 能夠完整地表述觀點的一個短語、子句或者整個句子。
針對只包含一個陳述的單一陳述句,可以將整個句子作為一個陳述考慮。針對包含兩個或兩個以上陳述的多陳述句,由于其中包含了多個意見傾向,并且它們可能針對不同的主題,如果將整個句子作為情感表述的最小單元,則判斷不出具體的主題所表達的情感,因此對這類句子不能將整個句子作為陳述,我們將依據(jù)不同的主題對其意見傾向進行分析。
定義3 意見陳述的選擇: 能夠?qū)σ庖娫氐倪吔邕M行界定,精確找出各個意見元素之間的對應(yīng)關(guān)系,確定意見陳述表達的范圍。
經(jīng)過深入分析和研究,結(jié)合維吾爾語具體的語言特點,在參考相關(guān)文獻后,實驗組維吾爾語語言學(xué)專家將意見陳述的選擇分為四類。我們引入一個標簽集Ψ={T, O, E}對文本中的詞進行標注,其中T表示主題詞,O表示意見詞,E表示其他詞。這四類意見陳述的選擇如表1所示(其中i>=1)。
表1 意見陳述的選擇類型及比重
下面我們舉例子詳細介紹這四類意見陳述的標注以及選擇。
Type1 例如(維吾爾語的書寫規(guī)范是從右向左):
(手機很漂亮)
Type2 例如:
(葡萄干和大棗都有營養(yǎng))
Type3 例如:
(這款手機既實用又漂亮)
Type4 例如:
(葡萄干和大棗既營養(yǎng)又好吃)
定義4 動態(tài)意見詞: 一種具有語境依賴性的意見詞,在不同的語境里它的極性也隨之發(fā)生變化[17]。
(這款手機長13公分)
(這款手機太長了,拿著不方便)
(這款手機的電池壽命很長)
根據(jù)維吾爾語的語言特點,實驗組維吾爾語語言學(xué)專家制定一個動態(tài)意見詞庫,限于篇幅,此處僅列舉出部分動態(tài)意見詞,如表2所示。
表2 動態(tài)意見詞
4.1 CRFs模型
給定數(shù)據(jù)序列隨機變量X,標注結(jié)果序列隨機變量Y的條件概率分布P(Y|X),要求條件概率P(Y|X)最大。設(shè)x=(x1,x2,...,xn)表示待標注的觀察序列,y=(y1,y2,...,yn)表示標注的輸出序列,則CRFs定義為:
(1)
其中,fk是觀察序列x中位置為i和i-1的輸出節(jié)點的特征,gk是位置為i的輸入節(jié)點和輸出節(jié)點的特征,λ和μ是特征函數(shù)的權(quán)重,Z是歸一化因子。
基于雙層CRFs模型的情感分析研究,是在第一層模型中運用標簽集Ψ對文本中的詞進行標注,依據(jù)標注出的結(jié)果以及定義3確定意見陳述的范圍,然后將第一層識別出來的結(jié)果作為第二層模型重要的輸入特征之一,并結(jié)合定義4中動態(tài)情感詞的特征等對意見陳述進行情感分析,構(gòu)建出<意見陳述,主題詞,意見詞,情感>四元組。在第二層,我們對意見陳述的情感分析如式(2)所示。
(2)
其中,SO(claim)代表意見陳述的情感傾向。
雙層CRFs模型流程如圖1所示。
圖1 意見文本標注過程
4.2 特征提取
提取的特征對本文采用的CRFs模型有直接的影響,提取恰當?shù)奶卣鲗ξ谋具M行描述,可以提高實驗效果。因此需要依據(jù)維吾爾語中表達情感的語言特點選取合適的特征。本文在第一層模型中選取如下特征。
(1) 詞本身: 維吾爾語和漢語一樣可以將詞分為實詞和虛詞兩類,實詞大部分有比較實在的意義,可以表達具體的主題和情感; 虛詞里的語氣詞僅有少部分能表達出說話者的情感[18]。
(2) 詞性: 詞性是能夠標識語義信息的重要語法特征。在維吾爾語中,主要由名詞來標識意見陳述的主題,表達情感意義的詞語主要由形容詞和動詞構(gòu)成,有些副詞、名詞、語氣詞等也可以表達情感。例如:
(剛買的床單上有個洞)
(5) 互信息(MI): 互信息不需要對特征詞和類別之間關(guān)系的性質(zhì)作任何假設(shè),因此其非常適合于作為文本分類的特征。MI的計算公式如下:
(3)
(4)
(5)
式(4)中C(x,y)是指詞x與通過意見詞詞典識別出來的意見詞y在文本中共同出現(xiàn)的頻率; 式(5)中C(x)是指詞x在文本中出現(xiàn)的頻率。通過對C(x,y)和C(x)的統(tǒng)計,再利用式(3)就可以計算出其他詞與意見詞之間的互信息。
在第一層CRFs模型中使用以上幾個特征識別出意見型文本中的主題詞和意見詞,并根據(jù)定義3確定意見陳述的范圍,再將識別出來的結(jié)果作為重要的輸入特征傳遞給第二層CRFs模型。第二層CRFs模型中除了運用到第一層模型中的特征以外,還選取了以下特征:
(6) 主題詞和意見詞(即第一層識別出來的結(jié)果): 不同的意見詞修飾不同的主題可以表達不同的情感,相同的意見詞修飾不同的主題或者同一個主題也可以表達不同的情感。
(7) 動態(tài)意見詞: 根據(jù)動態(tài)意見詞庫判斷意見陳述中是否包含動態(tài)情感詞。動態(tài)意見詞的極性依賴于不同的語境。
我們將運用以上語法特點和規(guī)律以及如下公式建立否定成分詞典D(w)。
(6)
(7)
(8)
其中,M是由否定詞、否定詞綴和否定構(gòu)形語素組成的集合,w′代表詞w所包含的字母串m或部分包含m的字符串,‖w′⊕m‖表示w′和m相異或的模,‖m‖代表字母串m的模,即字母串m的長度。經(jīng)多次實驗驗證,當閾值取0.03時,詞w屬于否定成分的準確度最高。所以,當P(w)>0.03時,將詞w添加至否定成分詞典; 否則,否定成分詞典不變。利用最終的否定成分詞典來判斷意見陳述中是否包含否定成分。
4.3 特征選擇
表達情感的自然語言具有復(fù)雜多變的特點,上述特征之間的組合可以描述情感分析中的復(fù)雜關(guān)系。但是,用文本表示方法生成的特征以及特征之間的組合都可能存在很多噪聲。所以,我們需要通過特征選擇去除噪聲,提高分類的精度,并且特征選擇可以通過減少特征空間獲取更有效的特征,提高分類訓(xùn)練和應(yīng)用的效率。
研究證實,特征選擇可以看作一個搜索尋優(yōu)問題。本文采用雙向搜索策略并以信息增益(InformationGain,IG)作為特征評估函數(shù)進行特征選擇。雙向搜索即序列前向選擇(SequentialForwardSelection,SFS)和序列后向選擇(SequentialBackwardSelection,SBS)同時進行。IG的計算公式如下:
(9)
(10)
(11)
(12)
其中P(xi)代表隨機變量X的先驗概率,C代表觀測到隨機變量Y后隨機變量X的后驗概率.H(X)是X的信息熵,H(X|Y)為引入隨機變量Y的信息后,隨機變量X的信息熵。IG(X|Y)越大,則Y與X的相關(guān)性越強。
該方法通過計算特征的增益,再依據(jù)一定的規(guī)則構(gòu)造出一個候選特征集,然后利用雙向搜索策略從候選特征集選出最優(yōu)的特征子集。具體算法步驟如下:
Step1 保留特征全集Ω; 置空特征子集Φ。
Step2 利用SFS將特征加入Φ,評估每一個特征的增益。同時利用SBS從Ω剔除一個特征x,使得剔除x后IG值達到最優(yōu)。
Step3 組合具有高增益的特征(Top 6),加入候選特征集。
Step4 評估候選特征集中的特征,選取高增益的特征(Top 12)加入最優(yōu)特征子集。
Step5 重復(fù)Step2-Step4,當SFS和SBS搜索到同一個特征子集時停止。
采用該算法對每層CRFs模型分別進行了特征選擇,第一層CRFs得到2 159個特征,第二層CRFs得到2 684個特征。
4.4 情感分析雙層模型識別
目前情感分析的目標不僅要識別出情感的類別,還需要針對具體的主題對其情感進行細粒度的分析。單一的模型或機器識別方法不能完全滿足要求,本文提出的基于雙層CRFs模型,對維吾爾語文本進行細粒度情感分析的方法可以很好地解決這一問題。首先,在第一層模型中運用4.2節(jié)所提到的前五個特征,識別出主題詞和意見詞,再結(jié)合定義3確定意見陳述的范圍。將第一層識別出來的結(jié)果作為新的特征傳遞給第二層模型,再結(jié)合第一層的原有特征以及動態(tài)情感詞和否定成分特征,識別出意見陳述的情感。示例流程如圖2所示。
圖2 情感分析雙層模型識別
實驗的語料來源于人民網(wǎng)、天山網(wǎng)以及一些論壇等維吾爾語版網(wǎng)頁,我們對這些抓取的網(wǎng)頁進行了去重和去噪處理,在必要的規(guī)范化整理后得到了本文所采用的維吾爾語意見陳述句。這些意見陳述句的情感類型分布比例如表3所示。
表3 意見陳述句情感類型分布
實驗結(jié)果采用自然語言處理實驗中常用的準確率P、召回率R、F-measure值F1作為評測標準。
(1) 實驗識別結(jié)果和分析
為了盡量避免實驗結(jié)果的隨機性和偶然性對實驗判別的影響,實驗采用三倍交叉法進行。圖3是第一層CRFs模型對主題詞和意見詞識別的結(jié)果。圖4是第二層CRFs模型對意見陳述的情感分析結(jié)果。
圖3 主題詞與意見詞識別結(jié)果
從圖3可以看出,意見詞的識別效果優(yōu)于主題詞,這是因為有些意見陳述的主題是隱性的。例如,
(這個手機太長了)
圖4 意見陳述的情感識別結(jié)果
從圖4可以看出,本文方法對意見陳述的情感分析可以取得較好的效果。我們可以發(fā)現(xiàn)褒義的分類效果要好于貶義和中性的,這是因為意見持有者習(xí)慣用比較顯式且固定的意見詞對主題進行褒揚,并且語料中褒義類的陳述句較多,所以比較容易識別。由圖可知,中性的準確率最低,這是因為中性類即客觀類的句子沒有明顯的特征,識別難度要高于褒義和貶義類的意見陳述。另外,貶義類召回率最低,這與人們習(xí)慣用隱晦的方式表達貶義的情感有關(guān)。例如,上面我們所提到的陳述⑧,此句表達的是貶義的情感,但是由于此句中沒有明顯的意見詞,所以其情感很難被準確地識別。
(2) 語料規(guī)模對結(jié)果的影響
機器學(xué)習(xí)對語料規(guī)模有一定的要求,由于實驗標記的語料相對較多,所以實驗在逐步擴大語料的情況下也做了一組對比實驗,實驗結(jié)果如圖5所示。
圖5 語料規(guī)模對結(jié)果的影響
從圖5可以清楚地看出,隨著語料規(guī)模的擴大,褒義、貶義和中性的F1值都不斷提高,但是當語料規(guī)模達到2 800個意見陳述句左右時結(jié)果趨于穩(wěn)定。說明我們實驗標注的語料規(guī)模適中,能夠滿足實驗的要求。
(3) 特征集對結(jié)果的影響
特征集之間的搭配對機器學(xué)習(xí)的效果有很大的影響,我們實驗采用的特征集逐步在上一級特征集擴展,即下級采用的特征集包含上級所有特征集,實驗結(jié)果如表4所示。
表4 特征集對結(jié)果的影響
從表中可以看出,隨著特征集的不斷擴展,情感分析的識別結(jié)果不斷提高。詞和詞性特征集的識別率達到了54.37%,加入詞干特征集和程度副詞修飾特征集后,準確率和召回率都有明顯的提升,這是因為詞干的提取會解決詞匯的多形態(tài)造成特征稀疏的問題,而且維吾爾語中的意見詞大部分都會被程度副詞所修飾。隨著后面特征集的加入,F(xiàn)1值達到了77.96%的最高值。實驗證明我們尋找的特征集合是有效的。
(4) 本文實驗結(jié)果和其他學(xué)者實驗結(jié)果比較
我們將主題詞、意見詞的識別結(jié)果和趙妍研的方法[14](以下簡稱“趙的方法”)做了對比實驗。趙的方法提出了基于句法路徑自動識別情感評價單元: <評價詞語,評價對象>,該方法能夠抽取類似本文通過第一層模型構(gòu)造的<意見陳述,主題詞,意見詞>情感單元三元組。我們將趙的方法應(yīng)用于本實驗標注的語料進行主題詞和意見詞的識別,并和本文方法的實驗結(jié)果作比較,具體情況如圖6所示。
圖6 情感單元識別結(jié)果對比
從圖中可以看出,在準確率上本文方法低于趙的方法1.48個百分點,在召回率上卻高于趙的方法3.95個百分點。這是因為趙的方法采用了基于編輯距離的句法路徑改進策略,可以提高情感單元的識別性能,實驗識別的準確率較高。但是趙的方法沒有考慮維吾爾語文本在情感表達時一些自帶的重要語言特征,且匹配情感單元的限制較為嚴格,因而趙的方法在召回率的表現(xiàn)上欠佳。綜合比較發(fā)現(xiàn),趙的方法F1值低于本實驗方法1.36個百分點,從而也證明了本文第一層模型識別情感單元的可行性和有效性。
我們將情感分析的結(jié)果分別與顧正甲的方法[10]、Thet的方法[9](以下簡稱“顧的方法”、“Thet的方法”)做了對比實驗。顧的方法和Thet的方法都是運用句法之間的關(guān)系,針對句子中特定的方面判斷其傾向性,與本文針對主題考慮其情感傾向類似。我們將顧的方法和Thet的方法分別應(yīng)用于本實驗標注的語料進行情感分析。具體情況如表5所示。
表5 情感分析結(jié)果對比
從表中可以看出,顧的方法效果不太理想,這是因為顧的方法對LTP句法分析結(jié)果的依賴性較大。Thet的方法稍遜于本文方法,這是因為Thet的方法只針對電影這一特定領(lǐng)域,不能完全考慮本實驗所標注的開放領(lǐng)域意見型文本。而且顧的方法和Thet的方法都沒有深入考慮動態(tài)意見詞對情感傾向的影響。綜合比較發(fā)現(xiàn),本文方法F1值分別高于顧的方法和Thet的方法13.48%、2.74%。
情感分析對于自然語言處理技術(shù)的發(fā)展具有很大的研究價值和實用價值?,F(xiàn)有的研究主要針對英語、漢語等大語種,而對于維吾爾語情感分析的研究還很少,并且對意見型文本細粒度分析的研究不多。針對以上不足,本文提出了細粒度意見挖掘中維吾爾語文本情感分析的方法,與以往研究方法不同的是,該方法不僅可以識別主題詞、意見詞以及確定意見陳述的范圍,而且可以針對主題考慮其對應(yīng)情感,構(gòu)造出<意見陳述,主題詞,意見詞,情感>四元組,對維吾爾語意見陳述進行多層次和細粒度的情感分析。實驗結(jié)果表明,本文采用的方法適用于維吾爾語陳述情感分析,取得了較好的效果。實驗對隱式主題以及反語、隱喻等隱含情感的陳述的情感分析效果不是特別理想,我們下一步將對這些問題進行深入的研究。
[1] 趙妍妍, 秦兵,劉挺. 文本情感分析[J]. 軟件學(xué)報, 2010, 21(8): 1834-1848.
[2] Turney P D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL). Philadelphia, USA, 2002: 417-424.
[3] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP). Philadelphia, USA, 2002: 79-86.
[4] Zhao J, Liu K, Wang G. Adding redundant features for CRFs-based sentence sentiment classification[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing (EMNLP). Honolulu, Hawaii, 2008: 117-126.
[5] 林政, 譚松波, 程學(xué)旗. 基于情感關(guān)鍵句抽取的情感分類研究[J]. 計算機研究與發(fā)展, 2012, 49(11): 2376-2382.
[6] Lin C H, He Y L. Joint sentiment/topic model for sentiment analysis[C]//Proceeding of the 18th ACM conference on Information and knowledge management. New York, 2009: 375-384.
[7] Jo Y, Oh A. Aspect and sentiment unification mode for online review analysis[C]//Proceedings of the 4th ACM international conference on Web search and data mining. New York, 2011: 815-824.
[8] 孫艷, 周學(xué)廣, 付偉. 基于主題情感混合模型的無監(jiān)督文本情感分析[J]. 北京大學(xué)學(xué)報 (自然科學(xué)版), 2013, 49(1): 102-108.
[9] Thet T, Na J, Khoo C. Aspect-based sentiment analysis of movie reviews on discussion boards[J]. Journal of Information Science, 2010, 36(6): 823-848.
[10] 顧正甲, 姚天昉. 評價對象及其傾向性的抽取和判別[J]. 中文信息學(xué)報, 2012, 26(4): 91-97.
[11] Tony M, Nigel C. Sentiment analysis using support vector machines with diverse information sources[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spain, 2004: 412-418.
[12] Jiang L, Yu M, Zhou M, Liu X H, Zhao T J. Target-dependent Twitter Sentiment Classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics(ACL). Portland, Oregon, 2011: 151-160.
[13] 謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學(xué)報, 2012, 26(1): 73-83.
[14] 趙妍研, 秦兵, 車萬翔, 等. 基于句法路徑的情感評價單元識別[J]. 軟件學(xué)報, 2011, 22(5): 887-898.
[15] 姚天昉, 程希文, 徐飛玉, 等. 文本意見挖掘綜述[J]. 中文信息學(xué)報, 2008, 22(3): 71-80.
[16] Kim S-M, Hovy E. Determining the Sentiment of Opinions[C]//Proceedings of the Conference on Computational Linguistics (COLING). Geneva, Switzerland, 2004: 1367-1373.[17] Liu R, Xiong R, Song L. A Sentiment Classification Method for Chinese Document[C]//Proceedings of the 5th International Conference On Computer Science & Education (ICCSE). Hefei, China, 2010: 918-922.
[18] 易坤秀, 高士杰. 維吾爾語語法[M]. 北京: 中央民族大學(xué)出版社, 1998: 10-70.
Sentiment Analysis of Uyghur Text for Fine-grained Opinion Mining
LUO Yawei1, TIAN Shengwei2, YU Long3, Turgun·Ibrahim1, Askar·Hamdulla2
(1. School of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046, China; 2. School of Software, Xinjiang University, Urumqi, Xinjiang 830008, China; 3. Network Center, Xinjiang University, Urumqi, Xinjiang 830046, China)
Traditional research on sentiment analysis is to determine the sentiment of word, sentence or the whole text, ignoring the topics involved in the sentimental expressions In contrast, this paper proposes a method based on cascade CRFs model to analyze the sentiment at claim level of Uyghur opinioned text. The first layer extracts the topic word and its corresponding opinion word, and determines the scope of opinioned claim, and the result is then passed to the second layer as one of the key features which contributes to sentiment analysis at the claim level. The goal of the sentiment analysis on fine-grained opinion mining is to build a quadruple, which is
fine-grained; claim level; sentiment analysis; CRFs; Uyghur
羅亞偉(1990-),碩士研究生,主要研究領(lǐng)域為人工智能。E?mail:ywLuo_pleasant@126.com田生偉(1973-),博士,教授,主要研究領(lǐng)域為計算機智能技術(shù)及自然語言處理。E?mail:tianshengwei@163.com禹龍(1974-),通信作者,碩士,教授,碩士研究生導(dǎo)師,主要研究領(lǐng)域為計算機智能技術(shù)及計算機網(wǎng)絡(luò)。E?mail:yul_xju@163.com
1003-0077(2016)01-0140-08
2013-07-22 定稿日期: 2013-11-18
國家自然科學(xué)基金(61563051,61262064,61331011,60963017,61063026,61063043);國家社科基金(10BTQ045, 11XTQ007)
TP391
A