趙蓉英+魏明坤
〔摘 要〕[目的]隨著科學技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)化發(fā)展的現(xiàn)象越來越受到人們的重視。如何在海量的網(wǎng)絡(luò)信息中識別人物觀點成為研究者關(guān)注的焦點,網(wǎng)絡(luò)人物觀點被視為網(wǎng)絡(luò)文本表達的主要思想,是構(gòu)成網(wǎng)絡(luò)信息的“魂”。在海量的網(wǎng)絡(luò)信息中快速識別網(wǎng)絡(luò)人物觀點對掌握網(wǎng)絡(luò)信息主題具有重要作用。[方法]本文在前人研究的基礎(chǔ)上理論與應用相結(jié)合,從文本分析的視角研究網(wǎng)絡(luò)人物的觀點。利用相應的算法對文本內(nèi)容進行預處理,再通過文本句子中的詞匯、詞性標注和詞匯之間的距離關(guān)系實現(xiàn)觀點指示動詞識別和觀點持有者識別,從而實現(xiàn)網(wǎng)絡(luò)人物的觀點識別。[結(jié)果]通過網(wǎng)絡(luò)人物觀點算法識別的實證研究發(fā)現(xiàn),通過對網(wǎng)絡(luò)人物進行指代消解和觀點持有者的擴展能有效地提高觀點識別的準確率。
〔關(guān)鍵詞〕文本分析;觀點識別;觀點持有者;觀點指示動詞;網(wǎng)絡(luò)人物;網(wǎng)絡(luò)信息
DOI:10.3969/j.issn.1008-0821.2017.12.017
〔中圖分類號〕G250.252 〔文獻標識碼〕A 〔文章編號〕1008-0821(2017)12-0096-06
〔Abstract〕[Objective]With the development of science and technology,more and more attention has been paid to the phenomenon of network development.How to identify the views of people in the large information online has become the focus of attention of the researchers,the online peoples viewpoint is regarded as the main idea of the online text,which is the soul of the network information.It is very important to identify the viewpoint of characters online in the massive information.[Methods]This paper analyzed the viewpoint of network characters viewpoint from the perspective of text analysis on the basis of previous studies.This article was processed by using the corresponding algorithm,and then through the distance between the sentence words,lexical tagging and lexical relationship to achieve the identification of verbs and opinion holders,in order to realize the recognition on network peoples viewpoint.[Results]It realized recognizing the opinion of people in the network based on the previous research.The final results of experiment showed that the characters of opinion recognition would be effectively improved by eliminating the anaphora and expanding the opinion holders.
〔Key words〕text analysis;recognition of viewpoint;opinion holder;indicative verb of viewpoint;network character;network information
隨著Web2.0的出現(xiàn),用戶不僅是網(wǎng)絡(luò)內(nèi)容的瀏覽者,也是網(wǎng)絡(luò)內(nèi)容的發(fā)布者。人們除了可以從網(wǎng)絡(luò)上獲取更多的信息外,還可以通過網(wǎng)絡(luò)評論網(wǎng)站、個人博客、社區(qū)、論壇等傳遞自己的觀點。在此環(huán)境下,以網(wǎng)絡(luò)評論為代表的主觀性文本數(shù)量迅速增長,對網(wǎng)絡(luò)人物觀點的分析具有廣泛的實用價值,如網(wǎng)絡(luò)輿情分析、產(chǎn)品質(zhì)量評論、影視和服務(wù)評價等。在這種背景下,以觀點分析為主題的研究引起了學術(shù)界的廣泛興趣。如Yu等[1]在觀點問答系統(tǒng)中,基于文本和句子級別,將觀點從事實提取出來,并判斷觀點的正面影響和負面影響;Hu等[2-3]對用戶的評論進行挖掘和提煉,借助于詞性標注和關(guān)聯(lián)規(guī)則,提取用戶的評論特征;Bethard 等[4]結(jié)合語法和句式特征,通過語義分析技術(shù)對語句的觀點進行提取和注釋。Hsiao,Yu-Hsiang等利用文本信息挖掘情感在跨境電子商務(wù)中發(fā)揮的重用作用[5]。隨著文本分析的深入研究,文本分析在數(shù)字歷史探究、專利內(nèi)容識別以及在大數(shù)據(jù)時代的應用引起研究者的關(guān)注[6-8]。國內(nèi)研究者對文本分析的研究不斷增加,鄭國利用文本分析對新加坡概念規(guī)劃綱要等內(nèi)容進行系統(tǒng)分析和解讀,并將文本分析引入到城市規(guī)劃應用中[9]。國內(nèi)外在文本分析的研究中,由于語言的差異化,國外的相關(guān)研究都是針對英文文本進行分析,對觀點識別的研究大都是基于句法分析的,對觀點識別的準確度很大程度上依賴于句法分析的準確率。而基于漢語的人物觀點分析的相關(guān)研究仍然處于起步階段。由于中文在自然語言處理方面還不太成熟,受到中文句法分析準確率的限制,句法分析在觀點識別中的作用并不明顯。國內(nèi)的一些研究者在中文文本中分析觀點識別時,盡量減少對句法分析的依賴。郭巍等[10]通過建立觀點分析相關(guān)的觀點指示動詞集,然后利用SVM與距離加權(quán)計算的方法對觀點和持有者進行識別,對句法分析的依賴性很小。宋銳等[11]認為觀點持有者的識別是一個序列標注的任務(wù),通過建立ChunkCRF模型對觀點表達語句進行分析識別用戶的觀點。endprint
本文在分析相關(guān)主題文獻的基礎(chǔ)上,提出通過詞性分析實現(xiàn)網(wǎng)絡(luò)人物觀點的識別。本文中所指的網(wǎng)絡(luò)人物為網(wǎng)絡(luò)文本如網(wǎng)絡(luò)新聞等中所出現(xiàn)的人物,觀點是指文檔中觀點持有者直接發(fā)表的觀點,對于借用他人陳述的觀點即間接陳述的觀點,不在本文的探討范圍內(nèi)。因此,本文主要研究兩種類型的觀點:1)觀點持有者和指示動詞的觀點;2)人物語言的觀點。
1 文本分析法概述
文本分析法是研究人類傳播信息內(nèi)容為主的社會科學研究方法[12],與內(nèi)容分析法具有重疊之處,但兩者采用了不同的分析處理方法。內(nèi)容分析法古已有之,如“微服私訪”、“諫鼓謗木”、“鄉(xiāng)議”、“進諫”等,隨著時間的發(fā)展,文本分析成為計量學的重要組成部分,屬于文獻分析的一種。伯納德·貝雷爾森認為文本分析法是一種客觀的、系統(tǒng)的、定量的描述交流內(nèi)容的研究方法[13]。文本分析法是對文字、圖形、符號、聲頻、視頻等紀錄保存下來的資料內(nèi)容作為分析對象。本文認為文本分析法是按著研究對象的需要,對一系列相關(guān)文本進行比較、分析、綜合,從中提煉出不同的特征。文本分析法是在定性研究基礎(chǔ)上的量化分析方法,以問題的假設(shè)為出發(fā)點,通過定量的方法對研究內(nèi)容進行分析,最終結(jié)果基于統(tǒng)計分析數(shù)據(jù)的基礎(chǔ)上得到定性的結(jié)論。根據(jù)文本分析方法的發(fā)展,可以將文本分析方法分為解讀式文本分析方法、實驗式文本分析法和計算機輔助文本分析法[14]。隨著web2.0的發(fā)展,網(wǎng)絡(luò)信息占有重要地位,但在浩如煙海的數(shù)據(jù)中提取有用的信息變得越來越困難。要想在不斷變化的網(wǎng)絡(luò)環(huán)境中獲取網(wǎng)絡(luò)人物的觀點,需要對網(wǎng)絡(luò)上發(fā)布的信息進行監(jiān)測和評價。傳統(tǒng)的社會環(huán)境監(jiān)測方法,如民意調(diào)查等進展較慢,具有滯后性,不能及時反饋人物的觀點。
文本分析法也稱資訊分析或文獻分析,是一種具有半定量化色彩的研究方法,是針對文章或媒體的特殊屬性,如思想、主題、片語、人物角色或詞語等,做系統(tǒng)化和客觀化的分析,以探析文件內(nèi)容背后的真正意圖[15]。隨著信息傳播方式的增加,對識別網(wǎng)絡(luò)人物觀點和信念具有很大的影響,引起研究者的廣泛關(guān)注。在文本分析過程中,分析單元是文本分析的計算對象,是構(gòu)成文本分析最重要、最小的元素。在對文字文本分析中,分析單元可以是單獨的字、詞、符號、客觀事物的觀點、整片文章等,而本文選擇網(wǎng)絡(luò)人物觀點作為研究對象。文本分析法是基于不同研究主題的各種類型的文本,包括文章、訪談記錄、圖片內(nèi)容等。
2 詞匯庫的建立
一個完整的觀點句應包括一些重要的詞匯特征,如:觀點詞語、觀點指示動詞,以及觀點持有者。因此,為了彌補中文分詞工具所存在的缺陷,有效地進行觀點自動檢測和抽取以及觀點持有者自動抽取內(nèi)容,本文首先建立了相關(guān)詞匯庫。
2.1 觀點指示動詞
觀點指示動詞是用來指示觀點的動詞,如“認為”、“指出”、“批評”、“說”等。由于一些觀點指示動詞本身帶有情感傾向,而要引入情感詞語,可能會導致觀點抽取不夠全面;某些表達人物觀點的語句并未使用觀點指示動詞,可能會導致部分觀點句遺漏。本文的觀點指示動詞是通過語料查找和人工搜索方法獲得,共有觀點指示動詞106個,其中包含中性觀點指示詞有65個,如“闡述”、“論述”、“回答”等,消極觀點指示動詞有11個,如“反對”、“否認”,積極觀點指示動詞有30個,如“贊賞”、“贊揚”、“鼓勵”等。
2.2 人物詞匯
人名、地名、某個組織機構(gòu)、團體、區(qū)域、某些新聞中經(jīng)常出現(xiàn)的模糊指代的集合人物(如有關(guān)部門、專家等)、人稱代詞(包括:他、她、他們、她們)及其它部分普通名詞都可作為觀點持有者的候選詞。本文為了克服分詞器的分詞效果不能滿足網(wǎng)絡(luò)人物觀點識別的全面性,人工將一些常見的能夠指代人物的詞匯添加到用戶詞典中。其中,筆者總結(jié)了兩種人物詞匯:一種是網(wǎng)絡(luò)中經(jīng)常出現(xiàn)的一些模糊指代的詞匯,如消費者、顧客、組織者等;其二是表示職業(yè)或者人物關(guān)系的詞匯,如專家、父親等。本文向用戶詞典中添加了24個第一種詞匯和33個第二種詞匯,并對第一種詞匯標注為defnr1,第二種詞匯標注為defnr2。
3 文本的預處理
在對文本觀點分析之前,要對文本的內(nèi)容從不同的構(gòu)成要素進行分析,主要包括語句、分詞、文本整體3個部分。在進行網(wǎng)路人物觀點識別前,需對文本就行預處理,步驟如下:
3.1 語 句
首先采用分句算法將文本進行分句,然后判斷每個句子是否是觀點句。因此語句算法在很大程度上影響著觀點抽取的完整性。由于中文一般根據(jù)劃分句子標點符號“。?!”等進行分句,為保證觀點句在語法層面不完全拆分,本文在分句時只采用“。”、“?”、“!”3種分句標點符號和文檔本身存在的回車換行符號作為句子界限,且對不可拆分引號中的內(nèi)容做了一定的處理。語句算法處理標準:
1)首先對引號內(nèi)容進行特定標記并替換,并將引號內(nèi)容加入到隊列queue中;
2)其次對匹配出的3種分句標點符號的后邊均加入一個回車符;
3)將queue中的引號內(nèi)容依次替換回去;
4)剔除多余的回車符號,即將連續(xù)的兩個或者兩個以上的回車符替換為一個;
5)根據(jù)回車符劃分句子并加入到List中。
3.2 分 詞
采用中國科學院的分詞工具ICTCLAS2010進行分詞與詞性標注。并在中國科學院分析工具的基礎(chǔ)上添加了兩種詞性(defnr1,defnr2)以提高觀點識別的查全率和查準率,其中defnr1是一些網(wǎng)絡(luò)文章或新聞中經(jīng)常出現(xiàn)的一些模糊指代的集合人物(如人士)名詞,采用窮舉的方式添加到用戶詞典;defnr2是一些能夠聯(lián)系到其他人物的關(guān)系屬性的詞匯(如父親、繼母等)和一些職業(yè)相關(guān)的名詞(如專家、律師、記者等)。
3.3 文本解析
經(jīng)以上兩個步驟預處理后的文本,文本解析成模擬樹List〈Sentence〈Word〉〉的形式;其中Sentence是文本句子的實體,包含句子的編號、詞語的數(shù)量、詞性標記后的句子的字符串;Word是詞語的實體,包含詞語、詞性標記、在句子中的編號、所在句子的編號、詞語在所在句子中的起始索引位置、特殊標記等(如人名標記:1;人稱代詞標記:2;觀點指示動詞標記:3)。endprint
4 基于文本分析的網(wǎng)絡(luò)人物觀點識別算法設(shè)計
4.1 觀點指示動詞的識別
網(wǎng)絡(luò)人物觀點持有者識別算法:
1) 設(shè)置默認返回的觀點持有者的id為-1;
2) 抽取某語句中的全部候選觀點持有者;
3) 默認最優(yōu)觀點持有者詞語bestWeight的權(quán)重為-100;循環(huán)每個候選詞,如果它在引號內(nèi),則繼續(xù)循環(huán),否則計算它的權(quán)值,如果權(quán)值大于最優(yōu)觀點持有者的權(quán)值,則賦值bestWeight,并將它的ID賦值給id;
4)循環(huán)結(jié)束后,返回id。
為了提高觀點持有者識別的準確率,本文進行了簡單的指代消解和觀點持有者擴展。
4.2.1 簡單指代消解
本文進行的指代消解界定為對人稱代詞進行指代消解,其中,處理的人稱代詞包括他、她、他們、她們四種,且對指代單復數(shù)的情況作了簡單的處理。其主要思想是:如果是前兩個代詞,向前查找單數(shù)類型的人物名詞(如nr,nr1),如果是后兩個詞語,則查找集合性質(zhì)的人物名詞(如defnr1等),查找范圍局限在向前一定閥值的句子內(nèi)一定數(shù)量的人物中,選擇最優(yōu)的候選詞作為照應詞。
4.2.2 觀點持有者擴展
本文沒有依賴句法和語法規(guī)則,而根據(jù)詞性規(guī)則并總結(jié)一些常見的模板來拓展觀點持有者,本文假設(shè)已經(jīng)得到的參考的人物名詞詞語,那么可以擴展為以下幾種情況:
1) 一位中國地震局的專家:前邊為量詞、名詞、形容詞等;
2) 杜甫的妻子:后邊為“的”、nr、defnr等;
3) 李女士的丈夫張某:前邊為“的”、nr等,后邊為名詞、后綴詞等;
4) 其他情況。
因此,本文采用對語句進行向前和向后連續(xù)查找詞匯,一旦有其它詞性,則停止擴展;這種擴展方法的優(yōu)點在于其靈活性較大。
5 結(jié)果分析
5.1 算法設(shè)計
本文根據(jù)網(wǎng)絡(luò)人物觀點的屬性,基于文本分析方法建立觀點識別流程圖,如圖1所示。在整個流程圖中,對分析文本的語句需滿足以下條件:1)第一種觀點,需要有觀點指示動詞,允許觀點持有者和觀點指示動詞之間的距離在一定的閥值范圍之內(nèi),建立彼此之間的聯(lián)系;2)第二種觀點,有人物的語言的存在;3)在兩種觀點語句中都必須有觀點持有者的出現(xiàn)。整個觀點識別的算法如圖1所示。
通過網(wǎng)絡(luò)人物觀點識別示意圖可知,首先要對分析對象進行預處理,將文本解析成List〈Sentence〈Word〉〉的形式。其次對語句進行循環(huán),針對每一句,進行分析處理。根據(jù)語句中詞語的tag屬性識別出該句中包含的觀點持有者和觀點動詞的候選詞的列表;進行第一次觀點判斷,如果該句中沒有觀點持有者詞語,認為這句話不是觀點句,進入下一個循環(huán)。如果語句中包含觀點指示動詞,則根據(jù)觀點指示動詞識別算法(參見表1)獲取該語句中的觀點指示動詞,并根據(jù)觀點持有者識別算法(參見表2)獲取觀點持有者。如果沒有獲取觀點指示動詞則被判定對于前面觀點判斷失敗的句子,進行第三次觀點判斷。在第三次觀點判斷時,如果該句中包含人物的說話內(nèi)容,則認為是觀點句,并根據(jù)觀點持有者算法獲取觀點持有者,如果沒有得到,則不認為是觀點。第二次觀點判斷的依據(jù):1)如果動詞和人名之間距離很遠的話,不認為是觀點,返回false;2)如果人名和動詞之間有斷句符號(如逗號等),且兩個詞語的距離超過一定權(quán)值,不認為是觀點,返回false;否則返回true,并根據(jù)簡單指代消解方法對人稱代詞進行指代消解,并將指代消解的結(jié)果作為觀點持有者詞語。最終根據(jù)獲取的觀點持有者,依據(jù)觀點持有者擴展方法,進行觀點持有者的擴展,獲取相關(guān)屬性并將獲取的屬性賦給觀點對象View,然后添加到觀點列表中。
5.2 算法結(jié)果
5.2.1 觀點句自動抽取
本文以百度新聞搜索為例,在百度新聞搜索中進行關(guān)鍵詞檢索,總共選取了9個關(guān)鍵詞,每個關(guān)鍵詞檢索得到40篇新聞,最后得到360篇文章作為分析對象。將這360篇文章依據(jù)標點符號進行句子劃分,得到9 497個句子,然后對這些句子進行觀點句人工標記,共得到觀點句1 491個。將這些人工標注的語句作為測試集,對于觀點自動抽取的性能我們用準確率(Precision)和召回率(Recall)來進行評價。
準確率=機器識別的正確觀點數(shù)人工標記的觀點總數(shù)×100%(4)
召回率=機器識別的正確觀點數(shù)機器識別的觀點總數(shù)×100%(5)
在該實例操作中,判斷一句話是否是觀點,首先是判斷這句話中是否存在潛在的觀點持有者,如果存在,則識別這句話中是否有觀點指示動詞,將這種方法作為一次判斷,也稱為Baseline。在一次判斷的基礎(chǔ)上,對潛在的觀點持有人和觀點指示動詞之間的距離限制在一次的范圍之內(nèi),即二次判斷。然后對于剩余的語句,如果句子中有引號,且引號內(nèi)是一句話,我們就將其視為觀點句,記作三次判斷。根據(jù)不同三種判斷情況,經(jīng)過相關(guān)分析,獲取結(jié)果如表1所示。
由表1的分析結(jié)果中可知,在一次判斷的基礎(chǔ)上,我們對潛在觀點持有者與觀點指示動詞的距離加以限制,來提高觀點識別結(jié)果的準確率,同時我們會發(fā)現(xiàn)召回率會下降,即在增加一次測試的基礎(chǔ)上增加了距離限制提高準確率同時會降低召回率??梢姡闻袛嗟淖R別結(jié)果不是很成功。為了進一步提高網(wǎng)絡(luò)人物觀點識別結(jié)果的準確率和召回率,通過在二次判斷的基礎(chǔ)上,我們再進行判斷一次,即三次判斷。根據(jù)表中的得到的結(jié)果數(shù)據(jù)可以觀察出,經(jīng)過三次判斷后,準確率和召回率都明顯得到提升。可見,三次判斷的結(jié)果的有效性更大,提高了實驗的準確率。
5.2.2 觀點持有者的自動抽取
在對觀點持有者的抽取進行分析時,筆者對人工標注的1 491個觀點句,通過機器抽取得到正確的觀點語句1 128句,并將這1 128個觀點語句作為觀點抽取的文本庫。對于觀點持有者的自動抽取結(jié)果的評價,本文是對機器抽取結(jié)果與人工標記的結(jié)果進行對比,把平均相似度作為評價指標。endprint
由表2的計算結(jié)果可以獲知,在Baseline實驗的基礎(chǔ)上進行短詞擴展,在很大程度上提高觀點持有者的識別效率,平均相似度提高了近25%。而在短語擴展的基礎(chǔ)上,進行人稱的指代消解,雖然效果不是很明顯,但是平均相似度有所上升,證明觀點持有者的自動抽取計算方法成為網(wǎng)絡(luò)人物觀點識別研究的主要方法之一。由此可見,短語擴展將大量的部分匹配的觀點持有者變?yōu)橥耆ヅ?,使得觀點持有者的機器抽取結(jié)果更加完整,很大程度地提高了計算結(jié)果。而指代消解,主要是將不匹配的觀點持有人轉(zhuǎn)化為相關(guān)性的配皮,那些不匹配的觀點持有人一般是一些人稱代詞(他,她等),通過指代消解將這些人稱代詞轉(zhuǎn)化為正確的觀點持有人,從而進一步提高計算結(jié)果的準確度。
6 結(jié) 語
本文在總結(jié)前人相關(guān)研究的基礎(chǔ)之上,針對中文文本,從計量學學的文本分析法基礎(chǔ)上進行網(wǎng)絡(luò)人物的觀點識別。在分詞和詞性標注的基礎(chǔ)之上,利用詞性分析和詞匯之間的距離提出了觀點指示動詞識別算法和觀點持有者識別算法。并進行實證分析,按著理論與實證相結(jié)合的方法對網(wǎng)絡(luò)人物觀點識別進行研究,從應用角度來提高觀點識別算法的可行性。為了進一步提高觀點識別的效果,本文利用指代消解和觀點持有者擴展進一步提高網(wǎng)絡(luò)人物觀點的準確率和召回率。從實證分析的結(jié)果來看,該模型算法取得了比較理想的結(jié)果。本文存在的不足之處在于未對觀點的主題和觀點的極性未進行探討,希望本文對后續(xù)研究者提供借鑒作用。后續(xù)研究需進一步加強觀點主題和觀點的極致性進行分析,進一步完善網(wǎng)絡(luò)人物觀點的識別研究。
參考文獻
[1]Yu H,Hatzivassiloglou V.Towards answering opinion questions:separating facts from opinions and identifying the polarity of opinion sentences[C]2003:58-59.
[2]Hu M,Liu B.Mining and summarizing customer reviews[C]2004:168-177.
[3]Hu M,Liu B.Mining opinion features in customer reviews[C]2004:755-760.
[4]Bethard S,Yu H,Thornton A,et al.Automatic Extraction of Opinion Propositions and their Holders[J].2004.
[5]Hsiao Y H,Chen M C,Liao W C.Logistics service design for cross-border E-commerce using Kansei engineering with text-mining-based online content analysis[J].Telematics & Informatics,2016.
[6]Walter L,Radauer A,Moehrle M G.The beauty of brimstone butterfly:novelty of patents identified by near environment analysis based on text mining[J].Scientometrics,2017,111:1-13.
[7]Al-Smadi M,Jaradat Z,Al-Ayyoub M,et al.Paraphrase identification and semantic text similarity analysis in Arabic news tweets using lexical,syntactic,and semantic features[J].Information Processing & Management,2017,53(3):640-652.
[8]Mccormick T H,F(xiàn)errell R,Karr A F,et al.Big data,big results:Knowledge discovery in output from large‐scale analytics[J].Statistical Analysis & Data Mining,2014,7(5):404-412.
[9]鄭國.基于文本分析的新加坡概念規(guī)劃述評[J].西北大學學報:自然科學版,2017,47(2):272-276.
[10]郭巍,宋銳,林鴻飛.基于SVM與距離加權(quán)計算的觀點和持有者識別機制[J].計算機工程與科學,2008,30(10):125-128.
[11]宋銳,洪莉,林鴻飛.基于ChunkCRF的觀點持有者識別及其在觀點摘要中的應用[J].小型微型計算機系統(tǒng),2009,30(7):1462-1466.
[12]邱均平,王曰芬.文獻計量內(nèi)容分析法[M].北京:北京圖書館出版社,2008.
[13]Browne R B,Madden D,Emery M C,et al.General Media Texts[J].Communication Booknotes Quarterly,1972,3(8):4-6.
[14]孫瑞英,畢強.內(nèi)容分析法在圖書情報領(lǐng)域的研究現(xiàn)狀及應用趨勢分析[J].情報科學,2005,23(1):148-152.
[15]邱均平.知識計量學[M].北京:科學出版社,2014.
(本文責任編輯:孫國雷)endprint