邢翠鵑
(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)
基于向量空間模型的文本風(fēng)格相似度分析
——以女性文學(xué)為例
邢翠鵑
(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)
本文主要用向量空間模型(Vector Space Model,VSM)來分析女性文學(xué)代表作家的作品,通過TF-IDF計算文本特征項的權(quán)重,最后根據(jù)計算結(jié)果來分析這些女性文學(xué)作家作品的文本風(fēng)格相似度。并以此證明同時代不同作家或不同時代同類作家(女性文學(xué)作家)的文本是同中有異,異中有同,此外還分析了部分特征詞的分布情況。
向量空間模型 TF-IDF 文本相似度 女性文學(xué)
文本中的相似度計算是自然語言處理領(lǐng)域中的關(guān)鍵問題之一,在信息檢索、信息抽取、專利分析等領(lǐng)域都有著重要的應(yīng)用價值。面對現(xiàn)代網(wǎng)絡(luò)信息時代的海量信息,我們可以通過文本相似度算法來為信息分類,以提高信息檢索的效率。早在20世紀(jì)30年代,西方文體學(xué)界即開始引入定量分析,尤其是統(tǒng)計學(xué)的方法[1],而將計算方法應(yīng)用于漢語語言風(fēng)格學(xué)研究最早始于20世紀(jì)70、80年代,人們用詞頻統(tǒng)計等方法來考證《紅樓夢》的作者歸屬問題。這種方法也得到了我國語言風(fēng)格學(xué)界一些學(xué)者的肯定,如黎運漢先生就專文論述了語言風(fēng)格研究中常用的三種方法:分析綜合法、比較法和統(tǒng)計法。他指出,“統(tǒng)計法適用于各種語言風(fēng)格的研究”,因為“風(fēng)格特點的質(zhì)必然反映在語言因素的量上”,“風(fēng)格學(xué)應(yīng)用它提供的數(shù)據(jù),從質(zhì)和量的統(tǒng)一上研究風(fēng)格現(xiàn)象,進而認(rèn)識風(fēng)格的本質(zhì)”[2]。
向量空間模型是一種用來表示文檔的方法,它的思想是將文檔分解為由詞條特征構(gòu)成的向量。具體做法是將文檔進行分詞,然后計算文檔中每個詞條的權(quán)重,權(quán)重計算可以利用TF-IDF算法,由計算得到的權(quán)重構(gòu)成一個矢量空間,即形成這個文檔的向量空間。這里,文檔(Document)用D來表示,如此這樣,文檔Dj就可以表示成如下的向量空間:
其中,m表示文檔D中分詞的特征詞條數(shù);Wij為詞條ti在文檔Dj中的權(quán)重。
向量空間模型假定某個文本di由一個特征向量(t1,t2,…,tn)表示,ti是出現(xiàn)在文本di中的特征項,n表文本di中各種不同特征項。特征項ti對應(yīng)有一個特征權(quán)重wi=TF(wi,di)*IDF(wi),TF(wi,di)正比例于某個特征項在文本di中出現(xiàn)的頻率,IDF(wi)反比例于某個特征項在文本集合中出現(xiàn)的頻率。di對應(yīng)于一個n維的向量Di=(w1,w2,…,wn),顯然,特征權(quán)重度量了相應(yīng)特征項的統(tǒng)計重要性。
TF-IDF是一種經(jīng)典的基于統(tǒng)計分析的特征項權(quán)重計算方法。最早由G.salton在1973年提出①。TF(term frequency)是指關(guān)鍵詞詞頻,即一篇文章中關(guān)鍵詞出現(xiàn)的頻率;IDF(inverse document frequency)是指逆向文本頻率,即關(guān)鍵詞在不同文檔中的分布情況。它的基本思路是:一個詞在一個文本中出現(xiàn)的頻率越高,說明它區(qū)分該文本的能力越強(TF);一個詞在不同文本中出現(xiàn)的范圍越廣,說明它區(qū)分文本的能力越低(IDF)。經(jīng)過Salton的多次論證,信息檢索領(lǐng)域廣泛地使用TF-IDF算法計算權(quán)重,其經(jīng)典計算公式為:
根據(jù)以上分析,容易獲得兩個直觀結(jié)果:a)某個特征項在文本中出現(xiàn)的頻率越高,則這個特征項對這個文本越具有標(biāo)志能力,賦予這個特征項的特征權(quán)重應(yīng)該越大;b)某個特征項在文本集合中各個文本內(nèi)出現(xiàn)的頻率越高,那么用這個特征項對文本集合中的文本進行分類的區(qū)分能力越弱。例如在英文文本中,“the”出現(xiàn)的頻率很高,但是這個單詞對各文本的區(qū)分能力卻很差。
女性文學(xué)是誕生于一定的社會歷史條件下,以五四新文化運動為開端,具有現(xiàn)代人文精神內(nèi)涵,以女性為經(jīng)驗主體、思維主體、審美主體和言說主體的文學(xué)。在這一界說之下,女性文學(xué)的視野是開放的、發(fā)展的系統(tǒng),而不是封閉靜止的,應(yīng)該是女作家基于性別主體意識、生別視角表現(xiàn)的關(guān)注女性命運、女性情感、女性生命的文學(xué),或者是基于超性別意識(隱含性別主體意識)、超性別視角(隱含性別視角)表現(xiàn)的包括女性生存在內(nèi)的、具有人類普遍意義的文本。女性文學(xué)仍是一個有待探索和完善的命題。
中國的女性文學(xué)從五四時期到二十世紀(jì)九十年代共有三次高潮,每次高潮都有自己不同的主題和不同的具有代表性的作家作品,本文就選取了不同時期的十位作家——丁玲、蕭紅、張愛玲,楊絳,張潔,王安憶,鐵凝,林白,陳染,魏微——的總計六十五部作品作為研究的對象。
3.1 選取文本
首先根據(jù)研究需要,選取有代表性的女性文學(xué)作家十位及其代表作品總計六十五部,文本規(guī)模2247419詞次。具體分布情況如下:
表1:語料分布情況表
3.2 文本預(yù)處理
選定語料后,對這些文本進行整理,主要是去掉一些無關(guān)的字符,例如:有關(guān)文檔來源的電子鏈接等。
3.3 文本分詞及詞性標(biāo)注
文本分詞是文本分類的基礎(chǔ)。簡單地說,就是用分詞算法把文本切分成字、詞和短語。目前常用的自動分詞方法有:
A.最大匹配法(Maximum Matching Word Segmentation)
正向最大匹配(MM):假如分詞依據(jù)的詞典中最長詞條為n個字符,對待分詞文本自左向右取n個字符,與詞典進行匹配,若詞典中存在該詞條,則將該詞條切分出去,繼續(xù)取n個字符進行匹配,直到文本處理完畢;若詞典中不存在該詞條,則減去該詞條最后一個字符,繼續(xù)與詞典進行匹配,重復(fù)該過程。還有逆向最大匹配法,過程與正向最大匹配法一樣,不過方向是自右向左。最大匹配法分詞方法的優(yōu)點有:速度快、直觀;與詞表規(guī)模幾乎無關(guān);現(xiàn)代漢語語料(含一定未登錄詞)的分詞精度在85%左右;其缺點有:幾乎無法解決未登錄詞問題(只能猜對未登錄的單字)、過于依賴詞表,跨領(lǐng)域性較差、分詞精度有待提高 (交集型歧義只能猜對一半;組合型歧義,只合不分)。其他的特點有切分一致度高。
B.最大概率法分詞[7](Maximum Probability Word Segmentation)
又稱為基于統(tǒng)計的分詞方法。從形式上看,詞是穩(wěn)定的字的組合。相鄰的字同現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞,因此字與字相鄰共現(xiàn)的概率能夠較好地反映成詞的可信度。這種分詞方法的基本思想是:一個待切分的漢字字符串可能包含多種分詞結(jié)果,將其中概率最大的那個詐為該字串的分詞結(jié)果。主要的語言統(tǒng)計模型和決策算法有:互信息、N元文法模型、最大熵模型等。其特點有:若每個詞語的概率相等,則退化為最大匹配法、分詞精度一般在90%左右、沒有利用上下文信息,對交集型歧義字串采取千篇一律的切分方式、對于組合型歧義的消解基本無效、對于交集型歧義(偽歧義消解效果好、真歧義消解效果差[8]),對此可嘗試?yán)迷~的轉(zhuǎn)移概率(二元模型)。
詞性標(biāo)注(Part of Speech Tagging,POS)就是對文本中每一個詞賦予相應(yīng)的詞性標(biāo)記,包括對標(biāo)點符號的標(biāo)記。它代表了一個詞的語法特征,也稱語法標(biāo)記、詞語附碼[17]。具體過程是從待分析詞串中取一個Span:對詞串中的每個詞,查詞庫,(1)若查到,將該詞所有詞性標(biāo)記取出,登記在數(shù)組Tags[i][j]中,i代表詞的序號,j代表詞性標(biāo)記序號,將該詞該標(biāo)記的出現(xiàn)次數(shù)登記在Freqs[i][j]數(shù)組中;(2)若未查到,將開放類詞性標(biāo)記賦給該詞,登記在Tags[i][j]中,將Freqs[i][j]的值置為1。對Span中的每個詞的每個可能的詞性標(biāo)記;(3)計算該標(biāo)記的累計費用;(4)記錄該標(biāo)記的最佳前驅(qū)標(biāo)記當(dāng)Span中最后一個詞的詞性標(biāo)記確定下來后,順次取出各詞的最佳前驅(qū)標(biāo)記,即得到詞性標(biāo)注結(jié)果。將Span類數(shù)據(jù)重新初始化,準(zhǔn)備下一個Span的標(biāo)注。例如:實現(xiàn)/v祖國/n的/u完全/a統(tǒng)一/vn,/w是/v海內(nèi)外/s全體/n中國/ns人/n的/u共同/b心愿/n。/w(采用北京大學(xué)的詞類標(biāo)記集)
本文的語料是用最大概率法分詞,用ICTCLS軟件進行詞性標(biāo)注。之后又對其結(jié)果進行人工校對,修改了部分標(biāo)注。接下來形成詞頻表。
3.4 去停用詞
去停用詞就是按照停用詞表中的詞語將語料中對文本內(nèi)容識別意義不大但出現(xiàn)頻率很高的詞、符號、標(biāo)點及亂碼等去掉。一個句子,可能由名詞、動詞、形容詞、副詞、語氣詞等組成,而只有名詞和動詞能很好地標(biāo)記文本,像有些副詞如“非?!钡群鸵恍┨撛~“的、并且”等在文本中的出現(xiàn)頻率很高,但是幾乎不能標(biāo)記文本,這類詞就要用停用詞表來去掉。
3.5 計算
首先利用公式算出每個文本的權(quán)值,再對其進行降序排列,從高到低依次選擇權(quán)值比較大的2050個詞語作為文本的特征項。由于特征項代表了一部作品中最重要的信息,因此文本的相似度就可以由特征項向量間的相似度來描述。
用VSM表示D1和D2兩個文本向量:
D1=D1(w11,w12,…w1n)
D2=D2(w21,w22,…w2n)
如果使用N維空間中兩個向量直接的距離來表示文本間的相似程度,設(shè)Sim(D1,D2)表示這種相似程度。一般使用向量間的內(nèi)積,或兩向量夾角的余弦值來表示相似系數(shù)Sim(D1,D2)。
(1)向量間的內(nèi)積公式:
(2)向量夾角的余弦公式:
4.1 通過公式(3)計算得出中國女性文學(xué)不同時期六位代表作家作品之間的相似度如下:
表2:中國女性文學(xué)不同時期六位代表作家作品間的文本相似度
觀察表1我們可以看到:女性文學(xué)的三個不同時期中,1)每個時期的兩個代表作家之間的文本相似度都比較大,例如:張愛玲和蕭紅都是五四時期到五六十年代的女性文學(xué)作家,其文本相似度就是0.68,張潔和楊絳都是七八十年代我國女性文學(xué)的代表作家,其文本相似度就是0.52,陳染和楊絳都是九十年代我國女性文學(xué)的代表作家,其文本相似度就是0.84,其原因就是處于同一個社會環(huán)境中的作家文本風(fēng)格會有一定程度的類似;2)不同時期的時期作家作品之間的文本相似度與前者相比就低一些,例如,張愛玲與不同時代作家作品之間文本相似度是0.07、0.55、0.13、0.09就明顯比其與同時代的女性文學(xué)作家蕭紅的文本相似度0.68低一些,其他作家也都是類似情況,這正是由不同時代的不同社會環(huán)境以及作家自身的不同經(jīng)歷所造成的;3)總體來說,無論哪個時代女性文學(xué)作家之間的文本相似度還算比較穩(wěn)定,因此這些作家都被定義為女性為學(xué)作家,其作品也就是女性文學(xué)作品,這是由于此類作家群 (包括歷時的和共時的)基本都堅持女性主義思想,有鮮明的女性主義立場。
4.2 通過公式(1)計算得出一些有代表性的特征詞的不同分布情況如下
圖1:特征詞權(quán)重分布圖
在句子中,名詞和動詞是最具有標(biāo)志性的詞語,本文選出了四個名詞(“現(xiàn)實、動物、友人、磚窯”)和四個動詞(“預(yù)感、留心、吃醋、躲避”)分別分析(結(jié)果如表3):1)首先,每個詞在不同的作家作品里都有不同的權(quán)重,例如動詞“留心”在作家丁玲的作品中權(quán)重就明顯高于其他作家的作品,而名詞“友人”在作家陳染的作品中權(quán)重就明顯高于其他作家作品;2)如果看同一個作家,有的作家相對偏向于使用某一些詞語而不是另一些詞語,而另外的作家則偏向于使用另外一些詞語,例如作家丁玲,就多使用動詞“留心”和“預(yù)感”,這首先是跟作家本人的敏感性格有關(guān),另外也與作家本身身為女性的感性和細(xì)心以及其所處的社會環(huán)境有關(guān)。
本文的實驗證明,在比較大的文本語料中,使用基于TF-IDF加權(quán)的向量空間模型算法來計算文本相似度是比較可靠的,也就是說,我們可以把此方法推廣到信息檢索、專利分析等領(lǐng)域中。只是在不同的領(lǐng)域中應(yīng)該加入其它的改進的加權(quán)算法,以進一步提高信息分類與識別的準(zhǔn)確率。
注釋:
①Salton G,Clement T Y.On the Construction of Effective Vocabularies for Information Retrieval[C]//Proc.of 1973 Meeting on Programming Languages and Information Retrieval.New York,USA:ACM Press,1973.
[1]曾毅平,朱曉文.計算方法在漢語風(fēng)格學(xué)研究中的應(yīng)用[J].福建師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2006(1): 14-17.
[2]黎運漢.漢語風(fēng)格探索[M].北京:商務(wù)印書館,1990.
[3]陶惠,張妍,郝光權(quán).基于向量空間的文檔聚類算法分析[J].電腦知識與技術(shù),2011(7):4780.
[4]Zhongguo Li,Maosong Sun.Punctuation as Implicit Annotations for Chinese Word Segmentation[J].Computational Linguistics,2009(4):505-512.
[5]Shivakumar N,Garcia-Molina H.Building a scalable and accurate copy detection mechanism [C].Edward A.Fox,P Gary Marchionin.i International Conference on Digital Libraries,Maryland,United States:1996,160-168.