高 松,馮志偉
(1. 黑龍江大學(xué) 文學(xué)院,黑龍江, 哈爾濱 150080; 2. 中國傳媒大學(xué) 應(yīng)用語言學(xué)研究所,北京 100024;3. 教育部語言文字應(yīng)用研究所, 北京 100010)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)上的信息量呈指數(shù)級增長,這給信息檢索帶來了嚴峻的考驗。文本分類和文本聚類技術(shù)是信息檢索研究的重要方面,其目標是幫助人們自動檢索文本,判別文本屬性類別,在文本中快速、準確地尋找有用信息[1-2]。特征選擇是文本分類的前提。一個合理、有效的特征選擇方法可以在數(shù)據(jù)預(yù)處理階段去掉數(shù)據(jù)中的冗余,降低特征空間的維數(shù),提高分類的效率。特征選擇方法主要有文檔頻率、互信息、信息增益、卡方統(tǒng)計、信息熵等。這些方法的計算量較大,為了提高聚類的效率,算法被不斷地改進[3-6]。
為了避免使用計算過程復(fù)雜的算法,并能整合利用語言學(xué)特征[7],從語言學(xué)的角度對特征選擇和文本分類結(jié)果進行分析和解釋,已有研究者提出了基于語料庫和統(tǒng)計學(xué)的方法來獲取語體的計量特征,并將這些特征用于文本聚類[8]。已有的計量描寫僅涉及到了字、詞、句層面,其他層面的描寫較少涉及。本文將在句法關(guān)系層面,從依存樹庫中統(tǒng)計出現(xiàn)代漢語口語體和書面語體中具有顯著差異的詞類依存關(guān)系,作為文本的聚類特征來對陌生文本進行聚類分析。
本文結(jié)構(gòu)的安排如下: 第2節(jié)介紹本文研究使用的資源和研究方法;第3節(jié)從依存樹庫中提取文本聚類特征;第4節(jié)給出實驗結(jié)果及分析;第5節(jié)是對本文的總結(jié)。
樹庫是指在詞性標注的基礎(chǔ)上,對每個句子加注句法關(guān)系的語料庫。近年來,樹庫作為獲得句法結(jié)構(gòu)的知識源和評價句法分析結(jié)果的工具,越來越受到研究者們的重視[9]。樹庫是進行計算語言學(xué)研究的重要資源[10]。樹庫中含有的大量句法分布信息可為句法研究提供堅實的基礎(chǔ)[11]。依存樹庫是一種依存語法標注的語料庫,通過建立詞語之間的聯(lián)系來描述句法的結(jié)構(gòu),它以依存關(guān)系為基礎(chǔ)。圖1 為漢語句子“他是一名學(xué)生?!钡囊来婢浞ńY(jié)構(gòu)圖。
圖1 “他是一名學(xué)生?!钡囊来婢浞ńY(jié)構(gòu)圖
由圖1可見,依存關(guān)系是兩個詞之間一種有向的、非對稱的關(guān)系。它具有三個組成部分: 支配詞、從屬詞、依存關(guān)系標記。句子中的每個詞都有自己的支配詞,即它是受哪個詞支配的,它依存于哪個詞。把這種依存關(guān)系用符號標記出來,這些符號就是依存關(guān)系標記。圖中帶箭頭的弧的起點為支配詞,箭頭指向的是從屬詞,弧上標記為依存關(guān)系標記。有關(guān)依存語法理論,可參見文獻[11-13]。
本文使用的樹庫是中國傳媒大學(xué)應(yīng)用語言學(xué)研究所漢語依存樹庫(IAL-CUC CDT),它是面向有聲媒體語言的依存樹庫。樹庫包含的語料為2007年電視臺和廣播電臺31檔節(jié)目的轉(zhuǎn)寫文本。電視節(jié)目如“新聞聯(lián)播”、“實話實說”、“魯豫有約”、“百家講壇”等;廣播節(jié)目如“新聞和報紙摘要”、“今日論壇”、“海峽時評”、“中國之窗”等。語料既包含新聞播報類又包含訪談會話類,涉及的范圍和內(nèi)容比較廣泛。語體上,既有書面語體又有口語體。語料中共有3 600個句子,98 236個詞次。文本進行了自動分詞和詞性標注,并采用依存語法對其進行了句法標注。為確保標注的一致性,對漢語的某些特殊結(jié)構(gòu),我們給出了統(tǒng)一的標注方法[14]。所有的標注結(jié)果都經(jīng)過了人工和工具的核對校正。所用的漢語依存關(guān)系句法標注體系見文獻[15]。我們從樹庫中選取10檔節(jié)目的文本作為訓(xùn)練文本,10檔節(jié)目的文本作為測試文本。以此來進行文本聚類分析實驗。
首先,我們對訓(xùn)練文本的語料進行語體分類。根據(jù)語體學(xué)理論[16],人工將訓(xùn)練文本的10檔節(jié)目文本分成新聞類書面語體和談話類口語體。接下來,在分屬不同語體的依存樹庫中,提取漢語主要詞類名詞、動詞、形容詞、代詞、副詞、介詞的依存關(guān)系。統(tǒng)計在不同語體中,各個詞類做支配詞和做從屬詞時所形成的依存關(guān)系,這些依存關(guān)系出現(xiàn)的頻次和百分比。然后提取文本聚類特征。比較各詞類依存關(guān)系在不同語體文本中的分布,提取具有顯著差異的詞類依存關(guān)系,也就是在訓(xùn)練文本中找到聚類特征候選集。并以獨立樣本T檢驗方法來檢驗這些差異在統(tǒng)計學(xué)意義上的顯著性。最后,從聚類特征候選集中選擇最終的聚類特征,對測試文本進行層次聚類分析實驗。
我們在訓(xùn)練文本中,統(tǒng)計出名詞、動詞、形容詞、代詞、副詞、介詞做支配詞和做從屬詞時所有的依存關(guān)系,并對各種依存關(guān)系按照語體的不同進行分類,找出了具有顯著差異的10種依存關(guān)系,將這10種依存關(guān)系作為聚類特征的候選集。聚類特征候選集的分布數(shù)據(jù)見表1。
表1列出了訓(xùn)練文本的新聞類、談話類語料中具有顯著差異的10種依存關(guān)系、其均值(Mean)和標準差(standard deviation)。表中“<-”和“->”是依存關(guān)系符號,“<-”表示從屬關(guān)系,“->”表示支配關(guān)系。名詞n、動詞v、代詞r、形容詞a、副詞d是詞類標記,定語atr、賓語obj、復(fù)數(shù)plc、主語subj、狀語adva、標點符號punct是依存關(guān)系標記。這10種依存關(guān)系分別為: 名詞為從屬詞做定語、名詞為從屬詞做賓語、動詞為支配詞支配賓語、代詞為支配詞支配名詞復(fù)數(shù)、代詞為從屬詞做主語、代詞為從屬詞做定語、形容詞為從屬詞做定語、形容詞為從屬詞做狀語、副詞為支配詞支配標點符號、副詞為支配詞支配狀語。這10種依存關(guān)系與語料所屬語體的點二列相關(guān)(point-biserial correlation)系數(shù)均大于0,其中5種依存關(guān)系與語料所屬語體的點二列相關(guān)系數(shù)大于0.6。它們是: 名詞為從屬詞做定語、代詞為從屬詞做主語、代詞為從屬詞做定語、形容詞為從屬詞做定語、副詞為支配詞支配標點符號。
表1 訓(xùn)練文本中聚類特征候選集的分布數(shù)據(jù)
這5種依存關(guān)系在不同語體中具有顯著差異,在語言學(xué)中我們嘗試可以對其進行解釋。
名詞做定語在新聞類的語料中比例高于談話類,原因是新聞播報中的多重定語多于談話類,并且多重定語中名詞作定語的情況很多。新聞播報屬于書面語體,口語中的詞較少使用,更多地使用書面語色彩濃重的詞,如名詞中最具書面語色彩的專有名詞大量使用。像新聞?wù)Z料中“農(nóng)村黨風廉政建設(shè)信息平臺”這個名詞短語,就是由多個專有名詞做定語構(gòu)成。
新聞播報中代詞的使用有語體的限制,較少使用第一人稱和第二人稱代詞,句首主語較多地使用專有名詞,代詞“各”作名詞定語情況很多,如各地、各國、各人、各類等。談話中人稱代詞的使用沒有語體的限制,三種人稱代詞都使用,句首主語大多是人稱代詞,代詞“各”做名詞定語的情況不多。因此,談話語料中代詞做主語的比例比新聞?wù)Z料高,代詞做定語的比例比新聞?wù)Z料低。
形容詞做定語在新聞?wù)Z料中的比例高于談話類,其原因在語言學(xué)上較難解釋,有待于從詞性標注和依存關(guān)系分析的角度深入研究。
新聞類語料中,副詞在句首做狀語后面常常停頓,用標點符號逗號“,”表示停頓。如: “屆時,”、“近來,”、“為此,”、“實際上,”等。我們對句子進行依存句法標注時,為了避免句子依存關(guān)系圖中有交叉弧,也為了不影響對句子意思的理解,對句中標點符號的處理是: 讓標點符號通過依存關(guān)系punct從屬于它前面的成分。新聞類語料中,副詞后帶標點符號的例子比談話類語料多,副詞作為支配詞支配標點符號的比例比談話類語料高。
實驗選用的語料是訓(xùn)練文本和測試文本中的20檔節(jié)目文本。實驗用的文本具體描述見表2。其中X1~X10為訓(xùn)練文本,C1~C10為測試文本。訓(xùn)練文本中X1~X5屬于談話類口語體,X6~X10屬于新聞類書面語體。測試文本有的屬于談話類口語體,有的屬于新聞類書面語體。訓(xùn)練文本和測試文本的長度大致相同。
表2 訓(xùn)練文本和測試文本中20檔節(jié)目文本描述
我們采用的統(tǒng)計分析工具是Minitab14 (similarity level=95%,single linkage method,Euclidean Distance Measure)。首先以10種依存關(guān)系作為聚類特征,對訓(xùn)練文本的10檔節(jié)目文本進行文本聚類分析。圖2為Minitab14環(huán)境下,對10種依存關(guān)系在訓(xùn)練文本中出現(xiàn)的概率進行統(tǒng)計的情況。其中C1-T是節(jié)目欄,X1~X10為訓(xùn)練文本的10檔節(jié)目文本;C2~C11是10種依存關(guān)系在10檔節(jié)目文本中出現(xiàn)的概率。如C2欄“n <- atr”表示支配詞支配名詞形成定語,這種依存關(guān)系10檔節(jié)目中出現(xiàn)的概率。在X1節(jié)目中出現(xiàn)的概率是0.11,在X2節(jié)目中出現(xiàn)的概率是0.10,在X3節(jié)目中出現(xiàn)的概率是0.07,等等。
圖2 10種依存關(guān)系在訓(xùn)練文本中出現(xiàn)的概率統(tǒng)計
根據(jù)統(tǒng)計出來的數(shù)據(jù),可用Minitab14對文本進行聚類分析。以10種依存關(guān)系為聚類特征對訓(xùn)練文本進行聚類分析的樹狀圖,見圖3。又以5種與語料所屬語體的相關(guān)系數(shù)大于0.6的依存關(guān)系作為聚類特征,對訓(xùn)練文本的10檔節(jié)目文本進行聚類分析。實驗方法同上,實驗結(jié)果見圖4。
圖3 10種依存關(guān)系為聚類特征對訓(xùn)練文本聚類分析的樹狀圖
圖4 5種依存關(guān)系為聚類特征對訓(xùn)練文本聚類分析的樹狀圖
圖3中,以10種依存關(guān)系作為聚類特征,5個新聞類書面語體文本的相似度是55.24%,5個談話類口語體文本的相似度是52.79%。以這10種依存關(guān)系為聚類特征,可將文本根據(jù)語體的不同聚集在一起。圖4中,以5種依存關(guān)系作為聚類特征,5個新聞類書面語體文本的相似度是59.12%,5個談話類口語體文本的相似度是63.97%。值得注意的是,以10種依存關(guān)系為聚類特征,“1039交通服務(wù)熱線”和“講述”節(jié)目的相似度是65.71%,在5檔談話類口語體節(jié)目中,相似度最高;以5種依存關(guān)系為聚類特征,“1039交通服務(wù)熱線”和“文濤拍案”節(jié)目的相似度最高,88.12%。原因有待于從聚類特征候選集中的依存關(guān)系來進一步考察。
對比10種和5種依存關(guān)系對文本進行聚類的效果,以5種依存關(guān)系作為聚類特征對文本聚類,文本相似度高于10種依存關(guān)系。因此,從聚類特征候選集中選擇最終的聚類特征為5種依存關(guān)系。用最終確定的聚類特征來對測試文本進行文本聚類實驗。實驗結(jié)果見圖5。
圖5 5種依存關(guān)系為聚類特征對測試文本聚類分析的樹狀圖
圖5中可以看出: “魯豫有約”、“603訪談時間”、“面對面”、“北京議事廳”和“對話”節(jié)目準確地聚集在一起,它們的相似度是71.98%。這5檔節(jié)目都屬于談話類口語語體?!靶侣劼?lián)播”、“新聞周刊”、“新聞30分”、“新聞和報紙摘要”、“財經(jīng)新聞”節(jié)目準確地聚集在一起,它們的相似度是83.13%。這5檔節(jié)目屬于新聞類書面語體。以5種依存關(guān)系為聚類特征,對實驗文本聚類的效果比較好。
本文針對在句法層面對文本按照語體進行聚類的問題,提出了基于依存樹庫來進行文本聚類的方法。在依存樹庫中,提取出現(xiàn)代漢語主要詞類的依存關(guān)系,通過對比各依存關(guān)系在不同語體中的分布,得出10種具有顯著差異的詞類依存關(guān)系,將其作為聚類特征候選集,來進行文本聚類分析實驗。實驗結(jié)果證明: 利用依存樹庫中的句法信息對文本進行聚類這種方法的可行性和有效性。以名詞作定語、代詞作主語、代詞作定語、形容詞作定語、副詞支配標點符號這5種依存關(guān)系作為聚類特征,文本聚類的效果比較好,測試文本中談話類、新聞類文本的相似度分別是71.98%和83.13%。下一步我們將擴充聚類特征候選集,提取漢語中非主要詞類的依存關(guān)系,得出在語體分布上具有顯著差異的依存關(guān)系,更準確有效地進行文本聚類。
附錄 依存關(guān)系及其標記符號
詞性及其標記符號
[1] 劉挺,秦兵,張宇,車萬翔. 信息檢索系統(tǒng)導(dǎo)論[M].北京:機械工業(yè)出版社, 2008.
[2] 孫建軍,成穎,等. 信息檢索技術(shù)[M]. 北京:科學(xué)出版社, 2004.
[3] 曾依靈, 許洪波, 白碩. 改進的OPTICS算法及其在文本聚類中的應(yīng)用[J].中文信息學(xué)報,2008,22(1): 51-60.
[4] 何婷婷, 戴文華, 焦翠珍. 基于混合并行遺傳算法的文本聚類研究[J]. 中文信息學(xué)報,2007,21(4): 55-60.
[5] 谷波, 李濟洪, 劉開瑛. 基于COSA算法的中文文本聚類[J]. 中文信息學(xué)報, 2007,21(6): 65-70.
[6] 肖婷,唐雁.改進的Х2統(tǒng)計文本特征選擇方法[J].計算機工程與應(yīng)用, 2009,45(14): 136-137.
[7] 趙世奇, 劉挺, 李生. 一種基于主題的文本聚類方法[J]. 中文信息學(xué)報, 2007,21(2): 58-62.
[8] 黃偉,劉海濤. 漢語語體的計量特征在文本聚類中的應(yīng)用[J].計算機工程與應(yīng)用,2009,45(29):25-33.
[9] Abeillé, A. Treebank: Building and using Parsed Corpora [M]. Dordrecht: Kluwer.2003.
[10] Nivre, J. Dependency Grammar and Dependency Parsing [R]. (MSI report) V?xj? University: School of Mathematics and Systems Engineering, 2005.
[11] 劉海濤. 依存語法的理論與實踐[M]. 北京:科學(xué)出版社, 2009.
[12] 馮志偉. 特思尼耶爾的從屬關(guān)系語法 [J]. 國外語言學(xué),1983, (1): 63-65.
[13] Hudson, R.A. Language networks: The New Word Grammar [M]. OXford: OXford University Press, 2007.
[14] 高松,趙懌怡,劉海濤. 漢語特殊結(jié)構(gòu)的句法標注策略[C]//中國計算語言學(xué)研究前沿進展(2007-2009).北京:清華大學(xué)出版社, 2009:142-147.
[15] Liu H, Huang W.A Chinese Dependency Syntax for Treebanking[C]//Proceedings of The 20th Pacific Asia Conference on Language, Information and Computation. Beijing: Tsinghua University Press, 2006:126-133.
[16] 袁暉,李熙宗. 漢語語體概論[M]. 北京:商務(wù)印書館, 2005.