国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聚類和分類的金庸與古龍小說風(fēng)格分析

2015-04-21 10:40:43肖天久
中文信息學(xué)報 2015年5期
關(guān)鍵詞:文法古龍詞類

肖天久,劉 穎

(清華大學(xué) 中國語言文學(xué)系,北京 100084)

?

基于聚類和分類的金庸與古龍小說風(fēng)格分析

肖天久,劉 穎

(清華大學(xué) 中國語言文學(xué)系,北京 100084)

該文以金庸與古龍的小說作為語料,從計算風(fēng)格學(xué)的角度考察二人的風(fēng)格差異。對比了兩人小說的文本從眾性、句子破碎度,同時,使用文本聚類的方法對詞和詞類的N元文法,標(biāo)點符號的N元文法以及多種特征的總體情況進(jìn)行了考察,還使用主成分分析和文本分類對八種特征從總體上進(jìn)行了比較,結(jié)果證實金庸與古龍小說風(fēng)格存在較大差異:金庸小說從眾性大于古龍,較多使用俚語方言,口語性更強,同時在語法結(jié)構(gòu)、短語結(jié)構(gòu)、文本節(jié)奏以及文本可讀性和語言變化程度上也有較大的差異。

計算風(fēng)格學(xué);N元文法;聚類;分類;句子破碎度

1 引言

計算風(fēng)格學(xué)是數(shù)理語言學(xué)的一個分支。不同于傳統(tǒng)的風(fēng)格學(xué)研究主要以讀者內(nèi)省為基礎(chǔ),通過對文中的句子、詞語,乃至篇章的感悟、歸納來提煉作者和作品的風(fēng)格,計算風(fēng)格學(xué)主要是以定量的方式利用文本中可以量化的語言結(jié)構(gòu)特征來對文本風(fēng)格和作者寫作習(xí)慣進(jìn)行研究,其理論基礎(chǔ)是認(rèn)為文本的語言結(jié)構(gòu)特征表現(xiàn)了作者個人在寫作活動中的言語特征,是作者個人風(fēng)格不自覺的深刻反映,并且這些特征又可以在一定程度上通過數(shù)量特征來進(jìn)行刻畫。

從計算風(fēng)格學(xué)的角度對文本的語言風(fēng)格進(jìn)行考察,有兩個最為重要的問題:一是語言特征的選擇,這些語言特征一般是要求可以量化并且是穩(wěn)定出現(xiàn)的;二是研究方法的選擇,即統(tǒng)計方法和數(shù)學(xué)模型的選擇。

目前已經(jīng)提出可以反映文本風(fēng)格的語言結(jié)構(gòu)特征可以歸結(jié)為六個層面:字符、詞匯、句子、段落、語法、語義等。字符層面主要包括大小寫字母[1]、特殊符號(如標(biāo)點符號[2])、數(shù)字和空格[3]等;詞匯特征的研究相對來說是最為成熟的,包括詞匯豐富度[4],功能詞[5],高頻詞[6]等有意義的詞;句子層面主要有句長、平均句長[7]等特征;段落層面,主要有段落長度[8];語法層面,包括詞類[9],以及依存語法等;語義層面,主要有基于HowNet的語義類[10]等 。

對特征的研究和分析最早僅簡單統(tǒng)計某些特定語言特征的頻率、分布,隨后引入了t檢驗、χ2檢驗[11]等統(tǒng)計方法;后來主成分分析[6]、相關(guān)性分析、因子分析等特征分析方法被引入;目前利用文本聚類[12]、文本分類[13]來對文本和作品的風(fēng)格進(jìn)行考察的研究比較多。

從金庸與古龍方面來說,金庸與古龍均為新派武俠小說家的代表人物,兩人均創(chuàng)作了大量具有深遠(yuǎn)影響的小說。前人對兩人小說的風(fēng)格對比多從文學(xué)方面[14-16],從計算語言學(xué)方面,僅有劉穎等[17]從虛詞、詞類、標(biāo)點、部分實詞等角度對二者進(jìn)行了比較,認(rèn)為金庸更關(guān)注家國天下的責(zé)任,而古龍更關(guān)注江湖人的個體感受,并且金庸小說可讀性較古龍要弱,古龍用詞更具變化;金庸更善于武功招式的描寫,而古龍則更傾向于環(huán)境氣氛的渲染。

從上面可以看出,盡管目前計算風(fēng)格學(xué)的研究在國內(nèi)外都相對比較成熟,但是其在金庸與古龍的小說的研究上相對是比較少的。同時,作為新派武俠小說家的代表,二人的作品是極好的語言研究的材料。本文從計算風(fēng)格學(xué)的角度出發(fā),繼續(xù)對金庸和古龍的小說風(fēng)格進(jìn)行考察和分析。

2 語料選擇

本文選取金庸與古龍各自最具有代表性的六部小說建立語料庫,總規(guī)模超過980萬字。從標(biāo)點符號、句子破碎度、文本從眾性、N元文法等方面對二者進(jìn)行分析和比較。

選取的古龍與金庸各自六部小說分別為:

古龍:《大旗英雄傳》、《武林外史》、《絕代雙驕》、《楚留香傳奇系列全集》(以下稱《楚留香傳奇》)、《小李飛刀系列全集》(以下稱《小李飛刀》)和《陸小鳳傳奇系列全集》(以下稱《陸小鳳傳奇》);

金庸:《射雕英雄傳》、《神雕俠侶》、《倚天屠龍記》、《天龍八部》、《笑傲江湖》和《鹿鼎記》。

這12部小說均是古龍和金庸最具有代表性的著作,并且均是成熟時期的作品,高度代表了金庸與古龍小說語言風(fēng)格。

對所選12部小說的總字?jǐn)?shù)、總詞數(shù)進(jìn)行統(tǒng)計,得到表1。

可以發(fā)現(xiàn),在所選的12部小說中,古龍的《大旗英雄傳》、《武林外史》、《絕代雙驕》三部的篇幅較短,其余的篇幅均較長。其中需要指出的是,古龍小說中,《楚留香傳奇》、《小李飛刀》、《陸小鳳傳奇》為系列小說,而其余九部小說為單篇小說。

3 文本從眾性

在使用ICTCLAS* http://ictclas.nlpir.org/.分詞時,詞的概念是非常寬泛的,既包括傳統(tǒng)意義上的詞,也包括傳統(tǒng)意義上不被認(rèn)為是詞的一些“標(biāo)準(zhǔn)件”語言素材,包括詞組、成語、歇后語、諺語、警句、名言、古詩句等,文本的從眾性就是考察作者使用這些語言素材的熟練程度與個人偏好程度。其一般使用“聚類度”的概念來考察文本的從眾性。所謂的聚類度,指的就是文本詞的成詞率與詞的平均長度的乘積,二者分別反映文本從眾性的廣度和強度[18]。

文本成詞率,是指文本中所有詞的長度(即總字?jǐn)?shù))與所有字符的長度(即總字符數(shù))的比率[19]。圖1 即為各個文本的成詞率。

如圖1所示,橫坐標(biāo)為全部12部小說,縱坐標(biāo)為每部小說的成詞率。并且對全部12部小說的成詞率按照從小到大的順序進(jìn)行排列??梢园l(fā)現(xiàn),在全部12部小說中, 成詞率最低的是古龍的《小李飛刀》,最高的是金庸的《倚天屠龍記》,并且還可以發(fā)現(xiàn),古龍的小說的成詞率均低于金庸。

圖1 金庸與古龍小說的成詞率

在此基礎(chǔ)上計算各部小說的聚類度,所得結(jié)果如圖2所示。

圖2 金庸與古龍小說的聚類度

圖2中橫坐標(biāo)為全部12部小說,縱坐標(biāo)為各部小說的聚類度。全部12部小說的聚類度按照從小到大順序進(jìn)行排列??梢钥闯?,在全部12部小說中,古龍的《武林外史》聚類度最低,而金庸的《鹿鼎記》的聚類度最高,并且古龍小說的聚類度均低于金庸的小說,反映出古龍小說整體從眾性要低于金庸。

這種情況的出現(xiàn),是與古龍與金庸二人的語言風(fēng)格和個人背景分不開的。古龍受西方文學(xué)尤其是大仲馬、毛姆、海明威、杰克·倫敦等人的影響較大。其語言風(fēng)格一直在追求散文化和詩化,尤其是《天涯·明月·刀》中更是直接用散文詩化的語言采用蒙太奇的手法描寫出一個完整的故事,引起了巨大的爭議。同時,由于其古典文化修養(yǎng)相較于金庸要單薄。因此,在古龍的小說中,一方面,引經(jīng)據(jù)典,如成語、熟語、詩句、名言等引用較少;另一方面,為了保證語言的文雅,普羅大眾的方言俚語也較少使用,從而導(dǎo)致其成詞率較低,也就影響了其文本的從眾性。金庸則不同,一方面,深厚的古典文化修養(yǎng),保證了金庸引經(jīng)據(jù)典的隨心所欲、信手拈來,乃至創(chuàng)作詩詞的得心應(yīng)手;另一方面,金庸又并不避諱使用一些街頭巷尾的方言俚語,為了使人物形象更為突出,大量使用符合其身份的語言,例如,在《鹿鼎記》中,金庸為了塑造韋小寶這個底層小混混的形象,大量使用“乖乖龍的冬,豬油炒大蔥”、“辣塊媽媽”等俚語,其出身妓院,又對“賊王八”、“路倒尸”、“臭烏龜”、“挨千刀”等粗言鄙語信手拈來。再比如,為了突出人物的地域特點,其廣泛使用地方方言,如四川話中的“格老子”、“龜兒子”,廣東話中的“班契弟”,蘇州話中的“阿是”、“啥事體”等等。

4 句子破碎度

句子的破碎度,是指“一句話中的停頓次數(shù),即一句話的零散程度”[18]。一般認(rèn)為,書面性越強的文本,語句越流暢,句內(nèi)停頓較少,破碎度較低;反之,口語性越強的文本,句中的插入語越多,常出現(xiàn)停頓,破碎度越高。破碎度的計算公式如式(1)所示。

(1)

黃伯榮、廖序東認(rèn)為,“點號主要表示句中的各種停頓”,其將點號分為句末點號和句中點號, 如

表2所示[20]。

表2 點號列表

根據(jù)表2,我們統(tǒng)計這七種點號在各部小說中出現(xiàn)的總次數(shù),并且計算各部小說中句子的破碎度。結(jié)果如圖3所示。

圖3 金庸與古龍小說句子破碎度

圖3中縱坐標(biāo)為全部12部小說,橫坐標(biāo)為各部小說的句子破碎度,并對12部小說的破碎度按照從大到小進(jìn)行排序。可以發(fā)現(xiàn),古龍的《小李飛刀》的句子破碎度最低,而金庸的《神雕俠侶》的句子破碎度最高,雖然由于受到同一種文體的影響,二人小說總體差異不是非常大,但金庸小說的句子破碎度仍然均高于古龍,可以認(rèn)為,金庸小說的口語性更強,而古龍小說語言的書面性則較強。這并不奇怪,金庸小說一般段落較長,句中插入成分較多;而古龍小說則段落較短,一般一句話為一段,因此停頓也少。

5 基于文本聚類的風(fēng)格分析

文本聚類是將文本集合分組成多個類,使得同一個類中的文本具有較高的相似性,而不同類中的文本內(nèi)容差異較大。這一過程是無監(jiān)督的學(xué)習(xí)過程。

在聚類前,本文使用式(2)對數(shù)據(jù)進(jìn)行歸一化處理。

(2)

本文將使用歐氏距離[19]和KL散度兩種方式計算文本之間的相似性,采用離差平方和法來合并不同的類,并采用自下而上的凝聚式層次聚類。

5.1 基于歐式距離的層次聚類

5.1.1 基于詞的N元文法的文本聚類

N元文法,指的是由N個字、詞、詞類或者特殊符號(如標(biāo)點符號)組成的序列。對詞的N元文法來說,當(dāng)N=1時,為一元文法,相當(dāng)于詞表,給出的是文本中使用的所有詞;當(dāng)N=2時,為二元文法,給出的是文本中鄰接的兩個詞的使用情況;當(dāng)N=3時,為三元文法,給出的是連續(xù)三個詞在文本中的使用情況。二元文法和三元文法可以反映文本中短語結(jié)構(gòu)(即鄰接詞語組合)情況。

本文對詞的二元到三元文法進(jìn)行聚類,分別統(tǒng)計詞的二元到三元的前2000個詞序列在各文本中的出現(xiàn)次數(shù),并進(jìn)行歸一化處理,然后分別進(jìn)行層次聚類,結(jié)果如圖4、圖5所示。

圖4 金庸與古龍小說詞的二元文法聚類

圖5 金庸與古龍小說詞的三元文法聚類

如圖4、圖5所示,橫坐標(biāo)為全部12部小說,縱坐標(biāo)為類與類之間的歐氏距離,可以發(fā)現(xiàn),金庸的六部小說始終聚為一類,而古龍六部小說始終聚為另一類,因此,在小說的短語結(jié)構(gòu)上,金庸和古龍具有顯著的差異。

5.1.2 基于詞類的N元文法的文本聚類

詞類的N元文法模型,指的是以詞類為單位的詞類組合,當(dāng)N=1時,為一元文法,給出的是文中詞類列表,當(dāng)N=2時,為二元文法,給出的是鄰接兩個詞類在文中使用的情況;當(dāng)N=k(k=2,3,4,…)時,給出的是連續(xù)k個詞類在文中出現(xiàn)的情況。當(dāng)N≥2時,其反映的是文本的語法結(jié)構(gòu)。由于詞類數(shù)目要遠(yuǎn)遠(yuǎn)小于詞的數(shù)目,因而其可靠程度較詞的N元文法模型要高,更能反映文本的風(fēng)格。

本文對詞類的二元到五元文法進(jìn)行聚類,分別統(tǒng)計詞類二元、三元文法前500個詞類序列,四元文法前1 000個詞類序列,五元文法前1 500個詞類序列在每個文本中出現(xiàn)的次數(shù),并對統(tǒng)計數(shù)據(jù)進(jìn)行歸一化處理,然后分別進(jìn)行層次聚類,得到結(jié)果如圖6—圖9所示。

圖6 金庸與古龍小說詞類二元文法聚類

圖7 金庸與古龍小說詞類三元文法聚類

如圖6—圖9所示,橫坐標(biāo)為全部12部小說,縱坐標(biāo)為類與類之間的歐氏距離??梢园l(fā)現(xiàn),從詞類的二元文法到五元文法,金庸小說始終聚為一類,而古龍的六部小說聚為另一類,反映出金庸與古龍小說的語法結(jié)構(gòu)存在較大差異。

進(jìn)一步我們列出詞類的二元文法到五元文法的前十位如表3所示。

其中,n表示名詞,v表示動詞,d表示副詞,r表示代詞,m表示數(shù)詞,q表示量詞,u表示助詞。

圖8 金庸與古龍小說詞類四元文法聚類圖9 金庸與古龍小說詞類五元文法聚類

表3 金庸與古龍小說中詞類N元文法的前十位

可以發(fā)現(xiàn),在二元到五元文法前十位詞類組合中,除了相同組合的頻率排序有較大差異外,二元文法有兩組是不同的;三元文法有三組不同;四元文法有五組不同,而在五元文法中則有八組是不同的。反映出隨著詞類元數(shù)的增加,金庸與古龍小說的語法結(jié)構(gòu)差異越大。

5.2 基于KL散度的層次聚類

KL散度,是Kullback-Leibler散度(Kullback-Leibler Divergence)的簡稱,也叫做相對熵(Relative Entropy)。它衡量的是相同事件空間里的兩個概率分布的差異情況。其意義是:對于歸一化后的文本向量P(X1,X2,…,Xn),和Q(Y1,Y2,…,Yn),向量特征值的總和均為1,且對于任何i都滿足Xi>0及Yi>0(1≤i≤n)。我們利用金明哲改進(jìn)后的KL散度計算公式來計算兩個文本之間的相似度,兩個文本之間的KL散度越小,其相似性越大。[22]

(4)

5.2.1 基于標(biāo)點符號的N元文法的文本聚類

標(biāo)點符號是書面語的有機組成部分,在文本中使用頻率很高。每一個標(biāo)點符號都有自己獨特的作用,尤其是語法作用,可以看成是另外一種形式的虛詞[23]。同時,標(biāo)點符號是句子組織結(jié)構(gòu)的一個重要表現(xiàn)。具有停頓意義的標(biāo)點符號也是構(gòu)成文本節(jié)奏的重要因素[24]。

標(biāo)點符號的N元文法,是以標(biāo)點符號為單位的符號組合。當(dāng)N=1時,為一元文法,給出的是文中所有的標(biāo)點符號;當(dāng)N=k(k=2,3,4,…)時,給出的是連續(xù)k個標(biāo)點符號在文中出現(xiàn)的情況。當(dāng) N≥2 時,其反映的是文本的節(jié)奏和句子的組織結(jié)構(gòu)。

本文利用標(biāo)點符號二元到五元文法對金庸和古龍小說聚類,結(jié)果如圖10—圖13所示。

圖10 金庸與古龍小說標(biāo)點符號二元文法聚類圖11 金庸與古龍小說標(biāo)點符號三元文法聚類

圖12 金庸與古龍小說標(biāo)點符號四元文法聚類圖13 金庸與古龍小說標(biāo)點符號五元文法聚類

如圖10—圖13所示,橫坐標(biāo)為金庸與古龍全部12部小說,而縱坐標(biāo)為文本間的KL散度??梢园l(fā)現(xiàn),從標(biāo)點符號的二元文法到五元文法,金庸小說始終聚為一類,而古龍小說則聚為另一類,二者截然分開,可以看出,從標(biāo)點符號的二元到五元文法來看,金庸與古龍小說是不同的,反映出二者文本節(jié)奏的差異。

金庸和古龍小說中標(biāo)點符號的N元文法頻率最高的前十位如表4所示。

我們可以發(fā)現(xiàn):

從標(biāo)點的二元文法到五元文法,金庸使用最高的都是一逗到底;而古龍則不然,其在五元文法上出現(xiàn)了其他標(biāo)點;同時除了二元文法中有問號出現(xiàn)以外,在金庸與古龍小說中三元文法到五元文法,出現(xiàn)的標(biāo)點僅有逗號、冒號、引號、句號四種,反映出在金庸與古龍小說中對話描寫都是非常多的。

表4 金庸與古龍小說中標(biāo)點符號N元文法頻率最高的前十位

從標(biāo)點符號的二元組合來看,金庸與古龍小說前十位的標(biāo)點組合是一致的,差異在于使用頻率排序:金庸前三位標(biāo)點均是逗號、句號等停頓性標(biāo)點,而古龍在使用頻率第二位便出現(xiàn)了表示對話的冒號和引號,而且出現(xiàn)的兩三次前引號相對于金庸的使用頻率排序都要靠前,反映出,相比于金庸,古龍小說中對白描寫較多。事實上,在古龍作品中,常常使用大段的對白推進(jìn)情節(jié),而且其中不乏是古龍以局外人的身份在自問自答以表達(dá)自己的觀點或是構(gòu)成散文詩的結(jié)構(gòu),這種寫作風(fēng)格導(dǎo)致了文本中引號的大量出現(xiàn)。同時,需要說明的是,古龍小說中的對白很多與書面語相差并不大,甚至故作莊嚴(yán)地使用起散文式的句子,這從一定程度上導(dǎo)致了其雖然對白較多,但是其口語化的程度卻不是非常高。

從三元組合來看,前十位中,相同的有九組組合,僅出現(xiàn)次序不一致;反映出二者文本節(jié)奏和句子結(jié)構(gòu)的差異,同時,古龍小說中出現(xiàn)前引號的標(biāo)點組合相對于金庸的排序更是大大靠前,進(jìn)一步證實了古龍小說中對白較多。

從四元、五元組合來看,差異逐漸擴大:不僅標(biāo)點不同的符號組合在五元文法中上升到三組,而且排序的差異也逐漸遞增。

5.2.2 基于多特征的文本聚類

我們在前面單一特征的基礎(chǔ)上,同時使用多個特征來考察金庸與古龍六部小說的關(guān)系。我們選取了標(biāo)點符號占比、平均詞長、平均句長、平均段落長度、句長離散度、詞長離散度六個特征。其中:

標(biāo)點符號占比是指文本中標(biāo)點符號的總數(shù)占字符總數(shù)的百分比;

句長離散度由式(5)求得:

(5)

其中,Si為不同的句長,S0為平均句長。n為文本的句子總數(shù)。

詞長離散度由式(6)求得:

(6)

其中,Dw為詞長離散度,n為總詞數(shù),li為不同詞的詞長,l0為平均詞長。

這六個特征中,標(biāo)點符號占比、平均詞長、平均句長、平均段落長度是反映文本可讀性的重要指標(biāo);而詞長離散度可以反映語言變化程度,句長離散度可以反映節(jié)奏變化程度。

分別統(tǒng)計并計算這六個特征,并對計算結(jié)果進(jìn)行歸一化處理,然后對其進(jìn)行文本聚類,所得結(jié)果如圖14所示。

圖14 金庸與古龍多特征聚類結(jié)果

圖14中橫坐標(biāo)為全部12部小說,縱坐標(biāo)為不同文本之間的KL散度。由圖可以看出,在全部12部小說中,金庸的《射雕英雄傳》、《倚天屠龍記》、《天龍八部》、《笑傲江湖》四部小說距離幾乎為零,而距《鹿鼎記》稍遠(yuǎn),距《神雕俠侶》更遠(yuǎn)。而古龍小說中,《楚留香傳奇》、《陸小鳳傳奇》距離最近,距《小李飛刀》稍遠(yuǎn);《大旗英雄傳》、《絕代雙驕》距離較近,而距《武林外史》稍遠(yuǎn),并且三部單篇小說與三篇系列小說分別自成一類,距離較遠(yuǎn)。金庸的六部小說聚為一個大類,而古龍的六部小說聚為另一個大類,反映出,從標(biāo)點符號占比、平均句長、平均詞長、平均段落長、詞長離散度、句長離散度這六個特征總體來看,金庸與古龍是不一樣的。反映出二人在文本可讀性和語言、節(jié)奏變化程度上有明顯差異。

值得注意的是,一是使用多特征進(jìn)行聚類時,金庸的聚類結(jié)果與使用標(biāo)點符號的N元文法作為特征進(jìn)行聚類有較大的差異外,古龍小說的聚類結(jié)果則與標(biāo)點符號的N元文法的聚類結(jié)果一致;二是在使用多特征進(jìn)行聚類的時候,類與類之間的KL散度相較于標(biāo)點符號的N元文法要小很多,反映出隨著特征數(shù)的增加,兩人的風(fēng)格差異變小。這種情況的出現(xiàn)是由于用于考察的文體是一樣的,均為武俠小說,因此本身存在很大的共性特征,而隨著特征數(shù)的逐漸增多,其文體的共同性便逐漸增加。

6 基于SVM的差異分析

我們使用如下特征作為分類的特征:

句子破碎度、形符類符比、詞匯密度、單現(xiàn)詞比率、基于字符的平均句長、疊詞比率、成詞率、聚類度。其中,詞匯密度是指文本中詞的數(shù)量占總字符數(shù)的百分比,單現(xiàn)詞比率是指僅出現(xiàn)一次的詞語數(shù)量占詞語總數(shù)的百分比。句子破碎度、詞匯密度、成詞率反映的是語言的正式程度;而形符類符比、單現(xiàn)詞比率、疊詞比率、聚類度都可以在一定程度上反映文本語言的豐富性。

在進(jìn)行分類之前,我們先使用主成分分析對其進(jìn)行降維。主成分是揭示大樣本、多變量數(shù)據(jù)或者樣本之間關(guān)系的一種方法。其核心目的就是利用降維的思想,將眾多的指標(biāo)轉(zhuǎn)換成為少數(shù)幾個主要的綜合指標(biāo),從而降低觀測空間的維數(shù),以獲取最主要的信息。[25]

在分別統(tǒng)計和計算以上各個特征之后,我們得出各個主成分的特征值和方差貢獻(xiàn)率如表5所示。

表5 各主成分的特征值和方差貢獻(xiàn)率

根據(jù)表5,前三個主成分的方差累計貢獻(xiàn)率達(dá)到了89.6%,代表了全部變量89.6%的信息,達(dá)到了降維的目的。因此,我們選擇前三個主成分,用于代表全部八個特征,在此基礎(chǔ)上,計算各個文本的主成分得分,并基于此來進(jìn)行分類。

我們使用SVM作為分類器并使用準(zhǔn)確率、召回率、F值來綜合評價分類性能。支持向量機(Support Vector Machine,SVM)是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展起來的文本分類方法。其基于結(jié)構(gòu)風(fēng)險最小化原理,根據(jù)有限樣本信息在模型的復(fù)雜性(即對特定樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯誤的識別任意樣本的能力)之間尋求最佳折中,從而獲得更好的泛化能力。

我們分別使用各自五部小說為訓(xùn)練集,剩下一部小說為測試集;以各自四部小說為訓(xùn)練集,剩下兩部小說為測試集;以各自三部小說為訓(xùn)練集,剩下三部小說為測試集,其構(gòu)成如表6所示。

表6 分類的測試集和訓(xùn)練集的構(gòu)成

如表7所示,金庸與古龍小說經(jīng)過主成分分析,提取前三個主成分使用SVM進(jìn)行分類,進(jìn)行的三次實驗中,當(dāng)訓(xùn)練集分別為5,測試集分別為1;訓(xùn)練集分別為4,測試集分別為2以及訓(xùn)練集和測試集均為3時,其準(zhǔn)確率和召回率均為100%,F(xiàn)值也為1??梢钥闯?,金庸與古龍的小說在語言正式程度和豐富性上還是有較為明顯差異的。

表7 分類結(jié)果

7 結(jié)論

本文以金庸與古龍各自六部小說作為語料,從文本從眾性、句子破碎度、詞和詞類的N元文法、標(biāo)點符號的N元文法等對二者的風(fēng)格進(jìn)行了考察。實驗結(jié)果證實,二者在這些特征上有較大的差異。

從文本從眾性來說,金庸小說的從眾性要大于古龍,這是由于金庸熟稔古典文化,同時又對各種市井俚語、方言等兼容并蓄,這些因素共同促使了小說名言、詩詞、方言、俚語的大量出現(xiàn);同時,由于金庸小說的口語性更強,句長較長,插入成分較多,導(dǎo)致金庸小說中句子破碎度要高于古龍。

而從詞的二元文法和三元文法來看,金庸與古龍小說存在較大差異,反映出二人小說的短語結(jié)構(gòu)不同;而從詞類的二元文法到五元文法來看,金庸小說與古龍小說也是各自被聚為一類,反映出二者小說語法結(jié)構(gòu)的差異,同時,從前十位的詞類組合來看,從二元到五元,詞類組合相同的越來越少,差異越來越明顯;而從標(biāo)點符號的二元文法到五元文法來看,兩人小說也分別被聚為一類,反映出二人文本節(jié)奏的差異,同時,從前十位的標(biāo)點符號組合來看,從二元到五元,標(biāo)點組合相同的越來越少,同時,古龍小說中引號的使用頻率相對非常高,反映出古龍小說中的對白較多。

隨后,我們使用六個特征對金庸和古龍文本進(jìn)行總體上的考察,結(jié)果證實二者在文本可讀性和語言、節(jié)奏變化程度上有較大差異。同時,在使用主成分分析法,對八個特征進(jìn)行考察,并且利用各個文本的前三個主成分得分對文本進(jìn)行分類,結(jié)果證實,金庸與古龍在語言的正式程度和豐富性方面是存在差異的小說。

本文的不足之處在于主要以詞和N元文法為特征,未來可以考慮更多的特征。

[1] Jack Grieve.Quantitative authorship attribution: an evaluation of techniques[J]. Literary and Linguistic Computing, 2007,22(3): 251-270.

[2] Baayen R H, Van Halteren H, Neijt A. et al.An experiment in authorship attribution[C]//Proceedings of the 6th International Conference on the Statistical Analysis of Textual Data.

[3] de Vel O, Anderson A, Corney M, et al. Mining e-mail content for author identification forensics[J]. SIGMOD Record, 2001,30(4): 55-64.

[4] 陸蕓.詞匯豐富性測量方法及計算機程序開發(fā):回顧與展望[J].南京工業(yè)大學(xué)學(xué)報:社會科學(xué)版,2012,11(2):104-108.

[5] Binongo J N G, & Smith M W A. The application of principal component analysis to stylometry[J]. Literary and Linguistic Computing, 1999,14(4): 445-466.

[6] Burrows J F. Word patterns and story shapes: The statistical analysis of narrative style[J]. Literary and Linguistic Computing,1987,2(2), 61-67.

[7] 陳芯瑩,李雯雯,王燕.計量特征在語言風(fēng)格比較及作家判定中的應(yīng)用——以韓寒《三重門》與郭敬明《夢里花落知多少》為例[J].計算機工程與應(yīng)用,2012,(30):137-139.

[8] Rong Zheng,Jiexun Li, Hsinchun Chen, et al. A framework for authorship identification of online messages: Writing-style features and classification techniques[J]. Journal of the American Society for Information Science and Technology, 2006,57(3):378-393.

[9] Stamatatos, E.,et al.Computer-based authorship attribution without lexical measures[J]. Computers and the Humanities, 2001,35(2):193-214.

[10] 武曉春,黃萱菁,吳立德. 基于語義分析的作者身份識別方法研究[J].中文信息學(xué)報,2006,20(6):61-68.

[11] 李賢平.《紅樓夢》成書新說[J].復(fù)旦學(xué)報:社會科學(xué)版,1987,(5):3-16.

[12] Holmes D I. A stylometric analysis of Mormon scripture and related texts[J]. Journal of Royal Statistical Society, 1992,15(5): 91-120.

[13] Ying Zhao,Justin Zobel. Effective and scalable authorship attribution using function words[J].Lecture Notes in Computer Science,2005,2689: 174-189.

[14] 曲俐俐.金庸、古龍武俠小說比較論[D].延吉:延邊大學(xué)碩士學(xué)位論文,2012.

[15] 王開銀.金庸、古龍武俠小說語言風(fēng)格比較研究[D].烏魯木齊:新疆大學(xué)碩士學(xué)位論文,2008.

[16] 陳潔.金庸古龍武俠小說比較論[J].浙江大學(xué)學(xué)報:人文社會科學(xué)版,1999,29(5):131-138.

[17] 劉穎,肖天久. 金庸與古龍小說計量風(fēng)格學(xué)研究[J]. 清華大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2014,29(5):135-147.

[18] 闞明剛.幾個語體參數(shù)的定量對比研究--以新聞報道和訪談對話為例[J].語文學(xué)刊,2011,(9):46-48,54.

[19] 張京楣.基于統(tǒng)計方法的文本風(fēng)格分析研究[D].濟(jì)南:山東大學(xué)博士學(xué)位論文,2010.

[20] 黃伯榮,廖序東.現(xiàn)代漢語[M].北京:高等教育出版社,2007.

[21] Christopher D.Manning,PrabhakarRaghavan,HinrichSchütze.信息檢索導(dǎo)論[M].王斌譯.北京:人民郵電出版社,2010.

[22] 賀湘情,劉穎.基于文本聚類的語言韻律和節(jié)奏風(fēng)格特征挖掘[J].中文信息學(xué)報,2014,28(6):194-200,207.

[23] 丁俊苗.不足與需要:論標(biāo)點符號的語法功能[J].安徽大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2008,32(4):83-88.

[24] 常淑慧.基于寫作風(fēng)格的中文郵件作者身份識別技術(shù)研究[D].保定:河北農(nóng)業(yè)大學(xué)碩士學(xué)位論文,2005.

[25] 湯銀才.R語言與統(tǒng)計分析[M].北京: 高等教育出版社,2008.

A Stylistic Analysis of Jin Yong’s and Gu Long’s Fictions Based on Text Clustering and Classification

XIAO Tianjiu, LIU Ying

(Department of Chinese Language and Literature, Tsinghua University, Beijing 100084, China)

Based on the fictions written by Jin Yong and Gu Long, this paper analyzes the sentence fragmentation and text conformity from the perspective of computational stylistics. The twelve texts are clustered using n-gram of words, n-gram of part of speech, n-gram of punctuations and six other features as features. Besides, the principal components analysis and the text classification are applied with eight features. The results of experiments show that there exist great style differences between Jin Yong’s and Gu Long’s fictions: Jin Yong’s fictions are more colloquial than Gu Long’s; Jin Yong use more words and idioms from dialects and slang while the expressions in Gu Long’s fictions are more formal. What’s more, there are differences between the two authors’ fictions on the syntactic structures, phrase structures, rhythms, readabilities and the language variation.

computational stylistics; n-gram; clustering; classification; sentence fragmentation

肖天久(1990—),碩士研究生,主要研究領(lǐng)域為語料庫語言學(xué)。E-mail:xtj1990@126.com劉穎(1969—),通信作者,教授,主要研究領(lǐng)域為語料庫語言學(xué)、計算語言學(xué)、機器翻譯。E-mail:yingliu@mail.tsinghua.edu.cn

1003-0077(2015)05-0167-11

2015-07-21 定稿日期: 2015-10-09

清華大學(xué)人文社科振興基金(20145081042);國家自然科學(xué)基金(61433015)

TP391

A

猜你喜歡
文法古龍詞類
關(guān)于1940 年尼瑪抄寫的《托忒文文法》手抄本
用詞類活用法擴充詞匯量
基于語料庫“隱秘”的詞類標(biāo)注初步探究
從成語中學(xué)習(xí)詞類活用
活到四十多歲,才知道古龍有多天才
文苑(2018年20期)2018-11-09 01:36:02
Similarity measurement method of high-dimensional data based on normalized net lattice subspace①
A nearest neighbor search algorithm of high-dimensional data based on sequential NPsim matrix①
文法有道,為作文注入音樂美
基于“字本位”理論再談漢語詞類問題
朋友間的分寸
育儿| 两当县| 奉化市| 永康市| 赤峰市| 福海县| 龙游县| 万州区| 镇平县| 宜宾市| 鄯善县| 元朗区| 凤阳县| 新沂市| 玉环县| 上蔡县| 潮州市| 彭山县| 大埔区| 太保市| 平利县| 陇川县| 锦屏县| 旬邑县| 大埔区| 云梦县| 赣榆县| 吐鲁番市| 华容县| 宁夏| 正安县| 舟曲县| 青浦区| 双桥区| 五家渠市| 休宁县| 东方市| 开阳县| 南川市| 新龙县| 乌拉特中旗|