国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

聚類分析方法在文學(xué)作品風(fēng)格比較中的應(yīng)用

2018-03-27 07:59:06時(shí)季
文教資料 2017年33期
關(guān)鍵詞:聚類分析

時(shí)季

摘 要: 本文從畢飛宇和蘇童兩人的作品中分別選取了四本影響力比較大的小說(shuō)組建成語(yǔ)料庫(kù)來(lái)作為本次實(shí)驗(yàn)的語(yǔ)料來(lái)源,選取出50多個(gè)可量化統(tǒng)計(jì)且具有穩(wěn)定性的語(yǔ)言特征,進(jìn)行聚類分析,發(fā)現(xiàn),若以語(yǔ)氣詞(啊、嗎、呀等)、標(biāo)點(diǎn)符號(hào)(逗號(hào)、句號(hào)、分號(hào)、問(wèn)號(hào)、感嘆號(hào)等)和實(shí)詞詞類(名詞、動(dòng)詞、形容詞、副詞等)這些語(yǔ)言特征為基礎(chǔ)的話得到的結(jié)果比較好,說(shuō)明這些語(yǔ)言特征在區(qū)別畢飛宇和蘇童的小說(shuō)時(shí)具有區(qū)別性作用。

關(guān)鍵詞: 計(jì)算風(fēng)格學(xué) 文本風(fēng)格 聚類分析 SPSS

1.引言

計(jì)算風(fēng)格學(xué)是使用統(tǒng)計(jì)、計(jì)算的方法來(lái)對(duì)特定文學(xué)作品風(fēng)格進(jìn)行精密的比較研究是一門學(xué)科,是一門交叉型學(xué)科,是數(shù)理語(yǔ)言學(xué)的一個(gè)分支,涉及到語(yǔ)言學(xué)、計(jì)算機(jī)、數(shù)理學(xué)等多個(gè)學(xué)科。其理論基礎(chǔ)為認(rèn)為文本的語(yǔ)言特征表現(xiàn)了作者個(gè)人在寫作活動(dòng)中的言語(yǔ)特征,是作者個(gè)人風(fēng)格不自覺(jué)的深刻反映[1],并且這些特征又可以在一定程度上通過(guò)數(shù)量特征來(lái)進(jìn)行刻畫,關(guān)于這一點(diǎn),有學(xué)者進(jìn)行了實(shí)驗(yàn)驗(yàn)證[2]。因此,相較于傳統(tǒng)的內(nèi)省式的研究文學(xué)作品風(fēng)格的方法,計(jì)算風(fēng)格學(xué)的方法具有獨(dú)特的優(yōu)勢(shì),比如對(duì)已得出的定性結(jié)論的正確性進(jìn)行驗(yàn)證,為已有的定性結(jié)論提供數(shù)據(jù)支撐,這樣,不僅能夠彌補(bǔ)傳統(tǒng)的文學(xué)作品風(fēng)格研究方法客觀性不足的問(wèn)題,而且能夠使研究結(jié)論從模糊的定性判斷走向了準(zhǔn)確的數(shù)量展示,增加研究結(jié)論的科學(xué)性。因此,目前國(guó)內(nèi)外已經(jīng)有很多學(xué)者開始使用這樣新的研究方法對(duì)文學(xué)作品的風(fēng)格進(jìn)行研究。

因?yàn)橛?jì)算風(fēng)格學(xué)的方法是通過(guò)量化文本中的語(yǔ)言結(jié)構(gòu)單位來(lái)刻畫、研究語(yǔ)體、作品或作家的風(fēng)格,所以,最重要的地方在于提取出能代表或區(qū)分不同風(fēng)格的語(yǔ)言特征,并且這些特征一定是可被量化統(tǒng)計(jì)且能夠穩(wěn)定出現(xiàn)的。目前,已經(jīng)提出、證實(shí)能夠代表作家作品風(fēng)格的、能夠穩(wěn)定出現(xiàn)的可量化統(tǒng)計(jì)語(yǔ)言特征主要是從詞匯、句子、段落、語(yǔ)法、語(yǔ)義等五個(gè)方面來(lái)進(jìn)行提取的,其中從詞匯和句子兩個(gè)層面來(lái)提取語(yǔ)言特征的情況最多,這主要是因?yàn)楝F(xiàn)在中文自動(dòng)分詞、詞性標(biāo)注、命名實(shí)體標(biāo)注等技術(shù)相對(duì)來(lái)說(shuō)比較成熟。同時(shí),受限于現(xiàn)在語(yǔ)義標(biāo)注技術(shù)的不成熟,計(jì)算風(fēng)格分析中關(guān)于語(yǔ)義方面的語(yǔ)言特征的選取、分析目前還很少,同樣的,在篇章層面進(jìn)行計(jì)算風(fēng)格分析的情況也很少。

關(guān)于計(jì)算風(fēng)格學(xué)的研究方法,經(jīng)歷了從簡(jiǎn)單地統(tǒng)計(jì)某些特定語(yǔ)言結(jié)構(gòu)單位的出現(xiàn)頻率,到引入t檢驗(yàn)、卡方檢驗(yàn)等假設(shè)檢驗(yàn)統(tǒng)計(jì)量,再到使用典型相關(guān)分析、主成分分析、因子分析等多元統(tǒng)計(jì)方法的發(fā)展歷程,目前最前沿的研究方法是利用機(jī)器學(xué)習(xí)領(lǐng)域中的文本聚類和文本分類模型來(lái)實(shí)現(xiàn)計(jì)算機(jī)基于作品風(fēng)格的自動(dòng)文本區(qū)分[3]。因此,聚類分析是目前文本風(fēng)格研究中一種比較新穎、重要的研究方法。聚類分析是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,所謂無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法即無(wú)需預(yù)先對(duì)文本進(jìn)行人工標(biāo)注,也不需要訓(xùn)練過(guò)程,而是將文本之間的距離作為衡量之間相似度的標(biāo)準(zhǔn),最終將文本集合分組成多個(gè)類或簇,使得同一個(gè)類中的文本具有較高的相似度,而不同類之間的文本內(nèi)容差異較大。而本文將采用聚類的方法對(duì)畢飛宇和蘇童兩位作家小說(shuō)的語(yǔ)言風(fēng)格進(jìn)行比較研究。

從畢飛宇和蘇童方面來(lái)看,這兩位作家都是國(guó)內(nèi)當(dāng)代有分量的江蘇籍男性作家,且兩人年齡相近,在創(chuàng)作主題方面都比較關(guān)注女性的命運(yùn)。在他們的作品中,既有先鋒文學(xué)的創(chuàng)作,又有新寫實(shí)的描摹,既有對(duì)歷史的思考,又有對(duì)當(dāng)下生活的關(guān)注。但是,目前對(duì)畢飛宇、蘇童小說(shuō)的風(fēng)格研究大多屬于“文藝風(fēng)格學(xué)”,關(guān)注點(diǎn)主要放在作品思想情感、意象、藝術(shù)性等方面。本文將使用聚類分析的方法來(lái)對(duì)兩位作家的語(yǔ)言風(fēng)格進(jìn)行比較研究。

2.實(shí)驗(yàn)

2.1語(yǔ)料選擇

本文選取畢飛宇與蘇童各自最具有代表性的四部小說(shuō)建立語(yǔ)料庫(kù),分別為畢飛宇的《玉米》、《推拿》、《青衣》、《平原》,共約53萬(wàn)字和蘇童的《妻妾成群》、《米》、《黃雀記》、《河岸》,共約58萬(wàn)字。然后,對(duì)畢飛宇和蘇童各自的語(yǔ)料進(jìn)行自動(dòng)分析、詞性標(biāo)注處理和人工校對(duì)。因?yàn)檎Z(yǔ)料庫(kù)的質(zhì)量直接關(guān)系到最后實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,因此該部分任務(wù)很重要。

表1 畢飛宇、蘇童所選文本字?jǐn)?shù)統(tǒng)計(jì)

2.2語(yǔ)言特征的選擇

在前面引言中提到過(guò),在使用計(jì)算風(fēng)格學(xué)的方法對(duì)文學(xué)作品的風(fēng)格進(jìn)行比較分析時(shí),無(wú)論采用何種具體的實(shí)驗(yàn)方法,都需要先進(jìn)行語(yǔ)言特征的提取。語(yǔ)言特征的提取是真?zhèn)€實(shí)驗(yàn)最基礎(chǔ)也是最重要的部分。在提取語(yǔ)言特征時(shí),詞匯層面包括詞長(zhǎng)分布、詞長(zhǎng)變化程度、詞類的使用情況(實(shí)詞、虛詞)、高頻詞的使用、詞語(yǔ)使用上的差異、詞頻統(tǒng)計(jì)、詞性標(biāo)記、詞的位置、詞序、單現(xiàn)詞、N元屬性等,句子層面的語(yǔ)言特征包括句子的平均長(zhǎng)度、標(biāo)點(diǎn)符號(hào)比、句類分布、句式分布和句型分布等。本文主要是從字符、詞匯、句子等方面進(jìn)行了語(yǔ)言特征的提取、統(tǒng)計(jì),最后共提取到50多個(gè)語(yǔ)言特征,涵蓋實(shí)詞詞類、虛詞、高頻詞、句長(zhǎng)等多個(gè)方面。但是,并不是所有的語(yǔ)言特征都具有區(qū)別性作用,因此,在進(jìn)行聚類分析時(shí),經(jīng)過(guò)多次的實(shí)驗(yàn),最終發(fā)現(xiàn)語(yǔ)氣詞、標(biāo)點(diǎn)符號(hào)和實(shí)詞詞類這三個(gè)語(yǔ)言特征在區(qū)分畢飛宇和蘇童兩人小說(shuō)的風(fēng)格特征時(shí)具有區(qū)別性作用。

2.3聚類分析

聚類分析能夠基于數(shù)據(jù)自身的信息來(lái)對(duì)數(shù)據(jù)進(jìn)行分類,在計(jì)算風(fēng)格學(xué)的研究中經(jīng)常使用,能夠表現(xiàn)不同的作品之間的相似性的大小從而可以對(duì)不同風(fēng)格的作品之間的差異進(jìn)行比較分析。通過(guò)文本聚類,可以清楚地反映出不同類的文本在所選特征項(xiàng)上的總體差異。本文使用的統(tǒng)計(jì)分析軟件SPSS(20.0版)中的聚類分析功能來(lái)對(duì)畢飛宇、蘇童兩位作家的作品的風(fēng)格差異進(jìn)行分析。在SPSS中,聚類分析主要包括層次聚類法,非層次聚類法和兩步聚類法,其中非層次聚類主要是k-means聚類,在本次實(shí)驗(yàn)中使用的是層次聚類法。

層次聚類的方法首先要確定距離的基本定義和距離計(jì)算方式,相關(guān)的計(jì)算方式在SPSS中有多達(dá)30余種,其中比較常用的有歐式距離、歐式平方距離、Pearson相關(guān)性等,本文中使用的是Pearson相關(guān)性。根據(jù)運(yùn)算的方向,層次聚類法可以被分為合并法和分解法兩大類,這兩類方法的運(yùn)算原理相同,只是方向相反而已,在SPSS中提供的是合并法,其具體過(guò)程為首先,將各聚類單位各自作為一類(n類),按照定義的距離計(jì)算方式計(jì)算各數(shù)據(jù)點(diǎn)之間的距離,形成一個(gè)距離陣。其次,將距離最近的兩個(gè)單位并為一個(gè)類別,形成n-1個(gè)類別,再計(jì)算新產(chǎn)生的類別和其他各類別之間的距離或者相似度,形成新的距離陣。如果類別個(gè)數(shù)大于1,則繼續(xù)重復(fù)這一步驟,直到所有的數(shù)據(jù)都被合并為一個(gè)類別為止[4]。

2.3.1分析時(shí)具體過(guò)程

首先是數(shù)據(jù)錄入,將之前統(tǒng)計(jì)得到的語(yǔ)言特征分別錄入進(jìn)SPSS中,為后續(xù)的分析做準(zhǔn)備。數(shù)據(jù)錄入之后,如果數(shù)據(jù)取值存在較大差異,那么需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,其中k-means聚類需要事先手工進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理,而層次聚類法則不需要,建立好的數(shù)據(jù)如圖1、圖2所示。然后,根據(jù)SPSS中各種聚類方法的操作步驟對(duì)選取的語(yǔ)言特征進(jìn)行聚類分析。

在這個(gè)例子中選取的是語(yǔ)氣相關(guān)語(yǔ)言特征的使用頻次,因此選擇的有兩位作家作品中的能表示語(yǔ)氣的標(biāo)點(diǎn)符號(hào)和語(yǔ)氣詞,但是由于在進(jìn)行聚類分析的時(shí)候不能出現(xiàn)字符串,所以文本名稱和語(yǔ)言特征都用數(shù)字進(jìn)行了代替。1-4分別是畢飛宇的《玉米》、《推拿》、《青衣》、《平原》,5-8分別是蘇童的《妻妾成群》、《米》、《黃雀記》、《河岸》。每列所表示的含義在變量視圖中的標(biāo)簽列可得到清楚的展現(xiàn)。因?yàn)楸疚闹羞x用的是層次聚類的方法,所以只在數(shù)據(jù)錄入后沒(méi)有進(jìn)行標(biāo)準(zhǔn)化處理。

其次,根據(jù)SPSS中層次聚類方法的步驟方法進(jìn)行操作,得出聚類分析的結(jié)果。并選擇樹狀圖來(lái)進(jìn)行結(jié)果呈現(xiàn),這是因?yàn)闃錉顖D的可讀性最強(qiáng),通過(guò)它,可以直觀地考察整個(gè)聚類過(guò)程和結(jié)果。在進(jìn)行操作時(shí),距離的計(jì)算方式為Pearson相關(guān)性而不是歐氏距離或平方歐氏距離,這主要是因?yàn)榫捅敬螌?shí)驗(yàn)而言,較于歐氏距離或平方歐氏距離,使用Pearson相關(guān)性得出的結(jié)果更合理,效果更好,即Pearson相關(guān)性更好用。這可能是因?yàn)榫垲惙治霰举|(zhì)上是一種統(tǒng)計(jì)描述方法,沒(méi)有過(guò)多的統(tǒng)計(jì)理論的支持,也沒(méi)有統(tǒng)計(jì)檢驗(yàn)對(duì)聚類結(jié)果的正確性“負(fù)責(zé)”,僅僅是按照所定義的距離將數(shù)據(jù)進(jìn)行歸類而已。因此,從應(yīng)用的角度講,針對(duì)某個(gè)特定問(wèn)題很難得出一個(gè)完全確定,并且也能夠得到理論完全支持的結(jié)論,更多的時(shí)候,我們是在根據(jù)聚類結(jié)果在問(wèn)題中的“有用性”來(lái)判斷模型效果的好壞。

層次聚類分析的步驟為“分析”——“分類”——“系統(tǒng)聚類”,然后,將要分析的變量選入“變量”列表框,將“聚類”選項(xiàng)組切換為“變量”單選按鈕。注意距離的計(jì)算方式選為“Pearson相關(guān)性”,結(jié)果的展示方式選為“樹狀圖”。

2.3.2結(jié)果及分析

①基于語(yǔ)氣相關(guān)語(yǔ)言特征的層次聚類

語(yǔ)氣是在進(jìn)行文本風(fēng)格分析時(shí)經(jīng)常會(huì)考慮到的一個(gè)方面,不同作家在其作品中會(huì)體現(xiàn)出各自獨(dú)特的語(yǔ)氣特點(diǎn),有的作家語(yǔ)氣平緩,有的作家語(yǔ)氣強(qiáng)烈,這些語(yǔ)氣都會(huì)在文本中得到展現(xiàn)。而在計(jì)算風(fēng)格學(xué)中,我們可以通過(guò)一系列不同的語(yǔ)言特征對(duì)作品中體現(xiàn)出來(lái)的作家的語(yǔ)氣特點(diǎn)進(jìn)行量化的統(tǒng)計(jì)展示,例如在本次實(shí)驗(yàn)中使用的語(yǔ)言特征為句號(hào)、感嘆號(hào)、問(wèn)號(hào)和一些感嘆詞,“嗎”“啊”“呀”等。對(duì)語(yǔ)氣相關(guān)語(yǔ)言特征的層次聚類的結(jié)果如圖3所示。

圖3的縱坐標(biāo)為兩位作家的八篇代表作品,其中畢飛宇的是前四部,蘇童的是后四部,橫坐標(biāo)是不同類之間的距離,例如1和3(即《玉米》和《青衣》)之間的距離為0-5之間,1,3,2,4這一類和5,6,7,8這一類之間的距離為25。通過(guò)這個(gè)樹狀圖可以很清楚的看到就語(yǔ)氣相關(guān)語(yǔ)言特征來(lái)看,畢飛宇和蘇童的作品文本風(fēng)格差異很大,很明顯,畢飛宇的作品與蘇童的作品各成一類,據(jù)此,可進(jìn)行兩人作品的文本風(fēng)格方面的分類。而這,也與已有的關(guān)于蘇童和畢飛宇的研究結(jié)論相符。在以往的研究中一般認(rèn)為蘇童作品語(yǔ)氣比較強(qiáng)烈,抒情性表述較多,而畢飛宇的作品在敘事時(shí)語(yǔ)氣比較平穩(wěn),語(yǔ)氣表達(dá)不如蘇童強(qiáng)烈。此外,在這個(gè)樹狀圖上,也可以看出來(lái)聚類的過(guò)程。除了圖3的樹狀圖之外,在SPSS中,也會(huì)自動(dòng)輸出一個(gè)顯示聚類過(guò)程的圖表,如圖4所示,在這個(gè)圖表中可以看出來(lái)這次聚類一個(gè)進(jìn)行了7次,每次的結(jié)果是怎樣的。

②基于標(biāo)點(diǎn)符號(hào)語(yǔ)言特征的層次聚類

標(biāo)點(diǎn)符號(hào)是句子組織結(jié)構(gòu)的一個(gè)重要表現(xiàn),同時(shí)標(biāo)點(diǎn)符號(hào)的停頓含義使得它成為構(gòu)成文本節(jié)奏的重要因素,因此,標(biāo)點(diǎn)符號(hào)成研究文本風(fēng)格時(shí)的一個(gè)重要的特征。在國(guó)內(nèi)的文本風(fēng)格研究中,也經(jīng)常使用標(biāo)點(diǎn)符號(hào)來(lái)分析作者的風(fēng)格。在本實(shí)驗(yàn)中,針對(duì)畢飛宇和蘇童的作品選取了11種標(biāo)點(diǎn)符號(hào),分別是頓號(hào)、分號(hào)、句號(hào)、問(wèn)號(hào)、感嘆號(hào)、雙引號(hào)、單引號(hào)、破折號(hào)、省略號(hào)和冒號(hào),將這11種標(biāo)點(diǎn)符號(hào)在兩個(gè)作家的文本中出現(xiàn)的頻次錄入SPSS中進(jìn)行層次聚類,聚類結(jié)果如圖5所示。

圖5是使用層次聚類法得到的聚類結(jié)果的樹狀圖,與圖3一樣,縱軸仍然表示的是八部小說(shuō),橫軸表示的是不同類之間的距離。從圖5可以看出來(lái)畢飛宇和蘇童的作品在標(biāo)點(diǎn)符號(hào)這個(gè)語(yǔ)言特征上具有很大的區(qū)別性,也就是說(shuō)畢、蘇二人在標(biāo)點(diǎn)符號(hào)的使用習(xí)慣上差別很大,這兩類之間的距離達(dá)到最高值,25,而二人各自的小說(shuō)是聚為一類的,相似性很大。將這一結(jié)論對(duì)應(yīng)到二人的作品當(dāng)中,我們發(fā)現(xiàn)蘇童在作品中會(huì)經(jīng)常省略雙引號(hào),其中省略雙引號(hào)又集中在直接引語(yǔ)方面。蘇童被稱為是“先鋒派作家”,在先鋒派作家中,在直接引用時(shí)省略雙引號(hào)的并非蘇童一人。這種省略了引號(hào)的直接話語(yǔ)句在西方被稱為“自由直接引語(yǔ)”,它是敘述干預(yù)最輕、敘述距離最近的一種形式,能使讀者直接接觸到人物的“原話”,因此“自由直接引語(yǔ)”常常與意識(shí)流、內(nèi)心獨(dú)白聯(lián)系到一起,所以讀完蘇童的小說(shuō),可以直接感受到人物的性格。在畢飛宇的作品中,在直接引用時(shí)省略雙引號(hào)的數(shù)量則大大減少。此外,基于標(biāo)點(diǎn)符號(hào)的層次聚類和基于語(yǔ)氣相關(guān)語(yǔ)言特征的層次聚類的聚類順序不同。

③基于實(shí)詞詞類的層次聚類

在一個(gè)語(yǔ)料庫(kù)內(nèi),每類實(shí)詞出現(xiàn)的頻次也是在進(jìn)行文本風(fēng)格研究時(shí)經(jīng)常使用的一個(gè)語(yǔ)言特征,在本次實(shí)驗(yàn)中,主要選擇了畢飛宇和蘇童作品中的名詞、動(dòng)詞、形容詞、數(shù)詞、量詞、代詞、副詞、介詞、助詞、連詞、方位詞等11類詞進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)他們各自出現(xiàn)的頻率,然后進(jìn)行層次聚類,其結(jié)果如圖6所示:

根據(jù)圖6可以看出在實(shí)詞使用這個(gè)方面,畢飛宇和蘇童均自成一類,內(nèi)部具有很高的相似性,但兩者之間的差距很大,相似性低。根據(jù)之前詞類頻次的統(tǒng)計(jì)結(jié)果可以看出來(lái)蘇童的作品使用實(shí)詞的頻次要高于畢飛宇,實(shí)詞是用來(lái)表達(dá)意義的,具有很強(qiáng)的傳遞信息的能力[5],因此,我們可以說(shuō),蘇童的小說(shuō)以意義表達(dá)為主,信息性強(qiáng)。

3.小結(jié)

本文借助統(tǒng)計(jì)分析軟件SPSS對(duì)畢飛宇和蘇童的小說(shuō)文本風(fēng)格比較進(jìn)行了聚類分析,結(jié)果顯著,即聚類分析能夠清楚的顯示在某一語(yǔ)言特征上幾部作品之間是否有差異,差異有多大。在本文的實(shí)驗(yàn)中,是以畢飛宇和蘇童兩位作家的部分作品為語(yǔ)料資源,通過(guò)對(duì)這些語(yǔ)料資源的簡(jiǎn)單的統(tǒng)計(jì)分析,提取出可用的語(yǔ)言特征,再進(jìn)行下一步的文本聚類。文中展示了語(yǔ)氣相關(guān)的語(yǔ)言特征、標(biāo)點(diǎn)符號(hào)以及實(shí)詞詞類等語(yǔ)言特征的層次聚類分析,使用SPSS中的樹狀圖輸出結(jié)果,清楚的顯示了在這三個(gè)語(yǔ)言特征上,畢飛宇和蘇童的作品之間的差異很大(距離大,相似性低),兩位作家的作品內(nèi)部各自聚合,聚為一類,說(shuō)明就這三個(gè)語(yǔ)言特征而言,兩位作家的內(nèi)部相似性較大,即都很穩(wěn)定,變化不大。但是,這并不代表作家不同,其作品就一定不能聚為一類,一定是同一作家的作品聚為一類。

不足之處:在本文中使用的均為層次聚類法,不涉及非層次聚類法中的k-means聚類,且在文中并為解釋為什么選擇這三個(gè)特征而不是其他的語(yǔ)言特征來(lái)進(jìn)行聚類,這是因?yàn)槭褂胟-means聚類或其他的語(yǔ)言特征,聚類結(jié)果不理想,效果不好,例如在使用k-means聚類進(jìn)行實(shí)驗(yàn)時(shí)出現(xiàn)了一個(gè)作家的作品沒(méi)有聚在一起而是和另外一個(gè)作家的作品聚為一類,即畢飛宇的第一部、第三部作品與蘇童的第一、二部作品聚為一類,剩下的聚為一類。原因可能是多方面的,一是可能因?yàn)楫咃w宇和蘇童兩人的確擁有很多相同之處,二是可能因?yàn)榫垲惙治鲎陨淼娜毕?,即只能根?jù)聚類結(jié)果在問(wèn)題中的“有用性”來(lái)判斷模型效果的好壞。這就暴露了在風(fēng)格分析中使用聚類分析的一個(gè)不足,即需要不斷嘗試才能知道到底哪個(gè)特征使用哪種聚類方法能夠獲得更好的效果。

參考文獻(xiàn):

[1]劉穎,肖天久.金庸與古龍小說(shuō)計(jì)量風(fēng)格學(xué)研究[J].清華大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2014,5(29).

[2]Harald Baayen,Hans van Halteren,Anneke Neijt,F(xiàn)iona Tweedie. An experiment in authorship attribution[J].Journees internationales dAnalyse statistique des Donnees Textuelles,2002,6es.

[3]賀湘情,劉穎,基于文本聚類的語(yǔ)言韻律和節(jié)奏風(fēng)格特征挖掘[J].中文信息學(xué)報(bào),2014,11(6).

[4]張文彤,董偉.SPSS統(tǒng)計(jì)分析高級(jí)教程(第二版)[M].北京:高等教育出版社,20113.

[5]劉穎,肖天久.《紅樓夢(mèng)》計(jì)量風(fēng)格學(xué)研究[J].紅樓夢(mèng)學(xué)刊,2014.

猜你喜歡
聚類分析
基于聚類分析研究貴州省各地區(qū)經(jīng)濟(jì)發(fā)展綜合評(píng)價(jià)
商情(2016年39期)2016-11-21 08:45:54
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費(fèi)支出分析
基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
科技視界(2016年20期)2016-09-29 12:32:48
“縣級(jí)供電企業(yè)生產(chǎn)經(jīng)營(yíng)統(tǒng)計(jì)一套”表輔助決策模式研究
广德县| 碌曲县| 南靖县| 南江县| 井冈山市| 安福县| 房产| 尼玛县| 新密市| 裕民县| 诸城市| 台北县| 阿荣旗| 通化市| 平果县| 涡阳县| 漯河市| 灵川县| 呈贡县| 马尔康县| 谢通门县| 阿克苏市| 星座| 哈巴河县| 西畴县| 湘乡市| 分宜县| 宁海县| 南皮县| 伊通| 沂南县| 海淀区| 旺苍县| 图们市| 共和县| 兴隆县| 佛山市| 林周县| 柳江县| 鹿邑县| 山东省|