孫龍龍,顧長貴,馮 靖,吳果林
(1.上海理工大學(xué) 管理學(xué)院,上海 200093;2.上海工程技術(shù)大學(xué) 高等職業(yè)技術(shù)學(xué)院,上海 200437;3.桂林航天工業(yè)學(xué)院 理學(xué)院,桂林 541004)
近年來,國內(nèi)外許多學(xué)者都對文本語言內(nèi)的無標(biāo)度規(guī)律進行了詳細的研究,并且取得了很多重要的成果。但前人大多數(shù)的研究對象都是英文文本,并且大多都是在單詞層面,忽略了文本語言在其他層次上的無標(biāo)度規(guī)律。本文的研究主要針對中文文本在句子、段落層次的無標(biāo)度規(guī)律進行展開。
人類語言學(xué)是非常復(fù)雜的社會系統(tǒng)[1],是人類文化在社會以及生物層面長時間演化的結(jié)晶[2]。在過去的一百年里,統(tǒng)計理論的日益完善,使得人類語言學(xué)的研究得到了長足的發(fā)展。其中,Zipf[3]提出了著名的Zipf’s定律。它的主要思想是將單詞按照其出現(xiàn)頻率進行排序,頻率最高的單詞標(biāo)記為等級1(rank 1),頻率第二高的單詞標(biāo)記為等級2(rank 2)……依次排列,在雙對數(shù)坐標(biāo)系里單詞頻率與等級標(biāo)號呈現(xiàn)負相關(guān)規(guī)律。由Zipf’s定律,文獻[4]中將Holy Bible翻譯成多種語言,研究了每一種語言的Zipf指數(shù)。文獻[5]對日文文本中平假名文字頻率分布進行研究,指出日文中平假名的出現(xiàn)頻率服從weibull分布的論點。文獻[6]中指出了中文漢字出現(xiàn)頻率服從冪律分布的特點。
對于語言內(nèi)部存在的無標(biāo)度規(guī)律(冪律分布)現(xiàn)象,許多學(xué)者也作了深入的研究。Altmann等[7]解釋了無標(biāo)度規(guī)律在單詞層次和單詞字母層次之間的演化。Deng等[8]對中國近現(xiàn)代小說從漢字使用頻率角度加以研究,發(fā)現(xiàn)漢字的使用具有無標(biāo)度規(guī)律現(xiàn)象。Montemurro等[9]和Bhan等[10]使用去趨勢波動分析法(detrended flutuation analysis,DFA)對英文文本和韓文文本加以分析,發(fā)現(xiàn)英語和韓語內(nèi)部存在的無標(biāo)度規(guī)律。在文獻[11-12]中,Ausloos和Gillet將英文文本轉(zhuǎn)化為世界語文本,同樣也得到了在英文文本和世界語文本中都存在無標(biāo)度規(guī)律的性質(zhì)。以上研究大多使用去趨勢波動分析法分析非漢語語言文本的無標(biāo)度規(guī)律。此外,去趨勢波動分析法還可以有效探測非平穩(wěn)性時間序列上的無標(biāo)度規(guī)律,在DNA核苷酸序列、脈搏信號序列、金融時間序列、天氣預(yù)測方面都有極為廣泛的應(yīng)用[13-20]。
目前對于語言文本無標(biāo)度規(guī)律的研究大多基于單詞的層面,而沒有從語句和段落的更高層次對文本加以研究[19]。對語言文本而言,語句和段落是其重要的組成單元[20]。一方面,語句為單詞的使用提供了具體的語境,另一方面,語句的邏輯排列形成語句群、段落乃至整個文本,從而清楚地表達作者思想。此外,上述文獻的研究對象大都是英文文本,而很少有研究者對中文小說文本進行研究。然而,中文小說文本與西方文學(xué)作品有很大差別,即中國的漢字是由繪畫引申而來[21],其后漢字經(jīng)過幾千年的演化使得中國人的思想表達方式與西方有很大不同。概括而言,漢字語言是世界上最為成熟的語言之一,而對于漢字在語句和段落層次上的無標(biāo)度規(guī)律的研究,卻很少有學(xué)者涉及。本文從語句層次以及段落層次使用去趨勢波動分析法對中國古代小說文本四大名著加以研究。
本文所用到的數(shù)據(jù)均來自4大名著小說文本。四大名著是中國文學(xué)史中的經(jīng)典作品,它們分別是《紅樓夢》(A Dream of Red Mansions)簡記為ADRM,《三國演義》(The Romence of Three Kingdoms)簡記為TRTK,《水滸傳》(All Men are Brothers)簡記為AMAB,《西游記》(The Pilgrimage to the West)簡記為TPTW。表1給出了四大名著相關(guān)文本數(shù)據(jù)。
表1 四大名著相關(guān)文本數(shù)據(jù)Tab.1 Related data of Four Great Classical Novels
本文分別從以上4本小說文本中提取每段字?jǐn)?shù)時間序列、每段句子數(shù)時間序列和每句字?jǐn)?shù)時間序列。忽略所有標(biāo)點符號,僅計算每段漢字的個數(shù)Mt,來構(gòu)建每段字?jǐn)?shù)時間序列;以句號(‘.’)、問號(‘?’)、感嘆號(‘!’)、省略號(‘……’)為一句話結(jié)束的標(biāo)志并忽略其他標(biāo)點符號,來統(tǒng)計每句話漢字?jǐn)?shù)Mv和每段的句子數(shù)Mw,并構(gòu)建相應(yīng)的時間序列。圖1(a)為摘自《紅樓夢》中的一段文字,其中標(biāo)記在紅框內(nèi)的標(biāo)點符號為每句話結(jié)束的標(biāo)志。圖1(b)為與上述文本相對應(yīng)的每句字?jǐn)?shù)時間序列 ξi={27,20,13,21,11,15,···},其中Num(n)表示句子數(shù)目,Mv(n)表示每句話的漢字?jǐn)?shù)目。
圖1 文本向時間序列的轉(zhuǎn)化Fig.1 Translation from text to time series
去趨勢波動分析法是1994年由Peng等[13]基于DNA機理提出的標(biāo)度計算方法。該方法適用于分析非平穩(wěn)性時間序列的長程相關(guān)性,其優(yōu)點是它可以有效濾去序列中的各階趨勢成分,并能檢測含有噪聲且疊加有多項式趨勢信號的長程相關(guān)[13-20]。假設(shè)一時間序列為其中N為序列長度。
首先對該序列進行相空間重構(gòu),可得到一系列時間序列片段Yn:
式中,s為去趨勢波動分析法中盒子的大小。
其次,對每個時間序列片段用q階多項式
如果原時間序列存在長期相關(guān)性,則有
式中,H為標(biāo)度指數(shù)(scaling exponent)。若H=0.5,則表明時間序列可用隨機游走過程來描述;若0.5 計算過程中,多項式擬合函數(shù)中的階數(shù)q取2,即用最小二乘法擬合序列片段趨勢。用q值取2的多項式對序列片段進行擬合,使得每個標(biāo)度范圍內(nèi)的數(shù)據(jù)點數(shù)目幾乎相同,提高了結(jié)果的準(zhǔn)確性[19]。 對四大名著每段句子數(shù)時間序列、每段字?jǐn)?shù)時間序列、每句字?jǐn)?shù)時間序列運用去趨勢波動分析法分析,結(jié)果如圖2所示。其中:lns為對盒子大小取對數(shù)值;lnDFA(s)為對漲落的大小取對數(shù)值。 每段句子數(shù)時間序列和每段字?jǐn)?shù)時間序列的標(biāo)度指數(shù)H幾乎相同,且接近于0.60。每句字?jǐn)?shù)時間序列的標(biāo)度指數(shù)H則偏小,但其標(biāo)度指數(shù)H值也接近于0.60。這說明中國四大名著小說無論在段落層次還是語句層次上均具有長程相關(guān)性,且標(biāo)度指數(shù)H與Holy Bible[22]在單詞長度層次得到的標(biāo)度指數(shù)H幾乎相同。這也進一步表明在中文小說文本中,其語言內(nèi)部無論是段落層次還是語句層次均存在固有的無標(biāo)度規(guī)律。 為了更加細致地研究上述時間序列,對以上時間序列設(shè)置滑動窗口S,把時間序列劃分成相應(yīng)的時序片段,分別對每一個時序片段采用去趨勢波動分析法分析。每段句子數(shù)時間序列和每段字?jǐn)?shù)時間序列的序列長為 103,且滑動窗口長度S=1 000,每句字?jǐn)?shù)時間序列的序列長為1 04,且滑動窗口S取10 000。在每段字?jǐn)?shù)時間序列結(jié)果中,《紅樓夢》和《水滸傳》兩本小說前后部分存在著標(biāo)度指數(shù)的明顯變化,結(jié)果如圖3所示。圖3 中(e),(f),(g),(h)分別為《紅樓夢》、《三國演義》、《水滸傳》、《西游記》在各個時序片段上的擬合圖。其中:Num(n)表示滑動窗口的數(shù)目;H(n)表示對應(yīng)滑動窗口的標(biāo)度指數(shù)。 圖2 四大名著在各個層次的標(biāo)度律Fig.2 Scaling behaviors of Four Great Classical Novels across all levels 從圖3可以看出,《紅樓夢》和《水滸傳》的標(biāo)度指數(shù)變化相對明顯,其變化區(qū)間分別為[0.55,0.65]和[0.52,0.71],且《紅樓夢》和《水滸傳》存在標(biāo)度指數(shù)轉(zhuǎn)變點?!都t樓夢》的標(biāo)度指數(shù)轉(zhuǎn)變點在第72章節(jié),且轉(zhuǎn)變點前或后標(biāo)度指數(shù)相對穩(wěn)定?!端疂G傳》的標(biāo)度指數(shù)轉(zhuǎn)變點L1在第67章節(jié),其轉(zhuǎn)變點之前的標(biāo)度指數(shù)呈遞減趨勢,轉(zhuǎn)變點之后的標(biāo)度指數(shù)呈遞增趨勢?!度龂萘x》和《西游記》的標(biāo)度指數(shù)則無明顯變化,其浮動區(qū)間分別為[0.57,0.60]和[0.56,0.59]。分別對《紅樓夢》和《水滸傳》轉(zhuǎn)變點前后的標(biāo)度指數(shù)做雙樣本t檢驗(two-samplettest),檢驗結(jié)果如表 2 所示。 圖3 使用去趨勢波動分析法分析每段字?jǐn)?shù)時序片段的結(jié)果Fig.3 DFA results of the time series’ segments for the number of characters in a paragraph 對于《紅樓夢》和《水滸傳》,其標(biāo)度指數(shù)轉(zhuǎn)變點前后差異顯著(P<0.001)。事實上,對于《紅樓夢》一書作者的爭議一直存在,當(dāng)下大眾比較認(rèn)可的一種說法是《紅樓夢》由曹雪芹和高鶚兩人前后歷經(jīng)十幾年時間創(chuàng)作完成,其中曹雪芹創(chuàng)作了前80章節(jié),后40章節(jié)由高鶚在曹雪芹的思想影響下續(xù)寫完成[23]。而對于《水滸傳》一書的作者也存在很大爭議,普遍認(rèn)為《水滸傳》一書是由施耐庵一人完成[24-26]。但也有人指出《水滸傳》是由施耐庵和羅貫中共同完成的,即“施耐庵的本,羅貫中編次”[27-29]。本文從數(shù)理統(tǒng)計的角度分析,發(fā)現(xiàn)了《紅樓夢》和《水滸傳》書中每段字?jǐn)?shù)時間序列存在標(biāo)度指數(shù)的轉(zhuǎn)變,且轉(zhuǎn)變點前后標(biāo)度指數(shù)顯著變化。為了驗證上述發(fā)現(xiàn),本文從每段所含信息量的角度作了以下工作加以分析。 表2 轉(zhuǎn)變點 L1前后雙樣本t檢驗結(jié)果Tab.2 Results of two-sample t test for the data before and after separation points L1 令{Xi},i=1,2,···,Nv,表示每段字?jǐn)?shù)時間序列;{Yi},i=1,2,···,Nv,表示每段句子數(shù)時間序列; {Zi},i=1,2,···,Nw,表示每句字?jǐn)?shù)時間序列。其中,Nv表示段落數(shù),Nw表示句子數(shù)。則有: 將每句字?jǐn)?shù)時間序列 {Zi}均分成Nv段,每一段含有wv個元素,對每個片段運用香農(nóng)熵(Shannon entropy)[30-32]: 由式(5),每一個片段會得到對應(yīng)的H(i)的值。在此將H(i)定義為每一段所包含的信息量,對每段信息量時間序列作去趨勢波動分析,其結(jié)果如圖4所示。 圖4給出了四大名著每段信息量時間序列的標(biāo)度行為,《紅樓夢》、《三國演義》、《水滸傳》、《西游記》的標(biāo)度指數(shù)分別為0.62,0.62,0.65,0.59。由此可得,每段信息量時間序列的標(biāo)度指數(shù)和每段字?jǐn)?shù)時間序列的標(biāo)度指數(shù)幾乎相同。 為了理解《紅樓夢》和《水滸傳》兩本小說存在轉(zhuǎn)變點的現(xiàn)象,對每段信息量時間序列劃分時序片段,其序列長為1 03,且滑動窗口S取1 000。同樣對每個時序片段運用去趨勢波動分析法分析,結(jié)果如圖5所示。 由圖5可知,《紅樓夢》和《水滸傳》的信息量時間序列也存在標(biāo)度指數(shù)分段現(xiàn)象,《紅樓夢》的每段信息量時間序列標(biāo)度指數(shù)的轉(zhuǎn)變點L2與每段字?jǐn)?shù)時間序列的標(biāo)度指數(shù)轉(zhuǎn)變點L1一致,均在第72章節(jié)?!端疂G傳》的每段信息量時間序列標(biāo)度指數(shù)的轉(zhuǎn)變點L2在第62章節(jié)。對《紅樓夢》和《水滸傳》每段信息量轉(zhuǎn)變點前后進行差異性檢驗,表3列出了雙樣本t檢驗(two-samplettest)的檢驗結(jié)果。 表3 轉(zhuǎn)變點 L2前后雙樣本t檢驗結(jié)果Tab.3 Results of two-sample t test for the data before and after separation pointsL2 表2和表3結(jié)果表明,《紅樓夢》和《水滸傳》無論在每段字?jǐn)?shù)時間序列,還是在每段所含信息量時間序列上,均存在標(biāo)度指數(shù)的轉(zhuǎn)變現(xiàn)象,且轉(zhuǎn)變點前后的標(biāo)度指數(shù)差異性顯著(P<0.008)。 前人在英文版的Holy Bible[22]中,使用去趨勢波動分析研究了由單詞長度構(gòu)成的時間序列,發(fā)現(xiàn)了標(biāo)度指數(shù)接近為0.6的無標(biāo)度規(guī)律。本文在更高的層次即在段落層次和語句層次上使用去趨勢波動分析我國的四大名著文本,即分析每一名著的每段句子數(shù)時間序列、每段字?jǐn)?shù)時間序列和每句字?jǐn)?shù)時間序列。研究發(fā)現(xiàn),中國四大名著在各個層次上存在標(biāo)度律,且每個層次上的標(biāo)度指數(shù)也都接近于0.60。這說明中文小說文本在各個層次上均滿足固有的無標(biāo)度規(guī)律,且具有相似的長程相關(guān)性,各個層次相似的無標(biāo)度規(guī)律表明中文文本從微觀層次到宏觀層次具有相似的長程關(guān)聯(lián)性,為重構(gòu)語言形成與發(fā)展的理論模型提供幫助。 此外,本文還佐證了《紅樓夢》的作者為曹雪芹和高鶚兩人的說法,并支持《水滸傳》一書有很大可能是施耐庵與羅貫中合作完成的觀點。用去趨勢波動分析法對每段字?jǐn)?shù)時間序列的時序片段以及每段信息量時間序列的時序片段分析,得出了《紅樓夢》和《水滸傳》這兩本小說在段落字?jǐn)?shù)以及段落信息量上存在著標(biāo)度指數(shù)的前后顯著差別。《紅樓夢》的標(biāo)度指數(shù)轉(zhuǎn)變點為第72章節(jié),即其前72章節(jié)和后48章節(jié)在段落結(jié)構(gòu)和段落信息量上存在著前后變化,該轉(zhuǎn)變點現(xiàn)象與學(xué)者們認(rèn)為的《紅樓夢》前80章由曹雪芹創(chuàng)作、后40章由高鶚完成的說法相接近。不同的標(biāo)度指數(shù)表征不同作者的寫作習(xí)慣以及表達方式,在一定程度上標(biāo)度指數(shù)可以作為區(qū)分不同作者的依據(jù)[20]。而對于《水滸傳》,其標(biāo)度指數(shù)也存在轉(zhuǎn)變點現(xiàn)象,約為第70章節(jié),從而支持了《水滸傳》一書有很大可能是兩人共同編寫的結(jié)論,與當(dāng)下許多學(xué)者認(rèn)為的《水滸傳》是“施耐庵的本,羅貫中編次”的說法不謀而合[27-29]。4 無標(biāo)度規(guī)律分析結(jié)果
4.1 無標(biāo)度規(guī)律分析
4.2 時序片段的分析
5 結(jié) 論