高 魏 張顯成
《壯族麼經(jīng)布洛陀影印譯注》(以下簡稱《麼經(jīng)布洛陀》)共包含廣西及云南各地29本麼經(jīng)抄本。作為目前最大型的用方塊壯字記載的壯族民間宗教文獻,《麼經(jīng)布洛陀》對研究壯族的歷史文化和語言文字具有極高價值。[1]79-87字頻統(tǒng)計是研究文字實際使用狀況的一種有效方法。[2]109全面考察《麼經(jīng)布洛陀》的字頻,有助于了解方塊壯字在大型真實語料中的使用情況,可為方塊壯字的定量、標準化及信息化提供有效參考。同時,通過字頻全面掌握《麼經(jīng)布洛陀》的用字情況,也有助于完善這一壯族典籍的基礎研究。但是,限于技術(shù)手段的條件,《麼經(jīng)布洛陀》的字頻研究迄今尚未得到很好的開展。
為了能夠全面、準確地統(tǒng)計字頻,我們自行設計了字庫和輸入法,實現(xiàn)了方塊壯字在計算機中的錄入和顯示。字庫以《麼經(jīng)布洛陀》中的方塊壯字作為字形依據(jù),字形的區(qū)分具體到筆畫,字庫中的每個字形都設計了唯一的暫用內(nèi)碼,以確保不同字形的唯一性。利用方塊壯字字庫和輸入法,我們建立了《麼經(jīng)布洛陀》電子全文語料庫,在此基礎上統(tǒng)計方塊壯字的字頻,形成1個總字頻表和29個分抄本字頻表。統(tǒng)計字頻時,以具體的字形作為單位,不進行同字異形的合并計算。
我們按照字頻的降序排列編制了方塊壯字字頻表,表中每個字都包括字號、頻次、字頻、累計覆蓋率等參數(shù)。字號是按字的字頻降序排列的序號,由于字頻表是封閉的,因此字號實際上標明了每個單字在《麼經(jīng)布洛陀》中的使用地位。頻次是字出現(xiàn)的次數(shù),也稱字次。字頻是單字的頻次與文本總頻次的百分比 (字頻=頻次/總頻次)。[3]45累計覆蓋率是單字的字頻之和,反映了某 (些)字在文本中的覆蓋面。限于篇幅,本文僅列出具有標志作用的數(shù)據(jù)。
從方塊壯字字頻表可知,方塊壯字的總頻次為218062次 (含“△、×”等具有特定含義的符號,不含“□”、衍字、原手抄本注釋與空格),字量 (字形不重復的單字量)為6601個。全書使用最多的字是“造”,頻次為4082次,覆蓋了全書1.87%的內(nèi)容。只用一次的字有2316個,累計覆蓋率為1.06%。頻次1000次以上的字有23個,累計出現(xiàn)37551次,覆蓋了全書17.22%的內(nèi)容。這23個字是使用頻率最高的一群,依頻次的降序排列分別為: “造、不、斗、王、丕、到、批、甫、否、三、你、布、那、之、名、貧、力、他、禮、了、得、蓋、皇”。可見,23個字都是常用的借漢字。在6601個字形不重復的單字中,有3515個字形已有Unicode編碼,占總字量的53.25%。利用SPSS統(tǒng)計軟件,對方塊壯字的頻次分布進行單變量頻率分析,得出以下結(jié)果:頻次的均值為33.03,即方塊壯字的平均使用量為33.03。中值為3.00,即一半的字的頻次在3以上或以下。眾數(shù)為1,即頻次為1的字出現(xiàn)的頻率最頻繁。
字頻分級是字頻統(tǒng)計的基本工作,可為科學認識用字的層次與差異提供參考。[4]85表1是根據(jù)不同頻次級別進行的統(tǒng)計。
表1 方塊壯字頻次分級
從表1可知,高頻字的字量少但覆蓋率高,而低頻字的字量多但覆蓋率低。這一反差可以為方塊壯字提供定量的依據(jù)。此外,從方塊壯字字頻表可知,1-164號字的累計覆蓋率可達50%,1-1281號字的統(tǒng)計覆蓋率可達90%,1-3333號字的累計覆蓋率可達98%。根據(jù)這一數(shù)據(jù),同時參考漢字的頻度劃分,我們把《麼經(jīng)布洛陀》的字頻級別劃分為極高頻字、高頻字、中頻字、低頻字和罕用字。極高頻字的字號范圍為1-164,覆蓋文本50%的內(nèi)容。高頻字的字號范圍為165-1281,覆蓋文本40%的內(nèi)容。中頻字的字號范圍為1282-3333,覆蓋文本8.00%的內(nèi)容。其余的字為低頻字,字號范圍為3334-6601,覆蓋文本2%的內(nèi)容。罕用字是只出現(xiàn)1次的字,覆蓋文本1.06%的內(nèi)容。
各抄本的用字也存在差異。為了更好地描述,我們按抄本在《麼經(jīng)布洛陀》中的先后順序,將29本抄本分別編為1-29號。從頻次上看,抄本間的平均頻次是7519.38,中值是7274,均值與中值非常接近。頻次規(guī)模在7001-8000間的抄本最集中,共有8本。頻次最多的是17號抄本《麼送 》,共出現(xiàn)32844次;頻次最少的是15號抄本《麼 一科》,僅出現(xiàn)994次,兩者相差31850次。從字量上看,各抄本的平均字量是860.34,中值是901,均值與中值也很接近,字量規(guī)模在901-1000的抄本最集中,共有5本;字量最多的是17號抄本《麼送 》,共1319個單字,字量最少的是15號抄本《麼 一科》,僅326字,兩者相差993個單字。各抄本的頻次概況見表2。
表2 《麼經(jīng)布洛陀》29本抄本的頻次概況
?
同一語料的頻次分布是有相關(guān)性的,例如,某字在A組語料出現(xiàn)10次,在B組語料出現(xiàn)0次,在C組語料出現(xiàn)5次,在D組語料出現(xiàn)15次,那么,就該字的頻次分布而言,顯然A與D的相關(guān)性最強,與C的相關(guān)性較強,而與B的相關(guān)性最弱?!饵N經(jīng)布洛陀》共包含了29本抄本,考察每個抄本字頻分布的相關(guān)性,可以更好地認識抄本之間內(nèi)部的聯(lián)系與規(guī)律,也可以在抄本考證的某些方面 (如版本辨?zhèn)?、判斷流行范圍與年代等)提供一定程度上的內(nèi)證材料。下面我們通過《麼經(jīng)布洛陀》總字表中的6601個單字,根據(jù)每個字在不同抄本中出現(xiàn)的頻次,從整體上考察頻次分布的相關(guān)性。
在統(tǒng)計分析中常常用到主成分分析法,它可以用少數(shù)的指標將重疊、相關(guān)的信息高度概括,達到數(shù)據(jù)簡化的目的。[5]113-114利用SPSS統(tǒng)計軟件,以29本抄本為變量,對每個字在每本抄本中出現(xiàn)的頻次進行主成分分析。SPSS的輸出結(jié)果有“KMO和Bartlett的檢驗表”、“公因子方差表”、“解釋的總方差表”和“成分矩陣表”等。限于篇幅,本文只對其中的關(guān)鍵數(shù)據(jù)做出說明,而不列出所有的表格。
從“KMO和Bartlett的檢驗”可知,KMO的值為0.801,Sig.值達0.000,表示適合進行因子分析,可以抽出主成分。從“公因子方差表”可知,每個變量的共同度都非常高,除了有4個變量的共同度在0.5-0.7之間,其他變量的共同度全部達到0.7及以上,表明變量中的大部分信息都已被提取,主成分分析的結(jié)果是有效的。從“解釋的總方差表”可知,前五個主成分的特征值大于1,第一成分的特征值達14.486,占總特征值的49.952%。第二、三、四、五主成分的特征值分別為2.854、1.517、1.348和1.025,各占總特征值的9.840%、5.230%、4.647%、3.534%。累計方差貢獻率為73.203%,說明前五個主成分可解釋全部總特征的73.203%。在第六成分之后的特征值越來越小,相差也不明顯,故提取前五個成分作為主成分。
從“成分矩陣表”可知,第一主成分與所有抄本的相關(guān)性都比較強,相關(guān)性最強的是10號抄本,相關(guān)系數(shù)達0.873,其他相近的還有08號抄本0.868、01號抄本0.855、05號抄本0.850、07號抄本0.848、11號抄本0.839;相關(guān)性最弱的是26號抄本,相關(guān)系數(shù)僅為0.312。與第二主成分的相關(guān)性較強的有 17、18、19、20、21號抄本,系數(shù)分別為 0.649、0.764、0.723、0.759、0.513,其余抄本的相關(guān)系數(shù)最高也不超過0.250,且大多數(shù)為負相關(guān),表明這幾個抄本具有非常強的內(nèi)部一致性和外部排他性。26、28號抄本與第三主成分的相關(guān)性較強,系數(shù)分別為0.508、0.423。26號抄本與第四主成分的相關(guān)性較強,系數(shù)為0.426。27號抄本與第五主成分的相關(guān)性較強,系數(shù)為0.431。每一載荷量表示該主成分與所對應變量的相關(guān)系數(shù),相關(guān)系數(shù)越大,表示該主成分與變量的相關(guān)性越強。SPSS的輸出窗口還給出了前三個主成分的三維成分圖,見圖1。
根據(jù)掌握的抄本背景知識,可以將主成分大致識別為抄本用字的頻次和抄本流行的地域兩大方面。第一主成分大體從正面體現(xiàn)了所有抄本的用字頻次,這是由輸入的原始數(shù)據(jù)決定的。第一主成分的載荷量顯示,所有抄本的載荷量都達到0.3,表明抄本的用字頻次具有相關(guān)性;其中有23本抄本的載荷量在0.5以上,在成分三維圖中不少抄本的坐標甚至出現(xiàn)了重疊,表明絕大多數(shù)抄本的頻次分布顯著相關(guān)。
再來看偏離主要特征的抄本,它們是17-21、26、27和28號抄本。根據(jù)《麼經(jīng)布洛陀》每本抄本的語音說明[6]前言43-44以及壯族方言的分布情況[7]29-30可知,17 -21 號抄本流行于紅水河流域,屬于壯語北部方言紅水河土語區(qū);26號抄本流行于云南文山一帶,屬于壯語南部方言文馬土語區(qū);27號抄本流行于那坡一帶,屬于壯語南部方言德靖土語區(qū)。這些抄本都偏離了主要特征,并且恰好分別與第二、四、五主成分具有較強的相關(guān)性 (見上文的相關(guān)系數(shù))。據(jù)此可以推斷,第二主成分為紅水河地區(qū)抄本的頻次特征,第四主成分為云南文山一帶抄本的頻次特征,第五主成分為那坡一帶抄本的頻次特征??梢姡绊戭l次偏離主要特征的主要因素是抄本的流行地域,換言之,麼經(jīng)抄本的頻次分布具有很強的地域性,流行在同一地域的抄本,頻次分布具有很高的一致性;而流行在不同地域的抄本,頻次分布則表現(xiàn)出差異性。
此外,28號抄本和26號抄本在第三主成分上也共同偏離了主要特征,并表現(xiàn)出一定的相關(guān)性,但是它們又流行于不同的地域。這可能與抄本的版本、內(nèi)容,書寫的方式、年代或者其他因素有關(guān)。另外,雖然21號抄本與17-20號抄本都流行于紅水河流域,但也有差別,在三維圖中偏離了其他抄本,可能與其過高的單字平均頻次有關(guān) (見下文)。
單字平均使用量即單字的平均頻次 (單字平均使用量=總頻次/字量),它是衡量單字效用的重要指標。單字平均使用量和總頻次之間存在著一定的依賴關(guān)系,表現(xiàn)在《麼經(jīng)布洛陀》中,就是單字平均使用量會隨著抄本頻次的變化而變化。下面我們采用回歸分析的數(shù)學方法[8]300,來分析這種變化的規(guī)律和頻次分布的特點。
利用SPSS對各抄本頻次與單字平均使用量進行相關(guān)分析,輸出結(jié)果顯示,各抄本頻次與單字平均使用量的Pearson相關(guān)系數(shù)R為0.956,說明兩者高度相關(guān),存在顯著的線性關(guān)系。決定系數(shù)R2的值越接近1,線性模型對數(shù)據(jù)的擬合程度越好。抄本頻次與單字平均使用量的決定系數(shù)R2為0.915,說明該回歸方程的數(shù)據(jù)擬合程度非常好,各抄本單字平均使用量變異的91.5%可由頻次的變化來解釋。兩者的線性回歸方程圖見圖2。
在圖2中,直線是對29本抄本頻次與其單字平均使用量一般關(guān)系的擬合,散點是各抄本虛擬的坐標位置。抄本坐標越接近直線,則抄本的單字平均使用量越符合一般關(guān)系;抄本坐標越偏離直線,則抄本的單字平均使用量越不符合一般關(guān)系,越可能出現(xiàn)異常。抄本坐標位于直線上方,則抄本的單字平均使用量高出一般關(guān)系;抄本坐標位于直線下方,則抄本的單字平均使用量低于一般關(guān)系。從圖2上看,21號抄本《佈洛陀造方唱本》大大超出了一般關(guān)系,表明該抄本的單字平均使用量過高。在總頻次一定的情況下,單字平均使用量過高,其使用字量必然要比一般抄本的少得多。這應該是該抄本在圖1中偏離主要特征的主要原因。高出一般關(guān)系的抄本還有26號《麼荷泰》、28號《麼破塘》,低于一般關(guān)系的抄本有05號《九狼叺》、07號《麼叭床 一科》、09號《 兵棹 啟科》、10號《 兵甲一科》、23號《 漢皇祖王一科》,其余的抄本大都位于直線上或者靠近直線。
在偏離一般關(guān)系的抄本中,21號抄本流傳于紅水河流域,但該區(qū)域其他抄本的單字平均使用量非常接近一般關(guān)系,表明該抄本的偏離并未受到流傳區(qū)域的影響。26號抄本流傳于云南文山,但是該區(qū)域的抄本只此一本,沒有更多的材料證明是否與區(qū)域因素相關(guān)。除了這兩本抄本,其他偏離一般關(guān)系的抄本都流傳于右江流域。在接近一般關(guān)系的抄本中,各抄本也沒有因為流行區(qū)域的不同而顯示出差異。由此可見,抄本的單字平均使用量與其流傳地域沒有必然關(guān)系。
我們估計,出現(xiàn)偏離的原因可能有以下幾種情形:第一,抄寫人員不規(guī)范書寫、隨意用字[9]97,一定的內(nèi)容使用過多或過少的字來表示,從而導致單字的平均使用量出現(xiàn)異常。第二,與造字者的文字水平[10]74-77有關(guān),文字水平高,造字者就能用較多的字形表示一定的語素;文字水平低,造字者則可能用較少的字形表示一定的語素,甚至用相同的字形表示不同的語素。第三,與抄本的內(nèi)容相關(guān),有的是綜合性的抄本,有的則是單一內(nèi)容的抄本,在頻次一定的情況下,單一內(nèi)容抄本的相同語素所占的比例要高,單字的平均使用量自然也高。第四,與轉(zhuǎn)抄過程中的人為因素[11]5有關(guān),如,人為地改動原抄本的內(nèi)容、文字、篇幅等,或者轉(zhuǎn)抄者按照自己的意志改寫原抄本的字形。由于麼經(jīng)抄本的用字特征是相對一致的,在文本內(nèi)容、篇幅及流傳區(qū)域等因素相同的情況下,改動過的抄本很可能會偏離一般抄本的頻次特征。
通過對方塊壯字的統(tǒng)計和分析,我們初步掌握了《麼經(jīng)布洛陀》的字頻概況,并得出以下結(jié)論:第一,方塊壯字的字頻分布具有差異性。一方面,從總體上看,頻次級別不同,其相應的字量和覆蓋率也不同,并表現(xiàn)出少數(shù)高頻字的高覆蓋率和多數(shù)低頻字的低覆蓋率的兩端分布格局;另一方面,從29本抄本各自的字頻分布來看,不同的抄本在單本抄本的總頻次、字量、平均頻次及前十高頻字上也存在差異。第二,麼經(jīng)抄本的字頻具有相關(guān)性,絕大多數(shù)的抄本在頻次分布上趨于一致;頻次分布比較特殊的抄本主要受到了地域因素的影響。第三,《麼經(jīng)布洛陀》各抄本的單字平均使用量和抄本頻次之間存在著顯著的依存關(guān)系,單字平均使用量隨著抄本頻次的變化而變化;偏離一般關(guān)系的抄本與其流傳的地域沒有必然關(guān)系,可能與人為、抄本版本及內(nèi)容等因素有關(guān)。
[1]梁庭望.古壯字結(jié)出的碩果——對《壯族麼經(jīng)布洛陀影印譯注》的初步研究[J].廣西民族研究,2005(1).
[2]馮志偉.現(xiàn)代漢字和計算機[M].北京:北京大學出版社,1989.
[3]李國英,周曉文.漢字字頻統(tǒng)計方法的改進[J].北京師范大學學報:社會科學版,2011(6).
[4]張再興.從字頻看西周金文文字系統(tǒng)的特點[J].語言研究,2004(1).
[5]覃勤.先秦古籍字頻分析[J].語言研究,2005(4).
[6]張聲震.壯族麼經(jīng)布洛陀影印譯注[Z].南寧:廣西民族出版社,2004.
[7]張均如,梁敏,等.壯語方言研究[M].成都:四川民族出版社,1999.
[8]李志輝,羅平.PASW/SPSS Statistics中文版統(tǒng)計分析教程[M].北京:電子工業(yè)出版社,2010.
[9]黃南津,高魏,等.方塊壯字文獻生存及傳承狀況調(diào)查分析[J].廣西民族研究,2010(2).
[10]覃曉航.方塊壯字研究[M].北京:民族出版社,2010.
[11]黃南津.略談廣西少數(shù)民族手抄文獻整理研究[N].廣西民族報,2013-08-23.