秦克霄
(山西大學 圖書館,太原 030006)
19世紀以來,隨著語言學的發(fā)展以及文學風格和速記研究的需要,人們開始對語言的成分進行統(tǒng)計分析。德國語言學家F·W·凱丁(F.W.Kaeding)歷時七年,編纂了世界上第一部頻率詞典——《德語頻率詞典》(《H?ufigkeits w?rter buch der Deutschen Sprache》)被認為是第一次現(xiàn)代意義上以統(tǒng)計調(diào)查方法完成的詞匯研究工作;20世紀初,美國教育學家兼心理學家E·L·桑迪克(E.L.Thorndike)先后編寫了《教師二萬詞詞書》(《Teacher’s Word Book of 20 000 Words》)和《教師三萬詞詞書》(《Teacher’s World Book of 30 000 Words》),對英語的詞匯作了大量的頻率統(tǒng)計工作。伴隨著不同語言中有關(guān)詞頻資料的大量積累,詞語頻次的特征也不斷被揭示,人們開始從理論上思考詞頻差異的現(xiàn)象。由于頻率詞典實際上就是一種詞表,而其中字詞的出現(xiàn)頻次與字詞序排列的序號等級是最基本的兩個數(shù)據(jù)指標,反映了字詞的地位和性質(zhì),因此,人們首先著重研究的就是這兩個基本數(shù)據(jù)之間的相互關(guān)系,試圖在一定的篇章范圍內(nèi)總結(jié)出語言成分出現(xiàn)頻次所滿足的嚴格的數(shù)學原理。哈佛大學語言學教授齊夫(G.K.Zipf)在前人研究的基礎(chǔ)上,對英語文獻中單詞出現(xiàn)的頻次進行大量統(tǒng)計以檢驗前人的定量化公式,在此基礎(chǔ)上,進行系統(tǒng)的分析并提出了齊夫定律[1]:若把一篇較長的文章中每個字詞出現(xiàn)的頻次從高到低進行遞減排列,字詞出現(xiàn)的頻次f與它的位序r的乘積為一個常數(shù)c,即:
f·r=c。
該公式可以理解為:在自然語言的語料庫里,一個單詞出現(xiàn)的頻次與它在頻率表里的排名成反比(又稱省力法則)。后又提出更加普適的公式:
將上式兩邊取自然對數(shù)可得:lnf+alnr=lnc,繪制lnf與lnr的關(guān)系曲線并作線性回歸,即可得到斜率a與截距l(xiāng)nc。齊夫定律表明,在英語單詞語料庫中,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少被使用。
近些年來,在文獻計量學和其它學科領(lǐng)域,針對齊夫定律或與其相關(guān)的領(lǐng)域有許多補充和深化的研究,國內(nèi)也有很多學者展開了對齊夫定律本身[2]及其應(yīng)用[3-6]的研究。近年來,江南大學的研究者以諾貝爾文學獎得主莫言的《紅高粱》《蛙》和《透明的紅蘿卜》為主要研究對象,統(tǒng)計莫言作品中字頻、詞頻,發(fā)現(xiàn)都能滿足齊夫定律[7]。所得結(jié)果與包括英語、西班牙語、法語等在內(nèi)的多種語言研究結(jié)果一致。此研究結(jié)果從統(tǒng)計學角度闡明了莫言成為中國大陸首位諾貝爾文學獎得主的可能原因之一。
本文以中國古代具有代表性的百科全書《夢溪筆談》為例,考察齊夫定律對中國古代漢語語料的適用性。在統(tǒng)計詞語頻次時,確定詞語等級多采用以下兩種方法:
(1)并列法。并列法是指遇到同頻詞時,將這些同頻詞并列為一個詞級,并延承上一個詞級。比如詞序為第5至第8的詞是同頻詞,同時,第5個詞的詞級為5,那么這些第5至第8的詞的詞級都是5;若詞序第9至第12的詞也是同頻詞,那么這些詞的詞級則延承上一詞級,為6。在許文霞的《齊夫定律與中文詞頻分布機理》一文中采用的詞級確定方法就是并列法[8]。
(2)隨機法。齊夫第一定律在確立時,最先使用的方法是隨機法。所謂隨機法,就是指在確立詞級的過程中,遇到同頻詞時,按照詞語在統(tǒng)計文本的詞表中的自然詞序或隨機排列確定詞語的等級,這樣每個詞的自然或隨機詞序就是這個詞的詞級。比如詞序為第5至第8的詞是同頻詞,那么這些詞的詞級隨機排列為5、6、7、8。
(1)根據(jù)漢語自身的語言特點,采用計算機自動分詞統(tǒng)計,以齊夫定律理論為基礎(chǔ),再參照《現(xiàn)代漢語詞典》條目所列出的詞語形態(tài),以保留詞語語義的完整性為前提。
(2)人名、地名等專有名詞均作為獨立的詞來劃分。
(3)統(tǒng)計時,標點符號等非漢字書寫符號不計入內(nèi)。
根據(jù)文獻中出現(xiàn)的詞頻(字頻)與等級序號的統(tǒng)計數(shù)據(jù),建立橫坐標表示詞的位序r,縱坐標表示相應(yīng)的頻次f的直角坐標系,得到一條雙曲線,即:齊夫分布曲線。再將位序r與頻次f都取對數(shù)坐標,則上圖中的圖像就變成一條直線,即:齊夫分布對數(shù)曲線。若滿足這種類型的詞頻(字頻)分布,就叫做齊夫分布。《夢溪筆談》作為我國古代的科學技術(shù)百科全書,在科學史和文學史上都具有重要的地位和代表性,故此,我們選擇《夢溪筆談雜志一》作為研究對象,考證齊夫定律對我國古漢語文本的適用性。
通過對文本《夢溪筆談雜志一》的統(tǒng)計分析,此段語料共有4 740個書寫符,其中,漢字共有4 739個,累計總字數(shù)為3 903個,不同字數(shù)為1 905個,不同頻次數(shù)為39次(見表1)。
表1 以遞增順序排列的位序r和以遞減順序排列的頻率f
(1)圖1為頻次與詞級圖:
由圖1齊夫分布曲線的反比例函數(shù)分布特性和齊夫?qū)?shù)分布的線性特性可以看出,采用并列法,該文的字頻與位序大致滿足齊夫定律。
圖1 詞頻f-詞序r分布圖
(2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進行擬合,即可得到斜率a與lnc,如圖2所示。
圖2 lnf-lnr圖以及線性擬合
(3)求a和lnc以及c,如表2所示。
表2 圖2的線性擬合分析
由表2可知,修正決定系數(shù)Adj.R-Square=0.705 41,反應(yīng)了線性回歸的良好;a=-0.979 32,標準誤差為0.102 11。由結(jié)果可知,采用并列法得到的統(tǒng)計結(jié)果比較符合齊夫定律[7]。
表3 以遞增順序排列的位序r和以遞減順序排列的頻率f
(1)圖3為頻次與詞級圖。由圖3可以看出,采用隨機法時字頻與詞級很好地滿足齊夫定律。
圖3 詞頻f-詞序r分布圖
(2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進行擬合,即可得到斜率a與lnc,如圖4。
圖4 lnf-lnr圖以及線性擬合
(3)求a和lnc以及c,如表4所示。由表4可知,修正決定系數(shù)Adj.R-Square=0.957 68,反應(yīng)了線性回歸良好;斜率a=-0.869 05接近值-1,標準誤差為0.005 52。由此可知,采用隨機法得到的結(jié)果非常符合齊夫定律。
表4 圖4的線性擬合分析
此段語料共有4 740個書寫符,其中漢字共有4 739個,累計總詞數(shù)為3 120個,不同詞數(shù)為1 439個,不同頻次數(shù)為30次(見表5)。
表5 以遞增順序排列的位序r和以遞減順序排列的頻率f
(1)圖5為頻次與詞級圖。由圖5可以看出,采用并列法古漢語《夢溪筆談雜志一》文本的詞頻與詞級也基本滿足齊夫定律。
圖5 詞頻f-詞序r分布圖
(2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進行擬合,即可得到斜率a與lnc,如圖6所示。
圖6 lnf-lnr圖以及線性擬合
(3)求斜率a和lnc以及c,如表6所示。
表6 圖6的線性擬合分析
由表6可知,修正決定系數(shù)Adj.R-Square=0.731 27,說明線性回歸良好;斜率a=-0.992 51接近標準值-1,標準誤差為0.109 18。從結(jié)果可知,采用并列法得到的結(jié)果也比較符合齊夫定律,但不如隨機法符合效果好。
表7 以遞增順序排列的位序r和以遞減順序排列的頻率f
(1)圖7為頻次與詞級圖。由圖7可以看出,用隨機法時詞頻與詞級符合齊夫分布定律非常好。
圖7 詞頻f-詞序r分布圖
(2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進行擬合,即可得到斜率a與lnc,如圖8所示。
圖8 lnf-lnr圖以及線性擬合
(3)求a和lnc以及c,如表8所示。
表8 圖8的線性擬合分析
由表8可知,修正決定系數(shù)Adj.R-Square=0.918 08,反映了線性回歸優(yōu)良;斜率a=-0.655 7接近標準值-1,標準誤差=0.005 16,說明詞頻的統(tǒng)計分析采用隨機法得到的結(jié)果非常好地符合齊夫定律。
本文同時采用并列法和隨機法對我國古代極具代表性的古漢語文本《夢溪筆談雜志一》語料的字頻(詞頻)和字序(詞序)數(shù)據(jù)進行了統(tǒng)計和分析,繪制出字頻(詞頻)和字序(詞序)的分布圖及對數(shù)化后的散點分布圖。研究結(jié)果表明:古漢語文本的字頻(詞頻)和字序(詞序)分布曲線呈現(xiàn)出較為明顯的雙曲線特征;利用專業(yè)Origin軟件對字頻(詞頻)和字序(詞序)的對數(shù)化后的散點圖作線性回歸處理,其分布曲線呈現(xiàn)出線性關(guān)系,斜率在-1左右,符合齊夫第一定律的設(shè)定,驗證了齊夫定律對古漢語文本的適用性。從頻次與位序的數(shù)據(jù)統(tǒng)計分析結(jié)果可以看出,無論字頻還是詞頻,采用隨機法擬合的結(jié)果修正決定系數(shù)大,標準誤差小,與齊夫定律符合得更好。從詞頻統(tǒng)計結(jié)果我們知道,頻次最高的十一個詞為“之、有、為、以、其、也、中、而、謂、皆、者”;字頻統(tǒng)計結(jié)果中頻次最高的十個為字“之、有、人、為、其、中、以、不、大、山”。由此可知,俗語云古人只懂“之乎者也”是有一定科學依據(jù)的,如同英文中的定冠詞“the”、介詞“of”和連詞“and”。
不同時代以及同時代不同作者具有不同的語言風格特征。如果進行大規(guī)模文本統(tǒng)計,通過對語言的字頻詞頻等的分析,有助于甄別作品的作者和寫作年代。比如:關(guān)于古典名著《紅樓夢》的前八十回與后四十回的作者素有爭議,齊夫定律可以成為文獻考證的一個工具。事實上,齊夫定律除了在語言學、情報學領(lǐng)域運用較多外。在非語言學領(lǐng)域如:地理學、經(jīng)濟學、信息科學等領(lǐng)域也有廣泛的應(yīng)用,例如:社會學領(lǐng)域中城市人口數(shù)量分析[9]、公司規(guī)模大小分析[10]等。研究表明,無論英語、漢語以及許多國家的語言,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少被使用——人類的語言具有經(jīng)濟省力性原則(或曰“惰性”)。莫言在一次訪談中說到,他就上了小學五年級,認識大概五百多個漢字就開始寫作,后來可能又增加了五百多個漢字,現(xiàn)在大概是一千多個字。誠如此言,紀錄片《搖搖晃晃的人間》的拍攝對象、2018年湖北文學獎獲得者、央視《朗讀者》節(jié)目特邀嘉賓、湖北農(nóng)村腦癱女詩人余秀華創(chuàng)作詩歌二千多首,其語言使用的局限性和地域性也同樣值得研究和關(guān)注。
齊夫定律是描述詞頻分布規(guī)律的強大數(shù)學工具,作為經(jīng)驗定律,它仍然有待進一步完善[11]。比如:對高頻詞匯和低頻詞匯引入不同的權(quán)重因子或參數(shù),結(jié)果會更好地符合齊夫定律。這需要分析和研究大規(guī)模的文本語料庫,如今在大數(shù)據(jù)和高性能計算機的時代將變?yōu)榭赡?。我們相信齊夫定律的運用將會取得更豐碩的成果。