国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

唐代以來漢語文學(xué)作品中的字頻演變

2011-06-14 03:45劉宇凡郭金忠陳清華
中文信息學(xué)報 2011年3期
關(guān)鍵詞:冪律元曲網(wǎng)絡(luò)小說

劉宇凡,郭金忠,陳清華

(1. 石家莊經(jīng)濟學(xué)院 人文社科學(xué)院,河北 石家莊 050031;2. 北京師范大學(xué) 管理學(xué)院,北京 100875)

1 引言

人們很早就發(fā)現(xiàn),文學(xué)作品或者文集中的基本組成單元或元素并不是等概率出現(xiàn)的,少數(shù)的字和詞使用非常頻繁,而只出現(xiàn)一次的字和詞非常多。這種特定的統(tǒng)計分布形式具有非常強的普適性,存在于不同地區(qū)不同時期多種語言之中。這種統(tǒng)計研究除了在理論上討論語言的共性外,其結(jié)果也具有實際應(yīng)用價值,例如它可以應(yīng)用于語言信息的計算機化處理,包括文本的壓縮、輸入法的編碼等,以及目前比較流行的文本自動分析和處理,還可以用于語言學(xué)習(xí)材料的組織和其他方面,如小學(xué)課本中常用字詞的選取等。

語言的統(tǒng)計研究可以追溯到很久以前,古印度語法學(xué)家在研究《吠陀》時,就進行過單詞和音節(jié)數(shù)目的統(tǒng)計。1898年德國學(xué)者Kaeding編制了世界上第一部頻率詞典《德語頻率詞典》。1935年和1949年哈佛大學(xué)語言學(xué)家Zipf先后出版了兩本著作[1-2],提出了著名的Zipf規(guī)律(或齊夫定律)。他在總結(jié)前人統(tǒng)計發(fā)現(xiàn)的基礎(chǔ)上,指出在文集中詞的出現(xiàn)不是等概率的,它們滿足這樣的形式:p(r)=Cr-β,其中P(r)為排序在第r位置的詞出現(xiàn)的頻率,β為Zipf指數(shù),C為常數(shù)。后續(xù)一些研究發(fā)現(xiàn)西班牙語、法語、愛爾蘭語[3]、希臘語[4]、印度語[5]、土耳其語[6]均滿足這種分布特征,甚至現(xiàn)在已經(jīng)滅絕的語言也是如此[7]。隨著計算機技術(shù)的發(fā)展,對語料庫的統(tǒng)計工作變得非常簡單,這方面的研究工作變得更容易進行。

但對于漢語來說,這種基本元素的統(tǒng)計非常特殊。漢語具有兩個基本單元,一個是字(character或ideogram),另一個詞(word)。這兩方面的統(tǒng)計研究工作歷史上都有過一些,例如,1975—1976年,北京新華印刷廠等19個單位發(fā)動了1 500名中學(xué)生對出版物中的2 162萬字的材料進行統(tǒng)計,編成《漢字頻率表》;中國“七四八”工程查頻組首次利用計算機對漢字的頻度進行統(tǒng)計,得出《現(xiàn)代漢字綜合使用頻度表》;1990年,Zhao對統(tǒng)計結(jié)果嘗試進行了曲線擬合,發(fā)現(xiàn)字頻分布具有半指數(shù)半冪律特征[8];1999年,關(guān)毅等人以當(dāng)時Internet網(wǎng)上的中文字頻統(tǒng)計共享資源為對象進行統(tǒng)計,發(fā)現(xiàn)在現(xiàn)代漢語的字、詞、二元對等層次結(jié)構(gòu)上,同樣存在Zipf形式的頻度——頻級關(guān)系[9]。2003年,Ha等人討論了單個漢字和漢字多元對的分布,發(fā)現(xiàn)單個漢字不服從Zipf分布,而多元對的分布近似服從Zipf規(guī)律,這與英文多元對的分析情況是一致的[10]。

這些工作都是針對同一個時期的文字材料,缺乏對于字詞使用的動態(tài)分析。2005年,Wang Dahui等人首次發(fā)現(xiàn)字頻隨著歷史發(fā)展存在變化,他們對中國不同時代的文獻(xiàn)著作分別進行了分析[11],統(tǒng)計了甲骨文、青銅器上的銘刻、《詩經(jīng)》、《爾雅》、《毛澤東選集》、《亮劍》等文學(xué)作品中的漢字使用分布,發(fā)現(xiàn)漢字的使用分布在不同時代具有顯著差異,早期的中國文獻(xiàn)的字的頻數(shù)和排序關(guān)系是滿足Zipf分布的,而晚期(秦朝以后)的文獻(xiàn)并不滿足這個分布,而更多地表現(xiàn)出指數(shù)的特征。Da Jun的統(tǒng)計也發(fā)現(xiàn)現(xiàn)代漢語和古代漢語在字頻使用上存在差異[12]。那么,歷史上字頻是一次性突變還是經(jīng)歷了一個變化過程?這是一個有趣的問題。討論歷史上各個時期文字材料(本文選取自唐以來的各個歷史時期漢語文學(xué)作品)中字頻分布的精確性質(zhì)及其演變,可以為我們更加深入研究漢語言的演變提供重要依據(jù)。

2 語料庫

中國歷史上的很多時期有其代表性的文學(xué)樣式,其發(fā)展順序大致為: 詩經(jīng)→楚辭→先秦散文→漢賦樂府→魏晉駢文→唐詩→宋詞→元曲→明清小說。其中,唐詩、宋詞、元曲和明清小說是其中的杰出代表,留存也較為齊全。我們從互聯(lián)網(wǎng)(如天涯在線書庫http://www.tianyabook.com/等)上獲得了如下材料建立語料庫,如表1所示。

表1 統(tǒng)計材料說明

其中全唐詩共 900卷,收錄唐代和五代詩篇 48 900余首,作者2 200多人。全宋詞收集詞人1 300多人,詞作19 900余篇。明清小說文集我們選擇四大名著(即《三國演義》、《水滸》、《西游記》和《紅樓夢》)。網(wǎng)絡(luò)小說來源于互聯(lián)網(wǎng)寫手所創(chuàng)作的最新小說,我們從Google網(wǎng)絡(luò)小說排行榜(http://www.google.cn/rebang/)上隨機選取了2009年4月20日上榜的50篇中的10篇文章,如《長生界》、《壞蛋是怎樣煉成的》、《鬼吹燈》,其中一些小說還在連載中而沒有終稿。我們在統(tǒng)計字頻之前去除了文集中的所有標(biāo)點符號、阿拉伯?dāng)?shù)字和英文字母,只保留了漢字字符。

3 字頻的簡單統(tǒng)計

經(jīng)過簡單統(tǒng)計發(fā)現(xiàn),不同的字在同一個文集中出現(xiàn)的次數(shù)有很大差異,如全唐詩中 “花” 出現(xiàn) 11 356 次, “明” 出現(xiàn)6 818次,“話”出現(xiàn)518次,而“神”只出現(xiàn)了1次。此外,不同語料庫中同樣的字出現(xiàn)的絕對次數(shù)不一樣,如全唐詩中“不”字出現(xiàn) 26 502 次,而全宋詞中出現(xiàn)10 177次,在四大名著小說中共出現(xiàn)38 983次,它們的相對頻率也不同,如表2所示。

表2列出了我們所討論的5個文集中出現(xiàn)最多的20個字及其頻率,其頻率的值越大說明在文集中出現(xiàn)的次數(shù)越多。全唐詩中“日”的頻率為 0.005 75,意味著在唐詩文集中平均每174個字中會有一個“日”字。我們可以看出不同文集中出現(xiàn)最多的20個字不完全相同,但文集的對應(yīng)時期越近,列表中相同的字?jǐn)?shù)越多,且順序更一致。對所有5個文集來講,有5個字都在出現(xiàn)頻率最高的前20名內(nèi),它們是“不”、“一”、“來”、“人”和“有”。為定量衡量這個差異,我們使用Shlomo Havlin在1995年提出的計算兩個概率序列距離的公式。

表2 字頻統(tǒng)計

其中λ表示兩個序列i,j中都有的字,ri(λ)表示在序列i中的位置,N為λ的個數(shù),即兩個序列中包含的相同的字的個數(shù)。結(jié)果如表3所示,說明較近時期的文學(xué)作品對漢字的使用具有更大的相似性。元曲和明清小說的差別最小,而唐詩和現(xiàn)代網(wǎng)絡(luò)小說在漢字的使用習(xí)慣上差別最大。

表3 不同文集字頻序列的距離

4 字頻分布的性質(zhì)及擬合

在語言方面的研究工作中,常常將字頻或者詞頻按大小順序從左到右排列起來,橫軸為所在的位置序號,縱軸為這個字/詞出現(xiàn)的頻率。如圖1所示,圖中的曲線自上而下分別為全唐詩、全宋詞、全元曲、明清小說和網(wǎng)絡(luò)小說。采用的坐標(biāo)為縱軸為對數(shù)坐標(biāo),圖形右端類似直線,表現(xiàn)出很強的指數(shù)特征,即字頻的下降速度很快。圖形右上角的子圖為Zipf圖,即為雙對數(shù)坐標(biāo)。左端具有一定的線性規(guī)律,表示字頻具有一定的冪律特性。唐詩和宋詞冪律部分較為接近,宋詞和元曲在指數(shù)部分比較接近,即唐詩和宋詞在高頻詞的使用頻率上比較接近,而宋詞和元曲在低頻詞的使用頻率上更為相似,網(wǎng)絡(luò)小說的詞頻則呈現(xiàn)出兩個極端。

圖1 漢字字頻的Zipf圖形

圖2 唐詩和現(xiàn)代網(wǎng)絡(luò)小說文集的字頻擬合

我們用這個函數(shù)對實證數(shù)據(jù)進行擬合。為了減少擬合過程中對高端數(shù)據(jù)偏差帶來的懲罰效應(yīng),我們采用logP(r)=logA-ar-blogr使用Matlab中的nlinfit函數(shù)進行擬合,得到較好的擬合效果,如圖2所示,是我們對全唐詩文集和現(xiàn)代網(wǎng)絡(luò)小說文集中字頻統(tǒng)計的擬合結(jié)果。除了在高頻部分存在一定的偏差外,擬合曲線很好地符合了實證數(shù)據(jù)。

擬合過程得到的參數(shù)估計如表4所列。

表4 字頻擬合的參數(shù)結(jié)果

以上參數(shù)中,a描述的是指數(shù)特性,而b描述的是冪律特性。整體看,隨著歷史的發(fā)展,漢語文學(xué)作品中字的使用頻率的衰減指數(shù)特性增強,冪律特性減弱。唐詩、宋詞、元曲具有更大的相似性。

5 結(jié)論

本文討論了自唐代以來各個歷史時期文學(xué)作品中漢字的使用情況。自秦始皇統(tǒng)一中國的文字以來,漢字的書寫方式和種類相對固定。討論漢字使用習(xí)慣的演變是一個很有意義的事情,可以幫助我們深入了解漢語言的變遷,并對將來漢字的發(fā)展情況做出預(yù)期。我們的討論結(jié)果表明,漢字的使用在不同歷史時期存在差異,相近的歷史時期漢字的使用習(xí)慣更具有一致性,并且冪律特性逐步減弱而指數(shù)特性逐漸增強。這個原因可能是因為在歷史早期,人們往往用一個漢字(即單音節(jié)詞)來表達(dá)意思,而隨著歷史的發(fā)展,人們更多采用多音節(jié)詞來表達(dá)意思。具體如何造成指數(shù)特性增強而冪律特性減弱還需要進一步討論。

[1] Zipf G K. The Psycho-Biology of Language[M]. Boston:Houghton Mifflin, 1935.

[2] Zipf G K. Human Behavior and the Principal of Least Effort[M]. Cambridge :Addison-Wesley,MA,1949.

[3] Ha L Q, Stewart D, Hanna P. Zipf and Type-Token rules for the English, Spanish, Irish and Latin languages[J]. Web Journal of Formal Computational & Cognitive Linguistics, 2006, http://fccl.ksu.ru/issue8/ha_fccl_zipf.pdf.

[4] Hatzigeorgiu N, Mikros G, Carayannis G. Word length, word frequencies and Zipf’s law in the Greek language[J]. Journal of Quantitative Linguistics,2001,8(3):175-185.

[5] Jayaram B D, Vidya M N. Zipf’s law for Indian languages [J]. Journal of Quantitative Linguistics, 2008,15(4): 293-317.

[7] Smith R D. Investigation of the Zipf-plot of the extinct Meroitic language[J]. Glottometrics, 2007, 15:53-61 .

[8] Zhao Kaihua. Physics nomenclature in China[J]. American Journal of Physics 58(5) (May 1990) 449-452.

[9] 關(guān)毅,王曉龍,張凱.現(xiàn)代漢語計算語言模型中語言單位的頻度一頻級關(guān)系[J].中文信息學(xué)報,1999,13(2):8-15.

[10] Ha L Q, Sicilia-Garcia E I, Ji Ming. Extension of Zipf’s law to words and character N-gram for English and Chinese[J]. Computational Linguistics and Chinese Language Processing, 2003,8(1):77-101.

[11] Wang Dahui, Li Menghui, Di Zengru. True reason for Zipf’s law in language[J]. Physica A, 2005, 358(2-4):545-550.

[12] Da Jun. A corpus-based study of character and bigram frequencies in Chinese e-texts and its implications for Chinese language instruction. In Zhang, Pu, Tianwei Xie and Juan Xu. (eds.). The studies on the theory and methodology of the digitalized Chinese teaching to foreigners[C]//Proceedings of the Fourth International Conference on New Technologies in Teaching and Learning Chinese: 501-511. Beijing: Tsinghua University Press.

猜你喜歡
冪律元曲網(wǎng)絡(luò)小說
品讀元曲
品讀元曲
品讀元曲
品讀元曲
大數(shù)據(jù)時代下冪律分布在醫(yī)學(xué)領(lǐng)域中的應(yīng)用價值
網(wǎng)絡(luò)小說標(biāo)桿作品2019
基于冪律分布的房地產(chǎn)泡沫破裂風(fēng)險預(yù)警研究
當(dāng)網(wǎng)絡(luò)小說逆襲之后……
冪律流底泥的質(zhì)量輸移和流場
50 SHADES OF ONLINE LIT