周芷羽
摘 ? ?要: 本文對統(tǒng)計方法在漢語詞匯研究中的應用現(xiàn)狀進行了概述,并對其在應用中的得失做出了分析與評價。本文認為,統(tǒng)計方法在詞匯研究中的重要性主要體現(xiàn)在三個方面:為所得研究結論的普遍性和客觀性提供了更有力的保障;能夠實現(xiàn)對語言規(guī)律更縝密、準確、深刻的認識;對于詞匯系統(tǒng)的共時研究和歷時研究具有特殊的必要性。其主要局限性則體現(xiàn)為:無法完全排除科研主體的主觀因素;簡約化的數(shù)字結果可能會掩蓋某些復雜曲折的現(xiàn)實情況。
關鍵詞: 漢語詞匯研究 ? ?統(tǒng)計方法 ? ?定量研究
統(tǒng)計學是關于從大量現(xiàn)象中抽取量的特征的科學理論[1]99,統(tǒng)計方法則是運用統(tǒng)計學原理,對反映某種客觀現(xiàn)象的數(shù)據(jù)資料進行搜集、整理、計算、描述、推斷等綜合處理,以揭示事物內在規(guī)律的方法[2]234。描述性統(tǒng)計和推斷性統(tǒng)計是統(tǒng)計方法的兩個基本組成部分,描述性統(tǒng)計是通過計算比例數(shù)、平均數(shù)、標準差、相關系數(shù)等統(tǒng)計量對數(shù)據(jù)進行歸納和描寫的方法;而推斷性統(tǒng)計則是以概率論為依據(jù),在描述性統(tǒng)計的基礎上通過對樣本資料的分析推斷統(tǒng)計總體數(shù)量特征的方法,其基本內容包括參數(shù)估計和假設檢驗[3]12-13。
統(tǒng)計學的產生起源于對社會經濟現(xiàn)象的研究,發(fā)展至今已在自然科學和社會科學的研究中得到了更廣泛的應用[4]3-4。那么,在語言研究中使用統(tǒng)計方法,是否有其可行性?語言現(xiàn)象所客觀具有的數(shù)量形式表現(xiàn)、近年來統(tǒng)計方法在語言研究中的廣泛應用及其優(yōu)勢的有效發(fā)揮,對這一問題作出了肯定回答。
一、統(tǒng)計方法在漢語詞匯研究中的應用
統(tǒng)計方法如何應用于漢語詞匯研究?要言之,即選取具有一定容量的語料作為樣本,對其中處于隨機狀態(tài)的某種詞匯現(xiàn)象進行搜集、整理等預處理,并最終通過量化分析得出其數(shù)量形式或數(shù)量關系,并據(jù)以揭示該數(shù)量特征之后的本質和規(guī)律。
在傳統(tǒng)小學研究中,“單文孤證為考據(jù)家之所不取,然則考據(jù)家必文多而證廣也。如此必將文之同義者,搜集以為證,已略含有統(tǒng)計之意義”[5]357。但這僅止于對例證的搜集,而沒有對數(shù)據(jù)資料的計算和量化形式的呈現(xiàn),還稱不上統(tǒng)計。
顧炎武分別對《論語》、《大學》、《檀弓》中“斯”“此”的使用次數(shù)進行了計算,以“語言輕重之間”求其“世代之別”[6]349;阮元也曾在探討《論語》中“仁”字意義時示以“仁字之見于論語凡百有五”的統(tǒng)計數(shù)據(jù)[7]176:這些已經可以說是統(tǒng)計方法在漢語詞匯研究中的初步應用,但這種應用只是出于偶然的需要,而非對科學方法的有意識的運用,其使用不成系統(tǒng),也未能普遍貫徹。
直到五四運動后,西方語言學理論和研究方法開始大量引入中國[8]478,漢語研究中才開始出現(xiàn)對統(tǒng)計方法的自覺運用。1922年,黎錦熙所撰《國語中基本語詞的統(tǒng)計研究》一文,首次對統(tǒng)計方法在詞匯研究中的應用問題進行了探討[9]1-4。
統(tǒng)計方法在詞匯研究中的廣泛應用,則以20世紀80年代專書研究的興起為開端[10]。如張雙棣所著《呂氏春秋詞匯研究》,全面貫徹了定量分析的原則,對《呂氏春秋》中各類語詞的數(shù)量及比重、同一語詞其不同義位所出現(xiàn)的次數(shù)等詞匯諸方面的數(shù)量表現(xiàn)及數(shù)量關系,均進行了嚴格的統(tǒng)計,以求準確描繪該專書詞匯的全貌及其內部結構規(guī)律[11]13-14。
20世紀90年代至今,計算機技術的普及和語料庫建設的興起,為統(tǒng)計方法在語言研究中的應用提供了有力的技術支持,同時統(tǒng)計方法本身的應用水平也得到了提高,漢語詞匯的統(tǒng)計研究取得了良好進展:早期的統(tǒng)計實踐多局限于對詞匯現(xiàn)象頻數(shù)和頻率的計算,而這一時期的統(tǒng)計研究已提出了“流通量”和“分布率”的概念[12]6。
二、漢語詞匯研究中統(tǒng)計方法的必要性和優(yōu)越性
“一種科學只有在成功地運用數(shù)學時,才算達到了真正完善的地步”[13]8。定量方法的運用,是科學研究追求精密性和客觀性的必然要求;可以說,統(tǒng)計方法的應用對于漢語詞匯研究,具有相當?shù)谋匾院椭匾浴?/p>
1.統(tǒng)計方法為所得研究結論的普遍性和客觀性提供了更為有力的保障:傳統(tǒng)研究方法多依賴于研究者個人的經驗與感悟,雖然也可能取得正確的認識,但畢竟個人經驗有限而語言現(xiàn)象無窮,少數(shù)例證不足以總結出普遍規(guī)律,且這樣的研究結論難免受到個人主觀成見的影響;統(tǒng)計方法作為一種定量研究手段,以大量客觀現(xiàn)實為依據(jù),在一定范圍內有可能對特定語言現(xiàn)象進行窮盡性的分析,因而在更大程度上保證了研究結論的普遍性和科學性。比如,王力先生認為從殷代到西周,“朕”只限用于領格;而唐鈺明則通過對殷周甲金文的窮盡性統(tǒng)計分析指出,“朕”其實還有作主格甚至賓格的用例[14]109。
2.僅僅從質的規(guī)定性方面了解語言現(xiàn)象是不夠的,只有準確把握其數(shù)量界限,才能夠實現(xiàn)對語言規(guī)律的認識的深刻化和精確化。統(tǒng)計方法的運用能夠實現(xiàn)對語言規(guī)律的更為縝密、準確、深刻的認識,這不但有助于克服定性描述中出現(xiàn)的含混模糊的情況,促進漢語研究的科學化、精密化,而且有利于培養(yǎng)嚴謹求實的數(shù)字化學術思維。比如,先秦漢語詞匯以單音詞為主是眾所周知的常識,但這只是一個籠統(tǒng)的定性描述,其具體情況如何,單音詞與復音詞兩者的數(shù)量關系如何,都需要更深入的了解。馬真對先秦八部著作進行了考察,統(tǒng)計得到復音詞2772個,并估計單音詞數(shù)量為一萬,則先秦復音詞與雙音詞數(shù)量之比將近3∶10[15]80。這一數(shù)據(jù)雖然還不是非常精確,但較之“單音詞為主”的含混表述與模糊印象,這一結論顯然更清晰、細致、深刻。
3.統(tǒng)計方法的應用對于詞匯系統(tǒng)的共時研究和歷時研究,有其特殊的必要性和重要性。傳統(tǒng)的訓詁研究以零碎的語詞為主要研究對象,多著眼于對具體詞義的考釋;現(xiàn)代詞匯學更加重視對詞匯整體系統(tǒng)性的研究,而整個詞匯數(shù)量之龐雜及其系統(tǒng)內部結構關系之薄弱又造成了詞匯系統(tǒng)研究的特殊困難。統(tǒng)計方法是處理分析大量語料的有效手段,只有借助統(tǒng)計方法,才能揭示整個詞匯各個方面的數(shù)量特征,從而為詞匯系統(tǒng)的斷代描寫奠定基礎。脫離了統(tǒng)計方法,對共時詞匯系統(tǒng)全貌的宏觀把握是難以實現(xiàn)的。在共時描寫的基礎之上,統(tǒng)計方法也為詞匯系統(tǒng)歷時演變的描寫提供了可能。張雙棣曾指出:“如果我們將某一時代的著作一部一部地都這樣做過窮盡性的統(tǒng)計分析,綜合起來,這一時代的詞匯語義的面貌就可以完整地、清晰地勾勒出來了。如果進而將每個時代的情況貫穿起來,理清發(fā)展脈絡,就可以對整個漢語詞匯語義發(fā)展的歷史有一個全面而完整的認識了?!盵11]14
除此之外,統(tǒng)計方法以下兩個方面特征,對于增強研究結論的可靠性和說服力具有獨特的優(yōu)越性。
1.在科學研究中應用統(tǒng)計方法,具有可觸摸性的特征[16]311。統(tǒng)計方法從客觀材料中獲取數(shù)據(jù),統(tǒng)計結果以頻數(shù)、頻率等數(shù)據(jù)呈現(xiàn),所得量化形式有形可感,一目了然,能夠更直觀地揭示規(guī)律;實在的數(shù)據(jù)使得研究結論有據(jù)可憑,可以避免泛泛而談,做到言之有據(jù)[11]13。
2.應用統(tǒng)計方法進行的研究,具有可重復性。只要提供相同的條件,就可進行重復操作,對既有結論進行驗證。可重復性是一個衡量研究質量高低的尺度[16]311;一項研究結論,如果不能接受實踐的再次檢驗,那么其可信度就是值得懷疑的。
三、統(tǒng)計方法的局限性及其在應用中須注意的問題
統(tǒng)計方法雖具有明顯的優(yōu)勢,但也有其局限性:
1.任何科學研究的進行和研究手段的應用,都無法完全排除人作為科研主體所必將造成的主觀因素的存在,統(tǒng)計方法也不能例外。比如,許多學者對先秦重要文獻中的雙音詞數(shù)量及其所占總詞數(shù)比例做了統(tǒng)計,但對同一部著作的統(tǒng)計結果有不小的差異:據(jù)馬真統(tǒng)計,《論語》中復音詞數(shù)為159個[15]79,向熹的統(tǒng)計則是200多個[17]393;陳克炯統(tǒng)計《左傳》復音詞占總詞數(shù)比重為20.7%,但據(jù)黃志強在其碩士論文中劃定的《左傳》復音詞數(shù),其比重幾達總詞數(shù)的30%(轉引自徐流《論同義復詞》)[18]17。對同一材料進行若干次分別統(tǒng)計,所得結果按理應當大致相同;之所以出現(xiàn)如此明顯的差距,是不同的研究者對雙音詞的認識和理解有所差異,自然造成劃定標準的不同。
這一問題的產生,固然可歸因于不同研究主體主觀因素的影響,因此與詞匯學現(xiàn)有理論水平的限制直接相關:目前,學界對于古代漢語中雙音詞的判定尚無有效可行的統(tǒng)一標準??梢?,統(tǒng)計方法在詞匯研究中的應用,必須依靠正確理論的指導;研究方法的應用要充分發(fā)揮應有效用,亦有賴于理論本身的發(fā)展與進步。
2.統(tǒng)計方法具有可簡約化性的特點,能夠將錯綜復雜的社會現(xiàn)象簡化為直觀、單純的數(shù)據(jù)形式[16]311。然而,簡約化的數(shù)字可能會掩蓋某些復雜曲折的現(xiàn)實情況。比如,隨著詞匯統(tǒng)計的深入開展,發(fā)現(xiàn)單純將頻次作為衡量標準具有較強的片面性,因為有些詞雖然出現(xiàn)較多,但分布極不均勻;在此基礎上,提出了“分布率”和“使用度”等統(tǒng)計概念[19]67。因此,要獲得科學的結論,要求研究者結合背景資料,對統(tǒng)計結果進行全面的了解和深入的審察,避免被表面的數(shù)據(jù)所蒙蔽,并強調多層次、多角度的統(tǒng)計方法的綜合利用,以求全面準確地揭示語言現(xiàn)象的本質和規(guī)律。
另外,語言研究雖有統(tǒng)計方法這一有力工具,但其效用的充分發(fā)揮則有賴于研究者的正確掌握和運用;一旦使用不當,則不但其優(yōu)勢得不到發(fā)揮,反而將得出錯誤的結論,對語言研究的科學性造成損害。因此,在詞匯研究中應用統(tǒng)計方法,應當注意如下問題:
1.統(tǒng)計方法的成功運用,必須具備一定的前提條件,首先即是對樣本的要求:樣本容量必須足夠大,才足以通過其數(shù)量特征得到傾向性規(guī)律的反映;反之,如果樣本容量沒有達到一定的要求,難以縮小相對誤差,那么所得到的統(tǒng)計結果就缺乏普遍性。除此之外,確保樣本的質量也至關重要。統(tǒng)計資料的完整、準確、真實是得到客觀的統(tǒng)計結果的重要前提,對于原始統(tǒng)計材料,必須進行去粗取精、去偽存真的甄別整理工作。例如,要進行古代漢語專書詞匯的統(tǒng)計研究,必須考察文獻的不同版本,擇善補正并加以校訂,得到可靠的語料,方可進行進一步的統(tǒng)計工作。其次,對于統(tǒng)計對象應有明確的認識和把握,進行統(tǒng)計時,須對統(tǒng)計對象進行辨別,對不合統(tǒng)計目的者予以剔除[20]164。
2.定量分析是定性研究的基礎,定量是為定性服務的;統(tǒng)計本身不是目的,而是進行研究的工具和手段。割裂定量分析和定性研究的統(tǒng)一關系,為定量而定量,盲目濫用統(tǒng)計方法以迎合時勢或炫耀技巧的做法是不可取的。研究者對于統(tǒng)計學原理應當有透徹的理解,對所得統(tǒng)計結果在統(tǒng)計學上的意義有充分認識,并據(jù)此對其后所隱藏的語言規(guī)律進行探求和揭示;否則,僅有數(shù)據(jù)的羅列和材料的堆砌,而缺乏理論的深入挖掘,那么語言現(xiàn)象的本質將無從揭示,統(tǒng)計方法的使用將喪失意義。
四、現(xiàn)狀與展望
雖然當前統(tǒng)計方法的應用在詞匯研究中已經得到了普遍認可和更大規(guī)模的實踐,但是從其應用現(xiàn)狀看,目前對詞匯的計量研究其實際水平并不高;除了統(tǒng)計方法應用水平相對較高的方言詞匯和語料庫領域已分別開始使用“相關系數(shù)”方法和“流通量”、“分布率”的統(tǒng)計概念外,其他詞匯研究領域對統(tǒng)計方法的應用仍停留在初步的描述性統(tǒng)計階段:其統(tǒng)計分析多僅限于對詞匯現(xiàn)象出現(xiàn)次數(shù)的絕對數(shù)量(如頻數(shù))和相對數(shù)量(如頻率)的統(tǒng)計,所使用的統(tǒng)計方法無外乎初等數(shù)學中的簡單算術。正如蘇新春所言,當前的詞匯計量研究“仍較多地停留在一次性的直觀統(tǒng)計,較少進行多層面、多角度的數(shù)的分析,也很少使用復雜的數(shù)學公式來進行數(shù)值之間相關度、聚類分析等分析”[12]8??梢姡瑵h語詞匯統(tǒng)計研究還有待進一步深入和開拓。
定量方法的使用,是社會科學從描述科學向精密科學過渡的必然要求[1]97;在此背景下,對統(tǒng)計方法應用水平的提高當予以更高重視,使其在語言研究中的優(yōu)勢得到更充分的發(fā)揮。
參考文獻:
[1]宋健.社會科學研究的定量方法[J].中國社會科學,1982(6):97-105.
[2]歐陽康,張明倉.社會科學研究方法[M].北京:高等教育出版社,2001.
[3]張倫俊.社會統(tǒng)計方法[M].合肥:中國科學技術大學出版社,1988.
[4]徐浪,王青華.描述統(tǒng)計學[M].成都:西南財經大學出版社,2001.
[5]胡樸安.中國訓詁學史[M].北京:商務印書館,1939.
[6]顧炎武.日知錄集釋(校注本)[M].浙江:浙江古籍出版社,2013.
[7]阮元.揅經室集[M].北京:中華書局,1993.
[8]濮之珍.中國語言學史[M].上海:上海古籍出版社,2002.
[9]黎錦熙.國語中基本語詞的統(tǒng)計研究[J].國文學會叢刊,1922,1(1):1-4.
[10]蘇新春.漢語詞匯定量研究的運用及其特點——兼談《語言學方法論》的定量研究觀[J].廈門大學學報(哲學社會科學版),2001,(4):135-142.
[11]張雙棣.《呂氏春秋》詞匯研究(修訂本)[M].北京:商務印書館,2008.
[12]蘇新春.漢語詞匯計量研究[M].北京:商務印書館,2008.
[13][法]拉法格,[德]李卜克內西.憶馬克思恩格斯[M].北京:生活·讀書·新知三聯(lián)書店,1963.
[14]唐鈺明.定量方法與古文字資料的詞匯語法研究[J].海南師范學院學報,1991(4):106-109.
[15]馬真.先秦復音詞初探[J].北京大學學報(哲學社會科學版),1981(3):76-84.
[16]桂詩春,寧春巖.語言學方法論[M].北京:外語教學與研究出版社,1997.
[17]向熹.簡明漢語史(上)[M].北京:商務印書館,2010.
[18]徐流.論同義復詞[J].古漢語研究,1990(4):12-17.
[19]劉云.漢語詞匯統(tǒng)計研究述評[J].漢語學習,2009,2(1):62-69.
[20]程俊英,梁永昌.應用訓詁學[M].上海:華東師范大學出版社,2008.