劉 云
(華中師范大學(xué)文學(xué)院,湖北武漢,430079)
漢語特征詞研究的緣起、意義和方法
劉 云
(華中師范大學(xué)文學(xué)院,湖北武漢,430079)
特征詞指能夠反映文本特征、分布差異較大的詞語。特征詞的研究緣于以下四個方面:信息論中關(guān)于熵的研究,情報學(xué)中關(guān)于反文獻頻率的研究,語料庫統(tǒng)計中各種詞表的建立,語言學(xué)研究中的方言特征詞研究。特征詞的研究具有較大的理論意義和現(xiàn)實意義,一個可行的研究方法是以國家語委通用語料庫為對象來考察時代特征詞和語體特征詞。
特征詞 語料庫 詞語分布
所謂特征詞,是指能夠反映文本特征、分布差異較大的詞語。由于詞匯統(tǒng)計對語言研究、語言教學(xué)、詞典編撰、信息處理等有較大的實用價值,世界上幾種主要語言如英語、法語、俄語、西班牙語、日語、德語等都進行過較大規(guī)模的詞匯統(tǒng)計研究,已有統(tǒng)計項目涉及字節(jié)數(shù)、形符數(shù)、類符數(shù)、類符形符比、平均詞長、句子數(shù)、平均句長、段落數(shù)、平均段落長,等等。漢語的詞匯統(tǒng)計主要通過“頻率”“分布率”“覆蓋率”等統(tǒng)計項來建立詞頻詞典和常用詞表,這種統(tǒng)計是把語料庫作為一個整體進行統(tǒng)計;漢語特征詞的統(tǒng)計與分析試圖把通用語料庫按時間、領(lǐng)域等分為子語料庫分別進行統(tǒng)計,然后通過比較得出特征詞,這種統(tǒng)計是把語料庫分解為子語料庫進行統(tǒng)計。特征詞的統(tǒng)計需要一個高質(zhì)量的平衡語料庫,國家語委現(xiàn)代漢語通用語料庫(以下簡稱“通用語料庫”)是國家語委精心打造的國家級平衡語料庫,主要服務(wù)于語言文字的信息處理、語言文字規(guī)范標準的制訂、語言文字的學(xué)術(shù)研究、語文教學(xué)和語言文字的社會應(yīng)用等方面。本文的統(tǒng)計對象就是國家語委現(xiàn)代漢語通用語料庫。
漢語特征詞的統(tǒng)計與分析的對象是通用語料庫中那些分布上的特征詞。在日常的語言使用中,我們時常會發(fā)現(xiàn)有這樣一種現(xiàn)象:有些常用的特高頻詞(如“的”“了”“不”“在”“是”等)在不同領(lǐng)域(如“政治”“經(jīng)濟”“科技”“文化”等)和不同時期(如“解放前”“‘文革’期間”“改革開放后”等)的文檔中出現(xiàn)的頻率差別不大,也就是說,這些特高頻詞在不同領(lǐng)域和不同時期的文檔中分布得比較均勻。同時,也有一些詞語(如“跑道”“蛙泳”“裸絞”“預(yù)蹲”“疊兵”等)在某些特定類別(如“體育”)的文檔中出現(xiàn)的頻率會高于它們在其他類別文檔(如“經(jīng)濟”“科技”“文化”等)的頻率。這說明有些詞語在區(qū)分文檔類別方面的能力較強,這些分布上差異大的詞就是需要研究的特征詞。漢語特征詞研究的內(nèi)容主要有兩大部分:一是利用數(shù)理統(tǒng)計的方法,把通用語料庫中的年代特征詞和語體特征詞抽取出來并建立特征詞表,同時,設(shè)計一些簡單實用、易操作的語料庫統(tǒng)計工具;二是結(jié)合時代文化背景和語體特征對這些特征詞進行分析。語言與社會有著密不可分的關(guān)系,從語言與社會、語言與文化的角度分析年代特征詞和語體特征詞,例如不同時期、不同語體的人名、地名和機構(gòu)名等特征詞反映的社會文化意義。
(一) 特征詞研究的緣起
漢語特征詞的統(tǒng)計與分析緣于以下四個方面:信息論中關(guān)于熵的研究,情報學(xué)中關(guān)于反文獻頻率的研究,語料庫統(tǒng)計中各種詞表的建立,語言學(xué)研究中的方言特征詞研究。
(1) 信息論中關(guān)于熵的研究。1850年,德國物理學(xué)家魯?shù)婪颉た藙谛匏故状翁岢鲮氐母拍?,用來表示任何一種能量在空間中分布的均勻程度,能量分布得越均勻,熵就越大。1948年,美國數(shù)學(xué)家香農(nóng)(Claude E.Shanon)在BellSystemTechnicalJournal上發(fā)表了《通信的數(shù)學(xué)原理》(AMathematicalTheoryofCommunication)一文,將熵的概念引入信息論中。在信息論中,熵表示的是不確定性的量度。從信息論的角度看來,用自然語言交際的過程,就是從語言的發(fā)送者通過通訊媒介,傳輸?shù)秸Z言的接收者的過程,因此,也可以測定語言的熵。語言的熵就是在交際過程中語言符號出現(xiàn)的不定度,不定度的大小與語言的熵的高低一致。當語言的接收者接收到語言符號之后,不定度被消除,熵等于零,因而在交際過程中,語言接收者所得到的信息量恰恰等于被消除的熵[1]。特征詞在不同的文本中分布差異較大,不確定性比非特征詞要大,因此,特征詞尤其值得關(guān)注。
(2) 情報學(xué)中關(guān)于反文獻頻率的研究。1972年,Spark Jones提出計算文獻頻率有助于計算詞權(quán)重,從此反文獻頻率(Inverse Document Frequency,簡稱IDF)公式在信息檢索中占據(jù)重要地位,是信息檢索中計算詞與文獻的相關(guān)權(quán)重的經(jīng)典計算方法,它不僅可以用于計算關(guān)鍵字檢索中關(guān)鍵字與相關(guān)文獻的相關(guān)權(quán)重,而且可以用于計算文獻自動分類中主題詞與相關(guān)文獻的相關(guān)權(quán)重。IDF基于這樣一個假設(shè):稀有詞比常用詞包含更新的信息。構(gòu)成文本的詞的數(shù)據(jù)量是相當大的,因此在進行文本特征抽取時,如果把所有的詞都作為文本特征,計算量會非常大,而且不同的詞對文本分類的貢獻差別很大,因此在文本分類時優(yōu)先選擇的是更有效的特征詞語,這些特征詞語選擇的標準就是要最大限度地區(qū)分不同的文檔,其特征選擇的依據(jù)就是詞語在文章中的權(quán)重,包括該詞語在文本中出現(xiàn)的頻率和該詞語在文本集合中的分布情況。在反文獻頻率的研究中,特征詞占有重要地位。
(3) 語料庫統(tǒng)計中各種詞表的建立。隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,學(xué)界為了服務(wù)于語言研究、語文教學(xué)、中文信息處理和辭書編纂等工作,建立了一大批語料庫。隨著研究和統(tǒng)計手段的提高,先后建立了十多個有影響的詞表。這些詞表對語言研究、語文教學(xué)、中文信息處理和辭書編纂等工作起到了極大的推動作用,仔細觀察這些詞表可以發(fā)現(xiàn),各個詞表的規(guī)模、性質(zhì)、作用與目的各不相同,對統(tǒng)計項的選擇也不相同。所憑借的統(tǒng)計項不一樣導(dǎo)致部分詞語有的詞表收了有的詞表沒有收,其中就有一些特征詞。對特征詞的進一步深入研究,還可以反觀這些詞表的優(yōu)劣。
(4) 語言學(xué)中方言特征詞的研究。方言特征詞是不同方言詞匯之間的區(qū)別特征,是表現(xiàn)該方言詞匯特征的最重要的方言詞。李如龍編《漢語方言特征詞研究》共收錄12篇研究特征詞的文章,它們從內(nèi)部和外部分別研究了官話方言、山東方言、晉語、北部吳語、徽語、贛語、客家方言、閩方言、閩東方言、粵語、雷瓊閩語等方言的特征詞。李如龍先生把“方言特征詞”界定為:方言特征詞是一定地域里一定批量的、區(qū)內(nèi)大體一致、區(qū)外相對殊異的方言詞[2]。此外,辛世彪《關(guān)中方言特征詞概說》(錢曾怡、李行杰主編《首屆官話方言國際學(xué)術(shù)討論會論文集》,青島出版社,1997年)、張振興《閩語特征詞舉例》(《漢語學(xué)報》2004年第1期)等也都對方言特征詞進行了探討。方言特征詞從某種意義上說是詞匯在地域上的分布特點,如果探討詞匯在年代和語體上的分布特點,相應(yīng)的也會有年代特征詞和語體特征詞[3]。
(二) 特征詞研究的意義
漢語特征詞的統(tǒng)計與分析是一個值得下大力氣認真研究的課題,具有較大的理論意義和現(xiàn)實意義。
(1) 推進語料庫語言學(xué)的研究。近年來語料庫語言學(xué)得到了迅猛發(fā)展,在多個領(lǐng)域取得了豐碩的成果。語料庫語言學(xué)是語言研究中的一種重要方法,通過對語言的結(jié)構(gòu)、分布、使用、變遷等要素進行數(shù)量分析來揭示語言的狀態(tài)、性質(zhì)和特點。特征詞的統(tǒng)計與分析試圖深入語料庫的內(nèi)部,通過比較各子語料庫詞匯的頻率差、頻率比、頻序比、獨用詞、出現(xiàn)文本數(shù)等得出特征詞;反過來,通過子語料庫的頻差分析、相似性對比分析和信息熵計算等來考察通用語料庫的建設(shè)質(zhì)量,進而反思語料庫的建設(shè)。
(2) 推進計量詞匯學(xué)的研究。判斷成詞與否一般有三個標準:結(jié)構(gòu)、意義和音節(jié),除此之外還有頻率標準[4]。特征詞的研究表明頻率標準不能僅以頻率高低為依據(jù),還要結(jié)合分布率,因為頻率高不一定分布率高,頻率的高低只是在整個語料庫中的總體表現(xiàn),而分布率則需綜合考察詞匯在子語料庫中的表現(xiàn)。目前的語言研究主要還是定性研究,科學(xué)研究的方法除了定性研究的方法外,還有一種是定量方法。定量方法運用數(shù)學(xué)方法對客觀事物及其現(xiàn)象進行測量,并通過獲得的數(shù)據(jù)對事物的屬性進行研究,從而從本質(zhì)上把握該事物。對漢語詞語的研究是否也能進行計量研究,以及從何種角度進行研究,是值得嘗試的課題。
(3) 推進社會語言學(xué)的研究。通過比較各子語料庫詞匯的頻率差、頻率比、頻序比,可以得出年代特征詞和語體特征詞,進而結(jié)合時代背景和語體風格考察這些特征詞反映的時代特征和語體特征。通過特征詞的考察,可以把語言中的詞匯同社會、文化等背景結(jié)合起來進行研究。
(4) 推進中文信息處理研究。特征詞研究使用的統(tǒng)計方法可以用于文本數(shù)據(jù)挖掘、文本自動分類、自動文摘、全文檢索等。以領(lǐng)域特征詞為例,領(lǐng)域特征詞的獲取是基于內(nèi)容的文本處理中的基礎(chǔ)關(guān)鍵技術(shù),文本分類和主題分析等需要龐大的領(lǐng)域詞表支撐,在信息抽取和信息檢索中抽取和檢索的對象很大程度上也依賴于領(lǐng)域特征。中文信息處理迫切需要在特征詞的提取上取得突破性的進展,要求特征詞能夠確實標識文本的特征內(nèi)容,具有將目標文本與其他文本相區(qū)分的能力,而且特征詞的分離要比較容易實現(xiàn)。
(一) 基本思路
就基本思路而言,特征詞的研究可以采用間接式和直接式兩種方式。間接式是以已有的詞語研究為基礎(chǔ),例如《現(xiàn)代漢語詞典》從1965年的試用本迄今已有近半個世紀,也先后出版了多個版本,由于不同版本的收詞都有一些變化,有增詞也有減詞,正好可以用來研究各個不同時期的特征詞。這種方法的優(yōu)點是工作量比較小,但間接式的特征詞研究最大的問題在于其研究不是基于真實語言生活,是建立在研究基礎(chǔ)之上的研究,難免會有較大的誤差;而且,《現(xiàn)代漢語詞典》沒有給每個詞標注語體,這樣就沒辦法考察語體特征詞。直接式的特征詞研究是以真實的語言生活為材料,考察各個階段和各個領(lǐng)域的特征詞,這種方法最大的優(yōu)點是盡可能地接近真實的語言生活,缺點是工作量較大,考慮到計算機的強大處理能力,這種方法還是值得嘗試的。因此,漢語特征詞的統(tǒng)計與分析以國家語委通用語料庫為對象來考察時代特征詞和語體特征詞。
首先按照不同的分類方式把整個通用語料庫分為若干子語料庫。三種分類方式為:(1)以“大事件”為節(jié)點的社會階段分期,即以“建國”、“改革開放”為節(jié)點劃分為三個子語料庫:1919—1949年、1950—1978年、1979—2000年;(2)以“十個自然年”為節(jié)點的時間分期。即:以10個自然年為節(jié)點,劃為六個階段:1919—1949年、1950—1959年、1960—1969年、1970—1979年、1980—1989年、1990—2000年;(3)以語體劃分,即按通用語料庫的一級分類劃分為四個子語料庫:報紙、人文社會科學(xué)、自然科學(xué)和綜合類。
再次,給這三種統(tǒng)計量設(shè)定一個閾值,把待篩選的特征詞自動抽取出來。綜合頻率差、頻率比和頻序比三種統(tǒng)計量抽出的待篩選特征詞,出現(xiàn)三次的可以確認為特征詞,出現(xiàn)兩次的可以基本確認為特征詞,出現(xiàn)一次的則需考慮統(tǒng)計量的具體數(shù)值,必要時進行人工篩選。
最后,結(jié)合社會文化背景和語體特征分析這些特征詞,包括言語詞和語言詞。
(二) 具體方法
具體研究方法擬采取先易后難、先試驗后全面展開的方法。以年代為例,比較而言,新中國成立前子語料庫與改革開放后子語料庫語言差異要大一些,容易提取特征詞,所以先比較這兩個子語料庫;而兩者與新中國成立到改革開放之間的子語料庫的差異要小一些,放在后面比較。在進行全面統(tǒng)計之前,先抽取一定數(shù)量的樣本進行試驗,以比較各種統(tǒng)計量之間的優(yōu)劣,初步試驗表明頻率差、頻率比、頻序比各有所長,頻率差的優(yōu)點是直接了然,缺點是對高頻詞容易誤判;頻率比的優(yōu)點是準確率高,缺點是有些低頻詞的比值差異相當細微難以發(fā)現(xiàn);頻序比的優(yōu)點是準確率高,缺點是由于各子語料庫詞語總數(shù)不同導(dǎo)致少數(shù)低頻詞的可比性低。因此,特征詞的統(tǒng)計綜合考慮頻率差、頻率比、頻序比這三個統(tǒng)計量,試圖抽出一個盡可能完整的待篩選特征詞表,最后結(jié)合時代文化背景和語體特征分析這些特征詞。
主要使用定量分析方法和結(jié)合社會文化的方法。所謂定量分析方法,就是“將處于隨機狀態(tài)的某種語言現(xiàn)象給予一定的數(shù)量統(tǒng)計,然后通過頻率、頻度、頻度鏈等量化形式來揭示這類隨機現(xiàn)象背后所隱藏的規(guī)律性”,也就是借鑒自然科學(xué)的方法,用統(tǒng)計數(shù)字說話[5]。詞匯研究長期以來以定性研究方法為主,“所謂定性式研究方法,即研究主要評介的是研究者對材料的主觀感受與判斷”[6]。在定性研究中,個人的判斷起著重要作用,研究所依據(jù)的主要是個人熟知的部分語料以及研究者的個人語感,因此不可避免地會帶來個別結(jié)論與普遍規(guī)律、個人判斷與普遍占有材料之間的矛盾。尤其是詞匯的研究中,個人的主觀感知往往會對客觀的評判產(chǎn)生深刻的影響。所以,有必要運用定量分析方法這種自然科學(xué)的常用方法,對詞匯進行研究。社會生活的各個方面,諸如政治、軍事、法律、習(xí)俗、工商業(yè)、教育等的發(fā)展變化,無不影響著詞語的產(chǎn)生、發(fā)展、演變。只有將詞匯研究置于社會發(fā)展的大環(huán)境中,才能把握詞匯分布、發(fā)展的歷史動因。特征詞直接反映了社會的發(fā)展變遷、民族的文化傳統(tǒng),從詞匯與社會政治、經(jīng)濟、文化教育、社會意識形態(tài)等的發(fā)展相聯(lián)系的角度出發(fā),探究和把握詞匯發(fā)展史的外部歷史原因。
(三) 采用的統(tǒng)計項目
統(tǒng)計的對象主要是詞語,統(tǒng)計項目主要有頻次、頻率、出現(xiàn)文本數(shù)、覆蓋率、詞性分布、詞類分布、獨用詞、共用詞、頻差、頻比、使用度、通用度、語料相似度和熵。漢語特征詞的統(tǒng)計與分析先統(tǒng)計出詞語出現(xiàn)的次數(shù),然后計算出這些詞出現(xiàn)的頻率,再在此基礎(chǔ)上統(tǒng)計其他項目。其中頻次、頻率、出現(xiàn)文本數(shù)、覆蓋率是比較常用的概念,不需贅述,其他項目相關(guān)方法的描述如下[7]:
(1) 頻率差
假設(shè)總語料為S,A為S的一個子庫,相對于S和A,任一詞匯wi的頻率差(簡稱頻差)的計算公式為:
頻差(A,wi)=f(A,wi)-f(S,wi)
(1)
其中,f(S,wi)表示頻率,即詞語wi在分類語料中的頻率與在總語料中的頻率之差。
頻差一般反映了某一個詞語在分階段語料和在總語料中的分布差異性,能夠凸顯子語料庫的一些語言特征。
(2) 頻率比
假設(shè)總語料為S,A為S的一個子庫,相對于S和A,任一詞匯wi的頻率比(簡稱頻比)的計算公式為:
(2)
相對頻差而言,頻比更能反映出分類語料的特色,頻比高的詞語一般是分類語料的獨用詞,而且使用較頻繁。
(3) 使用度
使用度用來刻畫字或詞語在應(yīng)用上的廣泛性、平衡性,是壓縮后的頻次,在相同頻率下,詞頻分布越均勻,則壓縮越少,使用度越高。
使用度的計算涉及另外兩個參數(shù):變異系數(shù)與擴散率。
詞語wi變異系數(shù)的計算公式為:
(3)
其中D為wi的方差,E為期望,n為分類語料的數(shù)目。
擴散率的計算公式為:
(4)
使用度的計算公式則為:
(5)
其中C(Aj,wi)表示詞語wi在語料Aj中出現(xiàn)的頻次。
(4) 通用度
與使用度類似,通用度也是用來刻畫詞語在應(yīng)用上的廣泛性和平衡性。尹斌庸、方世增在《語言文字應(yīng)用》1994年第2期的《詞頻統(tǒng)計的新概念和新方法》中提出了通用度的概念。所謂詞語的“通用度”,是指詞語在語言應(yīng)用的各個領(lǐng)域里常用性的綜合指標。簡單地說,通用度就是詞語在語言應(yīng)用的各個領(lǐng)域里通用的程度。通用度兼顧了詞語的分布率和頻率兩個方面,并且把兩者有機地結(jié)合起來了。通用度概念中所說的“領(lǐng)域”,既可以指“空間”,也可以指“時間”,它既可指一個詞在共時的語言應(yīng)用中各領(lǐng)域里的通用程度,也可指一個詞在歷時的各個時期里的語言應(yīng)用中的通用程度。
通用度的計算公式為:
(6)
其中C(Aj,wi)表示wi在子語料庫Aj中出現(xiàn)的次數(shù)。
(5) 語料相似度
將每個語料A表示成向量:
Corpus(A)=(w1,w2,w3,…,wi,…,wn)
其中,wi為語料中出現(xiàn)的詞語的頻次,然后使用VSM計算語料之間的相似度,相似度計算公式如下:
(7)
(6) 熵比較
按信息論的理論,熵表示信息量的多少。如語料用A表示,則其熵的計算公式為:
(8)
其中f(wi)表示語料庫A中某一對象wi在A中的頻率。
本文為教育部新世紀優(yōu)秀人才支持計劃(NCET-11-0655);國家社會科學(xué)基金項目(批準號:08BYY059)。
注釋:
[1]馮志偉在國內(nèi)首先測定了漢字的熵,認為從漢語書面語文句的總體來考慮,在浩如煙海的全部現(xiàn)代漢語書面語文句中,包含在一個漢字中的熵為9.65比特,因而每當我們從漢語書面語文句中讀到一個漢字時,我們就獲得9.65比特的信息量。參見馮志偉:《漢字的熵》,《語文建設(shè)》,1984年第4期。
[2]參見李如龍:《中國語言學(xué)報》,2001年第10期。
[3]國外的語言學(xué)研究中早就關(guān)注到特征詞的問題,例如Halliday, M. A. K., A. McIntosh & P. Strevens.TheLinguisticScienceandLanguageTeaching.(London: Longman1964)認為語域之間的不同主要表現(xiàn)在形式上,即表現(xiàn)在詞匯和語法上,其中詞匯方面的區(qū)別表現(xiàn)得最明顯,以英語為例,cleanse(清掃)主要用在廣告里,probe(探查)主要用在報紙上,特別是報紙的標題上。
[4]參見劉云、李晉霞:《論頻率對詞感的制約》,《語言教學(xué)與研究》,2009年第3期。
[5]參見唐鈕明:《定量方法與古文字資料的詞匯語法研究》,《海南師范學(xué)院學(xué)報》,1991年第4期。
[6]參見蘇新春:《漢語詞匯計量研究》,廈門:廈門大學(xué)出版社,2002年,第14頁。
[7]這些常見統(tǒng)計項目的解釋可參見國家語言資源監(jiān)測與研究中心編:《中國語言生活狀況報告》(2007),商務(wù)印書館,2007年。書中收錄的《語言資源監(jiān)測與研究相關(guān)術(shù)語(2008版)》公布了108條相關(guān)術(shù)語。