陳衡
摘要:詞和短語的區(qū)分問題是漢語語言學(xué)研究的一個重點和難點,傳統(tǒng)的“結(jié)構(gòu)穩(wěn)固、意義凝聚、音節(jié)長度適中”并不能很好地解決這一問題。近年來,從“頻率”角度對這一問題展開的討論增加,但主要限制在關(guān)于“詞感”的討論方面,還缺乏大規(guī)模數(shù)據(jù)統(tǒng)計的支持。“頻率”是否真正適合作為區(qū)分詞和短語的一個標(biāo)準(zhǔn)還沒有定論。本文基于對近5億字現(xiàn)代漢語語料2-gram串統(tǒng)計結(jié)果最高頻1000個字符串的考察,得出:“頻率”還不能直接作為界定詞的標(biāo)準(zhǔn),它在解決詞和短語區(qū)分的模糊地帶方面能否發(fā)揮較大作用還需進一步探討。
關(guān)鍵詞:詞 短語 頻率 二字詞 二字短語
一、引言
在漢語語言學(xué)研究中,“詞”是各類研究的重要基礎(chǔ),沒有對詞的定義和界定,基于其上的諸如詞語研究、詞類研究、構(gòu)詞研究、短語研究、詞典編纂等都將無從談起。詞的定義與界定問題是現(xiàn)代漢語中一個非常重要的問題,也是一個難題。與英語中實行單詞分寫不同,漢語的字不實行分詞連寫,因此,漢語中“詞”的定義與界定問題比英語中的復(fù)雜得多。
關(guān)于詞該如何定義及界定的問題自中國現(xiàn)代語言學(xué)誕生時就已經(jīng)開始探討。邵敬敏(1990)總結(jié)認(rèn)為,詞的劃界一是定義的需要,二是分詞連寫的需要。譬如,中文信息處理中的分詞問題——盡管目前使用“分詞單位”作為權(quán)宜之計,但以此制定出來的“分詞詞表”仍飽受詬病,原因之一還是對“詞”的定義與界定沒有很好的把握。
到目前為止,一般廣為接受的關(guān)于“詞”的定義應(yīng)該是呂叔湘先生的“最小的自由活動的語言片段”(呂叔湘,1979)。但光從這一定義來看,處處都有著不確定性,什么是“最小的、自由的、語言片段”都不好把握,連呂叔湘自己都說“這仍不十分明確”,“最好是用具體事例來給詞劃界”。然而用具體事例來給詞劃界又陷入了這樣一個邏輯怪圈:不知道“詞”是什么,卻需要對具體事例作出判斷從而反過來說明什么是詞。
傳統(tǒng)研究中對于詞的界定,一般認(rèn)可以下三個標(biāo)準(zhǔn):結(jié)構(gòu)穩(wěn)固、意義凝聚、音節(jié)適長。然而,細細考究起來,無論哪一個標(biāo)準(zhǔn),都有無法解決的難題(黃月圓,1995)。近十多年來,隨著數(shù)學(xué)統(tǒng)計方法在語言學(xué)中的運用,從“頻率”的角度對這一問題展開的研究增多,如胡明揚(1999)、梁源(2000)、吳為善(2003)、丁喜霞(2006)、李宇明、李晉霞(2007)、劉云(2009)、李晉霞(2013)。這些研究增進了我們對頻率之于詞和短語區(qū)分影響上的認(rèn)識,但缺憾是缺乏大規(guī)模數(shù)據(jù)統(tǒng)計的支持,因此“頻率”是否真的適合作為區(qū)分詞和短語的一個標(biāo)準(zhǔn)還需進一步探討。
二、基于N-gram串頻率的驗證
N-gram串指語流中接連出現(xiàn)的n個音節(jié)(在文本上表現(xiàn)為字)。N-gram串一般以標(biāo)點符號為天然的分界線。例如:“天放晴了,最容易忘記雨傘”中包含的2-gram應(yīng)該是:天放、放晴、晴了、最容、容易、易忘、忘記、記雨、雨傘;包含的3-gram應(yīng)該是:天放晴、放晴了、最容易、容易忘、易忘記、忘記雨、記雨傘。
(一)“頻率”相關(guān)研究問題分析及本文驗證思路
綜合目前所見學(xué)術(shù)界關(guān)于“頻率”與“詞”關(guān)系的研究,一般認(rèn)為:“詞感”與“頻率”呈現(xiàn)“共變”關(guān)系,即詞的頻率越高,詞感越強。從“詞感”這一術(shù)語的使用可見,不同的詞給人的“成詞的感覺”(即哪個更像詞)是不一樣的。目前關(guān)于頻率的研究還存在以下問題:
第一,“詞感”的使用盡管體現(xiàn)了“連續(xù)性”這一概念,但又增添了“主觀性”這一變數(shù),即“詞感”體現(xiàn)的是人的感覺,這種感覺會因人而異,胡明楊(1999)對此有所論述。除此之外,漢語中的詞語個數(shù)上萬甚至十幾萬,通過“詞感”調(diào)查來劃分詞語的“連續(xù)性”不可行,且符合一部分人的“詞感”不一定符合另一部分人的“詞感”。對此,我們用“成詞性”這一較客觀的術(shù)語來指稱從“短語”到“詞”的漢字字符串成詞能力的強弱。它指的是“字符串”的成詞性的強弱,因此在未界定單位性質(zhì)前用這一術(shù)語可以避免指稱上的混亂。
第二,以往的研究多為舉例式的考察,未能將全部漢語詞語作為考察的對象,因此還不可得知“頻率”作為界定詞語能否成為一條真正的可行的標(biāo)準(zhǔn)。為此,我們收集整理了一個字符數(shù)達1.08GB的超大規(guī)模語料庫,未分詞,通過軟件統(tǒng)計出2-gram字符串的頻率并排序。這樣做的好處一是避免了分詞造成的偏差;二是事先不考慮“詞”概念的使用,將“詞、短語、無效串”(即“字符串”構(gòu)成)統(tǒng)一無差別排序,這樣就避免了我們在未界定出“詞”之前卻先使用了“詞”的邏輯悖論。
我們的基本思路是:以統(tǒng)計結(jié)果中最高頻的1000個2-gram串為分析對象,對它們進行屬性標(biāo)注,分別為詞、短語或無效串。詞的判別以《現(xiàn)代漢語詞典》(第6版)、《現(xiàn)代漢語規(guī)范詞典》(第2版)和《漢語大詞典》(1997)為依據(jù);沒有任何意義的為無效串,其余為短語。這里需要說明的是,我們之所以只考察2-gram串,是因為漢語中約70%的詞是雙音節(jié)詞。(王惠,2009)
(二)基于2-gram串驗證存在的問題分析
雖然我們基于2-gram串進行統(tǒng)計可以擺脫基于分詞所帶來的問題,但它也帶來了另外的一些問題,不過這并不會對考察造成太大的影響。基于2-gram串的考察所帶來的問題主要有以下幾個方面:
第一,字串的“耦合性”。
由于N-gram串只是幾個字符的簡單共現(xiàn),并不涉及是否有意義,或處于一個結(jié)構(gòu)中,所以,具有“耦合性”。例如“中國人民愛好和平”中的“國人”單獨來看是一個詞,但在該句子中并不處于同一個結(jié)構(gòu)層次中。
對于這個問題,就以下幾點分析,不會對本文的考察產(chǎn)生較大影響。
首先,大規(guī)模語料的抵消作用。由于本文使用的語料規(guī)模高達1.08GB,有近5億字?jǐn)?shù),因此可以在一定程度上較少偏差,尤其是在超高頻字串與中低頻字串之間,一般不會出現(xiàn)高頻詞實際頻率低于中低頻字串的情況。
其次,從邏輯上來講,一個“詞”的串頻低,其實際詞頻必然更低,而高頻“短語”不會出現(xiàn)誤差。這樣的對比是有意義的對比。
再次,以N-gram串作為考察對象還有一個非常重要的考量,就是要撇開語義直接考察簡單的形式共現(xiàn)是否對字串成詞性產(chǎn)生重要影響。例如,Bybee(2007)認(rèn)為在很多情形下,高頻共現(xiàn)已經(jīng)超過了語義成為字串結(jié)合的重要影響因素。
第二,“詞”和“短語”的區(qū)分問題。
盡管我們以三部權(quán)威詞典作為判定依據(jù),但還是遇到了一些困難。
首先,有的字串具有詞和短語的雙重屬性,只有在具體的句子語境中我們才能確定它到底是一個詞還是一個短語。例如“不是”,當(dāng)作“錯處、過失”講時,是一個名詞,如“出手打人就是你的不是了”中的“不是”;但當(dāng)作“否定”義講時,“不是”是一個狀中短語,而不再是一個詞了。
其次,加不加“兒”的問題?!皟骸弊质且粋€很特殊的成分,代表兒化,雖然在音節(jié)上它可以依附于前面的成分,但它畢竟也占一個字符,這樣就在音節(jié)長度和字符串長度上產(chǎn)生了矛盾。比如,詞典中“一會兒”是一個詞,但“一會”就不大好處理。
對于第二個問題,由于本文的目的是考察“高頻是否一定是詞”,因此,對于“詞”和“短語”的區(qū)分,我們本著它是“詞”的原則,如果能得出相反的結(jié)論,更是對本文論證的加強。
第三,“短語”和“無效串”的區(qū)分問題
盡管看起來將“短語”和“無效串”區(qū)分開來不會有什么難點,但這是在句子中,在有語境的情況下。其實,單獨從字符串的角度來看,還是有一些難于處理的情況,例如“也不、有一、在這、這一、的話、里的、面的”。以“的字短語”為例,本文是將所有“的字結(jié)構(gòu)”看作短語的,但有些情況卻不能很好地做出判定,像“里的、面的”。
對“短語”和“無效串”的區(qū)分中存在的問題,本文采取以下原則及策略:
1.有意義即為短語,無任何意義、斷裂的結(jié)構(gòu)為無效串。
2.以紫光系統(tǒng)詞庫(153956條,實際包括詞和短語)作為驗證短語的一個策略,出現(xiàn)在里面的一定為短語。
三、語料收集與統(tǒng)計說明
本文的統(tǒng)計語料皆來自互聯(lián)網(wǎng),共1.08G,高達486408743個漢字,接近5億,都是手工采集并經(jīng)處理的有效文本內(nèi)容,存為TXT.文件。語料采集的時間為:2012年4月~11月。
語料內(nèi)容包括四部分:中國現(xiàn)當(dāng)代文學(xué)作品(包括現(xiàn)當(dāng)代知名作家的全部代表性作品,及其他一些比較知名的文學(xué)作品)、新聞(包括人民日報、新華網(wǎng)、中國青年報等媒體的新聞報道)、政府公文(包括法律類、政策類等官方文件)、網(wǎng)絡(luò)小說(包括“都市言情、軍事、科幻靈異、玄幻修真、游戲競技、耽美同人”等類型)。這四部分語料的規(guī)模分別為312M、94.3M、92.2M、609M,共1107.5M,比例約為3:1:
1:
5。
以上語料都是從網(wǎng)絡(luò)下載的,語料文本中存在著廣告等無效信息,與原文不相關(guān)的成分如序言、后記等我們一并刪除。對這些無效信息的處理,我們采用人工和機器處理相結(jié)合的方法:有些有一定規(guī)則的重復(fù)出現(xiàn)的信息我們用機器刪除,零碎的不成規(guī)則的全部手工刪除。語料下載收集與預(yù)處理工作是同時進行的。
本文使用的預(yù)處理及統(tǒng)計工具是“漢字串N-gram統(tǒng)計檢索軟件Cici V1.0”,該軟件基于Java語言開發(fā),支持GB級別中文文本語料N-gram串統(tǒng)計與檢索,支持長度為1-10之間的漢字串統(tǒng)計。Cici是一個自由、綠色軟件,用戶可通過互聯(lián)網(wǎng)直接獲取。
四、統(tǒng)計結(jié)果分析
本文對1000個高頻2-gram串的考察結(jié)果見表1。
從表1可以看出,在頻率最高的前1000個二字串中,“詞語”所占的比例最高,約占一半,短語次之,另外還有約五分之一比例的無效字符串。這至少說明以下幾個問題:1.在漢語中頻率非常高的二字串中,詞語的比例很高,有很大可能性是詞。2.盡管我們統(tǒng)計了一個超大規(guī)模的語料庫,可以說分析了漢語中毗連頻率最高的1000個二字串,但還是有一半的二字串不是詞語,這說明,絕對的高頻率毗連的二字串不一定是詞,而且除了無效串,這里面還有很多是短語。3.想以高頻率來抽取漢語中的詞語的方法是不可行的,因為在我們抽取的超高頻二字串中都有許多非詞成分。
本文還發(fā)現(xiàn),出現(xiàn)在超高頻字串表中的無效串有以下特點:
第一,多和絕對高頻的單字串在一起出現(xiàn)。
第二,很多無效串二字多處于跨層結(jié)構(gòu)中,例如“況下”,多半情況下出現(xiàn)在“在……情況下”語境中。
第三,無效字串中不乏有短語化、詞匯化傾向的例子,例如已有研究的“的話”(不過詞典還未收錄)——即處于跨層結(jié)構(gòu)中;再如“的說”,其“成詞性”要稍弱于“的話”。而“的話”的串頻要遠遠高于“的說”,這說明,二字的高頻共現(xiàn),尤其是與虛詞有關(guān)的高頻共現(xiàn)確實容易誘發(fā)詞匯化、語法化現(xiàn)象。
最高頻1000個二字串中各屬性字串構(gòu)成比見表2。
由表2可知,(1)雖然我們選取的1000個二字串都是超高頻二字串,但它們內(nèi)部本身差異是很大的。譬如,頻率最高的詞與頻率最低的詞的頻率之比約是20:1;頻率最高的短語與頻率最低的短語頻率之比約是23:1;頻率最高的無效串與頻率最低的無效串頻率之比約是15:1;頻率最高的二字串與頻率最低的二字串之比約是28:1。(2)在我們分成四塊的考察中,每塊里面都有一定比例的詞語、短語以及無效串,而且它們的比例都是成“詞>短語>無效串”的序列。(3)各塊“詞、短語、無效串”所占比例分別都與表1所統(tǒng)計比例類似,例如:排名251~500Z-字串部分詞、短語、無效串所占比例分別為48.8%、32.8%、18.4%,與表1所示總體比例49%、31.4%、19.6%基本持平,但也表現(xiàn)出一定的差異,見圖1。
基于數(shù)據(jù)分析,本章得出以下幾個結(jié)論:
第一,不考慮其他因素,相鄰共現(xiàn)字串的“高頻率”不能作為其被判定為詞的標(biāo)準(zhǔn)。通過上面對1000個超高頻二字串屬性的統(tǒng)計,可以看出,不論多么高的頻率范圍,總是會有一定比例的短語存在,而且其中最高頻的“一個”都是短語,并沒有因高頻而“詞化”。
第二,頻率單獨不能實現(xiàn)漢語短語到詞的“連續(xù)統(tǒng)”劃分。從1000字串分段分析中我們看到,詞和短語是交叉分布的,而且每塊各個比例都相當(dāng),因此,盡管從所有排序字串屬性來說很可能高頻詞多,低頻詞少,但這同樣還是不能掩蓋詞和短語交叉分布的事實。依據(jù)圖1還可以發(fā)現(xiàn),短語數(shù)并沒有隨排名降低而明顯減少或增多,這說明短語分布的普遍性和均勻性以及漢字超強的組合能力。
第三,高頻出現(xiàn)的字串屬性“可能性”:詞語字串>短語字串>無效字串。這一結(jié)論只具有統(tǒng)計學(xué)上的意義,是籠統(tǒng)的,不具有判定字串屬性時的實際操作性,因為不論從“高頻共現(xiàn)”(字串)的角度還是“高頻出現(xiàn)”(有意義字串)的角度來說,它們既可以是詞,也可以是短語,還有可能是無意義的字串。不論如何選取語料,這一事實不會改變。這意味著,在區(qū)分詞和短語這一問題上,“頻率”發(fā)揮的作用不會那么完全有效,需要進一步找出其適用范圍,以及合適的統(tǒng)計方法。當(dāng)然,對于不是以區(qū)分詞和短語的研究來說,比如選取除詞典以外的“分詞單位”、計算機輸入法詞庫的語言單位等,基于頻率的選取是非常重要的一個來源。
第四,頻率越高,字串的“有意義性”幾率越很大。
在這里“有意義性”是指語言上是有意義的單位,具體指“詞”和“短語”。只要是高頻出現(xiàn)在一起的字串基本可以有一定的意義或高度熟悉感。
那么應(yīng)該怎么來解釋并非“頻率越高,成詞性越高”這一結(jié)論呢,本文認(rèn)為原因如下:
第一,詞語并不是人們表達的唯一常用單位,有很多短語也是人們經(jīng)常使用的單位,但它們并未“詞化”。
第二,詞的產(chǎn)生過程并不與頻率有必然的聯(lián)系,人們構(gòu)造新詞只是使用上的需要,或者有可能只是部分領(lǐng)域使用的需要,因此不必然與高頻率相聯(lián)系。
第三,即使由所謂“高頻共現(xiàn)”而產(chǎn)生的新詞,也不與“籠統(tǒng)頻率”存在必然聯(lián)系,而只與“臨界頻率”有關(guān),彭睿(2011)對此有詳細論述。
五、結(jié)語
本文通過對近5億字的現(xiàn)代漢語語料2-gram串的考察分析,得出了如下結(jié)論:“頻率”不是“詞”定義的應(yīng)有之義,也不可直接作為界定詞的標(biāo)準(zhǔn);它在解決詞和短語區(qū)分的模糊地帶也不能廣泛發(fā)揮作用;它在解決詞和短語區(qū)分的模糊地帶方面能否發(fā)揮重大作用還需進一步的分類探討,這也是我們下一步將要進行的工作。
本文還存在一定的不足,后續(xù)研究中還可以從以下幾個角度深入展開討論:
第一,不同語料庫的統(tǒng)計結(jié)果會有一些差異,因此有必要考察不同語體語料對詞和短語區(qū)分可能產(chǎn)生的不同影響。
第二,對中、低頻二字串部分加強定量考察,并與高頻部分的統(tǒng)計結(jié)果作對照。
第三,對有意義耦合字串在文本中出現(xiàn)的真實頻率進行統(tǒng)計,并考察其對區(qū)分詞和短語產(chǎn)生的影響大小。