王 珊,王會珍
(1. 澳門大學 人文學院,澳門;2. 澳門大學 協(xié)同創(chuàng)新研究院,澳門;3. 東北大學 計算機科學與工程學院,遼寧 沈陽 110167)
在計量語言學領域,文本中詞例(tokens)與詞種(types)的關系研究是重要的研究方向,二者數(shù)量的比值type-token-ratio(TTR)是衡量文本詞匯豐富程度的有效指標。大量關于TTR的研究用于分析文本的詞匯豐富度特點,進而研究不同作者、語言、內(nèi)容、表達方式等方面的特點。不同的文本詞匯豐富度有差別,TTR值也有差異,如統(tǒng)計不同文章的TTR值,有助于判斷文本作者[1]。在已知作者身份的情況下,研究其文章內(nèi)容的TTR值,可以分析作者的語言風格[2]。相同的文本,在不同區(qū)域其TTR值也有變化,體現(xiàn)出不同區(qū)域文本內(nèi)容的特點。分析文本時,由于詞匯數(shù)量會影響TTR值,所以不可以直接計算TTR值進行比較,而往往采取以下兩種方法: 其一是使用移動平均TTR,確定固定長度的窗口,再統(tǒng)計窗口內(nèi)出現(xiàn)的詞種數(shù)[3];其二是使用擬合效果良好的TTR模型,如Heaps模型[4]等,預測出TTR值在不同詞數(shù)下的值,通過統(tǒng)計結果與預測結果的差值,分析局部區(qū)域詞匯豐富度的特點。
當研究對象是按照時間順序組合的文本時,不同時期文本的TTR值體現(xiàn)了相應時代特征,如利用美國總統(tǒng)兩百年來的演講語料,分析TTR增長與各時期社會特點、總統(tǒng)政策之間的關系[5]。然而,這類研究的對象多為有自然詞語劃分特點的語言,目前還缺少利用TTR預測模型對中文進行的分析。在中文等亞洲語言中,文本是連續(xù)而不具有自然劃分性質(zhì)的,這給TTR的研究帶來困難。為彌補TTR研究在中文詞匯增長領域的空缺,本文借鑒Savoy[5]的研究方法,選取1954—2018年的中國政府工作報告作為研究對象,闡述了中文TTR分析的可行性。在比較了Heaps模型與Hubert模型的擬合效果后,本文采用Heaps模型作為研究的預測模型。通過不同階段統(tǒng)計詞種數(shù)與預測詞種數(shù)的比較,分析了不同階段該差值與政策之間的聯(lián)系,并使用隨機亂序的文本進行了模型效果的驗證。
TTR是句子中詞種數(shù)量與詞例總量的比值,如在句子“農(nóng)業(yè)貸款的增加和農(nóng)村信用合作的發(fā)展”中,共有10個詞語(農(nóng)業(yè)、貸款、的、增加、和、農(nóng)村、信用、合作、的、發(fā)展),9類詞語(農(nóng)業(yè)、貸款、的、增加、和、農(nóng)村、信用、合作、發(fā)展),其TTR即為9/10。TTR體現(xiàn)了單位長度的文本中出現(xiàn)的詞種數(shù)量,可以用于衡量詞匯的豐富程度。
不同類型的文本,作者、語言不同等,TTR值也存在差異,對文本數(shù)據(jù)的分析與預測有重要意義。在已知作者身份的文本中,TTR值可以用于分析不同作者的表達特點,如對特朗普與希拉里在2016年競選期間的辯論與演講等語料,利用TTR分析了其語言風格與修辭特點[2]。根據(jù)實驗結果,特朗普的TTR要小于希拉里,說明其語言更為簡單直接,往往避免復雜的語法,少用修辭,而多用短句,希拉里更善用修辭和復雜的表達方式,這樣的分析結果也與使用詞匯密度分析的結果相同。在未知作者的文本中,TTR值可以用于判斷作者的身份,如有的研究對12位作者的詞種數(shù)量進行統(tǒng)計分析,證明其詞匯豐富度與作者身份的強關聯(lián)性[6]。除此之外,不同語言的TTR值也有不同,如對于21種語言的詞匯復雜度進行了統(tǒng)計分析[7],發(fā)現(xiàn)語言的TTR、MATTR值與使用語言熵衡量詞匯復雜度的方法,結果具有一致性[8]。
同一種文本,不同部分詞匯的豐富度也有不同,可以使用移動平均TTR來分析。固定詞的數(shù)量,對于文本的不同位置統(tǒng)計出現(xiàn)的詞種數(shù)。這樣計算的TTR值被稱為MATTR(移動平均TTR)。Covington 等人[3]提出了一種基于窗口的、快速計算MATTR特征的算法,采用此方法分析TheAdventuresofSherlockHolmes,發(fā)現(xiàn)文章內(nèi)容與MATTR的關系: MATTR值在每個故事的開始會上升,而在冗長的對話中呈下降趨勢,這說明MATTR值對于分析文本內(nèi)部的風格同樣具有幫助。
詞例與詞種數(shù)量的增長關系可以用數(shù)學函數(shù)刻畫。在詞種較少時,詞種數(shù)量與文本長度幾乎保持1∶1的增長關系。隨著語料庫的增長,其梯度逐漸下降。對此,許多學者對于增長過程進行了建模分析。為建立這樣的關系,指數(shù)類型的預測模型被提出[4],如式(1)所示。在這個模型中,文本詞種數(shù)量V′被看作是以詞例數(shù)量為自變量n的函數(shù)。對于等式進行以自然常數(shù)e為底的對數(shù)變換,得到等價的線性關系,如式(2)所示。
這樣的模型較好地擬合了觀測的TTR增長曲線,但也存在一些弊端。對于TTR計算中的常數(shù)a和C等,并不是常量,其變化表現(xiàn)出隨機性[9],也難以進行解釋。針對此現(xiàn)象,提出更加復雜的模型。文本中的詞匯可以分為常用詞與不常用詞兩類。不常用詞,如時間、數(shù)量及一些專用名詞等,往往在文本中不會重復出現(xiàn),這導致它們的數(shù)量關系與類別數(shù)量關系表現(xiàn)為梯度為1的線性函數(shù)。而對于那些常用的詞匯,如一些助詞、介詞等,其詞語的數(shù)量要遠遠大于類別的數(shù)量。假設前一類詞語占總詞語比例為p,一種基于常用詞與不常用詞比例的模型得以提出,如式(3)所示。[1, 10]。
其中,i指詞語出現(xiàn)的次數(shù),Vi指出現(xiàn)i次的詞語的數(shù)量。p指語料中只出現(xiàn)過一次的詞所占的比例,(1-p)指出現(xiàn)多次的詞占的比例。p作為模型中唯一的參數(shù),反映了語料中常用詞與不常用詞的比例。u指用于預測語料占總語料的比例,當u=1時,式(3)即為全部語料的預測結果,如式(4)所示[5]。
該模型考慮了詞語出現(xiàn)的概率分布,與Heaps模型相比,只需要一個參數(shù)p,即可預測TTR的增長關系。通過對兩百年來美國總統(tǒng)的演講語料,計算得到p=0.453[5],兩位著名法國作家P Corneille和Racine的文章使用該模型計算的結果分別為p=0.02,0.33[1]??梢娫诓煌奈谋经h(huán)境下,p有較大變化,這與不同語言的詞匯復雜度也有很大關系。隨著以上模型的提出,一些專門用于TTR計算的軟件也開發(fā)了出來[11]。
以往對文本特點的分析往往聚焦于文本使用的詞匯本身,缺少歷時分析,忽視了更為普遍的規(guī)律;常側重于對文本個體的分析,忽略了不同文本之間的相互關系。本文選取中國從1954年到2018年的政府工作報告作為文本材料,使用Heaps模型,對TTR值進行建模分析。
政治性的演講、發(fā)言往往反映了時代關注的熱點,對于社會發(fā)展變化有著很強的預測性。此類文本具有權威性、公開性,又蘊藏著珍貴的社會價值,因而被廣泛用作定量語言學研究的文本材料。如使用2007—2008年Barack Obama和John McCain 等人的發(fā)言,分析各自的語言特點[12];采用法國大選電視辯論語料作為素材,分析不同情感傾向詞匯的分布[13];使用中國政府官員發(fā)言,利用TTR與語言信息熵分析發(fā)言人詞匯豐富度與社會、教育信息的關系[14]。
本研究選擇國務院政府工作報告作為實驗的文本材料。政府工作報告是中國政府的一種公文形式,是中國政府對國家建設發(fā)展的年度總結,各級政府必須在地方人民代表大會和政治協(xié)商會議的年度會議上,向大會主席團、人大代表和政協(xié)委員發(fā)布。報告的內(nèi)容主要為國家發(fā)展的階段性總結與未來規(guī)劃,反映了各時期中國社會面臨的主要任務與時代特征,其內(nèi)容具有客觀性、概括性。此外,它們始終保持著固定的文風,這對降低實驗的誤差有重要意義。中國從1953年開始制定第一個五年計劃,1954年第一次發(fā)布政府工作報告,截至2018年,除1961—1963、1965—1974、1976—1977期間受社會其他因素的影響,政府工作報告有缺失現(xiàn)象外,其他年份均每年發(fā)布一次,在時間上具有連貫性,很大程度上提高了本文實驗的置信度。
中文文本中詞語的切分是一個復雜的問題。一些基于詞典的分詞方式,如“正向最大匹配算法”“最少詞數(shù)匹配算法”等先后被提出,分詞效果得到逐步改善。近年來,統(tǒng)計機器學習的方法,如隱馬爾科夫模型、條件隨機場模型、神經(jīng)網(wǎng)絡算法也被用于分詞。本研究采用了NLPIR- ICTCLAS分詞系統(tǒng)(1)http://ictclas.nlpir.org/,它由張華平博士開發(fā)維護,在2002年“中國973評測”、2003年“國際SIGHAN分詞大賽”中獲得綜合第一名的成績,2010年獲得“錢偉長中文信息處理科學技術獎”一等獎,是當今漢語分詞最可靠的系統(tǒng)之一。該系統(tǒng)擁有“新詞發(fā)現(xiàn)”功能,在較長的文本內(nèi)容中,可基于信息交叉熵自動發(fā)現(xiàn)新詞語,適合對詞種的研究。在使用該系統(tǒng)自動分詞后,人工審核并修正分詞結果。
本文對比了Heaps模型與Hubert模型,對政府工作報告中TTR進行了建模預測。采取深度學習框架Pytorch,采用隨機梯度下降的方法,以均方差(the mean squared error,MSE)[5]為損失函數(shù),擬合了這兩種模型。其中,Heaps模型得到的參數(shù)為a=e^2.857,C=e^0.5137,Hubert模型中比例參數(shù)p=0.0711,如式(5)所示。
兩種模型預測值的總體偏差不同。Hubert模型認為在文本長度與總長度比例為u:1的文本中,整個文本中只出現(xiàn)一次的詞語,出現(xiàn)的幾率是u。在整個文本中出現(xiàn)了i次的詞語不出現(xiàn)的幾率是(1-u)i。這一結論是由詞語在文本中的出現(xiàn)幾率只與文本長度有關的假設推導的。
對于更為一般的情況,若假設詞語w在文本C中的分布滿足概率函數(shù)Fw(X),則整個文本中只出現(xiàn)一次的詞語,在長度比例為u的文本中,出現(xiàn)的幾率為Fw(X=u)。而在整個文本中出現(xiàn)了i次的詞語,在長度比例為u的文本中不出現(xiàn)的幾率為(1-Fw(X=u))i。因而一般化的預測模型如式(6)所示。
當Fw(X=u)=u時,式(6)即為Hubert模型。文本中出現(xiàn)的詞匯可分為兩類: 第一類詞匯在文本中的分布滿足均勻分布,則其滿足Hubert模型的假設;第二類詞匯在文本中的分布不滿足均勻分布,則該類詞在式(6)中計算得到的值與Hubert模型不同。政府工作報告與國家發(fā)展階段息息相關,且具有明顯時代特點,不同詞匯在不同階段的分布是大不相同的,即存在一定第二類的詞匯,對Hubert模型的預測結果造成了影響。這解釋了實驗中 Hubert 模型與現(xiàn)實值偏離更大的原因。而Heaps模型不考慮詞語在文本中的頻率分布,因而受政府工作報告中局部特征差異明顯的影響較小。Heaps模型主要依靠函數(shù)增長的數(shù)學特征進行預測,符合現(xiàn)實觀測值曲線的增長趨勢,得到了更好的擬合效果。由于Heaps模型預測值的總體偏差更小,因而我們選其擬合后的曲線作為實驗的預測模型。
1954—2018年政府工作報告詞例數(shù)量為589 000,實驗中每590個點選取一個作為采樣點,用于Heaps模型與Hubert模型的擬合。對于擬合得到的曲線,以及這1 000個采樣點,繪制得到圖1與圖2。
圖1 兩種模型預測曲線
圖1顯示了兩種預測曲線與現(xiàn)實曲線,展示了現(xiàn)實中與兩種模型中詞種與詞例數(shù)量的增長關系。在詞例數(shù)量較小時,詞種數(shù)量隨其迅速增長,而當詞例數(shù)量較多時,其增長的速度會降低。
圖2 兩種模型預測值與現(xiàn)實觀測值之差
圖2體現(xiàn)了1954年到2018年間,兩種模型與觀測值的差值,并對五年計劃(詳見3.2)的結束年份進行了標注。雖然Heaps模型在許多位置上仍然不能與現(xiàn)實值達到完全匹配,但這是由政府工作報告自身的詞語分布特點決定的。整體上,Heaps模型的擬合效果要好于Hubert模型,因此在下文的詞匯增長分析中我們采用了Heaps模型。
中國的五年計劃,是每五年中國政府對國家重大建設項目、生產(chǎn)力分配分布和國民經(jīng)濟重要比例關系的規(guī)劃。在每個五年計劃開始的年份里,政府都會對于舊的五年計劃做總結,而對新的五年計劃進行部署。若使用每一年作為分析的周期,容易受到該年份隨機時間的影響,其結果具有偶然性。五年計劃作為政府工作的一個階段的建設方案,具有整體性與穩(wěn)定性,表現(xiàn)了一個較長時期中國的發(fā)展狀態(tài),以其作為分析周期,可以避免部分年份的突變,具有說服力。
從1954年至今,一共有十三次五年計劃,選其作為最小的時間周期,結合曲線的增長特征,對于現(xiàn)實觀測值與Heaps預測值進行分段分析,結果如表1 所示。
表1 每階段現(xiàn)實觀測值與Heaps預測值
表1對政府工作報告在不同階段的詞例數(shù)量、詞種數(shù)量、Heaps預測值、新詞語數(shù)量等信息進行了詳細展示。在中國建國初期,受當時社會因素影響,工作報告在1961—1963,1965—1974,1976—1977年出現(xiàn)了缺失現(xiàn)象。對于這一階段的研究,我們選取其附近年份中有代表性的報告來體現(xiàn)這一階段的特征,如1975年工作報告內(nèi)容主要為對之前數(shù)年工作的總結,因而使用1975年政府報告,補充1965—1977年整體的缺失。
在中國第一個五年計劃中(1953—1957),Heaps模型預測結果要略小于現(xiàn)實觀測值,截止到1957年,現(xiàn)實觀測值為5 710,模型預測值為5 641,前者較后者多69個詞種,說明此時有更多的新詞語,這與當時中國所處的歷史背景是有關聯(lián)的。1953年到1957年,中國進行了第一次工業(yè)化建設。所產(chǎn)生社會變化需要更多的詞匯去描述,這些新詞語主要包括“油菜籽”“燒堿”“公私合營”“合作小組”“改造”等。該時期的政府工作報告還出現(xiàn)了許多的數(shù)字性的發(fā)展指標,以及“農(nóng)業(yè)生產(chǎn)合作社”等新興事物。
在中國第二個五年計劃(1958—1962)及1963—1964年的國民經(jīng)濟恢復時期,預測結果大于現(xiàn)實觀測值,截至1964年,現(xiàn)實觀測值為7 349個詞,模型預測值為7 435個詞,前者較后者少86個詞,說明該階段中國的政策相對穩(wěn)定。該時期中國進行了人民公社化等運動,國家以快速工業(yè)化建設為主要奮斗目標,政府工作報告聚焦于工業(yè)、農(nóng)業(yè)的建設。在1962年之后,中國進入了國民經(jīng)濟恢復時期,此時政府統(tǒng)籌兼顧農(nóng)業(yè)、制造業(yè)與工業(yè)的發(fā)展關系,提出了全面的發(fā)展策略。這與1964年的增長趨勢是匹配的,此階段新增詞匯1 639種,如“蟲害”“軸承”“學兵”等。
在中國第三到第四個五年計劃時期(1966—1975),僅在1975年有政府工作報告,主要內(nèi)容為對十年期間的世界局勢做出總結,這篇報告的預測結果要大于現(xiàn)實觀測值,截止1975年,現(xiàn)實觀測值為7 439個詞,模型預測值為7 554個詞,前者較后者少115個詞。隨后的第五個五年計劃(1976—1980)中,中國政府將工作重心回歸到了經(jīng)濟發(fā)展上來,政府工作相對穩(wěn)定。該階段出現(xiàn)的新詞共1 152種。
在第六個五年計劃時期(1981—1985),政府工作報告中現(xiàn)實觀測值與模型預測值差值的擴大趨勢明顯減弱,該差值由上一個階段的411變化到438(預測值10 662,觀測值10 224),可以認為是差值變化的正常浮動。這是因為這段時期中國的體制改革與對外開放逐步加深,市場經(jīng)濟得以承認,一些經(jīng)濟特區(qū)先后開放,人口、教育、外交、能源、交通方面的內(nèi)容也有增加,出現(xiàn)的新詞共1 633種,多屬于社會活動和具體事物,如“二胎”“多子多福”“晚婚”“精神文明”“合資企業(yè)”“一國兩制”等。
第七個五年計劃(1986—1990)中,中國的科技、教育、經(jīng)濟等各個領域都得到了進一步的發(fā)展,出現(xiàn)新詞共1 528種,多為各領域的具體事物,如“義務教育”“養(yǎng)老保險”“展覽館”“信貸”“基金”等。
第八個與第九個五年計劃(1991—2000),是改革開放推進的快速時期,與上一階段比,現(xiàn)實觀測值保持上升趨勢,觀測值高于預測值。這段時期社會主義市場經(jīng)濟的目標、總體開放的格局得到了實現(xiàn)。中國在這一階段進行了企業(yè)制度、教育制度、住房制度的改革等。隨著改革開放的深入,中國社會生活發(fā)生了廣泛而深刻的變化,社會經(jīng)濟成分、分配制度、就業(yè)方式等進一步發(fā)展。這一階段詞種數(shù)量繼續(xù)保持穩(wěn)步上升趨勢,共增加新詞語1 789種,如“通訊衛(wèi)星”“租賃制”“股份制度”“保險”“再就業(yè)”體現(xiàn)了各個領域的迅速發(fā)展。
在第十個五年計劃時期(2001—2005),市場經(jīng)濟地位得到進一步發(fā)展,現(xiàn)實觀測值高于預測值,前者保持增長趨勢。這一時期中國加入了世界貿(mào)易組織,中央提出科學發(fā)展觀的戰(zhàn)略思想,對城鄉(xiāng)發(fā)展、區(qū)域發(fā)展、人與自然和諧發(fā)展、可持續(xù)發(fā)展做出了進一步闡釋。在此時期的報告中,“西部大開發(fā)”“東北工業(yè)基地振興”等政策,帶來了“青藏鐵路”“西氣東輸”“反壟斷法”“信息化”“數(shù)字化”等新詞語共828種,極大地擴展了詞種的數(shù)量。此階段詞種的模型預測值小于觀測值,且后者仍保持著較高的增長速率,與現(xiàn)實中對新政策的闡述需要更多詞匯的需求相一致。
在第十一個五年計劃中(2006—2010)期間,預測值保持著上升的趨勢,觀測值高于預測值,新增詞語376種。這段時期提出提高發(fā)展質(zhì)量,反思開發(fā)中的自然環(huán)境保護問題,注重可持續(xù)發(fā)展。
隨后的第十二個五年計劃與十三個五年計劃前段(2)開展本研究時,政府工作報告發(fā)布至2018年(2011—2018)共計新增詞語1 556種。十一五將反腐敗與深化改革、環(huán)保問題等經(jīng)濟結構初步轉(zhuǎn)型列為重點目標,十二五以全面建成小康社會為中心目標,提出了創(chuàng)新、協(xié)調(diào)、綠色、開放和共享五項發(fā)展理念。新增詞語1 556種,如“供給側結構”“一帶一路”“PM 2.5”“兩學一做”等,體現(xiàn)了該階段政府出臺的新政策所產(chǎn)生的影響。
上文以五年計劃作為分析的基本時間單位,分析了Heaps模型下詞種的預測值與現(xiàn)實觀測值的差距。兩者的差距是由政府工作報告的特點決定的還是由模型擬合的誤差造成的呢?本節(jié)使用隨機化的方法進行驗證。
驗證的方法如下: 以詞語為單位,隨機化地打亂順序,生成新的文本。新生成的隨機文本的詞語總量、詞種總數(shù)與原文本是完全相同的,但完全打亂次序后的文本不再保持原文本的語義信息,以及原文本的詞頻分布特征。若可以證明擁有語義信息的原政府工作報告文本的觀測值與模型預測值存在較大差距,而隨機化處理后的,失去語義信息的文本中此二者差距較小,即可證明政府工作報告的內(nèi)容是導致這一差值的重要原因;反之,則是由模型擬合的誤差造成的。
考慮到每次生成的隨機文本可能有偶然性,本文隨機生成1 000個隨機文本,采用與前文實驗中相同的采樣方式,每個隨機文本獲得1 000個采樣點,并根據(jù)采樣點擬合計算參數(shù)a與C,繪制現(xiàn)實觀測值與Heaps預測值曲線,如圖3所示。
圖3 隨機文本預測結果曲線
圖3展示了隨機亂序后的文本,其Heaps模型的預測值與現(xiàn)實觀測值的關系。經(jīng)過計算,隨機文本擬合得到的參數(shù)a=e^3.48,C=e^0.471 4。通過圖3可知,此時Heaps模型已較好地擬合了觀測值繪制的曲線。為了更好地觀測二者差值,使用擬合的結果計算預測值與觀測值差的標準分數(shù)(Z-Score)V″,作為衡量擬合程度的指標[5],如式(7)所示。
圖4反映了亂序后的文本,其標準分數(shù)(Z-Score)隨詞語數(shù)量增長的關系。其觀測值與預測值之差的標準評分始終在(-2,2)的范圍內(nèi),因此可以認為該變量符合正態(tài)分布(99%以上的數(shù)據(jù)均在-3*σ到3*σ的范圍內(nèi))。
圖4 隨機文本預測變化
圖5表現(xiàn)了1954—2018年政府工作報告文本V″的增長關系。盡管圖4中Heaps模型預測的結果并非與現(xiàn)實觀測值完全相等,但這一差值(-2~2)遠小于亂序前政府工作報告中的差值(-4~5)(圖5)。因此可以說明,政府工作報告中預測值與觀測值的差距很大程度上是受報告的內(nèi)容影響的。
圖5 現(xiàn)實文本預測變化
以上對于中國政府工作報告(1954—2018)的隨機化模擬實驗證明,詞匯增長模型的變化受到工作報告中詞匯特點的影響,而非模型誤差導致的隨機事件。現(xiàn)實觀測值與模型預測值之差的變化,是由國家發(fā)展重心、所處時代特點等決定的。
本文選取1954年至2018年的中國政府工作報告為語料,根據(jù)Heaps模型預測值與現(xiàn)實觀測值之差,分析了政府工作報告與此差值的關系以及兩者之間的聯(lián)系: 在深化改革、新政策推出等時期,需要更多的詞匯去描述,此時現(xiàn)實值高于Heaps模型的預測值,而在政策相對穩(wěn)定的階段,對原有詞的復用頻率更高,此時現(xiàn)實觀測值要低于Heaps的預測值。這一結論,也說明了使用TTR預測曲線與觀測值之差,分析文本詞匯豐富度變化的可行性。此外,我們將文本的順序隨機打亂,并使用Heaps模型進行了擬合。根據(jù)原文本與亂序文本的標準分數(shù)(Z-Score)的比較,說明了實驗結果的可靠性。此外,以往TTR領域的研究,大多采用英語、法語等印歐語系語言,它們本身具有詞劃分的特性。而中文文本無詞匯劃分,其TTR的統(tǒng)計需要先進行分詞處理。本文采用中文語料作為研究對象,分析其歷時變化,豐富了對中文詞匯增長的研究。
致謝:感謝東北大學張林峰同學為本文數(shù)據(jù)處理提供的幫助。