劉 銳,孫碧澤,龍?jiān)骑w,王 珊
(1. 廈門大學(xué) 中文系,福建 廈門 361005; 2. 南京大學(xué) 中文系,江蘇 南京210023;3. 香港理工大學(xué) 電子計(jì)算學(xué)系,香港; 4. 香港教育大學(xué) 中國語言學(xué)系,香港)
詞語序差的分布特點(diǎn)與文本間詞匯異同
劉 銳1,4,孫碧澤2,龍?jiān)骑w3,王 珊4
(1. 廈門大學(xué) 中文系,福建 廈門 361005; 2. 南京大學(xué) 中文系,江蘇 南京210023;3. 香港理工大學(xué) 電子計(jì)算學(xué)系,香港; 4. 香港教育大學(xué) 中國語言學(xué)系,香港)
該文在已有關(guān)于“頻級”“頻序”研究的基礎(chǔ)上,結(jié)合兩種不同類型的語料,采用詞匯計(jì)量分析方法,考察詞語的“序差”所具有的分布特點(diǎn)。該研究發(fā)現(xiàn),對于兩種文本的共有詞集,詞的序差呈對稱分布,且集中分布于中位數(shù)附近,存在離群值序差。這一特點(diǎn)在序差圖上表現(xiàn)為“中段平直,雙尾翹曲”的“雙尾分布”形態(tài)。根據(jù)詞語序差的分布規(guī)律,可以將文本共有詞劃分為“中段”“下尾”“上尾”三個(gè)層次?!爸卸巍痹~語反映兩個(gè)文本的共性特征,“下尾”及“上尾”詞語反映兩個(gè)文本的差異性特征,這些特征具有反映文本的主題內(nèi)容和文體風(fēng)格的語言學(xué)意義。
序差;雙尾分布;主題內(nèi)容;文體風(fēng)格
在詞匯計(jì)量分析中,對詞語的頻率信息關(guān)注最多,如高頻詞、低頻詞、獨(dú)有詞、共有詞?;谠~匯的文本特征分析也以詞語的頻率信息為基礎(chǔ),較為常用的做法是在TF-IDF的基礎(chǔ)上,結(jié)合詞語分布比例、詞語的類分布、詞語位置因子、本體語義關(guān)聯(lián)等因素進(jìn)行文本特征詞分析和提取[1-4]。
詞語除了頻率信息以外,還有“位序”的信息。美國學(xué)者Zipf發(fā)現(xiàn)人類語言的真實(shí)文本中,詞出現(xiàn)的頻數(shù)與其頻數(shù)秩(位序號)之間具有反比例關(guān)系[5-6]。進(jìn)而研究者對英語中從音素到語句等不同結(jié)構(gòu)層次的頻數(shù)—序號關(guān)系進(jìn)行了統(tǒng)計(jì)研究[7],漢語的相關(guān)統(tǒng)計(jì)規(guī)律也得到了實(shí)證[8]。此后在本體研究[9]、詞典編纂、詞表研制[10-12]、中文信息處理[13]、語言監(jiān)測[14]、風(fēng)格分析[15]、詞語歷時(shí)穩(wěn)態(tài)分析[16]等研究中對字詞的位序信息均有討論和運(yùn)用。值得注意的是,文獻(xiàn)[15]進(jìn)一步發(fā)展了對詞語位序信息的使用,從共有詞的“序差”入手,以“同中求異”的思路來提取文本的區(qū)別特征。但是該研究把詞語的位序信息作為一個(gè)統(tǒng)計(jì)量來使用,對其內(nèi)在規(guī)律卻少有討論。
從“序差”入手進(jìn)行“同中求異”的分析利用了詞語位序分布的什么性質(zhì)?“序差”信息能夠反映哪些詞語在文本間分布的規(guī)律?分析技術(shù)和操作程序上有無進(jìn)一步改進(jìn)和規(guī)范化的空間?本文在已有關(guān)于“頻級位序的差比”[17]、“序差”[15]研究的基礎(chǔ)上,對兩個(gè)文本共有詞的序差進(jìn)行整體性的分析,考察其分布上的規(guī)律和特點(diǎn),并分析該分布所反映的文本間詞匯使用異同,進(jìn)而討論其在文本詞匯特征分析中的作用。
2.1 “頻級”與“頻序”
為了保證實(shí)驗(yàn)數(shù)據(jù)具有可比性,我們選擇長度接近、時(shí)期相同的文本作為實(shí)驗(yàn)材料。文獻(xiàn)[18]指出,影響文本詞匯分布有兩大因素,一是文本的主題內(nèi)容,二是文本的文體風(fēng)格。因此,將“主題內(nèi)容”和“文體風(fēng)格”作為一組控制變量,經(jīng)過網(wǎng)絡(luò)檢索篩選,確定了TA和TB兩種文本,內(nèi)容主題都是“廈門”,TA是紀(jì)錄片解說詞文本,TB是散文文本。語料基本情況見表1*解說詞文本“《風(fēng)從大海來》——獻(xiàn)給廈門經(jīng)濟(jì)特區(qū)建設(shè) 30周年三集電視專題片解說詞”,來源: http://www.xm.gov.cn/xmyw/201112/t20111225_448528.htm, 日期2011-12-25。散文文本由三篇合成,分別為: 《悠閑的廈門》: http://www.tianya.cn/publicforum/Content/no16/1/70934.shtml, 日期2006-2-4;《難忘廈門風(fēng)姿》: http://lpssyy.blog.163.com/blog/static/387398200941822843373/, 日期2009-6-29;《懷念廈門》: http://blog.sina.com.cn/s/blog_5045f7f40100d9bf.html?tj=1, 日期2009-4-2。所用分詞軟件為ICTCLAS2016分詞系統(tǒng)。。
表1 TA、TB語料基本情況
文獻(xiàn)[14]指出,“頻級”是在由調(diào)查對象形成的列表中根據(jù)頻次的多少所劃分的級別,相同頻次或某一頻次段的調(diào)查對象可劃為一個(gè)頻序。在已有研究中,“頻級”既指按照“某一頻次段”的劃分,也指按照“相同頻次”而進(jìn)行的劃分。前者是根據(jù)研究需要而進(jìn)行的主觀劃分[9,11,13,19];后者是由頻次統(tǒng)計(jì)而自然形成的[5-6,8,10,12,15-16]。本文討論的是后者,稱為“頻序”(frequency order)。故頻序指調(diào)查對象按照頻次由高到低而形成的自然數(shù)序列。頻次最高的對象,其頻序?yàn)?;頻次相同的對象,其頻序相同。分別求出兩個(gè)文本中詞語的頻序,如表2所示。
表2 TA、TB的頻序
2.2 序差
序差(frequency order difference, FOD)是指兩個(gè)自然語言文本或文本集合的共有詞的頻序之差。根據(jù)定義,某詞的序差就等于該詞在兩個(gè)文本中的頻序之差。例如,“的”在TA和TB中的頻序都是1,則其序差為0;“我”在TA里的頻序是37,在TB里的頻序是3,則其序差為34;“海峽”在TA里的頻序是8,在TB里的頻序是35,則其序差為-27。
如果序差零散地排列,將無助于發(fā)現(xiàn)其數(shù)據(jù)特征,因此要對數(shù)據(jù)進(jìn)行處理和分析。序差是一組有正有負(fù)的數(shù)字,可以進(jìn)行升序或者降序排列,得到序差序列。將TA和TB共有的507個(gè)詞按序差升序排列得到序差序列,如表3所示。
關(guān)于“序差”有以下三點(diǎn)需要說明:
(1) 詞語序差的大小反映該詞在文本間的地位差別。文獻(xiàn)[15]指出“序差的大小反映了該詞在不同文本中的地位差別”。例如,“東南”的序差為2,反映該詞在TA和TB的地位差別不大;而“海峽”的序差為-27,說明其地位差別比“東南”大。
(2) 序差的大小指的是序差的絕對值,其正負(fù)反映的只是頻序相減的順序。例如,“城市”序差為3,“環(huán)境”序差為-3,序差的大小(絕對值)一樣,但“環(huán)境”的序差-3表示該詞在TA里的頻序要高于在TB里的頻序,“城市”則相反。
表3 TA-B序差序列表
(3) 修正序差。從表2可以看到TA和TB的頻序總數(shù)是不相等的,分別是39和35。兩個(gè)文本的頻序在大小值上是不對等的,這會對其反映詞語地位差別造成系統(tǒng)性影響,因此需要進(jìn)行兩端對齊的修正操作。兩端對齊是指以較大頻序數(shù)為基準(zhǔn),將頻序數(shù)少的文本的頻序按比例放大。在這里就是以TA(頻序數(shù)39)的頻序?yàn)榛鶞?zhǔn),將TB(頻序數(shù)35)的頻序進(jìn)行放大修正。修正公式如式(1)所示。
2.3 序差的“雙尾分布”特點(diǎn)
序差序列把詞語的“地位差別”集中并有序地表現(xiàn)出來。文獻(xiàn)[15]認(rèn)為,序差序列把不同文本之間的差異有序地排列出來,何者是有價(jià)值、價(jià)值最大的,區(qū)別特征一目了然。本文認(rèn)為序差序列對序差起了組織整理的作用,但由于序差數(shù)量眾多,并沒達(dá)到“一目了然”的效果。因此,本文用圖表方法對序差數(shù)據(jù)進(jìn)行描述和分析。
在表3的基礎(chǔ)上,按照序差(D)升序的排列順序,給每個(gè)詞從1開始順次標(biāo)號(r),則一個(gè)詞的位置在坐標(biāo)系中為(r,D),將全部507個(gè)詞按此方法表示在坐標(biāo)系中,得到序差的散點(diǎn)分布圖(圖1)。從修正前后來看,序差分布的趨勢基本相同,散點(diǎn)圖整體向x軸平移,散點(diǎn)的分布更加平滑。
圖1 TA-B序差雙尾圖
詞語序差分布散點(diǎn)圖在形態(tài)上很有特點(diǎn),呈“中段平直,雙尾翹曲”狀。眾所周知,齊普夫圖反映出詞頻和詞的序號之間呈“長尾分布”(long-tailed distribution)。根據(jù)序差序列的圖形分布特點(diǎn),類比稱之為“雙尾分布”(two-tailed distribution)。序差的雙尾分布反映出詞的序差和排序號之間的關(guān)系。
雙尾圖的分布形態(tài)特點(diǎn)反映出詞的序差不是無規(guī)律的。為了進(jìn)一步發(fā)掘序差的數(shù)據(jù)特點(diǎn),我們使用箱式圖及相關(guān)參數(shù)來描述和分析。箱式圖(boxplot)也稱箱須圖(box-whisker plot),采用一組數(shù)據(jù)中的最小觀測值(Lower bound)、第一四分位數(shù)(Q1)、中位數(shù)(Q2)、第三四分位數(shù)(Q3)、最大值觀測值(Upper bound)和中間四分位數(shù)極差(interquartile range, IQR)來反映數(shù)據(jù)分布的中心位置和散布范圍,可以對數(shù)據(jù)的離散分布程度、對稱性、異常值等進(jìn)行觀察和分析。
使用OriginPro 9.1計(jì)算并繪制507個(gè)詞的序差箱式圖(圖2),左邊的點(diǎn)狀圖為序差數(shù)據(jù)的箱式分布,右邊為序差的箱式圖,相關(guān)參數(shù)如圖2所示。根據(jù)箱式圖可以發(fā)現(xiàn):
圖2 TA-B序差箱式圖
(1) 序差呈對稱分布。從數(shù)值上來看,Q1(-1)和Q3(1.82)的絕對值差為0.82,Upper bound(9.71)和Lower bound(-9.06)的絕對值差為0.65,差距非常小;從箱式圖上可以看出,箱子的上下邊(Q3和Q1位置)和上下觸須(whisker)基本呈對稱分布;
(2) 序差集中分布于中位數(shù)附近。50%的序差都分布在-1(Q1)到1.82(Q3)之間,箱子的長度僅為2.82(IQR),箱子顯得非常扁平,這說明序差分布集中。結(jié)合序差的眾數(shù)(Mode)為0,平均數(shù)(Avg)為0.54,可以看出序差集中分布于中位數(shù)附近,稍稍向上偏移;
(3) 序差中存在離群值(Outlier)。在箱式圖分析中根據(jù)某個(gè)數(shù)據(jù)與觀測值的關(guān)系來認(rèn)定其是否游離于數(shù)據(jù)的整體特性之外,并單獨(dú)匯出。在圖2中我們將觀測值的系數(shù)(coef)設(shè)置為三個(gè)IQR,來確定觀測值(Upper bound和Lower bound),那么大于Upper bound(9.71)和小于Lower bound(-9.06)的序差就屬于離群值*在文獻(xiàn)[20]中,根據(jù)試驗(yàn)總結(jié)出利用序差的平均數(shù)和1.5個(gè)標(biāo)準(zhǔn)方差的和來確定分界,劃分序差層次的方法。在本文中用箱式圖分析取代了經(jīng)驗(yàn)做法。雖然使用的方法不同,但得出的結(jié)果卻非常接近,從而相互印證了方法的正確性。,見圖2所示Upper Outlier和Lower Outlier部分。
綜上所述,詞語序差的分布特點(diǎn)可以概括為: 對于文本的共有詞集,詞的序差呈對稱分布,且集中分布于中位數(shù)附近存在離群值序差。這一特點(diǎn)在序差圖上表現(xiàn)為“中段平直,雙尾翹曲”的“雙尾分布”形態(tài)。
詞語的序差分布特點(diǎn)有哪些語言學(xué)上的意義?對于分析文本特征又有哪些作用呢?下面從詞語序差的“雙尾分布”特點(diǎn)入手,提取出不同層次的詞語來分析其類聚特點(diǎn),并嘗試解釋其語言學(xué)意義,從而揭示序差分布所反映的文本間詞匯異同。
3.1 共有詞層次的劃分
詞語的序差代表的是詞語在文本間中的“地位差別”。序差的“雙尾分布”特點(diǎn)顯示,文本詞匯的使用具有層次性,可以憑借前面的分析結(jié)果客觀地劃分出詞語的層次。
結(jié)合序差圖可以發(fā)現(xiàn): “雙尾分布”可以分為三段——中段、上尾、下尾。中段詞語就是在TA和TB中的地位差異不大的詞語。越往兩邊的“尾巴”,詞語的序差越大,也就代表詞語在TA和TB中的地位差異越大。更具體地說,下尾(也就是序差值為負(fù))是在TA中頻序高、地位高的詞語,因而反映了TA的文本特點(diǎn);上尾(也就是序差值為正)是在TB中頻序高、地位高的詞語,因而反映的是TB的文本特點(diǎn)。
共有詞的層次可以依據(jù)箱式圖來進(jìn)行劃分。中段詞語的序差位于Upper bound和Lower bound之間;下尾詞語的序差為小于Lower bound的離群值;上尾詞語的序差為大于Upper bound的離群值。根據(jù)這個(gè)方法計(jì)算得出中段詞語的序差范圍是[-9.06, 9.71],包含詞語465個(gè),下尾詞語的序差范圍是[Min value, -9.06),包含詞語18個(gè),上尾詞語的序差范圍是(9.71, Max value],包含詞語24個(gè)。
影響文本詞匯分布有兩大因素,一是文本的主題內(nèi)容,二是文本的文體風(fēng)格[18]。主題內(nèi)容是文本構(gòu)建的概念意義。不同于逐字逐句理解文本的具體意義,概念意義可以說是文本具體意義的抽象,可以通過對詞匯的分析達(dá)到對文本概念意義的概括和表征。主題內(nèi)容對文本詞匯分布的影響是顯性的。文體風(fēng)格從語篇角度來講,它是文本表義傾向性模式的概括;從語言交際的角度來講,是說話者對語言形式的有意識選擇。不同的交際功能會作用于語言的使用,從而使得文本在詞匯方面具有選擇性。文體風(fēng)格對詞匯分布的影響相對隱性一些。文本的主題內(nèi)容和文體風(fēng)格是我們分析共有詞的不同層次反映文本特征時(shí)采用的兩個(gè)主要維度。
3.2 中段詞語與文本間的詞匯共性
465個(gè)中段詞語是TA、TB兩個(gè)文本中序差比較小的一群詞,也就是說它們在兩個(gè)文本中的頻序接近,地位接近,是兩個(gè)文本的共性體現(xiàn)。但是中段包含了大量的低頻序詞和少量的高頻序詞,比如“的”在兩個(gè)文本中的頻序都是1,所以序差(修正前)為0,而“居民”在兩個(gè)文本中的序差都是35,序差(修正前)也為0??梢?,單看序差會掩蓋兩者的差異,有必要分為高頻中段詞和低頻中段詞來討論。
高頻中段詞是指頻序在兩個(gè)文本中都在前50%的中段詞,共計(jì)12個(gè): 的、廈門、在、是、了(助詞)、年、城市、有、到、之、與、了(語氣詞)。從常用度來看,這些詞大多是常用詞??疾焖鼈冊凇冬F(xiàn)代漢語頻率詞典》中的頻序,“的”(1)、“在”(7)、“是”(3)、“了”(2),“年”(41)、“有”(8)、“到”(24)、“與”(182)、“之”(289)、“城市”(557)的頻序均在前3 000之內(nèi),屬于常用詞的范圍。 這里的“的、了、與、之、是、有、到”是大多數(shù)文本中都存在的常用助詞、介詞和動詞,反映的是兩個(gè)文本與整個(gè)詞匯系統(tǒng)之間的共性連接,在區(qū)分文本特點(diǎn)上的意義不大。而“城市”和“廈門”作為常用度稍低的詞語,且作為名詞指稱了相關(guān)的概念,直接體現(xiàn)了兩個(gè)文本在主題內(nèi)容上的共同點(diǎn)。
低頻中段詞是除開高頻部分的中段詞,共453個(gè),數(shù)量相對較多。單獨(dú)的一個(gè)低頻詞不足以反映文本的特點(diǎn),但是大量的低頻詞聚集在一起則會使文本內(nèi)容特征得到某種程度的浮現(xiàn)(emergence)。如低頻中段詞里的名詞“海、島、風(fēng)、城、機(jī)場、海域、閩南、旅游、地方、客輪、岸、沙灘、夢、花園、炮、故事、電話、白鷺、鋼琴、書、碼頭、音樂、濤聲、游人、海灘、日光、時(shí)間、藍(lán)色、小巷”可以勾勒出主題對象“廈門”的環(huán)境特征,而“海防、林語堂、建筑、鄭成功、集美、街巷、傳統(tǒng)、本島、漳州、北京、時(shí)光、騰飛、屈辱”則對廈門的歷史、地理圖景進(jìn)行了呈現(xiàn)。中段詞隨著共有詞數(shù)量的增加,其“異質(zhì)性”程度也會增加,需要用更具有概括度的方法對詞語聚類進(jìn)行描寫和分析,比如借助語義分類體系[21]。無論是高頻還是低頻,中段詞都可以反映出文本在主題內(nèi)容上的共性。
3.3 雙尾詞語與文本間的詞匯差異
雙尾部分為序差中的離群值,對應(yīng)到文本的詞匯特征上就是能反映文本差異的詞。越是“尾端”的詞,序差越大,也就說明該詞在兩個(gè)文本中的地位越不對等,就越能體現(xiàn)文本的差異性特點(diǎn)。
下尾詞語代表了解說詞文本TA的特點(diǎn),包括詞語“海峽、臺灣、中國、全國、等、這、大陸、大、以、經(jīng)濟(jì)特區(qū)、交流、從、為、個(gè)、金門、最、大海、國家” 。上尾詞語代表了散文文本TB的特點(diǎn),包括詞語“我、鼓浪嶼、去、看、那、如、小、不、上、中、很、這個(gè)、著、她、人、也、下、自己、得、過、就、地、走、聽”。
可以發(fā)現(xiàn),解說詞TA的特征詞中名詞多,如“海峽、臺灣、中國、全國、大陸、經(jīng)濟(jì)特區(qū)、交流、金門、大海、國家”等,這些詞語反映出解說詞TA的主題內(nèi)容偏向政治、經(jīng)濟(jì)、社會等方面,文體風(fēng)格上更傾向于敘述說明。相比較而言,散文TB中更多的是代詞“我、那、這個(gè)、她、自己”,動詞如“走、聽、去、看、如”,以及方位詞“上、中、下”,而名詞則很少,僅“鼓浪嶼”和“人”。這些詞雖屬于不同的詞類,但都說明散文TB在主題內(nèi)容上更注重個(gè)人的體驗(yàn),文體風(fēng)格上更傾向于記敘描寫。
綜合上面的分析,通過對詞語序差分析,能夠科學(xué)地劃分文本間詞匯使用的不同層次,中段詞語可以反映文本主題內(nèi)容的共性,而上尾和下尾詞語反映文本在主題內(nèi)容和文體風(fēng)格特征上的差異。
序差在風(fēng)格分析、文本相似度計(jì)算以及語言的統(tǒng)計(jì)特性方面具有應(yīng)用價(jià)值和啟示: 第一,本文建立了一套描述和分析序差的程序,能將文本間詞語地位差異加以量化,并在分析其分布規(guī)律的基礎(chǔ)上劃分層級,也就是依據(jù)序差給詞語對文本特征的反映能力賦予了權(quán)重,具有用于文本特征提取的價(jià)值;第二,序差反映文本間“共性中的差異性”,對文本的分析更加微觀細(xì)致,可以滿足顆粒度更小的文本風(fēng)格分析、相似度分析;第三,本文的分析顯示,序差的分布具有形態(tài)上的規(guī)律性,其中可能存在的、具有普遍意義的語言統(tǒng)計(jì)規(guī)律值得進(jìn)一步探討。
本文在已有關(guān)于“頻級”“頻序”研究的基礎(chǔ)上,著重考察詞語“序差”的分布特點(diǎn)。通過對解說詞和散文文本中共有詞集的序差的分析,本文發(fā)現(xiàn): 共有詞的序差呈對稱分布,且集中分布于中位數(shù)附近,存在離群值序差。這一特點(diǎn)在序差圖上表現(xiàn)為“中段平直,雙尾翹曲”的“雙尾分布”形態(tài)。根據(jù)詞語序差的分布規(guī)律,可以將文本共有詞劃分為“中段”“下尾”“上尾”三個(gè)層次。中段詞語反映文本的共性特征,下尾和上尾詞語反映兩個(gè)文本的差異性特征,這些特征具有反映文本的主題內(nèi)容和文體風(fēng)格的語言學(xué)意義。
與前人的研究相比,本文的貢獻(xiàn)在于引入結(jié)合散點(diǎn)圖和箱式圖的分析方法,改進(jìn)了基于序差的文本詞匯特征分析程序,更直觀地刻畫了詞語的序差分布形態(tài),對序差數(shù)據(jù)的分布特點(diǎn)進(jìn)行了討論和概括,并結(jié)合具體文本對序差的語言學(xué)意義進(jìn)行了初步探討。但本文對這一問題的討論仍然具有深入的空間,后續(xù)研究我們將以本文提出的分析程序,對更多類型的文本進(jìn)行考察,進(jìn)而發(fā)掘和測定更廣泛層面上序差分布的統(tǒng)計(jì)學(xué)規(guī)律;另一方面,探索序差分布規(guī)律應(yīng)用于詞匯計(jì)量、文本風(fēng)格分析、文本分類的方法和途徑,例如用序差指標(biāo)來選取文本詞匯特征,用于文本相似度計(jì)算、文本聚類等。
[1] 魯松,李曉黎,白碩.文本中詞語權(quán)重計(jì)算方法的改進(jìn)[J].中文信息學(xué)報(bào),2000,14(6):8-13.
[2] 廖浩,李志蜀,王秋野.基于詞語關(guān)聯(lián)的文本特征詞提取方法[J].計(jì)算機(jī)應(yīng)用,2007,27(12):3009-3012.
[3] 熊忠陽,黎剛,陳小莉.文本分類中詞語權(quán)重計(jì)算方法的改進(jìn)與應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(5):187-189.
[4] 徐建民,王金花,馬偉瑜.利用本體關(guān)聯(lián)度改進(jìn)的TF-IDF特征詞提取方法[J].情報(bào)科學(xué),2011,29(23402):279-283.
[5] G K Zipf, The Psycho-biology of language: An Introduction to dynamic philology[M].London: George Routledge amp; Sons Ltd., 1936.
[6] G K Zipf, Human behavior and the principle of least effort: An introduction to human ecology [M].New York amp; London: Hafner Publishing Company, 1965.
[7] G A Mitier, E B Newman, Tests of a statistical explanation of the rank-frequency relation for words in written English [J].American Journal of Psychology, 1958(71): 209-218.
[8] 關(guān)毅,王曉龍,張凱.現(xiàn)代漢語計(jì)算語言模型中語言單位的頻度-頻級關(guān)系[J].中文信息學(xué)報(bào),1999,13(02):9-16.
[9] 邢紅兵.現(xiàn)代漢語詞類使用情況統(tǒng)計(jì)[J].浙江師范大學(xué)學(xué)報(bào)(社會科學(xué)版),1999(03):27-30.
[10] 上海交通大學(xué)漢字編碼組,上海漢語拼音文字研究組.漢字信息字典[M].北京: 科學(xué)出版社,1988.
[11] 安華林,曲維光.《現(xiàn)代漢語詞典》釋義性詞語的統(tǒng)計(jì)與分級[J].語言文字應(yīng)用,2004(01):105-111.
[12] 蘇新春.計(jì)量方法在詞匯研究中的作用及頻序統(tǒng)計(jì)法[J].長江學(xué)術(shù),2007(02):118-124.
[13] 韓布新,任雪松.漢語輸入編碼中簡碼字、詞的合理選配[J].中文信息學(xué)報(bào),1995,9(04):41-50.
[14] 侯敏.語言資源建設(shè)與語言生活監(jiān)測相關(guān)術(shù)語簡介[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2010(02):30-33.
[15] 陳海波.序差在文本區(qū)別特征研究中的應(yīng)用[J].長江學(xué)術(shù),2010(04):112-117.
[16] 饒高琦,李宇明.基于70年報(bào)刊語料的現(xiàn)代漢語歷時(shí)穩(wěn)態(tài)詞抽取與考察[J].中文信息學(xué)報(bào),2016,20(06):49-58.
[17] 蘇新春.詞匯計(jì)量及實(shí)現(xiàn)[M].北京: 商務(wù)印書館,2010.
[18] G., Dee.Vocabulary input through extensive reading: A comparison of words found in Children’s narrative and expository reading materials [J].Applied Linguistics, 2004, 23(1):1-37.
[19] 楊繼本.認(rèn)知心理學(xué)在《漢字教學(xué)字典》研編中的應(yīng)用[J].心理科學(xué),1995(01):43-47.
[20] 劉銳.詞語的“序差”與文本詞匯特征研究[D]. 廈門大學(xué)碩士學(xué)位論文, 2016.
[21] 蘇新春.《現(xiàn)代漢語語義分類詞典》(TMC)研制中若干問題的思考[J].中文信息學(xué)報(bào),2008,22(05):12-21.
劉銳(1990—),碩士,研究助理,主要研究領(lǐng)域?yàn)樵~匯計(jì)量、語料庫語言學(xué)。
E-mail: liuruioscar@hotmail.com
孫碧澤(1990—),碩士,主要研究領(lǐng)域?yàn)楝F(xiàn)代漢語語法。
E-mail: sunbize_erlangshen@foxmail.com
龍?jiān)骑w(1991—),博士研究生,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)。
E-mail: csylong@comp.polyu.edu.hk
LexicalFrequencyRankDifferenceDistributionsBetweenTexts
LIU Rui1,4, SUN Bize2, LONG Yunfei3, WANG Shan4
(1. Department of Chinese Language and Literature, Xiamen University, Xiamen, Fujian 361005, China;2. Department of Chinese Language and Literature, Nanjing University, Nanjing, Jiangsu 210023,China;3. Department of Computing, The Hong Kong Polytechnic University, Hong Kong, China;4. Department of Chinese Language Studies, The Education University of Hong Kong, Hong Kong, China)
Based on previous studies on frequency and frequency rank of words, this paper focuses on the analysis of the frequency rank difference (FRD) from the perspective of lexical quantitative analysis. This paper reveals that for the common words between texts, the FRDs are distributed symmetrically and gathered around the median. This characteristic assumes a “two-tailed distribution”, which is flat in the middle and curving in both ends. Three lexical levels, i.e. middle, downward end and upward end, are summarized based on the FRD distributions. The middle lexicon reflects the common characteristics of the two texts, while the lexicon that belongs to both ends reflects their own distinctive features. These features are of linguistic significance in reflecting the thematic content and stylistic features of the texts.
frequency rank difference; two-tailed distribution; thematic content; stylistic features of the texts
1003-0077(2017)05-0008-06
TP391
A
2017-03-03定稿日期2017-05-16
香港教育大學(xué)(Internal Research Grant; Project No.: 15214,Activity Code: R3733,Reference Number: RG 92/2015-2016)