王鋒慧
(中國(guó)人民大學(xué) 文學(xué)院,北京 100872)
近年來(lái),學(xué)歷生成為來(lái)華留學(xué)生的主體(1)相關(guān)數(shù)據(jù)可參:http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/s5987/201904/t20190412_377692.html。。由于存在“需要使用學(xué)術(shù)漢語(yǔ)撰寫規(guī)范的學(xué)位論文”與“不能使用恰當(dāng)?shù)膶W(xué)術(shù)漢語(yǔ)詞匯”之間的矛盾,來(lái)華學(xué)歷生學(xué)習(xí)通用學(xué)術(shù)漢語(yǔ)詞匯的需求大大提升。
通用學(xué)術(shù)詞匯的存在可追溯到“英語(yǔ)作為外語(yǔ)(English as a Foreign Language,EFL)”的分類體系。Hutchinson和Waters將EFL二分為通用英語(yǔ)(General English,GE)和專門用途英語(yǔ)(English for Specific Purposes, ESP),前者服務(wù)于考試,后者服務(wù)于特殊目的[1](P16-19)。Jordan將專門用途英語(yǔ)(ESP)分為學(xué)術(shù)英語(yǔ)(English for Academic Purposes,EAP)和行業(yè)英語(yǔ)(English for Occupational Purposes,EOP),前者面向?qū)W術(shù)研究,后者面向工作;并進(jìn)一步將EAP分為通用學(xué)術(shù)英語(yǔ)(English for General Academic Purpose,EGAP)和專門學(xué)術(shù)英語(yǔ)(English for Specific Academic Purposes,ESAP)[2](P3)。Hyland指出,通用學(xué)術(shù)英語(yǔ)是所有學(xué)科共有的技能、語(yǔ)言形式和學(xué)習(xí)活動(dòng),如閱讀文獻(xiàn)、寫論文;專門學(xué)術(shù)英語(yǔ)則與特定學(xué)科下的技能和語(yǔ)言形式相關(guān)[3](P9)。類比EFL的分類體系,汲傳波按照使用場(chǎng)合將漢語(yǔ)二分為通用漢語(yǔ)和專門用途漢語(yǔ),認(rèn)為“學(xué)術(shù)漢語(yǔ)屬于專門用途漢語(yǔ),主要指從事專業(yè)學(xué)習(xí)和學(xué)術(shù)研究所使用的漢語(yǔ)”[4](P78);張赪等將學(xué)術(shù)漢語(yǔ)進(jìn)一步分為通用學(xué)術(shù)漢語(yǔ)和專門學(xué)術(shù)漢語(yǔ)[5](P20)。
針對(duì)“學(xué)生需要掌握哪些通用學(xué)術(shù)詞匯”這一問(wèn)題,英語(yǔ)學(xué)界的解決辦法之一是構(gòu)建通用學(xué)術(shù)詞表。Coxhead建制的Academic Word List[6](下文簡(jiǎn)稱AWL)及Gardner和Davies建制的Academic Vocabulary List[7](下文簡(jiǎn)稱AVL)是英文通用學(xué)術(shù)詞表的代表研究。張赪等指出“漢語(yǔ)學(xué)界尚未有學(xué)者研制出學(xué)術(shù)漢語(yǔ)詞匯表”[5](P22)——盡管這一說(shuō)法過(guò)于絕對(duì),但相關(guān)研究確實(shí)不多。有鑒于此,本文通過(guò)收集不同學(xué)科的漢語(yǔ)學(xué)術(shù)期刊論文自建語(yǔ)料庫(kù),采用更完備的、定量與定性相結(jié)合的篩選標(biāo)準(zhǔn),構(gòu)建一份更加科學(xué)的中文人文社科通用學(xué)術(shù)詞表。
本文是在通用學(xué)術(shù)漢語(yǔ)的范圍下研究“通用學(xué)術(shù)詞匯”,目標(biāo)是構(gòu)建中文人文社會(huì)科學(xué)領(lǐng)域通用學(xué)術(shù)詞表。理論上講,通用學(xué)術(shù)詞匯與通用一般詞匯、專用學(xué)術(shù)詞匯都存在交集,但下文的語(yǔ)料來(lái)源以及多重篩選標(biāo)準(zhǔn)的實(shí)施能夠基本保證本詞表所收詞語(yǔ)滿足以下兩點(diǎn):①更高頻地出現(xiàn)在通用學(xué)術(shù)漢語(yǔ);②相對(duì)低頻地出現(xiàn)在日常用語(yǔ)。下文主要使用“詞語(yǔ)”“詞匯”“條目”“N音節(jié)成分”對(duì)詞表所含內(nèi)容進(jìn)行稱呼。
為保證所選學(xué)科具有代表性,我們參考了《學(xué)科分類與代碼》[9]以及《來(lái)華留學(xué)生簡(jiǎn)明統(tǒng)計(jì)2017》[10]中的學(xué)科分類,并與劉貞妤等[8]所選學(xué)科相交集,確定了十大學(xué)科(見表1)。為保證學(xué)術(shù)期刊的權(quán)威性和時(shí)效性,參考了《人文社會(huì)科學(xué)期刊AMI綜合評(píng)價(jià)報(bào)告》(2018年)[11]對(duì)期刊影響力的評(píng)級(jí)和各期刊的復(fù)合影響因子,共選取了2018-2020年間的981篇期刊論文作為語(yǔ)料,總計(jì)約1000萬(wàn)字。
對(duì)獲取到的語(yǔ)料進(jìn)行轉(zhuǎn)換、清理,然后使用CorpusWordParser(2)http://corpus.zhonghuayuwen.org/Resources.aspx。作為分詞和標(biāo)注工具,使用AntConc3.5.8統(tǒng)計(jì)各子語(yǔ)料庫(kù)大小,數(shù)據(jù)結(jié)果如表1所示。
表1中的形符和類符將作為重要統(tǒng)計(jì)量參與下文的計(jì)算。“形符(token)”指文本包含的詞語(yǔ)總數(shù)?!邦惙?type)”指不重復(fù)計(jì)算的形符數(shù),即一個(gè)文本中重復(fù)出現(xiàn)的形符只能算作一個(gè)類符。
上文提到的代表性英文通用學(xué)術(shù)詞表之一AVL使用的篩選標(biāo)準(zhǔn)相對(duì)全面,包括“比率(Ratio)”“分布(Range)”“離散(Dispersion)”和“學(xué)科領(lǐng)域(Discipline)”[7](P313-323)。相比之下,中文通用學(xué)術(shù)詞表的篩選標(biāo)準(zhǔn)相對(duì)簡(jiǎn)單,量化程度也不高。劉貞妤等聲稱采用了“頻率”和“分布”,實(shí)際只詳述了“頻率”標(biāo)準(zhǔn),對(duì)“分布”的表述十分模糊[8](P51-54)。張赪等人選取了人文社科和自然科學(xué)的學(xué)術(shù)語(yǔ)料,重點(diǎn)關(guān)注其中有限的虛詞的使用特征,并未涉及大量的詞語(yǔ)篩選,基本依靠人工就可以找出這些虛詞[5](P19-27)。本文在Gardner和Davies的基礎(chǔ)上進(jìn)行調(diào)整,依次應(yīng)用了不同標(biāo)準(zhǔn)建制“中文通用學(xué)術(shù)詞表”。
1.預(yù)篩選
表1的總類符數(shù)75 564是未經(jīng)任何篩選的原始詞表中的條目,其中大部分都可以通過(guò)一些簡(jiǎn)單的標(biāo)準(zhǔn)刪去。首先,刪除每個(gè)子語(yǔ)料庫(kù)中帶有字母和僅出現(xiàn)1次的條目,得到38 203個(gè)類符。隨后,統(tǒng)計(jì)每個(gè)類符出現(xiàn)在幾個(gè)子領(lǐng)域中??紤]到一個(gè)詞語(yǔ)至少應(yīng)在半數(shù)以上的學(xué)科中出現(xiàn)才可能具有均勻的分布,同時(shí)參考劉貞妤等 “每個(gè)詞必須至少出現(xiàn)在8個(gè)學(xué)科”的標(biāo)準(zhǔn)[8](P52),本文設(shè)定一個(gè)詞語(yǔ)應(yīng)至少出現(xiàn)在7個(gè)學(xué)科,將38 203個(gè)類符大幅縮減至7 116個(gè)。此外,刪除了經(jīng)Corpus Word Parser標(biāo)注后的助詞、嘆詞、前接成分、非語(yǔ)素字、縮略語(yǔ)、擬聲詞、地名、機(jī)構(gòu)名、數(shù)詞、量詞、數(shù)量結(jié)構(gòu)、人名、姓,將7 116個(gè)類符進(jìn)一步縮減至6 700個(gè)。
2.比率
Gardner &Davies使用了“比率”(Ratio,以下簡(jiǎn)稱R1)這一篩選標(biāo)準(zhǔn),其核心思想是:一個(gè)詞語(yǔ)在學(xué)術(shù)語(yǔ)料庫(kù)中的觀察頻率(observed frequency,即出現(xiàn)的次數(shù),記作OF1)需要高于其在參照語(yǔ)料庫(kù)中的期望頻率(expected frequency,記作EF)[7](P314-316)。目的是清除高頻通用一般詞匯,得到高頻通用學(xué)術(shù)詞匯。某個(gè)詞語(yǔ)a的期望頻率為公式1(3)公式1是根據(jù)Gardner &Davies(2014)的敘述總結(jié)而來(lái),原文并沒(méi)有直接給出,下文公式2同。:EFa=(學(xué)術(shù)語(yǔ)料庫(kù)大小/參照語(yǔ)料庫(kù)大小)×OF2a×R1。
公式1中,學(xué)術(shù)語(yǔ)料庫(kù)大小是研究者選取或自建的語(yǔ)料庫(kù)大小,參照語(yǔ)料庫(kù)多為通用一般語(yǔ)料庫(kù),二者相除的目的是進(jìn)行標(biāo)準(zhǔn)化(normalization),得到學(xué)術(shù)語(yǔ)料庫(kù)所占參照語(yǔ)料庫(kù)之比;OF2a是詞語(yǔ)a在參照語(yǔ)料庫(kù)中的觀察頻率;R1是比率系數(shù),根據(jù)實(shí)際情況確定其取值,沒(méi)有固定標(biāo)準(zhǔn)。當(dāng)且僅當(dāng)OF1a>EFa,詞語(yǔ)a才予以保留并進(jìn)入到下一步篩選,否則不予收錄。
本文采用公式1進(jìn)行計(jì)算,各項(xiàng)取值如下:學(xué)術(shù)語(yǔ)料庫(kù)大小近似看作十大學(xué)科的形符數(shù)之和,即6 377 707(見表1);參照語(yǔ)料庫(kù)采用國(guó)家語(yǔ)委“語(yǔ)料庫(kù)在線”網(wǎng)站中的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù),大小近似看作其詞語(yǔ)總數(shù)12 842 116(4)數(shù)據(jù)來(lái)自網(wǎng)站http://corpus.zhonghuayuwen.org/index.aspx 。。理論上需要統(tǒng)計(jì)預(yù)篩選中6 700個(gè)詞語(yǔ)在該參照語(yǔ)料庫(kù)中的OF2和EF,但實(shí)際只能獲得出現(xiàn)次數(shù)大于50次的“現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)詞頻表”(下文簡(jiǎn)稱“參照詞頻表”),無(wú)法保證這6 700個(gè)詞語(yǔ)都能在“參照詞頻表”中找得到,所以會(huì)造成部分詞語(yǔ)的OF2和EF無(wú)法統(tǒng)計(jì)。其中有5 401個(gè)詞語(yǔ)出現(xiàn)在參照詞頻表中,可以計(jì)算OF2和EF,剩余1 299個(gè)詞語(yǔ)的篩選將通過(guò)標(biāo)準(zhǔn)5完成。本文測(cè)試了1.1-2.0之間不同的R1值,最終確定R1=1.35。R1過(guò)高(2.0)會(huì)丟失諸如“發(fā)展”“按照”“保持”等通用學(xué)術(shù)詞匯,R1過(guò)低(1.2)則會(huì)使一些通用一般詞匯(如:愛、阿、別人)進(jìn)入詞表。
綜上,我們統(tǒng)計(jì)了5 401個(gè)詞語(yǔ)在學(xué)術(shù)語(yǔ)料庫(kù)中的OF1,獲得了它們?cè)凇皡⒄赵~頻表”中對(duì)應(yīng)的OF2,代入公式1計(jì)算,以“發(fā)展”一詞為例可得其期望頻率為:EF發(fā)展=(6 377 707/12 842 116)×17 331×1.35=11 619.444 49,而“發(fā)展”一詞的OF1=193 15>EF發(fā)展,因此可以作為備選進(jìn)入通用學(xué)術(shù)詞表。
3.分布
分布(Range)這一標(biāo)準(zhǔn)的目的是盡可能去除局部高頻的詞匯(一般多為專用學(xué)術(shù)詞匯)。在嘗試了多組不同的數(shù)據(jù)后,我們決定跟Gardner和Davies[7](P316)保持一致,認(rèn)為在滿足“比率”的前提下,一個(gè)詞語(yǔ)應(yīng)至少出現(xiàn)在7個(gè)學(xué)科,且該詞語(yǔ)至少在7個(gè)學(xué)科下的觀察頻率(記作OF3)需高于其在對(duì)應(yīng)學(xué)科下期望頻率(記作EF’)的20%(20%同樣根據(jù)實(shí)際情況確定),下文用R2表示(即此時(shí)R2=0.2)。詞語(yǔ)a在不同學(xué)科下的EF’按照公式2計(jì)算:EF’a=EFa×(某一學(xué)科的語(yǔ)料庫(kù)大小/學(xué)術(shù)語(yǔ)料庫(kù)大小)×R2?!澳骋粚W(xué)科的語(yǔ)料庫(kù)大小/學(xué)術(shù)語(yǔ)料庫(kù)大小”是各子語(yǔ)料庫(kù)占學(xué)術(shù)語(yǔ)料庫(kù)的比例,EFa可由公式1求得,乘以R2便得到詞語(yǔ)a在某一學(xué)科下的期望頻率。
仍以“發(fā)展”一詞為例,代入公式2得到該詞在語(yǔ)言學(xué)、文學(xué)下的EF’分別為:
EF’發(fā)展=EF發(fā)展×(532 184/6 377 707)×0.2=193.915 5 (語(yǔ)言學(xué))
EF’發(fā)展=EF發(fā)展×(518 624/6 377 707)×0.2=188.974 588 5 (文學(xué))
“發(fā)展”一詞在這兩個(gè)學(xué)科下的OF3分別為982和418,均大于對(duì)應(yīng)的EF’。同時(shí),“發(fā)展”出現(xiàn)在十個(gè)學(xué)科中,經(jīng)計(jì)算其他八個(gè)學(xué)科同樣滿足OF3>EF’(結(jié)果從略)。將出現(xiàn)在“參照詞頻表”中的5 401個(gè)詞語(yǔ)逐一代入公式2進(jìn)行計(jì)算,得到同時(shí)滿足“比率”和“分布”標(biāo)準(zhǔn)的詞語(yǔ)共2 803個(gè)。
4.離散
離散(Dispersion)指一個(gè)詞語(yǔ)在語(yǔ)料庫(kù)中的分布均勻程度,通常由0~1之間的小數(shù)表示,值越大表示分布越均勻。Gries指出,唯“頻率”而不用“離散”篩選詞語(yǔ)是不全面、不準(zhǔn)確的[12](P100)。一個(gè)詞語(yǔ)可能具有很高的觀察頻率,卻因?yàn)閮H出現(xiàn)在一個(gè)子語(yǔ)料庫(kù)或一篇文本中,導(dǎo)致其分布很不均勻。
詞語(yǔ)的離散值有多種計(jì)算方法,其中應(yīng)用最廣泛的是Juilland’D(簡(jiǎn)稱“D”)[13]、DP[14],DA[14][15]也是常用的計(jì)算方法。Burch et al.比較了D、DP、DA三種方法后發(fā)現(xiàn):對(duì)于同一個(gè)詞,依據(jù)不同方法計(jì)算出的離散值不同,但始終存在D>DP>DA。Burch等人認(rèn)為DP和DA比D更準(zhǔn)確地反映了詞語(yǔ)的分布情況,但并未說(shuō)明DP和DA孰優(yōu)孰劣[14](P210)。Gardner和Davies采用Juilland’D(即D)計(jì)算離散值,設(shè)定閾值為0.8,即D≥0.8才被視作通用學(xué)術(shù)詞匯[7](P317),但他們沒(méi)有嘗試其他方法。本文則選用DP并設(shè)定閾值為0.5,即只有DP≥0.5的詞語(yǔ)才可以進(jìn)入通用學(xué)術(shù)詞表。
對(duì)得到的2 803個(gè)詞語(yǔ)應(yīng)用DP≥0.5后,只有2 109個(gè)詞語(yǔ)滿足條件被進(jìn)一步保留下來(lái)。
5.其他輔助標(biāo)準(zhǔn)
以上標(biāo)準(zhǔn)過(guò)濾掉了很大一部分詞語(yǔ),但存在遺留問(wèn)題。一方面,經(jīng)過(guò)預(yù)篩選保留的6 700個(gè)詞語(yǔ)里有1 299個(gè)未出現(xiàn)在“參照詞頻表”中,尚未經(jīng)任何篩選,其中同樣可能存在通用學(xué)術(shù)詞匯(命名為“Not-In-Reference”)。另一方面,我們同意Gardner和Davies“離散標(biāo)準(zhǔn)優(yōu)于分布標(biāo)準(zhǔn)”的看法[7](P317),并認(rèn)為“優(yōu)于”(is superior to)可作以下兩種理解:第一,“離散”比“分布”更能夠保證詞語(yǔ)分布的均勻性;第二,“離散”執(zhí)行程度更嚴(yán)格,確定閾值后基本不再調(diào)整,但R1和R2卻可以適當(dāng)放寬。也就是說(shuō),經(jīng)標(biāo)準(zhǔn)2和3過(guò)濾掉的2 598(5 401-2 803=2 598)個(gè)詞語(yǔ)中有一部分(命名為“Re-Filter”)可通過(guò)適當(dāng)調(diào)整R1、R2使其重新進(jìn)入通用學(xué)術(shù)詞匯。以下是這兩部分詞語(yǔ)的篩選方法:
(1)對(duì)“Not-In-Reference”詞語(yǔ)的篩選。首先考察了這1 299個(gè)詞語(yǔ)的DP值,同樣令DP≥0.5;然后保證每個(gè)詞語(yǔ)應(yīng)至少出現(xiàn)在7個(gè)學(xué)科領(lǐng)域且在每個(gè)領(lǐng)域出現(xiàn)的次數(shù)不少于10次,得到符合條件的詞語(yǔ)178個(gè)。
(2)對(duì)“Re-Filter”詞語(yǔ)的篩選。這2 598個(gè)詞語(yǔ)此前只應(yīng)用了“比率”和“分布”兩個(gè)標(biāo)準(zhǔn),尚未計(jì)算離散值。經(jīng)考察,其中有2 084個(gè)詞語(yǔ)滿足DP≥0.5(例如:DP否則=0.700,DP聯(lián)系=0.903),它們可能僅僅因?yàn)橛^察頻率略低于期望頻率而被排除在外。因此適當(dāng)下調(diào)R1至1.25,使得按照公式1、2計(jì)算后的EF和各學(xué)科領(lǐng)域下的EF’略微降低一些,同時(shí)保持R2和標(biāo)準(zhǔn)3中的其他閾值不變,保留了130個(gè)符合條件的詞語(yǔ)。
6.人工篩查
以上共得到2 109+178+130=2 417個(gè)詞語(yǔ),其中單音節(jié)成分有294個(gè),雙音節(jié)成分有1 891個(gè),三音節(jié)成分有175個(gè),四音節(jié)成分有56個(gè),四音節(jié)以上成分有1個(gè)。人工篩查的具體操作如下:首先,四音節(jié)以上成分直接刪除。其次,三、四音節(jié)成分盡量保留分詞工具直接切分得到的,對(duì)于短語(yǔ)或語(yǔ)塊一般不作進(jìn)一步切分,同時(shí)刪除了“美國(guó)人、中國(guó)人、關(guān)鍵詞、總書記”這四個(gè)詞語(yǔ),得到171個(gè)三音節(jié)和56個(gè)四音節(jié)成分。再次,對(duì)于1 891個(gè)雙音節(jié)成分,基本保留出現(xiàn)在《現(xiàn)代漢語(yǔ)詞典》(第7版)和漢典(https://www.zdic.net)中可以檢索到的條目,刪除了“北宋、父母、是以”等16個(gè)雙音節(jié)成分(5)這些雙音節(jié)成分,有的是典型的通用一般詞匯(如:子女),有的用于古漢語(yǔ)(如:是以)。。剩余未在《現(xiàn)代漢語(yǔ)詞典》和漢典中檢索到的雙音節(jié)條目,按照以下標(biāo)準(zhǔn)保留:(1)保留經(jīng)分詞工具標(biāo)注為連詞、介詞、副詞且在自建學(xué)術(shù)語(yǔ)料庫(kù)出現(xiàn)≥200次的成分;(2)保留“X于”“X為”“X到”“X出”“X向”“X達(dá)”“用X”“來(lái)X”“亦X”“之X”(X為某一語(yǔ)素);(3)額外保留了“重構(gòu)”“僅有”“相較”“預(yù)設(shè)”,它們?cè)谧越▽W(xué)術(shù)語(yǔ)料庫(kù)的觀察頻率均≥200。至此,1 891個(gè)雙音節(jié)成分縮減至1 803。最后,對(duì)于294個(gè)單音節(jié)成分,先保留標(biāo)注后的連詞、介詞、副詞;此外,學(xué)習(xí)者若掌握了能產(chǎn)性較高的語(yǔ)素,就可以更好地掌握由這些語(yǔ)素構(gòu)成的詞。因此如果一個(gè)單音節(jié)成分至少出現(xiàn)在5個(gè)已篩選出的雙音節(jié)成分中,則該單音節(jié)成分能產(chǎn)性較強(qiáng),予以保留。共得到127個(gè)符合條件的單音節(jié)成分。
綜合以上篩選標(biāo)準(zhǔn),最終確定本詞表包含的總詞語(yǔ)數(shù)為127+1 803+171+56=2 157個(gè)。將其命名為《中文人文社科通用學(xué)術(shù)詞表》(Chinese Humanity and Social Science Academic Vocabulary List,簡(jiǎn)稱CHSSAVL),參考《現(xiàn)代漢語(yǔ)詞典》(第7版)[16]修正了個(gè)別標(biāo)注錯(cuò)誤的詞類,其中包含951個(gè)動(dòng)詞性成分,713個(gè)名詞性成分,232個(gè)形容詞性成分和120個(gè)副詞性成分,以上四類構(gòu)成詞表的主體,占總數(shù)的93.46%。此外還收錄了54個(gè)連詞、22個(gè)介詞、21個(gè)代詞、43個(gè)習(xí)用語(yǔ)和1個(gè)后接成分,占6.54%。
“覆蓋率”是目前最常用的詞表評(píng)估角度之一,指目標(biāo)詞表的所有詞語(yǔ)在某一語(yǔ)料庫(kù)中出現(xiàn)的觀察頻率之和占該語(yǔ)料庫(kù)形符數(shù)的百分比。覆蓋率(簡(jiǎn)稱C)使用公式3計(jì)算:C=(目標(biāo)詞語(yǔ)在某一語(yǔ)料庫(kù)中出現(xiàn)的觀察頻率之和/該語(yǔ)料庫(kù)的形符數(shù))×100%。實(shí)際操作中很難獲取到某一語(yǔ)料庫(kù)的原始語(yǔ)料及其形符數(shù),但可以相對(duì)容易地獲取到該語(yǔ)料庫(kù)對(duì)應(yīng)的詞頻表,因此可以將詞頻表中所有詞語(yǔ)出現(xiàn)的頻率之和近似看作該語(yǔ)料庫(kù)的形符數(shù)。這一小節(jié)計(jì)算了CHSSAVL在幾個(gè)不同類型語(yǔ)料庫(kù)下的覆蓋率,以驗(yàn)證該詞表確實(shí)是通用學(xué)術(shù)詞表而非其他性質(zhì)的詞表。
1.針對(duì)自建學(xué)術(shù)語(yǔ)料庫(kù)的覆蓋率檢驗(yàn)
CHSSAVL全部2 157個(gè)詞語(yǔ)在自建學(xué)術(shù)語(yǔ)料庫(kù)下的覆蓋率如下:
表2 CHSSAVL在自建學(xué)術(shù)語(yǔ)料庫(kù)下的覆蓋率
2.針對(duì)通用一般語(yǔ)料庫(kù)的覆蓋率檢驗(yàn)
國(guó)家語(yǔ)委“語(yǔ)料庫(kù)在線”網(wǎng)站中的“現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)詞頻表”(即上文的“參照詞頻表”),其形符數(shù)可以近似看作一個(gè)通用一般語(yǔ)料庫(kù)的大小,此處稱作“現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)”。檢驗(yàn)CHSSAVL在該語(yǔ)料庫(kù)下的覆蓋率,結(jié)果如下:
該覆蓋率(24.54%)明顯低于基于自建學(xué)術(shù)語(yǔ)料庫(kù)下的覆蓋率(45.40%),說(shuō)明本詞表是通用學(xué)術(shù)詞表,所收詞語(yǔ)更多地出現(xiàn)在學(xué)術(shù)語(yǔ)料中。
3.針對(duì)BCC中非學(xué)術(shù)語(yǔ)料庫(kù)的覆蓋率檢驗(yàn)
BCC語(yǔ)料庫(kù)官網(wǎng)“下載”專區(qū)可供開放下載不同領(lǐng)域的詞頻表,我們選取了“微博”“文學(xué)”“新聞”“科技”四個(gè)領(lǐng)域的詞頻表作為非學(xué)術(shù)語(yǔ)料庫(kù),檢驗(yàn)覆蓋率得到如下結(jié)果:
表4 CHSSAVL在BCC非學(xué)術(shù)語(yǔ)料庫(kù)下的覆蓋率
表4顯示CHSSAVL在以上語(yǔ)料庫(kù)中的覆蓋率均明顯低于自建學(xué)術(shù)語(yǔ)料庫(kù)下的覆蓋率(45.40%),再次驗(yàn)證了本詞表是“通用學(xué)術(shù)詞表”。而CHSSAVL在以上四個(gè)領(lǐng)域的覆蓋率依次遞增,說(shuō)明越接近學(xué)術(shù)語(yǔ)體,本詞表的覆蓋率越高;反之,越接近口語(yǔ)或與學(xué)術(shù)語(yǔ)體相差較大的文本集合,覆蓋率越低。
對(duì)比CHSSAVL與《HSK考試大綱》[17](以下簡(jiǎn)稱《大綱》)所收詞匯后發(fā)現(xiàn),有1 202個(gè)未被《大綱》收錄,說(shuō)明學(xué)習(xí)者即使掌握了《大綱》的全部詞匯,仍有55.73%(1 202/2 157)的通用學(xué)術(shù)詞匯未能得到學(xué)習(xí)。對(duì)比CHSSAVL與《國(guó)際中文教育中文水平等級(jí)標(biāo)準(zhǔn)》[18](以下簡(jiǎn)稱《標(biāo)準(zhǔn)》)所收詞匯后發(fā)現(xiàn),即使《標(biāo)準(zhǔn)》在《大綱》基礎(chǔ)上增收了大量詞匯,仍有506個(gè)CHSSAVL中的詞語(yǔ)未被《標(biāo)準(zhǔn)》收錄,約占23.46%(506/2 157)。
本研究提供了一個(gè)相對(duì)完整、可復(fù)現(xiàn)的中文人文社科領(lǐng)域通用學(xué)術(shù)詞表建制過(guò)程,并對(duì)其進(jìn)行了評(píng)估,主要結(jié)論如下:第一,依次通過(guò)不同篩選標(biāo)準(zhǔn)得到了包含2 157個(gè)詞語(yǔ)的《中文人文社科通用學(xué)術(shù)詞表》,其中動(dòng)詞、名詞、形容詞和副詞性成分是詞表的主體,占總數(shù)的93.46%。第二,CHSSAVL在自建學(xué)術(shù)語(yǔ)料庫(kù)中的覆蓋率高于其在通用一般語(yǔ)料庫(kù)和各種非學(xué)術(shù)語(yǔ)料庫(kù)中的覆蓋率,說(shuō)明該詞表確實(shí)是通用學(xué)術(shù)詞表而非其他性質(zhì)的詞表。第三,《大綱》和《標(biāo)準(zhǔn)》中的詞匯分別涵蓋了CHSSAVL所收詞匯的44.27%和76.54%,僅學(xué)習(xí)通用漢語(yǔ)教學(xué)的詞匯大綱難以滿足來(lái)華學(xué)歷生學(xué)術(shù)寫作需求。
安陽(yáng)師范學(xué)院學(xué)報(bào)2023年4期