嚴(yán)恒斌
(廣東外語外貿(mào)大學(xué) 外國語言學(xué)及應(yīng)用語言學(xué)研究中心雙語認(rèn)知與發(fā)展實(shí)驗(yàn)室, 廣州 廣東 510420)
詞塊(Lexical Bundles)是自然語言中高頻、反復(fù)出現(xiàn)的多詞表達(dá)式(Biber et al.,1999)。語言習(xí)得研究發(fā)現(xiàn),作為一種程式語,詞塊有著重要的結(jié)構(gòu)、語篇和語用功能,其整存整取的處理優(yōu)勢,能提高語言表達(dá)的效率、流利度和地道性,因此在語言習(xí)得過程中有著重要作用,也是衡量語言使用者語言能力的一個(gè)重要指標(biāo)(Lewis,2008;Stengers et al.,2011;張凌巖、陳瑩,2011;Conklin & Schmitt,2012)。近年興起的語料庫驅(qū)動(dòng)的詞塊研究范式(Biber et al.,1999,2004)基于頻率和分布指標(biāo),從大規(guī)模語料中提取真實(shí)語境的詞塊使用樣本,有效克服了傳統(tǒng)短語學(xué)研究范式效率、客觀性和代表性方面的不足,因而成為詞塊研究的主流。然而,目前二語詞塊研究所采用的提取標(biāo)準(zhǔn)和統(tǒng)計(jì)方法缺乏統(tǒng)一性和嚴(yán)謹(jǐn)性(del & Erman,2012),降低了結(jié)論的可信度和可比性(Paquot & Granger,2012),導(dǎo)致詞塊研究文獻(xiàn)中出現(xiàn)對相同問題的不同、甚至相悖的結(jié)論。本研究從學(xué)習(xí)者水平和詞塊輸出數(shù)量的關(guān)系出發(fā),參照主流提取標(biāo)準(zhǔn)和統(tǒng)計(jì)方法,利用ETS標(biāo)準(zhǔn)化考試語料進(jìn)行實(shí)驗(yàn)對比,探討不同標(biāo)準(zhǔn)和方法所帶來的定量差異及其對分析結(jié)果的影響。
Biber(1999)首先提出語料庫驅(qū)動(dòng)的研究范式,根據(jù)頻率和分布標(biāo)準(zhǔn)提取詞塊,但該范式對詞塊的界定并沒有統(tǒng)一標(biāo)準(zhǔn)。Biber et al.(2004)和Biber & Barbieri(2007)提出使用較為“保守”的頻率(每個(gè)詞塊至少每百萬詞出現(xiàn)40次,即40次/MW)和分布標(biāo)準(zhǔn)(出現(xiàn)于5個(gè)不同文本),但同時(shí)承認(rèn)該提取標(biāo)準(zhǔn)的設(shè)定較為“隨意”(arbitrary)(Biber et al.,2004)。國內(nèi)學(xué)者許家金、許宗瑞(2007)亦指出,這種標(biāo)準(zhǔn)是基于經(jīng)驗(yàn)得出的,并沒有統(tǒng)計(jì)學(xué)的依據(jù)。實(shí)際操作中,研究者會(huì)根據(jù)提取的詞塊數(shù)量是否足夠少、便于人工分析來反推所選用的標(biāo)準(zhǔn)(Appel & Wood,2016;Chen & Baker,2016)。因此,不同研究采用的提取標(biāo)準(zhǔn)常有較大差異。表1總結(jié)了近年國內(nèi)外二語習(xí)得領(lǐng)域詞塊研究所采用的頻率和分布標(biāo)準(zhǔn)。
表1 主流二語詞塊研究的詞塊提取標(biāo)準(zhǔn)和統(tǒng)計(jì)方法
從表1可見,主流詞塊研究所設(shè)定的詞塊提取標(biāo)準(zhǔn)并不統(tǒng)一。大部分研究考慮了語料庫大小對詞塊頻率的影響而對詞塊頻率進(jìn)行了標(biāo)準(zhǔn)化,即計(jì)算每百萬詞出現(xiàn)次數(shù),但也有三分之一左右的研究采用了原始頻數(shù)。具體頻率標(biāo)準(zhǔn)從5次/MW到210次/MW不等,主流是Biber et al.(2004)提出的40次/MW。上述結(jié)果總體上與Bestgen(2018)對不同領(lǐng)域的詞塊研究的調(diào)查結(jié)果相近。詞塊分布標(biāo)準(zhǔn)方面,約三分之二的研究采用固定的文本數(shù)量,3-15個(gè)文本不等。另有三分之一根據(jù)語料庫總文本數(shù)量設(shè)定比例,4%-10%不等。此外還有個(gè)別研究只設(shè)定頻率標(biāo)準(zhǔn)而不考慮分布標(biāo)準(zhǔn)。
近年來,詞塊研究者逐漸意識(shí)到推斷統(tǒng)計(jì)方法在詞塊研究中的重要作用。目前,詞塊研究普遍使用的推斷統(tǒng)計(jì)方法如卡方檢驗(yàn)(Chen & Baker,2010),對數(shù)似然檢驗(yàn)(del & Erman,2012;徐昉,2012;Chen & Baker,2016)等,多為詞袋模型,其重要假設(shè)是語料庫中所有單詞相互獨(dú)立。但近年統(tǒng)計(jì)學(xué)相關(guān)研究(Lijffijt et al.,2016;Gablasova et al.,2017)發(fā)現(xiàn),由于同一個(gè)文本中的單詞并非相互獨(dú)立,上述錯(cuò)誤假設(shè)會(huì)導(dǎo)致過高估計(jì)差異的顯著性,因此不適用于語料庫樣本的統(tǒng)計(jì),而應(yīng)采用t檢驗(yàn)、ANOVA、Wilcoxon Rank-Sum檢驗(yàn)等以文本為獨(dú)立測量單位的統(tǒng)計(jì)方法。
遺憾的是,目前國內(nèi)外的詞塊研究中,基于文本樣本的推斷統(tǒng)計(jì)方法尚未成為主流。為了解不同統(tǒng)計(jì)方法對詞塊計(jì)量分析的影響,我們將傳統(tǒng)描述統(tǒng)計(jì)方法和推斷統(tǒng)計(jì)方法同時(shí)應(yīng)用于相同語料,并對比分析兩者結(jié)果的異同。
多項(xiàng)研究表明,詞塊輸出是衡量學(xué)習(xí)者語言水平的重要指標(biāo)(Lewis,2008;Stengers et al.,2011)。然而,對于學(xué)習(xí)者詞塊輸出數(shù)量是否隨著語言水平提高而增加的問題,學(xué)界至今仍未達(dá)成一致共識(shí)。多項(xiàng)研究對水平分組的學(xué)習(xí)者語料進(jìn)行了對比,調(diào)查組間的詞塊輸出異同。Chen & Baker(2016)、Huang(2015)、Qin(2014)對學(xué)習(xí)者學(xué)術(shù)寫作語料的研究顯示,學(xué)習(xí)者詞塊輸出數(shù)量總體上隨語言水平提高而增加。然而,Staples et al.(2013)和Appel & Wood(2016)對比不同水平分組的學(xué)習(xí)者作文后卻得到相反結(jié)論,即低水平學(xué)習(xí)者總體上傾向使用更多的詞塊。除水平分組對比外,多個(gè)研究把本族語者(L1)作為理想的高水平語言使用者與學(xué)習(xí)者(L2)的詞塊輸出進(jìn)行對比,得出了類似的矛盾結(jié)論(Chen & Baker,2010;Hyland,2008a;R?mer,2009;徐昉,2012;del & Erman,2012)。
Paquot & Granger(2012)指出,由于詞塊界定標(biāo)準(zhǔn)差異等因素,自動(dòng)提取的二語詞塊結(jié)果難以直接比較。黃開勝、周新平(2016)推測,文獻(xiàn)中關(guān)于二語詞塊輸出數(shù)量的矛盾結(jié)論很可能是由于研究對象或詞塊界定標(biāo)準(zhǔn)的差異而造成的。另一方面,描述統(tǒng)計(jì)方法在精確性等方面的不足可能進(jìn)一步降低了不同結(jié)論的可比性。隨著詞塊應(yīng)用日益廣泛和深入,如能為不同研究之間的分析和對比提供更明晰可靠的標(biāo)準(zhǔn)和方法,將對該研究范式有重大意義。然而遺憾的是,目前仍沒有研究對詞塊界定標(biāo)準(zhǔn)和對比方法進(jìn)行過深入研究。本研究從學(xué)習(xí)者語言水平與詞塊輸出之間的關(guān)系出發(fā),對詞塊提取標(biāo)準(zhǔn)和統(tǒng)計(jì)方法進(jìn)行探討,以填補(bǔ)這個(gè)空白。為此,我們提出以下研究問題:
(1)不同的詞塊提取標(biāo)準(zhǔn)(頻率和分布)是否會(huì)影響不同水平分組間詞塊數(shù)量的比較結(jié)果?
(2)相對于傳統(tǒng)描述統(tǒng)計(jì),基于文本樣本的推斷統(tǒng)計(jì)方法能否提高組間比較結(jié)果的穩(wěn)定性和精確性?
本研究所采用的語料來自ETS非母語書面英語語料庫(ETS Corpus of Non-Native Written English)(Blanchard et al.,2013)。該語料庫包含11個(gè)不同母語背景的英語學(xué)習(xí)者的托??荚囎魑?,每個(gè)母語收集1,100篇作文,共12,100篇。每篇作文由至少兩名ETS專家進(jìn)行水平評分,分成高、中、低三個(gè)水平分組。由于語料庫中三個(gè)分組的文本數(shù)量不平均,為確保可比性,在保證母語背景、寫作題目的數(shù)量平衡的前提下,從語料庫中的每個(gè)水平組隨機(jī)抽取了400篇作文,共1200篇。每個(gè)分組的作文數(shù)量及形符數(shù)見表 2。
表2 ETS非母語英語書面語語料庫數(shù)量及形符數(shù)
本研究關(guān)注詞塊提取的頻率及分布標(biāo)準(zhǔn)(自變量)對從不同分組中提取的詞塊數(shù)量(因變量)的影響。我們以Biber et al.(2004)提出的提取標(biāo)準(zhǔn)作為自變量的基準(zhǔn),即以出現(xiàn)頻率每百萬詞40次、分布在5個(gè)或以上的不同文本作為詞塊提取的門檻。在其中一個(gè)自變量維持和基準(zhǔn)相等的前提下,通過調(diào)整另一個(gè)自變量的值(從低到高)來觀察其對提取結(jié)果及水平分組間對比的影響。在參考主流詞塊文獻(xiàn)的標(biāo)準(zhǔn)后,我們設(shè)定了兩個(gè)變量的具體賦值區(qū)間。詞塊頻率設(shè)定為出現(xiàn)10-100次/百萬詞之間,每次實(shí)驗(yàn)遞增10次/百萬詞,而分布標(biāo)準(zhǔn)設(shè)定為出現(xiàn)在2、3、 4、 5、 8、10、15個(gè)和5%不同文本。
在按照上述標(biāo)準(zhǔn)提取的候選詞塊基礎(chǔ)上,進(jìn)一步去除重疊詞塊和內(nèi)容詞塊。重疊詞塊是指兩個(gè)或以上的被某個(gè)更長的詞塊所包含的詞塊。Chen & Baker(2010)指出,相互重疊的詞塊會(huì)導(dǎo)致頻率被重復(fù)計(jì)算,影響頻率的準(zhǔn)確性。內(nèi)容詞塊也叫上下文相關(guān)詞塊,是指由于某個(gè)特定的語境(如某個(gè)作文題目)和使用者背景(如所在地)而出現(xiàn)的詞塊。多個(gè)研究(Staples et al.,2013;Huang,2015)表明,移除內(nèi)容詞塊與否會(huì)影響詞塊頻率比較的結(jié)論。為保證詞塊統(tǒng)計(jì)的準(zhǔn)確性,我們按照Chen & Baker(2010,2016)所述方法對兩者進(jìn)行過濾。
3.3.1 描述統(tǒng)計(jì)
我們首先按照Biber et al.(1999, 2004)范式,利用描述統(tǒng)計(jì)方法測量組間的詞塊頻率的分布和趨勢。在計(jì)算每個(gè)分組的詞塊數(shù)量時(shí),記錄該分組的詞塊類符總數(shù)。評定兩個(gè)分組的詞塊輸出高低一般通過詞塊類符數(shù)量及其組間相對排名的直接比較,但對判斷組間差異是否顯著并無明確標(biāo)準(zhǔn)(Biber et al.,2004;Qin,2014;Appel & Wood,2016)。在利用描述統(tǒng)計(jì)進(jìn)行組間比較時(shí),可觀察不同提取標(biāo)準(zhǔn)下每個(gè)分組提取的詞塊數(shù)量及其相對排名。若三個(gè)分組相對排名保持不變,可認(rèn)為提取標(biāo)準(zhǔn)的改變不影響基本結(jié)論,否則可認(rèn)為對結(jié)論構(gòu)成影響。
3.3.2 基于文本樣本的推斷統(tǒng)計(jì)
作為與描述統(tǒng)計(jì)的對比,我們按照相關(guān)統(tǒng)計(jì)學(xué)研究(Lijffijt et al.,2016;Gablasova et al.,2017)的建議,采用推斷統(tǒng)計(jì)方法對組間差異進(jìn)行檢驗(yàn)。在提取每個(gè)分組符合標(biāo)準(zhǔn)的詞塊后,分別計(jì)算每個(gè)文本所含詞塊的頻數(shù),然后應(yīng)用推斷統(tǒng)計(jì)方法進(jìn)行組間對比。由于詞塊輸出頻數(shù)和文本長度之間存在一定的相關(guān)性(在不同提取標(biāo)準(zhǔn)下r≈0.2-0.34,p<0.001,即文本越長,文本所含詞塊越多),對學(xué)習(xí)者水平主變量的單因素考察難以揭示其對詞塊輸出頻數(shù)的真正影響,因此我們采用ANCOVA(協(xié)方差分析),在對文本長度進(jìn)行統(tǒng)計(jì)控制的情況下,考察學(xué)習(xí)者水平的效應(yīng)。
根據(jù)研究設(shè)計(jì)設(shè)定的頻率及分布標(biāo)準(zhǔn),我們對三個(gè)水平分組中的詞塊進(jìn)行了提取,并分別利用描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)兩種方法對提取結(jié)果進(jìn)行對比分析。
圖1 三個(gè)水平分組在不同頻率標(biāo)準(zhǔn)下的詞塊類符數(shù)量
圖2 三個(gè)水平分組在不同分布標(biāo)準(zhǔn)下的詞塊類符數(shù)量
如圖1和圖2所示,隨著頻率和分布標(biāo)準(zhǔn)的提高,提取的詞塊類符數(shù)量總體呈下降趨勢,但三個(gè)水平分組的下降幅度存在差異,導(dǎo)致三個(gè)分組的相對位置在不同標(biāo)準(zhǔn)下發(fā)生改變。以頻率標(biāo)準(zhǔn)為例,當(dāng)提取標(biāo)準(zhǔn)為10次/MW時(shí),三個(gè)分組的詞塊數(shù)量按高、中、低排列,且差異明顯,高水平組比中水平組高約30%,而后者則比低水平組高約60%。值得注意的是,當(dāng)頻率標(biāo)準(zhǔn)低于30次/MW時(shí),三個(gè)分組的詞塊數(shù)量保持不變。這是因?yàn)楫?dāng)分布標(biāo)準(zhǔn)按基準(zhǔn)設(shè)為5個(gè)不同文本時(shí),根據(jù)分組語料庫的實(shí)際大小進(jìn)行標(biāo)準(zhǔn)化后的實(shí)際頻率門檻為34次/MW到60次/MW之間,若該門檻高于頻率變量當(dāng)前值,則成為事實(shí)上的頻率標(biāo)準(zhǔn)。由此可見,兩個(gè)變量的實(shí)際效果受語料庫大小的影響,存在互相競爭的關(guān)系。當(dāng)門檻為40次/MW時(shí),高、中水平分組之間差距急劇縮小,中水平分組首次反超高水平分組。50次/WM和60次/MW時(shí)相對排名連續(xù)發(fā)生變化。而與此同時(shí),低水平詞塊數(shù)量因受分布標(biāo)準(zhǔn)制約而保持不變。70次/WM之后,三個(gè)分組差異趨平穩(wěn),低水平分組處于相對高點(diǎn),而中高水平分組無明顯差別。
圖3 三個(gè)水平分組在不同頻率標(biāo)準(zhǔn)下文本平均詞塊頻次數(shù)
圖4 三個(gè)水平分組在不同分布標(biāo)準(zhǔn)下文本平均詞塊頻次數(shù)
圖3和圖4顯示,若基于文本樣本對文本平均詞塊頻次進(jìn)行統(tǒng)計(jì),則不同水平分組的詞塊頻次在不同標(biāo)準(zhǔn)下的相對位置保持恒定。三個(gè)分組的平均詞塊頻數(shù)按高、中、低水平依次排列,即高水平語料中平均每個(gè)文本詞塊輸出最多,中水平次之,低水平最少。這似乎符合我們的直覺:如果詞塊輸出數(shù)量是學(xué)習(xí)者水平的反映,在水平保持恒定的前提下,即使提取標(biāo)準(zhǔn)變化,每個(gè)分組所對應(yīng)的詞塊數(shù)量理應(yīng)也保持相對恒定。但是,不同水平語料的詞塊仍可能受文本長度和采樣誤差等偶然因素影響。為查明各水平分組之間的差異是否顯著,須對頻次均值進(jìn)行方差分析檢驗(yàn)。
表3 不同標(biāo)準(zhǔn)下的水平分組ANCOVA檢驗(yàn)結(jié)果
我們以學(xué)習(xí)者語言水平為自變量,作文文本長度(單詞數(shù)量)為協(xié)變量,文本輸出詞塊數(shù)量為因變量進(jìn)行協(xié)方差分析(ANCOVA)。正態(tài)性檢驗(yàn)顯示,詞塊頻次數(shù)據(jù)不符合正態(tài)分布③。為確保ANCOVA的功效④,使用Permutation(置換)檢驗(yàn)⑤(5000次隨機(jī)排列)進(jìn)行ANCOVA的統(tǒng)計(jì)顯著性檢測。ANCOVA分析結(jié)果表明,在控制文本長度的因素后,三個(gè)水平分組的詞塊頻次差異在不同標(biāo)準(zhǔn)下呈現(xiàn)不同的顯著性。當(dāng)頻率標(biāo)準(zhǔn)為50次/MW以下時(shí),不同水平分組的詞塊輸出差異高度顯著(p<0.001)。當(dāng)標(biāo)準(zhǔn)提升至50次/MW及以上時(shí),差異顯著性消失。另一方面,當(dāng)分布標(biāo)準(zhǔn)為4個(gè)文本或以下時(shí),水平分組之間的詞塊數(shù)量差異不顯著,而在5個(gè)文本或以上時(shí)變得顯著(p<0.001)。
上述結(jié)果顯示,提取標(biāo)準(zhǔn)的改變會(huì)導(dǎo)致水平分組間詞塊數(shù)量相對排名發(fā)生變化,而統(tǒng)計(jì)方法對排名的穩(wěn)定性有直接影響。在采用描述性統(tǒng)計(jì)方法時(shí),依照主流詞塊研究方法所提取的詞塊數(shù)量在不同標(biāo)準(zhǔn)下有較大波動(dòng),而這種波動(dòng)會(huì)導(dǎo)致分組的相對排名發(fā)生變化,從而影響數(shù)據(jù)分析結(jié)果乃至整個(gè)研究結(jié)論。盡管詞塊常被定義為以大于偶然的概率共現(xiàn)的多詞單位(Crossley & Salsbury,2011),但由于詞塊提取的頻率和分布標(biāo)準(zhǔn)的設(shè)定沒有統(tǒng)計(jì)學(xué)依據(jù),所以無法準(zhǔn)確衡量詞塊的出現(xiàn)頻次是否大于偶然概率。在不同標(biāo)準(zhǔn)下任意多詞單位都可能由于采樣誤差等偶然因素而被界定為詞塊,從而影響所在分組的詞塊數(shù)量。隨著提取標(biāo)準(zhǔn)變得更加嚴(yán)格,提取的詞塊數(shù)量下降,但每個(gè)分組的下降幅度在偶然因素作用下有所不同,因此造成組間相對排名的變化。在實(shí)際研究中,詞塊提取標(biāo)準(zhǔn)設(shè)定的任意性(Biber et al.,2004)有可能導(dǎo)致在使用相同語料的條件下得到相反的結(jié)論。文獻(xiàn)中學(xué)習(xí)者語言水平與詞塊輸出數(shù)量之間之所以呈現(xiàn)相反的關(guān)系很可能是由于不同研究間提取標(biāo)準(zhǔn)和統(tǒng)計(jì)方式出現(xiàn)了差異。事實(shí)上,本研究所用語料嚴(yán)格控制了文體、樣本數(shù)量等差異以減少分組差異帶來的影響,而目前主流詞塊研究由于普遍沒有采用相應(yīng)控制手段,其波動(dòng)幅度可能更加明顯。
另一方面,如采用推斷統(tǒng)計(jì)方法,分組間的比較結(jié)果在不同標(biāo)準(zhǔn)下保持了相對恒定。這可能是由于推斷統(tǒng)計(jì)方法以文本樣本為獨(dú)立測量單位進(jìn)行統(tǒng)計(jì),糾正了詞袋模型的錯(cuò)誤假設(shè),同時(shí)通過回歸模型對每個(gè)文本的長度差異因素進(jìn)行了控制,從而導(dǎo)致測量精度的提升。推斷統(tǒng)計(jì)結(jié)果顯示,學(xué)習(xí)者水平和詞塊輸出數(shù)量總體呈正比關(guān)系,但這種正比關(guān)系并非在所有提取標(biāo)準(zhǔn)下都能成立。當(dāng)頻率標(biāo)準(zhǔn)為50次/MW以上時(shí),不同水平分組的詞塊輸出差異顯著性消失,這可能意味著不同水平學(xué)習(xí)者間的差異不在于在最常見的高頻詞塊,而在于中低頻次的詞塊使用。當(dāng)分布標(biāo)準(zhǔn)為4個(gè)文本或以下,水平分組之間的詞塊輸出差異不顯著,這似乎說明了低文本復(fù)現(xiàn)率模糊了有代表性的詞塊和少量學(xué)習(xí)者使用的詞塊的界限,從而導(dǎo)致無法有效區(qū)分水平。上述結(jié)果揭示了由于提取標(biāo)準(zhǔn)對詞塊所起的界定作用,在分析提取結(jié)果時(shí)不僅要比較數(shù)量的異同,更應(yīng)關(guān)注當(dāng)前標(biāo)準(zhǔn)下提取的詞塊所代表的特征和含義。
綜上可見,推斷統(tǒng)計(jì)方法相較描述統(tǒng)計(jì)方法在分析詞塊輸出結(jié)果的穩(wěn)定性和精確性方面有一定優(yōu)勢。首先,正如O’Donnell et al.(2013)所指出的,單純的語料頻次比較必然能發(fā)現(xiàn)某種差異,但主流詞塊研究采用的描述統(tǒng)計(jì)無法量化這種差異有多大概率是由采樣誤差等因素導(dǎo)致的偶然性引起,而推斷統(tǒng)計(jì)則能推斷差異在統(tǒng)計(jì)學(xué)上的顯著性。此外,任何語言現(xiàn)象本質(zhì)上都同時(shí)受多個(gè)因素影響(Paquot & Plonsky,2017),而個(gè)體輸出的文本長度是影響詞塊數(shù)量統(tǒng)計(jì)的一個(gè)重要因素,因此應(yīng)該通過統(tǒng)計(jì)方法對其加以控制。描述統(tǒng)計(jì)無法排除次要因素的干擾,從而影響結(jié)果的可靠性,而基于文本樣本的推斷統(tǒng)計(jì)方法通過把次要因素作為控制變量加以控制,最大程度上排除了偶然性因素的干擾,克服了描述統(tǒng)計(jì)和詞袋模型假設(shè)等傳統(tǒng)方法的局限,因此是更可靠的分析統(tǒng)計(jì)方法。
本研究從詞塊研究在二語習(xí)得領(lǐng)域一個(gè)尚有爭議的問題出發(fā),即二語學(xué)習(xí)者語言水平與詞塊輸出數(shù)量之間的關(guān)系,探討主流詞塊研究方法所存在的問題。我們首先梳理了文獻(xiàn)中詞塊提取標(biāo)準(zhǔn)和統(tǒng)計(jì)方法,然后借助具有權(quán)威水平分組的學(xué)習(xí)者作文語料,在最大程度上確保分組間具有可比性的前提下,進(jìn)行了初步的實(shí)驗(yàn)和對比分析。分析結(jié)果表明,受誤差和個(gè)體差異因素影響,不同標(biāo)準(zhǔn)下提取的詞塊數(shù)量會(huì)產(chǎn)生波動(dòng),從而改變組間對比結(jié)果。由于傳統(tǒng)描述統(tǒng)計(jì)方法的局限,無法對這些因素進(jìn)行量化和控制,從而導(dǎo)致相同研究可能得到不同、甚至相悖的結(jié)論。為了保證詞塊測量的信效度,在進(jìn)行不同語料的詞塊對比研究時(shí),宜采用統(tǒng)一的提取標(biāo)準(zhǔn)和更嚴(yán)謹(jǐn)?shù)幕谖谋緲颖镜耐茢嘟y(tǒng)計(jì)方法。
語料庫領(lǐng)域正在經(jīng)歷一場方法論上的轉(zhuǎn)變,從簡單的頻次統(tǒng)計(jì),到基于詞袋模型的統(tǒng)計(jì)檢驗(yàn),再到基于文本樣本的統(tǒng)計(jì)檢驗(yàn),每一步都是對之前研究的規(guī)范化和嚴(yán)謹(jǐn)化。本文從詞塊研究的角度,證明和呼應(yīng)這個(gè)轉(zhuǎn)變的必要性,希望能為詞塊研究乃至語料庫研究方法論帶來新的思考。
注釋:
① 括號(hào)內(nèi)為本研究轉(zhuǎn)化后標(biāo)準(zhǔn)。
② 出現(xiàn)于不同文本的數(shù)量。
③ 事實(shí)上,由于自然語言的特點(diǎn),二語和語料庫研究中語言頻次數(shù)據(jù)違背正態(tài)性假設(shè)是常見現(xiàn)象(Mollet et al.,2010)。
④ 事實(shí)上由于本研究語料樣本足夠大(每個(gè)分組400個(gè)樣本遠(yuǎn)大于主流統(tǒng)計(jì)學(xué)約30個(gè)樣本的要求),即使違反正態(tài)性的假設(shè),由于方差分析本身的穩(wěn)健性(robustness),也不會(huì)對方差分析的結(jié)果產(chǎn)生嚴(yán)重影響(Brezina,2018;Gablasova et al.,2017)。
⑤ Permutation檢驗(yàn)是一種具有穩(wěn)健性特征的非參數(shù)檢驗(yàn)方法,由于其不對樣本的正態(tài)性作假設(shè),因此能夠有效克服參數(shù)檢驗(yàn)存在的問題(Van Velzen et al.,2014)。目前Permutation檢驗(yàn)在語料庫領(lǐng)域已經(jīng)得到一定程度上的應(yīng)用(Gries,2006;Ning et al.,2014;Wiersma et al.,2011)。