国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GloWbE語料庫的英語與格交替多因素分析

2019-11-24 06:55李夷
黑龍江教育學(xué)院學(xué)報 2019年10期

李夷

摘要:基于GloWbE語料庫的四個區(qū)域變體和兩個網(wǎng)絡(luò)文本體裁,對英語與格交替進(jìn)行混合效應(yīng)回歸分析。分析發(fā)現(xiàn):各個區(qū)域變體和文本體裁中存在一套固定的語言內(nèi)因素(成分重量比、有定性等),影響了與格交替的變體選擇,這些因素的影響是概率性的(probabilistic),任何單因素都無法獨(dú)立決定語言使用者的選擇;各個區(qū)域變體和文本體裁內(nèi)可見不同程度的差異,主要體現(xiàn)在變體(體裁)間對相同語言內(nèi)因素不同的敏感程度。針對統(tǒng)計分析結(jié)果,從語言接觸等角度嘗試解釋,同時也提出對未來心理語言學(xué)實驗提供“匯流證據(jù)”(converging evidence)的期待。

關(guān)鍵詞:與格交替;混合效應(yīng)回歸分析;英語區(qū)域變體

中圖分類號:H313文獻(xiàn)標(biāo)志碼:A文章編號:1001?7836(2019)10?0119?03

近年來涌現(xiàn)出一系列針對英語與格交替(如例1)的實證研究,將這一語言現(xiàn)象視為一種概率性語法(probabilistic grammar),即受到多個語言內(nèi)因素制約,且無法由任何單一因素限定的語法現(xiàn)象。

我們的研究沿襲了前人的研究對象和方法,并使用了GloWbE語料庫(Corpus of Web?based Global English)獲取網(wǎng)絡(luò)語言數(shù)據(jù),從全新的語料和文本體裁來分析這一語法現(xiàn)象。

一、前人研究

針對英語與格交替這一現(xiàn)象,前人研究主要采用了Labov(1972)的變異角度,認(rèn)為這屬于“相同語義內(nèi)容的不同表達(dá)方法”[1]。Bresnan(2007)采用了心理語言學(xué)實驗的方法,較早分析了美國和澳大利亞英語使用者在不同語言因素影響下,選擇與格變體的情況,并發(fā)現(xiàn)多個語言內(nèi)因素概率性地影響了受試者的變體選擇[2]。隨后,Szmrecsanyi等人(2016)和R.thlisberger等人(2017)使用ICE語料庫(International Corpus of English)這一囊括全球多個英語變體的小規(guī)模語料庫進(jìn)一步探索了與格交替,并逐步確定了一系列影響交替選擇的語言內(nèi)因素[3]。以上這些研究加深了我們對英語與格交替這個概率性語法現(xiàn)象的認(rèn)識,并揭示了跨區(qū)域和文本體裁的語法變異[4]。但是,我們尚不清楚這些發(fā)現(xiàn)是否在更大規(guī)模的語料庫和網(wǎng)絡(luò)文本中存在普遍性。

二、語料來源和標(biāo)注

為研究上述問題,本研究使用了“Corpus of Web?based Global English”(GloWbE)作為真實語料來源。

我們選取了四個區(qū)域變體代表模型發(fā)展的四個階段:英國英語(British English, BrE)代表傳統(tǒng)母語變體(standard),加拿大英語(Canadian English, CanE)代表完成了變異且顯著不同于傳統(tǒng)母語的五階變體(differentiation),香港英語(Hong Kong English, HKE)和牙買加英語(Jamaican English, JamE)分別代表發(fā)展中的三階變體(nativization)和四階變體(endonormative stabilization)。以與格構(gòu)式高頻的動詞(bring, deliver, offer, send, explain, leave, refuse)為關(guān)鍵詞,我們在GloWbE語料庫的以上四個變體模塊進(jìn)行檢索,對結(jié)果進(jìn)行進(jìn)一步的人工語料清理(包括與格語義篩選和確保目標(biāo)句的可替換性),獲得語料數(shù)據(jù)共2 319條。

根據(jù)前人研究,我們對這2 319條數(shù)據(jù)的以下參項進(jìn)行了標(biāo)注。

1.成分重量比(Weight ratio)

該項表示與格中NPrecipient和NPtheme的長度,我們對此進(jìn)行了二元標(biāo)注:首先以字母為單位,計算NPrecipient除以NPtheme后的自然底數(shù)(ln (# of characters in recipient/# of characters in theme)),數(shù)值大于0表示NPrecipient長于NPtheme,數(shù)值小于0則反之。

2.句子復(fù)雜度(Complexity)

該項表示與格構(gòu)式中NPrecipient和NPtheme成分的句法復(fù)雜程度,包括兩種情況:成分中有后置定語(賦值為complex)或無后置定語(賦值為simple)。

3.成分語義(Pronominality)

該項表示NPrecipient和NPtheme成分的名詞語義分類,這里為了分析的簡潔性和后續(xù)統(tǒng)計分析的可行性,我們將成分進(jìn)行了二元賦值:成分為代詞時賦值為pronoun,成分為其他非代詞時賦值為non?pronoun。

4.有定性(Definiteness)

該項涉及兩個賦值:NP成分表定指時賦值為definite,成分表示非定指時則為indefinite。這里我們參照了Garretson等人(2004)的有定性分類原則,即所有專有名詞、代詞為中心詞和[定冠詞]+NP結(jié)構(gòu)的成分為定指,其他在非定指解讀(There is/are ___)中成立的成分為非定指[5]。

5.動詞語義(Verb sense)

該項考察與格交替句子中的動詞語義類型,并將其分為四個值:具體事物傳遞(level?1)、未來允諾傳遞(level?2)、阻止式傳遞(level?3)和抽象傳遞(level?4)。

6.區(qū)域變體(Variety)

該項表示與格交替句子所屬區(qū)域變體,包括四個值:英國英語(BrE)、加拿大英語(CanE)、香港英語(HKE)和牙買加英語(JamE)。

7.文本體裁(Register)

該項表示與格交替句子所屬文本體裁,包括兩個值:公共網(wǎng)站(Web)和私人博客(Blog)。

三、多因素分析和結(jié)果

1.回歸模型

針對目前的數(shù)據(jù),我們將動詞語義(Verb sense)和文本體裁(Register)作為隨機(jī)效應(yīng),其余設(shè)置為固定效應(yīng),并同時考慮了兩個語言外部參項(區(qū)域變體和文本體裁)與語言內(nèi)部參項的互動。具體統(tǒng)計分析依托R軟件中的{lme4}(Bates et al, 2015)軟件包完成[6]。

2.結(jié)果

(1)隨機(jī)效應(yīng)闡釋

該效應(yīng)下的兩個參項數(shù)據(jù)中,文本體裁相比動詞語義呈現(xiàn)了更高的密集度,這表明動詞語義參項下的多個賦值可能對結(jié)果有較為不同的作用[7]。表1中,正值表示該賦值下結(jié)果偏向于與格變體,負(fù)值則表示結(jié)果偏向于雙及物變體。我們可以觀察到,具體事物傳遞(level?1)和抽象傳遞(level?4)在英語中更偏向于使用與格變體,而雙及物變體在未來允諾傳遞(level?2)和阻止式傳遞(level?3)中更為普遍。

以上結(jié)果驗證了前人在利用更小語料庫數(shù)據(jù)獲得的結(jié)果(Bresnan & Ford, 2013),同時還和雙及物的形式研究結(jié)果一致,即英語的具體事物傳遞事件強(qiáng)調(diào)了事物從施事(agent)向受事(recipient)的移動,因此和與格構(gòu)式關(guān)系密切[8]。

(2)固定效應(yīng)闡釋

統(tǒng)計模型中的固定效應(yīng)顯示了各參項對與格交替的影響方向及影響顯著大?。╬值),同隨機(jī)效應(yīng)一樣,正值表示該參項下介詞與格變體更顯赫,負(fù)值表示該參項下雙及物變體更顯赫。具體結(jié)果見表2。

表2的數(shù)據(jù)驗證了很多前人對與格交替的心理學(xué)實證研究結(jié)果(Bresnan, 2007; Bresnan & Ford, 2013):首先,成分的語義特征深刻影響了與格的選擇, 如果theme為代詞,

各參項固定效應(yīng)(預(yù)測目標(biāo)為

則偏向選擇介詞與格變體;其次,成分詞長也對結(jié)果有很大影響,當(dāng)recipient長于theme時,該成分往往會偏向于后置,進(jìn)而導(dǎo)致結(jié)果為介詞與格變體;最后,有定性也顯示出了一定影響,定指的成分會先于非定指的成分出現(xiàn)在句子中[9]。

從以上固定效應(yīng)分析中,我們已經(jīng)可以發(fā)現(xiàn)一個較為明顯的英語使用者與格交替選擇模式:更短、句法語義和信息成分更簡單的成分會被放置在更長、句法語義和信息成分更復(fù)雜的成分前[10]。

(3)參項間互動

為了進(jìn)一步分析語言內(nèi)各參項(語義、有定性、重量比等)和語言外參項(區(qū)域變體和文本體裁)的關(guān)系,我們建立了參項間的互動回歸模型,并使用Anova分析的方式收斂模型,獲取有顯著關(guān)聯(lián)的參項。有關(guān)結(jié)果展示在表1和表4中。

結(jié)合表2和表3,我們發(fā)現(xiàn)了調(diào)查的英語區(qū)域變體間的幾個顯著差異:第一,加拿大英語對recipient成分的語義有更高的敏感度,而牙買加英語對此參項敏感度明顯更低;第二,theme成分的句法復(fù)雜度在加拿大英語、香港英語和牙買加英語這幾個變體中的敏感度明顯比英式英語的高。

由表4可知,文本體裁僅和一個參項有顯著互動,即成分重量比。該互動表明當(dāng)文本來自公共網(wǎng)站(Web)時,成分重量比對與格結(jié)果影響更大,文本會在recipient長于theme時選擇介詞與格變體,即把更短的成分置于更長的成分后。

四、討論

1.主要發(fā)現(xiàn)

以上對語料庫數(shù)據(jù)的回歸分析利用更大規(guī)模的數(shù)據(jù)樣本(GloWbE語料庫)印證了前人對英語與格交替的研究(Bresnan, 2007; Szmrecsanyi et al,2016;R.thlisberger等人,2017):與格變體的選擇受到多個語言內(nèi)因素的影響,這種影響是概率性的(probabilistic),不能由任何單因素決定[11]。這一發(fā)現(xiàn)很大程度上加強(qiáng)了MacDonalds (2013)提出的英語與格變體的心理處理模型。該模型認(rèn)為,該語言構(gòu)式的處理服從一個“簡單優(yōu)先”(easy first)的原則:語言使用者在說話時會優(yōu)先選用那些更容易儲存在長期記憶中的語言成分,因此更短、句法語義更簡單、使用更頻繁且在話語中已經(jīng)給出的成分會早于其他成分被處理[12]。除了與前人研究呼應(yīng),本研究還發(fā)現(xiàn)了網(wǎng)絡(luò)文本體裁對英語與格交替的影響。通過把兩種網(wǎng)絡(luò)文本體裁(公共網(wǎng)站和私人博客)納入回歸模型,我們揭示了不同體裁在選擇與格交替時的不同特征:公共網(wǎng)站對語言內(nèi)因素(成分重量比)有明顯的敏感性,而私人博客則對這些規(guī)則沒有這種顯著的互動關(guān)系。

2.區(qū)域變體差異的分析

雖然影響英語使用者與格交替選擇的概率語法總體上是一致的,但我們?nèi)匀话l(fā)現(xiàn)了不同區(qū)域變體之間對不同語言內(nèi)參項的敏感度差異(見表3)。這種差異甚至出現(xiàn)在了與格兩種變體的總體偏好中:我們根據(jù)文中表格進(jìn)行了估計值和p值的交叉列聯(lián)比較,比較可見,加拿大英語和香港英語對介詞與格變體有更強(qiáng)的偏好,而牙買加英語則更偏向于選擇雙及物變體。

我們在前人研究的基礎(chǔ)上試圖解釋這種區(qū)域性變異。在我們的研究對象中,牙買加英語和香港英語的使用者都處于這種語言接觸環(huán)境下,并且往往以其他語言為母語(牙買加克里奧爾語和粵語),這種接觸很可能就引起了以上觀測到的變異[13]。

毋庸置疑,上述解釋僅僅是探索性的,我們還需要更多實證研究來證實這些區(qū)域性變異。

3.當(dāng)前研究的局限與未來展望

本研究利用語料庫真實數(shù)據(jù)和回歸模型,對英語與格交替進(jìn)行了多因素分析,揭示了不同語言內(nèi)和語言外因素對與格交替現(xiàn)象的影響方向和規(guī)模,但我們的研究還存在一些局限。首先,我們考慮的區(qū)域變體樣本量并不全面:英語作為一種極為廣泛使用的多中心(pluricentric)語言,當(dāng)前的與格交替研究已探索了11種遍布全球的區(qū)域變體,而我們當(dāng)前調(diào)查的只有其中的4種。這種不足有可能影響結(jié)論的普遍性,也敦促我們進(jìn)一步擴(kuò)大樣本量,在接下來的研究中獲得更具有普遍價值的發(fā)現(xiàn)。

五、結(jié)束語

本研究對GloWbE語料庫中與格交替各影響因素進(jìn)行了句法語義參項標(biāo)注和分析,根據(jù)混合效應(yīng)回歸模型,獲得了各因素對與格兩個變體選擇的影響方向和力度,用真實語料和統(tǒng)計數(shù)據(jù)描繪了英語與格交替在各區(qū)域變體和文本體裁中的共性和差異。一方面,我們發(fā)現(xiàn)在更大的語料范圍下,前人研究基本得到了證實。另一方面,我們通過檢查區(qū)域變體與文本體裁兩個語言外因素和諸語言內(nèi)因素的互動,還發(fā)現(xiàn)了各區(qū)域變體和網(wǎng)絡(luò)文本對成分重量比、語義特性等因素不同的敏感度。我們將在未來采取更大樣本規(guī)模的實證分析,并借助心理學(xué)實驗的結(jié)果,在當(dāng)前發(fā)現(xiàn)的基礎(chǔ)上加深對與格交替的認(rèn)識。

參考文獻(xiàn):

[1]Bates D., Maechler M., Bolker Ben., Walker S. Fitting linear mixed?effects models using lme4[J].Journal of Statistical Software, 2015(67):1—48.

[2]Biber D., Egbert J., Zhang M. Using corpus?based analysis to study register and dialect variation on the searchable web[C]//In Eric Friginal (eds.) Studies in corpus?based sociolinguistics. New York: Routledge, 2018.

[3]Bresnan J. Is syntactic knowledge probabilistic? Experiments with the English dative alternation[C]//In Sam Featherston & Wolfgang Sternfeld (eds.) Roots: Linguistics in search of its evidential base, 2007(96):77—96. Berlin: Mouton de Gruyter, 2007.

[4]Farquharson T. Joseph. Jamaican[A].In: Michaelis, Susanne Maria & Maurer, Philippe & Haspelmath, Martin & Huber, Magnus (eds.) The survey of pidgin and creole languages. Volume 1: English?based and Dutch?based languages[C].Oxford: Oxford University Press, 2013.

[5]Garretson G., M. OConnor C., Skarabela B., Hogan M. Coding practices used in the project optimality typology of determiner phrases[OL].corpus.bu.edu/documentation/BUNPCorpus_coding_practices.pdf, 2004.

[6]Krifka, Manfred. Semantic and pragmatic conditions for the dative alternation[C].Proceedings of the KASELL 2003 International Conference on English Language and Linguistics, 1—14. Hanyang University, Seoul, Korea, 25—26 June, 2003.

[7]Labov, William. Sociolinguistic patterns[M].Penn: University of Pennsylvania Press, 1972.

[8]Mac Donald, Maryellen C. How language production shapes language form and comprehension[J].Frontiers in psychology, 2013(4):226.

[9]Matthews S., Yip V. Cantonese: A comprehensive grammar[M].New York: Routledge, 2013.

[10]Rthlisberger, M, Grafmiller, J & Szmrecsanyi, B. Cognitive indigenization effects in the English dative alternation[J].Cognitive Linguistics, 2017: (28(4)):673—710.

[11]Szmrecsanyi B., Grafmiller J., Heller B., R.thlisberger M. Around the world in three alternations[J].English World?Wide, 2016,37(2):109—137.

[12]Thomason Sarah G. Language contact: An introduction[M].Washington,DC:Georgetown University Press, 2001.

[13]Wolk C., Bresnan J., Rosenbach A., Szmrecsanyi B. Dative and genitive variability in Late Modern English: Exploring cross?constructional variation and change[J].Diachronica, 2013,30(3):382—419.