孫 樂(lè) 樂(lè)
(江蘇理工學(xué)院 外國(guó)語(yǔ)學(xué)院,江蘇 常州 213001)
語(yǔ)言在不同語(yǔ)言場(chǎng)合和環(huán)境使用的變體在“各個(gè)層面的語(yǔ)言特征,包括詞匯搭配、詞頻、名詞化結(jié)構(gòu)、從屬句和各種共現(xiàn)特征都存在差異。[1]語(yǔ)料庫(kù)語(yǔ)言學(xué)興起使基于大量真實(shí)語(yǔ)料對(duì)語(yǔ)言各種變體展開(kāi)潛在維度的研究成為可能。Biber[2]對(duì)LOB語(yǔ)料 庫(kù) (Lancaster-Oslo-Bergen corpus)及 LLC 語(yǔ)料庫(kù) (the London-Lund corpus)中 23類口筆語(yǔ)語(yǔ)域的481篇語(yǔ)料的研究及其采用的多維度/多特征分析方法(MD/MF:Multi-dimensional/Multi-feature analysis)已經(jīng)成為語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的一個(gè)標(biāo)準(zhǔn)[3]并產(chǎn)生大量延伸研究[1,4,5]。
近年來(lái),對(duì)英語(yǔ)學(xué)習(xí)者語(yǔ)言(EFL,i.e.English as a foreign language, varieties of English spoken in countries such as France or Germany)的研究成為語(yǔ)料庫(kù)語(yǔ)言學(xué)研究迅速發(fā)展的領(lǐng)域之一。[6]國(guó)內(nèi)外越來(lái)越多的學(xué)者應(yīng)用Biber[2]的多維度/多特征分析法描述相關(guān)語(yǔ)言特征在學(xué)習(xí)者語(yǔ)域中的共現(xiàn)模式,對(duì)比分析學(xué)習(xí)者相關(guān)語(yǔ)體的語(yǔ)言特征。他們或采用Biber[2]的維度框架,與本族語(yǔ)者口筆語(yǔ)語(yǔ)域進(jìn)行對(duì)比分析,調(diào)查學(xué)習(xí)者相關(guān)語(yǔ)域的語(yǔ)言特征 ;[7,8,9,10,11]或根據(jù)研究需要重新選取語(yǔ)言特征進(jìn)行因子分析并識(shí)別出新的維度,探索學(xué)習(xí)者特定語(yǔ)域并發(fā)現(xiàn)該語(yǔ)域的維度變異。[12,13,14]然而B(niǎo)iber[2]的維度框架中所涉及的語(yǔ)言特征基本局限于詞匯層面,這些特征雖已被證實(shí)是區(qū)分不同語(yǔ)體差異的強(qiáng)有力的決定因素,但不足以體現(xiàn)語(yǔ)篇句際、段際層面的銜接連貫特征。[15]
計(jì)算機(jī)語(yǔ)言學(xué)領(lǐng)域里程碑式的發(fā)展使自然語(yǔ)言處理成為可能。美國(guó)孟菲斯大學(xué)McNamara 等人綜合利用計(jì)算機(jī)語(yǔ)言學(xué)、信息檢索、語(yǔ)料庫(kù)語(yǔ)言學(xué)等自然語(yǔ)言處理技術(shù)開(kāi)發(fā)設(shè)計(jì)了Coh-Metrix,可從文本中提取11大類106項(xiàng)表層和深層的文本特征指標(biāo)變量,包括基礎(chǔ)計(jì)數(shù)、文本主構(gòu)易讀性、指稱銜接性、潛在語(yǔ)義分析、詞匯多樣性、關(guān)聯(lián)詞使用、情景模式、句法復(fù)雜性、句法組構(gòu)密度、詞匯信息和文本可讀性,用以進(jìn)行語(yǔ)篇深層和整體銜接特征的自動(dòng)測(cè)量研究。隨著基于Coh-Metrix的研究增多,其測(cè)量指標(biāo)的效度得到驗(yàn)證,應(yīng)用范圍不斷擴(kuò)大。[16]
目前Coh-Metrix已被廣泛應(yīng)用于不同英語(yǔ)語(yǔ)體的研究,通過(guò)對(duì)口語(yǔ)和筆語(yǔ)[17]、不同作者的作品[15]、世界英語(yǔ)變體[15]及文本的不同部分[15,18,19]等不同語(yǔ)體具體差異的量化和統(tǒng)計(jì)分析,分析挖掘不同語(yǔ)體深層次的語(yǔ)篇特征差異。國(guó)內(nèi)利用Coh-Metrix進(jìn)行的研究主要是對(duì)中國(guó)英語(yǔ)學(xué)習(xí)者寫(xiě)作文本的研究,側(cè)重考察不同寫(xiě)作話題、不同提示特征對(duì)作文語(yǔ)篇銜接手段或文本特征使用的影響,[20,21]以及哪些銜接手段或文本特征影響學(xué)習(xí)者作文語(yǔ)篇質(zhì)量,進(jìn)而探索自動(dòng)測(cè)量學(xué)習(xí)者語(yǔ)篇連貫性或質(zhì)量的途徑或模型。[22,16]而利用Coh-Metrix對(duì)學(xué)習(xí)者口語(yǔ)語(yǔ)篇文本特征的研究以及對(duì)學(xué)習(xí)者口筆語(yǔ)語(yǔ)體差異的研究還不多見(jiàn),因而有必要展開(kāi)深入研究,以挖掘和揭示學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇的深層文本特征。
Coh-Metrix以Halliday & Hasan的銜接分類體系為理論框架,通過(guò)提取指稱銜接 (Referential Cohesion)、連接詞使用(Connectives)和部分詞匯信息(Word Information)等變量分析文本的銜接和連貫。同時(shí)Coh-Metrix利用計(jì)算語(yǔ)言學(xué)領(lǐng)域的潛伏語(yǔ)義分析法(Latent Semantic Analysis,簡(jiǎn)稱LSA),對(duì)文本中各部分之間的語(yǔ)義相關(guān)性(Semantic Relatedness)進(jìn)行分析,[23]挖掘文本中銜接手段之外的深層次文本特征,從而有效地分析文本的連貫性。[22]本研究提取的具體指標(biāo)變量有:(1) 指稱銜接(Referential Cohension),包括相鄰論元重疊 (Argument Overlap Adjacent)、相鄰詞干重疊(Stem Overlap Adjacent)、相鄰實(shí)詞重疊 (Content Word Overlap Adjacent)、論元重疊 (Argument Overlap)、詞干重疊(Stem Overlap)、實(shí)詞重疊(Content Word Overlap);(2)人稱代詞 (Personal Pronouns);(3)連接詞 (Connectives);(4)潛伏語(yǔ)義分析法 (Latent Semantic Analysis,LSA),包括相鄰句子間 LSA(LSA Sentence Adjacent)、所有句子間LSA (LSA Sentence All)、段落間LSA(LSA Paragraph)。
本研究擬利用Coh-Metrix3.0對(duì)比分析學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇的銜接手段特征,進(jìn)而對(duì)比分析學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇的局部和整體連貫?zāi)芰?,研究?wèn)題如下:
1) 學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇中各種銜接手段的使用頻率如何?是否存在顯著差異?
2) 學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇中各種銜接手段的使用是否對(duì)語(yǔ)篇局部和整體連貫?zāi)芰Ξa(chǎn)生影響?
本研究語(yǔ)料收集對(duì)象為江蘇某地方本科院校商學(xué)院30名2015級(jí)非英語(yǔ)專業(yè)本科生??诠P語(yǔ)測(cè)試題目和形式均參照歷年全國(guó)大學(xué)英語(yǔ)四級(jí)考試,話題范圍為大學(xué)生日常生活、學(xué)習(xí)和社會(huì)行為。語(yǔ)料收集后由4名大學(xué)英語(yǔ)教師將紙質(zhì)筆語(yǔ)語(yǔ)料和音頻材料轉(zhuǎn)寫(xiě)為電子語(yǔ)料,再由2名大學(xué)英語(yǔ)教師負(fù)責(zé)語(yǔ)料校對(duì)和清潔整理。由于Coh-Metrix不能識(shí)別拼寫(xiě)錯(cuò)誤,在語(yǔ)料處理時(shí)修正學(xué)生語(yǔ)料的拼寫(xiě)錯(cuò)誤。為保證口筆語(yǔ)語(yǔ)料內(nèi)容的一致性和可比性,去除口語(yǔ)語(yǔ)料中重復(fù)出現(xiàn)的主考教師的指令性語(yǔ)言以及與學(xué)生對(duì)話開(kāi)始和結(jié)束時(shí)的程式化的客套語(yǔ)言,如:“Good morning”,“Thank you”,“That’s all”等,但保留學(xué)生對(duì)話和發(fā)言中在遲疑和思考時(shí)舒緩語(yǔ)氣、給自己提供思考時(shí)間所使用的語(yǔ)氣詞 如“Um”,“Er”,“Hmmm”等,以保證語(yǔ)料的真實(shí)性。
本研究將收集的口筆語(yǔ)語(yǔ)料逐一讀入Coh-Metrix 3.0分析,并從中提取指稱銜接、連接詞使用、部分詞匯信息和潛伏語(yǔ)義分析等指標(biāo)變量數(shù)值導(dǎo)入SPSS19.6進(jìn)行統(tǒng)計(jì)分析。
這些變量除潛伏語(yǔ)義分析外,都為照應(yīng)、替代、連接等多種常見(jiàn)的語(yǔ)篇銜接手段。根據(jù)梁茂成[22]研究發(fā)現(xiàn),人稱代詞和連接詞是利用簡(jiǎn)單工具就能提取的文本表層特征,常常不能作為二語(yǔ)分析中的可靠測(cè)量工具。而指稱銜接和潛伏語(yǔ)義分析等更深層次的文本變量與文本的局部連貫和整體連貫關(guān)系密切,[24,22]其中相鄰論元重疊、相鄰詞干重疊、相鄰實(shí)詞重疊、相鄰句子間LSA等4個(gè)變量跟局部連貫?zāi)芰ο嚓P(guān),論元重疊、詞干重疊、實(shí)詞重疊、所有句子間LSA、段落間LSA等5個(gè)變量跟整體連貫?zāi)芰ο嚓P(guān)。
研究者先以口筆語(yǔ)語(yǔ)體為自變量,以兩組語(yǔ)篇中提取的指稱銜接、人稱代詞和連接詞等銜接手段為因變量,進(jìn)行獨(dú)立樣本t檢驗(yàn),對(duì)比分析學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇銜接手段的使用頻率是否存在顯著差異,分析結(jié)果見(jiàn)表1、表2、表3。隨后從兩組語(yǔ)篇中分別挖掘提取與局部和整體連貫?zāi)芰ο嚓P(guān)的變量,并將這些存在多重共線性關(guān)系的變量進(jìn)行簡(jiǎn)化,在數(shù)據(jù)處理過(guò)程中運(yùn)用主成分分析法進(jìn)行因子分析。KMO測(cè)度檢驗(yàn)和Bartlett球體檢驗(yàn)結(jié)果顯示,學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇4個(gè)局部連貫?zāi)芰ψ兞康腒MO測(cè)度值為.656,Bartlett球體檢驗(yàn)顯著水平為.000,表明因子分析的可行性,從中提取一個(gè)局部連貫因子,該因子可以解釋變量方差的69.313%;5個(gè)整體連貫?zāi)芰ψ兞康腒MO測(cè)度值為.731,Bartlett球體檢驗(yàn)顯著水平為.000,這兩個(gè)統(tǒng)計(jì)量也表明因子分析的可行性,從中提取一個(gè)整體連貫因子,該因子可以解釋變量方差的60.413%。再以口筆語(yǔ)語(yǔ)體為自變量,以兩組語(yǔ)篇局部和整體連貫因子為因變量,對(duì)比分析學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇在連貫性方面的差異。
1. 指稱銜接
表1顯示,學(xué)習(xí)者口語(yǔ)中指稱銜接相關(guān)的具體特征的出現(xiàn)頻率除詞干重疊(均值相等,均為.390)外均高于筆語(yǔ)中的頻率,且相鄰論元重疊(P=.003)、相鄰實(shí)詞重疊(P=.000)、論元重疊(P=.036)和實(shí)詞重疊(P=.000)均呈現(xiàn)統(tǒng)計(jì)學(xué)上的顯著差異。
表1 學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇指稱銜接手段獨(dú)立樣本t檢驗(yàn)
指稱銜接多個(gè)指稱變量在學(xué)習(xí)者口語(yǔ)語(yǔ)篇中的使用頻率明顯高于其筆語(yǔ)語(yǔ)篇,表明學(xué)習(xí)者口筆語(yǔ)語(yǔ)體差異對(duì)其詞匯復(fù)現(xiàn)手段的運(yùn)用產(chǎn)生顯著影響。這一結(jié)果可以解釋為:學(xué)習(xí)者的口語(yǔ)語(yǔ)篇在測(cè)試環(huán)境下以即興問(wèn)答和即興小組討論的形式進(jìn)行,因受時(shí)間限制且要面對(duì)考官和小組成員,即興口試任務(wù)給學(xué)習(xí)者帶來(lái)的認(rèn)知負(fù)擔(dān)相對(duì)較重。學(xué)習(xí)者更多依賴詞匯復(fù)現(xiàn)這一較為簡(jiǎn)單的銜接手段,以確保在限定時(shí)間內(nèi)完成任務(wù)且提高語(yǔ)言準(zhǔn)確度。學(xué)習(xí)者的筆語(yǔ)語(yǔ)篇雖然也是在測(cè)試環(huán)境下進(jìn)行,但學(xué)習(xí)者完成信息構(gòu)建過(guò)程時(shí)間相對(duì)較長(zhǎng),認(rèn)知負(fù)擔(dān)相對(duì)減輕,有更多時(shí)間在大腦中進(jìn)行詞匯搜索,從而大大減少詞匯復(fù)現(xiàn)銜接手段的使用。
2.人稱代詞
表2顯示,學(xué)習(xí)者口語(yǔ)中第一人稱和第三人稱代詞的使用頻率均高于筆語(yǔ)文本,且口筆語(yǔ)中第一人稱單數(shù)、第三人稱單數(shù)和單復(fù)數(shù)使用頻率呈顯著性差異(P值分別為.000,.027,.003),第一人稱復(fù)數(shù)的使用頻率則有呈顯著性差異傾向(P=.052);而口語(yǔ)中第二人稱代詞的使用頻率高于筆語(yǔ),但差異并不顯著(P=.669)。
口語(yǔ)中第一人稱“I”的使用高頻率是由學(xué)習(xí)者作為口試任務(wù)中講話者的話語(yǔ)角色決定的,他們?cè)跇?gòu)建口語(yǔ)語(yǔ)篇時(shí)更關(guān)注語(yǔ)篇的交際和情感內(nèi)容,反映了口語(yǔ)語(yǔ)篇的交際性特征;而第二人稱“you”在學(xué)習(xí)者書(shū)面語(yǔ)篇中使用頻率略高,原因在于“you”作為聽(tīng)話者的話語(yǔ)角色在書(shū)面語(yǔ)篇中可以指其讀者,學(xué)習(xí)者較多使用“you”以拉近與潛在讀者的心理距離,加強(qiáng)情感交流,增加論證力度。根據(jù)Halliday & Hasan,第一和第二人稱形式常常通過(guò)情景來(lái)表達(dá),不涉及語(yǔ)篇。而第三人稱代詞可以看作是敘事行為的標(biāo)記詞,通?;刂笖⑹抡Z(yǔ)篇前部分的某個(gè)項(xiàng)目(一般指敘事故事的參與者),從而完成對(duì)過(guò)去或現(xiàn)在發(fā)生事件的有序描敘,具有固有的銜接作用,在以敘事為主要任務(wù)之一的口語(yǔ)語(yǔ)篇中是使用頻率最高的一類銜接項(xiàng)目。
表2 學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇人稱代詞獨(dú)立樣本t檢驗(yàn)
3. 連接詞
表3顯示,學(xué)習(xí)者口語(yǔ)中因果連接詞使用頻率略高于筆語(yǔ),但差異并不顯著(P=.650);而邏輯、轉(zhuǎn)折、時(shí)序、拓展時(shí)序、增補(bǔ)連接詞的使用頻率均低于筆語(yǔ),其中除增補(bǔ)連接詞(P=.286)外,其余連接詞使用頻率均有顯著性差異(P值分別為.000,.021,.002)。連接詞能較明確地表示上下文關(guān)系,這符合書(shū)面語(yǔ)篇具有較精確的信息焦點(diǎn)和較高的語(yǔ)篇整體性特征,而且使用連接詞讓語(yǔ)篇顯得更正式,因而在有時(shí)間準(zhǔn)備的語(yǔ)篇中使用頻率比在即興語(yǔ)篇中的頻率高。
數(shù)據(jù)表明,學(xué)習(xí)者在有相對(duì)較長(zhǎng)時(shí)間構(gòu)建書(shū)面語(yǔ)篇信息時(shí),有意識(shí)地借助各類連接詞來(lái)表達(dá)上下文的語(yǔ)義關(guān)系,實(shí)現(xiàn)語(yǔ)篇銜接,符合筆語(yǔ)的書(shū)面語(yǔ)篇特征。這一結(jié)果進(jìn)一步證實(shí)了國(guó)內(nèi)一些研究者如馬廣惠[25]、梁茂成[22]等的研究發(fā)現(xiàn),國(guó)內(nèi)學(xué)生書(shū)面語(yǔ)中連接詞語(yǔ)高頻出現(xiàn)。
表3 學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇連接詞獨(dú)立樣本t檢驗(yàn)
銜接手段 具體特征 語(yǔ)體 N 均值 標(biāo)準(zhǔn)差 t值 Sig.(雙側(cè))連接詞口語(yǔ) 30 11.509 8.287 -3.203 .002**筆語(yǔ) 30 18.284 8.096增補(bǔ)連接詞 口語(yǔ) 30 44.417 18.028 -1.078 .286筆語(yǔ) 30 48.877 13.737轉(zhuǎn)折連接詞 口語(yǔ) 30 7.417 9.379 -3.851 .000***筆語(yǔ) 30 18.270 12.259時(shí)序連接詞 口語(yǔ) 30 14.312 9.460 -2.390 .021*筆語(yǔ) 30 21.220 12.693拓展時(shí)序連接詞
表4顯示,學(xué)習(xí)者口語(yǔ)語(yǔ)篇的局部連貫?zāi)芰驼w連貫?zāi)芰哂诠P語(yǔ)語(yǔ)篇,且差異達(dá)到顯著水平(P值分別為.000和.012)。數(shù)據(jù)表明學(xué)習(xí)者在即興口試環(huán)境下,雖然認(rèn)知負(fù)擔(dān)較重,只能更多依賴詞匯復(fù)現(xiàn)銜接手段,但其口語(yǔ)語(yǔ)篇的局部連貫力較高。
表4 局部和整體連貫?zāi)芰σ蜃营?dú)立樣本t檢驗(yàn)
學(xué)習(xí)者筆語(yǔ)語(yǔ)篇局部和整體連貫力較低可能與其連接詞的高頻使用有關(guān)。梁茂成[22]研究發(fā)現(xiàn),中國(guó)學(xué)生在英語(yǔ)作文中高頻使用連接詞,學(xué)習(xí)者有濫用連接詞傾向,但連接詞的使用頻率不能反映語(yǔ)篇連貫性的強(qiáng)弱。Halliday & Hasan[26]指出,連接詞并不是延伸至上下文的手段,其本身并沒(méi)有連貫性,而是通過(guò)連接詞特定的意義間接地具有連貫作用。換言之,文本的連貫性并不取決于連接詞使用,而在于文本內(nèi)容,在于命題本身之間的概念相關(guān)性,[27]因而使用連接詞并不創(chuàng)造連貫性,而只是使文本間的連貫性顯性化。[28,29]
本研究自然語(yǔ)言處理工具Coh-Metrix 3.0測(cè)量并對(duì)比分析了學(xué)習(xí)者口筆語(yǔ)語(yǔ)篇中淺層和深層文本銜接特征,并進(jìn)而對(duì)比分析兩組語(yǔ)篇的局部和整體連貫?zāi)芰ΑQ芯拷Y(jié)果表明,學(xué)習(xí)者口語(yǔ)語(yǔ)篇通過(guò)句與句、段與段之間的詞匯復(fù)現(xiàn)和語(yǔ)義復(fù)現(xiàn)等銜接手段構(gòu)建語(yǔ)篇聯(lián)系,在體現(xiàn)語(yǔ)篇口語(yǔ)體特征的同時(shí)增強(qiáng)了語(yǔ)篇的銜接和連貫性;而學(xué)習(xí)者雖有意識(shí)在筆語(yǔ)語(yǔ)篇中借助各類連接詞來(lái)表達(dá)上下文的語(yǔ)義關(guān)系,因更多依賴這一表層銜接手段而忽視綜合運(yùn)用其他銜接手段,影響語(yǔ)篇的局部構(gòu)思及整體謀篇布局。
本研究發(fā)現(xiàn)對(duì)于英語(yǔ)教學(xué)具有以下啟示作用:1)學(xué)習(xí)者筆語(yǔ)語(yǔ)篇連貫力相對(duì)較低提示學(xué)生應(yīng)避免濫用銜接詞等顯性銜接手段,在語(yǔ)篇構(gòu)建中注重使用多種銜接手段,實(shí)現(xiàn)相鄰句子、段落間乃至整個(gè)語(yǔ)篇的內(nèi)在銜接與連貫;2) 學(xué)習(xí)者口語(yǔ)語(yǔ)篇雖然連貫力相對(duì)較高,但其詞匯復(fù)現(xiàn)率和潛在語(yǔ)義重合率高也提示學(xué)生在構(gòu)建口語(yǔ)語(yǔ)篇時(shí)“圍繞話題從一個(gè)角度或事實(shí)出發(fā)反復(fù)論證”,“內(nèi)容單一”,[21]論證不夠充分。教師應(yīng)引導(dǎo)學(xué)生在注重語(yǔ)篇銜接連貫的同時(shí)從多角度展開(kāi)論證,注重論述的簡(jiǎn)潔性和內(nèi)容的豐富性,培養(yǎng)學(xué)生的思辨論證能力。