畢成
[摘 ? ? ? ? ? 要] ?將近些年語料庫語言學中針對口筆語的研究方法遷移至高職EGP寫作的評估中,以云南能源職業(yè)技術學院2018級全體學生作文組建的語料庫為研究對象,通過分析對比相關數(shù)據(jù),從整體上對當前云南能源職業(yè)技術學院乃至同類型的高職院校學生的英語寫作能力有進一步了解,填補高職院校在EGP寫作語料庫研究方面的短板,并為下一步的EGP教學改革提供一定的量化依據(jù)。
[關 ? ?鍵 ? 詞] ?寫作;語料庫;量化研究
[中圖分類號] ?G712 ? ? ? ? ? ? ? ? [文獻標志碼] ?A ? ? ? ? ? ? ? ? ? ?[文章編號] ?2096-0603(2020)41-0064-02
一、引言
(一)語料庫語言學研究現(xiàn)狀
20世紀60年代初,語料庫語言學便已問世。國外學者Meyer認為“語料庫語言學主要是一種語言研究方法,而不是語言學中的一個獨立的研究范式”[1]。而在國內(nèi),何中清和彭宣維認為“它以大量真實的語言數(shù)據(jù)為研究對象,進行多層次和全方位研究,揭示語言現(xiàn)象隱含的普遍規(guī)律,它的出現(xiàn)對語言研究產(chǎn)生了巨大影響”[2]。在經(jīng)歷半個多世紀的發(fā)展后,當前的語料庫語言學已成為一個計算機科學與語言學交叉發(fā)展的熱點領域。
(二)選題意義
對學生寫作質(zhì)量的評估是一個極為重要的研究熱點,但絕大多數(shù)高職院校教師仍在使用人工逐一審閱和定性描述的方法對學生作文進行評估,很難面向同行或?qū)W生給出令人信服、標準規(guī)范化的質(zhì)量評估結論。所以,將語料庫理論和研究方法引入高職院校英語寫作教學中,在微觀方面可為教師的教學工作提供更好的“診斷”手段,為學生自主學習提供更好的指導。在宏觀層面,基于量化數(shù)據(jù)的評估結論也可為學校乃至教育主管部門提供更好的英語教學改革依據(jù),讓教學改革做到“對癥下藥”“有的放矢”。
二、研究設計
(一)語料庫建設
本項目以云南能源職業(yè)技術學院2018級全體學生的客觀寫作材料為研究對象,以語料庫為研究方法,得出相關的標志性參數(shù),并參考中國學習者英語語料庫(CLEC)、布朗語料庫(Brown Corpus)同類型數(shù)據(jù)參數(shù),以此得出對比結論。
首先,項目組通過機輔寫作軟件采集云南能源職業(yè)技術學院2018級全體學生的作文共2670篇,40多萬個英文單詞。因為本項目的目的是對學生的寫作質(zhì)量進行評估,在語料收集完畢后,我們對語料進行了處理,把作文中相關性較小的內(nèi)容,如標題以及人名等刪除。其次,我們利用Free CLAWS web tagger在線詞性標注軟件,依據(jù)UCREL CLAWS5 Tagset的標準對語料內(nèi)容進行標注,把語料庫的詞性(POS)標注出來,最終將云南能源職業(yè)技術學院2018級學生作文庫命名為YVIET2018。
(二)數(shù)據(jù)分析
完成語料庫的標注與處理之后,我們利用Wordsmith3.0對觀察語料庫YVIET2018與參照語料庫CLEC、Brown Corpus的數(shù)據(jù)進行提取。
1.標準化類形符比(STTR)
形符(token)是指語料庫中的一切單詞,包括反復運用過的單詞,即語料庫中所有單詞的總數(shù)。類符(type)是指語料庫中一切不反復的單詞的總數(shù)。類形符比(TTR, type-token ratio),是指語料中呈現(xiàn)的類符與形符的比率,它標志著語料庫中詞匯的多樣性或者詞匯的豐沛度(lexical density)。但語料庫體量的大小對TTR值有一定的影響,所以我們采用標準化類符形符比(STTR, standardized type-token ratio),即大小為1000詞的連續(xù)多個語料庫的平均類形符比,以此對比不相同的多個語料庫的類形符比差異,參數(shù)更加可信。由此,我們得出了3個語料庫的STTR值。YVIET2018的數(shù)據(jù)是38.37,CLEC是32.8,而Brown是39.04,說明在詞匯豐沛度方面,云南能源職業(yè)技術學院2018級學生的整體情況優(yōu)于國內(nèi)英語學習者的平均水平,在寫作中更加善于使用多樣化的詞匯表達,更加接近源自英語母語國家的語料庫BROWN的水平。
2.詞匯密度(lexical density)
詞匯密度這一概念最早由Ure提出。他認為詞匯密度的計算公式為實詞數(shù)除以詞匯總數(shù)所得百分比[3]。而Halliday認為語法詞反映的是句子的流暢度和表達清晰度(explicitness)以及可預測性(predictability)[4]。而詞匯詞反映的是文本所含的信息量(information load)。
所以,我們使用Wordsmith3.0對三個語料庫的標注結果進行了檢索和統(tǒng)計。因檢索結果過于復雜龐大,這里不再詳細列出。我們檢索了名詞(Noun)、動詞(Verb)、形容詞(Adjective)、副詞(Adverbial)四大類詞。YVIET2018語料庫的實詞密度為59.39%,其次是CLEC語料庫,為53.28,而最小的是BROWN語料庫,為48.93%。綜合來看,YVIET2018語料庫實詞比例明顯過多,說明云南能源職業(yè)技術學院2018級學生在寫作技巧上仍有明顯的短板,雖然文本承載的信息量豐富,但這樣的文本會給讀者在理解文本信息時帶來困難,不善于使用虛詞,文本的清晰度與流暢度稍差一些。因為BROWN語料庫所收集的語料均來自美國,故而在文本信息量和清晰度、流暢度平衡度方面是三者中最好的。
3.高頻詞(high frequency words)
在語料庫語言學的分析方法中,頻率是一種非常重要的研究手段。Sinclair(1991:31)提出,語料庫中高頻詞的分布較為穩(wěn)定,因此頻率排序的任何顯著變化都有可能具有重要意義[5]。而Laviosa指出,高頻詞(“l(fā)ist head”or “high frequency words”)是一個詞匯出現(xiàn)的次數(shù)與特定語料庫所有形符的比例不少于0.01%[6]。在本研究中,我們通過Wordsmith3.0對三個語料庫的詞頻進行了檢索和統(tǒng)計。根據(jù)這一結果我們得出,高頻詞數(shù)量最多的語料庫是YVIET2018,其累計占比為68.83%,是三個語料庫中最多的,而BROWN語料庫僅有高頻詞85項,占比38.81%,是三者中最少的,而CLEC語料庫介于兩者之間,這符合項目組的預期值。數(shù)據(jù)結果表明YVIET2018語料庫詞匯重復率是最高的,說明云南能源職業(yè)技術學院2018級的學生寫作用詞較為單調(diào)。BROWN語料庫的詞匯重復率是最低的,語料用詞相對復雜,符合英語口筆語用詞中避免重復而多用替換的原則。
4.詞長(word-length)
對文本而言,文體正式程度往往與復雜詞匯的數(shù)量成正比,即文體越正式,復雜詞匯數(shù)量也就越多,反之亦然。為此,我們統(tǒng)計了三個語料庫的詞長。我們出乎意料地發(fā)現(xiàn)YVIET2018語料庫的平均詞長高于CLEC和BROWN,達到了4.80,BROWN語料庫為4.48,CLEC語料庫僅為4.07。但經(jīng)我們仔細觀察分析發(fā)現(xiàn),就7個字母以上的單詞而言,YVIET2018的詞匯數(shù)量遠遠少于BROWN。由統(tǒng)計結果我們可以得出,云南能源職業(yè)技術學院2018級的學生在寫作過程中對復雜詞有偏好,但這樣會使作文文體過于正式和嚴肅,并給讀者理解信息帶來一定困難甚至偏差。
5.平均句長(mean sentence length)
平均句長統(tǒng)計的是語料庫中每一個句子中平均包含的詞匯數(shù)量,這一指標能夠在一定程度上反映句子的復雜度。通常來說,長句中包含的信息量更多,邏輯關系更復雜,對作者和讀者的寫作能力與理解能力要求都比較高。這里,我們統(tǒng)計出3個語料庫的平均句長和句長標準差2個數(shù)據(jù),YVIET2018的平均句長為17.88,比起CLEC的14.75,更加接近BROWN的19.47,說明云南能源職業(yè)技術學院2018級學生作文的句子復雜度更大,句子較為復雜。但YVIET2018的句長標準差為12.87高于CLEC的10.47,也說明云南能源職業(yè)技術學院2018級學生的作文水平個體差異是更加明顯的,個體之間的水平差距比較大。
三、結語
通過本次項目,我們以語料庫語言學為研究方法,使用wordsmith等工具,深入調(diào)查研究了云南能源職業(yè)技術學院2018級學生的寫作情況,并得出了量化數(shù)據(jù)為支撐的對比結論,并將借此結論在下一步的大學英語教學中開展相關教學實驗。這對我校乃至高職院校的大學英語教學都是一次十分有益的嘗試。但受限于項目組能力等其他客觀因素,未能對學生作文的寫作語境、讀者反饋等環(huán)節(jié)領域開展深入研究。在下一步的研究中,我們還將持續(xù)擴展云南能源職業(yè)技術學院學生作文語料庫,開展歷時性語料庫研究。
參考文獻:
[1]張新杰.國內(nèi)語料庫語言學研究:回顧與展望:基于核心期刊24年文獻的統(tǒng)計分析[J].西安外國語大學學報,2017(6):36-41.
[2]何中清,彭宣維.英語語料庫研究綜述:回顧、現(xiàn)狀與展望[J].外語教學,2011(1):6-11.
[3]李德超,王克非.漢英同傳中詞匯模式的語料庫考察[J].現(xiàn)代外語,2012(4):409-415.
[4]吳菲.國內(nèi)外英語語料庫的建設和發(fā)展評論[J].山東外語教學,2007(6):28-31.
[5]王天劍.基于語料庫的中國《政府工作報告》英語本詞匯特征研究[J].當代外語研究,2010(6):39-43.
[6]趙秋榮,王克非.英譯漢翻譯語言的階段性特點:基于歷時類比語料庫的考察[J].中國翻譯,2013(3):15-19.
編輯 馮永霞