江蘇師范大學 姜曉艷
提 要: 本研究檢索自建中國學者SCI論文語料庫中高頻四詞詞簇,從類型數、總數方面分析其結構特點,且分別針對中國學者SCI四個分區(qū)與自建本族語學者SCI論文語料庫進行對比研究。整體上中國學者使用最多的類型是介詞、動詞短語詞簇;與本族語學者相比,中國學者SCI各分區(qū)高頻詞簇的差異集中在使用總數上,特別是在帶of的名、介詞短語,主、被動態(tài)動詞短語以及狀語從句方面差異較大。本研究可以為中國學者撰寫英語學術論文提供重要的參考指導。
近年來,中國學者將在SCI上發(fā)表論文作為其學術科研成果的一大重要表征,各高校、科研單位也將在SCI上發(fā)表論文作為統(tǒng)計科研人員研究成果的重要手段,在此背景下,英語學術論文特點的研究呈現出上升趨勢,“學術英語已成為專門用途英語研究領域的熱點” (孫鳳蘭, 2015),而語言問題成為眾多非英語國家學者在國際上發(fā)表論文的一大困難(徐昉,2014)。*SCI(Science Citation Index),即科學引文索引,是目前國際上公認的最具權威性的科技文獻索引。
詞簇,又稱“詞塊”“詞串”“多詞序列”“多詞單位”等,是“文本中反復出現的最高頻的詞語序列”(Biberetal., 1999: 989; Biberetal., 2004),是一種具有詞匯與語法特征的語言結構(楊惠中, 2002),可作為整體存儲和使用(Wray, 2000),從而無形中減輕了語言處理和輸出的負擔,使語言交際更加快捷、流利、有效(馬廣惠, 2009)。學術文體中一些高頻詞簇能夠提高語言表達的地道性,彰顯作者在某一語言社團的“內行人”身份(王芙蓉、王宏俐, 2015),因此,學術英語中詞簇的研究已成為一大熱點,而計算機技術及語料庫語言學的發(fā)展為詞簇的提取提供了便利以及大量的客觀數據,所以本研究將以自建的英語學術論文語料庫為基礎,使用WordSmith Tools (Scott, 2012)檢索軟件,全面描述中國學者SCI論文中高頻詞簇的結構,發(fā)現中國學者詞簇使用特征。
在學術英語語篇中,詞簇的研究一直是一大熱點,有諸多來自國外的研究成果,如: Biberetal. (1999)、Biberetal. (2004)分別調查了會話與學術論文中的詞簇、課堂教學與教科書中的高頻詞簇,發(fā)現詞簇使用在四個方面存在顯著特征;Biber(2009)研究了口語和書面語中詞簇結構的固定性,發(fā)現口語中的詞簇比較固定,而書面語結構中功能詞比較固定,填充的實詞種類不一;Jalali & Moini (2014)對發(fā)表的醫(yī)藥期刊中學術論文引言部分的四詞詞簇做了研究,總結其結構和功能特點;此外部分學者還研究了不同學科之間詞簇使用差異(Cortes, 2004; Hyland, 2008b);二語學習者與本族語者之間詞簇使用差異(Chen & Baker, 2010;del & Erman, 2012);不同水平學習者詞簇使用差異(Hyland, 2008a; Staplesetal., 2013; Huang, 2015),還有一些學者從本族語期刊論文中選取目標詞簇,用于檢測二語學習者對這些詞簇的使用(Karabacak & Qin, 2013; Qin, 2014);部分學者研究了二語學者與本族語學者學術詞簇使用差異,如Pérez-Llantada (2014)和Panetal. (2016)分別對比了西班牙語學者、中國學者的期刊論文與本族語學者期刊論文中的四詞詞簇。
然而,相比國外研究,國內研究關于學術英語中詞簇的研究數目、對象及方法都遠不夠全面深刻。主要涉及本族語學者學術論文中詞簇特點(楊元媛, 2013;王芙蓉、王宏俐, 2015);中國學習者與本族語學習者學位論文中詞簇對比研究(周惠、劉永兵, 2015);中國學習者學位論文與本族語學者期刊論文中詞簇對比研究(婁寶翠, 2010;徐昉, 2012;王麗、李清婷, 2014);中國學者與本族語學者英語期刊論文詞簇對比研究(鄭紅紅, 2014;孫鳳蘭, 2015)。這些研究發(fā)現中國學習者在學位論文寫作方面過多依賴某些詞簇,同時沒有或過少地使用本族語者常用的詞塊,而且關于中國學者英語學術論文中詞簇的研究所建立的語料庫學科較少,容量較小,提取的高頻詞簇數目不足,不能全面描述中國學者英語學術論文寫作的特點。因此,有必要建立較大規(guī)模的語料庫對中國學者英語學術論文中的詞簇結構進行研究,以揭示中國學者英語學術論文的特點,為中國學者撰寫高層次的英語學術論文提供參考,為中國學習者提高學術論文寫作能力提供一定的指導。
本研究自建了中國學者SCI論文語料庫,即SCI-CH語料庫,語料庫的總容量約為458萬字,1000 篇學術論文。所有論文全部來自中科院SCI分區(qū)表中四個分區(qū),選取每個分區(qū)中影響因子較高的國際期刊,發(fā)表時間為2014—2015年,覆蓋的學科包括數學、物理、化學、生物、工程技術、農林科學、環(huán)境科學、地學這八個學科,且每個分區(qū)中每個學科選取的論文數目一致。所有論文的第一作者均為漢語姓名且所屬單位為中國大陸的高等院?;蜓芯克?,論文中的作者信息、圖表、致謝、附錄等其他信息全部刪除,只保留正文部分。具體數據見表1。在表1中,一區(qū)的字符數相對二、三、四區(qū)較少,這是由于國內學者在一區(qū)較高影響因子的期刊中發(fā)表論文數量有限,但即便如此,也可以完全滿足建立語料庫對于字符數的要求。*以2015年中科院SCI索引分區(qū)表為參照。
表1. SCI-CH語料庫統(tǒng)計信息
研究表明四詞詞簇結構往往包含三詞詞簇,頻數遠高于五詞詞簇,結構和功能更具變化性(Cortes, 2004; Hyland, 2008a;徐昉, 2012;楊元媛, 2013),所以本文將中國學者SCI論文中的四詞詞簇作為研究對象,從SCI-CH語料庫中提取了前100個四詞詞簇,其中頻率最低的出現了106次,至少覆蓋了50個文本,符合高頻詞簇的提取慣例,此外還從四個分區(qū)中各提取出頻數最大的50個四詞詞簇,這些詞簇至少覆蓋了5個文本,用于對比各分區(qū)之間的結構分布。
本研究主要回答以下問題:
(1) 在SCI-CH語料庫中,四詞詞簇總體上呈現出什么結構特點?
(2) 在SCI-CH語料庫各分區(qū)中,四詞詞簇分布呈現出什么結構特點,與本族語學者SCI論文相比是否存在差異?
Biberetal. (2004)對詞簇的結構類型做了總結,分為三大類: 包含動詞短語的詞簇、包含小句的詞簇、包含名詞和介詞短語的詞簇。由于其所統(tǒng)計的詞簇包括了口語詞簇和書面語詞簇,不完全適合本研究,所以本研究在其基礎上對詞簇結構重新歸類,把中國學者論文中的詞簇分為四大類和11個小類,即包含名詞短語的詞簇(帶of-的名詞短語、其他名詞短語)、包含介詞短語的詞簇(帶of-的介詞短語、其他介詞短語、比較性表達方式)、包含動詞短語的詞簇(含Be動詞短語、主動態(tài)動詞短語、被動態(tài)動詞短語)和包含從句的詞簇(狀語從句片段、That-從句片段、Wh-從句片段),并從類型數(Types)和總數(Tokens)兩個方面統(tǒng)計了這些詞簇,使用卡方檢驗(Chi-square test)和對數似然檢驗(Log-likelihood test)來判斷它們之間是否存在顯著性差異。
如圖1所示,在SCI-CH語料庫中,高頻四詞詞簇類型數和總數的分布一致,類型數多的詞簇,總數所占比例也大,其中包含介詞短語的詞簇無論在類型方面還是總數方面所占比例最大,分別達到35.00%和39.43%,其次是包含動詞短語的詞簇,而包含名詞短語的詞簇所占比例最小。
圖1. SCI-CH語料庫中四詞詞簇整體結構類型
此外,包含從句的詞簇類型數和總數所占比例相差不大,而包含介詞短語的詞簇總數所占百分比超過了類型數所占百分比,說明中國學者使用包含介詞短語的詞簇不僅類型多,使用也更頻繁。
包含名詞短語和介詞短語的詞簇可以看作是短語類詞簇,包含動詞短語和從句的詞簇看作是小句類詞簇(Biberetal., 2004; Panetal., 2016),圖2顯示中國學者在SCI論文中,類型數方面,短語類詞簇所占比例少于小句類詞簇,但在總數方面,短語類詞簇所占比例卻多于小句類詞簇,這說明中國學者在論文撰寫中,傾向于使用短語類詞簇,但所掌握類型相對較少。
表2是SCI-CH語料庫中所有結構類型的詳細分布,可以看出在所有子類中,被動態(tài)動詞短語的類型數和總數最多,這說明中國學者在撰寫論文時十分依賴被動結構。對此,我們可以理解為在學術論文撰寫中,國內學者較少使用第一人稱復數We,已有研究證實學術論文中被動與we呈負相關(Millaretal., 2013),中國學者更多的將主語設定為所研究的物,努力使文章顯得更客觀。此外,其他三個大類中帶of-結構的名詞短語、帶of-的介詞短語、That-從句片段的使用數目較多、特征明顯,對于上述的四個子類,本研究將詳細分析其結構框架。
圖2. SCI-CH語料庫中短語類詞簇與小句類詞簇
表2. SCI-CH語料庫中四詞詞簇整體結構類型
在對帶of的名詞短語詳細觀察統(tǒng)計后發(fā)現,the +名詞+of the這種結構最多,一共有7個類型,出現了908次,其類型數在名詞短語的詞簇中占50%,在所有高頻詞簇中占7%,如表3所示,填充名詞為surface, end, results, increase, formation, basis, effect;在帶of的介詞短語中,in the +名詞+of的類型數最多,達到了7次,如表3所示,主要填充的名詞為presence, case, range, absence, regulation, terms, formation;在被動態(tài)動詞短語中,被動+介詞結構的詞簇出現了14次,占被動態(tài)動詞短語的70%,在所有詞簇中占14%,總數也同樣較多,是中國學者英語學術論文中的典型結構,如表3所示,主要被動式為shown (4), used(3), listed, found, expressed, written, seen, based, organized,其中shown和used占了一半;在That-從句片段中,The results/studies +動詞+ that結構比較典型,填充動詞主要為show(4),indicate(2),suggest,其中show的頻數最高。上述統(tǒng)計結果表明國內學者撰寫學術論文的特點是采用被動結構,客觀論述所做工作的方法、數據以及結論;除此之外,無論是被動結構還是That-從句片段中,使用最多的動詞都是show,中國學者使用show的頻率非常高,既顯示了中國學者對show的偏愛,也從側面表明中國學者缺乏與show功能相似的動詞,因而用詞單一。
表3. SCI-CH語料庫中最常用結構框架
本研究除了對中國學者SCI論文整體結構特點進行分類統(tǒng)計外,還對SCI-CH語料庫的四個分區(qū),也就是SCI檢索論文四個分區(qū)中中國學者使用的高頻四詞詞簇進行了統(tǒng)計研究,具體統(tǒng)計數據如表4所示。表4列出了每個分區(qū)中高頻詞簇的分類,以及各類詞簇的類型數和總數,可以看出,各分區(qū)詞簇結構分布與整體結構分布類似,使用最多的都是帶of結構的介詞短語和被動態(tài)動詞短語。具體而言,一區(qū)和二區(qū)帶of結構的介詞短語類型數、總數最多,三區(qū)和四區(qū)被動態(tài)動詞短語類型數、總數最多,使用最少的都是Wh-從句片段和主動態(tài)動詞短語。
表4. SCI-CH語料庫中四個分區(qū)高頻四詞詞簇結構分布
續(xù) 表
除此之外,本文又從類型數和總數兩方面,將四個分區(qū)的數據對比,通過卡方檢驗,發(fā)現各分區(qū)之間類型數方面沒有顯著差異,但總數方面差異顯著,每兩個分區(qū)之間都存在顯著差異,如表5所示。由表5,我們可以得出結論,中國學者在撰寫SCI論文時,各區(qū)所使用的四詞詞簇類型相似,但每種類型詞簇的使用總數卻顯著不同,因而我們認為中國學者SCI各區(qū)論文特點上不盡相同,這與傳統(tǒng)思維中SCI論文各區(qū)之間的差異僅相關于科研成果相矛盾。
為了對SCI-CH語料庫中四個分區(qū)詞簇結構的分布進行更進一步的分析,本研究從類型數和總數兩方面,將四個分區(qū)的數據分別與自建的本族語學者SCI論文語料庫(SCI-EN語料庫)進行對比,探討中國學者各分區(qū)與本族語學者之間的差異。SCI-EN語料庫的建立方法同SCI-CH語料庫,各分區(qū)比例與SCI-CH語料庫相似,總字符數為4 389 503。通過對數似然檢驗發(fā)現,與SCI-EN語料庫相比,SCI-CH中各區(qū)在類型數方面差異較小,但總數方面差異顯著,具體統(tǒng)計數據如表6所示。
表5. SCI-CH語料庫中四個分區(qū)結構之間卡方檢驗結果
注:*表示p<0.05;**表示p<0.01
表6. SCI-CH語料庫各分區(qū)與SCI-EN比較的似然對數結果
續(xù) 表
注:*表示p<0.05;**表示p<0.01;+表示過多使用,-表示過少使用
表6列出了類型數和總數方面SCI-CH語料庫各分區(qū)與SCI-EN語料庫的似然對數結果。在類型數方面,中國學者一區(qū)論文與本族語學者論文的差異集中于狀語從句片段,明顯多用了狀語從句片段;二、三、四區(qū)的中國學者與本族語學者相比明顯少用了帶of的名詞短語;使用總數方面,大部分四詞詞簇結構存在著過度使用的現象,或多或少地說明中國學者在論文撰寫中詞句尚需精煉。
在包含名詞短語和介詞短語的詞簇中,各分區(qū)中國學者都明顯少用了帶of的名、介詞短語,而傾向于多使用其他類型的名、介詞短語。有研究表明,名詞短語詞簇、介詞短語詞簇與論文的主要信息有著很強的相關性(Panetal., 2016),所以中國學者要提高帶of的名詞、介詞詞簇的使用量,同時減少使用比較性表達方面的詞簇,從而更好地表達論文所提出的觀點結論。在包含動詞的詞簇方面,主要的顯著差異集中在主動態(tài)短語和被動態(tài)短語方面,其中主動態(tài)短語使用過多,被動態(tài)短語三區(qū)、四區(qū)使用過多,一區(qū)使用過少。許多中國學者認為被動語態(tài)的大量使用是學術英語的主要特征,但近些年來,學術英語中主動語態(tài)的使用比過去更加普遍,被動語態(tài)的使用有變少趨勢(肖碧丹, 2015),英語國家的許多學者都認識到過多使用被動語態(tài)會使論文枯燥難懂,所以中國學者要注意主動結構與被動結構的使用,使得論文更加直接易懂又不失客觀。在包含從句的詞簇方面,各分區(qū)的狀語從句片段都過多使用,但that從句片段、Wh-從句片段呈現出不同的使用趨勢。整體而言,和本族語學者相比,各分區(qū)中國學者要適當增加帶of的名詞短語、帶of的介詞短語,減少比較性表達,注意主動、被動態(tài)動詞短語的使用。
本研究采用語料庫研究方法,考察了中國學者在SCI檢索論文中四詞詞簇的使用情況,并研究分析了中國學者在SCI各分區(qū)的學術論文中詞簇使用情況。研究發(fā)現,整體上,中國學者學術論文中使用最多的詞簇類型是介詞短語的詞簇,最少的是名詞短語詞簇;各區(qū)論文與自建的SCI-EN語料庫相比類型數方面差異較小,總數方面差異十分顯著;明顯少用了帶of的名詞以及帶of的介詞短語,多用了比較性表達、狀語從句,需注意主動語態(tài)以及被動語態(tài)的使用。
基于本文的研究數據及結論,我們認為,中國學者在日常閱讀文獻時,應多注意本族語學者所撰寫論文中帶of的名詞短語和帶of的介詞短語的使用;在撰寫論文時,應減少比較性表達方式,注重使用帶of的名詞短語和帶of的介詞短語,且需合理安排主動、被動語態(tài),使所撰寫的文章直接易懂;最后,在修改潤色論文時,可以借用語料庫統(tǒng)計軟件結合本文統(tǒng)計數據,進行指導性的修改,使論文撰寫更加地道,減少論文撰寫難度,這同樣也是本文后續(xù)擬進行的研究工作。