国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

工科英語語料庫的設(shè)計(jì)構(gòu)想及應(yīng)用前景

2018-05-22 07:45王志娟北京師范大學(xué)外國語言文學(xué)學(xué)院北京00875黑龍江大學(xué)應(yīng)用外語學(xué)院黑龍江哈爾濱50080
關(guān)鍵詞:語類期刊論文語料

王志娟, 于 麗(. 北京師范大學(xué) 外國語言文學(xué)學(xué)院, 北京 00875;. 黑龍江大學(xué) 應(yīng)用外語學(xué)院, 黑龍江 哈爾濱 50080)

學(xué)科英語指用來組織不同領(lǐng)域的經(jīng)驗(yàn)知識所采用的英語變體,為高校英語教育的基本內(nèi)容,屬于專門用途英語[1] 81。作為一組功能變體,學(xué)科英語內(nèi)容既涉及某一學(xué)科的專業(yè)書籍、研究論文等高度專業(yè)化的語類,又包含專業(yè)報(bào)紙、印刷品等科普類讀物[2] 5,以及教學(xué)過程中涉及的教師話語、學(xué)生筆記、小組討論等教學(xué)話語[1] 73。它們在復(fù)雜度與難度上形成一個(gè)連續(xù)體。在不同的發(fā)展階段,專門用途英語有其不同時(shí)代的特點(diǎn)[3]。在如今的大數(shù)據(jù)時(shí)代,學(xué)科英語也應(yīng)緊跟大數(shù)據(jù)這一時(shí)代特點(diǎn)。工科英語作為學(xué)科英語重要的研究領(lǐng)域之一,下設(shè)39個(gè)一級學(xué)科,不同子學(xué)科間的語言特點(diǎn)差異及同一學(xué)科中不同語域中的特點(diǎn)差異,需要借助專門用途語料庫從量化和質(zhì)性兩方面進(jìn)行系統(tǒng)、全面地描寫及功能、認(rèn)知方面的闡釋。

目前,國際上具有代表性的專門用途語料庫有Hyland[4]研制的“多學(xué)科期刊論文語料庫”,包括8個(gè)不同學(xué)科共240篇論文,合計(jì)約130萬詞次,Swales建立的“密西根學(xué)術(shù)口語語料庫”(the Michigan Corpus of Academic Spoken English)[5],美國考試服務(wù)公司的“T2K-SWAL語料庫”(the TOEFL 2000 Spoken and Written Academic Language Corpus)[6],“印第安納跨文化交流中心籌款語料庫”(the Indiana Center for Intercultural Communication (ICIC) Fund-raising Corpus)[7]等。國內(nèi)也根據(jù)研究和教學(xué)的需要,相繼建立了各種專門用途語料庫,如上海交通大學(xué)的“科技英語計(jì)算機(jī)語料庫”(JDEST Computer Corpus)[8],桂詩春和楊惠中主持的“中國學(xué)習(xí)者英語語料庫”(Chinese Learner English Corpus),“中國學(xué)生英語口筆語語料庫”[9],解放軍外國語學(xué)院的“軍事英語語料庫”,大連海事大學(xué)的“海事英語語料庫”,黑龍江大學(xué)的“商務(wù)英語語料庫”,國家語委的“計(jì)算機(jī)專業(yè)雙語語料庫”[10],“東華科技英語語料庫”[11],“評價(jià)語料庫”[12]等。但現(xiàn)有相關(guān)專門用途語料庫的結(jié)構(gòu)、規(guī)模,或者標(biāo)注詳實(shí)度不能準(zhǔn)確、全面地反映工科英語不同子學(xué)科及不同語類的特點(diǎn)差異,如上海交通大學(xué)的“科技英語計(jì)算機(jī)語料庫”的語料由篇幅約500字的2 000個(gè)采樣單位組成,而非完整語篇,這樣的語料對于很多研究具有限制性;Hyland的“多學(xué)科期刊論文語料庫”收錄30篇工科期刊論文,未考慮不同語類的語篇和子學(xué)科的覆蓋性;“東華大學(xué)科技英語語料庫”的子庫“專業(yè)科技英語”語料庫雖然對語料的語類給予了一定的考慮,但語料僅涉及論文、書評和科技新聞三個(gè)語類,沒有納入專業(yè)教材和書籍及科普文章,與Hyland的“多學(xué)科期刊論文語料庫”類似,沒有考慮子學(xué)科因素。雖然這兩個(gè)語料庫都對工科英語有所涉及,但鑒于語料選取在語類和子學(xué)科覆蓋性兩方面的局限性,仍無法滿足比較不同子學(xué)科、不同語類語篇特征的需求。另外,現(xiàn)有語料庫未對語料進(jìn)行詞匯語法的標(biāo)注,很難進(jìn)行深入的語言學(xué)研究。因此,本文提出工科英語語料庫的研制方案,以期全面、系統(tǒng)地研究工科英語子學(xué)科間,以及語類間在詞匯語法維度上的異同,揭示工科英語的本質(zhì)特征,為高校專門用途英語教學(xué)模式[13]中的工程學(xué)科提供內(nèi)容參照。

一、 工科英語語料庫的研制原則及建庫流程

工科英語在理論和知識表征中有其獨(dú)特的詞匯語法模式。除了語言(這里指英語),還涉及大量的公式、定理、數(shù)學(xué)、物理、化學(xué)等符號。這些公式、定理和符號,精確、高效地表達(dá)著工科知識系統(tǒng),在體現(xiàn)工科理論和知識內(nèi)在的邏輯性的同時(shí),也具有排外性,將對工科知識感興趣但不是工科專業(yè)的人士擋拒在工科大門之外。其雖然重要,但目前由于語料庫軟件無法讀取該類符號,故在語料庫研制之初,我們暫不予以考慮。

鑒于此,筆者嘗試從語言符號這一表征系統(tǒng)入手,著重考慮以下三方面內(nèi)容:①語料涉及的子學(xué)科和語類,以及各子學(xué)科和語類的代表性和平衡性;②語料的收集、整理和清潔;③語料的標(biāo)注及標(biāo)注工具的選取。

1. 研制原則

工程學(xué)包括力學(xué)、機(jī)械工程、光學(xué)工程、儀器科學(xué)與技術(shù)、材料科學(xué)與技術(shù)、冶金工程、動(dòng)力工程及工程熱物理、電氣工程、電子科學(xué)與技術(shù)、信息與通信工程、控制科學(xué)與工程、計(jì)算機(jī)科學(xué)與技術(shù)等39個(gè)一級學(xué)科。為此,工程學(xué)語料涵蓋39個(gè)一級學(xué)科。在語料選取中我們力求語料的“代表性和平衡性”[14] 26。代表性指選取的語料的文類具有代表性,這里指所選語料既能夠反映出工科英語作為科學(xué)語言的高難度的專業(yè)化,又能反映工科英語作為科普信息載體的一般難度化。平衡性指每類語料的比例要均衡。依據(jù)工科英語語料庫的建庫目的、代表性及平衡性原則,工科學(xué)生學(xué)習(xí)資料的來源途徑及可操作性,語料來源規(guī)定為3種文類:科普文章,專業(yè)書籍和SCI期刊論文。暫且框定每個(gè)子學(xué)科科普文章40篇、專業(yè)書籍2本、SCI期刊論文25篇,語料收集過程中靈活調(diào)整此比例以保證語料庫的平衡性。故工科英語語料庫的語料結(jié)構(gòu)如圖1。

圖1工科英語語料庫的語料結(jié)構(gòu)

2. 建庫流程

語料庫建設(shè)階段的主要任務(wù)包括文本收集、整理、清潔和文本的標(biāo)注等[14] 21,文本標(biāo)注包括元信息標(biāo)注和語言學(xué)信息標(biāo)注。

(1) 文本的收集、整理和清潔。學(xué)術(shù)期刊論文從SCI期刊上獲取,專業(yè)書籍由相關(guān)專業(yè)人士推薦,科普文章從Scientific American,How Stuff Works,Live Science, Science Daily,Popular Science等科普網(wǎng)站上獲取。

所有文本最終都轉(zhuǎn)換成純文本格式。CAJ格式論文通過另存功能轉(zhuǎn)換成純文本格式;PDF格式論文使用Adobe Acrobat X 10.1.1軟件轉(zhuǎn)換成Word文檔,然后另存為純文本格式;專業(yè)書籍等印刷制品文本需要研究人員采用掃描儀進(jìn)行高清掃描后獲取圖像文件,然后使用OCR軟件進(jìn)行文字識別,完成校對后將文本另存為純文本格式;科普文章從網(wǎng)站上拷貝進(jìn)純文本文檔,完成格式校對。同時(shí),課題組人員需要將文本中的圖表、公式等不能為語料庫檢索軟件識別的部分刪除。

完成純文本格式轉(zhuǎn)換后,采用“文本整理器”將不符合英文文本規(guī)范的“全角字符”“跳格”“多余空格”“軟回車”等問題進(jìn)行整理和替換,批量生成清潔文本。經(jīng)過該軟件批量處理后的文本仍會(huì)存在個(gè)別小的問題,需要研究人員手動(dòng)排查。最后將整理好的文本保存在名為“生文本”的文件夾內(nèi)。

(2) 元信息標(biāo)注。元信息標(biāo)注包括文件名標(biāo)注和文件頭標(biāo)注。文件名標(biāo)注包含學(xué)科類別、文本類別、篇數(shù)序列等信息,均采用英文名稱首字母大寫標(biāo)注。SCI期刊論文的英文采用RESEARCH ARTICLE,專業(yè)書籍的英文采用TEXTBOOK,科普文章的英文采用POPULAR SCIENCE ARTICLE。例如,信息與通信工程學(xué)術(shù)期刊文章的文件名標(biāo)注方式為:ICE_RA_01,其中ICE代表信息與通信工程(Information and Communication Engineering)學(xué)科,RA代表學(xué)術(shù)期刊論文(Research Article),01表示第一篇。文件頭標(biāo)注包含作者姓名;出版日期;文章題目/書籍名稱;期刊名稱/出版社名稱等信息,均使用英文全稱標(biāo)注。此外,課題組還對期刊論文進(jìn)行了包括ABSTRACT,INTRODUCTION,METHODOLOGY,RESULTS,DISCUSSION,CONCLUSION的文本結(jié)構(gòu)標(biāo)注,目的是為了后期根據(jù)具體研究的需要生成子語料庫。

(3) 語言學(xué)信息標(biāo)注。語言學(xué)信息標(biāo)注包括詞性賦碼、句法標(biāo)注、語義標(biāo)注和詞匯語法標(biāo)注。

在詞性賦碼操作中,可以使用德國斯圖加特大學(xué)計(jì)算機(jī)語言學(xué)研究所Helmut Schmid設(shè)計(jì)的Tree Tagger自動(dòng)詞性賦碼器對生文本進(jìn)行詞性賦碼。為了可以更方便地在Windows環(huán)境中運(yùn)行程序,筆者打算使用梁茂成、李文中和許家金[14]30在不改變其性能的情況下簡化了的程序,最后生成擴(kuò)展名為.pos的文本,保存在名為“詞性賦碼”的文件夾內(nèi)。句法標(biāo)注使用Standford Parser軟件,生成的文本保存在名為Syntactic Tagged的文件夾。然后使用USAS online English tagger進(jìn)行語義標(biāo)注,生成的文本保存在名為“語義標(biāo)注”的文件夾內(nèi)。

目前關(guān)于語料庫文本詞匯語法的標(biāo)注還沒有相關(guān)的自動(dòng)標(biāo)注軟件,需要手動(dòng)標(biāo)注,本研究采用UAM Corpus Tool(V2.0)軟件在電子文本上進(jìn)行手動(dòng)標(biāo)注。

詞匯語法信息的標(biāo)注包括兩部分:詞匯和語法。

詞匯方面主要是相關(guān)學(xué)科領(lǐng)域的專業(yè)術(shù)語和寫作過程中常用的詞匯表達(dá)。前者主要體現(xiàn)為名詞、名物化或者名詞詞組(名詞串),后者主要體現(xiàn)在起連接作用的動(dòng)詞成分(包含動(dòng)詞的語法隱喻形式),這些都需要在語料庫中標(biāo)注出來。自然科學(xué)中的專業(yè)概念本身沒有意義,分類使其產(chǎn)生意義[15]164。專業(yè)術(shù)語主要依據(jù)兩種關(guān)系進(jìn)行分類:上下義關(guān)系(aisakind ofb)和組成關(guān)系(bisapart ofc)[15]164,因此術(shù)語之間的分類關(guān)系也需要標(biāo)注。除此之外,術(shù)語的名詞詞組(名詞串)表征還會(huì)隱含各個(gè)組成成分內(nèi)在的邏輯語義關(guān)系,這也是學(xué)科英語中句法歧義的原因之一[15]171。如theheat-drivenquantumrefrigerator,中心詞是refrigerator,quantum是類別詞,heat-driven是表征詞,the是指示語,該術(shù)語的邏輯語義關(guān)系可以顯性表達(dá)為:Quantumprovidesheatwhichdrivestherefrigerator。因此,在詞匯標(biāo)注方面,不僅要標(biāo)注出專業(yè)術(shù)語的體現(xiàn)形式,還要標(biāo)注出術(shù)語之間的分類關(guān)系,以及名詞詞組各成分間的邏輯語義關(guān)系及其顯性表達(dá)式。

語法方面主要關(guān)注小句中動(dòng)詞成分體現(xiàn)的連接功能:復(fù)雜因果關(guān)系(complex causal(e.g.prevent,increase))、時(shí)間關(guān)系(temporal(e.g.follow))、識別關(guān)系(identifying(e.g.be,constitute))、象征關(guān)系(symbolizing(e.g.signal,mark))、投射關(guān)系(projecting,‘cause to know/think’(e.g.prove,suggest))、附加關(guān)系(additive(e.g.complement,accompany))[16]85,以及其他的邏輯語義結(jié)構(gòu),如條件-結(jié)果(結(jié)果-條件)結(jié)構(gòu)(IfA…,Bmaybe….Thisleadsto…;IfA…,andifB…,Cshouldhave…;SinceA…,Bisalways…;Giventhat…,wecan…andthus…;Ais…,asitis…;LetusassumeA,sothatB…等)、詳述關(guān)系(forexample;forinstance; …,whichis…)等。以上連接功能及邏輯語義結(jié)構(gòu)的語法隱喻形式也需在文本中標(biāo)注出來。

經(jīng)過詞匯語法標(biāo)注的文本統(tǒng)一存放在名為“詞匯語法標(biāo)注”的文件夾內(nèi)。

以上5個(gè)平行的文件夾組成工科英語語料庫,其構(gòu)架模擬圖如圖2。

圖2工科英語語料庫構(gòu)架模擬圖

相關(guān)研究人員可以根據(jù)具體研究的需要,使用不同標(biāo)注內(nèi)容的文本語料,也可根據(jù)不同的變量,生成子語料庫,如根據(jù)語料類型生成工科英語學(xué)術(shù)期刊文章子語料庫、專業(yè)書籍子語料庫、科普文章子語料庫,也可依根據(jù)變量Introduction生成工科英語學(xué)術(shù)期刊文章的Introduction子語料庫等。

二、 工科英語語料庫的應(yīng)用前景

工科英語語料庫的建設(shè)有兩方面的考慮:一是基于語料庫開展相關(guān)的語言研究;二是將該語料庫引用到工科英語語言教學(xué)中,使其成為教師備課及學(xué)生自主學(xué)習(xí)的有效工具。

該語料庫特色之一就在于它不僅囊括了工程學(xué)不同的學(xué)科,還涉及工科英語不同的語類。語言研究者既可以橫向?qū)Ρ炔煌瑢W(xué)科同一語類中的一種或者多種句法、語義和詞匯語法特點(diǎn),又可以縱向?qū)Ρ韧粚W(xué)科不同語類間的一種或者多種句法、語義和詞匯語法特點(diǎn),揭示不同學(xué)科或者不同語類的知識表征或建構(gòu)模式。語言研究者也可通過檢索不同的變量生成適合特定研究需要的子語料庫,如將期刊論文不同的部分作為研究對象,開展期刊論文不同結(jié)構(gòu)部分的對比研究。另外,本語料庫除了可以像其他語料庫一樣開展詞塊分析、句法結(jié)構(gòu)、類聯(lián)接研究和話語研究[14]212外,由于本語料庫標(biāo)注信息涵蓋語法隱喻,也可開展基于語料庫的語法隱喻研究。除了可以開展語料庫內(nèi)的對比研究外,工科英語語料庫還可以開展語料庫間的對比研究。與其他語料庫(如通用語料庫,或者其他學(xué)科的語料庫)的跨語料庫對比研究,可以揭示工科英語與通用英語、其他學(xué)科英語的區(qū)別,為揭示背后的學(xué)科規(guī)律、相關(guān)的語用和功能闡釋提供翔實(shí)的語料基礎(chǔ)。此外,該語料庫也可考慮為基于敘詞表的方法[17]153研發(fā)工科英語術(shù)語詞典提供語料來源。

除用于語言研究外,工科英語語料庫還可用于工科英語教學(xué)。該語料庫建成后會(huì)請專業(yè)技術(shù)人員將該語料庫上傳到公共的網(wǎng)絡(luò)平臺供包括學(xué)生在內(nèi)的相關(guān)人員(語言研究者,教師等)免費(fèi)使用。此做法既可以改善以往學(xué)生無法接觸語料庫,語料庫被神秘化的境況,又可以為形成“教師引導(dǎo)為輔,學(xué)生自主學(xué)習(xí)為主”[18]的語料庫教學(xué)模式提供實(shí)踐機(jī)會(huì)。在初始階段,教師主要指導(dǎo)學(xué)生進(jìn)行特定詞項(xiàng)、詞語搭配、類聯(lián)接等單項(xiàng)檢索任務(wù)操作;進(jìn)入熟練階段,以教師引導(dǎo)為主,學(xué)生可自主分析特定語類或者特定結(jié)構(gòu)部分(如期刊論文的Introduction)的詞匯語法、句法和語義特點(diǎn);高級階段,學(xué)生可借助語料庫進(jìn)行論文寫作或者翻譯等工作。此過程不僅能夠提高學(xué)生的論文寫作水平,還可以幫助學(xué)生從整體上把握工科知識潛在的表征系統(tǒng)。

三、 結(jié) 語

雖然工科英語語料庫的建設(shè)充分考慮到子學(xué)科和語類的覆蓋性,力求語料的代表性,但正如前文所述,工科英語中涉及大量的公式和符號,它們在構(gòu)建工科知識和理論過程中起著舉足輕重的作用。然而,在語料庫中并未體現(xiàn),這未免是我們語料庫建設(shè)中的一大遺憾。技術(shù)的局限性既是我們研究的不足,同時(shí)也是我們未來備以突破的方向。

參考文獻(xiàn):

[ 1 ] HALLIDAY M A K. Aspects of language and learning[M]. WEBSTER J J. Berlin & Heidelberg Springer: 2016.

[ 2 ] MARTIN J R, VEEL R. Reading science: critical and functional perspectives on discourses of science[C]. London: Routledge, 1998.

[ 3 ] 宋陽,王亦兵. 專門用途英語:界定、分類及國內(nèi)研究現(xiàn)狀[J]. 沈陽大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2014,16(4):554-557.

[ 4 ] HYLAND K. Disciplinary discourses: social interactions in academic writing[M]. Ann Arbor: University of Michigan Press, 2004.

[ 5 ] SIMPSON R. Stylistic features of academic speech: the role of formulaic expressions[C]∥CONNOR U, UPTON T A. Discourse in the professions: perspective from corpus linguistics. Amsterdam: John Benjamins Publishing Company, 2004.

[ 6 ] REPPEN R. Academic language: an exploration of university classroom and textbook language[C]∥CONNOR U, UPTON T A. Discourse in the professions: perspective from corpus linguistics. Amsterdam: John Benjamins Publishing Company, 2004.

[ 7 ] CONNOR U, UPTON T A. The genre of grant proposals: a corpus linguistic analysis[C]∥CONNOR U, UPTON T A. Discourse in the professions: perspective from corpus linguistics. Amsterdam: John Benjamins Publishing Company, 2004.

[ 8 ] 楊惠中,黃人杰. JDEST科技英語計(jì)算機(jī)語料庫[J]. 外語教學(xué)與研究, 1982,4:60-62.

[ 9 ] 文秋芳,王立非,梁茂成. 中國學(xué)生英語口筆語語料庫[M]. 修訂版. 北京:外語教學(xué)與研究出版社, 2009.

[10] 董愛華. 專門用途語料庫的建設(shè)、應(yīng)用、問題與發(fā)展趨勢[J]. 北京印刷學(xué)院學(xué)報(bào), 2013,21(5):59-74.

[11] 吳蕾,趙曉臨,張繼東. 專業(yè)科技英語語料庫的建設(shè)與應(yīng)用[J]. 東華大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2014,14(2):81-85.

[12] 彭宣維,劉玉潔,張冉冉,等. 漢英評價(jià)意義分析手冊[M]. 北京:北京大學(xué)出版社, 2015.

[13] 王亦兵,宋陽. 高校ESP教學(xué)模式. 沈陽大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2014,16(3):366-369.

[14] 梁茂成,李文忠,許家金. 語料庫應(yīng)用教程[M]. 北京:外語教學(xué)與研究出版社, 2010.

[15] HALLIDAY M A K. Some grammatical problems in scientific English[C]∥WEBSTER J J. The language of science: Vol.5. London: Continuum, 2004.

[16] HALLIDAY M A K. Things and relations: regrammaticising experience as technical knowledge[C]∥WEBSTER J J. The language of science:Vol.5. London: Continuum, 2004.

[17] HALLIDAY M A K. General linguistics and its application to language teaching[C]∥WEBSTER J J. The language of science: Vol.9. London: Continuum, 2004.

[18] GAVIOLI L. Exploring corpora for ESP learning[M]. Amsterdam: John Benjamins Publishing Company, 2005.

猜你喜歡
語類期刊論文語料
我國體育學(xué)領(lǐng)域高被引學(xué)術(shù)期刊論文特征分析
基于歸一化點(diǎn)向互信息的低資源平行語料過濾方法*
國際學(xué)術(shù)期刊論文中的互動(dòng)元話語——語篇構(gòu)件維度下的人際意義
話語雜糅中的生死觀建構(gòu)——“生前契約”語類分析
互動(dòng)構(gòu)建的時(shí)空延展和情感變遷——電子哀悼多模態(tài)語類特征
《語類特征
——語類范疇生成理論》評介
Analysis of Pragmatic Conditions of Null Subject in Mandarin
2018年金融服務(wù)法核心期刊論文盤點(diǎn)與分析
構(gòu)建國際英文期刊論文的中文發(fā)布體系研究
對外漢語教學(xué)領(lǐng)域可比語料庫的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語義標(biāo)注及應(yīng)用研究為例