国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

小型中醫(yī)英語口語語料庫構(gòu)建研究?

2018-10-23 11:37杜雪琴竇川川
關(guān)鍵詞:賦碼語料語料庫

杜雪琴,竇川川,晏 麗,龔 妍

(江西中醫(yī)藥大學(xué), 南昌 330004)

過去二三十年,伴隨著現(xiàn)代計(jì)算機(jī)技術(shù)的發(fā)展與普及,語料庫語言學(xué)得到飛速發(fā)展。當(dāng)前, 語料庫的建設(shè)與應(yīng)用研究已深入至各專業(yè)、各學(xué)科領(lǐng)域。如何建立各種有地域、語體乃至學(xué)科特色的專用(專門學(xué)科或行業(yè))語料庫是今后語料庫語言學(xué)研究的發(fā)展趨勢(shì)之一。同時(shí),為了更好地滿足不同領(lǐng)域內(nèi)的各種實(shí)際需求,國內(nèi)外語言工作者已經(jīng)建成或正在致力于開發(fā)各種專門用途語料庫。

隨著經(jīng)濟(jì)全球化、文化多元化的發(fā)展,中醫(yī)對(duì)外交流日趨活躍,對(duì)中醫(yī)民族文化的傳承傳播已經(jīng)上升為國家戰(zhàn)略工程。在此背景下,中醫(yī)英語外向型口語人才需求的進(jìn)一步加大,對(duì)中醫(yī)英語口語教學(xué)的要求更為迫切。然而,中醫(yī)語言的復(fù)雜性與特殊性以及中醫(yī)術(shù)語英譯標(biāo)準(zhǔn)相對(duì)模糊、至今未開發(fā)出的中醫(yī)英語口語語料庫,更不必說基于語料的相關(guān)教學(xué)實(shí)證研究。鑒于語料庫建立和研究的專業(yè)化、特色化與學(xué)科化發(fā)展趨勢(shì)以及傳播中醫(yī)民族文化的迫切要求,建立中醫(yī)英語口語語料庫勢(shì)在必行。

1 語料庫語言學(xué)

自20世紀(jì)90年代,隨著計(jì)算機(jī)技術(shù)的發(fā)展與普及,語言研究開始了一場(chǎng)“讓數(shù)據(jù)庫說話”的語言革命。各種語料庫應(yīng)運(yùn)而生,并在語言學(xué)研究中發(fā)揮著不可比擬的作用。正如Teubert (2005)所說:“語料庫已經(jīng)被幾乎所有語言學(xué)研究者看作默認(rèn)的數(shù)據(jù)源。任何內(nèi)省在未得到語料庫驗(yàn)證的情況下,都不可能獲的人們的信任。語料庫已經(jīng)成為幾乎所有語言研究的關(guān)鍵要素。[1]”

語料庫(corpus, 復(fù)數(shù)corpora)一詞來源于拉丁語,往往指的是“電子文本集”(a collection of texts stored in an electronic database)。語料庫研究者John Sinclair指出,任何語料庫研究均開始于語料庫的建立,語料庫的設(shè)計(jì)及選材幾乎控制以后所要做的一切基于語料庫的研究工作,研究結(jié)果的好壞只與語料庫的建設(shè)質(zhì)量有關(guān)[2]??谡Z語料庫建立的框架大致包括語料庫整體設(shè)計(jì)、語料的收集與整理、語料的轉(zhuǎn)寫與標(biāo)注、語料的檢索與查詢。語料庫構(gòu)建與開發(fā)完成后,其優(yōu)勢(shì)顯而易見,其作用可謂無法替代。正如John Sinclair指出,語料庫在外語教學(xué)中的作用即“只能提供真實(shí)例子”[3],而口語語料庫既為外語學(xué)習(xí)者提供了大量真實(shí)的語言素材,構(gòu)建了立足于可靠的語言數(shù)據(jù)的教學(xué)平臺(tái),又為外語教學(xué)研究者提供了一種基于語料數(shù)據(jù)的實(shí)證研究方法,使其研究更具有科學(xué)性。

2 中醫(yī)英語語料庫研究現(xiàn)狀

中醫(yī)英語作為一門正在形成與發(fā)展的新興學(xué)科,是一門英語語言在中醫(yī)藥對(duì)外翻譯與交流過程中逐漸形成的一種獨(dú)特的表達(dá)體系[4]。近二三十年,國內(nèi)外對(duì)其研究主要集中在中醫(yī)術(shù)語英譯標(biāo)準(zhǔn)化研究、中醫(yī)翻譯理論與實(shí)踐研究以及中醫(yī)英語教學(xué)研究等方面。同時(shí),中醫(yī)英語的研究也呈現(xiàn)出“讓語料說話”的趨勢(shì),涉及中醫(yī)翻譯的語料庫研究已經(jīng)開展,并取得了一定的成果。如聞?dòng)酪阕?003年一直致力于《黃帝內(nèi)經(jīng)》語料庫的開發(fā)與應(yīng)用研究,以及蘭鳳利主持創(chuàng)建中醫(yī)經(jīng)典文獻(xiàn)平行語料庫。這種發(fā)展趨勢(shì)已然表明了數(shù)據(jù)強(qiáng)大的說服力以及可靠性,促使對(duì)中醫(yī)英語研究方法從理論的歸納法轉(zhuǎn)向?yàn)榛谡Z料技術(shù)的實(shí)證研究。

然而中醫(yī)英語語料庫研究仍處于起步階段,大多為語料庫的理論探討階段。國內(nèi)近10年的研究主要從宏觀層面探討中醫(yī)英語語料庫建設(shè)的意義、理論原則以及總體方案。如薛學(xué)彥的“中醫(yī)英語語料庫建立的設(shè)想”[5]、聞?dòng)酪愕摹皽\談建設(shè)中醫(yī)英語語料庫的意義”[6]、倪傳斌的“中醫(yī)英語語料庫建設(shè)原則”[7]等。此外,至今已開發(fā)或正在建的語料庫語料大多為中醫(yī)文獻(xiàn)與術(shù)語等書面語料,規(guī)模不大,且多應(yīng)用于中醫(yī)英譯與術(shù)語標(biāo)準(zhǔn)化研究,缺乏一定的教學(xué)實(shí)踐研究。中醫(yī)英語口語語料的收集與開發(fā)相對(duì)滯后,且停留于設(shè)想階段,至今只有1篇相關(guān)論文,即陳滟、施蘊(yùn)中的“語料庫語言學(xué)與中醫(yī)漢英口語語料庫”[8]。因此,中醫(yī)英語口語語料庫的開發(fā)、構(gòu)建以及實(shí)際應(yīng)用具有很大的研究空間與研究意義。

3 中醫(yī)英語口語語料庫的構(gòu)建

中醫(yī)英語口語語料庫,按應(yīng)用取向分類屬于專用語料庫。中醫(yī)英語口語語料庫可以定義為通過收集中醫(yī)英語領(lǐng)域的口語語料樣本(如視頻、CD等),并對(duì)語音、語調(diào)、停頓詞頻率與搭配等口語特征進(jìn)行標(biāo)注而建成的,用于分析中醫(yī)英語口語的特點(diǎn)與規(guī)律或應(yīng)用于中醫(yī)英語口語教學(xué)與研究的語料庫,其構(gòu)建的基本步驟分為以下幾個(gè)方面。

3.1 語料庫的整體設(shè)計(jì)

語料庫整體設(shè)計(jì)是指從整體對(duì)語料庫進(jìn)行規(guī)劃與設(shè)想,主要包括語料庫的規(guī)模、適用范圍以及文本類型等。按其適用目的與適用范圍,該語料庫屬于微型教學(xué)型語料庫,目的用于開展中醫(yī)英語口語教學(xué)活動(dòng)以及學(xué)生實(shí)施基于數(shù)據(jù)驅(qū)動(dòng)的自主學(xué)習(xí)。之所以選擇建立微型語料庫,主要基于以下考慮:首先,現(xiàn)有中醫(yī)英語口語語料書面語文本資源相對(duì)缺乏,收集范圍較小,且口語語料庫需要處理大量而復(fù)雜的語音轉(zhuǎn)寫與標(biāo)注,因此建立微型語料庫是既考慮到實(shí)際情況,又避免了建庫過程中人力物力的要求。其次,小型語料庫符合中醫(yī)英語口語教學(xué)的個(gè)性化需求,既突出中醫(yī)語言的代表性與典型性原則,又避免了教學(xué)過程中出現(xiàn)因語料數(shù)據(jù)冗余而引起學(xué)習(xí)者無法快速、準(zhǔn)確檢索的尷尬現(xiàn)象,從而有利于教師語言課堂的展示、教學(xué)講解以及學(xué)生課后自主學(xué)習(xí)。

3.2 語料的采集與整理

表1顯示,語料采集是構(gòu)建語料庫的基礎(chǔ)工作。中醫(yī)英語口語語料范圍為專門的中醫(yī)英語范疇內(nèi)的口語素材,主要從中醫(yī)英語教材以及網(wǎng)絡(luò)資源等獲取相關(guān)中醫(yī)視頻與音頻。為使采集到的文本便于開展教學(xué),確定每一篇語料字?jǐn)?shù)限制在 300 至 500 字之間,采集200篇語篇,初步設(shè)定語料庫的總?cè)萘繛?0萬詞。按話語類型分為討論、訪談和會(huì)話3種體裁形式。按主題分為中醫(yī)歷史與文化、中醫(yī)問診與處方、中醫(yī)診斷與治療以及中醫(yī)養(yǎng)生與保健。

表1 語料分類與文本數(shù)量

表2顯示,通過在中國知網(wǎng)輸入主題詞“中醫(yī)英語教材”進(jìn)行文獻(xiàn)檢索以及網(wǎng)絡(luò)查找的方式,整理出2000年以來國內(nèi)已出版的90余本中醫(yī)英語教材,并從中挑選出附有DVD光盤以及Mp3音頻的6本教材。

表2 中醫(yī)英語教材

表3顯示,從以上方式獲取語料后,首先采用一款名為“文本整理器”的免費(fèi)軟件對(duì)文本的格式進(jìn)行整理與統(tǒng)一。然后,按照上述分類,對(duì)不同類別的的語料文本進(jìn)行命名,并采用ANSI或UTF-8編碼保存文本,最終形成語料庫的基本語料文件。以一篇網(wǎng)絡(luò)下載的中醫(yī)對(duì)話音頻材料為例,其主題為中醫(yī)診斷與治療,為會(huì)話類型文本,因此將其文件名命名為Diagnosis & Treatment_Conversation_01)。

表3 文本主要數(shù)據(jù)

3.3 語料的轉(zhuǎn)寫與標(biāo)注

建設(shè)口語語料庫的關(guān)鍵環(huán)節(jié)是對(duì)大量語音進(jìn)行轉(zhuǎn)寫與標(biāo)注,這是一項(xiàng)極為耗時(shí)耗力的工作。本語料庫采用語音文件轉(zhuǎn)寫軟件為Sitman PC復(fù)讀機(jī)。該軟件十分方便,可以讓語音反復(fù)播放,并同時(shí)進(jìn)行聽寫練習(xí)。標(biāo)注是指利用各種標(biāo)簽對(duì)語料庫中文本的各種屬性加以標(biāo)記。最常見的包括元信息標(biāo)注、詞性賦碼、句法標(biāo)注、語義標(biāo)注、語用標(biāo)注、語音標(biāo)注、語誤標(biāo)志等。

上海交通大學(xué)語言文學(xué)工程所開發(fā)的國內(nèi)第一個(gè)學(xué)習(xí)者英語口語語料庫——中國大學(xué)學(xué)習(xí)者英語口語語料庫COLSEC (College Learners’Spoken Eng-lish Corpus),為本研究語料的轉(zhuǎn)寫與標(biāo)注提供了必要的借鑒。遵循其真實(shí)性、完整性以及準(zhǔn)確性原則,中醫(yī)英語口語語料庫采用不作任何主觀干預(yù)的自然描寫方式真實(shí)轉(zhuǎn)寫有聲語料中的原始語句(非完整句、語法病句、口誤、重復(fù)等話語現(xiàn)象),并參照COLSEC制定的具體標(biāo)注方案,用統(tǒng)一符號(hào)完整、準(zhǔn)確地標(biāo)注會(huì)話中的話輪轉(zhuǎn)換、語音語調(diào)、停頓、猶豫、打斷、非言語交際等口語特征[9]。目前常見的通用標(biāo)注語言是XML(Extensive Markup Language),使用標(biāo)準(zhǔn)的XML標(biāo)注格式。本口語語料庫信息標(biāo)注主要為三類,即元信息標(biāo)注、話語信息標(biāo)注和詞性賦碼標(biāo)注。

3.3.1 元標(biāo)注信息 元標(biāo)注信息是關(guān)于文本的非語言信息,主要包括引用源、出版商、出版年代、作者以及相關(guān)的文本信息等。元標(biāo)注信息一般在文本的頭部,也稱為頭文件信息標(biāo)注。根據(jù)文本來源(data source)、檢索日期(retrieval data)、話語類型(data type)以及領(lǐng)域分類(data domine),同樣以命名為Diagosis &Treatment_Conversation_01為例,具體的標(biāo)注結(jié)構(gòu)如下。

Conversation

3.3.2 話語信息標(biāo)注 話語信息揭示話語的重要特征是,研究話語結(jié)構(gòu)、交際策略、語用能力等問題的基本數(shù)據(jù)。話語信息主要包括話輪、打斷與重復(fù)、語音語調(diào)以及非語言信息等。參照COLSEC制定的具體標(biāo)注方案,本語料庫采用的具體標(biāo)注結(jié)構(gòu)如下:話輪采用,的標(biāo)注方式;打斷采用;不完整的句子或詞語采用“-”表示,停頓采用“…”表示,語調(diào)采用“、”表示升降調(diào)。以Diagosis&Treatment_Conversation_01部分文本為為例,具體標(biāo)注如下。

The results are too slow. On top of that, just the thought of smoking needles poking into my flesh frightens me. (/sp2)

3.3.3 詞性賦碼標(biāo)注 詞性賦碼指根據(jù)文本中的上下文信息,自動(dòng)標(biāo)注文本中所有詞的詞性過程,以方便檢索與語言處理。由于基于概率的詞性賦碼器 (probability-based POS taggers) 更適用于為學(xué)習(xí)者口語語料進(jìn)行自動(dòng)賦碼,賦碼準(zhǔn)確率較高且性能穩(wěn)定,其賦碼準(zhǔn)確率受學(xué)習(xí)者口語語言水平影響不大[10]。所以,本語料庫選擇 Tree Tagger作為詞性賦碼工具,賦碼格式為使用一個(gè)符號(hào)如“_”,然后連同詞類碼標(biāo)記到單詞后面。按照Tree Tagger賦碼集,以Diagosis&Treatment_Conversation_01為例,詞性標(biāo)注如下。

Conversation

3.4 語料檢索與應(yīng)用

當(dāng)按照以上設(shè)計(jì)方案完成了整理、轉(zhuǎn)寫與標(biāo)注等工作之后,中醫(yī)英語口語語料庫中的數(shù)據(jù)就可以通過使用目前較為成熟的AntConc檢索軟件導(dǎo)出索引行,從詞語、句法、意義等層面分析語言內(nèi)部結(jié)構(gòu)規(guī)律,如詞語搭配、句法聯(lián)結(jié)以及語境意義,或從語音、語調(diào)以及停頓等方面分析口語特征,并將之在課堂上展示。圖1、2顯示,如在中醫(yī)英語口語教學(xué)過程中,在Ant Conc主界面打開兩篇涉及中醫(yī)主題的文本,然后在Search Item欄輸入需要檢索的詞或短語,如Chinese Medicine, 點(diǎn)擊Start鍵,10個(gè)檢索結(jié)果快速地展示在Concordance頁面。通過主題詞檢索,學(xué)生可以清楚地看到中醫(yī)詞語搭配的規(guī)律。

圖1 利用Antconc檢索主題詞

圖2 Concordance頁面主題詞檢索結(jié)果

圖3、4顯示,同樣在檢索中利用好各種正則表達(dá)式,可以達(dá)到在賦碼后的文本中檢索各種句式結(jié)構(gòu)。在Search Item欄中輸入正則表達(dá)式“V+”,語料中所有動(dòng)詞結(jié)構(gòu)的檢索結(jié)果可以一次性在Concordance頁面顯示出來,有利于學(xué)生掌握動(dòng)詞詞組的搭配關(guān)系。

圖3 利用Antconc檢索動(dòng)詞結(jié)構(gòu)

圖4 Concordance頁面動(dòng)詞結(jié)構(gòu)檢索結(jié)果

基于以上的具體步驟,借助成熟的計(jì)算機(jī)軟件,中醫(yī)英語口語語料庫構(gòu)建具有可行性,并可以將其輔助性地應(yīng)用于中醫(yī)英語口語教學(xué)。如利用檢索索引中醫(yī)主題詞,了解中醫(yī)術(shù)語的詞頻搭配,或輸入中醫(yī)四字結(jié)構(gòu),分析其實(shí)際應(yīng)用情況,或根據(jù)不同語境,以小組互動(dòng)形式開展基于語料的中醫(yī)情境模擬,促進(jìn)學(xué)生的口語訓(xùn)練。此外,學(xué)生可以利用語料庫作為一種學(xué)習(xí)工具,進(jìn)行主動(dòng)探索與分析,實(shí)現(xiàn)基于數(shù)據(jù)驅(qū)動(dòng)的自主學(xué)習(xí)。

4 結(jié)語

中醫(yī)英語口語語料庫是依托中醫(yī)學(xué)科而建立的小型專門用途語料庫,話語體裁與主題更為專一化。雖然該語料庫規(guī)模較小,但正如Bowker and Pearson所認(rèn)為的,只要該語料庫精心設(shè)計(jì),低至幾千詞、高至幾十萬詞的語料庫,都有助于專門用途語言的研究,其中的關(guān)鍵是要保證語料庫的開放性(即可持續(xù)擴(kuò)充或升級(jí))、數(shù)量足夠多的語料數(shù)據(jù)、語料的作者多元化以及語料的(出版)時(shí)間跨度明晰化,即與語料庫項(xiàng)目的研究目的緊密關(guān)聯(lián)[11]。因此,中醫(yī)英語口語語料庫的建設(shè)屬于一個(gè)動(dòng)態(tài)、長期的系統(tǒng)過程。本研究僅屬于中醫(yī)英語口語語料庫建庫階段的可行性探討,在此基礎(chǔ)上的后續(xù)開發(fā)、數(shù)據(jù)研究以及教學(xué)應(yīng)用階段,還需要研究人員的不斷探索與嘗試。

猜你喜歡
賦碼語料語料庫
基于歸一化點(diǎn)向互信息的低資源平行語料過濾方法*
平行語料庫在翻譯教學(xué)中的應(yīng)用研究
《語料庫翻譯文體學(xué)》評(píng)介
瀕危語言與漢語平行語料庫動(dòng)態(tài)構(gòu)建技術(shù)研究
英語視頻新聞?wù)Z料庫的構(gòu)建
迎接食品安全新法麒銳與您共謀發(fā)展
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
語篇元功能的語料庫支撐范式介入
加強(qiáng)科學(xué)化管理 全面提高代碼工作質(zhì)量
整合型學(xué)習(xí)者語料庫平臺(tái)的規(guī)劃與實(shí)現(xiàn)
醴陵市| 磐石市| 临夏县| 阜阳市| 高密市| 柳林县| 剑川县| 田阳县| 泰来县| 彩票| 梅州市| 金门县| 文安县| 会同县| 星子县| 米脂县| 牡丹江市| 遵义县| 寿阳县| 宣城市| 麦盖提县| 绥芬河市| 平舆县| 应城市| 高州市| 怀集县| 拉萨市| 咸宁市| 都昌县| 南皮县| 当雄县| 滕州市| 普兰店市| 乌兰察布市| 英山县| 牙克石市| 合江县| 清涧县| 宽甸| 科技| 皮山县|