国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

美劇字幕英漢平行語料庫的建設(shè)

2018-10-30 10:22:30竇智

竇智

【摘 要】美劇影視的傳播影響了大量英語學習者,對美劇里的人物、臺詞、情節(jié)等的分析如火如荼。目前國內(nèi)尚無建成可用的美劇語料庫,平行語料庫的研究也是進展緩慢。因此本項目建設(shè)了一個小型的美劇雙語平行語料庫,希冀為語料庫翻譯學的研究提供平臺基礎(chǔ)。論文闡述了平行語料庫的設(shè)計過程,從語料的采集加工、標注對齊、軟件使用等方面詳細分析,給語料庫愛好者們提供建庫指南。

【Abstract】 The spread of American movies and TV plays a great influence on a large number of English learners. The analysis of characters, lines and plots in the American drama is in full swing. At present, there is no available corpus of American drama in China, and the research of parallel corpus is developing slowly. So this project has built a small bilingual parallel corpus of American dramas, hoping to provide a platform for the study of corpus translation. This paper expounds the design process of the parallel corpus, analyzes the collection and processing of corpus, label alignment and software usage, etc., and provides database enthusiasts with a library guide.

【關(guān)鍵詞】美劇字幕;平行語料庫建設(shè);雙語語料

【Keywords】American drama subtitle; parallel corpus construction; bilingual corpus

【中圖分類號】H315.9 【文獻標志碼】A 【文章編號】1673-1069(2018)07-0094-02

1 引言

自20世紀80年代以來,美劇在中國大陸傳播發(fā)展已有38年。美劇在我國從小眾獨享到網(wǎng)絡(luò)熱播,正邁向全民化。學生是美劇的受眾群體之一,通過尋找美劇中的話題與外國人進行跨文化的交流;觀看美劇不僅給人帶來視聽享受,而且相比教材文本,可以學到最新實用的詞匯用法及口語表達;借助美劇可以了解美國的政治、歷史、文化、社會和美國人的日常生活等知識。語言是不斷更新發(fā)展的,綜上,美劇是學習英語最鮮活生動的資料。然而由于網(wǎng)絡(luò)傳播中的美劇作品不帶有中文字幕,這就催生了一批字幕翻譯員,盡管翻譯出了美劇臺詞的主要意思,但翻譯質(zhì)量難免良莠不齊。這就引出了對翻譯規(guī)范、譯者風格和翻譯策略等翻譯學的研究,美劇語料庫的建設(shè)是千呼萬喚始出來。因此,建設(shè)一個美劇字幕翻譯英漢語料庫可為后來的影視翻譯研究提供平臺基礎(chǔ)[1]。

語料庫是以計算機為載體承載語言知識的基礎(chǔ)資源;存放的是實際使用中真實出現(xiàn)過的語言材料。這些真實語料要經(jīng)過加工處理,才會成為有研究價值的資源。 語料庫憑借電子計算機操作系統(tǒng)和相關(guān)語料庫軟件,對所收集語料進行賦碼和標注處理,實現(xiàn)語料的自動存儲、檢索和統(tǒng)計(胡開寶2011)。 雙語平行語料庫可以使兩種或兩種以上的語言對比,具備微觀研究和宏觀研究結(jié)合的優(yōu)勢。語料庫尤其是平行語料庫作為一種研究工具,在語言學研究,尤其是翻譯學、自然語言處理以及機器翻譯等研究領(lǐng)域起著越來越不可替代的作用[2]。

2 美劇字幕平行語料庫的整體設(shè)計思路

2.1 設(shè)計目的

近年來英語國家的影視作品對英語學習者產(chǎn)生了影響,尤其臺詞的模仿在語言交流中隨處耳聞。 迄今為止,國內(nèi)尚無該領(lǐng)域建成可用的美劇字幕語料庫。在選擇語料庫類型時,根據(jù)研究需要,選擇能匹配美劇字幕翻譯的雙語平行語料庫。 王克非(2004a)指出平行語料是由源語文本及其平行對應(yīng)的譯語文本構(gòu)成的雙語語料庫。與其他語料庫相比,平行語料庫的優(yōu)勢在于能自動呈現(xiàn)兩種或兩種以上的語句對應(yīng)關(guān)系。 建設(shè)美劇字幕庫的目的是為了后續(xù)在此平臺的基礎(chǔ)上進行研究: ①翻譯語言特征和規(guī)范研究;②美劇的口語俚語研究;③美國社會文化的反映;④譯者風格和翻譯教學等研究。 因此,本項目組自建一個小型的美劇字幕翻譯英漢雙語平行語料庫,以填補該領(lǐng)域的空白[3]。

2.2 語料庫規(guī)模

人們普遍認為語料庫規(guī)模越大,就越有研究語言應(yīng)用的價值,然而任何語料庫只代表關(guān)于語言應(yīng)用現(xiàn)狀的小樣本(胡開寶2011a)。所以應(yīng)根據(jù)設(shè)計目的和語料庫屬性來確定語料庫規(guī)模,不可盲目求大。 由于處理難度高,平行語料庫的發(fā)展一直滯后于其他類型語料庫,而且平行語料庫耗費大量時間和精力,故本項目建設(shè)一個容納100萬詞的小型美劇字幕平行語料庫, 以共時性為主,即主要收集二十世紀后半葉和二十一世紀的有影響力的語料,保證語言文本的新鮮和經(jīng)典。

2.3 語料庫屬性

語料庫根據(jù)收錄語料內(nèi)容的不同分為四種:異質(zhì)型(Heterogeneous corpus)廣泛收錄各種語料;同質(zhì)型(Homogeneous)只收集同一類別的語料;系統(tǒng)型(Systematic)選用的語料有平衡性和系統(tǒng)性,反應(yīng)語言的全貌;專用型(Specialized)是為特定用途而建立的語料。 本語料庫屬于同質(zhì)、專用型,主要抽樣采集幾部當代熱播美劇和經(jīng)典影片,對英語學習者有影響的和受同學們喜聞樂見的影視字幕,如 《紙牌屋》、《權(quán)利的游戲》、《摩登家庭》、《亂世佳人》美劇。

3 美劇語料的采集和處理

采集語料在人人影視、字幕庫等網(wǎng)站下載字幕文件包,解壓文件包進行篩選,留下漢語和英語的簡寫文本。多數(shù)字幕文件的英漢雙語在一個文件里,需要人工分開將英語和漢語另存一個文本,然后用計算機軟件對語料進行去噪和加工。

3.1 語料初加工

選用的文本編輯軟件是Emeditor,其操作便捷,支持多種配置。 用此編輯器進行文本凈化,清除時間軸和字體代碼等嘈雜的信息,數(shù)字和不必要的空格以及符號也清除,之后務(wù)必在篇頭處保留譯者的名字。此操作的輔助功能為計算機的搜索和替換功能,使用正則表達式批量處理,目的是保證英語和漢語的句子匹配對齊。由于下載的字幕包里漢語部分沒有標點,所以對著英語部分句對句的手動添加標點,這也是平行語料庫耗時耗力的原因之一。處理完畢后進行語料的初步校對,清除雜質(zhì),將無法匹配的影視劇中出現(xiàn)的專有名詞如場景、地名等刪除,然后將英語和漢語分別存在一個文件夾里,存儲格式為txt格式,文件名標寫清晰的美劇名稱。

3.2 標注和處理

所謂標注(也稱附碼)把各種表示語言特征的附碼標注在相應(yīng)的語言成分上,便于計算機識讀。無論是計算機自動還是人工標注,都不能削除失誤(余國良2009a)。標注分為詞性標注、詞義標注、句法標注和語篇標注,通過這些加工,語料才變成有利用價值的研究材料。本項目選用了詞性標注,即用詞性符號標記單詞的詞性,如動詞,形容詞。

針對漢語語料,用漢語詞性標注工具軟件,該應(yīng)用程序操作便捷,可批量處理文件。打開軟件加載漢語文件夾,選擇要處理的文件,點擊開始切分標注,瞬間得到標注成功的漢語語料。針對英語語料,使用的軟件為TagAnt,每次只能處理一個保存為utf-8格式的文檔。 點擊input files選擇要處理的英語語料,按 start瞬間得到標注成功的英語語料。然后打開標注后的語料,在英漢雙語的句號、問號和嘆號處加上

全椒县| 思茅市| 克东县| 阿鲁科尔沁旗| 汝南县| 赣榆县| 离岛区| 柘荣县| 田林县| 紫云| 平果县| 山阴县| 石城县| 玉山县| 青阳县| 方正县| 奉贤区| 永和县| 盘锦市| 安庆市| 湄潭县| 始兴县| 南昌市| 馆陶县| 库尔勒市| 商南县| 盐边县| 平阴县| 岫岩| 南召县| 河曲县| 阆中市| 盐池县| 浦城县| 皋兰县| 忻州市| 磐安县| 宿州市| 军事| 定结县| 南昌县|