国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

影視對白平行文本語料庫建設(shè)

2018-01-08 06:51:24劉瑞
河南科技 2017年21期
關(guān)鍵詞:字幕平行語料庫

劉瑞

(鄭州工程技術(shù)學(xué)院,河南 鄭州 450004)

影視對白平行文本語料庫建設(shè)

劉瑞

(鄭州工程技術(shù)學(xué)院,河南 鄭州 450004)

與大型或?qū)iT用途的平行語料庫相比,利用影視對白字幕文本及文本中的相關(guān)信息建設(shè)平行語料庫,不僅能精確定位對白在影視中出現(xiàn)的位置,而且能通過字幕中的句子對齊實現(xiàn)對平行文本的檢索。本文就如何建立影視對白平行文本語料庫進行討論分析,為語言教學(xué)與研究提供一個新的平臺和窗口。

影視對白;平行語料庫;XML標(biāo)注

1 平行語料庫的研究現(xiàn)狀

平行語料庫在國外創(chuàng)建已有二十余年,其在國內(nèi)的創(chuàng)建剛剛起步。世界上第一個翻譯語料庫(Translational English Corpus,TEC)是英國曼徹斯特大學(xué)科技學(xué)院(UMIST)翻譯研究中心于1995年創(chuàng)建的。國外有英國的“德-英文學(xué)文本平行語料庫”、加拿大的“Hansard英法雙語語料庫”、挪威奧斯陸大學(xué)的“英挪雙語語料庫”、英國蘭卡斯特大學(xué)的“ITU英法西對應(yīng)語料庫”和美國馬里蘭大學(xué)的“圣經(jīng)九國語言對應(yīng)語料庫”等。國內(nèi)有北京外國語大學(xué)的“中國英漢平行語料庫”、上海交通大學(xué)的“莎士比亞戲劇英漢平行語料庫”、燕山大學(xué)的“《紅樓夢》中英文平行語料庫”、紹興文理學(xué)院的“中國法律法規(guī)漢英平行語料庫”、香港科技大學(xué)的“HKUST中英對應(yīng)語料庫”、香港理工大學(xué)的“中英雙語旅游語料庫”和臺灣的“Sinorama中英對應(yīng)語料庫”等[1]。

平行語料庫的種類越來越多,已廣泛應(yīng)用于語言學(xué)研究、翻譯研究與教學(xué)、雙語對比、雙語詞典編纂、雙語術(shù)語提取、機器翻譯等[2]。但目前,面世的平行語料庫由于受建庫目的、選材局限、技術(shù)限制、最終用戶類型等因素的影響,難以大規(guī)模地為廣大研究者所使用[3]。目前,平行語料庫無法實現(xiàn)文本句子級自動對齊,為相關(guān)研究帶來了諸多困難。影視中的語言是現(xiàn)實中語言的真實再現(xiàn),為英語教學(xué)提供了地道的語言素材。本文試圖探討利用影視字幕對白建立影視對白平行語料庫,以解決上述實際難題。

依靠多媒體和語料庫技術(shù)建立影視對白平行語料庫既能克服目前平行語料庫受眾小的不足,也能為英語教學(xué)和語料庫研究提供新的研究途徑。

2 建庫的技術(shù)途徑及語料標(biāo)注

2.1 建庫分析

在選擇影視對白語料時,要遵循以下幾條原則:①選擇優(yōu)秀有代表性的電影;②各種類別的影視都涉及到,保持均衡;③在數(shù)量上,初步建立一個包含50部影視的語料庫,并不斷擴充;④影視的翻譯字幕文件盡量選擇官方、權(quán)威的版本。相關(guān)建庫原則和技術(shù)標(biāo)準(zhǔn)參照Wynne,文本分類標(biāo)準(zhǔn)參照EAGLES。

DVD格式的影視都有獨立的字幕文件,其格式分為圖形格式和文本格式兩大類。其中,srt文本字幕最為常見。其中包含的信息有:每段對白的順序編號、插入時間及對白文本。這種文本格式內(nèi)容規(guī)整,直接使用記事本即可打開。

2.2 字幕文件處理及標(biāo)注

收集到語料后,需要進行兩步預(yù)處理:①文本凈化處理,即通過PowerGrep軟件批量消除文本的嘈雜信息和標(biāo)注對白;②為文本添加元信息,元信息經(jīng)過編碼后,應(yīng)用XML標(biāo)記語言標(biāo)注原文件。XML標(biāo)記語言即可擴展式標(biāo)記語言(Extensible Markup Language),其特點是結(jié)構(gòu)簡單、描述性強、功能強大、可檢索性強??紤]到在以后的處理中要對齊多語種的文本庫,文本編碼采用UTF-8編碼格式。為了便于講解,本文以英漢字幕文本處理為例。

鑒于程序開發(fā)的需求及檢索的快捷性,把所有影視信息(頭部信息)、字幕文件以“路徑+文件名”的格式放置在一個索引文件index.xml中,標(biāo)注后的字幕文件單獨放置在另外設(shè)定的文件夾中。

2.2.1 文本凈化處理。文本中的“1、2、3…”為字幕對白序號;“00:03:13,143-->00:03:17,706”為該行字幕在電影播放中出現(xiàn)的起始時間和終止時間(時:分:秒:毫秒);“{fnTahomafs13}”為控制字體顯示效果的代碼;中間為字幕對白的文本內(nèi)容。

雖然字幕文件格式規(guī)整簡潔,但仍要標(biāo)注出來。仔細觀察可知“時:分:秒”中英文一一對照,對于“毫秒”誤差,需要把不必要的信息刪除。字幕順序編號和控制字體顯示效果的代碼“{fnTahomafs13}”是沒有意義的,必須把這些垃圾碼剔除。一部電影有幾千句對白,完全通過手工來完成是不可能的。

正是由于字幕文件的格式規(guī)整,使用正則表達式的模式匹配可以輕松完成。支持正則表達式的軟件很多,在此使用PowerGrep。

首先刪除垃圾碼“{fnTahomafs13}”。在查找框中輸入正則表達式“{[^}]+}”(即查找大括號內(nèi)所有內(nèi)容),替換框中什么都不填,即替換為空。個別影視字幕中可能還有一些其他形式的垃圾碼,查找規(guī)律,批量處理。

2.2.2 XML標(biāo)注。對白用XML標(biāo)注,根標(biāo)記設(shè)置為<text></text>,對白文本用<dialogue></dialogue>標(biāo)記,其中時間作為<dialogue>標(biāo)記的屬性(序號id讀取原文件對白的開始時間),用作每段對白在整個文本中唯一的標(biāo)識符,用于句子對齊;時間可分為“開始時間”(start_time)和“結(jié)束時間”(close_time),分別讀取原文件中的時間信息,用于表示對白顯示時間,這些信息在以后都非常有用。

信息標(biāo)注、刪除順序編號和毫秒數(shù)字同時進行。在正則表達式中,“d”表示0-9十個數(shù)字;“^”和“ ”(或“$”)分別表示行開始和行結(jié)束;另外使用“()”可以進行字符分組,在后面的正則表達式中使用反斜杠加數(shù)字的形式“1”、“2”分別引用前面的第一個、第二個括號中的內(nèi)容等,這些正則表達式的使用,讀者可參考其他資料,此處不再詳述。

表1 為文件添加頭部信息

使用PowerGrep,首先通過查找文件開頭和結(jié)束的錨點,用正則表達式批量處理文本,把對白顯示的開始時間作為每段對白標(biāo)識符“id”的值,以便以后的句子對齊;把對白時間分別標(biāo)識為“開始時間(start_time)”和“結(jié)束時間(close_time),以便以后利用該信息。最后保存文件為.xml格式,采用UTF-8編碼。

2.3 影視元信息標(biāo)注

在文件的頭部,可添加影視相關(guān)分類信息及描述信息,這些元信息可以到網(wǎng)上查詢(IMDB網(wǎng)站),信息標(biāo)注如下。

①媒體分類(multimedia):電影(movie_info)、電視?。╰elefilm_info)、紀(jì)錄片(newsreel_info)。為減少分類的層級,不同種類的媒體可分放在獨立的文件夾中,本文元信息標(biāo)注以電影為例。

②名稱:英語名(name_en)、漢語名(name_ch)。

③拍攝時間(time):yyyy年。

④劇情時間(movieage):古代近代現(xiàn)代未來。

⑤國家(country):中國美國英國等。

⑥分類(type):動作片、喜劇片、愛情片、倫理片、戰(zhàn)爭片、恐怖片、科幻片、動畫片、災(zāi)難片等。

⑦語言(language):影視所使用的原語言。

⑧級別(classification):標(biāo)注該影視在該國官方指定級別。

⑨獲獎(award):注明該影視獲獎情況。

⑩導(dǎo)演(director):該影視導(dǎo)演。

?主演(actor):影視主演演員。

?時長(runtime):影視播放時間長。

?備注(remark):一些說明性信息,例如,該影視改編自哪部文學(xué)作品、收視率票房、社會影響和評論等。

以上信息通過XML編碼,添加在文件頭部,以便檢索,具體如表1所示。

字幕文件和元信息文件分開放置便于管理和檢索。如果一部電影對白被分割成多個字幕文件,通過<dia?logue no=”1”>的屬性no來標(biāo)識;字幕文件被標(biāo)注在<dia?logue_en>(英語字幕)、<dialogue_ch>(漢語字幕)、<dia?logue_jp>(日語字幕)中,若還有其他語種,再增加標(biāo)簽;屬性version來表示其是原文(version="0")或譯文(ver?sion="1")。

3 文本對齊及檢索應(yīng)用

把編碼文本導(dǎo)入平行語料庫軟件paracon中,復(fù)選編碼格式(UTF-8),對齊格式(align format)選擇“start/stop”標(biāo)簽,輸入對白標(biāo)簽。Paracon軟件根據(jù)對白標(biāo)簽的id屬性值,自動對齊對白中每一段對話,如圖1所示。

之后,可以對雙語文本進行檢索,既可以檢索單詞,也可以檢索多詞序列。檢索結(jié)果在兩個窗口以索引行形式呈現(xiàn),自動跟隨所選對話,如檢索英文文本“Gump”,得到索引行。這種索引方式為教師和翻譯研究者提供了一個深度分析電影對白翻譯的數(shù)據(jù)界面。對外語教師而言,通過對白文本檢索,可以查找典型的對話和場景,分析其語用特征,制作成視聽課的互動練習(xí)和輔助材料。對翻譯研究者而言,可以查找和分析同一詞語的不同翻譯,而這種翻譯的差異往往是由于電影語境限制了詞語的語用意義。

圖1 句子對齊后的文本

經(jīng)過XML標(biāo)記的文本不受平臺限制,呈現(xiàn)出標(biāo)準(zhǔn)的數(shù)據(jù)結(jié)構(gòu),可以被各種數(shù)據(jù)庫編程直接應(yīng)用。目前,大多數(shù)主流瀏覽器支持XML文件顯示,在今后的開發(fā)中,可以基于瀏覽器創(chuàng)建影視對白平行語料庫索引界面,輕松實現(xiàn)雙語檢索和對齊。在文本檢索中,可以利用文件的頭部信息進行條件查詢,即用戶先設(shè)定條件,劃定范圍,在范圍內(nèi)進行語料檢索。檢索的結(jié)果能呈現(xiàn)檢索詞所在的句子、前后語境、對應(yīng)的漢/英句子、所屬電影信息等。

4 結(jié)語

目前,平行語料庫是語料庫語言學(xué)、自然語言處理、機器翻譯等領(lǐng)域的重要發(fā)展方向。與國外相比,在語料庫的質(zhì)量、容量、種類、數(shù)量和基于語料庫的研究與軟件開發(fā)方面,目前國內(nèi)研究有些滯后。沒有語料庫,不可能開展基于語料庫的信息研究。影視對白平行文本語料庫在很大程度上克服了平行語料庫建庫中的取材難和對齊難的問題,為基于平行語料庫的研究提供了一個新的契機,能更好地服務(wù)于語言教學(xué)與研究,具有廣闊的使用前景和潛在的開發(fā)價值。

[1] 熊兵.基于英漢雙語平行語料庫的翻譯教學(xué)模式研究[J].外語界,2015(4):1-10.

[2] 陳國華,王立欣,梁茂成,等.英漢/漢英對譯語料庫對應(yīng)詞檢索器[J].外語電化教學(xué),2006(6):11-16.

[3] 王克非.雙語平行語料庫在翻譯教學(xué)上的用途[J].外語電化教學(xué),2004(6),27-32.

Construction of Movie Caption Parallel Corpus

Liu Rui
(Zhengzhou Institute of Technology,Zhengzhou Henan 450004)

Comparing with specialized parallel corpus,the construction of movie caption parallel corpus not only precisely locates the parallel movie caption texts but also easily aligns and retrieves the parallel texts at the sentence level.In the paper,the author discussed the construction of movie caption parallel corpus and tried to provide a new perspective for foreign language teaching and research.

movie caption;parallel corpus;XML

TP393.092

A

1003-5168(2017)11-0031-03

2017-10-09

劉瑞(1982-),女,碩士,講師,研究方向:應(yīng)用語言學(xué)、語料庫與外語教學(xué)。

猜你喜歡
字幕平行語料庫
Word和Excel聯(lián)手字幕添加更高效
向量的平行與垂直
平行
逃離平行世界
《語料庫翻譯文體學(xué)》評介
把課文的優(yōu)美表達存進語料庫
整合適應(yīng)選擇度下的動畫電影字幕翻譯——以《冰河世紀(jì)》的字幕漢譯為例
再頂平行進口
汽車觀察(2016年3期)2016-02-28 13:16:36
論紀(jì)錄片的字幕翻譯策略
人間(2015年22期)2016-01-04 12:47:26
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
祁连县| 江城| 上饶县| 楚雄市| 长泰县| 恭城| 新昌县| 潼关县| 临颍县| 曲水县| 北辰区| 济宁市| 赞皇县| 杭锦后旗| 博兴县| 绥宁县| 遵义市| 桂东县| 梧州市| 平果县| 太湖县| 四平市| 米泉市| 新兴县| 竹山县| 东辽县| 黄陵县| 石城县| 永泰县| 庄浪县| 福鼎市| 安宁市| 和硕县| 万荣县| 仁怀市| 新疆| 德保县| 赞皇县| 两当县| 杂多县| 连山|