葛艷青 陳兆軍
【摘 要】多模態(tài)語料庫在多媒體交互技術支持下收集音頻、視頻等語料,全面記錄語言運用的真實語境,從多個模態(tài)分析語言在語音、語義、語用等方面的全貌。專門用途英語小型多模態(tài)語料庫的提出具有新穎性和必要性,對專門用途英語教學具有改革意義。
【關鍵詞】多模態(tài)語料庫;專門用途英語;Elan軟件
一、引言
專門用途英語(English for Specific Purposes, 簡稱ESP),是指與某種特定職業(yè)或學科相關的英語,當前ESP語言分析方法還局限于針對單一模態(tài)的語言本體的分析與研究,其教學活動還囿于“語法-翻譯”法為主的靜態(tài)的信息輸出模式。[1] 多模態(tài)語料庫的建設及相應研究已成為語料庫語言學的新起之秀,堪稱語料庫的4.0版。[2] 傳統(tǒng)的語料庫多以文本為語料,多模態(tài)語料庫不僅具有傳統(tǒng)的文本,更具有音頻、視頻等以多種模態(tài)形式存在的信息,語料中蘊含的多種信息為語言教學及研究提供了豐富的資源?,F(xiàn)階段的專門用途英語語料庫主要是文字語言單模態(tài)的語料庫,那么構建專門用途英語小型多模態(tài)語料庫,可以完整地記錄下語料的多模態(tài)信息,更好地從多模態(tài)理論視角對專門用途英語展開研究。
二、專門用途英語小型多模態(tài)語料庫的建設構想
專門用途英語不僅要關注普通的語料文本,更要關注相應的學科知識,對語料庫研究提出了新的挑戰(zhàn)。當代專門用途英語語料庫表現(xiàn)出三大發(fā)展趨勢—語料庫的專門/小型化、語料數(shù)據的(交際)多模態(tài)化和語料庫的本土化。[3] Sinclair早在2003 年的語料庫語言學國際會議上指出,大型語料庫建設的勢頭已緩,取而代之的是小型語料庫。在努力建立超大型的、綜合性的語料庫的同時,建立更多的、具有專業(yè)性的和相對較小的ESP語料庫將是未來語料庫語言學發(fā)展的趨勢。[4]
(一)確定構建的軟件平臺
多模態(tài)語料庫的建設需要借助文本、音視頻等處理技術和數(shù)據管理與檢索技術。言語、手勢和身體姿勢等多模態(tài)話語研究均可在ELAN軟件的幫助下完成,此軟件也可適用于多模態(tài)語料庫建設。[5] 國內多模態(tài)語料轉寫與標注大多使用ELAN 這款工具。此軟件在話語分析、態(tài)勢語研究、語言存檔、口語語料庫建設等方面被廣泛使用[4]。通過文獻考察和初步試用,我們認為ELAN因具有的特點比較適合用于專門用途英語多模態(tài)語料庫建設。
(二)語料的收集
在確定該語料庫語料的來源過程中,要依據專門用途英語的特點,要選取具有針對性、代表本專業(yè)領域英語語言特征的語料,注重不同類型語料分布的合理性。要在本專業(yè)領域內的英語真實會話文獻,相關專業(yè)領域信譽比較高的專業(yè)教材,盡量覆蓋研究內容的各種情況,選取具有代表性的語料。語料的選擇過程中,要能夠最大限度地反映相關專業(yè)的語言特征、體現(xiàn)其話語的真實性。在本專業(yè)領域英語真實會話交際中,語料包括專業(yè)教材、工具書、會話文獻、專業(yè)論著等材料,它們的分布不同,因此語料的選擇比例也要盡量與專業(yè)化的實際情況相一致,以便增強專門用途英語語料的實用性。例如:具有專業(yè)特征的高頻度詞匯、語篇中的句式、修辭特征等要素的分析,則可以對本專業(yè)英語句法的構成規(guī)則進行梳理。
(三)元數(shù)據的創(chuàng)建
多模態(tài)語料的創(chuàng)建過程中,通常要根據研究需要賦予語料一些具體的信息,首先需要確定用于描述語料屬性的元數(shù)據規(guī)范,將收集到的語料分門別類地打上標簽。語料庫的建設需要取樣語料具有代表性,話語產生的環(huán)境及說話人的背景等信息都會影響多模態(tài)分析,這些信息就是語料的元數(shù)據(也稱元信息(Meta-data)。針對專門用途英語各學科領域的特點,在語料庫建設中,既需要標記這些語料的共有屬性,也需要針對每一類語料制定其特有屬性。首要要利用工具Arbil創(chuàng)建該語料的元數(shù)據,主要標注語料的性質,主題,時間,地點、長度等信息,創(chuàng)建新的元數(shù)據文件。然后以IMDI保存元數(shù)據文件。最后,用ELAN等軟件對特定音頻、視頻語料按著一定的要求進行切分與標注。
(四)語料的切分與轉寫
由于多模態(tài)語料庫的特殊性,語料切分是多模態(tài)語料加工中的一個難點。ELAN軟件中的切分單位通常是以音頻、視頻中話語的停頓而構成的片段為分割。ELAN軟件提供了比較方便的轉寫界面,軟件會自動播放切分片段的語音,轉寫人員可以把所聽到的內容在界面中直接輸入。完成轉寫后,然后將語料保持并以某種格式(包括Text Grid、TXT等)輸出。然后對輸出語料進行分詞,再重新錄入或導入到ELAN等軟件中。最后如實、詳盡地將語音轉寫為文本,這需要在初步轉寫少量多類型語料的基礎上制定一個轉寫規(guī)范,并隨著語料的豐富和轉寫的深入不斷修訂。
(五)語料的標注
在標注過程中應特別注意“標注集的科學性和可靠性,盡量避免主觀性和片面性,使語料庫的標注盡可能地反映語言的真實面貌;特別注意語料庫標注集的標準化和規(guī)范化,提高標注結果的共享程度” [6]。Elan等軟件支持對音頻和視頻文件的多層標注,建設專門用途多模態(tài)語料庫時可以依據據語料庫的檢索需求設定詳細的標注信息。
三、結語
專門用途英語小型多模態(tài)語料庫的構建,有利于由單模態(tài)向多模態(tài)深化發(fā)展,能夠實現(xiàn)和保證語言材料的真實性,提供大量真實語境中的真實會話、專業(yè)文獻等案例的使用,突出專業(yè)性和實踐性,為專門用途英語教學研究提供了一種新的手段和方法,為學生個性化學習、碎片化學習、探究式學習提供資源支持。
【參考文獻】
[1]劉宇. 多模態(tài)話語理論觀照下的專門用途英語教學模式研究[J].成都航空職業(yè)技術學院學報,2012(2):32-34.
[2]黃立鶴.語料庫4.0:多模態(tài)語料庫建設及其應用[J].解放軍外國語學院學報,2015(3):1-7.
[3]黃大崗,秦羿,徐賽穎.專門用途英語語料庫:挑戰(zhàn)、理據與愿景[J].寧波大學學報(人文科學版)2010(5):48-51.
[4]崔維霞,王均松.國內學科專業(yè)語料庫研究現(xiàn)狀及發(fā)展趨勢[J].西安外國語大學學報,2013(1):55-58.
[5]張振虹,何美,韓智.大學公共英語多模態(tài)語料庫的構建與應用[J].山東外語教學,2014(3):5O-55.
[6]馮志偉.語料庫與計算語言學研究叢書[M].北京:世界圖書出版公司,2013.