劉劍
(衡陽師范學(xué)院外國語學(xué)院,湖南衡陽 421008)
現(xiàn)階段,“多模態(tài)”已經(jīng)成為許多學(xué)科發(fā)展的交叉點,而語料庫研究越來越呈現(xiàn)為一種“多模態(tài)傾向”。目前國外針對音視頻語料的主流多模態(tài)轉(zhuǎn)寫或標(biāo)注工具主要有:Praat、Anvil、ELAN、Exmaralda、Media and Text Editors、TASX、MacVisSTA、NXT、DRS等。[1]此 外 ,還有部分基于網(wǎng)頁的在線標(biāo)注工具,比如,RECOLA語料庫所使用的標(biāo)注工具“Annemo”、支持多人在線標(biāo)注的“Brat”等 。上述軟件各具特點,在人機互動、語言學(xué)、人類行為學(xué)、人類學(xué)、精神治療、智能客服等領(lǐng)域已得到廣泛的應(yīng)用。對于多模態(tài)研究者而言,首先要判斷該款工具是否符合自己的研究需求,是否適合用于分析自己的語料數(shù)據(jù),甚至是否符合自己電腦的配置或操作系統(tǒng)。多模態(tài)口譯語料庫建庫需要以下功能:語料切分、語音轉(zhuǎn)寫、音視頻標(biāo)注、語音分析、檢索查詢等。上述工具均可用于多模態(tài)語料庫的建設(shè),但不一定適合多模態(tài)口譯語料庫的建設(shè),因此需分析軟件的功能特點,看其是否滿足口譯研究的需要。由于篇幅所限,在此僅對影響較大的四款軟件,包括Praat、Anvil、ELAN、Exmaralda等做進(jìn)一步對比分析,以便選出最合適的多模態(tài)口譯語料庫建庫工具。
Praat是一個開發(fā)較早、知名度很高的語音分析工具,不僅可以用于音頻語料的轉(zhuǎn)寫,而且可以方便地對音頻語料添加對應(yīng)的國際音標(biāo)(IPA),還能非常便捷地生成相應(yīng)的語圖(包含基頻、強度、共振峰等 ),便于直觀地分析各種語音現(xiàn)象。Praat支持各種高級應(yīng)用,有能力的用戶可以自行編寫程序代碼提取目標(biāo)文件的各種語音數(shù)據(jù),其標(biāo)注文件是兼容性較強的TextGrid格式,可以方便地導(dǎo)入到其他一些多模態(tài)標(biāo)注工具中,例如,ELAN與Anvil均支持TextGrid文件的直接導(dǎo)入。該軟件的不足之處是,僅能分析音頻文件,主要用于語音學(xué)研究,難以在界面中觀察較長的文件片段(Segment)的全貌,也無法處理重疊話語(Overlapping speech)(比如兩個或兩個以上的人同時說話)[2]。
Anvil[3]是德國人工智能研究中心(DFKI)的Michael Kipp教授在2000年用Java語言開發(fā)的一款免費工具。 Kipp主要從事“智能客服”(Embodied agent)研究,例如,能移動的智能機器人、網(wǎng)頁中能自動用語音回答顧客提問,同時還伴隨表情、口型變化的虛擬客服等都屬于“具身代理”的范疇。該工具主要用于包含多模態(tài)會話的音視頻材料的標(biāo)注,使用者可自由定義不同的標(biāo)注層(Layers)或軌道(Tracks),也可在不同的層中插入帶有時間屬性的各種標(biāo)簽。Anvi的標(biāo)注界面可展示聲波圖的形狀以及對應(yīng)的音高曲線(Pitch Contour)。
Anvil具有較好的兼容性,可以使用不同的標(biāo)注方案進(jìn)行標(biāo)注,其標(biāo)注生成的文件格式也是XML格式,支持部分軟件(Transcriber、Praat等)對應(yīng)格式文件的導(dǎo)入,也支持?jǐn)?shù)據(jù)以多種格式導(dǎo)出,而且導(dǎo)出的表格可以用于統(tǒng)計軟件(比如SPSS或Statistica)做進(jìn)一步的數(shù)據(jù)分析,其突出功能包括跨層關(guān)聯(lián)、非時間元素標(biāo)注、標(biāo)注一致性檢查、捕獲動作的3D呈現(xiàn)等。Anvil也具有一定的語料管理功能,支持某范圍內(nèi)標(biāo)注文件的瀏覽、檢索、導(dǎo)出以及圖表數(shù)據(jù)分析等。但某些輸出功能還有待完善,比如時間重疊元素、跨層關(guān)聯(lián)元素?zé)o法在表格的同一欄呈現(xiàn),驗證“共現(xiàn)假設(shè)”(Correlation Hypotheses)時不甚方便。Anvil僅在Windows上運行良好,在Mac及Linux體驗較差。
ELAN[4]是荷蘭Planck心理語言研究所開發(fā)的一款免費的多模態(tài)標(biāo)注工具,其初衷是用于言語與手勢研究,也用于手語(Sign language)研究,可用于 Windows、Mac以及Linux等多個操作系統(tǒng)。軟件的操作界面非常友好,具有四個工作模式:切分模式、轉(zhuǎn)寫模式、同步模式、標(biāo)注模式。Anvil與ELAN均是針對視頻的多層次(Multi-layer)標(biāo)注工具,二者均能夠通過軌(Track)與層(Tier)對不同類別的元素(比如話語、目光、手勢、表情等)進(jìn)行標(biāo)注,用戶可自行定義層的名稱和屬性,各層之間既可以呈現(xiàn)為“等級式”(父層與子層)的關(guān)系,也可以成為并列的、相互獨立的“層”,但都與標(biāo)注界面中的時間軸保持對齊。尤其難得的是即便是標(biāo)注工作已經(jīng)開始,使用者仍然可以調(diào)整不同層之間的關(guān)系,這一點非常有用,因為很多研究者是在標(biāo)注的過程中才確定最終的標(biāo)注方案。標(biāo)注所需的時間多寡也完全取決于研究所需要的標(biāo)注內(nèi)容的精細(xì)程度。ELAN支持其他轉(zhuǎn)寫工具,比如 Shoebox/Toolbox、Chat、Transcriber等轉(zhuǎn)寫工具產(chǎn)生的文本的導(dǎo)入。為了提高標(biāo)注的準(zhǔn)確性,減少手工輸入標(biāo)簽的錯誤,ELAN除了支持大量的快捷鍵以外,還支持使用者使用自定義的詞表(Vocabulary)進(jìn)行標(biāo)注,用戶只需輕點鼠標(biāo)便可在特定層的某個時刻輸入對應(yīng)的標(biāo)簽。此外,它還提供了半自動切分音頻的功能,這樣減少了手工切分的勞動,也提高了切分的精確程度。為了避免因停電、電腦死機等情況引起標(biāo)注文件的丟失,ELAN還帶有自動定時備份功能。此外,ELAN還帶有強大的檢索查詢功能,可以在特定層、特定EAF文件或某個范圍內(nèi)對標(biāo)注或文本進(jìn)行檢索,而且檢索的結(jié)果直觀地呈現(xiàn)該片段的起止時間,因而可以對某類標(biāo)注精確地計算,也可使用鼠標(biāo)點擊特定檢索結(jié)果,并能直觀地在ELAN的界面中反復(fù)播放該片段,方便觀察各種言語及動作行為。為了方便語音分析,使用者還可以在ELAN中選定特定的片段并調(diào)用Praat打開,進(jìn)行語音的基頻、強度、共振峰等內(nèi)容的分析。
Exmaralda[5]由德國漢堡大學(xué)多語言協(xié)同研究中心使用Java語言開發(fā),它包含一個數(shù)據(jù)模型、一個對應(yīng)的XML文件格式以及一系列的用于創(chuàng)建、管理和語料分析的軟件工具,包括Partitur-Editor(用于轉(zhuǎn)寫文本的導(dǎo)入、強制對齊、切分等)、Corpus Manager(語料管理工具)、ZECKE語料檢索工具等。它除了良好的數(shù)據(jù)可視化效果以外,使軟件具有良好的兼容性是Exmaralda開發(fā)的重要目標(biāo),它支持并鼓勵與其他工具之間的數(shù)據(jù)交換,因此,該軟件的許多優(yōu)點以及數(shù)據(jù)格式都被Praat、ANVIL、ELAN、TASX 等工具所借鑒。
Praat與Transcriber的功能相似,主要用于音頻轉(zhuǎn)寫與語音分析,但Praat還具有更強大的語音分析功能。Anvil與ELAN均屬于視頻標(biāo)注工具,但同時也具備轉(zhuǎn)寫功能。Anvil擁有包括麻省理工學(xué)院、愛丁堡大學(xué)、東京大學(xué)、芝加哥大學(xué)等著名研究機構(gòu)在內(nèi)的廣大用戶。Exmaralda主要針對音頻,具有轉(zhuǎn)寫功能,同時還有元數(shù)據(jù)管理及檢索功能,用于會話及語篇分析、方言學(xué)、音位學(xué)等方面的研究,但該工具對話語的分析主要是基于文本的,因此缺少多模態(tài)研究所需的時間精確性。
Anvil與ELAN的用戶都可以根據(jù)項目需要自行制定標(biāo)注方案,二者都允許用戶自行制定標(biāo)注所用的詞表,以節(jié)省標(biāo)注時間,提高標(biāo)注效率。兩者的工作界面稍有差異,Anvil的視頻通常在中上方,而ELAN的視頻則是在左上方,二者的主要標(biāo)注方式均為手工標(biāo)注,最終都形成基于XML格式的標(biāo)注文件,但是擴(kuò)展名不同(前者為.anvil,后者為.EAF),各自的XML數(shù)據(jù)記錄方式也有差異,導(dǎo)致二者的標(biāo)注文件不甚兼容。Anvil支持在線多人同文件協(xié)作標(biāo)注,其缺陷是不自帶檢索功能,在處理超大文件(長度超過30 min)時,速度較慢,偶爾會崩潰。與Anvil相比,ELAN在處理超大視頻文件時,性能更穩(wěn)定,而且ELAN具有強大而快捷的檢索功能,支持正則表達(dá)式,能夠針對特定層或特定范圍的語料進(jìn)行快速檢索,例如,常見的N-gram檢索、同文件中的重疊標(biāo)簽檢索等。由于Anvil與ELAN產(chǎn)生的標(biāo)注文件本質(zhì)上都是XML格式,因此可以方便地導(dǎo)入到SQL數(shù)據(jù)庫中,實現(xiàn)語料的在線共享與檢索。
就多模態(tài)口譯語料庫的建設(shè)需求而言,主要判斷軟件工具以下四方面是否符合需求:標(biāo)注及對齊的便捷性、與其他工具的兼容性、對超大文件的處理能力、檢索統(tǒng)計性能。EXMARALDA雖然對于其他軟件的兼容性較好,但其對應(yīng)的轉(zhuǎn)寫、切分、標(biāo)注與語料管理等功能均由獨立的工具承擔(dān),軟件的一體化與集成度不夠高,用于口譯語料庫的建設(shè)不太合適。Anvil對不同格式的文件具有一定的兼容性,支持完成標(biāo)注后的文字語料及多模態(tài)語料的儲存、編輯,但缺少強大的檢索功能,需要開發(fā)其他的檢索工具,考慮到課題組采集的部分口譯視頻語料的長度超過60 min,但Anvil在處理超大(超過30 min)的視頻文件時可能崩潰,因此只好放棄該款軟件。最后,界面友好、兼容性強、標(biāo)注便捷準(zhǔn)確、支持大文件處理,而且自帶強大檢索功能的軟件ELAN便成為多模態(tài)語料庫建設(shè)的首選,而其他的工具(比如Praat)則成為建庫輔助工具。