徐潤華,王東波
(1.金陵科技學(xué)院人文學(xué)院, 江蘇 南京 210038; 2.南京農(nóng)業(yè)大學(xué)信息管理學(xué)院, 江蘇 南京 210095)
隨著信息化時代的到來,基于Web的信息獲取技術(shù)得到迅速發(fā)展,從擁有海量信息資源的互聯(lián)網(wǎng)中獲取有效的數(shù)據(jù)和知識以便更好地服務(wù)基礎(chǔ)和應(yīng)用研究成為一種趨勢。英漢雙語句子級平行語料庫的構(gòu)建有助于跨語言檢索自動衍生英漢雙語詞典和潛語義自動標(biāo)注,可以為輔助機器翻譯和機器翻譯系統(tǒng)的開發(fā)提供基本語法、語義和語用素材,也有助于英漢雙語詞典編纂者選取例證和確定詞目。利用Web資源可以獲取大量非結(jié)構(gòu)化和結(jié)構(gòu)化的英漢雙語句子信息,從而達(dá)到構(gòu)建更高質(zhì)量英漢平行語料庫的目的。
傳統(tǒng)的語料庫加工主要依靠人工,費時費力且不便于數(shù)據(jù)更新。在搜索引擎和數(shù)據(jù)挖掘技術(shù)的推動下,利用互聯(lián)網(wǎng)Web的雙語平行資源自動構(gòu)建語料庫的方法逐漸引起學(xué)者們的注意。黃蘇豪[1]提出一種利用互聯(lián)網(wǎng)自動構(gòu)建英漢平行語料庫的系統(tǒng)設(shè)計及實現(xiàn)方法。該方法優(yōu)化了雙語網(wǎng)頁對文本的句子抽取和對齊的效果, 并在此基礎(chǔ)上開發(fā)完成了語料檢索平臺,實現(xiàn)了檢索服務(wù)。但是該平行語料庫未對收錄資源進行深度加工,對后續(xù)研究利用缺乏有力支撐。韓名利[2]重點探討了《莊子》英譯的翻譯策略與方法,并提出了語料收集、對齊、標(biāo)注、檢索等操作的具體方案,拓寬了古籍文獻的英譯研究思路,但也存在語料規(guī)模較小的局限性。羅奮[3]介紹了一種構(gòu)建大規(guī)模漢英平行語料庫的方法,開發(fā)了一個雙語語料挖掘自動獲取系統(tǒng),該系統(tǒng)采用B/S結(jié)構(gòu),使用最新的動態(tài)網(wǎng)頁開發(fā)技術(shù)獲取平行句子對資源,并為其他雙語平行資源的開發(fā)提供基礎(chǔ),但利用此方法獲取的雙語詞匯質(zhì)量并不高。尹存燕[4]對中日雙語平行語料庫的自動構(gòu)建進行了研究,提出了兩種獲取雙語句子對信息的自動挖掘方案。實驗證明,通過對網(wǎng)頁文本進行分析可以獲取更高質(zhì)量的中日雙語平行語料資源。程嵐嵐[5]針對Web上存在的大規(guī)模術(shù)語網(wǎng)頁,提出了一種基于正則表達(dá)式的術(shù)語抽取方法。這種基于正則表達(dá)式的方法雖然在獲取某一特定領(lǐng)域的術(shù)語資源時效率比較高,但缺乏可移植性,且沒有對較為復(fù)雜的短語和句子資源進行抽取研究。
本研究在前人雙語平行語料庫研究的基礎(chǔ)上,利用Web自動獲取英漢平行句子對資源,并在自動獲取的過程中加入語言學(xué)知識進行輔助,彌補了過去對統(tǒng)計方法過于依賴所造成的語料質(zhì)量不高的缺陷[6]。獲取英漢平行句子對資源之后,對其進行分詞等加工處理,并進一步構(gòu)建一個大規(guī)模的英漢雙語平行語料庫。經(jīng)過深度加工處理的語料庫資源可以為知識挖掘、機器翻譯等其他領(lǐng)域研究提供更深層次的語言知識[7]。
英漢平行語料在網(wǎng)絡(luò)上的資源非常豐富,分布也較為廣泛。從語料資源的具體分布情況入手,綜合考慮通用型語料和專門型語料的獲取效果,本文選取語料資源的覆蓋度、語料資源的準(zhǔn)確度和網(wǎng)站的開放度作為英漢平行語料的網(wǎng)絡(luò)獲取標(biāo)準(zhǔn)。
網(wǎng)站的信息、數(shù)據(jù)的覆蓋度是獲取英漢平行語料首先要考慮的一個標(biāo)準(zhǔn)。本文使用隨機抽樣法,在包含英漢平行語料資源的網(wǎng)站上獲取一定數(shù)量的文本,利用語言學(xué)知識對其進行分析和判斷,根據(jù)語料庫覆蓋情況給出“高覆蓋度”“中覆蓋度”“低覆蓋度”三個不同層次的評價級別,分別用“2”“1”“0”進行量化表示。
英漢平行語料的準(zhǔn)確度包括精確度和可行度兩個方面的要求,其直接關(guān)系到基于英漢平行語料的后續(xù)深入研究的實驗效果。本文同樣使用隨機抽樣法對樣本數(shù)據(jù)的準(zhǔn)確度進行評定,給出“非常準(zhǔn)確”“基本準(zhǔn)確”“不太準(zhǔn)確”三個不同層次的評價級別,分別用“2”“1”“0”進行量化表示。
網(wǎng)站的開放度主要是指從網(wǎng)站獲取相關(guān)資源的方便程度,直接關(guān)系到資源獲取的難易程度。根據(jù)資源獲取難易度的不同,本文對網(wǎng)站給出“非常開放”“較為開放”“不太開放”三個不同層次的評價級別,分別用“2”“1”“0”進行量化表示。
依據(jù)英漢平行語料網(wǎng)絡(luò)獲取標(biāo)準(zhǔn),本文制定如下獲取流程:首先,利用人工或者網(wǎng)頁自動抓取軟件在包含英漢平行語料的不同網(wǎng)站上獲取一定數(shù)量的網(wǎng)絡(luò)數(shù)據(jù),并從中提取全部英漢雙語平行句子對資源;然后,使用隨機抽樣軟件,對獲取的全部英漢雙語平行句子對進行隨機選??;最后,在綜合考慮英漢平行語料的網(wǎng)絡(luò)獲取標(biāo)準(zhǔn)基礎(chǔ)之上,輔以專家判別,對隨機獲取的英漢雙語平行句子對進行分析,并以此確定來源網(wǎng)站的評價等級。
按照上文的獲取流程并綜合考慮英漢平行語料的網(wǎng)絡(luò)獲取標(biāo)準(zhǔn),排除資源覆蓋度低、語料準(zhǔn)確度差或者開放度達(dá)不到要求的網(wǎng)絡(luò)獲取途徑,本文從56個網(wǎng)站中篩選出12個網(wǎng)站作為英漢平行語料的獲取來源,具體情況見表1。從語料資源的呈現(xiàn)方式和功能用途兩方面進行劃分,可將這12個網(wǎng)站分為在線辭典、輔助翻譯、英語論壇、搜索引擎、英語門戶五個大類。從表1的數(shù)據(jù)可以看出,在線辭典是英漢平行語料最常見、最主要的獲取來源,也是最穩(wěn)定、最可靠的獲取來源。觀察表1中“資源覆蓋度”“資源準(zhǔn)確度”“網(wǎng)站開放度”三項數(shù)據(jù)可以發(fā)現(xiàn):從在線辭典來源獲取的英漢平行語料屬于權(quán)威語料,擁有最佳的綜合評價等級,整體質(zhì)量比較高;由于論壇本身具有開放性,因此從英語論壇途徑獲取的英漢平行語料雖開放度較高,但在準(zhǔn)確度方面不盡如人意[8];英語門戶類網(wǎng)站的英漢平行語料(如閱讀類語料、聽力類語料)一般具有較強的針對性和領(lǐng)域性,但資源覆蓋度往往不高;輔助翻譯類網(wǎng)站主要是為翻譯服務(wù)的,有較高的覆蓋度,但準(zhǔn)確度和開放度均無法保證;搜索引擎類網(wǎng)站與輔助翻譯網(wǎng)站類似,搜索引擎的功能需求使得其覆蓋度較廣,但準(zhǔn)確度和開放度都不是很理想。
表1 英漢平行語料的網(wǎng)絡(luò)獲取來源情況
制定適用于英語語料的詞表是實現(xiàn)面向Web獲取英漢平行語料庫的前提和基礎(chǔ)。之所以基于英語語料而不是漢語語料制定詞表,主要是因為英語語料不需要額外進行分詞,而漢語需要進行額外的自動分詞工作,加之漢語缺少形態(tài)變化、一詞多義現(xiàn)象普遍等特點會影響分詞效果,進而影響語料庫的獲取精度。
詞表中有兩項數(shù)據(jù)需要統(tǒng)計獲?。阂皇窃~語本身;二是詞語的出現(xiàn)次數(shù),即詞頻??紤]到基于Web獲取語料的規(guī)模和效果,本研究利用大規(guī)模英語語料庫——BNC語料庫進行英語詞頻的統(tǒng)計工作。BNC語料庫的語料規(guī)模達(dá)到了億詞次級別,并且該語料庫的平衡性非常好,各個領(lǐng)域、各種題材的語言資源都有涉及和收錄,既包括書面語語料,也涵蓋談話、聊天、座談等口語資源?;贐NC語料庫的英語詞頻統(tǒng)計步驟如圖1所示。
圖1 基于BNC語料庫的英語詞頻統(tǒng)計步驟
首先,要對BNC語料庫中的句子進行數(shù)據(jù)清洗,因為BNC語料庫中的每一個句子都有大量的標(biāo)注信息[9],包括詞法、句法甚至是語義層面的標(biāo)記,如“
表2 詞頻統(tǒng)計結(jié)果示例
在已獲取的英語詞頻信息的基礎(chǔ)上,本文參考
英語詞典中收錄的詞匯,并結(jié)合英語語言學(xué)知識,制定英漢雙語平行語料庫詞表,具體步驟如下:首先結(jié)合基于BNC語料庫統(tǒng)計得到的英語詞表和英漢詞典(英漢綜合大詞典)所收錄的詞表,整合形成一個覆蓋度高、規(guī)模大的英語詞表,對于部分形態(tài)變化不規(guī)則的動詞、名詞、形容詞也將其添加到該詞表中;其次,對初步得到的詞表進行人工校對,發(fā)現(xiàn)其中的錯誤,并使用停用詞詞表對該詞表進行過濾,剔除其中無意義的詞語,得到規(guī)模約為11萬個詞匯的英語詞表;最后,對初步得到的詞表進行“瘦身”,利用詞表多次進行基于Web的語料資源獲取實驗,每次實驗都減少詞表中的詞匯數(shù)量,當(dāng)詞表中的詞語數(shù)量減少到一定程度時,獲取到的雙語平行語料資源會無法覆蓋Web站點的全部網(wǎng)頁,并且覆蓋度會隨著詞語數(shù)量進一步減少而繼續(xù)下降,這個臨界點就是制定詞表的最佳規(guī)模。經(jīng)過以上三個步驟,本研究最終制定了一個規(guī)模為63 924個詞匯的英語詞表,詞表構(gòu)成示例見表3。從表3數(shù)據(jù)可以發(fā)現(xiàn):有些詞匯沒有被BNC語料庫統(tǒng)計,但在詞典中被收錄,如alkali;有些詞匯沒有被詞典收錄,但被BNC語料庫統(tǒng)計到了,如depicting。運用語料庫來表示語言現(xiàn)象是基于統(tǒng)計的思路,遵循詞典中的專家知識是基于規(guī)則的思路,以上兩種研究思路互為補充。表3中BNC語料庫統(tǒng)計詞語和詞典收錄詞語的示例也恰好印證了這一點。
表3 詞表構(gòu)成示例
能夠自動獲取網(wǎng)頁的軟件數(shù)量眾多,考慮到獲取網(wǎng)頁過程中所需要的穩(wěn)定性、高效性和兼容性,本文使用GUN Wget軟件進行基于Web的英漢平行語料的獲取工作。GUN Wget是一個功能強大的開放軟件,能夠從網(wǎng)絡(luò)上獲取各種數(shù)據(jù)、文件等資源,支持TCP/IP協(xié)議,支持HTTP、HTTPS以及FTP下載[10]。GUN Wget的主要特點有:鏈接靈活,可以跟蹤 HTML、XHTML和CSS頁面上的鏈接并進行依次下載,代理服務(wù)器也可以下載;鏈接穩(wěn)定,在帶寬很窄或者網(wǎng)絡(luò)不穩(wěn)定的情況下表現(xiàn)出較好的魯棒性;鏈接快速,能夠快速獲取網(wǎng)頁數(shù)據(jù),通過數(shù)據(jù)緩存或者區(qū)域存儲的方式實現(xiàn)抓取中止和接續(xù)。
網(wǎng)頁的自動獲取流程主要有制定詞表及獲取鏈接、設(shè)置GUN Wget參數(shù)、網(wǎng)頁抓取三個步驟。為了應(yīng)對格式各異的抓取底表,本研究共設(shè)置了兩種網(wǎng)址與抓取底表中的詞匯捆綁方式。網(wǎng)頁獲取詞匯與網(wǎng)址鏈接生成的程序見圖2,獲取詞匯與網(wǎng)址生成的鏈接樣例見表4。 基于詞匯獲取網(wǎng)頁鏈接的特殊性,根據(jù)GUN Wget自身的文件處理參數(shù)、下載參數(shù)、目錄參數(shù)和遞歸參數(shù)等各種參數(shù),結(jié)合具體的詞匯獲取特性,對GUN Wget進行相應(yīng)的參數(shù)配置,從而順利完成各種詞匯獲取任務(wù)。
圖2 抓取網(wǎng)頁與詞匯鏈接生成程序
表4 網(wǎng)頁獲取詞匯與網(wǎng)址鏈接樣例
英漢雙語平行句子對的抽取要考慮到其在網(wǎng)頁中的分布情況以及網(wǎng)頁的XML標(biāo)記特點。在抽取平行句子對的基礎(chǔ)之上,還需要對其進行數(shù)據(jù)清洗、去重等操作。
1.英漢雙語平行句子對的抽取。在網(wǎng)頁中,英漢平行雙語句子對都是由HTML語言存儲,其格式符合XML標(biāo)準(zhǔn),例如:“
圖3 英漢雙語平行句子對抽取程序
2.英漢雙語平行句子對的數(shù)據(jù)清洗。從網(wǎng)頁中抽取得到的英漢雙語平行句子對存在亂碼和數(shù)據(jù)缺失等問題。亂碼現(xiàn)象是由字符編碼不一致造成的,為了符合國際慣例,本研究將文本的編碼統(tǒng)一設(shè)定為UTF-8格式;數(shù)據(jù)缺失主要表現(xiàn)為與英文對應(yīng)的中文句子缺失或者相反,這種情況的處理方式是直接刪除該句子對。
3. 英漢雙語平行句子對的去重。由于獲取的網(wǎng)頁數(shù)量較多,英漢雙語平行語料庫的文本規(guī)模又非常大,因此抽取得到的英漢雙語平行句子對會不可避免地存在重復(fù)現(xiàn)象,去重就成為語料庫建設(shè)過程中不可或缺的一道環(huán)節(jié)。去重主要涉及兩個問題:一是對“重復(fù)”的定義,二是去重的方式。由于句子對本身文本形式的特殊性,在獲取和保存的過程中會出現(xiàn)相似甚至相同句子對的情況,因此需要利用相似度比較算法界定何種相似是因為句子對中存在個別字詞錯漏而造成的,何種情況只是相似而非相同。解決第二個問題的關(guān)鍵是降低去重工作的時間復(fù)雜度。
4. 英漢雙語平行語料庫的加工和建設(shè)。英漢平行語料庫有別于一般語料庫的特殊之處在于它包含了兩種語言文字。英語表意的基本單位是詞語,所以英語文本中詞語和詞語之間有著天然的分隔邊界;漢語表意的基本單位是漢字,漢語文本中詞語之間沒有任何分隔標(biāo)記。雖然這并不影響人們閱讀,但在雙語平行語料庫中,兩種語言的句子是一一對應(yīng)的,也就是所謂的“平行”?!捌叫小辈粌H僅指對應(yīng)的兩個句子在句意上完全一致,還包括句讀、短語結(jié)構(gòu)、詞語的對應(yīng),這些都是基于平行語料庫進行語義標(biāo)注、組塊分析、句法分析等研究的基礎(chǔ)。為了達(dá)到在英漢雙語平行語料庫中漢語文本和英語文本真正的平行對應(yīng)效果,需要對漢語文本進行分詞處理。
“由字構(gòu)詞”是一種較為常見的中文分詞理論。本研究采用六位詞分詞原理,把漢語詞語中的漢字分為六類:單字詞(S)、詞語首字(B)、詞語第二字(F)、詞語第三字(G)、詞語中部(M)、詞語尾字(E)?;诹辉~分詞原理,本研究使用了目前在中文分詞領(lǐng)域表現(xiàn)較為出色的條件隨機場(CRF)模型來進行機器學(xué)習(xí)。條件隨機場是一個在給定輸入節(jié)點條件下計算輸出節(jié)點的條件概率的無向圖模型,擅長處理序列標(biāo)記問題。對于輸入序列x和輸出序列y,可以定義一個線性的CRF模型
基于條件隨機場模型的這一特性,可以把對漢語進行自動分詞的任務(wù)轉(zhuǎn)化為序列標(biāo)注問題。條件隨機場的一個重要特點就是支持在機器學(xué)習(xí)過程中加入任意多個特征進行訓(xùn)練以提高標(biāo)注的效果。據(jù)此,除了漢字六位詞的詞位特征外,本研究還在條件隨機場的訓(xùn)練語料中增加了多個對漢語分詞有幫助的語言學(xué)特征,如部首、姓氏、外族人名地名音譯字、詞綴、聲調(diào)等,從而為自動分詞模型提供更多的漢語信息,有效提高模型對漢語進行自動分詞的精度[11]。
在對漢語進行自動分詞前,應(yīng)先從英漢平行句子對中把所有的漢語句子提取出來;然后將所有漢語句子形成的文本按照條件隨機場模型的要求調(diào)整格式,并添加特征信息;完成分詞之后,將漢語句子文本的格式恢復(fù),并重新與英文句子一一對應(yīng)起來。經(jīng)過獲取、抽取、預(yù)處理、分詞等環(huán)節(jié)的工作后,本研究最終得到一個詞匯層面平行對齊的英漢雙語平行語料庫,該語料庫共包含1 017 963個英漢雙語平行句子對,語料庫樣例如表5所示。
表5 英漢雙語平行語料庫樣例
高質(zhì)量、大規(guī)模的英漢雙語平行語料庫有著巨大的研究價值。隨著互聯(lián)網(wǎng)的發(fā)展,不同語言間的交流變得日益頻繁,雙語平行語料庫已經(jīng)成為機器翻譯、機器輔助翻譯以及翻譯知識獲取研究不可或缺的重要資源,在比較語言學(xué)研究等領(lǐng)域發(fā)揮著重要作用。但語料庫的建設(shè)是一個漫長而煩瑣的過程,作為一項重要的語言資源,雙語平行語料庫在規(guī)模和質(zhì)量上都遠(yuǎn)不及起步更早的單語語料庫[12]。而利用互聯(lián)網(wǎng)Web的雙語平行資源自動獲取方法則是構(gòu)建雙語平行語料庫的一種方便、快捷、高效的途徑。
考慮到網(wǎng)絡(luò)獲取語料的來源多樣性和數(shù)據(jù)復(fù)雜性,下一步研究的方向是將英漢雙語平行語料庫存儲到專業(yè)數(shù)據(jù)庫軟件中進行管理和維護。相較于一般的文本編輯工具,數(shù)據(jù)庫軟件的存儲量更大,對操作環(huán)境的兼容性更強,具備可移植性,安全性能也更出色,能夠更好地滿足英漢雙語平行語料庫的后續(xù)加工、檢索等研究任務(wù)的需要。