鄧海龍
摘 要: 因?yàn)闆](méi)有文字系統(tǒng),方言語(yǔ)料庫(kù)通常意味著語(yǔ)音語(yǔ)料庫(kù)。語(yǔ)音語(yǔ)料庫(kù)在采集、整理、規(guī)范和歸檔等方面都與文本語(yǔ)料庫(kù)有明顯不同,因此,方言語(yǔ)音語(yǔ)料庫(kù)的檢索、提取和呈現(xiàn)對(duì)技術(shù)提出更高要求。另外,方言的內(nèi)部變異是語(yǔ)料采集過(guò)程中需要考慮的重要因素。本文針對(duì)方言語(yǔ)音語(yǔ)料庫(kù)建設(shè)中的常規(guī)問(wèn)題,以贛南客家方言語(yǔ)料庫(kù)為例,就語(yǔ)音語(yǔ)料庫(kù)及其檢索平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)過(guò)程進(jìn)行深入探討。
關(guān)鍵詞: 贛南地區(qū) 客家方言 語(yǔ)音語(yǔ)料庫(kù) 檢索平臺(tái)
一、引言
我國(guó)歷史悠久、地域廣大和人口眾多,形成了各種各樣、千姿百態(tài)的不同方言。不過(guò),面對(duì)如此豐富的語(yǔ)言資源寶藏,國(guó)內(nèi)方言語(yǔ)料庫(kù)建設(shè)并不多,除了北京方言、粵語(yǔ)和江蘇省境內(nèi)方言等發(fā)達(dá)地區(qū)外,很少有其他語(yǔ)言得到學(xué)界和社會(huì)的足夠關(guān)注。一方面是因?yàn)榉窖栽谏鐣?huì)交往活動(dòng)中,相對(duì)于普通話而言,處于區(qū)域性和邊緣性地位。另一方面,方言缺少書(shū)寫(xiě)系統(tǒng),對(duì)它的采集和描寫(xiě)比現(xiàn)代通行漢語(yǔ)要艱難得多。2008年,國(guó)家語(yǔ)委啟動(dòng)了“中國(guó)語(yǔ)言資源有聲數(shù)據(jù)庫(kù)建設(shè)”項(xiàng)目,說(shuō)明國(guó)家高度重視我國(guó)語(yǔ)言文化資源的采集和保護(hù)工作(李宇明,2010)。2013年,教育部語(yǔ)言文字信息管理司發(fā)布了《中國(guó)語(yǔ)言資源有聲數(shù)據(jù)庫(kù)建設(shè)工作規(guī)范(試行)》(教語(yǔ)信司函〔2013〕17號(hào)),從具體實(shí)施細(xì)節(jié)上進(jìn)一步規(guī)范了我國(guó)語(yǔ)音語(yǔ)料庫(kù)的建設(shè)。2014年,中山大學(xué)莊初升教授主持的“海內(nèi)外客家方言的語(yǔ)料庫(kù)建設(shè)和綜合比較研究”獲批國(guó)家社科重大項(xiàng)目立項(xiàng)資助,充分說(shuō)明學(xué)術(shù)界也已意識(shí)到方言語(yǔ)料庫(kù)建設(shè)的必要性和重要性。
方言語(yǔ)料庫(kù)的建設(shè)與普通話等官方語(yǔ)言有著顯著區(qū)別,面臨更多實(shí)際困難。從某種意義上說(shuō),一個(gè)如實(shí)全面反映方言特征的方言語(yǔ)料庫(kù)必須包含語(yǔ)音語(yǔ)料庫(kù),因?yàn)槁曇魩缀跏墙^大多數(shù)方言存在的唯一形式。如果沒(méi)有語(yǔ)音數(shù)據(jù),直接對(duì)它進(jìn)行文字轉(zhuǎn)寫(xiě)和存檔,其價(jià)值將大打折扣。本文以贛南客家方言語(yǔ)音語(yǔ)料庫(kù)的建設(shè)為例,研究方言語(yǔ)料庫(kù)及檢索平臺(tái)建設(shè)的設(shè)計(jì)框架和實(shí)現(xiàn)方案,以探索方言和其他同類語(yǔ)音語(yǔ)料庫(kù)基本建設(shè)途徑。
二、方言語(yǔ)料庫(kù)的基本特點(diǎn)
相比較于官方正式語(yǔ)言語(yǔ)料庫(kù)建設(shè),方言語(yǔ)料庫(kù)主要有以下一些特點(diǎn):
(一)一般以語(yǔ)音為主
絕大部分方言素材都是以口語(yǔ)形式存在于語(yǔ)言社區(qū)之中,采集口語(yǔ)作為語(yǔ)料幾乎是方言語(yǔ)料庫(kù)建設(shè)的唯一途徑。語(yǔ)音采集分為從錄音棚里錄制指定的方言表達(dá)內(nèi)容和在實(shí)際交際環(huán)境中錄制自然話語(yǔ)。前者顯然比后者便于操作,錄制效果易于控制。早期方言語(yǔ)料以前者為主,從朗讀指定內(nèi)容發(fā)展到講述指定故事,反映出采集人員不斷追求真實(shí)語(yǔ)料的努力。這種方式雖然在具體實(shí)施上較為方便,可以通過(guò)短時(shí)的錄音達(dá)到較大的詞匯密度,但其語(yǔ)料常常難以具備代表性,很難為方言研究提供反映語(yǔ)言全貌,有代表性和說(shuō)服力的數(shù)據(jù)。最近,由于錄音設(shè)備變得便捷,音頻捕獲和剪輯不再困難,盡量采集自然口語(yǔ)進(jìn)行語(yǔ)料庫(kù)建設(shè)成為一種趨勢(shì)和必然發(fā)展要求(范俊軍,2013)。顯而易見(jiàn),不管是采用錄音棚還是田野錄音,相比較于文本語(yǔ)料庫(kù),語(yǔ)音語(yǔ)料庫(kù)的建設(shè)無(wú)疑困難得多。
(二)現(xiàn)成可用資源少
方言作為地方性使用語(yǔ)言,加上缺乏統(tǒng)一對(duì)應(yīng)的文字符號(hào)系統(tǒng),一般很少見(jiàn)于官方正式文件。即使語(yǔ)音形式,廣播、電視等媒體節(jié)目也很少使用方言(其中粵語(yǔ)節(jié)目占了較大比例)。在新興網(wǎng)絡(luò)媒介中,由于傳播量大,加上普通人也可以參與,開(kāi)始出現(xiàn)部分娛樂(lè)或者教學(xué)性質(zhì)的方言語(yǔ)音節(jié)目?jī)?nèi)容。總體上,運(yùn)用方言進(jìn)行交傳播和交流通常還是局限在口耳相傳這種初級(jí)形式。方言使用現(xiàn)狀直接導(dǎo)致方言語(yǔ)料庫(kù)建設(shè)中可以利用的現(xiàn)成資源非常少,這點(diǎn)與現(xiàn)代漢語(yǔ)(普通話)語(yǔ)料庫(kù)的建設(shè)不一樣。現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)建設(shè)可以選用大量現(xiàn)成的電子文本數(shù)據(jù)資源,即使是建設(shè)語(yǔ)音語(yǔ)料庫(kù),也可從豐富的廣播電視節(jié)目中采樣選取。
(三)語(yǔ)料采集比較困難
因?yàn)闆](méi)有現(xiàn)成語(yǔ)言素材可供利用,方言語(yǔ)料采集比較困難。通常需要采用田野調(diào)查的辦法,到方言所屬區(qū)域進(jìn)行語(yǔ)音采集??紤]到語(yǔ)料代表性,采集人員需要到不同地域,錄取不同職業(yè)、階層、年齡和性別說(shuō)話人的語(yǔ)音材料。受限于資金、時(shí)間、精力和對(duì)被采集地區(qū)及其人員的了解程度,語(yǔ)料采集困難重重,需要在保證語(yǔ)料庫(kù)質(zhì)量的前提下,因地制宜和靈活處理。
(四)語(yǔ)料翻譯與轉(zhuǎn)寫(xiě)費(fèi)時(shí)費(fèi)力
一般而言,方言語(yǔ)料庫(kù)不僅要服務(wù)于理解該方言的學(xué)者開(kāi)展學(xué)術(shù)研究,還要面向不是以該方言為母語(yǔ)的其他學(xué)者或者非科研用途使用人員。另外,還要考慮到語(yǔ)料的檢索使用問(wèn)題,因?yàn)榉窖詻](méi)有書(shū)面文字系統(tǒng),語(yǔ)料檢索通常依賴于對(duì)應(yīng)的普通話翻譯詞語(yǔ)。因此,將方言語(yǔ)音進(jìn)行翻譯,轉(zhuǎn)寫(xiě)成對(duì)應(yīng)的漢語(yǔ)文字就非常重要。這方面工作量極大(王澤鵬,2003;洪拓夷,2009)。根據(jù)經(jīng)驗(yàn),一個(gè)小時(shí)的音頻通常要耗費(fèi)十幾到幾十小時(shí)的翻譯轉(zhuǎn)寫(xiě)時(shí)間。
三、方言語(yǔ)料庫(kù)的檢索平臺(tái)及技術(shù)難點(diǎn)
同樣的,方言語(yǔ)料庫(kù)的檢索平臺(tái)搭建與官方正式語(yǔ)言語(yǔ)料庫(kù)有顯著不同,面臨更高技術(shù)要求。
(一)存儲(chǔ)空間大
如果方言語(yǔ)料庫(kù)里包含語(yǔ)音語(yǔ)料,在同等語(yǔ)言數(shù)據(jù)量的前提下,語(yǔ)音語(yǔ)料就占據(jù)更大存儲(chǔ)空間。有些方言語(yǔ)料庫(kù)甚至還包含視頻,比語(yǔ)音數(shù)據(jù)還需要更大的磁盤(pán)空間。雖然現(xiàn)在電腦磁盤(pán)空間并不昂貴,但由于語(yǔ)料體積帶來(lái)的分享和傳播困難不容忽視。
(二)檢索查找難
方言沒(méi)有文字系統(tǒng),檢索查找目標(biāo)詞匯就有所不便。即使配備對(duì)應(yīng)轉(zhuǎn)寫(xiě)的普通話翻譯,可以使用普通話對(duì)應(yīng)詞進(jìn)行搜索,仍然要解決對(duì)應(yīng)詞的語(yǔ)音提取問(wèn)題。畢竟,語(yǔ)音形式才是方言最真實(shí)的存在方式。由此可以看出,方言語(yǔ)音語(yǔ)料庫(kù)類似于方言語(yǔ)音與普通話文字相對(duì)應(yīng)的平行語(yǔ)料庫(kù),其檢索技術(shù)涉及語(yǔ)音和翻譯文本對(duì)齊、檢索和提取過(guò)程的音頻播放時(shí)間定位,實(shí)現(xiàn)普通話文本檢索,對(duì)應(yīng)方言語(yǔ)音句子定位提取和播放,達(dá)到服務(wù)科研、教學(xué)或者其他方言查找目的。
四、贛南地區(qū)客家方言語(yǔ)音語(yǔ)料庫(kù)建設(shè)
本論文中的贛南客家方言語(yǔ)音語(yǔ)料庫(kù)建設(shè)目標(biāo)是區(qū)域性方言語(yǔ)音語(yǔ)料庫(kù),達(dá)到可以為語(yǔ)言本體研究、語(yǔ)言教學(xué)研究、語(yǔ)言識(shí)別等自然語(yǔ)言處理工程應(yīng)用和區(qū)域特色文化傳承與保護(hù)等提供基礎(chǔ)性平臺(tái)服務(wù)的目的。
(一)贛南客家方言語(yǔ)料庫(kù)建設(shè)存在的難點(diǎn)
客家方言地區(qū)在全國(guó)分布比較廣泛,從資金、人員和時(shí)間等各方面因素考慮,我們將語(yǔ)音語(yǔ)料庫(kù)建設(shè)的對(duì)象限定為贛南地區(qū)客家方言(一般也可簡(jiǎn)稱贛南客家方言)。以行政區(qū)域地理劃分確定語(yǔ)料收集對(duì)象主要是為了采集方便,并沒(méi)有語(yǔ)言特征上的區(qū)別含義。盡管據(jù)此將客家方言的采集鎖定在限定的范圍,仍然還有不少需要解決的難點(diǎn)。
首先,贛南客家方言雖然對(duì)外呈現(xiàn)出較大程度的一致性,但其內(nèi)部卻有著豐富的多樣性(謝留文&黃雪貞,2007),這對(duì)語(yǔ)料采集的均衡性提出了較高要求。語(yǔ)料庫(kù)必須體現(xiàn)代表性,需要較為全面地反映贛南客家方言的整體面貌,要考慮到贛州市屬各區(qū)縣的面積、人口及代表性各個(gè)因素。
其次,由于交通發(fā)達(dá),當(dāng)代社會(huì)的人口流動(dòng)極為頻繁,贛南客家方言受普通話的影響較大。如何采集語(yǔ)音,更好地反映贛南客家方言最本質(zhì)和基礎(chǔ)的特征是極為重要的問(wèn)題。采集時(shí)宜盡量根據(jù)選擇對(duì)外活動(dòng)較少,以客家方言為主要使用語(yǔ)言的說(shuō)話者為語(yǔ)音采集對(duì)象。當(dāng)然,如果要研究語(yǔ)言變遷,采集流動(dòng)人口的客家方言反而更加適合。
再次,普通話翻譯和信息標(biāo)注的工作量很大。如前所述,語(yǔ)音語(yǔ)料庫(kù)建設(shè)涉及的工作量很大,在資金有限的情況下,必須充分利用語(yǔ)音采集人員的家庭成員和親戚關(guān)系等社會(huì)網(wǎng)絡(luò),并適當(dāng)吸引和動(dòng)員部分語(yǔ)言專業(yè)學(xué)生,一起參與到語(yǔ)料庫(kù)建設(shè)活動(dòng)中。另外,尊重語(yǔ)料標(biāo)注和翻譯人員的署名權(quán),將之反映在語(yǔ)音數(shù)據(jù)庫(kù)中,體現(xiàn)為責(zé)任和權(quán)利。
(二)語(yǔ)料庫(kù)建設(shè)的基本準(zhǔn)則
首先,客家方言語(yǔ)音兼顧多樣性和規(guī)模化。要達(dá)到語(yǔ)言研究目的,語(yǔ)料庫(kù)的均衡性和規(guī)模量都是很重要的指標(biāo)。只有做到這兩點(diǎn)的語(yǔ)料庫(kù)才具有代表性,才使檢索結(jié)果具有實(shí)證意義。要從采錄區(qū)域、說(shuō)話人代表性等方面做到多樣化和均衡性,各個(gè)代表性方言片區(qū)、不同年齡和教育層次都要抽取一定量的語(yǔ)音材料。
其次,確保采錄信息充分和標(biāo)注齊全。采錄信息包括說(shuō)話人特征(性別、年齡、教育程度、工作單位等)、采錄地點(diǎn)(盡量詳細(xì)到村級(jí)(街道)單位)、錄制方式(自然口語(yǔ)、語(yǔ)音朗讀等)、普通話翻譯等內(nèi)容。這些采錄信息為后續(xù)社會(huì)文化相關(guān)研究提供重要參考價(jià)值,應(yīng)該準(zhǔn)確完備。
再者,語(yǔ)音采集方式上自然話語(yǔ)采錄與指定內(nèi)容錄音相結(jié)合。語(yǔ)料庫(kù)最重要的特征是原生態(tài)性,即語(yǔ)料最好是自然采集的(范俊軍,2013)。但限于現(xiàn)實(shí)條件,我們采集語(yǔ)料時(shí),一方面要盡量收集自然話語(yǔ),另一方面需要收錄一些字、詞、句子和習(xí)語(yǔ)等不同層次的語(yǔ)言錄音,以保證語(yǔ)音材料的覆蓋度和規(guī)模量。
(三)語(yǔ)料庫(kù)數(shù)據(jù)結(jié)構(gòu)
語(yǔ)料庫(kù)建設(shè)最重要的是數(shù)據(jù)保存的基本組織結(jié)構(gòu)設(shè)計(jì),數(shù)據(jù)內(nèi)容與組織方式對(duì)語(yǔ)料庫(kù)的服務(wù)功能和后續(xù)發(fā)展影響重大。贛南客家方言語(yǔ)音語(yǔ)料庫(kù)包含三方面主要信息。一是方言錄音文件,以音頻文件保存;二是普通話翻譯文本,這是將方言語(yǔ)音資料翻譯成普通話后的內(nèi)容,以文本形式保存;三是錄制信息,包括說(shuō)話人信息、錄制者、翻譯者、錄制地點(diǎn)等方面的內(nèi)容。具體見(jiàn)表1所示:
五、語(yǔ)料庫(kù)檢索平臺(tái)設(shè)計(jì)
(一)總體原則
語(yǔ)料庫(kù)檢索平臺(tái)搭建的總體原則是盡量做到方便檢索、全面公開(kāi)和持續(xù)開(kāi)放。方便檢索是為了查閱及研究便利;全面公開(kāi)是積極利用網(wǎng)絡(luò),將語(yǔ)料面向全社會(huì)開(kāi)放,使之充分服務(wù)社會(huì);持續(xù)開(kāi)放是語(yǔ)料庫(kù)建設(shè)要做到容易后續(xù)增加和補(bǔ)充內(nèi)容,使語(yǔ)料不斷得以充實(shí)和豐富。
(二)檢索與呈現(xiàn)
大型語(yǔ)料庫(kù)一般都有相對(duì)應(yīng)的檢索工具,贛南客家方言語(yǔ)料庫(kù)由于語(yǔ)音語(yǔ)料庫(kù)的性質(zhì),需要有自己獨(dú)立開(kāi)發(fā)建設(shè)的檢索和呈現(xiàn)環(huán)境。其核心機(jī)制是預(yù)先將語(yǔ)音與翻譯文本(即字幕文件)對(duì)應(yīng),用戶檢索的時(shí)候,服務(wù)器查詢翻譯文本(字幕文件),提取出搜索詞所在上下文句段及對(duì)應(yīng)音頻文件時(shí)間區(qū)間,將文本內(nèi)容以關(guān)鍵詞索引行形式呈現(xiàn)在網(wǎng)頁(yè)中,并提供各句段對(duì)應(yīng)的音頻鏈接,點(diǎn)擊可播放出指定區(qū)間音頻。音頻播放通過(guò)網(wǎng)頁(yè)音頻播放器實(shí)現(xiàn)。
六、具體技術(shù)與實(shí)現(xiàn)方案
(一)計(jì)算機(jī)輔助技術(shù)
語(yǔ)料庫(kù)建設(shè)需要使用一些計(jì)算機(jī)軟件,甚至通過(guò)一些簡(jiǎn)單的編程方法批量處理某些問(wèn)題,必要時(shí)可以委托給計(jì)算機(jī)專業(yè)人員進(jìn)行處理。語(yǔ)料數(shù)據(jù)整理、歸檔和發(fā)布人員需要掌握語(yǔ)音語(yǔ)料庫(kù)建設(shè)相關(guān)軟件,如音頻剪輯軟件,如Cool Edit等;網(wǎng)頁(yè)設(shè)計(jì)開(kāi)發(fā)工具如Dreamweaver及網(wǎng)站建設(shè)語(yǔ)言,如php,javascript等;語(yǔ)言處理程序語(yǔ)言,如python等。
(二)實(shí)際工作方案
首先從總體上規(guī)劃設(shè)計(jì)語(yǔ)料庫(kù)建設(shè)方案及具體語(yǔ)音采集方案,隨后組織、動(dòng)員和培訓(xùn)語(yǔ)音采集人員,以贛南地區(qū)的18個(gè)縣市區(qū)為基礎(chǔ),聯(lián)系選定的客家方言區(qū),實(shí)施語(yǔ)音采集。分批采集完成后,進(jìn)行語(yǔ)音語(yǔ)料的錄入和整理工作,并視情況,進(jìn)行語(yǔ)料和相關(guān)信息的補(bǔ)錄和完善工作。最后設(shè)計(jì)語(yǔ)料檢索軟件并搭建檢索平臺(tái),選擇適當(dāng)?shù)姆绞綄⒄Z(yǔ)料公開(kāi)發(fā)布,提供給相關(guān)科研人員使用語(yǔ)料庫(kù)展開(kāi)系列應(yīng)用研究。
七、結(jié)語(yǔ)
毋庸置疑,與很多漢語(yǔ)方言一樣,贛南客家方言語(yǔ)音語(yǔ)料庫(kù)建設(shè)有其重要學(xué)術(shù)研究?jī)r(jià)值和文化傳承意義。但是,由于語(yǔ)料庫(kù)建設(shè)的現(xiàn)實(shí)困難,一直未見(jiàn)達(dá)到一定規(guī)模、遵循規(guī)范的贛南地區(qū)客家方言語(yǔ)料庫(kù)語(yǔ)料公開(kāi)發(fā)布。本文分析了方言語(yǔ)音語(yǔ)料庫(kù)建設(shè)難點(diǎn)和檢索平臺(tái)涉及的技術(shù)要求,并以贛南客家方言語(yǔ)料庫(kù)建設(shè)為例,提出了具體的設(shè)計(jì)思路和實(shí)現(xiàn)方案,以期對(duì)廣大同仁有所啟示。
參考文獻(xiàn):
[1]范俊軍.漢語(yǔ)方言自然口語(yǔ)語(yǔ)料庫(kù)建設(shè)的幾個(gè)基本問(wèn)題[J].學(xué)術(shù)研究,2013(02):153-158.
[2]洪拓夷.漢語(yǔ)方言語(yǔ)音數(shù)據(jù)庫(kù)建設(shè)構(gòu)想[J].圖書(shū)情報(bào)工作,2009(05):83-86.
[3]李宇明.論中國(guó)語(yǔ)言資源有聲數(shù)據(jù)庫(kù)的建設(shè)[J].中國(guó)語(yǔ)文,2010(04):356-363+384.
[4]王澤鵬.發(fā)展方言語(yǔ)料庫(kù)提高研究水平——兼談粵方言語(yǔ)料庫(kù)的建設(shè)[J].煙臺(tái)師范學(xué)院學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2003(01):97-100.
[5]謝留文,黃雪貞.客家方言的分區(qū)(稿)[J].方言,2007(03):238-249.
基金項(xiàng)目:本文系江西省高校人文社會(huì)科學(xué)研究青年基金項(xiàng)目“贛南地區(qū)客家方言語(yǔ)音語(yǔ)料庫(kù)及檢索平臺(tái)建設(shè)”(編號(hào)YY1413)階段性成果