廖海宏
(廈門理工學院外國語學院,福建廈門 361024)
詞典編纂技術與計算機和網(wǎng)絡技術同步發(fā)展,隨著數(shù)據(jù)時代的到來,基于數(shù)據(jù)處理技術的詞典編纂模式不斷發(fā)展。詞典學者開始關注和研究數(shù)據(jù)處理技術對詞典編纂模式的影響,具體可參見章宜華[1]1,馬立東、吳光華[2]43,林皓、張逸[3]26,耿云冬、魏向清[4]65等的文章討論。其中,耿云冬和魏向清[4]66提出的“語言數(shù)據(jù)驅(qū)動模式”更是直接指出數(shù)據(jù)處理技術對詞典編纂發(fā)展的方向性影響,他們認為:“如果說傳統(tǒng)的詞典編纂更多是編者主體經(jīng)驗驅(qū)動模式,那么當代及未來的詞典編纂則無疑應是語言數(shù)據(jù)驅(qū)動模式?!?近年來,在理論發(fā)展的同時,數(shù)據(jù)處理技術在詞典編纂實踐領域不斷得到應用,基于數(shù)據(jù)處理技術的詞典編纂模式逐漸發(fā)展并趨于成熟。鑒于數(shù)據(jù)處理技術對詞典編纂未來發(fā)展的方向性影響,有必要加強對此類詞典產(chǎn)品的研究。
《必應詞典》是微軟亞洲研究院研發(fā)的帶翻譯功能的在線英漢雙語詞典。經(jīng)過近10年發(fā)展,《必應詞典》現(xiàn)有網(wǎng)絡版、桌面版、移動版等,最新版本是Win10版。根據(jù)手機內(nèi)置的不同操作系統(tǒng),移動版又細分為Windows10App版、Windows10Android版、Windows10iphone版、Windows10WinPhone版等版本,各版本均擁有龐大詞庫、海量詞條、海量雙語例證庫,提供詞典查詢和以詞典為基礎的雙語翻譯服務。本文從數(shù)據(jù)處理技術的角度出發(fā),分析基于數(shù)據(jù)處理技術的詞典編纂模式對《必應詞典》發(fā)展進程、編纂過程、編纂結(jié)果等的影響,并以點帶面,管窺數(shù)據(jù)處理技術對詞典編纂模式未來發(fā)展的影響。
“數(shù)據(jù)處理是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸,數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)?!盵5]6《必應詞典》一向注重數(shù)據(jù)處理技術的詞典應用,最新版《必應詞典》是綜合應用網(wǎng)絡數(shù)據(jù)挖掘、搜索引擎、云計算、大數(shù)據(jù)等技術的詞典產(chǎn)品。
《英庫》是《必應詞典》的前身。2009年12月,微軟亞洲研究院在線英語詞典研究項目成果《英庫》上線,這是一款用戶需求導向、針對中國人英語學習特點設計的詞典?!队臁费邪l(fā)之初就注重數(shù)據(jù)處理技術的詞典應用,根據(jù)微軟亞洲研究院官方微博:“《英庫》基于全新網(wǎng)絡數(shù)據(jù)挖掘技術,不斷挖掘、擴充雙語數(shù)據(jù)庫,以數(shù)以千計的速度擴展單詞和例證,達到千萬詞匯和例證。通過掃描幾十億量級的網(wǎng)頁,應用網(wǎng)絡數(shù)據(jù)挖掘技術挖掘海量網(wǎng)絡數(shù)據(jù),建設千萬級詞匯庫和雙語例證庫等。”①2010年9月,《英庫》更名 《必應詞典》,并把詞典發(fā)布到微軟必應搜索引擎首頁。新版詞典在《英庫》網(wǎng)絡數(shù)據(jù)挖掘技術基礎上進行了技術升級,融詞典功能和搜索引擎功能為一體。劉超[6]36指出:“搜索引擎通過網(wǎng)絡爬蟲獲取大量相關資料和信息,采用機器學習或者網(wǎng)絡數(shù)據(jù)挖掘的算法進行網(wǎng)絡數(shù)據(jù)挖掘,進一步分類和提取,將用戶最想要的搜索信息返回給用戶?!睌?shù)據(jù)處理是搜索引擎的主要功能之一,把搜索引擎技術融入《必應詞典》是把數(shù)據(jù)處理技術融入詞典編纂的又一次技術創(chuàng)新。在獲取詞典編纂所需的數(shù)據(jù)和處理數(shù)據(jù)的過程中,搜索引擎后臺海量數(shù)據(jù)為數(shù)據(jù)挖掘提供數(shù)據(jù)基礎,而搜索引擎的數(shù)據(jù)搜索、存儲、挖掘功能為詞典編纂提供技術基礎,詞典編纂自動化程度提高。2011年5月,微軟宣布在云計算技術基礎上推出基于“云”服務模式的“必應云詞典”,詞典具備云端與本地詞庫查詢雙重搜索模式,提供詞典查詢服務和基于詞典的翻譯服務。必應云詞典官方網(wǎng)頁(2011)指出:“必應云詞典是由海量數(shù)據(jù)驅(qū)動的、基于機器學習和統(tǒng)計建模的最新一代機器翻譯引擎……提供云服務模式詞典和翻譯服務。”②網(wǎng)絡數(shù)據(jù)挖掘技術是云計算技術的功能之一,基于云計算技術的詞典“云”服務模式是《必應詞典》把數(shù)據(jù)處理技術融入詞典編纂的又一輪技術創(chuàng)新。鄒燕飛[7]186認為:“海量網(wǎng)絡數(shù)據(jù)挖掘?qū)W(wǎng)絡環(huán)境和應用條件要求較高,而云計算技術的應用有效提高了網(wǎng)絡數(shù)據(jù)挖掘效率和云計算技術在海量網(wǎng)絡數(shù)據(jù)挖掘中的應用研究。” 云計算技術應用提高了《必應詞典》對網(wǎng)絡數(shù)據(jù)的挖掘和應用的效率。進入大數(shù)據(jù)階段,種類繁多、數(shù)量龐大的網(wǎng)絡數(shù)據(jù)成為《必應詞典》編纂重要的語料來源,詞典編纂開始從紛繁復雜的網(wǎng)絡數(shù)據(jù)中采集、篩選、分析和挖掘有效數(shù)據(jù),大數(shù)據(jù)技術開始在《必應詞典》編纂中得到應用,為基于數(shù)據(jù)處理技術的詞典編纂打開了更廣闊的視野。
數(shù)據(jù)處理技術賦予詞典編纂過程新的特色。常規(guī)的詞典編纂過程包括語料采集、語料加工、選詞立目、釋義和例證的收集、篩選等,數(shù)據(jù)處理技術對《必應詞典》語料采集途徑、語料加工方式、選詞立目條件,以及釋義和例證的采集、篩選、收錄等過程都產(chǎn)生了深刻影響。
《必應詞典》在語料采集方面既兼顧傳統(tǒng)又謀求創(chuàng)新,來自權威詞典的語料和在網(wǎng)絡數(shù)據(jù)基礎上挖掘的語料共同構(gòu)成《必應詞典》語料,在種類和規(guī)模上打破了傳統(tǒng)格局?!侗貞~典》內(nèi)置牛津大學出版社系列牛津詞典、微軟Office詞典、微軟電子百科全書等權威詞典和百科全書,權威詞典為詞典提供嚴格按詞典標準規(guī)范加工的語料,語料來源得到較好的質(zhì)量保證;數(shù)據(jù)處理技術應用拓寬了傳統(tǒng)的語料采集途徑,網(wǎng)絡數(shù)據(jù)成為詞典編纂重要的語料來源。2011 年,世界知名咨詢公司麥肯錫指出: “數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素?!盵8]14如果說數(shù)據(jù)是數(shù)據(jù)時代的重要生產(chǎn)因素,那么種類繁多的網(wǎng)絡數(shù)據(jù)則是數(shù)據(jù)時代詞典編纂的重要語料來源和生產(chǎn)因素?;ヂ?lián)網(wǎng)空間為《必應詞典》編纂提供了千萬億字節(jié)規(guī)模的數(shù)據(jù)采集庫,互聯(lián)網(wǎng)空間開放共享的在線詞典、詞典數(shù)據(jù)庫、翻譯網(wǎng)站、大型語料庫等提供經(jīng)過語料加工的百萬、千萬、億級的語言數(shù)據(jù)庫。
《必應詞典》語料來源和采集方式的變化帶動語料加工方式的變化,以數(shù)據(jù)挖掘為主要特征的語料數(shù)據(jù)化技術在《必應詞典》編纂中得到應用。章宜華[1]2認為:“語料數(shù)據(jù)化是辭書現(xiàn)代化的新理念,即應用語言學研究的新成果和網(wǎng)絡數(shù)據(jù)挖掘技術,在海量的語料中提取詞典所需的各種有效語言數(shù)據(jù),把語料庫變?yōu)樵~匯/詞典數(shù)據(jù)庫,從而大大提高語料使用和詞典編纂的效率。”《必應詞典》編纂過程充分應用語料數(shù)據(jù)化技術,從互聯(lián)網(wǎng)空間采集海量數(shù)據(jù),再從所采集數(shù)據(jù)中提取適用于詞典編纂的有效數(shù)據(jù),挖掘詞匯的詞法、句法、語義、語用等方面的詞匯知識和實用信息,語料加工方式更加智能化。
詞典只有不斷滿足用戶需求,才能持續(xù)維護生命力。數(shù)據(jù)時代,用戶查詢內(nèi)容發(fā)生很大變化,查詢需求趨向?qū)嵱眯?、百科性和實時性,對詞典選詞立目提出了更高要求?!侗貞~典》選詞立目手段數(shù)據(jù)化、信息化,選詞立目體現(xiàn)“以用戶為中心”的實用原則。
必應搜索引擎和網(wǎng)絡數(shù)據(jù)挖掘等技術的融合應用使得詞典可以發(fā)掘和反映不斷變化的語言現(xiàn)象。詞典收詞趨于海量,除收錄內(nèi)置權威詞典詞條外,借助搜索引擎后臺數(shù)據(jù)倉庫以及網(wǎng)頁數(shù)據(jù)抓取、更新、存儲等技術,從海量數(shù)據(jù)中提取詞條,達到了為用戶提供千萬級以上詞條查詢的能力;詞條收錄呈現(xiàn)百科特征,在分析用戶查詢內(nèi)容、查詢行為和查詢意圖等詞典使用數(shù)據(jù)的基礎上,詞典收錄大量應用于網(wǎng)絡、普通詞典不收錄而用戶常常需要使用和查詢的百科詞條,收錄各類專業(yè)術語、縮寫、名稱等, 甚至收錄Facebook(臉書網(wǎng))、WeChat(微信)、Twitter (推特)等網(wǎng)絡平臺名;詞典收詞趨于實時,從網(wǎng)絡空間挖掘大量新詞,如selfie(自拍)、Brexit(英國脫歐)、clicktivism(網(wǎng)絡點擊行動主義)等,在數(shù)據(jù)處理基礎上實時更新詞庫。林皓、張逸[3]28指出:“互聯(lián)網(wǎng)加速了語言的發(fā)展、變化速度,一個新詞創(chuàng)造后,人們常常以幾何級的速度傳播和使用它。”按傳統(tǒng)編纂模式,詞典通常只能數(shù)年甚至十多年才修訂更新一次,傳統(tǒng)在線詞典由于技術局限更新速度也還不夠,數(shù)據(jù)處理技術使詞典在實時反映語言發(fā)展方面又前進了一步。
數(shù)據(jù)處理拓寬詞典釋義的采集途徑,豐富詞典釋義的分類和表述方式。《必應詞典》采用權威英漢雙解釋義、英漢釋義、英英釋義、圖片釋義、網(wǎng)絡釋義等形式對釋義進行分類。權威英漢雙解釋義、英漢釋義、英英釋義主要來源于內(nèi)置的牛津系列詞典和微軟Office詞典,按詞典規(guī)范化標準收錄釋義,網(wǎng)絡釋義、圖片釋義是基于數(shù)據(jù)處理的新型釋義方式。
“網(wǎng)絡釋義”不同于傳統(tǒng)釋義方式,是在數(shù)據(jù)處理基礎上從網(wǎng)絡采集的詞條意義,呈現(xiàn)基于數(shù)據(jù)處理的詞條釋義。《有道詞典》官方網(wǎng)頁對“網(wǎng)絡釋義”的說明是:“網(wǎng)絡釋義指的是應用搜索引擎抓取并獲得多達數(shù)十億海量網(wǎng)頁數(shù)據(jù)后,利用網(wǎng)頁萃取技術進行信息理解、網(wǎng)絡數(shù)據(jù)挖掘和文本分析,從中找出互為關系的釋義,再根據(jù)它們在海量網(wǎng)頁中出現(xiàn)的頻次、位置等因素優(yōu)化調(diào)整,從而得到與詞條相關度最高的釋義?!雹塾帽貞阉饕嫠阉髟~條“blog”,國內(nèi)版和國際版分別抓取41 500 000 和41 000 000條結(jié)果,在所抓取的千萬級數(shù)據(jù)的基礎上,必應詞典進一步篩選出309 050個和236 607個網(wǎng)頁,對數(shù)據(jù)進一步理解、挖掘、分析后,通過“網(wǎng)絡釋義”收錄“blog”的釋義,第一個義項:博客,一種簡易的個人信息發(fā)布方式。任何人都可注冊,完成個人網(wǎng)頁創(chuàng)建、發(fā)布和更新。wenwen.soso.com|基于309 050個網(wǎng)頁。第二個義項:部落格,部落格(BLOG)是什么?部落格到底能夠做什么?dp.tsh.ttu.edu.tw|基于236 607個網(wǎng)頁④。
以相關關系為邏輯基礎,《必應詞典》從網(wǎng)絡空間挖掘與詞條語義相關的圖片,以直觀易懂的方式收錄在“圖片釋義”欄。由于微軟在設計上把《必應詞典》平臺和搜索引擎平臺融為一體,“圖片釋義”欄鏈接搜索引擎平臺,因此,除詞典界面提供的圖片,搜索引擎界面也為使用者提供與詞條語義相關的海量圖片,圖片順序按語義的相關關系排列,相關關系最強的圖片排在最前面。
新技術應用使得詞典更深層地挖掘詞匯語義特征,更客觀地反映語言在真實應用中體現(xiàn)的社會、文化、技術等表征。
例證具有印證詞目、輔助釋義、提供搭配信息、文化信息、用法提示等功能,詞典通過例證幫助使用者加強對詞條語義信息、語法信息、語體信息和語用信息等的理解。在數(shù)據(jù)處理的基礎上,《必應詞典》在編纂過程中采集海量英漢漢英雙語平行句對,經(jīng)篩選、分析、比對、分類后收錄數(shù)量可觀的例證,各個版本收錄的例證數(shù)量有所不同。網(wǎng)絡版和桌面版《必應詞典》為每個詞條收錄250個按詞典規(guī)范加工的例證,這些例證來源于內(nèi)置的權威詞典和網(wǎng)絡數(shù)據(jù);移動版除收錄網(wǎng)絡版收錄的250個例證外,還收錄大量來源自網(wǎng)絡的精加工和粗加工例證,并收錄每個例證的網(wǎng)絡來源。
由于例證數(shù)量多,《必應詞典》對例證進行了分類,按類別分為口語、書面語、標題、技術類例證;按來源分為來自權威詞典和網(wǎng)絡的例證;按例證難度分為簡單、中等、難三種。詞典使用者可按實際需求自由組合和選擇所需的例證,既可選擇來自權威詞典,也可選擇源自網(wǎng)頁的例證。
《必應詞典》還對所采集海量英漢漢英雙語平行句對進行數(shù)據(jù)比對和分析,以英漢對照的方式收錄例證,并以動態(tài)顯示的方式標示例證和例證翻譯中每個詞匯的一一對應關系,使兩種語言在語義框架層面對等呈現(xiàn),多層面映射和匹配英漢兩種語言符號。英漢兩種語言符號在特定語境下的多層面映射為詞典使用者理解語言提供了極大方便。
詞典編纂過程的改變必然改變詞典編纂結(jié)果,數(shù)據(jù)處理技術賦予《必應詞典》詞條信息諸多新特點。“詞條是詞典的基本結(jié)構(gòu)單位和功能單位,也是詞典的主體。”[9] 47數(shù)據(jù)環(huán)境下,基于數(shù)據(jù)處理技術的編纂過程改變了詞典語料來源和加工方式,詞典信息采集和加工能力大大加強,過程趨于自動化,大量采集的語料來源于真實使用的語言環(huán)境且數(shù)量趨于海量,詞條信息構(gòu)成方式、表述方式、表述內(nèi)容隨之改變。
完整意義的《必應詞典》詞條信息涵蓋收錄于各種版本的相同和不同的信息,存儲于各版本的詞條信息以整合或分述的方式構(gòu)成一個有機的整體。網(wǎng)絡版、桌面版、移動版,以及移動版的各種版本均提供英漢釋義、英英釋義、權威英漢雙解釋義、網(wǎng)絡釋義、例證、搭配、同義詞、反義詞、圖片等,但收錄信息有所不同又互為補充。“數(shù)字化環(huán)境下,只有建立宏觀認知概念,才能正確認知詞典內(nèi)容,提高詞典的使用效能,正確分析和研究詞典?!盵10]90《必應詞典》通過不同載體的各種版本收錄互為補充的詞條信息,因此,只有建立宏觀認知概念,才能正確認知、使用和研究詞典。
《必應詞典》網(wǎng)絡版、桌面版整合了詞典平臺和搜索引擎平臺,詞典提供詞條信息的能力在量上得到提升。兩個版本的詞典界面均設置圖標 “”以鏈接搜索引擎界面,搜索引擎界面也設置詞條查詢?nèi)肟?,并為用戶分別設置國內(nèi)版和國際版查詢?nèi)肟?,方便查詢搜索引擎采集、篩選的詞條信息;在詞條信息排序上,搜索引擎界面把與詞條相關的詞典信息、詞典網(wǎng)站信息、翻譯網(wǎng)站信息置頂頁面,同時,國內(nèi)版把《必應詞典》內(nèi)容置頂,國際版把牛津系列詞典內(nèi)容置頂⑤,緊跟其后的是國內(nèi)外的主流詞典網(wǎng)站,如www.iciba.com、www.dictionary.com、www.thesaurus.com、www.merriam-webster.com、www.thefreedictionary.com等,這些網(wǎng)站是詞條信息采集的重要來源,最后才是與詞條相關的百科信息。
詞條信息或整合或分述。根據(jù)載體特點,詞典為不同版本設置互為補充的欄目,相同欄目收錄的信息互為補充。與網(wǎng)絡版和桌面版相比,在分析與詞條相關的有效數(shù)據(jù)的基礎上,移動版增設聯(lián)想詞匯欄,以動感的網(wǎng)狀圖式呈現(xiàn)詞條語義關系,收錄詞條同義詞、反義詞、上下義詞等,如詞條“hate”收錄 “envy, detest, loathe, adore, love”等與詞條語義相關的聯(lián)想詞匯;詞條 “emoticon”收錄 “emoji, smiley,symbol, cartoon, animated, graphics”等聯(lián)想詞匯。相同欄目收錄的詞條信息有所不同,以“網(wǎng)絡釋義”欄為例,移動版為“emoticon”提供簡單的英漢釋義和該釋義的來源網(wǎng)頁,emoticon:1.表情符號,來源:whatis.com.cn;2.表情圖標,來源:blog.sina.com.cn。網(wǎng)絡版和桌面版具體說明釋義采集依存的網(wǎng)頁數(shù)量和具體語境,“emoticon:1.表情符號,表情符號(emoticon)是一短串鍵盤字母和符號,通常仿效一個面部表情,用來補充文字信息……”
互聯(lián)網(wǎng)空間數(shù)據(jù)格式紛繁復雜,除文本數(shù)據(jù)外,圖片、圖形、音頻、視頻等數(shù)據(jù)也為詞典所用。數(shù)據(jù)處理技術使得《必應詞典》可以通過更為豐富的形態(tài)表述詞條信息,幫助詞典用戶建立多維度的詞匯認知空間,在更宏觀的層面認知詞匯。
除通過詞典界面表述多形態(tài)的詞條信息,通過詞典界面所鏈接的搜索引擎界面,詞典用戶還可以在搜索引擎設置的詞條查詢欄查詢到大量源自網(wǎng)絡空間的各種形態(tài)的詞條信息,如查詢詞條“dance”,使用者可以查看大量與舞蹈相關的圖片、音頻、視頻等。
規(guī)定主義和描寫主義之爭在詞典史上由來已久,李明和周敬華認為[12]150:“規(guī)定主義恪守正統(tǒng)的、規(guī)范的、符合邏輯、符合經(jīng)典作家用法的傳統(tǒng)并以此為標準對語言進行規(guī)定的編纂方針,描寫主義主張不是以經(jīng)典傳統(tǒng)為依據(jù)而是以對語言全面的、系統(tǒng)的、客觀的描寫資料為依據(jù)進行詞典編纂。”在線英漢漢英雙語詞典肩負著溝通英漢兩種語言的作用,除了忠實反映兩種語言的最新發(fā)展和應用情況,也應準確和規(guī)范地收錄詞條信息以引導語言健康發(fā)展,因此必須平衡好規(guī)定主義和描寫主義傾向?!侗貞~典》詞條信息在內(nèi)容上具有兼收并容的傾向,既注重對內(nèi)置牛津系列詞典等權威詞典的詞條信息的收錄,又注重全面、系統(tǒng)、客觀地描寫和記錄語言。
傳統(tǒng)上,由于全面、系統(tǒng)、客觀地描寫語言難度很大,詞典編纂高度依賴編纂者語言能力和人工經(jīng)驗,詞典編纂以規(guī)范詞匯的標準用法為主要目的;數(shù)據(jù)時代,隨著詞典用戶查詢行為的改變,為詞典用戶解決語言應用的實際問題發(fā)展為詞典編纂需要解決的主要矛盾,基于數(shù)據(jù)處理技術的詞典編纂把數(shù)據(jù)采集拓展到網(wǎng)絡空間的海量數(shù)據(jù),全面、系統(tǒng)、客觀地描寫語言有了可能性。在數(shù)據(jù)處理的基礎上,《必應詞典》詞條信息在內(nèi)容上體現(xiàn)了一定的描寫主義特色,通過采集網(wǎng)絡空間海量數(shù)據(jù)描寫語言生存和發(fā)展狀況,在更為客觀的層面收錄語言實際應用過程中產(chǎn)生的詞匯應用信息。
詞典通過詞條信息記錄和反映人類認知社會的過程和結(jié)果,基于數(shù)字處理的詞典編纂模式在內(nèi)容上拓寬了詞典記錄和反映人類認知社會的范圍。
當數(shù)據(jù)和數(shù)據(jù)處理發(fā)展為社會快速信息化的重要表征,研究基于數(shù)據(jù)處理技術的詞典編纂模式就顯得尤為重要?!侗貞~典》是數(shù)據(jù)時代在線雙語詞典應用數(shù)據(jù)處理技術的典型代表,反映了數(shù)據(jù)時代詞典編纂模式的發(fā)展趨勢。數(shù)據(jù)處理技術融入詞典編纂的具體過程,賦予詞典編纂新的方法,詞典信息在構(gòu)成和表述方式上都發(fā)生很大改變。數(shù)據(jù)時代,數(shù)據(jù)處理技術不僅對數(shù)據(jù)計算和分析領域有很大的影響,而且對人文學科領域也產(chǎn)生了深刻影響。隨著數(shù)據(jù)處理技術在人文學科領域應用的推進,語言學領域也越來越重視數(shù)據(jù)處理技術對語言學學科發(fā)展的影響,作為語言學分支學科,詞典學領域應當更多地關注數(shù)據(jù)處理技術對詞典編纂模式未來發(fā)展和詞典學學科發(fā)展的影響。