王懌旦 張雪梅
?
電子詞典檢索功能分析及其發(fā)展構(gòu)想*
王懌旦張雪梅
摘要電子詞典作為一個(gè)以查詢檢索為主要任務(wù)的工具,檢索必然是其中的重中之重,因此其檢索性能直接決定了其質(zhì)量的高低。傳統(tǒng)紙質(zhì)詞典的檢索路徑單一,而數(shù)字化環(huán)境下的電子詞典的檢索功能卻不斷朝智能化、多元化、個(gè)性化、層次化方向發(fā)展。文章通過(guò)對(duì)近年來(lái)產(chǎn)生的電子詞典特有的檢索模式的綜合分析以及對(duì)未來(lái)電子詞典檢索模式的一些構(gòu)想,以期為電子詞典檢索系統(tǒng)的優(yōu)化研究提供一個(gè)良好的開(kāi)端,同時(shí)也希望對(duì)電子詞典用戶在查詢活動(dòng)中最大限度地利用現(xiàn)有資源起到一定的促進(jìn)作用。
關(guān)鍵詞電子詞典檢索紙質(zhì)詞典數(shù)字化
引言
20世紀(jì)40年代中期,隨著對(duì)機(jī)器翻譯研究的深入,電子詞典的開(kāi)發(fā)也逐漸進(jìn)入人們的視野,尤其從20世紀(jì)80年代中后期開(kāi)始,隨著計(jì)算機(jī)技術(shù)尤其是微型處理器的發(fā)展及個(gè)人電腦的普及,電子詞典開(kāi)始步入其黃金發(fā)展期。雖然電子詞典已為公眾所認(rèn)識(shí)和使用,但使用者和研究人員對(duì)電子詞典仍未形成統(tǒng)一定義。Hartmann等(2000: 47—48)將其界定為“一種基于計(jì)算機(jī)技術(shù)將數(shù)據(jù)信息呈現(xiàn)于顯示器上的方式?!盠andau等(2001: 102—103)則將其定義為“借助計(jì)算機(jī)讀取使用以二進(jìn)制代碼的數(shù)字化方式存儲(chǔ)的文本及多媒體圖文聲像信息的工具”。有些學(xué)者甚至將機(jī)器詞典,即供機(jī)器翻譯或自然語(yǔ)言處理用的編碼計(jì)算機(jī)語(yǔ)言詞典也納入電子詞典的范疇。(Wright J. 1998: 62—63)可以看出,電子詞典是依靠計(jì)算機(jī)及其技術(shù)建立的,這是它與紙質(zhì)詞典的本質(zhì)區(qū)別。我們認(rèn)為,電子詞典是數(shù)字化的辭書,但它不是將紙媒詞典文本簡(jiǎn)單電子化或機(jī)械照搬印刷辭書的文本內(nèi)容,而是以電子計(jì)算機(jī)技術(shù)為依托,以數(shù)字化語(yǔ)料庫(kù)(即文本型數(shù)據(jù)庫(kù))、多媒體數(shù)據(jù)庫(kù)(如圖像數(shù)據(jù)庫(kù)、音頻數(shù)據(jù)庫(kù)、視頻數(shù)據(jù)庫(kù)等)等為核心的具有自動(dòng)化性質(zhì)的語(yǔ)詞信息查詢檢索系統(tǒng)。電子詞典按其用途可分為學(xué)習(xí)型與研究型詞典,按其使用介質(zhì)可分為芯片詞典、手機(jī)詞典、計(jì)算機(jī)詞典和網(wǎng)絡(luò)詞典等。
電子詞典功能模塊一般包括數(shù)據(jù)庫(kù)、檢索、界面設(shè)置(如語(yǔ)言設(shè)置等)、附加功能(如生詞本、歷史記錄、收藏、信息統(tǒng)計(jì)等)、系統(tǒng)幫助等。電子詞典作為一個(gè)以查詢檢索為主要任務(wù)的系統(tǒng),檢索必然是其中的重中之重,是其核心功能模塊,其檢索性能直接決定其質(zhì)量的高低。詞典檢索就是根據(jù)用戶需要從詞典信息集合中找出所需要信息的過(guò)程和技術(shù)。傳統(tǒng)紙質(zhì)詞典的檢索方式非常有限,詞目字符構(gòu)成形式往往是其唯一的檢索依據(jù),如漢語(yǔ)一般只有筆畫、部首、拼音等檢索途徑,而英語(yǔ)一般只有字母順序檢索,對(duì)于這些檢索模式,紙質(zhì)詞典的前言、后附頁(yè)等往往會(huì)給出提示,學(xué)習(xí)者在學(xué)習(xí)過(guò)程中一般也會(huì)受到相關(guān)的指導(dǎo)。而電子詞典的檢索功能卻要多得多,同時(shí)使用者也很難得到較為系統(tǒng)的檢索知識(shí)與指導(dǎo)。Hill等學(xué)者(1989: 83—93)也曾指出,電子文字信息檢索系統(tǒng)必將替代紙質(zhì)詞典檢索。目前,對(duì)電子詞典檢索模式進(jìn)行分析的文章國(guó)內(nèi)僅有2004年源可樂(lè)的《詞典的突破——談?wù)劰獗P詞典的特殊檢索功能》一文,而國(guó)外也鮮有學(xué)者對(duì)電子詞典的檢索功能展開(kāi)探討。
電子詞典檢索功能不斷發(fā)展,除了早期就支持的對(duì)檢索框中輸入語(yǔ)言的自動(dòng)識(shí)別搜索、多語(yǔ)言互查、短語(yǔ)檢索等最基本的檢索功能外,近年來(lái)還發(fā)展出了多種便利、高效的檢索模式。因此,本文將對(duì)目前電子詞典的其他主要檢索功能做一個(gè)較為詳盡的綜合性分析,并對(duì)其未來(lái)發(fā)展做出一些構(gòu)想。
一、 電子詞典檢索模式綜合分析
目前,電子詞典已構(gòu)建了較為完備的檢索體系,為用戶提供多種非常實(shí)用的檢索功能,其科技化與人性化并重的多元檢索模式或路徑大大提高了詞典信息檢索的性能,為使用者提供了極大的便利。下面筆者將就這些方面對(duì)當(dāng)前的電子詞典檢索模式進(jìn)行綜合分析。
(一) 追蹤檢索與跨典檢索
追蹤檢索與跨典檢索是電子詞典使用頻率最高的兩大基本檢索功能與重要特色。
在電子詞典中,任何出現(xiàn)在釋義和例句中的單詞都是一個(gè)超鏈接,可以指向該單詞的詳細(xì)解釋,追蹤檢索技術(shù)就是基于這種可以通過(guò)程序自動(dòng)生成的單詞之間的超鏈接性。(孫東云,邱東林2009: 106—114)章宜華(2007: 1—13)也指出:“電子詞典實(shí)際上是由語(yǔ)言數(shù)據(jù)、相關(guān)語(yǔ)料和語(yǔ)言處理技術(shù)構(gòu)成的超文本語(yǔ)言文字信息框架?!睂W(xué)習(xí)者在查閱電子詞典中某個(gè)單詞的釋義和例句時(shí),如要對(duì)其中的相關(guān)目標(biāo)信息(如新詞等)繼續(xù)深入檢索,只需直接點(diǎn)擊即可跳轉(zhuǎn)到相應(yīng)詞條的正文,查詢完畢后按后退鍵就可退回到原先頁(yè)面,這就是追蹤檢索,亦可稱追加?xùn)嗽儭⑦B續(xù)查詢、交叉查詢或跳查。使用紙質(zhì)詞典時(shí),要滿足同樣的需求,使用者只能按照字母順序再次檢索單詞,這樣的重復(fù)操作費(fèi)時(shí)費(fèi)力;而這種詞與詞之間的互查功能優(yōu)勢(shì)突出,它可以幫助學(xué)習(xí)者按照語(yǔ)義關(guān)聯(lián)性或自己的興趣、思路而非線性順序去主動(dòng)、迅速查閱并習(xí)得更多詞匯,這無(wú)疑比紙質(zhì)詞典方便得多。這給詞典的使用方式開(kāi)辟了一個(gè)新途徑,也帶來(lái)了根本上的改變。(Aust Retal. 1993: 63—73)需要指出的是,這種追蹤查詢的檢索模式目前主要為計(jì)算機(jī)詞典、手機(jī)詞典及部分芯片型電子詞典(如卡西歐、步步高E900)所有,而大多數(shù)在線詞典與早期開(kāi)發(fā)的EBWIN等電子詞典則不具備這種超文本性檢索功能。
一部電子詞典往往收錄整合多部大型、權(quán)威詞典,包括綜合型(如《牛津高階英語(yǔ)詞典》《麥克米倫英語(yǔ)詞典》等)、專業(yè)型(如《金融和商業(yè)英語(yǔ)詞典》《計(jì)算機(jī)術(shù)語(yǔ)詞典》等)和百科型(如《英文維基百科》《神話百科全書》等)詞典。一些甚至可以收納上百部如巴比倫、靈格斯等PC版電子詞典,這是基于目前大部分電子詞典所具有的詞庫(kù)開(kāi)放性,即使用者可根據(jù)自身需求下載安裝詞典并自由設(shè)定其使用和排列方式。紙質(zhì)詞典和早期的電子詞典通常一次只能查一部詞典,而目前的電子詞典往往可以在同一界面上同時(shí)呈現(xiàn)數(shù)十部詞典關(guān)于某個(gè)詞語(yǔ)的釋義和例句,即實(shí)現(xiàn)了跨典檢索??绲錂z索實(shí)現(xiàn)了多部詞典內(nèi)容的完全共享,有效減少了檢索上的盲區(qū),擴(kuò)展了電子詞典的功能和范圍,顯然要比在多部紙質(zhì)詞典中查詢同一單詞或短語(yǔ)高效便捷得多,信息豐富得多。學(xué)習(xí)者若遇到不能確定意義的詞匯,就可以通過(guò)跨典檢索綜合參照對(duì)比這些詞典的相關(guān)釋義后做出恰當(dāng)選擇。同時(shí)在電子詞典中,上述追蹤檢索不但能直接鏈接至同一收錄詞典的某一相關(guān)單詞,而且還能直接鏈接至其他收錄該相關(guān)單詞的眾多詞典內(nèi),這又進(jìn)一步深化了對(duì)跨典檢索的具體應(yīng)用。
(二) 操作符檢索
操作符檢索,指査詢目標(biāo)詞語(yǔ)時(shí),若使用者記憶不清,只能確定其中部分,就可以借助電子詞典的各類邏輯運(yùn)算符和通配符來(lái)限定檢索范圍進(jìn)行模糊檢索,這些邏輯運(yùn)算符和通配符大都源自計(jì)算機(jī)程序中的通用操作符。電子詞典中的常用通配符包括:“?(問(wèn)號(hào))”——代表單個(gè)字符如一個(gè)任意英文字母或漢字;“*(星號(hào))”——代表任意長(zhǎng)度字符串,如一個(gè)或若干個(gè)任意英文字母或漢字。常用邏輯運(yùn)算符包括:“AND”——表示并列或需同時(shí)滿足的要求,即組成項(xiàng)必須要同時(shí)包含某些字符;“OR”——表示對(duì)所列條件滿足其一即可,即組成項(xiàng)中只要包含某個(gè)字符即可;“NOT”——表示排他性條件,指明確排除項(xiàng)即限定組成項(xiàng)中不出現(xiàn)某個(gè)字符,有時(shí)亦用“-(減號(hào))”表示。學(xué)習(xí)者在使用紙質(zhì)詞典時(shí),必須知曉目標(biāo)詞語(yǔ)的正確拼寫或構(gòu)成,否則很難查到,而電子詞典的操作符檢索功能使學(xué)習(xí)者在無(wú)法確認(rèn)詞目的確切構(gòu)成或?qū)υ~目沒(méi)有把握的情況下,依然可以利用操作符檢索到單詞。例如,若學(xué)習(xí)者對(duì)reconciliation一詞中到底是“e”還是“i”不確定,就可直接輸入通配符問(wèn)號(hào)替換得出結(jié)果,若對(duì)到底是“ci”“ce”還是“si”或“se”無(wú)法確定時(shí),則可直接輸入通配符星號(hào)替換來(lái)鎖定結(jié)果;若學(xué)習(xí)者對(duì)中文“一蹴而就”的“蹴”寫法不熟悉或只能確定“一……就”也可用此法解決其查詢問(wèn)題。同時(shí),這種操作符查詢檢索模式也有利于對(duì)同一類型的詞,尤其是相同詞根或詞綴的詞進(jìn)行歸類比較,例如學(xué)習(xí)者可輸入“*scibe”從而對(duì)含有-scibe 詞綴的英文單詞進(jìn)行歸納總結(jié),也可對(duì)相同構(gòu)式的詞組進(jìn)行查詢,如輸入“一?一?”就可以查出含有這種構(gòu)式的所有中文詞語(yǔ),如“一心一意”“一生一世”等。另外,字符串運(yùn)算符“+(加號(hào))”也會(huì)被用于電子詞典的操作符檢索,它是以中文的漢字或英文的單詞為基本單位,一般被用于查詢較長(zhǎng)的短語(yǔ)或句子,如輸入“踏破+10功夫”就可從全庫(kù)語(yǔ)料中查出“踏破鐵鞋無(wú)覓處,得來(lái)全不費(fèi)功夫”,或輸入“All work and no play+5”就可查出“All work and no play makes Jack a dull boy”。上述各種操作符可被組合起來(lái),通過(guò)設(shè)置更加多樣的檢索條件,從而更精確地得到所需要的查詢結(jié)果。例如,輸入“*day* AND *night*”,可以檢索到詞庫(kù)中包括day和night兩個(gè)詞的所有條目和例句,輸入“*old OR new trick*”,可以檢索到詞庫(kù)中包括old trick和new trick兩個(gè)詞的所有條目和例句。這種組合檢索方式可以在寫作中用來(lái)查詢某種概念的表達(dá)式,如想找夏天開(kāi)黃花的植物,就可輸入“*summer* AND *yellow flower*”,然后通過(guò)搜索到的釋義反查概念。目前,絕大部分計(jì)算機(jī)詞典、芯片詞典和網(wǎng)絡(luò)詞典都有這種操作符檢索功能。
(三) 修正檢索
修正檢索主要包括兩類——還原式檢索和糾錯(cuò)式檢索。其一,電子詞典為了更精確地查詢,在對(duì)用戶提交的查詢式進(jìn)行檢索時(shí)一般都會(huì)進(jìn)行預(yù)處理,即自動(dòng)識(shí)別并濾去詞形變化或屈折變化和詞綴,還原至目標(biāo)語(yǔ)的原形或標(biāo)準(zhǔn)形式,這就是還原式檢索,它主要適用于英語(yǔ)等具有詞形屈折變化的語(yǔ)言。電子詞典可以直接過(guò)濾屈折變化和詞綴等元語(yǔ)言知識(shí),如將resembling自動(dòng)還原成resemble,scarves還原成scarf,involved 還原成involve。學(xué)習(xí)者使用紙質(zhì)詞典查詢時(shí),由于語(yǔ)言知識(shí)和推導(dǎo)能力方面的局限,其去屈折變化和詞綴過(guò)程存在一定變數(shù),容易對(duì)生詞產(chǎn)生誤判,如遇到“considerable”時(shí)去查consider,遇到“cunning”時(shí)去查cun。電子詞典這種還原式檢索不僅能減少學(xué)習(xí)者對(duì)屈折變化和詞綴的誤判,也能減少學(xué)習(xí)者的認(rèn)知負(fù)荷。(De Schryver, Gilles-Maurice 2003: 134—199)其二,當(dāng)使用者輸入不夠準(zhǔn)確以致在詞庫(kù)中檢索不到目標(biāo)詞匯時(shí),電子詞典會(huì)自動(dòng)將糾錯(cuò)提示標(biāo)示出來(lái),并提供一組供用戶參考的拼寫建議,這就是糾錯(cuò)式檢索。一般而言,這組備選項(xiàng)與用戶輸入的查詢項(xiàng)很相似或接近,僅有少量詞語(yǔ)成分不同。在糾錯(cuò)建議的幫助下,使用者可以極大地節(jié)省自己的時(shí)間和精力,并獲得滿意的查詢結(jié)果。例如要查詢“expense”而錯(cuò)誤輸入“expence”時(shí),電子詞典即可提示出“expense”。目前,計(jì)算機(jī)詞典和網(wǎng)絡(luò)詞典一般都能夠輕松應(yīng)對(duì)“查無(wú)此詞”的情況,能提供對(duì)錯(cuò)詞的糾正建議,而芯片型電子詞典由于其硬件配置方面局限,一般不具備這種自動(dòng)糾錯(cuò)功能。除了根據(jù)詞形相似度糾錯(cuò)外,部分電子詞典還會(huì)基于Soundex或Metaphone 語(yǔ)音算法技術(shù),根據(jù)發(fā)音相似度給出近似輸入的選擇。(Phillips L. 1990: 39)如《柯林斯高級(jí)英語(yǔ)詞典(第五版)》光盤版以及微軟的英庫(kù)在線詞典等都具備中英文同音校正功能,此外英庫(kù)還能給出英文的近音詞,如欲查詢“peasant”而錯(cuò)誤輸入了“pesant”時(shí),英庫(kù)除了給出同音目標(biāo)詞“peasant”外,還會(huì)列出“pleasant”“present”等近音詞。需要指出的是,目前的在線詞典尤其是一些搜索引擎自帶的在線詞典,會(huì)結(jié)合對(duì)搜索引擎相關(guān)輸入查詢中糾錯(cuò)數(shù)據(jù)的統(tǒng)計(jì)分析,向使用者推薦一組高質(zhì)量的相關(guān)査詢匹配,供用戶參考,幫助用戶輕松地獲取滿意的檢索結(jié)果。
(四) 遞進(jìn)式檢索
當(dāng)電子詞典使用者輸入目標(biāo)語(yǔ)時(shí),輸入欄下方下拉選單會(huì)自動(dòng)出現(xiàn)可供選擇的詞匯提示滾動(dòng)列表,學(xué)習(xí)者可以直接從中點(diǎn)擊選取目標(biāo)詞匯,顯示窗就會(huì)出現(xiàn)關(guān)于該詞匯的詞條正文信息,這種自動(dòng)填充功能就是遞進(jìn)式檢索,亦稱接近性檢索。這些下拉選單中的詞匯一般按字母或拼音順序排列,隨著輸入信息的不斷增多,這種提示信息也會(huì)逐步減少,這使使用者能迅捷準(zhǔn)確地查找到目標(biāo)詞。目前大部分電子詞典均具備這種邊輸入邊檢索的查詢提示功能。如使用巴比倫詞典查詢“pleasure”時(shí),輸至“plea”時(shí),下拉選單中會(huì)出現(xiàn)“pleach”“plead”“please”等數(shù)十種選擇,而輸至“pleas”時(shí)就僅?!皃lease”“pleased”“pleasant”“pleasing”“pleasure”五個(gè)選項(xiàng),使用者可以很方便地選取目標(biāo)對(duì)象而無(wú)需繼續(xù)輸入。遞進(jìn)式檢索主要是基于輸入內(nèi)容與詞庫(kù)中目標(biāo)詞匯逐漸擴(kuò)大的相似度。還有一種特殊的遞進(jìn)式檢索模式,它是基于用戶在實(shí)際應(yīng)用中的査詢歷史記錄的數(shù)據(jù)庫(kù),在用戶輸入査詢條件時(shí),電子詞典按照以往的査詢條件自動(dòng)篩選并推薦給用戶一些匹配的選項(xiàng),從而促進(jìn)信息檢索的完成。如靈格斯詞典,它會(huì)自動(dòng)為本地使用者的査詢歷史建立一個(gè)本地?cái)?shù)據(jù)庫(kù),并依據(jù)該歷史記憶處理后續(xù)相應(yīng)的詞匯擴(kuò)展以便于該特定用戶的二次查詢。大部分在線詞典則會(huì)基于所有用戶及具體使用者歷史查詢行為的統(tǒng)計(jì)分析(如查詢?cè)~共現(xiàn)概率、查詢者興趣學(xué)科歸類等),為使用者提供更為個(gè)性化、更為有效的信息檢索指導(dǎo)或查詢擴(kuò)展。目前,大部分電子詞典都將歷史性檢索融入普通遞進(jìn)式檢索,且將歷史性檢索置于普通遞進(jìn)式檢索結(jié)果之前,如用百度在線詞典以未登錄身份查詢“plateau”一詞,當(dāng)輸入“pl”時(shí),下拉列表前面依次出現(xiàn)“plot”“plug”“plum”“plaza”這些被檢索頻率較高的詞,其后才是按照字母順序排列的“PLA”“place”等詞??梢?jiàn),通過(guò)遞進(jìn)式檢索,使用者更容易得到符合自身查詢意圖的檢索結(jié)果。
(五) 發(fā)音檢索
除了通過(guò)詞形檢索之外,語(yǔ)音檢索也為電子詞典提供了新穎的檢索途徑。發(fā)音檢索主要包括音標(biāo)輸入檢索與語(yǔ)音輸入檢索。首先,音標(biāo)輸入檢索是指通過(guò)在電子詞典中鍵入目標(biāo)詞的音標(biāo)檢索到相關(guān)詞目,它主要針對(duì)英文的查詢檢索。目前具備音標(biāo)輸入檢索的電子詞典不多,主要限于發(fā)音詞典的電子版,如《劍橋英語(yǔ)發(fā)音詞典(光盤版)》《朗文發(fā)音詞典(光盤版)》等。這些發(fā)音詞典將英語(yǔ)中所有的單元音、雙元音、輔音等分別羅列出來(lái)并做成按鈕形式,使用者只需按順序?qū)⒁魳?biāo)點(diǎn)擊輸入進(jìn)去就可查到符合該讀音的詞,例如輸入 /w/+/e/+//+//就可檢索出weather與whether兩個(gè)單詞。音標(biāo)輸入檢索都支持通配符“*(星號(hào))”檢索功能,使用者對(duì)不清楚或模糊的語(yǔ)音可用其代替進(jìn)行檢索,如輸入/d/+/i/+*+/?/+//+/s/就可檢索出delicious一詞。另外,英庫(kù)在線詞典為不懂英語(yǔ)音標(biāo)的使用者開(kāi)發(fā)了一種基于字母直接拼讀的輸入檢索模式,即使用者可以輸入與英語(yǔ)發(fā)音相近的漢語(yǔ)拼音代碼,如輸入“mao-si(音節(jié)處加上連接符)”,英庫(kù)詞典就可自動(dòng)給出與該拼音相似的英文單詞“mouse”。其次,語(yǔ)音輸入檢索是指一些電子詞典融入了目前剛剛流行起來(lái)的語(yǔ)音輸入技術(shù),如有道詞典手機(jī)版、金山詞霸手機(jī)版等,其界面上一般有錄音話筒標(biāo)志,點(diǎn)擊之后,進(jìn)入錄音狀態(tài),使用者錄音完畢之后電子詞典就會(huì)自動(dòng)識(shí)別檢索。由于目前智能手機(jī)語(yǔ)音識(shí)別技術(shù)的軟硬件配套均較完備,所以為其開(kāi)發(fā)的手機(jī)詞典有不少融入了語(yǔ)音輸入檢索功能,而電腦端詞典大多尚未融入此功能,但用戶可單獨(dú)下載安裝語(yǔ)音輸入軟件并配備語(yǔ)音輸入設(shè)備后將其作為附加功能使用。發(fā)音檢索使查詢方式更加靈活和全面,它使使用者在學(xué)習(xí)過(guò)程中,尤其是學(xué)習(xí)外語(yǔ)的過(guò)程中(如聽(tīng)廣播、觀看外語(yǔ)影視節(jié)目等)可以通過(guò)把握一個(gè)陌生語(yǔ)詞的發(fā)音進(jìn)而查到其含義,從而避免了按單詞發(fā)音猜拼寫這種傳統(tǒng)方法帶來(lái)的低效率。語(yǔ)音檢索將成為電子詞典檢索的一個(gè)新亮點(diǎn)。
(六) 提取式檢索
除了傳統(tǒng)拼寫檢索(包括鍵盤/虛擬鍵盤拼寫、復(fù)制粘貼和手寫輸入)以及發(fā)音檢索方式外,電子詞典還支持提取式檢索。最先出現(xiàn)的提取式檢索是屏幕取詞檢索,又稱“鼠標(biāo)取詞檢索”或“即指即查”等,指使用者可以實(shí)現(xiàn)對(duì)屏幕上任意位置的詞匯進(jìn)行實(shí)時(shí)抓取與檢索,包括文檔、圖片、瀏覽器頁(yè)面、軟件界面、flash動(dòng)畫等的文字內(nèi)容,即將光標(biāo)定位到該單詞所在處便可查詢到該詞的釋義和用法。目前大部分具有該功能的電子詞典(如必應(yīng)詞典桌面版、金山詞霸PC版等)仍主要借助Windows操作系統(tǒng)的hook(鉤子)技術(shù)及API攔截技術(shù)等在Windows環(huán)境下實(shí)現(xiàn)屏幕取詞檢索,但該檢索模式局限性較為明顯,即僅適用于Windows操作系統(tǒng)的電子詞典及檢索處理結(jié)果還受文檔加密等因素影響。目前隨著OCR(光學(xué)識(shí)別)技術(shù)的普及與推廣,它也正被逐漸融入電子詞典檢索技術(shù)中,如有道詞典就加入OCR檢索模塊,該檢索模式的優(yōu)勢(shì)就在于其擺脫了前者的限制因素。此外,伴隨著智能移動(dòng)終端(如智能手機(jī)、平板電腦)的普及運(yùn)用,另一種全新的提取式檢索——攝像頭取詞檢索也應(yīng)運(yùn)而生。由于智能手機(jī)普遍配備了自動(dòng)對(duì)焦攝像頭,一些手機(jī)電子詞典借助此功能加上OCR技術(shù),開(kāi)發(fā)出了攝像頭取詞檢索功能,如北京文通科技有限公司開(kāi)發(fā)的基于安卓平臺(tái)的慧視手機(jī)詞典,使用者只需將手機(jī)攝像頭對(duì)準(zhǔn)或掃一下目標(biāo)詞即可實(shí)時(shí)檢索,這種檢索基本不受目標(biāo)詞載體所限制,不管目標(biāo)詞出現(xiàn)在紙質(zhì)書籍、電腦屏幕、標(biāo)示牌抑或其他介質(zhì)上。市場(chǎng)上還出現(xiàn)了一種掃譯筆,如蒙恬掃譯筆、QuickLink-Pen Elite電子掃譯筆和漢王速錄翻譯筆等,其實(shí)質(zhì)也是一種提取式檢索的電子詞典,它們也是借助光學(xué)掃描設(shè)備和OCR技術(shù)實(shí)現(xiàn)檢索,但其局限性比較明顯,即僅適用于印刷文本。另外,提取式檢索除了使使用者免于輸入詞匯,還能自動(dòng)識(shí)別處理短語(yǔ),如使用金山詞霸或巴比倫對(duì)“regard”一詞進(jìn)行提取式檢索,而該詞前后分別為“with”和“to”,那么當(dāng)光標(biāo)置于regard位置或點(diǎn)擊該詞時(shí),詞典會(huì)直接識(shí)別并查詢出該詞組,而非先進(jìn)入regard一詞的整個(gè)釋義。提取式檢索功能符合數(shù)字化環(huán)境下使用者的學(xué)習(xí)習(xí)慣,較大地提高了查詞效率,因而在電子詞典中得到廣泛的應(yīng)用。
(七) 語(yǔ)義聯(lián)想檢索
若學(xué)習(xí)者對(duì)檢索目標(biāo)詞匯只知概念含義,卻不知其詞形與發(fā)音時(shí),也可以通過(guò)一些電子詞典提供的語(yǔ)義聯(lián)想檢索功能,根據(jù)意義相關(guān)的詞匯檢索到其目標(biāo)詞,這就是語(yǔ)義聯(lián)想檢索。最早提供這種語(yǔ)義聯(lián)想檢索功能的是普林斯頓大學(xué)心理學(xué)家、語(yǔ)言學(xué)家和計(jì)算機(jī)工程師聯(lián)合開(kāi)發(fā)的一種基于認(rèn)知科學(xué)的WordNet,該研究型電子詞典實(shí)質(zhì)上就是一個(gè)覆蓋范圍寬廣的英語(yǔ)詞匯語(yǔ)義網(wǎng),它將語(yǔ)義作為其組織與檢索原則,使用者通過(guò)它可集中査詢某一語(yǔ)義場(chǎng)下所有相關(guān)單詞即同義詞、上位詞或者下位詞等。隨后,一些學(xué)習(xí)型電子詞典也采用了這種語(yǔ)義聯(lián)想檢索功能,如《牛津英語(yǔ)聯(lián)想詞典(光盤版)》《麥克米倫高階英語(yǔ)詞典(光盤版)》《朗文英語(yǔ)聯(lián)想活用詞典(光盤版)》等,它們大都為這種語(yǔ)義聯(lián)想檢索設(shè)置了專門的類義詞詞庫(kù)(即與目標(biāo)詞同一個(gè)語(yǔ)義場(chǎng)的相關(guān)詞語(yǔ)庫(kù)),將英語(yǔ)詞匯按意義歸類,雖然涵蓋范圍不及WordNet,但它們也搭建起了一定規(guī)模的以同義關(guān)系為中心角色的語(yǔ)義互連輻射網(wǎng)。如使用者欲查詢某種顏色的英文,自己未掌握但同時(shí)手頭的漢英詞典又查詢無(wú)果時(shí),可以在語(yǔ)義聯(lián)想型電子詞典中輸入“color”,其類義詞詞庫(kù)就會(huì)顯示出數(shù)十余種顏色的英文單詞,使用者可以通過(guò)追蹤檢索這些單詞的具體含義,從而做出正確選擇。再如,使用者若在翻譯或?qū)懽髦袑?duì)選擇“咆哮”的英文對(duì)應(yīng)詞沒(méi)有把握,便可輸入“shout”通過(guò)語(yǔ)義聯(lián)想檢索查找出“roar”“yell”“bawl”“bellow”等相關(guān)表達(dá)式,進(jìn)而可基于此做出辨析選擇。可見(jiàn),這種以義聚類的語(yǔ)義聯(lián)想檢索模式符合使用者的認(rèn)知規(guī)律與習(xí)慣,為使用者理解掌握詞匯提供了相當(dāng)?shù)谋憷c支持。
(八) 通庫(kù)例句檢索
通庫(kù)例句檢索是指電子詞典利用數(shù)據(jù)挖掘技術(shù)(通常是以Lucene開(kāi)源全文檢索引擎作為后臺(tái)檢索模塊),實(shí)現(xiàn)在整個(gè)詞庫(kù)文本中對(duì)涉及某個(gè)特定單詞、詞組或其他表達(dá)式的集中式例句檢索,即使用者只需輸入一個(gè)單詞、詞組或其他表達(dá)式,電子詞典就會(huì)自動(dòng)把含有該單詞、詞組的例句無(wú)一遺漏地搜索顯示出來(lái),其實(shí)質(zhì)是一種語(yǔ)料庫(kù)索引。例如,使用者只需在巴比倫詞典例句檢索框中輸入“undertake”一詞,電子詞典就會(huì)把詞庫(kù)中所有包含“undertake”一詞的例句顯示(如《英漢大詞典》中找到28例、《牛津搭配詞典》25例等)并高亮顯示關(guān)鍵詞,這是紙質(zhì)詞典無(wú)法做到的。此外,操作符檢索也常常被融入全庫(kù)檢索中,如用戶輸入“growth AND economy”可檢索到詞庫(kù)語(yǔ)料中所有包含這二者的內(nèi)容。大部分計(jì)算機(jī)詞典(如《牛津高階英漢雙解詞典(光盤版)》、金山詞霸)和部分芯片型電子詞典(如卡西歐EW-V2800H)具有通庫(kù)例句檢索功能。通庫(kù)例句檢索使電子詞典實(shí)現(xiàn)了詞目和詞條內(nèi)容的雙向査找,使詞庫(kù)信息得到了充分有效的利用,例句的集中顯示讓使用者能接觸到目標(biāo)表達(dá)式的更多實(shí)例與共現(xiàn)規(guī)律、豐富語(yǔ)境和文化信息,其感性認(rèn)識(shí)與語(yǔ)用知識(shí)會(huì)被進(jìn)一步加強(qiáng)與擴(kuò)充。若詞庫(kù)中包含雙語(yǔ)或雙解詞典,那么對(duì)其高質(zhì)量語(yǔ)料庫(kù)的通庫(kù)檢索也將會(huì)對(duì)積極言語(yǔ)活動(dòng)如翻譯、寫作產(chǎn)生很好的指導(dǎo)作用,使雙解詞典產(chǎn)生逆向效應(yīng),如英漢詞典反過(guò)來(lái)就成了內(nèi)容豐富的漢英詞典。
(九) 網(wǎng)絡(luò)釋義檢索
網(wǎng)絡(luò)釋義檢索功能指利用強(qiáng)大的搜索引擎后臺(tái)及先進(jìn)的網(wǎng)頁(yè)萃取等技術(shù)從海量的網(wǎng)頁(yè)數(shù)據(jù)資源中抓取提煉大量平行語(yǔ)料,并根據(jù)其在不同網(wǎng)頁(yè)中的共現(xiàn)頻次、網(wǎng)頁(yè)可靠度等來(lái)縝密分析判定相關(guān)表達(dá)式的最佳、最精準(zhǔn)的語(yǔ)義匹配關(guān)系,從而自動(dòng)生成一個(gè)龐大的、自動(dòng)實(shí)時(shí)更新的動(dòng)態(tài)詞庫(kù)。人類語(yǔ)言不斷發(fā)展變化,文化交流和信息社會(huì)的發(fā)展更是大大推動(dòng)了新表述的產(chǎn)生,僅網(wǎng)絡(luò)上每天就有數(shù)十個(gè)新詞產(chǎn)生,因此無(wú)論質(zhì)量多高、詞庫(kù)多大的詞典都難以涵蓋所有這些信息,即使是更新速度最快的在線詞典詞庫(kù)搜集新詞也需要一定的更新時(shí)間,因此網(wǎng)絡(luò)釋義檢索功能主要是針對(duì)那些電子詞典本地離線詞庫(kù)或在線詞庫(kù)均尚未收錄的各類詞匯或新用法等,提供及時(shí)、強(qiáng)大的網(wǎng)絡(luò)詞庫(kù)補(bǔ)充與支持。有道詞典率先推出了網(wǎng)絡(luò)釋義檢索功能,它利用有道搜索引擎對(duì)數(shù)十億網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)挖掘和技術(shù)分析,獲取了大量存在于網(wǎng)絡(luò),但普通詞典中查找不到的流行詞匯、外文名稱和縮寫,包括很多影視作品名稱、品牌名稱、名人姓名、地名、專業(yè)術(shù)語(yǔ)等。隨后,愛(ài)詞霸、海詞、QQ云詞典、必應(yīng)詞典等也相繼推出了網(wǎng)絡(luò)釋義檢索功能,實(shí)現(xiàn)了同步搜索互聯(lián)網(wǎng)上出現(xiàn)的新鮮表述,及時(shí)反映了新詞語(yǔ)和新用法。如IMHO這一網(wǎng)絡(luò)熱詞,在現(xiàn)有普通離線詞庫(kù)或在線詞庫(kù)均無(wú)法查到,而在必應(yīng)詞典中輸入后直接就跳出了網(wǎng)絡(luò)釋義檢索結(jié)果“依本人愚見(jiàn)(In My Humble Opinion);以我個(gè)人的淺見(jiàn)而言;依愚人之見(jiàn)”,必應(yīng)詞典中其他詞典也均未顯示任何結(jié)果。同樣,若在有道詞典中輸入“腐女”一詞,顯示出來(lái)的僅有網(wǎng)絡(luò)釋義檢索結(jié)果“英語(yǔ): Yaoi fandom;日語(yǔ): 腐女子;法語(yǔ): Fujoshi”??梢?jiàn),網(wǎng)絡(luò)釋義檢索功能具有很強(qiáng)的實(shí)用性,它也將成為大數(shù)據(jù)和云計(jì)算環(huán)境下電子詞典的重要特色之一。
二、 電子詞典檢索模式的發(fā)展構(gòu)想
目前的電子詞典檢索技術(shù)雖然已經(jīng)比較成熟,但仍有待改進(jìn)與提升之處。筆者下面就這些方面對(duì)未來(lái)電子詞典的發(fā)展提出一些構(gòu)想與建議。
(一) 多媒體數(shù)據(jù)檢索
信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展大大推動(dòng)了多媒體數(shù)據(jù)的產(chǎn)生、傳播和存儲(chǔ)。面對(duì)海量的多媒體數(shù)據(jù),智能的多媒體數(shù)據(jù)處理技術(shù)已成為信息科學(xué)的一個(gè)重要研究課題。由于多媒體數(shù)據(jù)能生動(dòng)形象地體現(xiàn)語(yǔ)言的語(yǔ)用性,在電子詞典領(lǐng)域,借助網(wǎng)絡(luò)大量的音視頻構(gòu)建多媒體詞庫(kù)也必將成為發(fā)展趨勢(shì),即通過(guò)相關(guān)音視頻材料對(duì)目標(biāo)詞進(jìn)行釋義和例句展示。因此,如何對(duì)這些多媒體數(shù)據(jù)進(jìn)行檢索也必將成為重要的研究課題。電子詞典用戶必然希望能像文本檢索一樣檢索音視頻文檔并找到感興趣的信息。相比于音視頻數(shù)據(jù)而言,文本式數(shù)據(jù)更具可把握性。因此,對(duì)于多媒體詞庫(kù)的檢索,筆者認(rèn)為基于語(yǔ)音輸入的內(nèi)部轉(zhuǎn)換機(jī)制將成為解決音視頻檢索的主要途徑之一,即電子詞典通過(guò)內(nèi)置的語(yǔ)音輸入設(shè)備自動(dòng)為音視頻文檔添加對(duì)應(yīng)文本,這樣對(duì)音視頻的檢索實(shí)質(zhì)上就轉(zhuǎn)換為了對(duì)文本的檢索。當(dāng)然,對(duì)于多媒體詞庫(kù),詞庫(kù)構(gòu)建者也可以在構(gòu)建之初就為其中的音視頻文檔配備對(duì)應(yīng)的電子文本文檔,但是在大數(shù)據(jù)的環(huán)境下,筆者認(rèn)為要構(gòu)建大規(guī)模的多媒體詞庫(kù),這種模式顯然費(fèi)時(shí)費(fèi)力,難以跟上數(shù)據(jù)發(fā)展要求。常規(guī)的語(yǔ)音識(shí)別(如語(yǔ)音輸入檢索中的語(yǔ)音識(shí)別)是人直接與機(jī)器的交流,語(yǔ)音的速度通常為正常語(yǔ)速甚至略慢,若說(shuō)話者語(yǔ)速過(guò)快,語(yǔ)音識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確度就會(huì)降低。因此,對(duì)于電子詞典內(nèi)置的以音視頻文檔作為識(shí)別音源的語(yǔ)音識(shí)別應(yīng)具備目前許多視頻播放器具備的變速不變調(diào)的性能,即能做到對(duì)目標(biāo)降速不變調(diào),從而確保語(yǔ)音識(shí)別的準(zhǔn)確度。另外,鑒于目前國(guó)內(nèi)外字幕影視的迅猛發(fā)展,電子詞典未來(lái)的多媒體數(shù)據(jù)詞庫(kù)也可與其結(jié)合,依據(jù)從字幕影視中提取出來(lái)的字幕進(jìn)行檢索,這樣也會(huì)非常便利。
(二) 檢索結(jié)果的聚類排序
檢索結(jié)果的聚類排序?qū)﹄娮釉~典未來(lái)的發(fā)展也相當(dāng)重要。首先,目前電子詞典中的義項(xiàng)排列仍主要參照紙質(zhì)詞典,要么主要遵循歷史發(fā)展原則,即按詞義發(fā)展的先后大體時(shí)間順序或詞義歷史演變過(guò)程編排詞條的各個(gè)義項(xiàng)(如《韋氏新世界詞典(第三版)》《牛津英語(yǔ)大詞典(第二版)》等),要么遵循邏輯聯(lián)系,即把關(guān)聯(lián)義項(xiàng)按與本義的聯(lián)系緊密程度排列(如《美國(guó)傳統(tǒng)詞典》《美國(guó)傳統(tǒng)學(xué)生詞典》等),要么遵循使用頻率原則,即按常用性或使用頻度由高到低排列義項(xiàng)(如《朗文當(dāng)代英語(yǔ)詞典(第三版)》《簡(jiǎn)明牛津詞典(第七版)》等)。這三種義項(xiàng)排列一旦確定就基本固定不變。雖然三者優(yōu)勢(shì)都很明顯,但也都存在不足,如遵循歷史發(fā)展原則的詞典中,有的目標(biāo)義項(xiàng)雖然常用,卻排在諸多古舊廢棄義項(xiàng)后,這就會(huì)大大降低詞典的查詢效率;遵循邏輯聯(lián)系會(huì)造成對(duì)語(yǔ)言實(shí)際使用情況的忽視;遵循使用頻率原則就會(huì)造成對(duì)邏輯聯(lián)系的忽視,不利于使用者對(duì)詞項(xiàng)各義項(xiàng)的理解和記憶,當(dāng)然三者之間也存在一定程度的重合。義項(xiàng)排列在詞典學(xué)界歷來(lái)是個(gè)大難題,筆者認(rèn)為未來(lái)的電子詞典可以借助設(shè)立二次檢索功能使使用者對(duì)義項(xiàng)排列自行選擇(如淘寶購(gòu)物選項(xiàng)排序一樣),即通過(guò)融合三大排序原則來(lái)滿足不同學(xué)習(xí)者對(duì)義項(xiàng)檢索的要求。其次,例句的優(yōu)選排列。電子詞典由于其數(shù)據(jù)載體的特殊性,其所承載的數(shù)據(jù)信息量極其龐大,這突出體現(xiàn)在其例句的翔實(shí)方面,但這也會(huì)給使用者造成例句選擇上的困惑與麻煩,因此,未來(lái)電子詞典必須建立一定的例句篩選功能,即學(xué)習(xí)者可以根據(jù)自身水平、學(xué)科范圍、所含目標(biāo)詞匯語(yǔ)法類別和使用區(qū)域(如澳大利亞、美國(guó))等通過(guò)電子詞典的二次檢索從例句信息庫(kù)中篩選出相應(yīng)難度、對(duì)應(yīng)語(yǔ)域中最切合自身需求的例句,當(dāng)然詞典用戶還可以結(jié)合其他要素設(shè)定更為復(fù)雜、靈活的例句綜合檢索系統(tǒng)。這種個(gè)性化分級(jí)分類優(yōu)選模式可以加強(qiáng)與用戶的互動(dòng),將是印刷型辭書固定式例句呈現(xiàn)所無(wú)法企及的。
此外,需要補(bǔ)充的是,目前一些檢索功能并未在所有電子詞典中普及,所以如何將這些優(yōu)勢(shì)很好地融合在一起進(jìn)行深層次的開(kāi)發(fā)與利用,也將是電子詞典發(fā)展中的一個(gè)重大問(wèn)題。
三、 結(jié)語(yǔ)
電子詞典是現(xiàn)代科技與傳統(tǒng)詞典編輯相結(jié)合的產(chǎn)物,是一種具有革命性意義的詞典形式、學(xué)習(xí)工具,它具有廣泛的發(fā)展前景和潛力, 它是信息時(shí)代中非常重要且必不可少的詞典形式。現(xiàn)代科技有力地推動(dòng)了電子詞典的發(fā)展,但電子詞典不是紙質(zhì)詞典的簡(jiǎn)單翻版,它除了利用數(shù)字介質(zhì)的特點(diǎn)來(lái)承載數(shù)據(jù)信息外,更是充分發(fā)揮了數(shù)字技術(shù)強(qiáng)大的檢索功能和優(yōu)勢(shì),使詞典單一的線性檢索方式發(fā)生了深刻變革,不斷朝智能化、多元化、個(gè)性化、層次化方向發(fā)展,從而實(shí)現(xiàn)與數(shù)字化潮流、大數(shù)據(jù)環(huán)境的高度兼容。本文重點(diǎn)綜述了近年來(lái)產(chǎn)生的電子詞典特有的主要檢索模式,對(duì)其做了一個(gè)較為系統(tǒng)的定義歸納與分析,同時(shí)針對(duì)現(xiàn)有的不足探討了對(duì)未來(lái)電子詞典檢索模式的一些構(gòu)想,希望能為電子詞典檢索系統(tǒng)的優(yōu)化研究提供一個(gè)良好的開(kāi)端,同時(shí)也希望對(duì)電子詞典用戶在查詢活動(dòng)中最大限度地利用現(xiàn)有資源起到一定的促進(jìn)作用。
參考文獻(xiàn)
1. 孫東云,邱東林.電子詞典的超文本性與詞匯直接學(xué)習(xí).辭書研究,2009(5).
2. 源可樂(lè).詞典的突破——談?wù)劰獗P詞典的特殊檢索功能.辭書研究,2004(1).
3. 章宜華.關(guān)于計(jì)算詞典學(xué)理論框架的探討.辭書研究,2007(6).
4. Aust R, Kelley M J, Roby W. The Use of Hyper-reference and Conventional Dictionaries.EducationalTechnology,ResearchandDevelopment, 1993(41/4).
5. De Schryver, Gilles-Maurice. Lexicographers’ Dreams in the Electronic Dictionary Age.InternationalJournalofLexicography, 2003(2).
6. Dodd S. Lexicomputing and the Dictionary of the Future.LexicographersandTheirWorks, 1989(6).
7. Hartmann R R K, James G.DictionaryofLexicography.北京: 外語(yǔ)教學(xué)與研究出版社,2000.
8. Landau S I.Dictionaries: The Art and Craft of Lexicography.Cambridge:CambridgeUniversityPress, 2001.
9.PhillipsL.HangingontheMetaphone. Computer Language, 1990(7).
10.WrightJ. Dictionaries.Oxford:OxfordUniversityPress, 1998.
(王懌旦三江學(xué)院外國(guó)語(yǔ)學(xué)院江蘇210012)
(張雪梅南京林業(yè)大學(xué)外國(guó)語(yǔ)學(xué)院江蘇210042)
(責(zé)任編輯李瀟瀟)
*本文得到江蘇省高校優(yōu)秀中青年教師境外研修項(xiàng)目、國(guó)家社科基金項(xiàng)目 (11BYY116)和教育部社科基金項(xiàng)目(13YJA740038)的資助。