国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

配例查重技術(shù)在辭書編纂中的應(yīng)用

2019-12-09 01:54李蕓
辭書研究 2019年6期

李蕓

摘 要 為了更好地配合辭書編修工作,作者開發(fā)了配例查重系統(tǒng),對通行的現(xiàn)代漢語辭書進(jìn)行了試查重;基于統(tǒng)計(jì)數(shù)據(jù),定義了辭書的配例參配度、配例重合度、重合配例擴(kuò)散度三項(xiàng)指標(biāo);其數(shù)據(jù)結(jié)果能為研究配例重合、統(tǒng)籌選擇配例提供便利;該項(xiàng)計(jì)算機(jī)應(yīng)用技術(shù)可以從多方面提取辭書的配例信息,形成配例數(shù)據(jù)庫;既能對單部辭書進(jìn)行自身配例查重,也能對多部辭書進(jìn)行配例比對。文章介紹了該項(xiàng)配例系統(tǒng)在辭書編纂中的應(yīng)用,探討了其中的難點(diǎn)問題,認(rèn)為: 該系統(tǒng)仍需不斷改進(jìn)完善;更加理想的配例查重軟件,需要計(jì)算機(jī)軟件開發(fā)者與辭書編修者更緊密的合作;應(yīng)當(dāng)盡快研究解決計(jì)算機(jī)辭書編修平臺(tái)的瓶頸障礙,把依賴人工干預(yù)的工作量降低到最小,以真正實(shí)現(xiàn)包括配例查重系統(tǒng)在內(nèi)的辭書編修平臺(tái)的計(jì)算機(jī)化。

關(guān)鍵詞 配例查重 辭書編纂 程序研制

一、 引言

釋義在辭書中占主體地位,配例也起到非常重要的擴(kuò)展作用,特別在詞匯使用方面提供具體而鮮活的應(yīng)用實(shí)例。《〈現(xiàn)代漢語詞典〉編寫細(xì)則》(修訂稿)認(rèn)為:“舉例的作用是補(bǔ)釋義之不足。”

在詞典的修訂過程中,發(fā)現(xiàn)一些配例重出的現(xiàn)象,即一個(gè)配例不僅在甲條作為配例,也在乙條做了配例。比如,《現(xiàn)代漢語詞典》(以下簡稱《現(xiàn)漢》)第6版中,重合的配例有: 披星戴月,分別在“戴”和“披”字條中做比喻配例;“崇洋媚外”,分別在【崇洋】和【媚外】中做配例;“險(xiǎn)象環(huán)生”,分別在【險(xiǎn)象】和【環(huán)生】中做配例;“春意盎然”,分別在【春意】和【盎然】中做配例;“海內(nèi)存知己,天涯若比鄰”,分別在【比鄰】和【知己】中做配例。以上配例涵蓋了單字條目、單義項(xiàng)多字條目、多義項(xiàng)多字條目等情況。

戴 ……① 動(dòng) 把東西放在頭、面、頸、胸、臂等處: ~帽子|~花|~眼鏡|~紅領(lǐng)巾◇披星~月|不共~天?!?/p>

披 ……① 動(dòng) 覆蓋或搭在肩背上: ~甲|~著斗篷|~紅掛綠◇~星戴月?!?/p>

【崇洋】 ……動(dòng) 崇拜外國: 盲目~|~媚外|~思想。

【媚外】 ……動(dòng) 對外國奉承巴結(jié): 崇洋~。

【險(xiǎn)象】 ……名 危險(xiǎn)的情形: ~環(huán)生。

【環(huán)生】 ……動(dòng) 一個(gè)接一個(gè)地發(fā)生: 險(xiǎn)象~。

【春意】 ……名 ① 春天的跡象或情景: ~盎然|樹梢發(fā)青,已經(jīng)現(xiàn)出了幾分~。……

【盎然】 ……形 形容氣氛、趣味等洋溢的樣子: 春意~|趣味~。

【比鄰】 ……① 〈書〉名 近鄰;街坊: 海內(nèi)存知己,天涯若~?!?/p>

【知己】 ……② 名 彼此相互了解而情誼深切的人: 海內(nèi)存~,天涯若比鄰。

此項(xiàng)配例查重系統(tǒng)能窮盡式地檢查全書配例重合情況,為辭書配例的研究改進(jìn)提供方便。

二、 配例查重系統(tǒng)的主要功能和樣例

為了全面了解配例重合的數(shù)量和分布情況,我們開發(fā)了配例查重系統(tǒng),對幾本重要的辭書進(jìn)行了試查重。查重結(jié)果的統(tǒng)計(jì)和分析見第三節(jié)。

配例查重系統(tǒng)的主要功能是: 可以在單部辭書內(nèi),查出所有重合的配例;可以查出辭書的兩個(gè)版本之間所有重合的配例;可以查出兩部不同辭書之間所有重合的配例。

(一) 單個(gè)條目中所有配例的提取

比如,《現(xiàn)漢》第6版條目“百”下有10個(gè)配例,利用配例提取軟件,按照釋義的順序,從左到右,依次從各個(gè)義項(xiàng)中提取配例,同時(shí)將“~”替換為字頭字。配例按照原條目中的出現(xiàn)先后進(jìn)行排列,每個(gè)配例后附帶原條目內(nèi)容。見表1。

? 對于多字條目,配例提取方法同單字條目,不同的只是將波浪線“~”替換為魚尾號(hào)“【】”內(nèi)的詞目。因?yàn)閷τ诔绦騺碚f,需要給它明確無誤的指令。比如,【爭鳴】的配例提取見表2。

? (二) 整部辭書所有配例的提取

可對一部詞典內(nèi)的所有條目進(jìn)行遍歷[1],依次提取每個(gè)條目的所有配例,輸出整部辭書的所有配例,形成一個(gè)文件,供進(jìn)一步處理和分析使用。

(三) 單部辭書內(nèi)重合配例的提取

在整部詞典的所有配例的基礎(chǔ)上,通過配例的排序,找到相鄰重合的配例并提取出來,按照條目音序排列。比如,重合配例“百家爭鳴”的提取,見表3?!鞍偌覡庿Q”,出現(xiàn)在“百”“家”“鳴”“【爭鳴】”四個(gè)條目中。

? (四) 兩部辭書之間重合配例的提取和比對

兩部辭書之間重合配例的提取,比單部辭書要復(fù)雜一些,需要編制兩部辭書配例(兩個(gè)列表)的比對程序,得出重合的列表,再編制匹配程序,分別從兩部辭書中匹配配例所在的原條目。比如兩部辭書(表4中的“辭書甲”和“辭書乙”是兩部辭書的化名)之間的其中兩個(gè)重合配例“人情來往少不得要花些錢”和“這幅畫少說值100萬”的樣例,見表4。

? (五) 配例數(shù)據(jù)的統(tǒng)計(jì)

可針對不同的目的,對提取的配例、重合配例等進(jìn)行各種統(tǒng)計(jì)。統(tǒng)計(jì)和分析見第三節(jié)。

比如,單部辭書的配例數(shù)量、配例長度、位置(首、中、末)分布、重合次數(shù)、占比等。兩部辭書及多部辭書之間這些統(tǒng)計(jì)量的比較。

(六) 近似配例的提取

上文所說的重合配例是指組成配例的字符串完全相同。但也有近似相同的配例,有時(shí)需要考慮。比如,“知其然,不知其所以然”與“知其然而不知其所以然”,分別在“然”和【所以然】條目下做例,見表5。這兩個(gè)配例只有逗號(hào)“,”和“而”一字不同,屬于近似配例,我們的配例查重系統(tǒng)也能識(shí)別并提取出來。

? 此外,兩個(gè)字符串在字?jǐn)?shù)上相同,只不過個(gè)別字詞換了位置,這種順序略有調(diào)換的近似配例我們同樣能識(shí)別并提取。比如,“紙屑拋撒一地”在【拋撒】下,“紙屑撒了一地”在“撒”條下,見表6。

? 此查重程序也能將“這幅畫少說值100萬”和“這幅畫少說值一百萬”作為近似配例查出來,同樣能識(shí)別這個(gè)例句的其他相近變體。

單部辭書內(nèi)的近似配例能夠提取,同樣,兩部辭書之間的相似配例也能提取并比對。進(jìn)而,進(jìn)行多種統(tǒng)計(jì)量的計(jì)算。

(七) 辭書配例與辭書詞目的比對

可檢查單個(gè)配例或成組配例是否在本詞典中出條,甚至整部辭書的配例和詞目總表比對;列出哪些已出條,統(tǒng)計(jì)出數(shù)量和分布情況等。比如:

拜 ……① 動(dòng) 行禮表示敬意: 回~|叩~|對著遺像~了三拜。② 見面行禮表示祝賀: ~年|~壽。③ 動(dòng) 拜訪: 新搬來的那對夫婦~街坊來了。④ 用一定的禮節(jié)授予某種名位或官職: ~相|~將。⑤ 動(dòng) 結(jié)成某種關(guān)系: ~師|~把子。⑥ 敬辭,用于人事往來: ~托|~領(lǐng)(收下贈(zèng)品)|~讀。⑦ ……名 姓。

13個(gè)配例中,已出條的有8個(gè): 【拜把子】、【拜讀】、【拜年】、【拜師】、【拜壽】、【拜托】、【回拜】、【叩拜】。未出條的5個(gè)當(dāng)中有兩個(gè)是句例,另外3個(gè)“拜領(lǐng)”“拜將”“拜相”似需考慮是否應(yīng)當(dāng)出條的問題。

(八) 在編辭書的單個(gè)配例或成組配例檢查

綜合利用上述技術(shù),建立起辭書的配例庫和重合配例庫,配例與詞目交叉關(guān)系數(shù)據(jù)庫,在本地電腦或網(wǎng)絡(luò)上提供檢索。把這些靜態(tài)的資源進(jìn)一步進(jìn)行多層次處理和標(biāo)注,為動(dòng)態(tài)修訂或新編辭書服務(wù)。在編辭書的編寫者在選配例證的過程中,可以檢查正在編寫的一個(gè)配例或一組配例是否使用過,在哪幾部辭書中已出現(xiàn);相似配例有哪些,出現(xiàn)在哪幾部辭書中。這能夠給編寫者比較充分的避重參考,在很大程度上避免無意義的重合,提高配例的獨(dú)特性。

三、 配例查重結(jié)果數(shù)據(jù)統(tǒng)計(jì)和分析

限于篇幅,本節(jié)主要針對單部辭書的查重結(jié)果進(jìn)行統(tǒng)計(jì)和分析,以《現(xiàn)漢》第6版和另外一部辭書(以下用“辭書A”化名)為例。

首先,通過配例提取程序,我們從《現(xiàn)漢》第6版提取到75431個(gè)配例。75431個(gè)配例的長度從2字到57字不等,其長度[2]分布如表7所示。

? 數(shù)據(jù)顯示,2字和4字的配例占比半數(shù)以上,其中4字占比最多,達(dá)到近三分之一。2字配例(15044個(gè))全部屬于單字條目;3字配例(5150個(gè))屬于單字條目(2648個(gè))和雙字條目(2502個(gè)),基本各占一半;4字配例(25060個(gè))分布在單字條目(5046個(gè),占2014%)、雙字條目(19730個(gè),占78.73%)、三字條目(97個(gè),占0.39%)和四字格嵌套條目(187個(gè),占0.75%)中。最長的配例57字,“墨子在歸途上,是走得較慢了,一則力乏,二則腳痛,三則干糧已經(jīng)吃完,難免覺得肚子餓,四則事情已經(jīng)辦妥,不像來時(shí)的匆忙”,屬于單字條目“則2”。

其次,通過查重系統(tǒng),我們從《現(xiàn)漢》第6版提取到的75431個(gè)配例中,找到重合的配例(含重復(fù)例)有6760個(gè)。我們認(rèn)為某個(gè)配例的第一次出現(xiàn)不算是重復(fù),那么去掉重復(fù)(重合的例子為一組,從中選取首次出現(xiàn)的那個(gè)),去重后的配例是3264個(gè)。剩下的實(shí)際重復(fù)(再次出現(xiàn))的配例應(yīng)該是6760-3264=3496個(gè)。如果進(jìn)行辭書配例的修訂工作,應(yīng)該重點(diǎn)看這3496個(gè)重復(fù)的配例設(shè)置是否合理。

重合的配例(6760個(gè))字長范圍從2字到19字不等,分布情況見表8。

? 與全書總配例的情況類似,重合配例的長度也多集中于2字和4字,占到近九成。

最長的重合配例是19字的“人不犯我,我不犯人;人若犯我,我必犯人”,出現(xiàn)在“犯”和“若1”兩個(gè)條目中。

考察2字重合配例,發(fā)現(xiàn)“做工”出現(xiàn)3次,“做”條目下有一個(gè)例子,“工1”條目下有兩個(gè)“做工”的例子,分屬于第2義項(xiàng)和第7義項(xiàng)?!咀龉ぁ砍隽藘蓚€(gè)條目,分1和2。這個(gè)形式上的重合例子,不算重合。

工1 ……② 名 工作;生產(chǎn)勞動(dòng): 做~|上~|加~|勤~儉學(xué)|省料又省~?!?(~兒)技術(shù)和技術(shù)修養(yǎng): 唱~|做~?!?/p>

? 從重合次數(shù)上做統(tǒng)計(jì),重合達(dá)5次的有1個(gè),達(dá)4次的有23個(gè),達(dá)3次的有183個(gè),達(dá)2次的有3057個(gè),分別占比為: 0.08%、1.38%、8.24%、91.75%,見表9。例如,“對癥下藥”,重合五次,分布在“對、下、癥、【對癥】、【下藥】”五個(gè)條目中,且“對癥下藥”出條;“雄赳赳,氣昂昂”,重合四次,分布在“【昂昂】、【赳赳】、【氣昂昂】、【雄赳赳】”四個(gè)條目中;“白手起家”重合三次,分布在“起、【白手】、【起家】”三個(gè)條目中,且“白手起家”出條;“乘風(fēng)破浪”,重合兩次,分布在“浪、【破浪】”兩個(gè)條目中,且“乘風(fēng)破浪”出條。辭書A中還有重合6次的配例“心靈手巧”,分布在單字“心”“靈”“手”“巧”和雙字“【心靈】”“【手巧】”的6個(gè)條目中,且“心靈手巧”出條。

除了《現(xiàn)漢》第6版,我們還對辭書A也做了單部辭書內(nèi)部配例的數(shù)量和分布情況統(tǒng)計(jì)。進(jìn)而可以比較這兩部辭書的統(tǒng)計(jì)數(shù)據(jù)。

對于一部辭書來說,關(guān)于配例方面的度量,我們定義了三項(xiàng)指標(biāo),分別是: 配例參配度、配例重合度、重合配例擴(kuò)散度。

1. 配例參配度,等于辭書全部配例數(shù)除以辭書總詞條數(shù),即平均一條有幾個(gè)配例。表示一部辭書擁有的配例在數(shù)量上的參與程度。數(shù)值越大,表明配例越多。

該數(shù)值會(huì)隨著辭書的規(guī)模、目的、類型不同而有所不同[3]。一般來說,學(xué)習(xí)型詞典的配例比內(nèi)向型詞典多,配例參配度數(shù)值就高。??祁?、百科類辭書的配例比語文類辭書少,配例參配度就低。參配度的高低僅表示一部辭書表面配例數(shù)量的多少,不同辭書有不同的配例要求;具體到每一詞條,適不適合配例,配例多少,配什么類型的用例等都需要具體分析;同時(shí)要考慮用例的質(zhì)量,做到數(shù)量和質(zhì)量的辯證平衡。

比如,《現(xiàn)漢》第6版收錄詞條共69464條,從這些詞條中提取配例75431個(gè)。這部辭書的配例參配度是75431例除以69464條,等于1.0859個(gè)/條,即平均每條配置了1.0859個(gè)用例。

2. 配例重合度,是實(shí)際重復(fù)(再次出現(xiàn))的配例數(shù)除以全部配例數(shù),即平均一個(gè)配例重復(fù)了幾次。如果無重合配例,那么配例重合度為零。如果有2個(gè)重合配例,那么配例重合度是1除以總配例數(shù)。

比如,《現(xiàn)漢》第6版全部配例75431個(gè),其中,重合配例6760個(gè),第一次出現(xiàn)不算作重復(fù)例(3264個(gè)),其余的3496個(gè)配例算是重復(fù)配例,那么配例重合度為3496例除以75431例,等于4.635%。

3. 重合配例擴(kuò)散度,是重合的配例總數(shù)除以去重后(首次出現(xiàn))的配例數(shù),即在重合的配例中,平均一個(gè)配例重合幾次。也就是說,一個(gè)重合的配例平均擴(kuò)散到幾個(gè)詞條中去。

比如,《現(xiàn)漢》第6版重合配例6760個(gè),其中,第一次出現(xiàn)不算作重復(fù)例(3264個(gè)),那么重合配例擴(kuò)散度為6760例除以3264例,等于2.071。即平均一個(gè)重合的例子擴(kuò)散到了2071個(gè)詞條中。這個(gè)數(shù)值越大,表明配例重合次數(shù)就越多。

有了這三項(xiàng)指標(biāo)的計(jì)算公式,我們來看《現(xiàn)漢》第6版和辭書A之間的統(tǒng)計(jì)數(shù)據(jù),見表10。

根據(jù)公式,《現(xiàn)漢》第6版的配例參配度是每條有1.086個(gè)配例,配例重合度是4635%,重合配例擴(kuò)散度是每個(gè)重合配例擴(kuò)散到2.071條。辭書A收條73359條,提取配例81769個(gè),重合配例(含重復(fù))8205個(gè),去重后(首次出現(xiàn))配例3913個(gè),剩余(再次出現(xiàn))重復(fù)配例4292個(gè)。根據(jù)公式,辭書A的配例參配度是每條有1.115個(gè)配例,配例重合度是5.249%,重合配例擴(kuò)散度是每個(gè)重合配例擴(kuò)散到2.097條。

? 在修訂配例的過程中,重點(diǎn)把那些重合次數(shù)多且比較長的配例優(yōu)先去除,替換成更好的配例。這三項(xiàng)指標(biāo)在《現(xiàn)漢》的歷次版本中也會(huì)有波動(dòng),第6版可以作為基準(zhǔn)。如果辭書質(zhì)量檢查需要制定一個(gè)量化的指標(biāo)來評(píng)定某類辭書的質(zhì)量,那么,配例重合度這個(gè)指標(biāo)很有可能被選中。

四、 軟件研制過程中遇到的難點(diǎn)問題

第三節(jié)中每項(xiàng)精確到個(gè)位數(shù)的統(tǒng)計(jì)數(shù)字[4]的獲得,都有賴于準(zhǔn)確無誤的辭書文本和靈活高效的軟件的共同作用。在查重系統(tǒng)的研制過程中,我們不可避免地遇到了一些問題。比如,大字符集問題,標(biāo)點(diǎn)符號(hào)問題,排版格式和辭書體例問題等。這些問題,有些是可以通過我們開發(fā)者編制更多、更快捷有效的自動(dòng)處理程序來解決,有些則是個(gè)人能力之外的,比如涉及字符編碼問題、跨系統(tǒng)操作引起的亂碼等問題。

(一) 大字符集

做語言信息處理工作首先遇到的是生僻字的編碼和顯示問題,尤其是辭書的信息處理,字符量大且字形繁難。涉及的問題包括: 專業(yè)排版系統(tǒng)與OFFICE辦公系統(tǒng)切換出現(xiàn)的亂碼問題;不同操作系統(tǒng)下的顯示問題;出版社自造字編碼不統(tǒng)一,出現(xiàn)兩字共一碼、一字有兩碼等情況;造字碼在不同版本的詞典中編碼不同的問題;常用字在排版系統(tǒng)中的編碼問題,可能涉及偏旁部首字形規(guī)范。后者比如,常用字“挺”用造字編碼“NB479”代替本字,帶女字旁的系列字“好”“媽”等也都設(shè)了造字碼代替本字。如果在單部辭書中提取后進(jìn)行比對沒有問題,但是如果在兩部辭書之間進(jìn)行比對,這些都會(huì)影響輸出結(jié)果的準(zhǔn)確性。我們的解決方法是能替換成現(xiàn)有操作系統(tǒng)字符集內(nèi)的字盡量替換,不能替換的以原編碼保留。

二十多年前,程榮(1997)就曾指出,“規(guī)范大字庫問題及編輯排版問題”是詞典工作的瓶頸,呼吁計(jì)算機(jī)界開發(fā)大字庫和數(shù)據(jù)庫編輯軟件。如今,二十多年過去了,困擾詞典編輯者的這兩個(gè)問題雖有改進(jìn),但是依然沒有得到完美的解決。

(二) 符號(hào)和排版格式

一個(gè)準(zhǔn)確清楚的電子詞典底本非常重要。詞典文本中的標(biāo)點(diǎn)符號(hào)、特殊符號(hào)、全半角符號(hào)、義項(xiàng)號(hào)、波浪號(hào)、配例分隔線等,這些都需要統(tǒng)一格式,往往要花費(fèi)很多時(shí)間來處理。排版格式問題,比如辭書原文本中的頁眉、頁碼、圖表說明等,對后續(xù)的提取無用,也都需要做凈化預(yù)處理。如果是跨圖、跨欄、跨頁形成的折行(帶硬回車符的行),還需要把同屬于一個(gè)詞條的內(nèi)容接合起來。在預(yù)處理的過程中,除了做上述處理,還需要人工校對文本的錯(cuò)誤、去除無意義的空格(拼音中的空格有意義)等。計(jì)算機(jī)能夠在很大程度上實(shí)現(xiàn)自動(dòng)化,但校對工作離不開人的參與。

(三) 詞典的體例

《現(xiàn)漢》有些帶括注內(nèi)容的配例,用查重軟件能夠提取出來,但是在比對階段,軟件一般比對不出來,因?yàn)榈讓邮前醋址葘Φ?。如?配例“神采奕奕”,出自【奕奕】條,配例“神采奕奕(精神飽滿的樣子)”,出自【神采】條,但“神采奕奕”不被軟件認(rèn)為是重合配例。

配例分割線在《現(xiàn)漢》中使用單豎線“|”,比喻例前用菱形號(hào)“◇”標(biāo)識(shí),但在比喻例與其他例之間并沒有單豎線。查重軟件依據(jù)的是用“|”來分隔并逐個(gè)提取。這時(shí),在軟件運(yùn)行之前,需要在比喻例標(biāo)記——菱形號(hào)——之前添加單豎線,以方便軟件統(tǒng)一提取。又如,詞條釋義中的引例或交待詞語出處的語句,用冒號(hào)加引號(hào)(“:”)給出,這跟軟件提取配例的規(guī)則在形式上相同,所以會(huì)造成提取“偽”配例的情況。這些“偽”例的清除需要后期人工干預(yù)。

計(jì)算機(jī)編程人員在軟件開發(fā)前,需要跟詞典編修者進(jìn)行溝通,了解待處理辭書的體例,認(rèn)真研讀詞典的文本,從中歸納出規(guī)則和例外,通過多輪“編程—測試—修改完善程序”后,才能得到精確的結(jié)果,滿足辭書編纂人員的需要。

(四) 軟件的研制

為了程序需要,有時(shí)需要添加一些符號(hào),以形成統(tǒng)一的形式,方便程序按照一定的規(guī)則模式提取配例。比如,對《現(xiàn)漢》來說,從一個(gè)詞條內(nèi)容中提取配例的規(guī)則為: 提取從“:”到“?!钡囊欢?,以單豎線“|”為分隔符號(hào),逐個(gè)提取配例,再以字頭或詞目替換波浪線“~”;繼續(xù)查找符合規(guī)則的配例并提取,一直到最后一個(gè)字符。對整個(gè)辭書的文件,逐條循環(huán)上述操作,直至文件末尾。如上述提到的在比喻例標(biāo)記“◇”前添加“|”。如果碰到詞條含有多個(gè)冒號(hào)時(shí),那么提取出來的配例明顯多了字符,因?yàn)檐浖J(rèn)的是第一個(gè)冒號(hào)和后續(xù)的句號(hào)之間的部分。比如,“指黑眼珠;睞: 看): 深受讀者青睞”,出自:“【青睞】……用正眼相看,指喜愛或重視(青: 指黑眼珠;睞: 看): 深受讀者~。”實(shí)際的配例應(yīng)該是“深受讀者青睞”。但是,如果為了處理這種情況,程序需要加上額外的判定條件,就會(huì)影響軟件的執(zhí)行效率。所以,目前這一版軟件沒有特別處理這種情況,以保持簡潔高效,待下一版更新時(shí)統(tǒng)一考慮。配例的多余字符,需要后續(xù)人工刪除。

需要后處理的還有四字格嵌套結(jié)構(gòu),比如,配例“一…不…定一…不…易(易: 改變)”,出自:“【一…不…】……: ~定~易(易: 改變)|~去~返|~蹶~振?!庇迷~目替換波浪號(hào)“~”時(shí),只是機(jī)械地逐個(gè)替換,替換后的結(jié)果不是正確的四字格“一定不易”,所以也需人工干預(yù)。

這些情況說明,雖然計(jì)算機(jī)自動(dòng)化能解決大部分的問題,但是它的工作原理決定了在一些局部的細(xì)節(jié)問題上,仍需要人工來輔助處理解決。在如今的融媒體時(shí)代,應(yīng)當(dāng)盡快研究解決計(jì)算機(jī)辭書編修平臺(tái)的瓶頸障礙,把依賴人工干預(yù)的工作量降低到最小,以真正實(shí)現(xiàn)辭書編修平臺(tái)的計(jì)算機(jī)化。

五、 結(jié)語

我們開發(fā)的配例查重系統(tǒng),能快速統(tǒng)計(jì)出單部辭書、兩部辭書或者同一品牌辭書不同版本之間完全重合或近似重合的配例有多少、有哪些,可以避免人工比對重合配例費(fèi)時(shí)費(fèi)力的單調(diào)勞動(dòng),有助于辭書編纂者盡快完成配例部分的編寫或?qū)徃骞ぷ?,?jié)約寶貴的時(shí)間,提高編修的效率。利用配例查重系統(tǒng),還可以考察一部辭書中哪些詞例、語例已經(jīng)出條,哪些未出條,比例各為多少,這些數(shù)據(jù)都可以明確提取并統(tǒng)計(jì)出來,供編者參考。

本軟件還存在不足,理想中的查重軟件是: 能夠一條龍解決從輸入文本到輸出比對結(jié)果和分析,并進(jìn)一步給出建議。目前的查重軟件分為若干模塊,相對比較獨(dú)立。兩種方式各有利弊。修改完善后的查重軟件應(yīng)可分可合,操作靈活。我們正深度參與辭書編纂的各項(xiàng)工作實(shí)務(wù),積極探索辭書編寫者無需學(xué)習(xí)編程知識(shí)就能在辦公軟件微軟OFFICE或WPS環(huán)境之下輕松處理的方法。

今后本軟件將通過多方面的試查實(shí)踐,不斷改進(jìn)完善,進(jìn)而提升為功能更加全面、靈活高效的配例查重軟件系統(tǒng),積累更加豐富而精細(xì)的辭書配例數(shù)據(jù)庫,為辭書在配例上的編修進(jìn)一步發(fā)揮計(jì)算機(jī)信息處理的功用。

附 注

[1]遍歷,計(jì)算機(jī)術(shù)語,是指沿著某條搜索路線,依次對樹中每個(gè)結(jié)點(diǎn)均做一次且僅做一次訪問。通俗來講,指按照一定的順序逐個(gè)訪問。

[2]配例長度,指配例含有字符的數(shù)量。在本文中,配例中的標(biāo)點(diǎn)符號(hào)也算作字符,如逗號(hào)、菱形號(hào)、問號(hào)、感嘆號(hào)、書名號(hào)、括號(hào)、引號(hào)等。

[3]章何(1985)考察了幾部詞典的例句數(shù)量,《俄語常用詞詞典》平均每個(gè)義項(xiàng)的例句為7.2個(gè),《俄語教學(xué)詞典》平均每個(gè)義項(xiàng)接近12個(gè)例句,《俄語詞的搭配教學(xué)詞典》平均每個(gè)義項(xiàng)不到2個(gè)例句,《現(xiàn)代俄羅斯文學(xué)語言詞典》平均每個(gè)詞目(不是詞義)只有3.2個(gè)例證,德語《杜登大辭典》平均每個(gè)詞目4個(gè)例證,提出詞典的例證設(shè)置應(yīng)該有一個(gè)數(shù)量標(biāo)準(zhǔn)。

[4]由于多種原因,仍有可能存在小的誤差。

參考文獻(xiàn)

1. 程榮.詞典工作的科學(xué)化期待理想的計(jì)算機(jī)軟件.辭書研究,1997(5).

2. 程榮.字·詞·詞典.上海: 上海辭書出版社,2001.

3. 江藍(lán)生.《現(xiàn)代漢語詞典》第6版概述.辭書研究,2013(2).

4. 呂叔湘.《現(xiàn)代漢語詞典》編寫細(xì)則(修訂稿).∥中國社會(huì)科學(xué)院語言研究所詞典編輯室編.《現(xiàn)代漢語詞典》五十年.北京: 商務(wù)印書館,2005.

5. 章何.談教學(xué)詞典例句的數(shù)量.辭書研究,1985(2).

6. 中國社會(huì)科學(xué)院語言研究所詞典編輯室編.現(xiàn)代漢語詞典(第6版).北京: 商務(wù)印書館,2012.

(中國社會(huì)科學(xué)院語言研究所 北京 100732)

(責(zé)任編輯 馬 沙)