張慧芳
摘要:漢語分詞是從動(dòng)態(tài)的信息中檢索出符合用戶個(gè)性化需求的詞匯理論,它能為用戶提供及時(shí)、個(gè)性化的信息服務(wù)。筆者探討了漢語詞匯分詞在網(wǎng)絡(luò)信息檢索中的應(yīng)用,提出隱式分詞詞典,該詞典在漢語文本輸入的同時(shí)進(jìn)行分詞聯(lián)想,更好的解決了中文信息處理中需要分詞的問題。
關(guān)鍵詞:漢語;分詞;檢索;隱性詞典
信息技術(shù)時(shí)代,從網(wǎng)絡(luò)中學(xué)習(xí)知識(shí)和發(fā)布相關(guān)信息的人越來越多的人,互聯(lián)網(wǎng)信息技術(shù)發(fā)生了前所未有的爆炸式發(fā)展,這種變化在給用戶帶來方便的同時(shí),也讓用戶陷入信息泥潭。如何更加準(zhǔn)確、快捷地幫助用戶尋找其感興趣的信息,如何提高檢索質(zhì)量和檢索精度,將會(huì)成為“互聯(lián)網(wǎng) +”時(shí)代研究人員逐漸關(guān)注的焦點(diǎn)。漢語分詞正是用來從動(dòng)態(tài)的信息流中抽取出符合用戶個(gè)性化需求的信息,從而為用戶提供及時(shí)、個(gè)性化的信息服務(wù)。漢語分詞的準(zhǔn)確性直接影響到搜索結(jié)果是否符合用戶的目標(biāo)需求。
近幾十年來,分詞技術(shù)取得可觀的研究成果,但在用戶提取信息時(shí)效果還是不盡人意。本文提出了建立隱式分詞詞典的設(shè)想,該詞典進(jìn)行中文文本輸入的同時(shí)后臺(tái)程序進(jìn)行分詞聯(lián)想,并將文本以相關(guān)詞串的形式儲(chǔ)存在計(jì)算機(jī)。我們期待這種方法能很大程度上解決中文信息處理中需要分詞的問題。
一、現(xiàn)存的分詞方法及其局限性
1.現(xiàn)有的分詞方法
自動(dòng)分詞作為自然語言處理的前處理階段事關(guān)重大,它是各種漢語信息處理包括語音處理、主題詞檢索、詞頻統(tǒng)計(jì)、文摘生成等工作的基礎(chǔ)工程,也一直是制約中文信息處理飛躍的“ 瓶頸” 之一。關(guān)于分詞的必要性,筆者在另一篇文章《漢語詞匯分詞規(guī)范的理念和實(shí)踐》一文中已陳述,在此不做贅述。這里就現(xiàn)有的分詞方法做簡單概括并對(duì)其局限性做出評(píng)價(jià)。
目前的分詞系統(tǒng)采用的分詞方法主要有三種類型:
(1)機(jī)械分詞法。這種分詞方法很普遍,又叫字符串匹配的分詞方法,百度就是此類分詞。它又具體又分為:正向最大匹配法、逆向最大匹配法、最短路徑分詞法和雙向最大匹配法等。
a.正向最大匹配法,由左到右的方向。舉個(gè)例子:“不知道你在說什么”,這句話采用正向最大匹配法是 “不知道,你,在,說什么”。
b.逆向最大匹配法,由右到左的方向。“不知道你在說什么”用逆向最大匹配法來分,即“不,知道,你在,說,什么”。
c.最短路徑分詞法,使每一句中切出的詞數(shù)最小?!安恢滥阍谡f什么”最短路徑分詞法就是 “不知道,你在,說什么”,分出來就只有3個(gè)詞了。
d.雙向最大匹配法,進(jìn)行由左到右、由右到左兩次掃描。
正向最大匹配法,最終切分結(jié)果為:“我們/在野/生動(dòng)/物/園/玩”,其中,兩字詞3個(gè),單字字典詞為2,非詞典詞為1。
(2)語義分詞法。語義分詞法引入了語義分析,對(duì)自然語言自身的語言信息進(jìn)行更多的處理,如擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)法、知識(shí)分詞語義分析法、鄰接約束法、綜合匹配法、后綴分詞法等。
(3)理解分詞法,又稱人工智能法。這種分詞方法是通過讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。
2.現(xiàn)有分詞方法的局限性
現(xiàn)有的分詞方法,無論是機(jī)械分詞法、語義分詞法,還是人工智能分詞法都不能有效解決漢語詞自動(dòng)切分中存在兩大困難。
a.歧義識(shí)別。主要的歧義有兩種:交集型歧義和組合型歧義,例如:表面的,因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~,那么這個(gè)短語就可以分成“表面 的”和“表 面的”。這種稱為交集型歧義(交叉歧義)。
b.未登錄詞的識(shí)別。未登錄詞也就是那些在分詞詞典中沒有收錄,但又確實(shí)能稱為詞的那些詞。除了“duang、閱兵藍(lán)”這樣的新詞以外,還有機(jī)構(gòu)名、人名、地名、產(chǎn)品名、商標(biāo)名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來說,分詞系統(tǒng)中的新詞識(shí)別十分重要。
二、漢語分詞在信息檢索中的應(yīng)用
隨著技術(shù)進(jìn)步,漢語自動(dòng)分詞技術(shù)的應(yīng)用之廣自然不必言說,分詞系統(tǒng)應(yīng)支持不同的應(yīng)用目標(biāo),包括各種輸入方式、簡繁轉(zhuǎn)換、語音合成、翻譯、檢索、文摘等等;支持不同領(lǐng)域的應(yīng)用,包括自然科學(xué)、社會(huì)和技術(shù)及日常辦公、新聞、交際等;支持不同地區(qū)(包括灣、澳、臺(tái)等地)的漢語處理,應(yīng)能適應(yīng)不同地區(qū)的不同用字、不同用詞、不同語言風(fēng)格,不同專有名詞構(gòu)成方式等。具體到信息檢索領(lǐng)域的應(yīng)用,對(duì)漢語自動(dòng)分詞技術(shù)的特殊性需要分詞詞典。智能信息檢索無論是機(jī)械分詞法還是基于理解的分詞法,都依賴于分詞詞典。分詞詞典應(yīng)具備以下特性:
a.顆粒度問題。鑒于每個(gè)用戶的查詢請(qǐng)求各不相同,為了適應(yīng)用戶的查詢,檢索系統(tǒng)的詞庫的分詞單位應(yīng)該較小,應(yīng)該是現(xiàn)代漢語中最基本、最穩(wěn)定的詞。
b.專業(yè)詞典。雖然使用了雙向分詞算法,但也還存在著一定的失誤率,主要原因是基于字典、詞庫匹配的分詞方法對(duì)詞庫的依賴性較強(qiáng)。由于我們所研究的網(wǎng)頁信息有較強(qiáng)的專業(yè)性,所以我們可以通過盡可能地?cái)U(kuò)大專業(yè)詞庫,從而更大地降低分詞失誤率,專業(yè)詞典的編制是降低自然語言處理與智能信息檢索實(shí)現(xiàn)難度的有利輔助。
3、總體詞數(shù)越少越好,在相同字?jǐn)?shù)的情況下,總詞數(shù)越少,說明語義單元越少,那么相對(duì)的單個(gè)語義單元的權(quán)重會(huì)越大,因此準(zhǔn)確性會(huì)越高。
因此,我們?cè)O(shè)想出隱式分詞詞典,這種詞典可以最大程度上解決漢語分詞問題。
三、設(shè)置隱式分詞詞典的必要性及其功能
漢語分詞問題是大數(shù)據(jù)時(shí)代的產(chǎn)物,是計(jì)算機(jī)處理中文信息的需要,所以分詞問題應(yīng)該由計(jì)算機(jī)技術(shù)來實(shí)現(xiàn)。本文提出的隱式分詞詞典在文本錄入的同時(shí)由分詞軟件進(jìn)行同步分詞,這種方法是未來大數(shù)據(jù)時(shí)代解決分詞問題必須考慮的。
首先,之前人們研究出的增加分詞符或者改變漢字書寫方式等自動(dòng)分詞系統(tǒng)都要付出一定的改變,改變?nèi)藗兊囊沧x書寫習(xí)慣,若是信息量很龐大,要想改變?nèi)藗兏畹俟痰牧?xí)慣需要巨大開銷。反之,我們這種隱式分詞詞典系統(tǒng)幾乎很巧妙的解決了這個(gè)后顧之憂,不需要為分詞再付出額外的人力物力開銷。
其次,要實(shí)現(xiàn)分詞連寫,首要問題分詞必須要規(guī)范。在歷來的分詞爭議的歷史長流中,漢語分詞都沒有統(tǒng)一的規(guī)范。即使是現(xiàn)在,已經(jīng)出了分詞規(guī)范,也很少有人能把分詞的國家規(guī)范記得清清楚楚,至于準(zhǔn)確地應(yīng)用則更是少之又少。而采用隱式分詞詞典,就可以由輸入軟件機(jī)器來記住分詞規(guī)范,使得所有在機(jī)內(nèi)的文本都是規(guī)范統(tǒng)一的,用戶需要時(shí)可以自由提取。
再次,對(duì)于分詞中固有歧義切分的識(shí)別,隱式分詞詞典在用戶輸入的時(shí)候,就通過與用戶的直接意愿交互來獲取這個(gè)信息,從而消除這種固有歧義切分?,F(xiàn)有的中文輸入法中基本上都采取了與用戶交互的方式來消除歧義,因此增加消除固有歧義切分的交互并不會(huì)給用戶帶來什么不便。
最后,隱式分詞連寫輸入法中的“隱式”是指在輸入時(shí)并不要求用戶去進(jìn)行分詞工作,而是由輸入軟件來進(jìn)行分詞工作,這對(duì)用戶來說分詞連寫是隱式的。另外,輸入的文本將以分詞的形式保存在計(jì)算機(jī)中,但是分詞標(biāo)記卻是隱式的,若是用戶刻意要求顯示分詞標(biāo)記點(diǎn)擊選項(xiàng)即可顯示。這種隱式分詞詞典的引入將使信息處理邁入嶄新時(shí)代。
綜上所述,隱式分詞連寫輸入法主要有以下幾個(gè)功能:
1.隱式的自動(dòng)分詞詞典
隱式分詞詞典好比現(xiàn)在的英語“有道”軟件,該詞典將按照信息處理用國家分詞規(guī)范(GB/T 13715.92)進(jìn)行自動(dòng)分詞。只要鼠標(biāo)點(diǎn)擊到詞那就自動(dòng)呈現(xiàn)該詞對(duì)應(yīng)的英語詞匯,我們的分詞詞庫也可以做到:根據(jù)用戶需要,可以自定設(shè)置是否顯示分詞,想要展示時(shí)就鼠標(biāo)點(diǎn)到那?;蛘呦袂袚Q中英文屏幕那樣切換到分詞屏幕;信息檢索時(shí),也可以自動(dòng)聯(lián)想所需要的分詞,這在極大程度上解決了信息處理的分詞歧義問題,這樣大大方便我們的語言生活。
2.中文文本的錄入
隱式分詞詞典具有向計(jì)算機(jī)輸入中文文本的功能。我們暫且計(jì)劃采用已有的拼音編碼進(jìn)行輸入,當(dāng)然,隨著技術(shù)成熟,以后將擴(kuò)展到五筆字型等其它編碼形式。
3.保存并顯示文本
通過該詞典輸入法錄入的文本將以詞串的形式保存在機(jī)內(nèi),文本內(nèi)容可隱可顯。用戶根據(jù)需求自行設(shè)置是否顯示分詞標(biāo)記,這樣既解決了分詞問題又不需要人們改變?nèi)粘A?xí)慣。
計(jì)算機(jī)裝上這樣的分詞詞典就可以自動(dòng)識(shí)別分詞。
四、展望和困難
分詞連寫是一種民族思維的數(shù)字化工程?;ヂ?lián)網(wǎng)時(shí)代,漢語數(shù)字化的歷史進(jìn)程卻是不可抗拒的。漢語實(shí)行分詞連寫,將極大地提高漢民族集體智能的數(shù)字化程度,從而大大加快中國的現(xiàn)代化歷史進(jìn)程。
隱式分詞詞典的前景是光明的,路途不免遇到各種困難:
1.分詞規(guī)范問題。分詞標(biāo)準(zhǔn)的界定問題是漢語語法的一個(gè)基本、長期的問題。它涉及到核心詞表、詞的變形,詞綴等等方面。因此,《信息處理用現(xiàn)代漢語分詞詞表》針對(duì)語言信息處理的需求所提出的是:“這個(gè)詞表既要向根據(jù)語言學(xué)理念建立起來的詞表盡量靠攏,同時(shí)又要與老百姓心目中‘朦朦朧朧但又確乎存在的‘詞表盡量兼容?!?隱式分詞詞典不妨就按照這樣的分詞規(guī)范來做。
2.詞典的編制與運(yùn)作。我們?cè)O(shè)想還要能夠讓詞典動(dòng)起來,通過建立程序讓詞典可以自我更新,既得會(huì)“納新”有得會(huì)“吐陳”。對(duì)于出現(xiàn)達(dá)到一定的頻率的未登錄詞加以吸收使詞表完善,并對(duì)于過時(shí)的長期不用的詞語進(jìn)行刪除,這樣一進(jìn)一出使詞典基本保持平衡運(yùn)作。
3.檢索用戶多樣化,需求不一。用戶層次的多樣化、層次不一,、需求深度不同,檢索系統(tǒng)需要針對(duì)不同用戶的特殊需求提供程度不一樣的檢索服務(wù)。對(duì)于不同領(lǐng)域的專業(yè)人士,檢索服務(wù)達(dá)到什么水平才算滿足大多數(shù)用戶的要求,這個(gè)尺度不易把握。(作者單位:北方民族大學(xué)文史學(xué)院)
基金項(xiàng)目:北方民族大學(xué)2014年區(qū)級(jí)大學(xué)生創(chuàng)新項(xiàng)目(項(xiàng)目編號(hào)QJCX-2014-001);北方民族大學(xué)2014年研究生創(chuàng)新院級(jí)項(xiàng)目;北方民族大學(xué)2015年研究生創(chuàng)新項(xiàng)目校級(jí)項(xiàng)目(項(xiàng)目編號(hào)YCX1507)
參考文獻(xiàn):
[1]楊端志《漢語詞匯理論、詞典分詞與“詞”的認(rèn)知》《山東大學(xué)學(xué)報(bào)》(哲學(xué)社會(huì)科學(xué)版)2003 年第6 期
[2]黃電,符紹宏自動(dòng)分詞技術(shù)及其在信息檢索中應(yīng)用的研究.現(xiàn)代圖書情報(bào)技術(shù),2001;(1)
[3]黃昌寧.中文信息處理中的分詞問題語言文字應(yīng)用,1997;(1)
[4]國家技術(shù)監(jiān)份局,《中華人民共和國國家標(biāo)準(zhǔn)一信息處理用現(xiàn)代漢語分詞規(guī)范》(GB/T13715一92),s,中國標(biāo)準(zhǔn)出版社,1993年第一版。
[5]曹娟,周經(jīng)野.《隱式分詞連寫輸入方法—解決漢語分詞問題的根本途徑》,第二屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)論文集,2004.8
[6]曹倩,丁艷,王超,等.漢語自動(dòng)分詞研究及其在信息檢索中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2004,(5):71~ 73.