張廣慶,朱登峰,岳琪佳
(1.青島市標(biāo)準(zhǔn)化研究院,山東 青島 266071;2.核工業(yè)計算機應(yīng)用研究所,北京 100037;3.山東省青島第五十八中學(xué), 山東 青島 266100)
中文分詞在標(biāo)準(zhǔn)信息檢索中的應(yīng)用
張廣慶1,朱登峰2,岳琪佳3
(1.青島市標(biāo)準(zhǔn)化研究院,山東 青島 266071;2.核工業(yè)計算機應(yīng)用研究所,北京 100037;3.山東省青島第五十八中學(xué), 山東 青島 266100)
本文介紹如何通過建立簡易標(biāo)準(zhǔn)分詞詞典庫,然后運用基于該標(biāo)準(zhǔn)詞典庫的正向最大匹配法、逆向最大匹配法和雙向最大匹配法對輸入的檢索語句進行分詞,最后依據(jù)這些分詞檢索標(biāo)準(zhǔn)的中文名稱。
信息檢索;標(biāo)準(zhǔn)題錄;中文分詞
近年來,隨著“三證合一、一照一碼”、“企業(yè)標(biāo)準(zhǔn)自我聲明公開”等政策的逐步落實,標(biāo)準(zhǔn)專業(yè)機構(gòu)紛紛打破原有的工作模式,加大了對標(biāo)準(zhǔn)在人員、資金、科研等方面的投入,帶來了全新的標(biāo)準(zhǔn)服務(wù)模式,如浙江標(biāo)準(zhǔn)化院推出綜合性標(biāo)準(zhǔn)服務(wù)平臺和企業(yè)版標(biāo)準(zhǔn)信息管理系統(tǒng),極大地方便了標(biāo)準(zhǔn)人員的工作。在這些標(biāo)準(zhǔn)服務(wù)平臺和信息管理系統(tǒng)中,使用最多的功能是標(biāo)準(zhǔn)題錄信息的檢索,涉及中文檢索的內(nèi)容主要有標(biāo)準(zhǔn)中文名稱、摘要和全文。
中文中的詞語是由漢字組成的最小的有意義的語句單位,詞語之間沒有明顯的區(qū)分標(biāo)記,而英文單詞之間是以空格作為自然分界符。現(xiàn)代中文里,雙音節(jié)詞語占的比重最大,也有單音節(jié)詞語,如口、廠、洗、染。中文分詞是將連續(xù)的漢字序列按照一定的規(guī)范重新組合成詞語序列的過程[1],主要應(yīng)用于智能搜索領(lǐng)域,如百度、搜狗等網(wǎng)站的搜索功能。本文介紹如何通過建立簡易標(biāo)準(zhǔn)分詞詞典庫,然后運用基于該標(biāo)準(zhǔn)詞典庫的三種分詞方法對輸入的檢索語句進行分詞,最后依據(jù)這些分詞檢索標(biāo)準(zhǔn)的中文名稱。
本文選取國家標(biāo)準(zhǔn)化管理委員會網(wǎng)站公布的4.88萬條國家標(biāo)準(zhǔn)(含廢止)構(gòu)建標(biāo)準(zhǔn)檢索庫,選取環(huán)境保護類的國家強制性標(biāo)準(zhǔn)166條,構(gòu)建簡易標(biāo)準(zhǔn)分詞詞典庫(以下簡稱標(biāo)準(zhǔn)詞典庫)。分詞原則主要選取雙音節(jié)詞語,如果截取一個詞語影響語義則選擇不截取,如“排放口”不截取成“排放”和“口”,后兩個詞雖然有獨立語義,但合在一起表達(dá)的意思更完整,類似詞語還有“發(fā)動機”、“固體廢物”、“汽車壓件”等。這些國家標(biāo)準(zhǔn)中文名稱進行人工分詞后的全部詞語有323個,出現(xiàn)次數(shù)較多的前30個詞語參見表1。
表1 標(biāo)準(zhǔn)詞典庫部分詞語及在166個國家標(biāo)準(zhǔn)中出現(xiàn)的次數(shù)
中文分詞方法有許多種,本文介紹正向最大匹配法、逆向最大匹配法[2]和雙向最大匹配法三種。最大匹配法是指假設(shè)分詞詞典庫中的最長詞有i個漢字,取待處理檢索語句的前i個漢字作為匹配詞語,在分詞詞典庫中檢索。如果能檢索到,將該i個漢字截取出來,剩余漢字開始匹配。如果不能檢索到,將該匹配詞語的最后一個漢字去掉,對其余i-1個漢字重新在分詞詞典庫中檢索。重復(fù)以上步驟,直到該匹配詞語能檢索到或者只剩一個漢字。以此類推,待處理檢索語句的其余漢字也做同樣方法的匹配,直到匹配完所有的詞語或漢字。正向匹配法是指從前向后匹配詞語,逆向匹配法是指從后向前匹配詞語,雙向匹配法是指用正向匹配法和逆向匹配法分別匹配詞語。如果匹配結(jié)果相同,采用這些分詞詞語;如果匹配結(jié)果不相同,采用總詞語數(shù)最少或者優(yōu)化后的詞語最少的分詞詞語。
下面,以輸入國家標(biāo)準(zhǔn)GB/T 1.1-2009的中文名稱“標(biāo)準(zhǔn)化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫”為例,說明上述三種匹配方法的實現(xiàn)過程。標(biāo)準(zhǔn)詞典庫中的最長詞是“混裝制劑類”5個漢字,最大匹配字?jǐn)?shù)就是5個漢字,每次檢索相應(yīng)減少1個漢字,直到檢索完成。如果待處理中文語句中有空格、數(shù)字、標(biāo)點符號等自然分隔符,優(yōu)先截取這些符號之前的語句作為檢索詞語,進行匹配。
2.1 正向最大匹配法的分詞過程
從前向后截取5個漢字是“標(biāo)準(zhǔn)化工作”,在標(biāo)準(zhǔn)詞典庫中檢索。能檢索到,再從第6個漢字截取5個漢字;不能檢索到,則把“標(biāo)準(zhǔn)化工作”每次從后面減少1個漢字。
第1次檢索詞:“標(biāo)準(zhǔn)化工作”,5字,詞典不能檢索到;第2次檢索詞:“標(biāo)準(zhǔn)化工”,4字,詞典不能檢索到;第3次檢索詞:“標(biāo)準(zhǔn)化”,3字,詞典不能檢索到;第4次檢索詞:“標(biāo)準(zhǔn)”,2字,詞典中能檢索到。
第1次分詞完成,找到詞語“標(biāo)準(zhǔn)”,剩余檢索語句“化工作導(dǎo)則 第1部分:標(biāo)準(zhǔn)的結(jié)構(gòu)和編寫”。以此類推,最后的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫”。其中,“標(biāo)準(zhǔn)/第1/部分/標(biāo)準(zhǔn)”詞語屬于詞典詞。因為標(biāo)準(zhǔn)詞典庫的不完善,導(dǎo)致“工作/導(dǎo)則/結(jié)構(gòu)/編寫”詞語沒有被截取,這類詞語屬于非詞典詞。
2.2 逆向最大匹配法的分詞過程
從后向前截取5個漢字是“結(jié)構(gòu)和編寫”,在標(biāo)準(zhǔn)詞典庫中檢索。能檢索到,再從倒數(shù)第6個漢字向前截取5個漢字;不能檢索到,則把“結(jié)構(gòu)和編寫”每次從前面減少1個漢字。
第1次檢索詞:“結(jié)構(gòu)和編寫”,5字,詞典不能檢索到;第2次檢索詞:“構(gòu)和編寫”,4字,詞典不能檢索到;第3次檢索詞:“和編寫”,3字,詞典不能檢索到;第4次檢索詞:“編寫”,2字,詞典不能檢索到;第5次檢索詞:“寫”,1字,詞典不能檢索到。
第1次分詞完成,沒有找到詞語。第2次分詞截取5個字符為“的結(jié)構(gòu)和編”,以此類推,最后的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫”。
2.3 雙向最大匹配法的分詞過程
在上面例子中,正向最大匹配法和逆向最大匹配法的分詞結(jié)果都是“標(biāo)準(zhǔn)/化/工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫”,則雙向最大匹配法直接采用該分詞結(jié)果。在標(biāo)準(zhǔn)詞典庫中增加2個分詞“化工”、“工作”,正向最大匹配法的分詞結(jié)果是“標(biāo)準(zhǔn)/化工/作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫”,逆向最大匹配法的分詞結(jié)果是“標(biāo)準(zhǔn)/化/工作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)/構(gòu)/和/編/寫”,兩者的分詞區(qū)別是“化工/作”和“化/工作”,可以看出后者是正確的結(jié)果。這里引入另一個原則,如果分詞結(jié)果不同而總分詞數(shù)相同,采用逆向最大匹配法的分詞結(jié)果。
雙向最大匹配法的另一個原則是采用單字詞語最少的分詞結(jié)果。例如“標(biāo)準(zhǔn)研究院士”在大數(shù)據(jù)分詞詞典庫中,正向最大匹配法的結(jié)果是“標(biāo)準(zhǔn)研究院/士”,逆向最大匹配法的分詞結(jié)果是“標(biāo)準(zhǔn)/研究/院士”,前者有1個單字詞語,后者沒有,因此選擇后者的分詞結(jié)果。
在標(biāo)準(zhǔn)詞典庫中添加“標(biāo)準(zhǔn)化工作”、“結(jié)構(gòu)”、“編寫”詞語,雙向最大匹配法的分詞結(jié)果是“標(biāo)準(zhǔn)化工作/導(dǎo)/則/第1/部分/標(biāo)準(zhǔn)/的/結(jié)構(gòu)/和/編寫”。分別輸入標(biāo)準(zhǔn)詞典庫中的詞語“標(biāo)準(zhǔn)化工作”、“第1”、“部分”、“標(biāo)準(zhǔn)”、“結(jié)構(gòu)”、“編寫”,在標(biāo)準(zhǔn)檢索庫中檢索的結(jié)果參見表2。
表2 利用分詞詞語檢索國家標(biāo)準(zhǔn)的結(jié)果
從表2中可以看出,使用5字詞語“標(biāo)準(zhǔn)化工作”檢索出來的結(jié)果也能符合檢索要求,因此,除直接檢索輸入的語句外,使用分詞后的多字詞語檢索也能滿足人們的檢索需求,這就是智能搜索引擎利用分詞技術(shù)實現(xiàn)的檢索語句的搜索功能。
以上方法同樣適用于標(biāo)準(zhǔn)的摘要和全文檢索。大多數(shù)標(biāo)準(zhǔn)搜索引擎檢索摘要和全文時基于關(guān)鍵詞匹配,在區(qū)分同形異義和關(guān)聯(lián)同義詞時存在較大局限。借助中文分詞技術(shù),標(biāo)準(zhǔn)搜索引擎可以預(yù)處理輸入的檢索語句,建立以關(guān)鍵詞為基礎(chǔ)的查詢分詞庫,通過“模糊化咨詢,智能化回答”,滿足標(biāo)準(zhǔn)工作者的檢索要求,提高查詢效率,幫助他們在最短的時間里獲取更多更優(yōu)的答案。
[1] 劉開瑛.中文文本自動分詞和標(biāo)注[M].北京:商務(wù)印書館.2000.
[2] 付年鈞,彭昌水,王慰.中文分詞技術(shù)及其實現(xiàn)[J].軟件導(dǎo)刊,2011,10(1):18-20.
Application of Chinese Word Segmentation in Standard Information Retrieval
ZHANG Guang-qing1, ZHU Deng-feng2, YUE Qi-jia3
(1. Qingdao Institute of Standardization, Qingdao, Shandong 266071, China; 2. Computer Application Institute of Nuclear Industry, Beijing 100048, China; 3. Qingdao NO.58 High School Shandong Province, Qingdao, Shandong 266100, China)
This paper introduces how to establish a simple standard dictionary database, and then use the standard dictionary based on maximum matching method, reverse maximum matching method and bidirectional maximum matching method of the input query word, finally on the basis of the segmentation criteria Chinese name.
information retrieval; standard title; Chinese word segmentation
TP391.1
A
1672-6286(2017)01-0079-04
張廣慶(1971-),男,山東巨野人。質(zhì)量高級工程師,本科,主要從事組織機構(gòu)代碼、軟件、信息化、標(biāo)準(zhǔn)等領(lǐng)域研究。