耿 銳
(北方工業(yè)大學(xué)計算機(jī)學(xué)院,北京 100144)
圖書在版編目自動輔助標(biāo)引方案初探
耿 銳
(北方工業(yè)大學(xué)計算機(jī)學(xué)院,北京 100144)
本文論述了全文檢索技術(shù)和中文分詞技術(shù)的技術(shù)特征,給出了方案的實施思路、實施流程、功能架構(gòu)等,并對方案進(jìn)行了實驗驗證。該方案可以實現(xiàn)計算機(jī)輔助標(biāo)引,可以有效提高圖書在版編目(CIP)標(biāo)引人員工作效率。
圖書在版編目;全文檢索;中文分詞;自動標(biāo)引
圖書在版編目(Cataloguing in Publication,英文縮寫CIP),是指依據(jù)有關(guān)的國家標(biāo)準(zhǔn)為在出版過程中的圖書編制書目數(shù)據(jù),并將其印制在圖書版權(quán)頁上的工作。通過這種方式,圖書和它的編目數(shù)據(jù)可以同時被圖書館、圖書銷售企業(yè)、政府管理部門和其他需要這一數(shù)據(jù)的人們所利用。我國的CIP實施工作從1993年起步至今,已經(jīng)覆蓋全部580余家圖書出版社98%以上的圖書, 2014年CIP數(shù)據(jù)的年編制量達(dá)到30余萬條。
目前圖書上是否印有CIP數(shù)據(jù)已經(jīng)成為出版物標(biāo)準(zhǔn)化、規(guī)范化的重要標(biāo)志之一。與此同時CIP中心已經(jīng)建立起了一個全國唯一的、信息最全的圖書印前書目數(shù)據(jù)庫,實現(xiàn)了數(shù)據(jù)實時傳輸?shù)木W(wǎng)絡(luò)編目,截至2015年8月底,CIP標(biāo)準(zhǔn)數(shù)據(jù)庫已有書目數(shù)據(jù)近340萬條。但逐年增長的圖書出版量與CIP制作人員不足的矛盾日益暴露出來,特別是依靠手工標(biāo)引圖書主題和分類號的方式,已經(jīng)無法滿足CIP數(shù)據(jù)制作周期的要求。
本文探討一種適合CIP工作的自動輔助標(biāo)引解決方案,以求依托全文檢索和中文分詞技術(shù),實現(xiàn)計算機(jī)自動輔助標(biāo)引,提高標(biāo)引人員工作效率,促進(jìn)我國出版行業(yè)發(fā)展。
2.1 全文檢索技術(shù)
全文檢索技術(shù)是針對大規(guī)模文字信息最高效的檢索技術(shù)。全文檢索是一種將數(shù)據(jù)庫中所有文本與檢索項匹配的檢索方法。計算機(jī)索引程序通過掃描文本中的每一個詞,對每一個詞建立一個索引,記錄該詞在文本中出現(xiàn)的次數(shù)和位置,當(dāng)用戶進(jìn)行檢索時,檢索程序依據(jù)事先建立完成的索引進(jìn)行查找,并將查找的結(jié)果反饋給用戶。全文檢索系統(tǒng)是按照全文檢索理論建立起來的,用于提供全文檢索服務(wù)的軟件系統(tǒng)。全文檢索系統(tǒng)可實現(xiàn)全文檢索,完全支持模糊檢索、同義詞檢索、布爾檢索等。全文檢索系統(tǒng)可提供每秒上百次的并發(fā)檢索支持,保證全面快速的響應(yīng)用戶檢索需求。
本方案采用Lucene全文搜索引擎。Lucene是一個開源的全文檢索引擎工具包,是一個JAVA編寫的全文檢索引擎的架構(gòu),其提供了完整的索引引擎和查詢引擎。Lucene提供的簡單易用工具包和程序接口,可以使軟件開發(fā)人員方便的在目標(biāo)系統(tǒng)中實現(xiàn)全文檢索的功能,也可以此為基礎(chǔ)建立起完整的全文檢索引擎。
圖1 中文分詞處理過程圖
2.2 中文分詞技術(shù)
中文分詞是中文信息處理的關(guān)鍵,它是信息檢索、文本分類、機(jī)器翻譯、自動標(biāo)引的基礎(chǔ),如對于東方語言(如中、日、韓等語音)的文字內(nèi)容,在做文字內(nèi)容分析之前,一般需要采用分詞技術(shù)將文字內(nèi)容進(jìn)行分詞。在對文字內(nèi)容進(jìn)行分詞的同時,也對整個系統(tǒng)的檢索精度和效率有很大影響。分詞系統(tǒng)在保證分詞的準(zhǔn)確、快速的同時,還要保證分詞系統(tǒng)與全文檢索系統(tǒng)的協(xié)調(diào)、配合。
圖2 CIP輔助標(biāo)引流程圖
現(xiàn)有的中文分詞技術(shù)主要有三種方法:(1)基于字符串匹配(詞典)的分詞方法,優(yōu)點是較容易實現(xiàn),但是精度不高;(2)基于理解(規(guī)則)的分詞方法,優(yōu)點是精度較高,但是規(guī)則不易維護(hù);(3)基于統(tǒng)計的分詞方法,優(yōu)點是無需切分字典,依據(jù)詞頻統(tǒng)計,可以有效識別未登錄詞,但是效率較低?,F(xiàn)有的中文分詞工具主要包括:Paoding、Imdict、mmseg4j、IKQueryParser、ICTCLAS等。
經(jīng)過深入比較,本方案采用中國科學(xué)院計算技術(shù)研究所研制出的中文分詞工具ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System)的 GB2312版本,主要功能包括中文分詞;新詞識別;命名實體識別;詞性標(biāo)注;同時支持用戶詞典。用戶可以直接自定義輸出的詞類標(biāo)準(zhǔn),定義輸出格式;用戶可以根據(jù)自己的需求,進(jìn)行量身自助式定做適合自己的分詞系統(tǒng)。分詞精度達(dá)到98%以上,API和各種壓縮后的詞典數(shù)據(jù)均較小,是目前最優(yōu)秀的漢語詞法分析器。ICTCLAS全部采用C/C++編寫,支持Linux、Windows等多種操作系統(tǒng),支持C/ C++/C#/Java /Delphi等主流開發(fā)語言。ICTCLAS支持當(dāng)前廣泛認(rèn)同的分詞和詞類標(biāo)準(zhǔn)。
圖3 功能架構(gòu)圖
3.1實現(xiàn)思路
依據(jù)CIP標(biāo)準(zhǔn)庫中的歷史數(shù)據(jù):建立CIP規(guī)范庫,并生成分類號、主題詞對照表。通過將出版社申報的原始CIP數(shù)據(jù)記錄中“正書名、副書名、交替書名、合訂書名、并列書名、分冊名、附注項、內(nèi)容提要”等字段分詞,利用全文檢索搜索引擎技術(shù),在CIP規(guī)范庫中查找相似的數(shù)據(jù),為標(biāo)引人員提示建議分類號和建議主題詞,再由標(biāo)引人員手工選取提示結(jié)果。
3.2 實施流程(見圖2)
3.3 功能架構(gòu)(見圖3)
3.4 功能概述
3.4.1 全文檢索
采用開源全文檢索引擎(Lucene),解決目前數(shù)據(jù)庫對文本信息模糊檢索效率低問題,同時縮短在線生成輔助標(biāo)引信息響應(yīng)時間。中文分詞采用漢語詞法分析系統(tǒng)ICTCLAS。
3.4.2 CIP規(guī)范庫管理
CIP規(guī)范庫是獨立的CIP數(shù)據(jù)庫,數(shù)據(jù)來源為目前CIP系統(tǒng)中標(biāo)準(zhǔn)庫數(shù)據(jù)。用戶可以通過批量導(dǎo)入的方式將CIP系統(tǒng)的標(biāo)準(zhǔn)庫數(shù)據(jù)導(dǎo)入到規(guī)范庫中,相關(guān)用戶在此基礎(chǔ)上不斷地完善規(guī)范庫,使其形成CIP數(shù)據(jù)標(biāo)準(zhǔn),同時生成分類號主題詞對應(yīng)表,如圖4所示。
規(guī)范庫管理功能包括:
(1)數(shù)據(jù)導(dǎo)入:在現(xiàn)有標(biāo)準(zhǔn)庫中選中記錄導(dǎo)入到規(guī)范庫中;
(2)數(shù)據(jù)維護(hù):可以對規(guī)范庫進(jìn)行修改、刪除;
(3)批量修改:支持批量修改主題詞和分類號。
圖4 CIP規(guī)范庫管理
3.4.3 詞庫管理
3.4.3.1 停用詞庫
由于書名、內(nèi)容提要等信息中存在一些時間、地名等停用詞,將這些詞統(tǒng)一維護(hù)在停用詞庫,可以提高檢索精度。
3.4.3.2 分類號主題詞對應(yīng)表
3.4.3.3 字段權(quán)重管理
字段權(quán)重可以由正書名、副書名、交替書名、合訂書名、并列書名、分冊名、附注項、內(nèi)容提要等字段組成。字段權(quán)重越高,智能生成返回的主題詞分類號的準(zhǔn)確率越高。
3.5 實驗結(jié)果
3.5.1 實驗環(huán)境
聯(lián)想ThinkPad T430i筆記本(內(nèi)存:4G,CPU:i5-3337U),Tomcat 7.0
3.5.2 CIP規(guī)范庫的建立
我們用CIP標(biāo)準(zhǔn)庫的340多萬條數(shù)目數(shù)據(jù)位基礎(chǔ)建立CIP規(guī)范庫,其中包括“CIPID”、“正書名”、“副書名”、“交替書名、“合訂書名”、“并列書名”、“分冊名”、“附注項”、“內(nèi)容提要”、“主題詞”、“分類號”等字段。將這些數(shù)據(jù)分詞、存儲、建索引后數(shù)據(jù)大小約4G。
3.5.3 檢索輸入
我們將出版社申報的原始圖書信息作為輸入內(nèi)容。對輸入內(nèi)容按照中文分詞技術(shù)提取關(guān)鍵詞,作為搜索引擎的輸入。
3.5.4 檢索輸出
輸出結(jié)果是與輸入內(nèi)容相近的5個CIP規(guī)范庫中的書目,包含所有字段內(nèi)容和每個匹配書目的得分。
3.5.5 實驗結(jié)果
單次全新檢索的平均檢索時間小于6秒(包括對輸入內(nèi)容提取關(guān)鍵詞和檢索出結(jié)果的整個過程)。通過人工判定,與輸入內(nèi)容最相近的主題、分類標(biāo)引內(nèi)容都排在返回結(jié)果的前面。
本文在采用Lucene全文檢索引擎包和中文分詞工具ICTCLAS的基礎(chǔ)上,制定了圖書在版編目(CIP)自動輔助標(biāo)引方案,并對該方案進(jìn)行了初步測試。依據(jù)測試結(jié)果可以看出該方案能夠針對出版社新報送的CIP數(shù)據(jù)快速生成輔助標(biāo)引提示。實際應(yīng)用中,可以調(diào)節(jié)關(guān)鍵詞過濾條件(最低詞頻、最小詞長度、最小文檔頻率、最多檢索關(guān)鍵詞數(shù)等),來優(yōu)化效率和精確性。
[1]余 春. 自動標(biāo)引研究進(jìn)展[J]. 圖書館學(xué)研究,2012,04:18-22.
[2]蘇武華. 漢語自動分詞和自動標(biāo)引方法研究[J].農(nóng)業(yè)圖書情報學(xué)刊,2004,07:103-105.
[3]王 莉,許 凱. 淺談文本數(shù)據(jù)自動標(biāo)引系統(tǒng)的設(shè)計[J].圖書館理論與實踐,2013,06:95-97.
[4]王 昊,鄒杰利,鄧三鴻.面向中文圖書的自動標(biāo)引模型構(gòu)建及實驗分析[J].現(xiàn)代圖書情報技術(shù),2013,Z1:55-62.
[5]龍樹全,趙正文,唐 華. 中文分詞算法概述[J].電腦知識與技術(shù),2009,10:2605-2607.
[6]熊泉浩.中文分詞現(xiàn)狀及未來發(fā)展[J].科技廣場,2009,11:222-225.
[7]王志嘉,薛 質(zhì).一種基于Lucene的中文分詞的設(shè)計與測試[J].信息技術(shù),2010,12:50-54.
[8]李穎,李志蜀,鄧 歡.基于Lucene的中文分詞方法設(shè)計與實現(xiàn)[J].四川大學(xué)學(xué)報(自然科學(xué)版),2008,05:1095-1099.
[9]黃翼彪.實現(xiàn)Lucene接口的中文分詞器的比較研究[J].科技信息,2012,12:246-247.
主題詞對應(yīng)表是依據(jù)CIP規(guī)范庫自動生成,由三個字段組成,關(guān)鍵詞串、主題詞和分類號,通過中文分詞工具獲得的詞語通過查找《分類號主題詞對應(yīng)表》的關(guān)鍵詞串可以快速獲得輔助主題詞和分類號。