薛春香?。暇├砉ご髮W(xué)信息管理系 江蘇 南京 210094)何 琳 侯漢清(南京農(nóng)業(yè)大學(xué)信息科技學(xué)院 江蘇 南京 210095)
基于《中圖法》知識(shí)庫(kù)的自動(dòng)分類相關(guān)問題探析*
薛春香(南京理工大學(xué)信息管理系 江蘇 南京 210094)
何琳侯漢清(南京農(nóng)業(yè)大學(xué)信息科技學(xué)院 江蘇 南京 210095)
在網(wǎng)絡(luò)環(huán)境下,傳統(tǒng)分類法的應(yīng)用環(huán)境和核心功能發(fā)生了轉(zhuǎn)變。基于《中圖法》知識(shí)庫(kù)的自動(dòng)分類能夠滿足當(dāng)前數(shù)字信息資源組織和檢索的需要,但其在知識(shí)庫(kù)規(guī)模、分類算法、《中圖法》分類體系等方面存在問題。這些問題可以從自動(dòng)分類的適應(yīng)性改造和知識(shí)庫(kù)更新方面進(jìn)行改進(jìn)。
文本自動(dòng)分類《中國(guó)圖書館分類法》分類知識(shí)庫(kù)數(shù)字信息資源組織
分類法作為一種古老的知識(shí)組織工具,在實(shí)體資源組織與檢索過程中一直發(fā)揮著重要作用,尤其在資源排架和目錄檢索方面。但隨著資源對(duì)象主體從實(shí)體館藏到虛擬資源、用戶從專業(yè)人員到大眾用戶以及外部環(huán)境的變化,傳統(tǒng)分類法的功能也要發(fā)生相應(yīng)轉(zhuǎn)變。
1.1傳統(tǒng)分類法應(yīng)用環(huán)境的轉(zhuǎn)變
傳統(tǒng)文獻(xiàn)分類法系統(tǒng)性強(qiáng)、知識(shí)結(jié)構(gòu)良好,是傳統(tǒng)圖書情報(bào)機(jī)構(gòu)信息資源組織和管理的重要工具。計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的普及使得傳統(tǒng)信息環(huán)境發(fā)生了巨大變化。
(1)資源對(duì)象的變化。隨著現(xiàn)代信息技術(shù)的迅猛發(fā)展,特別是數(shù)字信息環(huán)境的形成,信息的生產(chǎn)、存儲(chǔ)、傳遞、利用都發(fā)生了根本性變革,海量數(shù)字信息資源已逐漸成為信息資源的主體,這導(dǎo)致傳統(tǒng)分類法在物理資源管理上的排架功能被大大弱化。
(2)用戶主體的改變。搜索引擎及各種檢索工具在線服務(wù)的提供使普通用戶成為信息資源的直接消費(fèi)者;原來由專業(yè)情報(bào)人員提供的信息檢索和篩選工作越來越多地由普通用戶直接完成。同時(shí),基于關(guān)鍵詞檢索的搜索引擎培養(yǎng)了大眾用戶“即刻滿足”的信息消費(fèi)習(xí)慣以及簡(jiǎn)單、易用、友好的消費(fèi)需求。分類法使用者從少量的圖書館用戶向數(shù)以千萬計(jì)的網(wǎng)絡(luò)用戶轉(zhuǎn)變,在這種用戶環(huán)境下,傳統(tǒng)分類法的專業(yè)性、系統(tǒng)性反而成為普通用戶使用它的掣肘。
因此,網(wǎng)絡(luò)環(huán)境下“分類法無用論”不絕于耳。計(jì)算機(jī)強(qiáng)大的搜索功能讓人們?cè)絹碓竭m應(yīng)沒有精確分類組織的信息環(huán)境,但分類能帶來更好的檢索結(jié)果依然是毋庸置疑的事實(shí)[1]。傳統(tǒng)文獻(xiàn)分類法對(duì)于數(shù)字信息資源的加工、組織、檢索、利用依然有效,只是其資源排架和目錄檢索的傳統(tǒng)核心功能隨著外部信息環(huán)境變化發(fā)生了相應(yīng)轉(zhuǎn)變。
1.2傳統(tǒng)分類法核心功能的轉(zhuǎn)變
(1)分類法的資源排架功能向系統(tǒng)組織功能轉(zhuǎn)變。面對(duì)數(shù)字信息資源,傳統(tǒng)分類法的排架功能逐漸消弱;但作為一種主題組織工具,其系統(tǒng)組織功能對(duì)數(shù)字信息資源依然有用。自20世紀(jì)90年代后期以來,OCLC等研究機(jī)構(gòu)實(shí)施了一系列研究計(jì)劃,將DDC、UDC、LCC等傳統(tǒng)分類法應(yīng)用于數(shù)字資源的描述、組織和檢索[2];涌現(xiàn)了一批基于分類組織和導(dǎo)航的數(shù)字資源網(wǎng)關(guān),如NetFirst(DDC)、Canadian Information by Subject(DDC)、BUBL(DDC)、NISS Information Gateway(UDC)、SOSIG(UDC)等。分類法對(duì)網(wǎng)絡(luò)信息資源的系統(tǒng)組織和知識(shí)導(dǎo)航起到了重要作用。但隨著數(shù)字資源的激增,人工編輯效率低下導(dǎo)致其中一些資源網(wǎng)關(guān)已停止服務(wù),針對(duì)日益激增的數(shù)字信息資源迫切需要提供自動(dòng)分類技術(shù)來解決其人工分類組織效率低下的問題。
(2)分類法的目錄檢索功能向檢索控制和結(jié)果篩選功能轉(zhuǎn)變。分類目錄和主題目錄是從內(nèi)容角度提供信息資源檢索的兩條主要途徑。關(guān)鍵詞的直觀性、易獲取使得主題檢索成為網(wǎng)絡(luò)環(huán)境下普通用戶信息檢索的不二選擇,因此分類目錄使用頻率極低。但分類法良好的知識(shí)結(jié)構(gòu)和學(xué)科屬性,能夠有效地控制檢索關(guān)鍵詞的學(xué)科范疇、提供檢索結(jié)果的分組和篩選,對(duì)輔助主題檢索獲取高質(zhì)量檢索結(jié)果具有事半功倍的效果。
因此,正如Vizine-Goetz Diane[3]所言,傳統(tǒng)文獻(xiàn)分類法具有良好的知識(shí)結(jié)構(gòu),在網(wǎng)絡(luò)信息資源描述、組織和資源發(fā)現(xiàn)上具有巨大潛力和優(yōu)勢(shì):能提供面向主題的瀏覽結(jié)構(gòu)、檢索詞上下文信息、檢索精化、檢索結(jié)果的分組和篩選,并支持多語言訪問。網(wǎng)絡(luò)環(huán)境下,分類法作為主題組織工具的功能應(yīng)被進(jìn)一步強(qiáng)化。但信息環(huán)境的變化使得人工分類已遠(yuǎn)不能滿足大規(guī)模、海量生成的數(shù)字資源加工和組織的需要,必須從手工分類轉(zhuǎn)向自動(dòng)分類,并且向多維度、多標(biāo)簽、多層次分類發(fā)展。
文本自動(dòng)分類與自然語言處理、機(jī)器學(xué)習(xí)密切相關(guān),目前對(duì)網(wǎng)絡(luò)上文本信息資源自動(dòng)分類的研究,計(jì)算機(jī)領(lǐng)域?qū)<覍W(xué)者占據(jù)優(yōu)勢(shì)。20世紀(jì)50年代末,美國(guó)學(xué)者盧恩在這一領(lǐng)域進(jìn)行了開創(chuàng)性研究,提出將詞頻統(tǒng)計(jì)思想應(yīng)用于文本自動(dòng)分類。此后Gerard Salton、K Sparck Jones和Roger Michael Needham等在這一領(lǐng)域進(jìn)行了卓有成效的研究[4]。60—80年代,基于專家智慧的知識(shí)工程方法是文本自動(dòng)分類的主流,該方法主要依賴專家智慧手工建立分類規(guī)則。90年代開始,隨著人工智能和語料庫(kù)研究的發(fā)展,機(jī)器學(xué)習(xí)方法逐漸取代知識(shí)工程方法[5]。這些研究主要由計(jì)算機(jī)領(lǐng)域?qū)W者展開,在文本分類算法、分類器構(gòu)造、語料庫(kù)建設(shè)等方面取得了顯著進(jìn)展,分類效率高,但也存在類別少、層次淺等不足。
圖書情報(bào)領(lǐng)域則另辟蹊徑,更多地關(guān)注如何充分利用在圖書館環(huán)境下發(fā)展和使用的受控詞表(如文獻(xiàn)分類法、敘詞表)來實(shí)現(xiàn)文獻(xiàn)自動(dòng)分類[6-7]。
2.1基于傳統(tǒng)文獻(xiàn)分類法的文本自動(dòng)分類研究
由于傳統(tǒng)文獻(xiàn)分類法在信息資源組織中占有重要地位,針對(duì)網(wǎng)絡(luò)環(huán)境下文獻(xiàn)信息快速加工、組織的迫切需求,圖書情報(bào)領(lǐng)域?qū)W者紛紛探索基于傳統(tǒng)文獻(xiàn)分類法的自動(dòng)分類,OCLC、歐盟等組織在信息資源自動(dòng)分類和主題識(shí)別領(lǐng)域開展了多個(gè)大型研究項(xiàng)目,如OCLC的Scorpion Project(蝎子計(jì)劃)、歐盟的DESIRE,利用DDC、UDC、LCC對(duì)數(shù)字信息資源進(jìn)行自動(dòng)分類和主題識(shí)別[8]。從實(shí)現(xiàn)路徑看,圖書情報(bào)領(lǐng)域自動(dòng)分類的探索主要基于兩種途徑:一是基于字符串匹配,通過待分類文獻(xiàn)中抽取的語詞與來自分類表、敘詞表中語詞的匹配來查找最相關(guān)的分類號(hào),Scorpion是該方法的典型系統(tǒng)代表;此外,Larson[9]以LCC為框架,利用MARC記錄中的標(biāo)題和主題詞,進(jìn)行不同匹配方法和標(biāo)引源的分類對(duì)比實(shí)驗(yàn);Jenkins等人[10]使用DDC和書目記錄進(jìn)行分類實(shí)驗(yàn)。二是引入機(jī)器學(xué)習(xí)領(lǐng)域的SVM、k-NN、貝葉斯等分類模型和算法,以DDC、LCC等為分類框架進(jìn)行數(shù)字信息資源的自動(dòng)分類。Pong等人[11]通過精煉LCC的類目體系,引入貝葉斯和k-NN兩種分類算法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)表明k-NN具有較好分類效果。Mehler等人[12]以DDC為分類框架,通過兩個(gè)分類器對(duì)比實(shí)驗(yàn),指出以DDC這一封閉的分類體系作為分類框架是合適的,能滿足有指導(dǎo)的機(jī)器學(xué)習(xí)對(duì)于訓(xùn)練集可靠性的要求。從國(guó)外基于傳統(tǒng)分類法進(jìn)行自動(dòng)分類的實(shí)踐來看,圖書情報(bào)領(lǐng)域?qū)W者更關(guān)注于分類法、受控詞表、書目記錄、引文信息[13]等傳統(tǒng)圖書館資源在自動(dòng)分類中的利用,同時(shí),也開始重視分類算法比較研究及其在基于傳統(tǒng)分類法的文本自動(dòng)分類中的適用性。
國(guó)內(nèi)20世紀(jì)90年代,張琪玉先生[14]提出從科技文獻(xiàn)主題揭示的需求出發(fā),充分利用分類表、詞表優(yōu)勢(shì),融合了概念分面組配和分類主題一體化思想,提出一種較易實(shí)現(xiàn)的中文文本信息自動(dòng)分類模式:以文獻(xiàn)題名作為主要抽詞對(duì)象,適當(dāng)采用人工輔助抽詞措施以保證抽詞質(zhì)量,采用分面分類法模式以減少概念歸類的復(fù)雜性,控制自動(dòng)歸類諸環(huán)節(jié),利用“關(guān)鍵詞—概念詞—分類號(hào)”對(duì)應(yīng)表以提供自然語言入口,保留原始關(guān)鍵詞以提供自然語言檢索功能,形成一個(gè)由“軟件+分面分類法+關(guān)鍵詞—概念詞—分類號(hào)對(duì)應(yīng)表+數(shù)據(jù)庫(kù)”構(gòu)成的自動(dòng)分類系統(tǒng)。在這一思想啟發(fā)下,本研究團(tuán)隊(duì)以國(guó)內(nèi)應(yīng)用最為廣泛的《中圖法》及各類標(biāo)引資源(包括《中圖法》類目信息、《中圖法》索引、中分表》、文獻(xiàn)數(shù)據(jù)庫(kù)分類標(biāo)引數(shù)據(jù)等)為基礎(chǔ),構(gòu)建面向自動(dòng)分類需要的分類知識(shí)庫(kù),探索出一條基于《中圖法》知識(shí)庫(kù)的自動(dòng)分類實(shí)踐之路。
2.2基于《中圖法》知識(shí)庫(kù)的文本自動(dòng)分類研究概述
自20世紀(jì)90年代中后期,本團(tuán)隊(duì)對(duì)基于傳統(tǒng)文獻(xiàn)分類法的文本自動(dòng)分類展開了長(zhǎng)期研究,包括基于標(biāo)引經(jīng)驗(yàn)的自動(dòng)分類方法研究[15]、用于自動(dòng)分類的《中圖法》知識(shí)庫(kù)設(shè)計(jì)與構(gòu)建[16]、基于實(shí)例匹配的文本分類算法[17],以及對(duì)不同類型文獻(xiàn)的自動(dòng)分類實(shí)踐。
2.2.1基于標(biāo)引經(jīng)驗(yàn)的自動(dòng)分類方法研究
張琪玉先生根據(jù)分類主題一體化思想,通過“分類號(hào)—主題詞”對(duì)應(yīng)關(guān)系來實(shí)現(xiàn)文獻(xiàn)主題標(biāo)引詞(關(guān)鍵詞、敘詞)到分類號(hào)的轉(zhuǎn)換。但基于專家智慧構(gòu)建的《中分表》規(guī)模過小、詞匯陳舊,無法提供構(gòu)建分類器所需大規(guī)模訓(xùn)練語料的語料保障。而現(xiàn)有文獻(xiàn)數(shù)據(jù)庫(kù)中存在大量由專業(yè)人員完成的圖書、期刊論文標(biāo)引數(shù)據(jù),這些標(biāo)引數(shù)據(jù)由標(biāo)引詞和分類號(hào)組成,是一個(gè)匯聚大量人工智慧的標(biāo)引分類經(jīng)驗(yàn)庫(kù)和實(shí)例庫(kù)?;跇?biāo)引經(jīng)驗(yàn)的自動(dòng)分類依據(jù)情報(bào)語言兼容互換原理,即分類語言、主題語言、自然語言都是概念標(biāo)識(shí),可以建立相互間的映射關(guān)系。因此,我們可以采用統(tǒng)計(jì)方法對(duì)這些人工標(biāo)引記錄進(jìn)行關(guān)聯(lián)挖掘,建立“分類號(hào)—關(guān)鍵詞串”對(duì)應(yīng)表,構(gòu)建分類知識(shí)庫(kù);再將文本標(biāo)引詞串與分類知識(shí)庫(kù)中的詞串進(jìn)行相似度計(jì)算,給出相似度最大的詞串對(duì)應(yīng)的類號(hào),完成自動(dòng)分類。這種自動(dòng)分類方法基于情報(bào)語言兼容互換原理和概念標(biāo)識(shí)轉(zhuǎn)換技術(shù),充分利用了現(xiàn)有分類表、敘詞表和標(biāo)引數(shù)據(jù)資源,分類算法簡(jiǎn)單、運(yùn)算量少、分類深度大,是圖書情報(bào)界開辟的一種自動(dòng)分類新方法。
2.2.2用于自動(dòng)分類的《中圖法》知識(shí)庫(kù)構(gòu)建
《中圖法》分類知識(shí)庫(kù)是一個(gè)以《中圖法》分類體系為骨架,融合了各種詞表資源(包括分類表、主題詞、關(guān)鍵詞、專有名詞、語義詞典等)并建立內(nèi)部關(guān)聯(lián)所形成的知識(shí)庫(kù),為文本抽詞、關(guān)鍵詞提取、分類號(hào)轉(zhuǎn)換等一系列標(biāo)引分類工作提供所需詞典資源。圖1是《中圖法》分類知識(shí)庫(kù)的組成。
圖1 《中圖法》分類知識(shí)庫(kù)組成
其中,由“分類號(hào)—關(guān)鍵詞串”對(duì)應(yīng)關(guān)系組成的主分類知識(shí)庫(kù)是《中圖法》知識(shí)庫(kù)實(shí)現(xiàn)自動(dòng)分類功能的核心,由一個(gè)個(gè)分類實(shí)例組成,其原始數(shù)據(jù)主要來自《中分表》、《中圖法》類目索引及大規(guī)模標(biāo)引數(shù)據(jù)。為了從大規(guī)模主題分類雙重標(biāo)引數(shù)據(jù)中提取和建立準(zhǔn)確的“分類號(hào)—關(guān)鍵詞串”的對(duì)應(yīng)關(guān)系,需要對(duì)標(biāo)引數(shù)據(jù)進(jìn)行數(shù)據(jù)整合與清理、復(fù)分仿分類目的分面剝離、“分類號(hào)—關(guān)鍵詞串”的關(guān)聯(lián)發(fā)現(xiàn)和相關(guān)度判別,最終生成可用于實(shí)現(xiàn)各種數(shù)字信息資源自動(dòng)歸類的《中圖法》分類知識(shí)庫(kù)。
2.2.3基于實(shí)例匹配的自動(dòng)分類算法
經(jīng)典的文本自動(dòng)分類算法主要有支持向量機(jī)、貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、決策樹、k-NN、最近鄰等?;诜诸愔R(shí)庫(kù)的自動(dòng)分類系統(tǒng)采用詞串匹配算法,通過計(jì)算標(biāo)引詞串與知識(shí)庫(kù)中每一個(gè)分類實(shí)例的字面相似度與語義相似度來實(shí)現(xiàn)詞串定類,是一種基于實(shí)例的匹配。從算法的時(shí)間復(fù)雜度來看,知識(shí)庫(kù)規(guī)模為N條,分類過程的時(shí)間復(fù)雜度為D(N),時(shí)間復(fù)雜度小。但當(dāng)知識(shí)庫(kù)規(guī)模擴(kuò)大時(shí),分類時(shí)間復(fù)雜度也會(huì)相應(yīng)增加。因此為了實(shí)現(xiàn)多步驟、多層次分類需要構(gòu)建面向多次分類的層次知識(shí)庫(kù)。
2.2.4基于《中圖法》知識(shí)庫(kù)的自動(dòng)分類優(yōu)點(diǎn)分析
總而言之,《中圖法》知識(shí)庫(kù)應(yīng)用于自動(dòng)分類具有如下優(yōu)勢(shì):
(1)在文本分類領(lǐng)域,大多數(shù)研究都集中在淺層粗略分類體系,所定義的類別數(shù)量有限,類別之間基本孤立,沒有任何結(jié)構(gòu)關(guān)系。當(dāng)類別數(shù)量激增時(shí),該分類方法則無法滿足要求。因此,像《中圖法》這樣類目詳盡、層次清晰的分類體系能夠滿足量級(jí)龐大的數(shù)字信息資源分類需求。
(2)高質(zhì)量標(biāo)注語料是采用機(jī)器學(xué)習(xí)方法生成分類器的重要保障。專業(yè)標(biāo)引人員手工完成的大量標(biāo)引數(shù)據(jù),是廣大標(biāo)引人員智慧的結(jié)晶,每一個(gè)標(biāo)引實(shí)例都是高質(zhì)量標(biāo)注語料,基于此來訓(xùn)練《中圖法》各類目的類別特征能夠?qū)崿F(xiàn)較好的類別表征。
(3)類別表征的高維度一直是困擾文本分類的關(guān)鍵問題,往往需要引入外部資源來進(jìn)行語義控制從而實(shí)現(xiàn)特征降維?;跇?biāo)引數(shù)據(jù)構(gòu)建《中圖法》知識(shí)庫(kù),以“分類號(hào)—關(guān)鍵詞串”對(duì)應(yīng)表為核心,一個(gè)類目由多個(gè)關(guān)鍵詞串來表征,每個(gè)詞串由3~10個(gè)關(guān)鍵詞組成來表示類目含義,避免了類目表征的特征詞高維度問題。
在十余年基于《中圖法》知識(shí)庫(kù)的自動(dòng)分類研究和實(shí)踐中,知識(shí)庫(kù)構(gòu)建和分類算法等方面也存在一些需要解決的問題。
3.1存在的問題
3.1.1《中圖法》類目體系對(duì)自動(dòng)分類的影響
目前多數(shù)自動(dòng)分類系統(tǒng)建立在粗略分類體系之上,大多數(shù)分類體系類目在百余個(gè),類目數(shù)量少且類目之間的互斥性大。而《中圖法》類目體系龐大,固定類目已達(dá)數(shù)萬個(gè);且同一大類的眾多下位類之間語義關(guān)聯(lián)度大、區(qū)分度小。類別間的主題越接近,越難區(qū)分,這給自動(dòng)分類造成極大的困難。
此外,《中圖法》類目體系的設(shè)計(jì)結(jié)構(gòu)對(duì)分類效果也有很大影響。其中,自然科學(xué)各大類先按主題分再按地區(qū)分,自然科學(xué)的體例更為合理,相同主題會(huì)集中于一個(gè)類號(hào)下;而社會(huì)科學(xué)各大類多先按地區(qū)分,再按主題分,如“中國(guó)海軍”與“美國(guó)海軍”具有相同的學(xué)科主題,但是在分類法中卻要先按照地區(qū)分在不同類(E2和E712),然后再在各自類下細(xì)分,在基于實(shí)例匹配的分類時(shí)極易導(dǎo)致錯(cuò)分。
3.1.2知識(shí)庫(kù)構(gòu)建中訓(xùn)練語料的偏斜問題
分類知識(shí)庫(kù)構(gòu)建過程中,訓(xùn)練語料中類目分布往往不均衡,不同類目間的樣本數(shù)量存在數(shù)量級(jí)差距,這是導(dǎo)致分類效果不理想的一個(gè)重要因素。有些類目由于實(shí)際標(biāo)引數(shù)據(jù)龐大導(dǎo)致其在知識(shí)庫(kù)中占有比例大,有些類目則因?qū)嶋H標(biāo)引數(shù)據(jù)少而導(dǎo)致訓(xùn)練數(shù)據(jù)不足,這就導(dǎo)致訓(xùn)練出的知識(shí)庫(kù)中小類被大類淹沒,甚至某些小類由于數(shù)量過少而被過濾最終無法在知識(shí)庫(kù)中呈現(xiàn)。因此,知識(shí)庫(kù)構(gòu)建過程中需要對(duì)小類的分類特征提取予以優(yōu)化或給予提高權(quán)重來獲得知識(shí)庫(kù)對(duì)小類別特征的重視,從而能夠在有限范圍內(nèi)提高小類的分類正確率。
3.1.3自動(dòng)分類算法的設(shè)計(jì)問題
《中圖法》是一部詳盡專深的綜合性分類法,類目數(shù)量龐大且類目間存在概念交叉、特征詞相近的情形,在分類中會(huì)由于特征詞相近而導(dǎo)致分類錯(cuò)誤,這種情況在“政治、法律”大類中尤為明顯。此外,由于分類采用的是基于字符串匹配的方法,當(dāng)知識(shí)庫(kù)數(shù)量極為龐大時(shí),若一次調(diào)用所有類目的分類實(shí)例會(huì)導(dǎo)致內(nèi)存開銷過大,從而影響自動(dòng)分類的效率。因此,在算法設(shè)計(jì)方面,一方面需考慮多次分類、粗分類與細(xì)分類相結(jié)合;另一方面,在類別特征抽取方面應(yīng)進(jìn)一步加大篩選力度,提高現(xiàn)有系統(tǒng)分類效率。
3.2《中圖法》知識(shí)庫(kù)的改進(jìn)
3.2.1《中圖法》對(duì)自動(dòng)分類的適應(yīng)性改造
《中圖法》產(chǎn)生于網(wǎng)絡(luò)環(huán)境之前,其初衷是為了滿足分類排架的需要,因此在體系設(shè)計(jì)中有諸多不適于機(jī)器自動(dòng)分類的弊端,需要進(jìn)行適應(yīng)性改造,使其類目體系更適合于機(jī)器處理。主要包括:①仿分復(fù)分類目的處理,尤其要著力改造社會(huì)科學(xué)部類,改變大類下“先按地區(qū)后按主題”的劃分方法,并將復(fù)分、仿分號(hào)游離出來。②“稀有類別”的處理,在實(shí)際文獻(xiàn)分布中有些類別標(biāo)引數(shù)據(jù)極少,使得這些類目在知識(shí)庫(kù)構(gòu)建中面臨訓(xùn)練數(shù)據(jù)不足的問題,可以根據(jù)實(shí)際標(biāo)引數(shù)據(jù)數(shù)量,對(duì)《中圖法》進(jìn)行類目體系重構(gòu),將“稀有類別”分別并入其上位類,建立一棵分布均勻的分類樹[18]。
3.2.2知識(shí)庫(kù)更新的改進(jìn)
本研究中知識(shí)庫(kù)是自動(dòng)分類的基礎(chǔ),知識(shí)庫(kù)容量直接影響自動(dòng)分類的效果和效率。一方面,自然科學(xué)領(lǐng)域不斷產(chǎn)生新的科學(xué)術(shù)語,社會(huì)科學(xué)領(lǐng)域不斷涌現(xiàn)新的社會(huì)現(xiàn)象,如果不能及時(shí)將這些新的術(shù)語概念增補(bǔ)到知識(shí)庫(kù)中,將會(huì)造成主題標(biāo)引和自動(dòng)分類召回率低下的問題;另一方面,如果知識(shí)庫(kù)規(guī)模不斷擴(kuò)大、分類實(shí)例庫(kù)持續(xù)增加,也會(huì)導(dǎo)致分類時(shí)間復(fù)雜度增加,甚至影響分類準(zhǔn)確率。因此,需要為知識(shí)庫(kù)設(shè)置一種自更新機(jī)制,定期或根據(jù)新標(biāo)引記錄累積量,進(jìn)行新增標(biāo)引記錄與原知識(shí)庫(kù)記錄的比對(duì)和篩選,增補(bǔ)新的分類標(biāo)引實(shí)例,同時(shí)剔除一部分舊實(shí)例。
除了上述整體更新外,還需進(jìn)行偏重更新。在實(shí)際自動(dòng)分類過程中,分類錯(cuò)誤往往集中于某些類別,因此,后續(xù)研究中我們需要通過對(duì)自動(dòng)分類結(jié)果的審核與分析,發(fā)現(xiàn)自動(dòng)分類錯(cuò)誤集中的類別,對(duì)這部分類目重新收集標(biāo)引實(shí)例、重新訓(xùn)練來完善集中類目的知識(shí)庫(kù)更新。
4.1多維分類問題
《中圖法》是以學(xué)科分類為基礎(chǔ)的等級(jí)列舉式分類法,在分類過程中融合了地點(diǎn)、時(shí)代、文獻(xiàn)類型等分面。網(wǎng)絡(luò)環(huán)境下,分類組織更多是作為檢索結(jié)果的篩選方式,因此,在分類過程中除了考慮學(xué)科分類外,融合了其他分面特征的多維度分類是一種趨勢(shì)。在此前的知識(shí)庫(kù)設(shè)計(jì)中,為了保障分類效率,筆者已經(jīng)對(duì)復(fù)分、仿分類目進(jìn)行了分面處理,將地點(diǎn)、時(shí)代、文獻(xiàn)類型等分面從類目中游離出來,一方面保證了學(xué)科主題分類的準(zhǔn)確性,另一方面,從分類結(jié)果應(yīng)用來看,多維度、分面式分類結(jié)果的呈現(xiàn)更具有應(yīng)用價(jià)值。
4.2多層分類問題
《中圖法》等傳統(tǒng)文獻(xiàn)分類法是一個(gè)層次清晰的多層級(jí)分類體系,但目前所構(gòu)建的知識(shí)庫(kù)其實(shí)質(zhì)是實(shí)例庫(kù),分類過程采用基于詞串相似度計(jì)算的最近鄰分類方法,在知識(shí)庫(kù)構(gòu)建過程中忽視了對(duì)分類體系層級(jí)信息的利用,在分類過程中忽視了大類對(duì)細(xì)分類目的收斂作用。因此,構(gòu)建多層次分類知識(shí)庫(kù),通過自頂向下的分類步驟實(shí)現(xiàn)多層次分類更接近于人工分類的實(shí)現(xiàn)過程,是基于《中圖法》知識(shí)庫(kù)的自動(dòng)分類的未來發(fā)展方向。
4.3微分類問題
各種新媒體的發(fā)展方便用戶在互聯(lián)網(wǎng)上生產(chǎn)、發(fā)布、收藏和匯集各類自己所感興趣的信息資源。隨著個(gè)體用戶資源量的增長(zhǎng),個(gè)體用戶信息資源的自組織需求越來越迫切。分類作為一種系統(tǒng)的內(nèi)容組織方法為用戶所接受,但這部分用戶對(duì)于分類的需求呈現(xiàn)出類目體系微小、層級(jí)淺、個(gè)性化、多維度等特征。如何針對(duì)個(gè)體用戶的分類需求,根據(jù)用戶自擬定的微分類體系,通過對(duì)已有分類樣例的學(xué)習(xí),提供分類推薦功能是自動(dòng)分類適應(yīng)當(dāng)前網(wǎng)絡(luò)和用戶需求的另一個(gè)方向。
基于《中圖法》知識(shí)庫(kù)的自動(dòng)分類研究是我們對(duì)文獻(xiàn)分類法在數(shù)字信息資源組織上的探索。通過十余年研究和實(shí)踐,課題組在期刊論文、圖書、網(wǎng)頁、報(bào)紙等不同類型的文獻(xiàn)信息自動(dòng)標(biāo)引和分類上進(jìn)行了大量實(shí)踐,其成果在上海圖書館等圖書情報(bào)部門得到了實(shí)際應(yīng)用。在不斷實(shí)踐中,我們也逐步發(fā)現(xiàn)了該方法在知識(shí)庫(kù)構(gòu)建、分類算法優(yōu)化等方面存在的問題,課題組不斷探尋新方法來嘗試解決,以期不斷逼近更加正確的分類結(jié)果。隨著大規(guī)模互聯(lián)網(wǎng)內(nèi)容處理、機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘技術(shù)研究的深入,基于《中圖法》知識(shí)庫(kù)的文本分類中所遇到的問題將會(huì)逐步得到妥善解決,以滿足當(dāng)前數(shù)字信息資源組織和檢索中的多維度、多層次、細(xì)分類需要。
[1]Kumbhar R. Library Classification Trends in the 21st Century [M]. Oxford: Chandos Publishing Hexagon House, 2012:7.
[2]Matveyeva S J. A Role for Classification: The Organization of Resources on the Internet[EB/OL]. (2002 -06-14) [2014-09-01]. http://www.mlaforum.org/volumeI/issue2/roleClassification.html. [3]Vizine-Goetz D. OCLC Investigates Using Classification Tools to Organize Internet Data[C]//Visualizing Subject Access for 21st Century Information Resourcesl ( Clinic on Library Application of Data Processing//Processings). University of Lllinois Graduate School of (October 1998), 1998:93-105.
[4]Jones K S. Notes and References on Early Automatic Classification Work[J]. ACM SIGIR Forum,1991.25(2):10-17.
[5]Sebastiani F. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys, 2002,34(1):1- 47.
[6]Golub K. Automatic Subject Classification of Textual Web Pages Based on a Controlled Vocabulary: Challenges and Recommendations[J]. New Review of Hypermedia and Multimedia, 2006,12(1):11-27.
[7]Yi K. Automated Text Classification Using Library Classification Schemes:Trends, Issues, and Challenges[J]. International Cataloguing and Bibliographic Control, 2007,36(4):78-82.
[8]Gietz P. Report on Automatic Classification Systems: For the TERENA Activity Portal Coordination[R/OL]. (2001-06-19)[2014-09-11] .http://www.daasi.de/reports/Report-automaticclassification.html.
[9]Larson R R. Experiments in Automatic Library of Congress Classification[J]. Journal of the American Society for Information Science, 1992,43(2):130-148.
[10]Jenkins C, Jackson M, Burden P, et al. Automatic Classification of Web Resources Using Java and Dewey Decimal Classification[J]. Computer Networks and ISDN System, 1998,30(1-7):646-648.
[11]Pong J Y, Kwok R C, Lau R Y, et al. A Comparative Study of Two Automatic Document Classification Methods in a Library Setting[J]. Journal of Information Science, 2008,34(2):213-230.
[12]Mehler A, Waltinger U. Enhancing Document Modeling by Means of Open Topic Models: Crossing the Frontier of Classification Schemes in Digital Libraries by Example of the DDC[J]. Library Hi Tech, 2009,27(4): 520-539.
[13]Mahdi A E, Joorabchi A. Automatic Subject Classification of Scientific Literature Using Citation Metadata[C]. London: In Proceedings of the International Conference on Digital Enterprise and Information Systems (DEIS 2011), 2011:545-559.
[14]張琪玉. 概念分面組配型自動(dòng)分類系統(tǒng)[J]. 圖書館學(xué)刊, 2002 (6):9-10.
[15]何琳, 侯漢清, 白振田, 等. 基于標(biāo)引經(jīng)驗(yàn)和機(jī)器學(xué)習(xí)相結(jié)合的多層自動(dòng)分類[J]. 情報(bào)學(xué)報(bào), 2006,25(6):725- 729.
[16]侯漢清, 薛春香. 用于中文信息自動(dòng)分類的《中圖法》知識(shí)庫(kù)的構(gòu)建[J]. 中國(guó)圖書館學(xué)報(bào), 2005(5):82-86.
[17]侯漢清, 薛鵬軍. 基于知識(shí)庫(kù)的網(wǎng)頁自動(dòng)標(biāo)引和自動(dòng)分類系統(tǒng)的設(shè)計(jì)[J]. 大學(xué)圖書館學(xué)報(bào), 2004(1):50-55.
[18]Wang J. An Extensive Study on Automated Dewey Decimal Classification[J]. Journal of American Society for Information Science and Technology, 2009,60(11):2269-2286.
薛春香 女,博士,南京理工大學(xué)副教授,研究方向?yàn)樾畔⒔M織、智能信息處理。
何 琳 女,博士,南京農(nóng)業(yè)大學(xué)副教授,研究方向?yàn)樾畔⒔M織、本體構(gòu)建。
侯漢清 男,南京農(nóng)業(yè)大學(xué)教授,博士生導(dǎo)師,研究方向?yàn)榍閳?bào)語言學(xué)。
Analysis on Issues Related to the Automatic Classification Based on CLC Knowledge Base
The application environment and core functions of the traditional classification were transferred under the network environment. The automatic classification based on Chinese Library Classification (CLC )knowledge base could satisfy the need of the digital information organization and retrieval. However, it has some problems in aspects of the scale of the knowledge base, the classification algorithm, and the classification system. Lastly, a solution was put forward from aspects of the adaptive transformation of the automatic classification and knowledge base revision.
Automatic text classification; Chinese Library Classification; Knowledge base for classification; Digital information resource organization
G254
B
*本文系中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金“基于內(nèi)容與社會(huì)化信息融合視角的數(shù)字化報(bào)紙資源開發(fā)利用模式研究”,項(xiàng)目編號(hào):30920130132005;江蘇省社會(huì)科學(xué)基金項(xiàng)目“新媒體環(huán)境下報(bào)紙新聞信息資源開發(fā)利用研究”,項(xiàng)目編號(hào):14TQB10;國(guó)家留學(xué)基金資助。
2015-01-20 ]