張乃靜,鞠洪波,紀(jì) 平
中國(guó)林業(yè)科學(xué)研究院 資源信息研究所,北京 100091
基于本體的林業(yè)領(lǐng)域文檔特征權(quán)重模型
張乃靜,鞠洪波,紀(jì) 平
中國(guó)林業(yè)科學(xué)研究院 資源信息研究所,北京 100091
現(xiàn)有林業(yè)領(lǐng)域信息檢索方法多是以關(guān)鍵詞匹配為基礎(chǔ)的檢索方式,隨著林業(yè)相關(guān)研究的深入,林業(yè)領(lǐng)域信息總量在不斷增加,傳統(tǒng)的檢索方法已經(jīng)無(wú)法滿足檢索需求,例如用戶檢索“櫟樹”的相關(guān)信息,使用關(guān)鍵詞匹配進(jìn)行檢索時(shí)無(wú)法檢索到“櫟樹”的同義概念“柞樹”和“橡樹”。如何實(shí)現(xiàn)高效的林業(yè)領(lǐng)域信息檢索成為一個(gè)亟待解決的問(wèn)題。自Tim Berners-Lee[1]提出語(yǔ)義網(wǎng)以來(lái),許多研究嘗試將領(lǐng)域本體應(yīng)用在信息檢索上,來(lái)提高信息檢索的查準(zhǔn)率和查全率。文獻(xiàn)[2]利用語(yǔ)義標(biāo)注來(lái)改善檢索系統(tǒng)的性能;文獻(xiàn)[3]提出了一種基于領(lǐng)域本體的語(yǔ)義查詢擴(kuò)展模型,有效提高了農(nóng)業(yè)信息的檢索效率;文獻(xiàn)[4]建立了基于關(guān)鍵詞和基于概念的兩層索引結(jié)構(gòu),使用基于本體的概念擴(kuò)展和基于語(yǔ)義標(biāo)注的概念擴(kuò)展,提高了檢索的查全率和查準(zhǔn)率;文獻(xiàn)[5]利用本體知識(shí)庫(kù)推理實(shí)現(xiàn)了語(yǔ)義搜索;文獻(xiàn)[6]利用本體改進(jìn)了向量空間模型中排名算法;文獻(xiàn)[7]利用本體中概念的語(yǔ)義距離來(lái)計(jì)算語(yǔ)義檢索相關(guān)度。綜上所述,多數(shù)研究利用領(lǐng)域本體中對(duì)象的語(yǔ)義關(guān)系和語(yǔ)義推理機(jī)制來(lái)改善信息檢索,獲得了一定的效果,但這些方法仍然存在著一些局限性,例如語(yǔ)義關(guān)系僅考慮了概念間的語(yǔ)義距離,而忽略了概念在本體中的結(jié)構(gòu)因素,語(yǔ)義推理對(duì)本體要求較高,完善的本體是實(shí)現(xiàn)語(yǔ)義推理的基礎(chǔ),而構(gòu)建這樣的領(lǐng)域本體是一項(xiàng)巨大的知識(shí)工程,難以實(shí)現(xiàn)。本文利用本體中概念間的語(yǔ)義關(guān)系及結(jié)構(gòu)因素計(jì)算概念間的語(yǔ)義相似度,結(jié)合特征性頻率-倒排文檔頻率加權(quán)法(TF-IDF)[8],提出一種基于本體的林業(yè)領(lǐng)域文檔特征權(quán)重模型,為進(jìn)一步實(shí)現(xiàn)語(yǔ)義層次上的林業(yè)領(lǐng)域信息檢索提供前提,同時(shí)也為林業(yè)領(lǐng)域數(shù)據(jù)挖掘提供了一條新途徑。
本文提出的文檔特征權(quán)重模型主要包括3個(gè)部分:領(lǐng)域本體的構(gòu)建、文檔的預(yù)處理、文檔特征權(quán)重的計(jì)算。模型結(jié)構(gòu)如圖1所示,主要實(shí)施步驟如下:(1)收集林業(yè)領(lǐng)域知識(shí)并構(gòu)建林業(yè)領(lǐng)域本體;(2)對(duì)林業(yè)領(lǐng)域文檔進(jìn)行分析并去除停用詞;(3)計(jì)算領(lǐng)域詞匯在文檔中的TF-IDF權(quán)重;(4)基于林業(yè)領(lǐng)域本體計(jì)算本體內(nèi)各概念及實(shí)例之間的語(yǔ)義相似度;(5)結(jié)合TF-IDF和語(yǔ)義相似度計(jì)算基于本體的林業(yè)領(lǐng)域文檔特征權(quán)重。
圖1 基于本體的林業(yè)領(lǐng)域文檔特征權(quán)重計(jì)算流程圖
2.1 本體的構(gòu)建
2.1.1 本體的定義
本體源于哲學(xué)上的一個(gè)概念,用于描述事物存在的本質(zhì)。斯坦福大學(xué)知識(shí)系統(tǒng)實(shí)驗(yàn)室的Gruber最早給出了在信息科學(xué)領(lǐng)域被廣泛接受的本體定義:“本體是概念模型的明確規(guī)范說(shuō)明”[9]。Studer等人在對(duì)本體進(jìn)行深入研究后,提出了一個(gè)本體概念界定:本體是共享概念模型明確的形式化規(guī)范說(shuō)明[10]。本體之所以重要的一個(gè)原因是它對(duì)某個(gè)領(lǐng)域的概念的共識(shí)有利于知識(shí)的表達(dá)和傳播。一般地,一個(gè)本體由概念、關(guān)系、函數(shù)、公理和實(shí)例5個(gè)基本的建模元語(yǔ)(Modeling Primitives)構(gòu)成[11]。領(lǐng)域本體的構(gòu)建方法如圖2所示。
圖2 領(lǐng)域本體的構(gòu)建方法
2.1.2 本體的構(gòu)建
本體的實(shí)質(zhì)是利用領(lǐng)域概念術(shù)語(yǔ)和關(guān)系來(lái)構(gòu)建領(lǐng)域模型,本體的構(gòu)建是一個(gè)長(zhǎng)期的不斷改進(jìn)補(bǔ)充的過(guò)程。本文中本體的構(gòu)建步驟如下:(1)確定領(lǐng)域知識(shí)范圍;(2)構(gòu)建本體中涉及的核心概念集及核心概念關(guān)系;(3)構(gòu)建屬性及屬性關(guān)系;(4)創(chuàng)建實(shí)例,使用protégé(http://protege. stanford.edu/)工具對(duì)其進(jìn)行形式化編碼,將構(gòu)建的本體變成人和機(jī)器都可以理解的表達(dá)形式。基于林業(yè)領(lǐng)域標(biāo)準(zhǔn)規(guī)范、網(wǎng)絡(luò)及專業(yè)敘詞表建立林業(yè)領(lǐng)域本體。
圖3顯示的是關(guān)于森林類型的本體描述片段,“Thing”表示萬(wàn)事萬(wàn)物,是所有領(lǐng)域本體的根節(jié)點(diǎn),概念之間的關(guān)系均為父子關(guān)系(IS-A關(guān)系),例如“云杉林”是一種(IS-A)“針葉林”。
圖3 林業(yè)領(lǐng)域本體描述片段
2.2 文檔預(yù)處理
目前較為常用的分詞工具是中科院開發(fā)的NLPIR漢語(yǔ)分詞系統(tǒng)(ICTCLAS2013),該分詞系統(tǒng)主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和用戶詞典功能,支持GBK編碼、UTF-8編碼、BIG-5編碼。較多研究證明,該分詞工具在國(guó)內(nèi)同類型工具中具有較大的優(yōu)勢(shì)[12]?;贜LPIR漢語(yǔ)分詞系統(tǒng)開發(fā)接口,開發(fā)了林業(yè)領(lǐng)域文檔分詞工具,實(shí)現(xiàn)了對(duì)林業(yè)領(lǐng)域文檔的批量處理:使用常用詞典和領(lǐng)域本體進(jìn)行分詞,在分詞結(jié)果中自動(dòng)標(biāo)注了詞性,結(jié)合停用詞詞典和詞性過(guò)濾無(wú)意義詞匯,最后生成文本文件備用。
圖4 文檔預(yù)處理結(jié)果
文檔預(yù)處理結(jié)果如圖4所示,一些領(lǐng)域?qū)S性~匯如“寒溫帶針葉林”被切分為“寒”、“溫帶”和“針葉林”,失去了該詞匯在文檔中的原有意義,所以在分詞過(guò)程中需要結(jié)合林業(yè)領(lǐng)域本體(或詞典),識(shí)別出領(lǐng)域內(nèi)的專有詞匯,提高分詞的精確度。
2.3 TF-IDF文檔特征權(quán)重模型
TF-IDF文檔特征權(quán)重模型是一種用于信息檢索與文本挖掘的常用權(quán)重計(jì)算技術(shù),常用于各類搜索引擎中,衡量文檔與用戶查詢之間的相關(guān)程度。對(duì)于某一特定文檔dj中的詞匯ti來(lái)說(shuō),它的權(quán)重可記為:
式中fij表示詞匯ti在文檔dj中出現(xiàn)的次數(shù),max函數(shù)表示fij的最大值,如果ti在dj中沒(méi)有出現(xiàn),那么fij=0,TF-IDF= 0;|V|為文檔數(shù)據(jù)集的詞匯表的大?。籒表示文檔數(shù)據(jù)集中文檔的總數(shù);dfi為其中含有至少一次詞匯ti的文檔數(shù)目。TF-IDF模型可以降低語(yǔ)料庫(kù)中出現(xiàn)頻率較高詞匯的權(quán)重,保留重要詞匯的權(quán)重。
2.4 基于本體的語(yǔ)義相似度
領(lǐng)域本體可用樹形結(jié)構(gòu)來(lái)描述,其中樹的節(jié)點(diǎn)表示本體中的概念;節(jié)點(diǎn)之間的邊表示本體中概念之間的關(guān)系,本體樹中任何兩個(gè)節(jié)點(diǎn)都通過(guò)邊(關(guān)系)相互連接,處于同一樹枝的概念擁有共同的屬性。概念表達(dá)范疇越廣,在樹中所處的層次越高;相反,概念表達(dá)越具體,在樹中所處的層次越低。通過(guò)上述分析和前人研究經(jīng)驗(yàn)的總結(jié),基于領(lǐng)域本體的語(yǔ)義相似度需要考慮語(yǔ)義距離、語(yǔ)義重合度和層次差[13]。
定義1(語(yǔ)義距離)設(shè)X,Y是本體中的任意兩個(gè)概念(或節(jié)點(diǎn)),X到Y(jié)最短的路徑距離表示它們的語(yǔ)義距離,記為Dis(X,Y)。
語(yǔ)義距離是語(yǔ)義相似度計(jì)算中的一個(gè)基本要素,當(dāng)兩個(gè)概念路徑距離較遠(yuǎn)時(shí),語(yǔ)義距離較大,語(yǔ)義相似度較小。例如從圖3中可以計(jì)算Dis(云杉林,柏樹林)=2,Dis(云杉林,毛竹林)=6;也就是說(shuō)“云杉林”與“柏樹林”的語(yǔ)義相似度大(都是針葉林),而與“毛竹林”的語(yǔ)義相似度較?。ú煌纳诸愋停?。當(dāng)兩個(gè)概念的語(yǔ)義距離為0時(shí),二者為同一概念,語(yǔ)義相似度為1。
定義2(語(yǔ)義重合度)設(shè)X,Y是本體中的任意兩個(gè)概念(或節(jié)點(diǎn)),N(X)和N(Y)表示分別從X和Y出發(fā),到達(dá)根節(jié)點(diǎn)R所經(jīng)過(guò)的節(jié)點(diǎn)個(gè)數(shù),語(yǔ)義重合度表示為:
語(yǔ)義重合度表示了兩個(gè)概念之間的相同程度。在實(shí)際計(jì)算中,通常使用兩個(gè)概念到達(dá)根節(jié)點(diǎn)公共節(jié)點(diǎn)的個(gè)數(shù)與總節(jié)點(diǎn)個(gè)數(shù)的比值表達(dá)語(yǔ)義重合度。兩個(gè)概念擁有的共同節(jié)點(diǎn)越多,說(shuō)明兩個(gè)概念的相同程度就越高,語(yǔ)義相似度越大。語(yǔ)義距離中的舉例同樣可以解釋語(yǔ)義重合度,“云杉林”和“柏樹林”的語(yǔ)義重合度為0.8,而“云杉林”和“毛竹林”的語(yǔ)義重合度為0.14,顯然“云杉林”和“柏樹林”的語(yǔ)義相似度較高。
定義3(層次差)設(shè)X,Y是本體中的任意兩個(gè)概念(或節(jié)點(diǎn)),L(X)和L(Y)分別是概念X和Y所處的層次,層次差記為|L(X)-L(Y)|。
概念在本體樹中所處的層次不同,承載的信息量不同,層次差越大,語(yǔ)義相似度就越小。例如圖3中“云杉林”和“毛竹林”處于本體樹的同一層次,層次差為0,而“云杉林”和“灌木林”的層次差為2,從人為理解上看,“云杉林”和“毛竹林”不僅都是一種“森林類型”,而且都是一個(gè)具體“森林類型”的實(shí)例;而“云杉林”和“灌木林”的共同屬性僅為“森林類型”。所以前者的語(yǔ)義相似度應(yīng)大于后者。
定義4(語(yǔ)義相似度)設(shè)X,Y是本體中的任意兩個(gè)概念(或節(jié)點(diǎn)),二者的語(yǔ)義相似度計(jì)算公式如下:
2.5 基于本體的文檔特征權(quán)重模型
當(dāng)單獨(dú)使用TF-IDF模型計(jì)算文檔特征權(quán)重時(shí),僅考慮了關(guān)鍵詞本身,其他與關(guān)鍵詞相關(guān)的詞匯便沒(méi)有考慮。例如詞匯“針葉林”在某文檔中的TF-IDF值為0.3,但該文檔中還包括“落葉松林”和“云杉林”等與針葉林密切相關(guān)的詞匯,那么這些詞匯應(yīng)該增加“針葉林”在該文檔中的權(quán)重。所以在計(jì)算某詞匯的文檔特征權(quán)重時(shí),應(yīng)結(jié)合文檔中詞匯之間的語(yǔ)義相關(guān)度。結(jié)合式(1)和式(2),本文改進(jìn)的TF-IDF公式如下所示:
即在基于本體的文檔特征權(quán)重計(jì)算時(shí),將詞匯wi與文檔中其他相關(guān)詞匯wj之間在本體中的語(yǔ)義相似度Sim(wi,wj)作為詞匯wj對(duì)詞匯wi的文檔特征權(quán)重的貢獻(xiàn)度。
3.1 實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)運(yùn)行環(huán)境:操作系統(tǒng)為Windows 7 Service Pack 1 x64,硬件平臺(tái)為Intel I5 CPU 3.3 GHz,8 GB RAM,開發(fā)工具,Eclipse 4.2+JDK 1.7,本體構(gòu)建工具為Protégé 4.1。
在林業(yè)科學(xué)數(shù)據(jù)中心網(wǎng)站(www.forestdata.cn)內(nèi)提取相關(guān)網(wǎng)頁(yè)數(shù)據(jù),根據(jù)HTML語(yǔ)言格式,抽取網(wǎng)頁(yè)標(biāo)題和文本主體,將其轉(zhuǎn)化為純文本文件(txt),接下來(lái)依據(jù)上文所述文本預(yù)處理方法對(duì)所有文檔進(jìn)行預(yù)處理,為方便統(tǒng)計(jì),最終共整理文本文件100個(gè)。根據(jù)式(3)計(jì)算關(guān)鍵詞在每個(gè)文檔中的特征權(quán)重(α=1;β=1)。
為驗(yàn)證基于本體的林業(yè)領(lǐng)域文檔特征權(quán)重計(jì)算模型,使用林業(yè)領(lǐng)域文檔特征權(quán)重模型與傳統(tǒng)TF-IDF模型進(jìn)行了檢索對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)采用查準(zhǔn)率(precisiοn)和查全率(recall)和F-Scοre作為評(píng)價(jià)文檔特征權(quán)重模型的度量。查準(zhǔn)率表示被檢索到的文檔中實(shí)際與查詢相關(guān)的文檔所占的百分比;查全率表示與查詢相關(guān)的文檔中實(shí)際被檢索到的文檔所占的百分比;F-Scοre是由查準(zhǔn)率和查全率計(jì)算得到的評(píng)價(jià)指標(biāo),F(xiàn)-Scοre值越大,表示檢索系統(tǒng)表現(xiàn)越好[14]。對(duì)某個(gè)測(cè)試參考集,信息查詢實(shí)例為I,I對(duì)應(yīng)的相關(guān)文檔集合為R。假設(shè)用某個(gè)檢索策略對(duì)I進(jìn)行處理后,得到一個(gè)結(jié)果集合A。令Ra表示R與A的交集。查準(zhǔn)率、查全率和F-Scοre的計(jì)算公式分別如下:
在實(shí)驗(yàn)文檔中查詢關(guān)鍵詞后,配合領(lǐng)域?qū)<?,確認(rèn)集合R的數(shù)量,根據(jù)特征權(quán)重確認(rèn)集合A的數(shù)量,利用式(4)~式(6)計(jì)算平均查準(zhǔn)率、查全率和F-Scοre,并繪制查準(zhǔn)率-查全率曲線(PR曲線)。
3.2 結(jié)果與分析
實(shí)驗(yàn)結(jié)果(表1)表明,本文改進(jìn)的林業(yè)領(lǐng)域文檔特征權(quán)重模型查準(zhǔn)率、查全率和F-Scοre分別為53.8%、100.0%和0.70,均優(yōu)于傳統(tǒng)的TF-IDF模型。
表1 實(shí)驗(yàn)結(jié)果
從PR曲線(圖5)中也可以發(fā)現(xiàn)改進(jìn)的林業(yè)領(lǐng)域文檔特征權(quán)重模型較傳統(tǒng)TF-IDF模型在查準(zhǔn)率和查全率方面均有顯著的提高。改進(jìn)模型在保證較高查全率的同時(shí)依然可以獲得較好的查準(zhǔn)率,特別是查全率為60%~75%之間時(shí),查準(zhǔn)率可達(dá)90%以上。傳統(tǒng)TF-IDF模型由于沒(méi)有考慮語(yǔ)義相似度,在實(shí)驗(yàn)中無(wú)法實(shí)現(xiàn)100%的查全率,在查準(zhǔn)率方面也表現(xiàn)不佳。
圖5 PR曲線
本文提出了一種基于本體的林業(yè)領(lǐng)域文檔特征權(quán)重計(jì)算模型。該模型在計(jì)算TF-IDF文檔特征權(quán)重時(shí),結(jié)合林業(yè)領(lǐng)域本體,增加關(guān)鍵詞與文檔中其他詞匯的語(yǔ)義相關(guān)度貢獻(xiàn),提高了文本檢索的查準(zhǔn)率和查全率,使檢索結(jié)果更加滿足用戶的需求。但該模型仍然有以下問(wèn)題亟待解決。首先,領(lǐng)域本體是該模型的前提,但目前本體采用手工構(gòu)建,由于本體的異構(gòu)性,不同研究者構(gòu)建相同領(lǐng)域本體的結(jié)構(gòu)也不盡相同,所以使用該模型得到的結(jié)果也可能不同;其次,該模型基于TF-IDF進(jìn)行改進(jìn),所以分詞的質(zhì)量對(duì)結(jié)果影響較大,如何改善分詞質(zhì)量是今后的研究方向之一;再次,本體內(nèi)的所有概念和實(shí)例相互均有聯(lián)系,即本體內(nèi)的任何兩個(gè)概念的語(yǔ)義相似度均不為0,領(lǐng)域內(nèi)的關(guān)鍵詞對(duì)應(yīng)的所有領(lǐng)域文檔的特征權(quán)重同樣也不為0,所以在使用該模型計(jì)算文檔特征權(quán)重以及生成倒排索引時(shí)需要設(shè)置文檔特征權(quán)重閾值,以獲得較高的查準(zhǔn)率。因此該模型在使用過(guò)程中還需要進(jìn)一步的改進(jìn)。
[1]Berners-Lee T.Semantic Web-XML2000[EB/OL].[2013-01-12]. http://www.w3.org/2000/Talks/1206-xml2k-tbl/.
[2]Kiryakov A,Popov B,Terziev I,et al.Semantic annotation,indexing,and retrieval[J].Journal of Web Semantics,2004,2(1):49-79.
[3]陳葉旺,李海波,余金山.一種基于農(nóng)業(yè)領(lǐng)域本體的語(yǔ)義檢索模型[J].華僑大學(xué)學(xué)報(bào):自然科學(xué)版,2012(1):27-32.
[4]趙建偉,鄭誠(chéng),吳永俊.基于語(yǔ)義查詢擴(kuò)展的垂直搜索研究[J].計(jì)算機(jī)工程,2010(12):97-99.
[5]文坤梅.基于本體知識(shí)庫(kù)推理的語(yǔ)義搜索研究[D].武漢:華中科技大學(xué),2007.
[6]Castells P,F(xiàn)ernandez M,Vallet D.An adaptation of the vector-space model for ontology-based information retrieval[J]. IEEE Transactions on Knowledge and Data Engineering,2007,19(2):261-272.
[7]宋佳,王卷樂(lè),諸云強(qiáng),等.基于地理空間本體的語(yǔ)義檢索相關(guān)度研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(5):114-117.
[8]TF-IDF-維基百科[EB/OL].(2013-03-01).http://zh.wikipedia. org/wiki/TF-IDF.
[9]Thomas R G.A translation approach to portable ontology specifications[J].Knowledge Acquisition,1993,5(2):199-220.
[10]Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineering:principles and methods[J].Data&Knowledge Engineering,1998,25(1/2):161-197.
[11]Perez A G,Benjamins V R.Overview of knowledge sharing and reuse components:ontologies and problem-solving methods[C]//Proceedings of the IJCAI-99 Workshop on Ontologies and Problem-Solving Methods(KRR5),1999.
[12]劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語(yǔ)詞法分析[J].計(jì)算機(jī)研究與發(fā)展,2004,9(8):1421-1429.
[13]甘健侯,姜躍,夏侯明.本體方法及其應(yīng)用[M].北京:科學(xué)出版社,2011.
[14]Liu Bing.Web數(shù)據(jù)挖掘[M].俞勇,薛貴榮,韓定一,譯.北京:清華大學(xué)出版社,2009.
ZHANG Naijing,JU Hongbo,JI Ping
Research Institute of Forestry Information Techniques,Chinese Academy of Forestry,Beijing 100091,China
In the traditional feature weight of documents calculating,the model only considers the key word but other more relative words,so that the results of information retrieval are not comprehensive and precise.Aiming to solve these disadvantages above, this paper presents a model that calculates feature weight of document of forestry domain based on ontology.The steps of this model are as follows:calculate the feature weight using TF-IDF model;require the semantic distance,contact ratio and level difference between the key word and other relative words of document based on ontology,and then calculate the semantic similarity;calculate the feature weight using both results of TF-IDF and semantic similarity.The experiment proves that this improved model can increase the precision and recall ratio in documents retrieval,and meets the needs of users satisfactorily.
ontology;forestry domain;document feature;ranking model;semantic similarity
傳統(tǒng)文檔特征權(quán)重模型僅考慮關(guān)鍵詞本身,文檔內(nèi)其他相關(guān)詞匯并沒(méi)有參與計(jì)算,信息檢索時(shí)無(wú)法返回全面和準(zhǔn)確的結(jié)果。為解決該問(wèn)題提出了一種基于本體的林業(yè)領(lǐng)域文檔特征權(quán)重模型。該模型計(jì)算TF-IDF特征權(quán)重;結(jié)合林業(yè)領(lǐng)域本體,分別獲取關(guān)鍵詞和林業(yè)領(lǐng)域內(nèi)其他詞匯的語(yǔ)義距離、語(yǔ)義重合度和概念的層次差,并計(jì)算語(yǔ)義相關(guān)度;結(jié)合TF-IDF和語(yǔ)義相似度的結(jié)果計(jì)算特征權(quán)重。實(shí)驗(yàn)證明該模型可以提高文本檢索的查準(zhǔn)率和查全率,使檢索結(jié)果更加滿足用戶的需求。
本體;林業(yè)領(lǐng)域;文檔特征;權(quán)重模型;語(yǔ)義相似度
A
TP391
10.3778/j.issn.1002-8331.1303-0173
ZHANG Naijing,JU Hongbo,JI Ping.Modeling feature weight of document of forestry domain based on ontology.Computer Engineering and Applications,2013,49(18):20-23.
國(guó)家科技基礎(chǔ)條件平臺(tái)建設(shè)項(xiàng)目(No.2005DKA32200)。
張乃靜(1982—),女,博士研究生,CCF學(xué)生會(huì)員,研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,信息系統(tǒng)與信息共享;鞠洪波(1956—),男,博士,研究員,研究領(lǐng)域?yàn)橛?jì)算機(jī)應(yīng)用,信息系統(tǒng)與信息共享;紀(jì)平(1964—),女,副研究員,研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,信息系統(tǒng)與信息共享。E-mail:naijing.zhang@gmail.com
2013-03-12
2013-06-14
1002-8331(2013)18-0020-04
CNKI出版日期:2013-06-18 http://www.cnki.net/kcms/detail/11.2127.TP.20130618.1559.002.html