張 波 向 陽 王 堅(jiān)
(同濟(jì)大學(xué)電子信息與工程學(xué)院 上海 201804)
面對(duì)互聯(lián)網(wǎng)中浩如煙海的信息,人們往往為無法準(zhǔn)確獲取自己真正關(guān)心的信息而束手無策。如何準(zhǔn)確有效地為用戶獲取信息,實(shí)現(xiàn)個(gè)性化信息獲取,是當(dāng)前信息檢索領(lǐng)域一個(gè)重要的課題。信息過濾是將用戶需求和動(dòng)態(tài)信息流進(jìn)行近似計(jì)算,從信息流中抽取符合用戶個(gè)性化需求的信息并主動(dòng)推送給用戶的系統(tǒng)化方法[1,2]。盡管傳統(tǒng)的信息系統(tǒng)及其信息獲取技術(shù)(如搜索引擎等)已經(jīng)取得了長足的發(fā)展[1?4],但是由于無法真正針對(duì)不同用戶進(jìn)行個(gè)性化的服務(wù),人們依舊需要通過不停地變換關(guān)鍵詞進(jìn)行重復(fù)搜索,或者面對(duì)大量搜索返回信息進(jìn)行再次檢索。信息中所包含的大量內(nèi)容以及用戶的真實(shí)意圖無法被機(jī)器真正理解,導(dǎo)致信息獲取效果不佳。
信息過濾的研究在國內(nèi)外已經(jīng)開展了很多。Cohen[5]提出了利用基于RIPPER規(guī)則學(xué)習(xí)算法和關(guān)鍵詞學(xué)習(xí)規(guī)則進(jìn)行郵件分類。文獻(xiàn)[6]中提出了隱私意識(shí)交互作用下的垃圾信息協(xié)同過濾方法;文獻(xiàn)[7]則提出了一種基于隱馬爾可夫模型的通用過濾算法;文獻(xiàn)[8]提出了一種規(guī)范化的交互信息特征選擇方法,利用信息特征規(guī)范化表示和選擇等實(shí)現(xiàn)交互信息的過濾。在國內(nèi),清華大學(xué)的曾春等提出利用領(lǐng)域分類模型上的概率分布表達(dá)用戶的興趣模型,給出相似性計(jì)算和用戶興趣模型更新方法[9]。文獻(xiàn)[10]提出了一種建立信息流二元近似關(guān)系模型,輔助信息過濾系統(tǒng)識(shí)別和屏蔽反饋中的噪聲。在眾多基于語義技術(shù)的信息過濾研究中,文獻(xiàn)[11]提出了一種基于本體的信息檢索技術(shù),利用本體概念的語義描述能力實(shí)現(xiàn)信息準(zhǔn)確檢索。文獻(xiàn)[12]則提出利用OWL描述信息語義,進(jìn)而在語義網(wǎng)環(huán)境中實(shí)現(xiàn)信息過濾。文獻(xiàn)[13]則給出了一種通過奇異值分解以及獨(dú)立分量分析獲取的潛在語義描述方法實(shí)現(xiàn)信息過濾。然而目前有很多信息過濾系統(tǒng)[3,4,14],最大問題在于計(jì)算機(jī)無法自動(dòng)對(duì)用戶需求和網(wǎng)絡(luò)信息進(jìn)行自動(dòng)理解和處理,無法將用戶個(gè)性化需求和信息所包含內(nèi)容進(jìn)行有效識(shí)別,從中獲取最為相符的結(jié)果。
針對(duì)上述問題本文首先給出信息語義的定義,并且給出了信息語義被信息領(lǐng)域本體理解的判定方法。然后定義了信息過濾過程中的用戶需求語義和用戶興趣語義,并分別提出了用戶需求語義被信息領(lǐng)域本體理解的判定方法,及用戶興趣語義的權(quán)重計(jì)算。最后給出了一種語義可理解基礎(chǔ)上的信息過濾算法。實(shí)驗(yàn)證明這種信息過濾算法能夠有效地提高信息獲取的效率。
信息領(lǐng)域本體IO是4元組:IO=(C,SR,IR,P),其中C表示概念名;SR表示概念之間的上下位結(jié)構(gòu)性關(guān)系;IR表示概念之間的非結(jié)構(gòu)性關(guān)系;P表示描述概念的屬性。IO中概念的權(quán)重rc與屬性的權(quán)重rp滿足如下條件1)本文后面所采用的概念權(quán)重計(jì)算方式為,若c''是c'的直接子概念,則rc''=rc'/n;屬性權(quán)重計(jì)算為,若概念c'存在m個(gè)描述屬性c'?pj ,則rpj =1/m。:
(1)根概念節(jié)點(diǎn)的權(quán)重為1;
(2)存在n概念c'與概念c''具備如下關(guān)系:c''={x|?x∈IO.C∧SR(c',x)},即c''是c'的直接子概念,則滿足
(3)概念ci存在m個(gè)描述屬性c'.pj,則對(duì)于一個(gè)概念的所有屬性而言,其權(quán)重滿足
定義1 概念語義擴(kuò)展是指在信息領(lǐng)域本體IO中,對(duì)于一個(gè)概念c'來說,若存在概念c''∈IO.C,滿足c''={x|SR(c',x)∨SR(x, c')∨IR(c',x)∨IR(x,c')},則稱概念c''為概念c'的語義擴(kuò)展,概念語義擴(kuò)展得到的集合記為rel_c(c')。
若信息中的概念在該信息中的重要度大于給定閾值,則稱該概念為特征項(xiàng),記做CT。特征項(xiàng)CT若存在對(duì)其性質(zhì)的描述集合CS,描述集合中的個(gè)體csk?CS 稱為特征項(xiàng)CT的解釋,cs的值記為cs_val。
信息I完整的語義可以表示為如下形式:
其中特征項(xiàng)cti的權(quán)重為righti; 序?qū)_val表示特征項(xiàng)cti的第k個(gè)解釋及其解釋的值。
定義2 對(duì)于信息領(lǐng)域本體IO,給定的特征項(xiàng)及其解釋集合(ct,(cs1|cs1_val,cs2|cs2_val,…))若存在賦值映射N,滿足Nct→IO.c,且存在至少一個(gè)解釋csk=IO.c. p,則稱該信息特征項(xiàng)可被IO理j解;若所有解釋csk=IO.c. pj,則稱該信息特征項(xiàng)可被IO完全理解。
定義3 信息I可被IO理解,當(dāng)且僅當(dāng)所有特征項(xiàng)cti?CT 可被IO理解;信息I可被IO完全理解,當(dāng)且僅當(dāng)所有特征項(xiàng)cti?CT 可被IO完全理解。
算法1 信息被信息領(lǐng)域本體理解判定算法
上述算法中,函數(shù)find(cti,IO)用于找到并返回特征項(xiàng)在IO中的匹配概念;函數(shù)match(,IO)判斷find函數(shù)中返回的概念屬性是否與解釋cs匹配。
信息特征項(xiàng)權(quán)重分為3類:詞頻權(quán)重、位置權(quán)重以及本體權(quán)重。特征項(xiàng)權(quán)重計(jì)算的公式定義為
其中p(ctiLr)表示詞cti在位置Lr上的出現(xiàn)次數(shù);而對(duì)于那些無位置結(jié)構(gòu)關(guān)系的信息而言,位置權(quán)重忽略計(jì)算。
其中rco表示概念I(lǐng)O.co的權(quán)重;表示描述概念I(lǐng)O.co的所有IO.co. pj屬性的權(quán)重總和;0≤λ≤1是預(yù)設(shè)參數(shù)。
用戶需求包含用戶直接輸入的需求特征以及其潛在可能的需求特征項(xiàng)。用戶需求語義可表示為:R=<(definite_R,latent_R)>,其中definite_R為顯性需求集合,latent_R為隱性需求集合。本文引入需求內(nèi)涵與外延兩個(gè)方面表征用戶需求。用戶需求的內(nèi)涵connotation是有關(guān)用戶需求的內(nèi)容、中心含義,用戶需求外延extention是有關(guān)主題涉及的范圍、特征等。
定義4 對(duì)于給定IO,以及給定的用戶需求r的內(nèi)涵、外延集合(connotation,(extention1,extention2…)),如果存在一個(gè)賦值映射N,對(duì)于該用戶需求的內(nèi)涵而言,使得Nr.connotation→IO.c ,且滿足存在至少一個(gè)外延extentionu=IO.c. pj,那么該用戶需求稱為可被信息領(lǐng)域本體IO理解。
對(duì)于給定的用戶需求集合R,若至少存在一個(gè)用戶需求r∈R可被信息領(lǐng)域本體IO理解,則稱該用戶需求集合R可以被信息領(lǐng)域本體IO理解;若所有的r∈R都可以被信息領(lǐng)域本體IO理解,則稱該用戶需求集合R可以被信息領(lǐng)域本體IO完全理解。
定義5 若一個(gè)顯性需求definite_rv可被信息領(lǐng)域本體理解,對(duì)應(yīng)的本體概念為IO.co,則其相對(duì)應(yīng)的隱性需求集合滿足latent_R=rel_c(IO.co)。
算法2 顯性需求理解判定與隱性需求獲取算法
算法2中,find()函數(shù)與算法1中相同,get()函數(shù)為概念語義擴(kuò)展函數(shù),返回是否找到語義擴(kuò)展概念以及這些語義擴(kuò)展概念集合。
用戶興趣是若干用戶主題組成的對(duì)信息的復(fù)雜心態(tài)。用戶主題表示為序?qū)s|ws,其中Ts表示主題的概念,ws表示該主題的用戶關(guān)心度。本文定義兩類評(píng)價(jià)結(jié)果:積極評(píng)價(jià)positive_Ts和消極評(píng)價(jià)negative_Ts。評(píng)價(jià)附加權(quán)重η計(jì)算為
假設(shè)有固定樣本集合N,對(duì)于某一個(gè)主題T而言,其在信息領(lǐng)域本體中對(duì)應(yīng)的概念為ci,描述屬性為ci. pj,而通過語義擴(kuò)展得到的相關(guān)概念為rel_c(ci),函數(shù)P(x)表示對(duì)象x在固定樣本集合N中的出現(xiàn)概率。那么該主題的權(quán)重w可以表示為
其中a, b, c分別為調(diào)節(jié)參數(shù),滿足0≤a≤1,0≤b≤1,0≤c≤1,且a+b+c=1。
本文采用概念映射索引(CMI)和屬性映射索引(PMI)表示信息領(lǐng)域本體中對(duì)應(yīng)的概念和屬性。
定義6 概念映射索引是一個(gè)2元組CMI=(IO.C, M(IO.C)),其中IO.C是信息領(lǐng)域本體中概念集合,M(CT)是概念I(lǐng)O.c在信息中滿足賦值映射Nct→IO.c的信息項(xiàng)ct;或滿足賦值映射Nr.connotation→IO.c 的用戶需求r的集合。
定義7 屬性映射索引是一個(gè)3元組PMI=(IO.C. P, M(IO.C. P),CMI),其中IO.C. P是信息領(lǐng)域本體中概念的屬性集合,M(IO.C. P)是信息領(lǐng)域本體中該屬性對(duì)應(yīng)的信息特征項(xiàng)的解釋集合,或用戶需求的外延集合,CMI指明屬性與解釋如何通過概念與特征項(xiàng)建立對(duì)應(yīng)關(guān)系。
在CMI中,若滿足Nct→IO.c∧Nr.connotation→IO.c ,則稱信息特征項(xiàng)與用戶需求內(nèi)涵建立了映射索引,同理在PMI中可建立信息特征項(xiàng)解釋與用戶需求外延的映射索引。CMI映射索引函數(shù)形如f(r.connotation)=ct ;PMI映射索引函數(shù)形如f(r.extention)=ct.cs 。
信息語義I與用戶需求語義R之間的映射索引相似度Sim_MI(I, R)可以表示如下:
其中函數(shù)P(x)表示x出現(xiàn)次數(shù);函數(shù)f(x)表示x在映射索引CMI和PMI中建立映射的對(duì)象,right為對(duì)應(yīng)信息特征項(xiàng)的權(quán)重值,rp為信息特征項(xiàng)的解釋對(duì)應(yīng)的信息領(lǐng)域本體中概念屬性的權(quán)重。
本文采用未知信息表(UIT)存放不能被信息領(lǐng)域本體理解的信息語義,同時(shí)采用未知需求表(URT)存放無法被信息領(lǐng)域本體理解的用戶顯性需求。不可理解的信息語義和用戶需求語義之間的未知相似度Sim_U(I, R)可以用式(9)計(jì)算:
其中函數(shù)m(I.ct,R.r.connotation)表示有哪些不可理解的信息特征項(xiàng)與不可理解的用戶需求內(nèi)涵完全匹配;m(I.ct.cs,R.r.extention)則表示哪些不可理解的信息特征項(xiàng)的解釋與不可理解的用戶需求外延匹配。
本文將通過計(jì)算出興趣主題與信息特征項(xiàng)之間的相似關(guān)系,從而得到盡可能符合用戶興趣的信息。假設(shè)信息語義為I,其中可以被信息領(lǐng)域本體理解的特征項(xiàng)記為mctj;不可被信息領(lǐng)域本體理解的特征項(xiàng)記為nctj;用戶興趣為In。用戶興趣主題與信息特征項(xiàng)相似度可計(jì)算如下:
設(shè)信息I可被信息領(lǐng)域本體理解的特征項(xiàng)記為mctj;不可被信息領(lǐng)域本體理解的特征項(xiàng)記為nctj;用戶興趣為In,本文采用如下信息過濾算法流程:
(1)對(duì)于信息中的所有特征項(xiàng),利用算法1判定該信息被信息領(lǐng)域本體理解的程度,分為3類情況:
(a)若信息為可完全理解的,則將該信息中所有特征項(xiàng)與本體概念形成概念映射索引(CMI),同時(shí)將特征項(xiàng)解釋與對(duì)應(yīng)的本體概念屬性形成屬性映射索引(PMI);
(b)若信息為可理解的,則按照(a)形成CMI和PMI。同時(shí)將未被理解的特征項(xiàng)及其解釋提取,形成未知信息表;
(c)若信息是不可理解,則按照(b)方法將該信息特征項(xiàng)與解釋形成未知圖存儲(chǔ);
(2)對(duì)于一個(gè)用戶請求Pro,首先利用算法2判定顯性需求被理解的情況,并獲取隱性需求集合latent_R。分為以下情況:
(a)若用戶需求為可完全理解,則建立用戶需求與信息本體間CMI和PMI;
(b)若用戶需求為可理解的,則按照(a)方法建立CMI和PMI,并將不可理解對(duì)顯性需求的內(nèi)涵和外延形成URT;
(c)若用戶需求不可理解,按照(b)中方法形成URT,此時(shí)用戶需求中的隱性需求集合為空;
(3)計(jì)算Sim_MI(I, R)與Sim_U(I, R);
(4)信息語義與用戶需求語義相似度為(公式中θ為預(yù)設(shè)調(diào)節(jié)參數(shù)):
(5)將Sim(I, R)的值大于預(yù)設(shè)閾值的信息保留,其他結(jié)果去除;
(6)計(jì)算Sim(Ts,mctj),進(jìn)而計(jì)算μs=(sim(Ts,mctj)+ws+rightj)/3;
(7)計(jì)算sim(Ts,nctj),進(jìn)而計(jì)算σs=(sim(Ts,nctj)+ws+rightj)/3;
(8)計(jì)算信息與用戶需求的語義相似度為(?為預(yù)設(shè)調(diào)節(jié)參數(shù)):
(9)根據(jù)用戶設(shè)定進(jìn)行信息推送2)本文所指的用戶設(shè)定信息推送方式由用戶事先指定。。
本文利用自主開發(fā)的計(jì)算機(jī)領(lǐng)域?qū)W術(shù)論文過濾原型系統(tǒng)來驗(yàn)證提出的信息過濾方法的有效性。該系統(tǒng)包括自主開發(fā)的計(jì)算機(jī)領(lǐng)域本體,中文詞語分析系統(tǒng)以及論文過濾系統(tǒng)3個(gè)部分。計(jì)算機(jī)領(lǐng)域本體采用protege3.1開發(fā);中文分詞系統(tǒng)在eclipse下采用JAVA開發(fā);論文過濾系統(tǒng)采用JAVA開發(fā)。實(shí)驗(yàn)中有關(guān)公式計(jì)算的取值如下:式(2)中的計(jì)算符*為3個(gè)權(quán)重的算術(shù)平均值;所有式中的預(yù)設(shè)參數(shù)以及預(yù)設(shè)閾值均為0.5;式(6)和式(8)中取值為a=0.4,b=0.3,c=0.3,公式(7)中α=0.3,β=0.3,γ=0.4。
實(shí)驗(yàn)1 用戶需求語義理解對(duì)信息過濾的影響
本文測試時(shí)采集了300篇學(xué)術(shù)論文用于過濾,經(jīng)過前期測試,其中142篇可以被計(jì)算機(jī)領(lǐng)域本體完全理解,記為Group 1;117篇可以被計(jì)算機(jī)領(lǐng)域本體理解,記為Group 2;另外41篇不能被理解(非計(jì)算機(jī)領(lǐng)域論文),記為Group 3。
實(shí)驗(yàn)方案:該實(shí)驗(yàn)將3組論文合并一起,同時(shí)作為信息過濾的候選論文集。此時(shí),由于經(jīng)過前期測試,所有論文的信息語義被理解狀態(tài)已經(jīng)確定。因此,過濾效果依賴于所輸入的用戶需求語義被理解的情況。我們進(jìn)行了20次用戶語義理解對(duì)信息過濾的效果測試,每一輸入一次用戶需求語義則僅針對(duì)全體候選集合進(jìn)行一次信息過濾實(shí)驗(yàn)。為了檢驗(yàn)用戶需求語義理解程度對(duì)過濾效果的影響,前10次過濾為用戶需求語義被計(jì)算機(jī)完全理解,第11到第15次為用戶需求語義被計(jì)算機(jī)理解,第16到第20次,用戶輸入需求語義不能理解。
在每次信息過濾實(shí)驗(yàn)完畢后,我們將系統(tǒng)所返回的論文依據(jù)其來源將其人工歸類到原有Group中,并從中挑選用戶真正滿意的不同Group中的論文。該效果檢驗(yàn)值計(jì)算方式可表達(dá)如下:
圖1中可以看出,前10次過濾由于用戶需求語義明顯理解清晰,因此效果最好;第11到15次,由于語義仍有能被計(jì)算機(jī)理解,因此過濾效果也好于最后5次??梢娔艿玫秸Z義可理解的信息和用戶需求,其過濾效果最好。
實(shí)驗(yàn)2 信息語義理解對(duì)信息過濾的影響
本實(shí)驗(yàn)測試時(shí),我們給出了3組不同的用戶需求。第1組為20個(gè)可被計(jì)算機(jī)完全理解的用戶需求語義,記為Group 4;第2組為20個(gè)可被計(jì)算機(jī)理解的用戶需求語義,記為Group 5;第3組為20個(gè)不可被理解的用戶需求語義,記為Group 6。
實(shí)驗(yàn)方案:該實(shí)驗(yàn)在用戶需求語義理解狀態(tài)確定的情況下針對(duì)不同信息語義理解對(duì)過濾效果的影響測試。從實(shí)驗(yàn)1的3組論文中選取信息語義理解效果不同的對(duì)象,進(jìn)行測試。實(shí)驗(yàn)針對(duì)不同的用戶需求語義分為3組,每組同時(shí)進(jìn)行20次過濾。前10次實(shí)驗(yàn)中所采用的候選論文集均為實(shí)驗(yàn)1中Group 1的論文;第11到15次所采用的過濾候選集為實(shí)驗(yàn)1中Group 2中的論文;最后5次過濾候選集為實(shí)驗(yàn)1中Group 3中的論文。檢驗(yàn)標(biāo)準(zhǔn)計(jì)算方式如式(15)。
從圖2中可以看出,與前一個(gè)測試相似,語義被完全理解的情況下,過濾效果最佳,而不能被理解語義的情況下,過濾效果明顯較低。
實(shí)驗(yàn)3 信息過濾算法有效性實(shí)驗(yàn)
實(shí)驗(yàn)方案:為了驗(yàn)證本文過濾方案的有效性,我們采取3組信息獲取手段,分析3組手段中對(duì)獲得有效信息的情況。Group 7采用傳統(tǒng)的直接輸入關(guān)鍵字進(jìn)行學(xué)術(shù)論文搜索;Group 8采用本文開發(fā)的原型系統(tǒng),但是改組過濾時(shí)不對(duì)無法被計(jì)算機(jī)理解的信息特征項(xiàng)或用戶需求進(jìn)行語義計(jì)算,僅僅對(duì)不能理解的項(xiàng)進(jìn)行傳統(tǒng)的匹配;Group 9采用開發(fā)的完整原型系統(tǒng)進(jìn)行信息過濾。每組進(jìn)行10人次的信息獲取,每次的需求均不相同。系統(tǒng)進(jìn)行分析的對(duì)象是我們所采集的1000篇內(nèi)容不同的學(xué)術(shù)論文(有一部分是非計(jì)算機(jī)領(lǐng)域論文)。我們進(jìn)行實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn)按式(15)計(jì)算。結(jié)果如圖3所示。從對(duì)比實(shí)驗(yàn)看出,由于沒有進(jìn)行相應(yīng)的層次過濾,Group 7直接用關(guān)鍵詞匹配的方法,獲得的效果最差。Group 7、Group 8中,能夠體現(xiàn)用戶興趣的搜索,效率提高在后期搜索中能夠得到很好的體現(xiàn)。而Group 8中,對(duì)于無法被本體理解的那些特征項(xiàng)和需求,僅僅做了單一的匹配計(jì)算,所以效果總體上低于Group 9中進(jìn)行完整過濾的方法。
圖1 用戶需求語義理解對(duì)信息過濾的影響
圖2 信息語義理解對(duì)信息過濾的影響
圖3 實(shí)驗(yàn)對(duì)比效果圖
使計(jì)算機(jī)擁有自動(dòng)處理信息內(nèi)容和用戶需求的能力的關(guān)鍵就是能夠找到有效的信息語義和用戶語義表達(dá)方式,并在此基礎(chǔ)上使這些語義能夠得到很好的理解。本文嘗試通過信息領(lǐng)域本體來表達(dá)語義,通過有效的語義判定方法使信息語義和用戶語義得到很好的處理。在此基礎(chǔ)上,本文提出一種信息過濾方法,利用有效的語義表達(dá)方法針對(duì)信息進(jìn)行用戶需求過濾和用戶興趣過濾,使計(jì)算機(jī)能夠在理解語義的基礎(chǔ)上提高信息過濾的效果。通過實(shí)驗(yàn)分析,證明本文的算法是可行且有效的。我們的進(jìn)一步工作將集中在信息領(lǐng)域本體的理解能力的完善研究和語義表達(dá)的細(xì)粒度化工作上,提升信息過濾效果。
[1] Peter F W and Susan D T. Personalized information delivery:An analysis of information filtering methods.Communications of the ACM, 1992, 35(12): 51-60.
[2] Belkin N J and Bruce Croft W. Information filtering and information retrieval: Two sides of the same cion.Communications of the ACM, 1992, 35(12): 29-38.
[3] Bhandarkar Suchendra M and Luo Xing-zhi. Integrated detection and tracking of multiple faces using particle filtering and optical flow-based elastic matching, Computer Vision and Image Understanding, 2009, 113(6): 708-725.
[4] 徐小龍,王汝傳. 基于智能Agent 的多維權(quán)值信息檢索模型.電子與信息學(xué)報(bào), 2008, 30(2): 482-485.Xu Xiao-long and Wang Ru-chuan. The agent-based information retrieval model with multi-weight ranking algorithm. Journal of Electronics and Information Technology,2008, 30(2): 482-485.
[5] Cohen W. Learning rules that classify email. AAAI Spring Symposium on Machine Learning in information Access,Stanford, USA, March 1996: 18-25.
[6] Li Kang, Zhong Zhen-yu, and Ramaswamy Lakshmish.Privacy-aware collaborative spam filtering. IEEE Transactions on Parallel and Distributed Systems, 2009, 20(5):725-739.
[7] Moon Taesup and Weissman Tsachy. Universal filtering via hidden Markov modeling. IEEE Transactions on Information Theory, 2008, 54(2): 692-708.
[8] Estévez Pablo A, Tesmer Michel, Perez Claudio A, and Zurada Jacek M. Normalized mutual information feature selection. IEEE Transactions on Neural Networks, 2009,20(2): 189-201.
[9] 曾春,邢春曉,周立柱. 基于內(nèi)容過濾的個(gè)性化搜索算法. 軟件學(xué)報(bào). 2003, 14(5): 999-1004.Zeng Chun, Xing Chun-xiao, and Zhou Li-zhu. A personalized search algorithm by using content-based filtering. Journal of Software, 2003, 14(5): 999-1004.
[10] 洪宇, 張宇, 鄭偉, 劉挺, 李生. 信息過濾中基于二元近似關(guān)系分布的噪聲屏蔽算法. 軟件學(xué)報(bào), 2008, 19(11): 2887-2898.Hong Y, Zhang Y, Zheng W, Liu T, and Li S. Algorithm of shielding noises in information filtering based on distribution of two-dimension similarity relation. Journal of Software,2008, 19(11): 2887-2898.
[11] Dridi Olfa and Ahmed Mohamed Ben. Building an ontology-based framework for semantic information retrieval:application to breast cancer, 2008 3rd International Conference on Information and Communication Technologis:from Theory to Applications, Damascus, Syria, April 2008.
[12] Wang Shuda and Yang Jing. Research on the information filtering of OWL text based on semantic analysis, 2008 International Conference on Wireless Communications,Networking and Mobile Computing, Dalian, China,September 2008.
[13] Yokoi Takeru, Yanagimoto Hidekazu, and Omatu Sigeru.Information filtering using latent semantics. Electrical Engineering in Japan, 2008, 165(2): 53-59.
[14] Salvador NietoSanchez, Triantaphyllu Evangelos, and Donald Kraft. A feature mining based approach for the classification of text documents into disjoint classed Information.Processing and Hamagement, 2002, 38(4): 583-604.