卜 天 然
(安徽商貿(mào)職業(yè)技術(shù)學(xué)院, 安徽 蕪湖 241002)
垂直搜索引擎在節(jié)能減排領(lǐng)域中的設(shè)計(jì)與實(shí)現(xiàn)
卜 天 然
(安徽商貿(mào)職業(yè)技術(shù)學(xué)院, 安徽 蕪湖 241002)
在研究垂直搜索引擎的設(shè)計(jì)思想、相關(guān)技術(shù)的基礎(chǔ)上,利用Nutch開(kāi)源框架設(shè)計(jì)實(shí)現(xiàn)了節(jié)能減排垂直搜索引擎的設(shè)計(jì),支持了對(duì)節(jié)能減排相關(guān)信息的檢索服務(wù)。系統(tǒng)采用網(wǎng)頁(yè)模板技術(shù)對(duì)網(wǎng)頁(yè)信息進(jìn)行提取,采用改進(jìn)的 TF-IDF算法提取特征詞,利用基于特征詞的向量空間模型進(jìn)行主題相關(guān)性判定,利用樸素貝葉斯算法對(duì)網(wǎng)頁(yè)信息進(jìn)行分類。
節(jié)能減排; 搜索引擎; 網(wǎng)頁(yè)模板; 向量空間; 樸素貝葉斯
搜索引擎的誕生,為人們快速查找互聯(lián)網(wǎng)信息提供了一種快捷的途徑,滿足了人們搜索網(wǎng)絡(luò)信息的日益迫切的需求。但使用傳統(tǒng)搜索引擎搜索相關(guān)信息,不可避免地會(huì)包含許多廣告以及與主題不相關(guān)的信息,影響了用戶對(duì)某個(gè)特定領(lǐng)域信息的獲取。
由于傳統(tǒng)搜索引擎檢索信息普遍存在信息量大、信息雜糅不全、結(jié)果不準(zhǔn)確等問(wèn)題,使得越來(lái)越多學(xué)者開(kāi)始研究垂直搜索引擎[1]。如今市場(chǎng)上也出現(xiàn)了大量的CiteSeerx、去哪網(wǎng)等面向各個(gè)領(lǐng)域的垂直搜索引擎產(chǎn)品。
但目前市場(chǎng)上沒(méi)有一款成形的面向節(jié)能減排領(lǐng)域的垂直搜索引擎,該類搜索引擎仍處于發(fā)展探索時(shí)期。基于開(kāi)源框架Nutch設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)面向節(jié)能減排領(lǐng)域的垂直搜索引擎。為了提高Nutch搜索引擎的效果,引入以下技術(shù):(1) 網(wǎng)頁(yè)模板技術(shù),該技術(shù)提高了網(wǎng)頁(yè)信息獲取的準(zhǔn)確性,模板中關(guān)于網(wǎng)頁(yè)關(guān)鍵信息的提取,也為部分網(wǎng)頁(yè)的信息歸類提供了便利;(2) 特征詞提取技術(shù),使用改進(jìn)的TF-IDF算法計(jì)算權(quán)重提取主題詞庫(kù)和分類特征詞庫(kù);(3) 向量空間模型,該模型用于對(duì)節(jié)能減排領(lǐng)域進(jìn)行主題相關(guān)性判斷;(4) 樸素貝葉斯算法,該算法針對(duì)網(wǎng)頁(yè)通過(guò)模板中提取的關(guān)鍵信息無(wú)法分類的情況,提供分類依據(jù)。
垂直搜索引擎是針對(duì)某一個(gè)特定領(lǐng)域、行業(yè)或?qū)W科內(nèi)的網(wǎng)絡(luò)信息資源,制定一些特定的搜索策略,讓網(wǎng)絡(luò)爬蟲(chóng)智能在互聯(lián)網(wǎng)上抓取相關(guān)的信息資源,為領(lǐng)域內(nèi)或行業(yè)內(nèi)的專家、學(xué)者和需要這方面信息的用戶提供一整套網(wǎng)絡(luò)信息資源的專業(yè)化搜索引擎[2]。它對(duì)信息庫(kù)中某一類信息進(jìn)行整合,將網(wǎng)頁(yè)的非結(jié)構(gòu)化信息抽取成特定的結(jié)構(gòu)化信息,最后以某種形式返回給用戶。
本次研究選用開(kāi)源框架Nutch作為爬取數(shù)據(jù)、分析數(shù)據(jù)、建立索引的工具。選用Nutch的原因是其能非常快速地爬取網(wǎng)頁(yè),能對(duì)這些網(wǎng)頁(yè)建立索引并提供維護(hù)工作,還能提供對(duì)索引文件每秒上千次的搜索,并盡可能地以最小的運(yùn)作成本提供最高質(zhì)量的搜索服務(wù)。其效率可以和一些商業(yè)搜索引擎相媲美。此外,Nutch和Solr的源代碼是開(kāi)放的,其提供的強(qiáng)大的插件機(jī)制為開(kāi)發(fā)者定制自己的搜索引擎提供了便利。
針對(duì)節(jié)能減排領(lǐng)域,利用Nutch框架完成了垂直搜索引擎設(shè)計(jì),并將節(jié)能減排信息分成政策資訊、標(biāo)準(zhǔn)規(guī)范、技術(shù)文獻(xiàn)等3類。其思路主要有4步:
(1) 選擇爬取節(jié)能減排信息的網(wǎng)站。
(2) 利用Nutch工具開(kāi)始爬取網(wǎng)頁(yè)。
(3) 利用Nutch插件機(jī)制對(duì)網(wǎng)頁(yè)信息進(jìn)行提取,建立索引。步驟如下:
① 建立模版,模版包括提取網(wǎng)頁(yè)標(biāo)題、正文內(nèi)容、關(guān)鍵信息(導(dǎo)航信息等)、標(biāo)準(zhǔn)號(hào)以及技術(shù)文獻(xiàn)來(lái)源。若爬取的URL為一個(gè)網(wǎng)頁(yè),則根據(jù)模板提取內(nèi)容,不符合模板提取規(guī)則的網(wǎng)頁(yè)不需要建立索引,符合模板提取的網(wǎng)頁(yè)則進(jìn)入下一步;若爬取的URL不是一個(gè)網(wǎng)頁(yè),則直接進(jìn)入下一步。
② 節(jié)能減排主題詞庫(kù)的建立以及向量空間模型的建立。利用向量空間模型,計(jì)算網(wǎng)頁(yè)內(nèi)容與節(jié)能減排主題的相關(guān)度。若相關(guān)度大于設(shè)定的閾值,認(rèn)為該網(wǎng)頁(yè)屬于節(jié)能減排領(lǐng)域,則進(jìn)行下一步工作;否則,舍棄該網(wǎng)頁(yè)。
③ 建立樸素貝葉斯模型,完成對(duì)政策咨詢、標(biāo)準(zhǔn)規(guī)范、技術(shù)文獻(xiàn)以及相關(guān)行業(yè)信息特征詞庫(kù)和關(guān)鍵詞庫(kù)的建立,完成信息分類和行業(yè)分類。若爬取的URL為一個(gè)網(wǎng)頁(yè),且根據(jù)模板提取的關(guān)鍵信息和關(guān)鍵詞庫(kù)信息可以直接歸類,則直接分類;若不可以直接歸類,則利用樸素貝葉斯模型,計(jì)算得出網(wǎng)頁(yè)屬于哪個(gè)分類;若爬取的URL不是一個(gè)網(wǎng)頁(yè),則直接根據(jù)樸素貝葉斯模型計(jì)算分類。
(4) 利用SolrJ以及servlet+jsp技術(shù)搭建垂直搜索引擎的用戶檢索平臺(tái)。平臺(tái)提供信息分類檢索、檢索關(guān)鍵詞提示等功能。用戶通過(guò)輸入檢索關(guān)鍵詞,利用SolrJ從索引數(shù)據(jù)庫(kù)中取得相關(guān)信息,并按照相關(guān)度的大小呈現(xiàn)給用戶。
2.1 模板的建立
互聯(lián)網(wǎng)網(wǎng)頁(yè)中的元素節(jié)點(diǎn)存在父子關(guān)系。根據(jù)網(wǎng)頁(yè)元素節(jié)點(diǎn)之間的父子關(guān)系,以及元素節(jié)點(diǎn)上的屬性節(jié)點(diǎn)內(nèi)容,則可以獲取包含在元素節(jié)點(diǎn)的文本節(jié)點(diǎn)內(nèi)容。研究發(fā)現(xiàn),在一個(gè)域名下的網(wǎng)站,其網(wǎng)頁(yè)很多都擁有相同或相近的網(wǎng)頁(yè)樹(shù)形結(jié)構(gòu)。這說(shuō)明搜索引擎對(duì)一個(gè)網(wǎng)頁(yè)特定信息進(jìn)行提取時(shí),該內(nèi)容在網(wǎng)頁(yè)中所處的位置可能與其他很多頁(yè)面相同。利用相同站點(diǎn)下頁(yè)面結(jié)構(gòu)存在的相似性,對(duì)站點(diǎn)下的網(wǎng)頁(yè)建立基于DOM的網(wǎng)頁(yè)模板。通常對(duì)一個(gè)站點(diǎn)下需要采集的網(wǎng)頁(yè)用幾個(gè)模板就可以表示[3]。
(1) 為了提高網(wǎng)頁(yè)模板的加載速度,縮小程序獲取網(wǎng)站模板的范圍,首先為網(wǎng)頁(yè)模板提供了配置文件config.xml。該文件提供了URL的正則匹配式。一個(gè)網(wǎng)頁(yè)可以根據(jù)它的URL確定該網(wǎng)頁(yè)所處站點(diǎn)的模板存放位置。config.xml文件格式如下所示。
其中,WebName表示該站點(diǎn)的名稱;WebDomain表示該站點(diǎn)下任意網(wǎng)頁(yè)需要滿足的URL的正則表達(dá)式,符合該正則表達(dá)式的網(wǎng)頁(yè)則是來(lái)自該站點(diǎn)的網(wǎng)頁(yè);WebTemplate表示該站點(diǎn)下模板庫(kù)的存放位置。
(2) 在指定位置文件夾下建立某一站點(diǎn)的模板template_xxx_xx.xml。模板包含對(duì)頁(yè)面標(biāo)題、正文內(nèi)容、關(guān)鍵信息、標(biāo)準(zhǔn)號(hào)以及技術(shù)文獻(xiàn)來(lái)源的提取規(guī)則,同時(shí)這些提取規(guī)則符合jsoup工具提取網(wǎng)頁(yè)信息的語(yǔ)法要求。模板文件格式如下所示。
其中,WebTitle表示網(wǎng)頁(yè)標(biāo)題;WebNavigation表示網(wǎng)頁(yè)關(guān)鍵信息;WebContent表示網(wǎng)頁(yè)正文內(nèi)容。
網(wǎng)頁(yè)先通過(guò)config.xml文件確定所屬的模板庫(kù),再在相應(yīng)的模板庫(kù)中匹配相應(yīng)的模板。若匹配到相應(yīng)模板,則可利用模板分析網(wǎng)頁(yè),提取內(nèi)容。
2.2 特征詞庫(kù)的確定
本次搭建的垂直搜索引擎在2個(gè)地方需要用到特征詞庫(kù):一是在主題相關(guān)性判斷時(shí)需要配合向量空間模型使用的主題詞庫(kù);二是對(duì)網(wǎng)頁(yè)信息分類時(shí)配合樸素貝葉斯算法使用的分類特征詞庫(kù)。無(wú)論是主題詞庫(kù)還是分類特征詞庫(kù)都需要對(duì)某一類樣本文檔集合的詞或短語(yǔ)的權(quán)重進(jìn)行計(jì)算,設(shè)定閾值,然后選取能夠代表該類特征的詞或短語(yǔ)作為該類的特征詞,構(gòu)成特征詞庫(kù)。
特征詞的權(quán)重計(jì)算有許多方法,常見(jiàn)的可以作為詞的權(quán)重的有文檔頻率、詞頻以及TF-IDF算法。本次選取TF-IDF算法作為特征詞權(quán)重的計(jì)算方法。TF-IDF算法的主要思想是如果某個(gè)詞或短語(yǔ)在一篇文檔中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)對(duì)于該文檔具有高的價(jià)值[4]。
確定本系統(tǒng)特征詞庫(kù)的具體工作步驟如下:
(1) 選取不同類別的文檔作為樣本文檔。對(duì)于特征詞庫(kù),分別選取了與節(jié)能減排領(lǐng)域相關(guān)的和不相關(guān)的文檔各400篇作為樣本文檔;對(duì)于分類特征詞庫(kù),每個(gè)類別選取150篇文檔作為樣本文檔。
(2) 利用IK分詞器分別對(duì)2類文本進(jìn)行中文分詞,并去除停用詞。
(3) 利用Lucene技術(shù)對(duì)各類文本建立索引,并把結(jié)果保存在索引庫(kù)中。
(4) 利用Lucene提供的相關(guān)方法,首先在各類別中統(tǒng)計(jì)每一個(gè)詞或短語(yǔ)在集合中每一篇文檔中出現(xiàn)的次數(shù)以及計(jì)算該篇文檔出現(xiàn)該詞的總次數(shù);然后統(tǒng)計(jì)該詞或短語(yǔ)在該類文檔集合中出現(xiàn)的文檔頻率以及該類文檔集合中的文檔總數(shù);最后統(tǒng)計(jì)該詞或短語(yǔ)出現(xiàn)的類別以及總類別數(shù)。
(5) 利用上一步獲取的相關(guān)數(shù)據(jù),計(jì)算在每一類別樣本文檔集合中每一個(gè)詞或短語(yǔ)的權(quán)重,并將這些詞或短語(yǔ)按照權(quán)重的大小排序。
(6) 通過(guò)設(shè)定閾值去除權(quán)重低的詞或短語(yǔ),確定最終的特征詞庫(kù)。
特征詞庫(kù)訓(xùn)練流程如圖1所示。
圖1 特征詞庫(kù)訓(xùn)練流程圖
2.3 主題相關(guān)性判別的實(shí)現(xiàn)
垂直搜索引擎與通用搜索引擎最本質(zhì)的不同在于垂直搜索引擎會(huì)進(jìn)行主題相關(guān)性判別,過(guò)濾掉與主題相關(guān)度不大的信息。垂直搜索引擎最后用于建立索引庫(kù)的信息都是主題相關(guān)的。向量空間模型可以將文檔表示成向量,可以使用向量之間的余弦距離表示文檔之間的相似度。垂直搜索引擎中的主題相關(guān)性判斷,可以看成主題領(lǐng)域和網(wǎng)頁(yè)之間相似度的計(jì)算,所以可以利用向量空間模型進(jìn)行主題相關(guān)性判定。
若將文檔D1表示成(W11,W12,W13,…,W1n),D2表示成(W21,W22,W23,…,W2n),向量空間模型的計(jì)算公式為:
(1)
利用向量空間模型進(jìn)行主題相關(guān)性判定的具體算法如下:
(1) 根據(jù)特征詞庫(kù)的確定方法,得到節(jié)能減排領(lǐng)域的主題特征向量D1=(W11,W12,…,W1n)。其中,W1k是利用公式計(jì)算的權(quán)重,n表示主題詞庫(kù)中特征詞的個(gè)數(shù)。
(2) 對(duì)網(wǎng)絡(luò)爬蟲(chóng)下載的網(wǎng)頁(yè),通過(guò)網(wǎng)頁(yè)模板提取內(nèi)容。利用IK分詞器對(duì)網(wǎng)頁(yè)文本進(jìn)行分詞,得到該網(wǎng)頁(yè)的分詞集合(t1,t2,…,tm)。其中,m為該網(wǎng)頁(yè)中分詞的總數(shù)。
(3) 以主題詞庫(kù)特征向量的維度為標(biāo)準(zhǔn),按照主題詞庫(kù)中的特征詞對(duì)分詞后得到的網(wǎng)頁(yè)分詞集合進(jìn)行操作。在分詞集合中,去除主題詞庫(kù)中不存在的詞,添加在主題詞庫(kù)中存在的詞,將其權(quán)重設(shè)為0,保留主題詞庫(kù)已經(jīng)存在的詞,將其權(quán)重設(shè)為1,最終得到與主題詞庫(kù)特征向量同樣維度的網(wǎng)頁(yè)特征向量D2=(W21,W22,…,W2n)。表1為主題特征向量的權(quán)重,表2為網(wǎng)頁(yè)詞庫(kù)根據(jù)主題特征向量建立的網(wǎng)頁(yè)特征向量的權(quán)重。
表1 主題特征向量的權(quán)重
表2 網(wǎng)頁(yè)特征向量的權(quán)重
(4) 利用式(1)計(jì)算主題特征向量D1=(W11,W12,…,W1n)和網(wǎng)頁(yè)特征向量D2=(W21,W22,…,W2n)之間的余弦距離,并將得到的值作為判定該網(wǎng)頁(yè)與節(jié)能減排主題領(lǐng)域的相關(guān)度的判定值。
(5) 設(shè)定閾值。若網(wǎng)頁(yè)與節(jié)能減排主題領(lǐng)域的相關(guān)度大于設(shè)定的閾值,則認(rèn)為網(wǎng)頁(yè)所包含的信息屬于節(jié)能減排主題領(lǐng)域,并在建立索引時(shí),將網(wǎng)頁(yè)相關(guān)信息保存在索引數(shù)據(jù)庫(kù)中;反之,則認(rèn)為該網(wǎng)頁(yè)與節(jié)能減排主題領(lǐng)域無(wú)關(guān),舍棄該網(wǎng)頁(yè)。
2.4 網(wǎng)頁(yè)信息分類的實(shí)現(xiàn)
互聯(lián)網(wǎng)信息種類繁多,就節(jié)能減排領(lǐng)域而言,就包含新聞、法律、標(biāo)準(zhǔn)、技術(shù)等各種各樣的信息。如果不對(duì)網(wǎng)頁(yè)信息進(jìn)行歸類,用戶通過(guò)搜索引擎獲取的信息則比較雜亂,從而加大了用戶篩選需要信息的難度。為了提高搜索引擎獲取信息的效率,本次研究利用網(wǎng)頁(yè)關(guān)鍵信息比對(duì)與樸素貝葉斯分類算法相結(jié)合的方式,對(duì)互聯(lián)網(wǎng)信息進(jìn)行信息分類。
樸素貝葉斯分類算法的基本思想是[5]:對(duì)于給定的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)條件下的各個(gè)類別出現(xiàn)的概率。某類別下出現(xiàn)的概率最大,就認(rèn)為此待分類項(xiàng)屬于該類別。
設(shè)待分類項(xiàng)為x,其向量表示為x={a1,a2,a3,…,an},其中每一個(gè)a表示待分類項(xiàng)x中的一個(gè)屬性;設(shè)類別集合C={y1,y2,y3,…,ym},則貝葉斯公式一般形式為[6]:
(2)
樸素貝葉斯分類是求解待分類項(xiàng)在類別集合下各個(gè)概率的最大值。由于P(x)對(duì)于每一個(gè)類別的求解是一個(gè)固定的值,所以該項(xiàng)可以忽略,則式(2)可以寫(xiě)成:
l=max{P(x|y1)P(y1),…,P(x|ym)P(ym)}
(3)
將待分類項(xiàng)x中每一個(gè)屬性帶入,則:
P(x|yi)P(yi) =P(a1|yi)P(a2|yi)…P(an|yi)P(yi)
(4)
進(jìn)行網(wǎng)頁(yè)信息分類的具體實(shí)現(xiàn)思路如下:
(1) 先將根據(jù)網(wǎng)頁(yè)模板獲取到的關(guān)鍵信息與類別關(guān)鍵詞庫(kù)進(jìn)行比對(duì)。若比對(duì)成功,則確定分類;不成功則使用樸素貝葉斯分類算法進(jìn)行分類。類別關(guān)鍵詞庫(kù)通過(guò)人工方式整理,是類別特有的詞或短語(yǔ)的集合。
(2) 根據(jù)特征詞庫(kù)的確定提供的方式,建立政策資訊、標(biāo)準(zhǔn)規(guī)范、技術(shù)文獻(xiàn)等3類特征詞庫(kù);同時(shí)建立xml文件,文件中記錄每一個(gè)分類及分類的樣本數(shù),以便計(jì)算每個(gè)類別的先驗(yàn)概率。如果類別集合為C={y1,y2,y3,…,ym},則類別yi的先驗(yàn)概率求解公式為:
(5)
式中:ni—— 類別yi下的樣本數(shù)量;
N—— 所有類別下的樣本數(shù)的總和。
(3) 利用IK分詞器將待分類網(wǎng)頁(yè)文本進(jìn)行分詞,并去除停用詞,得到網(wǎng)頁(yè)的分詞集合x(chóng)={a1,a2,a3,…,an},該集合可以看成一個(gè)待分類項(xiàng)。
(4) 按照式(4)計(jì)算待分類網(wǎng)頁(yè)文本(待分類項(xiàng))在3個(gè)分類中的概率大小,公式為:
(6)
式中:ni,j—— 在類別yi下包含特征詞屬性aj的樣本數(shù)量,ni,j+1是為了防止分子為零的情況出現(xiàn);
ni—— 類別yi下的樣本數(shù)量;
L—— 總類別數(shù);
M—— 為防止ni過(guò)小而引入的常數(shù)。
(5) 利用式(3)計(jì)算待分類網(wǎng)頁(yè)文本(待分類項(xiàng))在某類別下的概率值最大,則將該網(wǎng)頁(yè)分到該類別下,并將結(jié)果保存在索引庫(kù)中。
針對(duì)節(jié)能減排領(lǐng)域?qū)崿F(xiàn)的垂直搜索引擎是通過(guò)提供用戶接口與網(wǎng)絡(luò)用戶進(jìn)行交互。用戶通過(guò)輸入檢索關(guān)鍵字從搜索引擎的索引庫(kù)中獲取相關(guān)信息[7]。
選取節(jié)能減排領(lǐng)域和非節(jié)能減排領(lǐng)域相關(guān)的文檔各400篇作為主題詞庫(kù)的測(cè)試文檔,選取政策資訊和技術(shù)文獻(xiàn)各200篇作為類別特征詞庫(kù)的測(cè)試文檔,分別對(duì)以文檔頻率DF、詞頻TF、TF-IDF值以及改進(jìn)的TF-IDF值作為詞的權(quán)重提取的特征詞庫(kù)進(jìn)行測(cè)試。主題詞庫(kù)的測(cè)試算法選擇主題判別算法向量空間模型,測(cè)試結(jié)果見(jiàn)表3。分類特征詞庫(kù)的測(cè)試算法選擇樸素貝葉斯算法,測(cè)試結(jié)果見(jiàn)表4。
表3 主題詞庫(kù)實(shí)驗(yàn)測(cè)試結(jié)果
表4 分類特征詞庫(kù)實(shí)驗(yàn)測(cè)試結(jié)果
通過(guò)實(shí)驗(yàn)可以看出,選擇改進(jìn)的TF-IDF算法計(jì)算詞的權(quán)重,經(jīng)過(guò)篩選構(gòu)成的特征詞庫(kù)在主題相關(guān)性判別中能最有效地選擇節(jié)能減排領(lǐng)域相關(guān)的文檔以及去除非節(jié)能減排領(lǐng)域相關(guān)的文檔。在信息分類中,該方法得到的特征詞庫(kù)也能夠最有效地將文檔進(jìn)行歸類。
以搭建節(jié)能減排領(lǐng)域的垂直搜索引擎為需求背景,利用Nutch開(kāi)源框架,結(jié)合網(wǎng)頁(yè)模板、向量空間模型以及樸素貝葉斯算法等技術(shù),實(shí)現(xiàn)了垂直搜索引擎的開(kāi)發(fā)。實(shí)驗(yàn)證明,完成的搜索引擎初步實(shí)現(xiàn)了對(duì)節(jié)能減排相關(guān)的信息檢索,降低了工作人員獲取該領(lǐng)域信息的難度。
[1] 卜天然.基于Nutch技術(shù)的垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J].通化師范學(xué)院學(xué)報(bào),2016,37(4):4-8.
[2] 劉策.垂直搜索引擎發(fā)展前景分析[J].中國(guó)科技成果,2006(13):46-47.
[3] 張玉芳,彭時(shí)名,呂佳.基于文本分類TF-IDF方法的改進(jìn)與應(yīng)用[J].計(jì)算機(jī)工程,2006,32(19):76-78.
[4] 包金龍.基于向量空間模型的信息檢索系統(tǒng)的設(shè)計(jì)[J].情報(bào)檢索,2005,24(7):44-49.
[5] SALTON G, WONG A. On the specification of term value in automatic indexing[J]. Journal of Documentation, 1973,29(4):351-372.
[6] DOMINGOS P, PAZZANI M. On the optimality of the simple bayesian classifier under zero-one loss[J].Machine Learning,1997,29(2):103-130.
[7] 施聰鶯,徐朝軍,楊曉江.TF-IDF算法研究綜述[J].計(jì)算機(jī)應(yīng)用,2009,29(6):167-170.
Design and Implementation of a Vertical Search Engine in the Field of Energy-Saving and Emission-Reduction
BUTianran
(Anhui Business College, Wuhu Anhui 241002, China)
Based on the research on design concept and related technologies of vertical search engines, the vertical search engine used for energy-saving and emission-reduction is designed, with the help of Nutch open source framework design, in order to support for information retrieval services related to energy-saving and emission-reduction. This system uses a Web page template technology to extract Web information, and the improved TF-IDF algorithm is adopted to extract key words; vector space model based on the key words is utilized to test subject correlation, and finally the naive bayesian classifier algorithm can help to classify Web information.
energy-saving and emission-reduction; search engine; Web template; vector space; naive bayes
2016-09-26
安徽省省級(jí)自然科研重點(diǎn)項(xiàng)目“大中型企業(yè)員工績(jī)效評(píng)價(jià)理論模型信息化研究與實(shí)現(xiàn)”(KJ2016A134);安徽省省級(jí)自然科研一般項(xiàng)目“基于Nutch的節(jié)能減排垂直搜索引擎設(shè)計(jì)與應(yīng)用研究”(KJSM201601)
卜天然(1981 — ),男,安徽蕪湖人,碩士,講師,研究方向?yàn)榫W(wǎng)絡(luò)技術(shù)及數(shù)據(jù)挖掘。
TP393
A
1673-1980(2017)01-0092-05