牛凱
隨著數(shù)字化校園的迅速發(fā)展,搜索引擎技術(shù)得到廣泛應(yīng)用,Web數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘技術(shù)的一種也應(yīng)運(yùn)而生。搜索引擎是基于Web數(shù)據(jù)挖掘的一個(gè)重要研究方向,校園網(wǎng)信息每天以不可估量的速度增長(zhǎng),數(shù)以萬(wàn)計(jì)的網(wǎng)頁(yè)資源讓師生在浩瀚的信息海洋中眼花繚亂,而搜索引擎的出現(xiàn)則很好的解決了這一現(xiàn)實(shí)問(wèn)題。Web數(shù)據(jù)挖掘能夠從大量的Web文檔和網(wǎng)頁(yè)中抽取出師生感興趣的、潛在的、隱含的信息,為校園網(wǎng)搜索引擎系統(tǒng)提供了強(qiáng)有力的技術(shù)支持。
1.Web數(shù)據(jù)挖掘技術(shù)
隨著信息時(shí)代的飛速發(fā)展,互聯(lián)網(wǎng)己成為人們獲取信息的重要途徑。網(wǎng)絡(luò)作為信息資源平臺(tái),為人們的日常生活提供了便利快捷的服務(wù)。然而,在大量的網(wǎng)絡(luò)信息面前, 如何不被淹沒,如何從海量信息中及時(shí)發(fā)現(xiàn)提取有價(jià)值的信息,成為互聯(lián)網(wǎng)信息檢索面臨的首要問(wèn)題。面對(duì)這一挑戰(zhàn), Web數(shù)據(jù)挖掘技術(shù)提供了一種比較好的解決方法。Web數(shù)據(jù)挖掘技術(shù)包括數(shù)據(jù)庫(kù)、計(jì)算機(jī)網(wǎng)絡(luò)和人工智能技術(shù),Web數(shù)據(jù)挖掘技術(shù)使用了很多數(shù)據(jù)挖掘技術(shù),但是它并不是傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的一個(gè)簡(jiǎn)單應(yīng)用,它是一個(gè)新的研究領(lǐng)域。Web數(shù)據(jù)挖掘技術(shù)一般分為Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘、Web日志挖掘三類。Web內(nèi)容挖掘是指利用某種算法策略對(duì)網(wǎng)絡(luò)資源進(jìn)行抽取,以期發(fā)現(xiàn)有用的知識(shí),常用的策略有總結(jié)、分類、聚類和關(guān)聯(lián)分析等。Web頁(yè)面內(nèi)部結(jié)構(gòu)挖掘與外部結(jié)構(gòu)(鏈接分析)是Web結(jié)構(gòu)挖掘的兩個(gè)主要研究方向,內(nèi)部結(jié)構(gòu)挖掘應(yīng)用于信息抽取、網(wǎng)站結(jié)構(gòu)模式提取和頁(yè)面分類,鏈接分析則主要應(yīng)用于搜索引擎領(lǐng)域。Web日志挖掘主要通過(guò)識(shí)別用戶瀏覽模式,并通過(guò)改進(jìn)Web站點(diǎn)結(jié)構(gòu),達(dá)到用戶能夠更加方便瀏覽的目的,以此來(lái)吸引更多的用戶訪問(wèn)站點(diǎn)。
Web數(shù)據(jù)挖掘與搜索引擎聯(lián)系緊密,校園網(wǎng)搜索引擎除了使用傳統(tǒng)搜索引擎相關(guān)的理論和技術(shù)方法外,還需要新的方法和技術(shù)來(lái)滿足學(xué)校師生要求,Web數(shù)據(jù)挖掘的很多技術(shù)可以應(yīng)用在校園網(wǎng)的搜索引擎中,Web內(nèi)容挖掘能對(duì)互聯(lián)網(wǎng)上海量的網(wǎng)頁(yè)信息進(jìn)行總結(jié)、分類、集群、關(guān)聯(lián)分析和趨勢(shì)預(yù)測(cè)等。通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容的挖掘,可以實(shí)現(xiàn)網(wǎng)頁(yè)的聚類和分類,能夠?qū)W(wǎng)絡(luò)信息進(jìn)行分類瀏覽和檢索,從而提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,提高檢索效率。
根據(jù)數(shù)據(jù)挖掘的一般方法和相關(guān)理論,可以得出Web數(shù)據(jù)挖掘的流程圖,如圖1所示。
網(wǎng)絡(luò)數(shù)據(jù)的收集主要是從Web站點(diǎn)上的數(shù)據(jù)信息中提取一個(gè)數(shù)據(jù)子集,主要包括頁(yè)面數(shù)據(jù)、超鏈接信息和用戶的訪問(wèn)歷史記錄等,為數(shù)據(jù)挖掘提供資源支持。數(shù)據(jù)的預(yù)處理主要是對(duì)數(shù)據(jù)源進(jìn)行組織重構(gòu)和加工處理,并以此構(gòu)建主題數(shù)據(jù)庫(kù),為Web數(shù)據(jù)挖掘提供相應(yīng)的平臺(tái)。模式發(fā)現(xiàn)及分析是Web數(shù)據(jù)挖掘最核心的部分,它主要是通過(guò)運(yùn)用各種數(shù)據(jù)挖掘技術(shù),從數(shù)據(jù)對(duì)象中發(fā)現(xiàn)潛在的、能被人所理解的知識(shí)模式,并最終發(fā)現(xiàn)描述性模式和預(yù)測(cè)性模式。
2.校園網(wǎng)搜索引擎系統(tǒng)架構(gòu)設(shè)計(jì)
2.1 整體框架模型設(shè)計(jì)
校園網(wǎng)搜索引擎系統(tǒng)設(shè)計(jì)以智能化為目標(biāo),最大程度上滿足學(xué)校師生不同需求的查詢。系統(tǒng)首先收集海量的網(wǎng)頁(yè)信息,然后搜索引擎程序會(huì)自動(dòng)對(duì)收集到的網(wǎng)頁(yè)內(nèi)容進(jìn)行分析,并通過(guò)分詞程序得到語(yǔ)句關(guān)鍵詞,再利用索引來(lái)構(gòu)建索引數(shù)據(jù)庫(kù)。當(dāng)用戶通過(guò)Web頁(yè)面來(lái)查詢索引數(shù)據(jù)庫(kù)時(shí),系統(tǒng)就會(huì)返回所有與檢索關(guān)鍵詞相匹配的網(wǎng)頁(yè)。一個(gè)搜索引擎系統(tǒng)主要由以下四部分組成,分別是:頁(yè)面采集模塊、頁(yè)面分析模塊、索引數(shù)據(jù)庫(kù)模塊和信息檢索模塊。從功能上來(lái)說(shuō),四部分內(nèi)容既相互獨(dú)立,又相互聯(lián)系,形成一個(gè)有機(jī)的整體。搜索引擎系統(tǒng)架構(gòu)如圖2所示。
2.2 系統(tǒng)模塊設(shè)計(jì)
本文設(shè)計(jì)的校園網(wǎng)搜索引擎系統(tǒng)與傳統(tǒng)搜索引擎系統(tǒng)的主要不同之處是搜索引擎被分解為多個(gè)任務(wù)不同的專業(yè)搜索引擎, 每個(gè)專業(yè)搜索引擎只搜索特定相關(guān)的信息。該搜索引擎系統(tǒng)主要包括5個(gè)模塊。
(1)信息抓取模塊:搜索引擎系統(tǒng)首先收集用戶所要查詢關(guān)鍵詞和搜索引擎返回的查詢結(jié)果,并對(duì)收集到的數(shù)據(jù)進(jìn)行預(yù)處理。
(2)概念提取模塊:系統(tǒng)從收集到的搜索結(jié)果中選取前100條數(shù)據(jù),進(jìn)行概念提取,然后將提取到的概念存入相應(yīng)數(shù)據(jù)庫(kù)。最后,搜索引擎系統(tǒng)計(jì)算概念聯(lián)系度并將計(jì)算結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中,為后面的概念聚類做好準(zhǔn)備。
(3)用戶建模模塊:系統(tǒng)針對(duì)用戶的搜索關(guān)鍵字進(jìn)行概念提取,從而獲得用戶感興趣的相關(guān)概念,然后,根據(jù)已經(jīng)建立的概念聯(lián)系,確定與用戶搜索關(guān)鍵字有聯(lián)系的概念。
(4)查詢概念聚類模塊:系統(tǒng)根據(jù)用戶興趣模型建立查詢概念二分圖,然后使用基于查詢概念的二分圖聚類算法對(duì)查詢和概念分別進(jìn)行聚類。
(5)查詢優(yōu)化模塊:聚類形成相似的查詢和相似的概念,相似的查詢用以優(yōu)化查詢語(yǔ)句,優(yōu)化后的查詢語(yǔ)句由系統(tǒng)提交給搜索引擎。相似的概念以搜索建議的形式提供給用戶,系統(tǒng)根據(jù)用戶興趣模型產(chǎn)生聚類結(jié)果。
3.Web數(shù)據(jù)挖掘技術(shù)在數(shù)字化校園中的應(yīng)用
在數(shù)字化校園建設(shè)中,主要以教師和學(xué)生為主體,如何更好地協(xié)調(diào)教師和學(xué)生的關(guān)系是數(shù)據(jù)挖掘首要考慮的問(wèn)題。本文以學(xué)生的數(shù)字化校園中的基本信息作為基礎(chǔ)信息,通過(guò)對(duì)學(xué)校的各個(gè)子庫(kù)的個(gè)人信息進(jìn)行加工處理,運(yùn)用簡(jiǎn)單的統(tǒng)計(jì)方法對(duì)每個(gè)子庫(kù)信息進(jìn)行聚合,從而得到進(jìn)行數(shù)據(jù)挖掘的基本信息。
搜索引擎系統(tǒng)首先需要將不同的數(shù)據(jù)源集中到統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù)中,執(zhí)行數(shù)據(jù)的清洗和轉(zhuǎn)換操作。為了方便不同數(shù)據(jù)倉(cāng)庫(kù)之間的數(shù)據(jù)交換,采用統(tǒng)一的數(shù)據(jù)挖掘元數(shù)據(jù)模型。Web數(shù)據(jù)挖掘技術(shù)利用統(tǒng)一的驅(qū)動(dòng)程序存取數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),并且采用統(tǒng)一的結(jié)果模型表示形式,應(yīng)用程序通過(guò)統(tǒng)一的接口訪問(wèn)數(shù)據(jù)挖掘服務(wù)。數(shù)據(jù)挖掘應(yīng)用程序構(gòu)架如圖3所示,其中Data是待挖掘數(shù)據(jù),存放在關(guān)系數(shù)據(jù)庫(kù)或文件中。Data Access獲取文件、數(shù)據(jù)庫(kù)或視圖中的數(shù)據(jù),并將數(shù)據(jù)保存到數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)源可以來(lái)自分布式和遠(yuǎn)程數(shù)據(jù)庫(kù)。Data Warehouse用來(lái)存放待挖掘的數(shù)據(jù),Driver提供統(tǒng)一的數(shù)據(jù)庫(kù)驅(qū)動(dòng)程序,DMT提供不同的算法為應(yīng)用程序服務(wù)。數(shù)據(jù)挖掘算法(DMM)在數(shù)據(jù)上應(yīng)用所得的結(jié)果,不同DMT之間可以相互調(diào)用數(shù)據(jù)挖掘模型,用于結(jié)果應(yīng)用、評(píng)估和可視化。Application是客戶端應(yīng)用程序,調(diào)用一個(gè)或多個(gè)數(shù)據(jù)挖掘服務(wù),得到數(shù)據(jù)挖掘的結(jié)果模型,從而獲得決策需要的信息。
Web數(shù)據(jù)挖掘中,應(yīng)用關(guān)聯(lián)分析技術(shù)尋找網(wǎng)頁(yè)信息庫(kù)中的值的相關(guān)性,應(yīng)用分類方法分析進(jìn)行網(wǎng)頁(yè)信息庫(kù)中的web數(shù)據(jù)的分析,這樣能夠?yàn)槊總€(gè)類別實(shí)現(xiàn)數(shù)據(jù)模型建立、分類規(guī)則挖掘、從而對(duì)數(shù)據(jù)類別做出準(zhǔn)確的描述,另外應(yīng)用聚類方法對(duì)網(wǎng)頁(yè)信息庫(kù)中的記錄數(shù)據(jù)進(jìn)行分析,也就是對(duì)記錄集合進(jìn)行合理的規(guī)劃并對(duì)每個(gè)記錄所在的類別進(jìn)行確定。這樣就能精煉出一個(gè)集成度高、易于使用、冗余度地的索引數(shù)據(jù)庫(kù),方便師生的信息檢索和查找。
4.結(jié)論
Web數(shù)據(jù)挖掘技術(shù)是一個(gè)新興的且有著巨大發(fā)展前景的研究領(lǐng)域,經(jīng)過(guò)眾多研究者的努力,已經(jīng)取得了一些成果,在校園網(wǎng)搜索系統(tǒng)的應(yīng)用中起到了很大的推動(dòng)作用,但是要想將Web數(shù)據(jù)挖掘技術(shù)普及推廣到校園數(shù)字化建設(shè)中,還需要相當(dāng)多的工作,還需要不斷深入研究。
作者單位:天津職業(yè)技術(shù)師范大學(xué) 信息技術(shù)學(xué)院