宗小忠
摘要:提出一個智能網(wǎng)絡(luò)課程系統(tǒng)模型,采用B/S結(jié)構(gòu),系統(tǒng)的智能核心是智能預(yù)測推薦系統(tǒng)。該模型采用了離線部分挖掘與在線部分挖掘相分離思路,重點論述了基于Web挖掘的智能網(wǎng)絡(luò)課程系統(tǒng)模型的體系結(jié)構(gòu),并對算法進行了驗證分析。
關(guān)鍵詞:Web挖掘;Web日志;關(guān)聯(lián)規(guī)則;數(shù)據(jù)預(yù)處理
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)30-0027-02
Research and Application of Web Data Mining on Intelligent Network Course System
ZONG Xiao-zhong
(Shazhou Polytechnical Institute of Technology, Zhangjiagang 215600, China)
Abstract:Based on web mining theory and technology,introduced the process of the web mining.the article proposed a module of intelligent network course system, adopts B/S model, mainly includes two problems:the first, is intelligent forecast of students visited the curriculum resources; secondly, is dig out the hot course; Finally in the form of visualization relayed to the students. System of intelligent core is intelligent forecast recommend system. This model used offline part of mining and the on-line partial mining phase separation mentality, discusses the intelligent network Based on Web mining system structure of curriculum system model, and verified algorithm by analysis.
Key words: web mining;web usage;association rule;data preprocessing
1 概述
隨著信息技術(shù)的日益發(fā)展,信息逐步數(shù)字化,人們正面臨“數(shù)據(jù)豐富而知識貧乏”的問題。八十年代末興起的數(shù)據(jù)挖掘( data mining )技術(shù)為解決此問題提供了方法。數(shù)據(jù)挖掘是在大量的看似無序的數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價值的模式和數(shù)據(jù)間關(guān)系(知識)的過程。隨著Internet和計算機技術(shù)的快速發(fā)展,基于Web的網(wǎng)絡(luò)教育已經(jīng)成為現(xiàn)代教育的一種重要方式。利用網(wǎng)絡(luò),可以進行在線學(xué)習(xí)、輔導(dǎo)、答疑、交流等,為師生提供豐富的教學(xué)資源,創(chuàng)造了一個無障礙交流互動平臺。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識[1]。從Web文檔和訪問數(shù)據(jù)中發(fā)現(xiàn)并抽取信息,可以從海量的Web訪問數(shù)據(jù)中發(fā)現(xiàn)學(xué)生的學(xué)習(xí)興趣、方向、訪問習(xí)慣等,并可以給同學(xué)推薦合適的課程內(nèi)容和學(xué)習(xí)資料。數(shù)據(jù)挖掘為網(wǎng)絡(luò)課程系統(tǒng)的智能化、個性化提供了重要的手段。挖掘用戶訪問行為的潛在模式,預(yù)測用戶可能訪問的結(jié)果,智能地選擇、推薦與用戶興趣接近的網(wǎng)絡(luò)信息。
2 Web挖掘
2.1 基本概念
Web挖掘的概念:Web挖掘是在大量的文檔收集C中識別潛在的模式p的一種活動,其中C和p的關(guān)系可以用映射:[ξ:C→p表示][3]。
Web信息的具體結(jié)構(gòu)如圖1所示:
2.2 Web數(shù)據(jù)挖掘的過程
與傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動態(tài)的、并且是容易造成混淆的,所有很難直接對Web網(wǎng)頁上的數(shù)據(jù)進行挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的處理流程如圖2所示[4]。
3 基于Web挖掘的智能課程系統(tǒng)模型設(shè)計
3.1 體系結(jié)構(gòu)功能
智能課程系統(tǒng)主要想實現(xiàn)兩個方面的問題:一是對學(xué)生訪問課程資源的智能預(yù)測;二是挖掘出熱點課程;最后以可視化的形式傳遞給學(xué)生。本系統(tǒng)采用B/S模型,系統(tǒng)的智能核心是智能預(yù)測推薦系統(tǒng)。其模型結(jié)構(gòu)如圖3所示:
本智能課程系統(tǒng)課程類型主要有兩類:視頻和HTML格式。課程大約有3000門。在校學(xué)生人數(shù)大約為8000千人。
在圖3中,數(shù)據(jù)挖掘的主要數(shù)據(jù)來源有課程基本信息、學(xué)生的基本信息和學(xué)生訪問記錄等。通過圖3可以看出,離線模塊進行特征抽取和規(guī)則生成,預(yù)測推薦系統(tǒng)在線把推薦結(jié)果反饋給學(xué)生,達(dá)到個性化教學(xué)的目的。采用挖掘技術(shù),可以提高系統(tǒng)的智能化,使系統(tǒng)具有自主性、自適應(yīng)性和合作性等特點[4]。
3.2 實現(xiàn)思路
1) 先測算某人訪問某一個課程的訪問率
如果以[fi]表示第[i]訪問該課程的訪問度,即:第一次訪問[f1=1],第二次訪問[f2=2]…,以[xi]表示第[i]次訪問這個課程時間長度,則可以通過加權(quán)平均法計算一個課程的訪問率,即:
[x=f1x1+f2x2+…+fkxkf1+f2+…+fk=i=1kfixii=1kfi=fxf]
2) 在本月若有N個人訪問過該課程,按照上述公式,則可以分別計算出這N個人對該課程的訪問率,然后計算出這個課程的平均訪問率,即:endprint
[X=x1+x2+…+xNN]
3) 在多個課程中,如何測算出哪些課程受歡迎程度呢?則可以以一個月時間進行內(nèi)測,通過計算每個課程的平均訪問率,然后排名,就可以得出結(jié)論。
4) 第二個月開始,我們就可以按照以下方式進行課程篩選了。
為了準(zhǔn)確地表示每個課程的訪問率的變異程度,可以考慮以第一個月的內(nèi)測平均訪問率為標(biāo)準(zhǔn),求出本月各個課程的平均訪問率與內(nèi)測平均訪問率的離差,即([X-X]),稱為離均差。離均差能表達(dá)一個觀測值偏離平均數(shù)的性質(zhì)和程度,因為離均差有正、有負(fù)。顯然,離均差越大,說明這個課程受歡迎程度越大。
4 仿真結(jié)果與分析
根據(jù)挖掘的結(jié)果,我們在線給每個登陸系統(tǒng)的同學(xué)預(yù)測了5課程。為了驗證該模型的可行性,我們設(shè)置系統(tǒng)的權(quán)重h=1.8,并對推薦給學(xué)生的課程點擊率、停留時間、新訪問率、頁面跳出率、進行了統(tǒng)計,進行了手工計算,得出的結(jié)果如表 1所示。
從表1中所示,我們手工設(shè)置通過對訪問時間和訪問次數(shù)進行加權(quán)平均法計算,則可以得出對學(xué)生訪問課程資源的智能預(yù)測;預(yù)測成功率可達(dá)56.80%。
5 結(jié)束語
本文通過在課程平臺中應(yīng)用Web挖掘技術(shù),并對學(xué)生訪問記錄進行分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)數(shù)據(jù)間的內(nèi)在規(guī)律,理解用戶的行為,并據(jù)此為依據(jù)進行有針對性的信息提取,為用戶提供個性化的服務(wù)或改善站資源提供的內(nèi)容,提高用戶搜索的準(zhǔn)確率。
本文研究的問題是利用Web使用挖掘動態(tài)的引導(dǎo)用戶選擇適當(dāng)?shù)恼n程,基于以往的訪問記錄,立即推薦給下次合適的課程。本文給出了模型的具體結(jié)構(gòu)及主要思路,為同類研究提供了一種有益參考。實踐證明基于Web挖掘技術(shù)在精品課程系統(tǒng)中的應(yīng)用提高了精品課程系統(tǒng)的個性服務(wù)水平,為系統(tǒng)的決策分析提供了智能的輔助手段。
參考文獻:
[1] Jiawei Han,Micheline Kamber. 數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2006.
[2] 朱志國.Web使用模式挖掘系統(tǒng)的框架設(shè)計[J].信息系統(tǒng),2010,33(4):97-101.
[3] 申麗君,孟凡榮.基于XML的Web文本挖掘模型的研究與設(shè)計[J].計算機工程與設(shè)計,2007,28(10):2287-2230.
[4] 付文蘭,楊國林. Web數(shù)據(jù)挖掘在個性化搜索引擎中的研究與應(yīng)用[J].內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報,2009,30(4):223-226.
[5] 楊錕,孟波. 一種基于XML的Web數(shù)據(jù)挖掘方法[J].計算機應(yīng)用,2003,23(6):160-161.
[6] 吳學(xué)治,張景,李軍懷,等.一種基于日志挖掘的自適應(yīng)緩存調(diào)試優(yōu)化算法[J].計算機工程,2006,32(11):116-118.
[7] 郭秋萍,王全蘭.一種基于Web挖掘的圖書館服務(wù)推薦模型及其算法研究[J].圖書館雜志,2010,29(6):53-54.
[8] 羅興文,閆友彪,蔡海濱.基于Web挖掘的個性化遠(yuǎn)程教育系統(tǒng)研究[J].計算機工程與設(shè)計,2007,28(12):3016-3022.
[9] 許曉東,李柯,朱士瑞. Web 使用挖掘Apriori算法的改進研究[J].計算機工程與設(shè)計,2010,31(3):539-541.endprint