鄭志勇
摘? 要:隨著網(wǎng)絡(luò)教育信息資源的信息容量急劇增加,簡(jiǎn)單依靠商業(yè)化搜索引擎已不能滿足個(gè)性化教與學(xué)的需求,通過(guò)使用解析工具Jsoup抓取教育資源網(wǎng)站和搜索引擎的搜索結(jié)果保存進(jìn)Derby數(shù)據(jù)庫(kù),再利用數(shù)據(jù)挖掘技術(shù)對(duì)可用資源的進(jìn)行頁(yè)面價(jià)值評(píng)價(jià)和格式化存儲(chǔ),必將有效提高網(wǎng)絡(luò)教育資源的使用水平。大部分學(xué)生觸網(wǎng),都是進(jìn)入微博、玩網(wǎng)絡(luò)游戲、聊天,網(wǎng)絡(luò)在學(xué)生群體中的使用更多的只是娛樂(lè)工具。
關(guān)鍵詞:數(shù)據(jù)挖掘? Jsoup? 網(wǎng)絡(luò)教育資源? 抓取策略
中圖分類號(hào):TP311 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)09(b)-0004-02
1? 網(wǎng)絡(luò)教育資源建設(shè)的現(xiàn)狀和利用分析
隨著中國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)結(jié)構(gòu)持續(xù)優(yōu)化,網(wǎng)絡(luò)性能顯著提升,網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)規(guī)模不斷擴(kuò)大,網(wǎng)民低齡化趨勢(shì)明顯。但有研究顯示,盡管在校學(xué)生上網(wǎng)人數(shù)相當(dāng)多,利用網(wǎng)絡(luò)作為學(xué)習(xí)工具的人數(shù)比例還是很少,能很好地使用網(wǎng)絡(luò)資源,尤其是豐富的學(xué)科資源輔助學(xué)習(xí)的學(xué)生人數(shù)更少。在校學(xué)生無(wú)法利用網(wǎng)絡(luò)教育資源的主要原因有下面幾個(gè)方面:(1)是因?yàn)榫W(wǎng)上學(xué)習(xí)資源太雜,難以選擇;(2)是網(wǎng)絡(luò)學(xué)習(xí)資源呈現(xiàn)方式五花八門(mén),有的是主次部分,充斥大量垃圾廣告,更有甚者還有包含暴力、不健康的文字和圖片,引誘學(xué)生點(diǎn)擊。(3)是網(wǎng)絡(luò)上的材料太難影響興趣;(4)是老師缺乏指引。隨著海量的網(wǎng)絡(luò)教育資源建設(shè)和快速上升的帶寬、接入終端普及率與極低的在校學(xué)生使用網(wǎng)絡(luò)教育資源的利用率形成了巨大的反差。通過(guò)數(shù)據(jù)挖掘技術(shù)抓取教育資源網(wǎng)站和搜索引擎的搜索結(jié)果,再利用數(shù)據(jù)挖掘技術(shù)對(duì)可用資源的進(jìn)行有效分析與格式化,將大大提高在校學(xué)生網(wǎng)絡(luò)教育資源的利用率。
2? 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的工作原理和主要策略
2.1 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的基本架構(gòu)
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的基本架構(gòu)如圖1,主要由包含數(shù)據(jù)存儲(chǔ)部分、頁(yè)面分析部分和終端輸出3個(gè)部分。其中數(shù)據(jù)存儲(chǔ)部分有URL資源庫(kù)、本地資源庫(kù)、格式庫(kù);頁(yè)面分析部分有頁(yè)面價(jià)值計(jì)算系統(tǒng)和頁(yè)面結(jié)構(gòu)分析系統(tǒng);終端輸出部分主要包括終端展示(含手機(jī)APP、微網(wǎng)站、微信應(yīng)用)及學(xué)習(xí)反饋兩個(gè)部分。
2.2 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的數(shù)據(jù)流程
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的工作機(jī)制為教師或家長(zhǎng)在明確學(xué)習(xí)目標(biāo)的基礎(chǔ)上,使用HTML解析工具Jsoup抓取教育資源網(wǎng)站和搜索引擎的搜索結(jié)果,對(duì)結(jié)果URL進(jìn)行頁(yè)面價(jià)值計(jì)算,將計(jì)算結(jié)果滿足條件的URL記錄到URL目標(biāo)資源庫(kù)中。執(zhí)行頁(yè)面內(nèi)容抓取分析,進(jìn)行頁(yè)面結(jié)構(gòu)化分析,去除無(wú)效的頁(yè)面(如腳本、鏈超接、商業(yè)廣告、導(dǎo)航),將分析結(jié)果保存到本地資源庫(kù)中。最后,教師或家長(zhǎng)可自行設(shè)計(jì)輸出格式,學(xué)生可在手機(jī)APP、微網(wǎng)站、微信應(yīng)用上進(jìn)行學(xué)習(xí)。
2.3 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的資源抓取策略
如表1所示。
2.4 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的數(shù)據(jù)挖掘策略
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)頁(yè)面價(jià)值評(píng)價(jià)系統(tǒng),采用百分制計(jì)算,頁(yè)面分為三等,分別為不合格,合格和優(yōu)秀;其中0~50分為不合格,50~80為合格,80~100分為優(yōu)秀。
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)頁(yè)面價(jià)值分?jǐn)?shù)計(jì)算公式:
F=A*(W*C/B+(P+M)(2-C)/B)
A:代表網(wǎng)站權(quán)重,其中專業(yè)教育資源類網(wǎng)站權(quán)重為1.2,搜索引擎結(jié)果權(quán)重為1;
B:代表網(wǎng)站權(quán)重最大值,這里是1.2;
C:代表文字部分權(quán)重,可根據(jù)教學(xué)目標(biāo)調(diào)整;
W:代表文字內(nèi)容,滿分50分(見(jiàn)表2)。
P:代表圖片資源,滿分20分(見(jiàn)表3)。
M:代表多媒體視頻率資源,滿分30分(見(jiàn)表4)。
2.5 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的格式輸出策略
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的格式輸出采用內(nèi)容管理系統(tǒng)CMS技術(shù),網(wǎng)頁(yè)抓取功能將符合條件的頁(yè)面內(nèi)容,過(guò)濾后格式化到本地資源庫(kù)中,通過(guò)事先設(shè)計(jì)網(wǎng)站、手機(jī)APP、手機(jī)微站、微信應(yīng)用等模版,教育內(nèi)容可直接的發(fā)布在手機(jī)APP、微網(wǎng)站、微信應(yīng)用上。
頁(yè)面內(nèi)容過(guò)濾策略為:過(guò)濾所有腳本、所有外鏈、所有樣式、導(dǎo)航欄,只保留
范圍標(biāo)簽內(nèi)的內(nèi)容。3? 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的實(shí)現(xiàn)
3.1 基礎(chǔ)準(zhǔn)備
開(kāi)發(fā)平臺(tái)操作系統(tǒng)為Windows;開(kāi)發(fā)語(yǔ)言采用Java;數(shù)據(jù)庫(kù)采用JAVA自帶Derby數(shù)據(jù)庫(kù)。
3.2 URL目標(biāo)資源庫(kù)設(shè)計(jì)
URL目標(biāo)資源庫(kù)用于存儲(chǔ)有價(jià)值的教育資源網(wǎng)站頁(yè)面URL地址和搜索引擎的搜索結(jié)果中有價(jià)值的頁(yè)面URL。核心字段有:來(lái)源類型,分搜索引擎和教育資源兩類,保存頁(yè)面的地址,抓取時(shí)間,文字?jǐn)?shù),圖片數(shù),資源URL抓取核心代碼,采用Jsoup的Document類來(lái)完成。
3.3 本地資源庫(kù)設(shè)計(jì)
本地資源庫(kù)設(shè)計(jì)與普通的內(nèi)容管理系統(tǒng)類似,核心是頁(yè)面內(nèi)容表。核心字段主要有教學(xué)任務(wù),文章類型文章內(nèi)容等。
4? 應(yīng)用案例
本課題研究應(yīng)用于素質(zhì)拓展課程古詩(shī)詞教學(xué),網(wǎng)絡(luò)上有關(guān)古詩(shī)的網(wǎng)站,百度找到相關(guān)結(jié)果約86,100,000,面對(duì)如此海量的、質(zhì)量參此不齊的信息資源,僅依托搜索結(jié)果是很難達(dá)到教學(xué)目標(biāo)的,如要求教師自己建設(shè)一個(gè)相關(guān)教學(xué)網(wǎng)站,需要教師有一定的信息技術(shù)能力和教學(xué)資源的儲(chǔ)備,影響教師使用信息化教學(xué)的積極性。通過(guò)網(wǎng)絡(luò)資源挖掘系統(tǒng)挖掘古詩(shī)的原文、譯文、古詩(shī)的寫(xiě)作環(huán)境、古詩(shī)的內(nèi)涵、古詩(shī)朗讀、古詩(shī)視頻等資源存儲(chǔ)到本地資源庫(kù)用于教學(xué),能大大提高學(xué)生對(duì)古詩(shī)的感悟能力和古詩(shī)鑒賞能力。
5? 結(jié)語(yǔ)
網(wǎng)絡(luò)教育資源挖掘系統(tǒng)通過(guò)對(duì)現(xiàn)有海量網(wǎng)絡(luò)教育資源挖掘和格式化,一方面簡(jiǎn)化或避免了教師重復(fù)建設(shè)教育資源;另一方面也降低了學(xué)生查找和使用網(wǎng)絡(luò)教育資源的難度,避免了學(xué)生被網(wǎng)絡(luò)不良資源的侵害,對(duì)實(shí)際有效利用海量網(wǎng)絡(luò)教育資源是可行的。
參考文獻(xiàn)
[1] 盛雪豐.Android開(kāi)發(fā)一大神器——Jsoup[J].電腦知識(shí)與技術(shù),2015,11(8):63-65.
[2] 馮思度,楊健葉,韓煦.基于醫(yī)療信息的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的研究與設(shè)計(jì)[J].現(xiàn)代信息科技,2019(10):23-25.
[3] 胡文瑜,孫志揮,吳英杰.數(shù)據(jù)挖掘取樣方法研究[J].計(jì)算機(jī)研究與發(fā)展,2011,48(1):45-54.