国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

海量網(wǎng)絡(luò)教育資源挖掘研究與實(shí)現(xiàn)

2019-11-30 12:05:31鄭志勇
科技資訊 2019年26期
關(guān)鍵詞:數(shù)據(jù)挖掘

鄭志勇

摘? 要:隨著網(wǎng)絡(luò)教育信息資源的信息容量急劇增加,簡(jiǎn)單依靠商業(yè)化搜索引擎已不能滿足個(gè)性化教與學(xué)的需求,通過(guò)使用解析工具Jsoup抓取教育資源網(wǎng)站和搜索引擎的搜索結(jié)果保存進(jìn)Derby數(shù)據(jù)庫(kù),再利用數(shù)據(jù)挖掘技術(shù)對(duì)可用資源的進(jìn)行頁(yè)面價(jià)值評(píng)價(jià)和格式化存儲(chǔ),必將有效提高網(wǎng)絡(luò)教育資源的使用水平。大部分學(xué)生觸網(wǎng),都是進(jìn)入微博、玩網(wǎng)絡(luò)游戲、聊天,網(wǎng)絡(luò)在學(xué)生群體中的使用更多的只是娛樂(lè)工具。

關(guān)鍵詞:數(shù)據(jù)挖掘? Jsoup? 網(wǎng)絡(luò)教育資源? 抓取策略

中圖分類號(hào):TP311 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)09(b)-0004-02

1? 網(wǎng)絡(luò)教育資源建設(shè)的現(xiàn)狀和利用分析

隨著中國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)結(jié)構(gòu)持續(xù)優(yōu)化,網(wǎng)絡(luò)性能顯著提升,網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)規(guī)模不斷擴(kuò)大,網(wǎng)民低齡化趨勢(shì)明顯。但有研究顯示,盡管在校學(xué)生上網(wǎng)人數(shù)相當(dāng)多,利用網(wǎng)絡(luò)作為學(xué)習(xí)工具的人數(shù)比例還是很少,能很好地使用網(wǎng)絡(luò)資源,尤其是豐富的學(xué)科資源輔助學(xué)習(xí)的學(xué)生人數(shù)更少。在校學(xué)生無(wú)法利用網(wǎng)絡(luò)教育資源的主要原因有下面幾個(gè)方面:(1)是因?yàn)榫W(wǎng)上學(xué)習(xí)資源太雜,難以選擇;(2)是網(wǎng)絡(luò)學(xué)習(xí)資源呈現(xiàn)方式五花八門(mén),有的是主次部分,充斥大量垃圾廣告,更有甚者還有包含暴力、不健康的文字和圖片,引誘學(xué)生點(diǎn)擊。(3)是網(wǎng)絡(luò)上的材料太難影響興趣;(4)是老師缺乏指引。隨著海量的網(wǎng)絡(luò)教育資源建設(shè)和快速上升的帶寬、接入終端普及率與極低的在校學(xué)生使用網(wǎng)絡(luò)教育資源的利用率形成了巨大的反差。通過(guò)數(shù)據(jù)挖掘技術(shù)抓取教育資源網(wǎng)站和搜索引擎的搜索結(jié)果,再利用數(shù)據(jù)挖掘技術(shù)對(duì)可用資源的進(jìn)行有效分析與格式化,將大大提高在校學(xué)生網(wǎng)絡(luò)教育資源的利用率。

2? 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的工作原理和主要策略

2.1 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的基本架構(gòu)

網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的基本架構(gòu)如圖1,主要由包含數(shù)據(jù)存儲(chǔ)部分、頁(yè)面分析部分和終端輸出3個(gè)部分。其中數(shù)據(jù)存儲(chǔ)部分有URL資源庫(kù)、本地資源庫(kù)、格式庫(kù);頁(yè)面分析部分有頁(yè)面價(jià)值計(jì)算系統(tǒng)和頁(yè)面結(jié)構(gòu)分析系統(tǒng);終端輸出部分主要包括終端展示(含手機(jī)APP、微網(wǎng)站、微信應(yīng)用)及學(xué)習(xí)反饋兩個(gè)部分。

2.2 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的數(shù)據(jù)流程

網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的工作機(jī)制為教師或家長(zhǎng)在明確學(xué)習(xí)目標(biāo)的基礎(chǔ)上,使用HTML解析工具Jsoup抓取教育資源網(wǎng)站和搜索引擎的搜索結(jié)果,對(duì)結(jié)果URL進(jìn)行頁(yè)面價(jià)值計(jì)算,將計(jì)算結(jié)果滿足條件的URL記錄到URL目標(biāo)資源庫(kù)中。執(zhí)行頁(yè)面內(nèi)容抓取分析,進(jìn)行頁(yè)面結(jié)構(gòu)化分析,去除無(wú)效的頁(yè)面(如腳本、鏈超接、商業(yè)廣告、導(dǎo)航),將分析結(jié)果保存到本地資源庫(kù)中。最后,教師或家長(zhǎng)可自行設(shè)計(jì)輸出格式,學(xué)生可在手機(jī)APP、微網(wǎng)站、微信應(yīng)用上進(jìn)行學(xué)習(xí)。

2.3 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的資源抓取策略

如表1所示。

2.4 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的數(shù)據(jù)挖掘策略

網(wǎng)絡(luò)教育資源挖掘系統(tǒng)頁(yè)面價(jià)值評(píng)價(jià)系統(tǒng),采用百分制計(jì)算,頁(yè)面分為三等,分別為不合格,合格和優(yōu)秀;其中0~50分為不合格,50~80為合格,80~100分為優(yōu)秀。

網(wǎng)絡(luò)教育資源挖掘系統(tǒng)頁(yè)面價(jià)值分?jǐn)?shù)計(jì)算公式:

F=A*(W*C/B+(P+M)(2-C)/B)

A:代表網(wǎng)站權(quán)重,其中專業(yè)教育資源類網(wǎng)站權(quán)重為1.2,搜索引擎結(jié)果權(quán)重為1;

B:代表網(wǎng)站權(quán)重最大值,這里是1.2;

C:代表文字部分權(quán)重,可根據(jù)教學(xué)目標(biāo)調(diào)整;

W:代表文字內(nèi)容,滿分50分(見(jiàn)表2)。

P:代表圖片資源,滿分20分(見(jiàn)表3)。

M:代表多媒體視頻率資源,滿分30分(見(jiàn)表4)。

2.5 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的格式輸出策略

網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的格式輸出采用內(nèi)容管理系統(tǒng)CMS技術(shù),網(wǎng)頁(yè)抓取功能將符合條件的頁(yè)面內(nèi)容,過(guò)濾后格式化到本地資源庫(kù)中,通過(guò)事先設(shè)計(jì)網(wǎng)站、手機(jī)APP、手機(jī)微站、微信應(yīng)用等模版,教育內(nèi)容可直接的發(fā)布在手機(jī)APP、微網(wǎng)站、微信應(yīng)用上。

頁(yè)面內(nèi)容過(guò)濾策略為:過(guò)濾所有腳本、所有外鏈、所有樣式、導(dǎo)航欄,只保留范圍標(biāo)簽內(nèi)的內(nèi)容。

3? 網(wǎng)絡(luò)教育資源挖掘系統(tǒng)的實(shí)現(xiàn)

3.1 基礎(chǔ)準(zhǔn)備

開(kāi)發(fā)平臺(tái)操作系統(tǒng)為Windows;開(kāi)發(fā)語(yǔ)言采用Java;數(shù)據(jù)庫(kù)采用JAVA自帶Derby數(shù)據(jù)庫(kù)。

3.2 URL目標(biāo)資源庫(kù)設(shè)計(jì)

URL目標(biāo)資源庫(kù)用于存儲(chǔ)有價(jià)值的教育資源網(wǎng)站頁(yè)面URL地址和搜索引擎的搜索結(jié)果中有價(jià)值的頁(yè)面URL。核心字段有:來(lái)源類型,分搜索引擎和教育資源兩類,保存頁(yè)面的地址,抓取時(shí)間,文字?jǐn)?shù),圖片數(shù),資源URL抓取核心代碼,采用Jsoup的Document類來(lái)完成。

3.3 本地資源庫(kù)設(shè)計(jì)

本地資源庫(kù)設(shè)計(jì)與普通的內(nèi)容管理系統(tǒng)類似,核心是頁(yè)面內(nèi)容表。核心字段主要有教學(xué)任務(wù),文章類型文章內(nèi)容等。

4? 應(yīng)用案例

本課題研究應(yīng)用于素質(zhì)拓展課程古詩(shī)詞教學(xué),網(wǎng)絡(luò)上有關(guān)古詩(shī)的網(wǎng)站,百度找到相關(guān)結(jié)果約86,100,000,面對(duì)如此海量的、質(zhì)量參此不齊的信息資源,僅依托搜索結(jié)果是很難達(dá)到教學(xué)目標(biāo)的,如要求教師自己建設(shè)一個(gè)相關(guān)教學(xué)網(wǎng)站,需要教師有一定的信息技術(shù)能力和教學(xué)資源的儲(chǔ)備,影響教師使用信息化教學(xué)的積極性。通過(guò)網(wǎng)絡(luò)資源挖掘系統(tǒng)挖掘古詩(shī)的原文、譯文、古詩(shī)的寫(xiě)作環(huán)境、古詩(shī)的內(nèi)涵、古詩(shī)朗讀、古詩(shī)視頻等資源存儲(chǔ)到本地資源庫(kù)用于教學(xué),能大大提高學(xué)生對(duì)古詩(shī)的感悟能力和古詩(shī)鑒賞能力。

5? 結(jié)語(yǔ)

網(wǎng)絡(luò)教育資源挖掘系統(tǒng)通過(guò)對(duì)現(xiàn)有海量網(wǎng)絡(luò)教育資源挖掘和格式化,一方面簡(jiǎn)化或避免了教師重復(fù)建設(shè)教育資源;另一方面也降低了學(xué)生查找和使用網(wǎng)絡(luò)教育資源的難度,避免了學(xué)生被網(wǎng)絡(luò)不良資源的侵害,對(duì)實(shí)際有效利用海量網(wǎng)絡(luò)教育資源是可行的。

參考文獻(xiàn)

[1] 盛雪豐.Android開(kāi)發(fā)一大神器——Jsoup[J].電腦知識(shí)與技術(shù),2015,11(8):63-65.

[2] 馮思度,楊健葉,韓煦.基于醫(yī)療信息的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的研究與設(shè)計(jì)[J].現(xiàn)代信息科技,2019(10):23-25.

[3] 胡文瑜,孫志揮,吳英杰.數(shù)據(jù)挖掘取樣方法研究[J].計(jì)算機(jī)研究與發(fā)展,2011,48(1):45-54.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
岳池县| 门源| 天祝| 怀远县| 大荔县| 昭通市| 高青县| 芦溪县| 西乌珠穆沁旗| 都匀市| 富川| 金湖县| 汝阳县| 宁陕县| 深州市| 林西县| 五原县| 清徐县| 秀山| 汉寿县| 兴安县| 云霄县| 阿拉尔市| 比如县| 嘉禾县| 杭锦后旗| 南华县| 鄂伦春自治旗| 喀喇| 苍梧县| 石嘴山市| 台前县| 大化| 罗源县| 罗城| 法库县| 广州市| 甘洛县| 安阳市| 喀喇沁旗| 连山|