国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)技術(shù)的課程相關(guān)性分析研究

2019-09-10 07:22:44周永塔
現(xiàn)代信息科技 2019年3期
關(guān)鍵詞:學(xué)生成績(jī)

摘 要:根據(jù)教育部十三五規(guī)劃綱要文件,各高校需要重新制定未來五年發(fā)展計(jì)劃以適應(yīng)高校信息化的要求。因此,需要利用大數(shù)據(jù)手段,深入探討高校教學(xué)方法,提高教學(xué)質(zhì)量。當(dāng)前,大數(shù)據(jù)技術(shù)的應(yīng)用場(chǎng)景逐漸運(yùn)用在教學(xué)管理中,其中,全面調(diào)整課程結(jié)構(gòu),優(yōu)化各專業(yè)當(dāng)前教學(xué)課程的設(shè)定,分析課程相關(guān)性和聯(lián)系性是高校提高教學(xué)質(zhì)量,實(shí)現(xiàn)教學(xué)課程層次化中最為迫切需要解決的問題。為了解高校開設(shè)課程的相關(guān)性,改進(jìn)教學(xué)質(zhì)量,擬利用Apriori優(yōu)化算法和大規(guī)模并行處理技術(shù)對(duì)學(xué)生成績(jī)進(jìn)行課程相關(guān)性分析。

關(guān)鍵詞:大規(guī)模并行處理;Apriori優(yōu)化算法;學(xué)生成績(jī);課程相關(guān)性

中圖分類號(hào):G642;TP311.13-4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)03-0076-03

Research on Curriculum Relevance Analysis Based on Big Data Technology

ZHOU Yongta

(Guangdong Nanhua Vocational College of Industry and Commerence,Educational Technology and Information Center,

Guangzhou 510507,China)

Abstract:According to the 13th Five-Year Plan outline document of the Ministry of Education,colleges and universities need to redesign their development plans for the next five years to meet the requirements of University informatization. Therefore,it is necessary to make use of big data to probe into the teaching methods in Colleges and universities in order to improve the teaching quality. At present,the application scenario of big data technology is gradually applied in teaching management. Among them,adjusting the curriculum structure comprehensively,optimizing the current curriculum settings of various specialties,and analyzing the relevance of the curriculum are the most urgent problems to be solved in order to improve the teaching quality and realize the hierarchy of the teaching curriculum in colleges and universities. In order to understand the relevance of courses offered in colleges and universities and improve the quality of teaching,this paper intends to use Apriori optimization algorithm and large-scale parallel processing technology to analyze the curriculum relevance of students’achievements.

Keywords:large-scale parallel processing;Apriori optimization algorithm;student performance;curriculum relevance

0 引 言

隨著大規(guī)模并行計(jì)算技術(shù)的不斷發(fā)展,使用數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)分析已不能適應(yīng)數(shù)據(jù)規(guī)模的要求,需要使用新一代企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)開展更為復(fù)雜的數(shù)據(jù)分析工作。隨著機(jī)器學(xué)習(xí)等技術(shù)的不斷發(fā)展,大量?jī)?yōu)秀的機(jī)器學(xué)習(xí)算法會(huì)應(yīng)用到教學(xué)管理上。當(dāng)前,學(xué)校對(duì)學(xué)生學(xué)習(xí)情況的分析僅限于基本統(tǒng)計(jì)上,他們會(huì)使用傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)方法,如平均分、方差、標(biāo)準(zhǔn)差等衡量一個(gè)學(xué)生的學(xué)習(xí)情況,這種基本的統(tǒng)計(jì)方法僅僅能了解學(xué)生總體水平,不能針對(duì)某一個(gè)學(xué)生,做出詳細(xì)的分析,這對(duì)高校的教育改革來說,是一個(gè)前所未有的挑戰(zhàn)[1]。本研究將詳細(xì)探討如何利用ETL工具Kettle將存儲(chǔ)在Oracle數(shù)據(jù)庫(kù)的學(xué)生成績(jī)數(shù)據(jù)導(dǎo)入到大規(guī)模并行數(shù)據(jù)倉(cāng)庫(kù)Greenplum中,并利用大規(guī)模并行處理技術(shù),將學(xué)生成績(jī)數(shù)據(jù)進(jìn)行分布式計(jì)算,最后利用數(shù)據(jù)挖掘工具M(jìn)adlib,結(jié)合數(shù)據(jù)挖掘Apriori優(yōu)化算法,研究如何實(shí)現(xiàn)對(duì)學(xué)生各門課的成績(jī)進(jìn)行分析,實(shí)現(xiàn)公共課成績(jī)對(duì)專業(yè)基礎(chǔ)課成績(jī)的影響、專業(yè)基礎(chǔ)課成績(jī)對(duì)專業(yè)核心課成績(jī)的影響、專業(yè)核心課成績(jī)對(duì)專業(yè)核心課成績(jī)的影響三個(gè)業(yè)務(wù)場(chǎng)景的分析。

1 解決關(guān)鍵問題

在傳統(tǒng)的方法中,學(xué)校僅能夠評(píng)估學(xué)生在各個(gè)科目中的掌握情況,但在上某一門課的時(shí)候,缺乏對(duì)學(xué)生前導(dǎo)課程掌握情況的了解,因此,不便做出合理的教學(xué)計(jì)劃,導(dǎo)致基礎(chǔ)較為薄弱的學(xué)生無法跟上課堂的節(jié)奏,優(yōu)秀學(xué)生的知識(shí)量不夠飽滿,導(dǎo)致后進(jìn)生越來越弱,優(yōu)秀生無法得到更大的提高[2]。為了解決這個(gè)問題,各高校利用大數(shù)據(jù)的手段,深入探討高校的教學(xué)方法,提高教學(xué)質(zhì)量。當(dāng)前,大數(shù)據(jù)技術(shù)的應(yīng)用場(chǎng)景逐漸運(yùn)用在教學(xué)管理中,其中,全面調(diào)整課程結(jié)構(gòu),優(yōu)化各專業(yè)當(dāng)前教學(xué)課程的設(shè)定,分析出課程的相關(guān)性和聯(lián)系性,是高校提高教學(xué)質(zhì)量,實(shí)現(xiàn)教學(xué)課程層次化中最為迫切需要解決的問題。針對(duì)高校的人才培養(yǎng)體系,人才培養(yǎng)方案主要分為公共課、專業(yè)基礎(chǔ)課、專業(yè)核心課、專業(yè)實(shí)踐課等四種不同的課程,為了了解各課程在教學(xué)中的相關(guān)度,了解學(xué)生前導(dǎo)課程的學(xué)習(xí)質(zhì)量,需要對(duì)這幾種課程進(jìn)行相關(guān)性分析,從而進(jìn)一步提高教學(xué)質(zhì)量,幫助教師改進(jìn)教學(xué)內(nèi)容和方法。在并行化后采取不包含任何候選k項(xiàng)集的事務(wù)不可能包含任何k項(xiàng)頻繁集方法,在數(shù)據(jù)庫(kù)掃描過程中可以將這些事務(wù)進(jìn)行標(biāo)記,從而減少需要掃描的事務(wù)數(shù)目,提高挖掘效率。

本研究主要利用大規(guī)模并行處理技術(shù)進(jìn)行復(fù)雜數(shù)據(jù)查詢,通過優(yōu)化后的Apriori算法了解公共課成績(jī)對(duì)專業(yè)基礎(chǔ)課成績(jī)的影響、專業(yè)基礎(chǔ)課成績(jī)對(duì)專業(yè)核心課成績(jī)的影響、專業(yè)核心課成績(jī)對(duì)專業(yè)核心課成績(jī)的影響,讓教師在基礎(chǔ)課、專業(yè)基礎(chǔ)課、專業(yè)核心課等課程的設(shè)定上進(jìn)行合理評(píng)估,并得到課程與課程間的聯(lián)系,從而調(diào)整教學(xué)方法和內(nèi)容。

2 關(guān)鍵技術(shù)實(shí)現(xiàn)

利用ETL工具Kettle將存儲(chǔ)在Oracle數(shù)據(jù)庫(kù)的學(xué)生成績(jī)數(shù)據(jù)導(dǎo)入到大規(guī)模并行數(shù)據(jù)倉(cāng)庫(kù)Greenplum中,并利用大規(guī)模并行處理技術(shù),將學(xué)生成績(jī)數(shù)據(jù)進(jìn)行分布式計(jì)算,最后利用數(shù)據(jù)挖掘工具M(jìn)adlib,結(jié)合優(yōu)化后的Apriori算法,研究如何實(shí)現(xiàn)學(xué)生各門課的成績(jī)進(jìn)行分析,實(shí)現(xiàn)公共課成績(jī)對(duì)專業(yè)基礎(chǔ)課成績(jī)的影響、專業(yè)基礎(chǔ)課成績(jī)對(duì)專業(yè)核心課成績(jī)的影響、專業(yè)核心課成績(jī)對(duì)專業(yè)核心課成績(jī)的影響三個(gè)業(yè)務(wù)場(chǎng)景的分析。

大數(shù)據(jù)智能分析會(huì)創(chuàng)建多個(gè)DB進(jìn)程來處理學(xué)生成績(jī)數(shù)據(jù)的查詢。在Master上的稱為執(zhí)行分發(fā)器,執(zhí)行分發(fā)器負(fù)責(zé)創(chuàng)建、分發(fā)查詢計(jì)劃,匯總呈現(xiàn)最終結(jié)果。在Instance上,處理進(jìn)程被稱為查詢執(zhí)行器,查詢執(zhí)行器負(fù)責(zé)完成自身部分的處理工作以及與其他處理進(jìn)程之間交換中間結(jié)果。在進(jìn)行課程相關(guān)性分析的時(shí)候,查詢計(jì)劃的每個(gè)處理部分都至少涉及一個(gè)處理工作,執(zhí)行進(jìn)程只處理屬于自己部分的工作。在查詢執(zhí)行期間,每個(gè)Instance會(huì)并行地執(zhí)行一系列的處理工作。同一部分相關(guān)的處理工作稱為簇。在一部分處理完成后,數(shù)據(jù)將從當(dāng)前處理向上傳遞,直到查詢計(jì)劃完成。圖1顯示查詢處理如何在Master和2個(gè)Instance之間被逐步執(zhí)行的。這真正做到數(shù)據(jù)的分布式查詢,提高了復(fù)雜查詢的查詢時(shí)間。

使用ETL工具Kettle將Oracle的學(xué)生成績(jī)數(shù)據(jù)導(dǎo)入到大規(guī)模并行倉(cāng)庫(kù)中,在導(dǎo)入過程中,可以通過改變開始復(fù)制的數(shù)量、緩存利用、添加數(shù)據(jù)庫(kù)索引、修改JVM參數(shù)等方式改進(jìn)Kettle的性能,并通過實(shí)時(shí)計(jì)算系統(tǒng)實(shí)施將數(shù)據(jù)導(dǎo)入大規(guī)模并行處理倉(cāng)庫(kù)。恒華數(shù)據(jù)實(shí)時(shí)采集系統(tǒng)是一個(gè)面向流的、實(shí)時(shí)的數(shù)據(jù)ETL平臺(tái);通過設(shè)計(jì)和實(shí)現(xiàn)一個(gè)類SQL、可擴(kuò)展的流運(yùn)算系統(tǒng),能為實(shí)時(shí)數(shù)據(jù)處理提供基礎(chǔ)設(shè)施和數(shù)據(jù)供給。它由實(shí)時(shí)導(dǎo)入模塊、實(shí)時(shí)處理模塊、實(shí)時(shí)探索模塊三個(gè)模塊組成,實(shí)時(shí)導(dǎo)入模塊數(shù)據(jù)清洗、歸并、結(jié)構(gòu)化從pipe系統(tǒng)導(dǎo)入的數(shù)據(jù)并映射成流。實(shí)時(shí)處理模塊負(fù)責(zé)執(zhí)行流算子,通過應(yīng)用流類SQL算子,可以生成一個(gè)或多個(gè)邏輯流;每個(gè)邏輯流都可被下游零個(gè)或多個(gè)數(shù)據(jù)使用方訂閱。實(shí)時(shí)探索模塊用于進(jìn)行數(shù)據(jù)消費(fèi),通過改進(jìn)ETL工具的使用,能迅速將基于Oracle數(shù)據(jù)庫(kù)的OLTP數(shù)據(jù)轉(zhuǎn)換成基于大規(guī)模并行處理技術(shù)的OLAP數(shù)據(jù),提升了學(xué)生成績(jī)數(shù)據(jù)的分析能力。

數(shù)據(jù)導(dǎo)入到大規(guī)模并行倉(cāng)庫(kù)后,需要對(duì)學(xué)生成績(jī)進(jìn)行課程相關(guān)性分析。關(guān)聯(lián)性分析所需用到的算法是Apriori。Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來挖掘頻繁項(xiàng)集。在高校管理中,根據(jù)挖掘規(guī)則可以有效地輔助學(xué)校管理學(xué)生成績(jī),并對(duì)成績(jī)進(jìn)行相關(guān)性分析。將數(shù)據(jù)庫(kù)的掃描過程實(shí)現(xiàn)并行化后,而數(shù)據(jù)庫(kù)掃描是Apriori算法的主要瓶頸之一。在主程序產(chǎn)生候選項(xiàng)集的過程中應(yīng)用先驗(yàn)剪枝,對(duì)候選項(xiàng)集的數(shù)量產(chǎn)生限制作用。此外進(jìn)一步采用事務(wù)縮減的思想來減少數(shù)據(jù)庫(kù)事務(wù)的掃描次數(shù)。事務(wù)縮減思想同樣基于頻繁項(xiàng)集的一種性質(zhì)即:不包含任何k-1項(xiàng)頻繁集的事務(wù)不可能包含k項(xiàng)頻繁集,因此在數(shù)據(jù)庫(kù)掃描過程中可以將這些事務(wù)進(jìn)行標(biāo)記,從而減少需要掃描的事務(wù)數(shù)目,提高挖掘效率。而文中利用了與此相似的另外一種性質(zhì)即:不包含任何候選k項(xiàng)集的事務(wù)不可能包含任何k項(xiàng)頻繁集。

基于事務(wù)縮減的算法改進(jìn)策略需要解決的第一個(gè)問題就是如何唯一地標(biāo)識(shí)每一條事務(wù)記錄。在HDFS中,每個(gè)文件都會(huì)以64MB的塊為單位進(jìn)行存儲(chǔ),每個(gè)塊都有一個(gè)唯一的URL。此外,在MapReduce執(zhí)行過程中,每個(gè)Mapper都需要單獨(dú)處理一個(gè)split(split與HDFS中的block是相對(duì)應(yīng)的),采用按行讀入事務(wù)記錄的方式時(shí),key值為該行記錄在文件中的偏移字節(jié)數(shù),對(duì)于該記錄而言,此key值可以作為其在該split中的唯一標(biāo)識(shí)。這樣,由split的URL加該事務(wù)記錄的key值便可以將其唯一地標(biāo)識(shí)出來。按照該策略,改進(jìn)的重點(diǎn)就在Mapper的執(zhí)行邏輯中。即Mapper首先需要獲取split的URL,存入Mapper中的一個(gè)成員變量。同時(shí)根據(jù)split的URL,根據(jù)約定的路徑找到存儲(chǔ)其剔除列表的文件,并將剔除列表讀入一個(gè)HashSet中。map函數(shù)對(duì)候選項(xiàng)集計(jì)數(shù)時(shí),如果發(fā)現(xiàn)該條事務(wù)不包含任何候選項(xiàng)集,則將其加入最新的剔除列表。最后在Mapper的cleanup函數(shù)中將新的剔除列表附加到剔除文件中,以供下一次掃描時(shí)使用。隨著挖掘的不斷進(jìn)行,剔除的事務(wù)量會(huì)不斷增多,挖掘效率的提升也更加明顯。

4 結(jié) 論

使用優(yōu)化之后的Apriori算法對(duì)公共課成績(jī)對(duì)專業(yè)基礎(chǔ)課成績(jī)的影響、專業(yè)基礎(chǔ)課成績(jī)對(duì)專業(yè)核心課成績(jī)的影響、專業(yè)核心課成績(jī)對(duì)專業(yè)核心課成績(jī)的影響這三個(gè)專題進(jìn)行分析,擺脫傳統(tǒng)成績(jī)分析中只有平均分、方差、標(biāo)準(zhǔn)差等統(tǒng)計(jì)方式,深入洞悉課程間的關(guān)系,為高校提供更細(xì)化的教學(xué)數(shù)據(jù),讓教師更好地調(diào)整教學(xué)方法,實(shí)現(xiàn)教學(xué)質(zhì)量的提高。

參考文獻(xiàn):

[1] 廖大強(qiáng),鄒杜,印鑒.一種基于優(yōu)先級(jí)的網(wǎng)格調(diào)度算法 [J].計(jì)算機(jī)工程,2014,40(10):11-16.

[2] 廖大強(qiáng).面向多目標(biāo)的云計(jì)算資源調(diào)度算法 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(2):180-189.

作者簡(jiǎn)介:周永塔(1981.12-),男,漢族,廣東汕尾人,本科,碩士,信息系統(tǒng)項(xiàng)目管理師,研究方向:大數(shù)據(jù)分析。

猜你喜歡
學(xué)生成績(jī)
談高中英語(yǔ)報(bào)刊閱讀對(duì)教學(xué)及學(xué)生成績(jī)的影響
南北橋(2017年4期)2017-03-09 16:08:30
巧用EXCEL2010管理學(xué)生成績(jī)
淺析數(shù)據(jù)挖掘技術(shù)在學(xué)生管理系統(tǒng)中的應(yīng)用
東方教育(2016年20期)2017-01-17 20:57:58
高職數(shù)學(xué)分層教學(xué)學(xué)生成績(jī)?cè)u(píng)價(jià)的數(shù)學(xué)模型
Excel+VBA開發(fā)之《學(xué)生成績(jī)管理系統(tǒng)》的設(shè)計(jì)與實(shí)現(xiàn)
基于MATLAB轉(zhuǎn)置矩陣的學(xué)生學(xué)習(xí)成績(jī)預(yù)警快速算法
學(xué)生成績(jī)管理系統(tǒng)的開發(fā)與設(shè)計(jì)
基于學(xué)生成績(jī)的教學(xué)質(zhì)量管理系統(tǒng)開發(fā)
貴州醫(yī)科大學(xué)學(xué)生成績(jī)數(shù)據(jù)挖掘與分析研究
基于SQL Server數(shù)據(jù)挖掘的學(xué)生成績(jī)預(yù)警預(yù)報(bào)研究
塘沽区| 平武县| 桐城市| 庄浪县| 石嘴山市| 施甸县| 夏邑县| 松江区| 北碚区| 元氏县| 竹山县| 凉城县| 重庆市| 东乌| 苏尼特左旗| 永仁县| 晋中市| 定州市| 临猗县| 柞水县| 家居| 米林县| 梧州市| 泉州市| 西城区| 金堂县| 舒城县| 邯郸市| 始兴县| 赞皇县| 毕节市| 庄河市| 来宾市| 武强县| 古丈县| 镇宁| 连城县| 衡东县| 辉县市| 乐平市| 濉溪县|