摘 要:文章依據(jù)數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析方法,使用R語言對影響青少年機(jī)器人學(xué)習(xí)效果的客觀因素進(jìn)行了分析。分析結(jié)果表明:在是否獲得獎項作為學(xué)習(xí)效果劃分標(biāo)準(zhǔn)下,機(jī)器人學(xué)習(xí)時間是檢驗其學(xué)習(xí)成果的關(guān)鍵規(guī)則。
關(guān)鍵詞:機(jī)器人學(xué)習(xí); 關(guān)聯(lián)分析;學(xué)習(xí)客觀因素
中圖分類號:G40-057 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2015)02-0086-03
一、引言
2003年教育部頒布的高中技術(shù)課程標(biāo)準(zhǔn)中,把“人工智能初步”和“簡易機(jī)器人制作”設(shè)為技術(shù)領(lǐng)域的選修模塊,意味著我國的人工智能和機(jī)器人教育在大眾化、普及化層面上進(jìn)入了一個新階段。[1]國內(nèi)教育專家和學(xué)者們都認(rèn)識到:以機(jī)器人技術(shù)為代表的人工智能技術(shù)是信息技術(shù)發(fā)展的一次重大飛躍,信息技術(shù)教育未來發(fā)展的趨勢必然是向智能機(jī)器人教育轉(zhuǎn)移。人工智能機(jī)器人教學(xué)集中承載著中小學(xué)信息技術(shù)教育的諸多核心價值,是全面培養(yǎng)學(xué)生信息素質(zhì)、提高其創(chuàng)新精神和綜合實踐能力的良好載體。[2]
截至2013年,青少年機(jī)器人教育仍以校外培訓(xùn)班和校內(nèi)課后班為主,機(jī)器人教育還沒有真正走進(jìn)課堂。但據(jù)不完全統(tǒng)計,十年中遼寧省沈陽、大連、鞍山等市中小學(xué)校學(xué)生參加學(xué)習(xí)人數(shù)累計4萬余人,在國際、國內(nèi)(省級以上)比賽中相繼獲得不菲成績(累計1000以上獎項)。在熱情高漲的青少年機(jī)器人教育背后,不乏企業(yè)和培訓(xùn)機(jī)構(gòu)的逐利動機(jī),也不乏家長在子女教育問題上對輿論導(dǎo)向的盲從心理。如何分析機(jī)器人對青少年身心成長的影響是該領(lǐng)域必需正視的問題。由于信息素質(zhì)、創(chuàng)新精神和綜合實踐能力衡量困難,機(jī)器人的比賽和獲獎尤其是國際獎項就成為當(dāng)前最好衡量標(biāo)準(zhǔn)。為驗證影響機(jī)器人學(xué)習(xí)效果的因素,我們將影響學(xué)習(xí)效果因素按主客觀劃分,將主觀因素分為學(xué)習(xí)的興趣與知識水平(認(rèn)知結(jié)構(gòu)),學(xué)習(xí)過程中解決問題的學(xué)習(xí)能力或克服困難的堅韌力。其中青少年學(xué)習(xí)興趣廣泛,而知識水平,學(xué)習(xí)能力和堅韌性是相對有限的。因而客觀因素的分析就顯得更加重要。影響學(xué)習(xí)的客觀因素種類較多,對學(xué)習(xí)過程也有重要影響。本文利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析方法對影響青少年機(jī)器人學(xué)習(xí)成果的客觀因素進(jìn)行分析。
二、關(guān)聯(lián)分析
關(guān)聯(lián)分析(association analysis)是數(shù)據(jù)挖掘中一個重要的課題,被廣泛研究。關(guān)聯(lián)分析是在大量數(shù)據(jù)集中的發(fā)現(xiàn)關(guān)聯(lián)性或相關(guān)性,描述事物中某些屬性同時出現(xiàn)的規(guī)律和模式。[3] 關(guān)聯(lián)分析與統(tǒng)計學(xué)中的相關(guān)分析均討論事物間的相互關(guān)聯(lián)。相關(guān)分析主要刻畫兩類平行關(guān)系變量間相關(guān)程度,是揭示不確定性的隨機(jī)現(xiàn)象之統(tǒng)計規(guī)律的學(xué)科, 因此對于因素間具有不確定性的系統(tǒng), 既可應(yīng)用相關(guān)分析,也可應(yīng)用關(guān)聯(lián)分析。還有關(guān)聯(lián)分析主要處理二分變量,并對其出現(xiàn)的頻率進(jìn)行分析,這一點區(qū)別于數(shù)據(jù)挖掘中的決策樹分析。當(dāng)然關(guān)聯(lián)分析也可以對連續(xù)的變量進(jìn)行離散化后分析。[4] 在關(guān)聯(lián)分析中每一個觀測稱為事務(wù)或交易(transaction),數(shù)據(jù)集合稱為項集(item),一個集包含k個項,則稱為k項集。[5] 用X表示一個項目(前項或左項),Y表示與X沒有交集的另一個項目(后項或右項),蘊涵式X≥Y表示X,Y同時出現(xiàn)的規(guī)則(rule)。X≥Y的支持度(support):表示前項和后項在整個數(shù)據(jù)集中同時出現(xiàn)的頻率,σ(Z)表示事務(wù)集Z的頻數(shù),TX,TY分別表示含有X和Y的事務(wù)集。supp(X≥Y)=;置信度(confidence):支持度與前項頻率之比,conf(X≥Y)==;提升(lift):置信度與后項頻率之比lift(X≥Y)=。關(guān)聯(lián)分析代表性算法有:先驗(Apriori)算法,頻繁模式樹(frequent pattern-growth,F(xiàn)P-growth)算法(R語言目前不支持)及頻繁項集 (Eclat)算法。 [6]
三、 數(shù)據(jù)說明
影響青少年機(jī)器學(xué)習(xí)效果客觀因素分析數(shù)據(jù)來源于整理后的近五年里遼寧省內(nèi)沈陽、大連、鞍山三城市352名機(jī)器人學(xué)員1100筆記錄(含個人幾年內(nèi)連續(xù)記錄),如表1。變量包括:學(xué)員性別(gender:female,male);機(jī)器人學(xué)習(xí)時間(time:1-6年);機(jī)器人學(xué)習(xí)課堂融合程度(Integration:高h(yuǎn)igh,中mid,低low);父母的教育程度(研究生 postgraduate、大學(xué)college(本科、大專)、其他other,二人中取高學(xué)歷);學(xué)校學(xué)習(xí)成績(academic performance, AP:優(yōu) best、良good、一般ok);獲獎(reward: yes, no 各種企業(yè)和政府組織省級以上比賽)。此外,還有一些觀測變量統(tǒng)計困難。如家庭收入,家庭對孩子的教育方式,家庭和諧程度,上一代對家庭的照顧方式與程度,父母職業(yè)(由于同一職業(yè)內(nèi)部差異較大不具有統(tǒng)計學(xué)上可辨別性,雙親不同職業(yè)對子女影響也無法考量),機(jī)器課堂學(xué)習(xí)成績(不同的學(xué)習(xí)班有不同的教學(xué)內(nèi)容和考核標(biāo)準(zhǔn))。其它等未列入數(shù)據(jù)分析中。
四、R語言關(guān)聯(lián)分析過程
R是GNU系統(tǒng)的一個自由、免費、源代碼開放的軟件,主要用于統(tǒng)計分析與數(shù)據(jù)可視化。[7] 其使用簡潔、靈活而且新興研究領(lǐng)域算法不斷更新,在數(shù)據(jù)挖掘(或機(jī)器學(xué)習(xí))領(lǐng)域有廣泛的應(yīng)用?,F(xiàn)利用R語言對青少年機(jī)器學(xué)習(xí)效果客觀因素與是否獲獎進(jìn)行關(guān)聯(lián)分析。
1.數(shù)據(jù)整理[8]
mydata=read.table("clipboard",header=T)#加載數(shù)據(jù)
mydata$time=factor((as.numeric(mydata$time)>3)+1,levels=1:2,labels=c("short","long"))#關(guān)聯(lián)規(guī)則處理的是二分變量,需將學(xué)習(xí)時間time轉(zhuǎn)成”long,short”兩個水平myrobot=as(mydata,"transactions")#arules包要求的數(shù)據(jù)形式為(transactions) itemFrequencyPlot(myrobot,support=0.05) #顯示頻率在5%以上的項如圖1。
2. apriori算法求解關(guān)聯(lián)規(guī)則[9]
library(arules);mynewrules=apriori(myrobot, parameter=list(minlen=2, supp=0.05,conf=0.05),appearance=list(rhs=c("reward=yes"),default="lhs"),control=list(verbose=F))# 第一個規(guī)則的lhs 是個空集,可以使用minlen=2排除lhs空集;verbose=F設(shè)置算法處理的過程簡化;以lift提升度排序myrulessorted=sort(mynewrules, by="lift")#關(guān)聯(lián)規(guī)則按“l(fā)ift”排序
#以下去除冗余關(guān)聯(lián)規(guī)則
mysubset=is.subset(myrulessorted, myrulessorted);mysubset [lower.tri(mysubset, diag=T)] <- NA;redundant <- colSums(mysubset, na.rm=T) >= 1;rulespruned <- myrulessorted[!redundant];inspect(rulespruned)#顯示關(guān)聯(lián)規(guī)則,見表2。
library(arulesViz);plot(mynewrules, method="graph", control=list(type="items"))#關(guān)聯(lián)分析的圖形表示如圖2。
3.關(guān)聯(lián)分析結(jié)果解釋
從表2,無論是支持度、信任度還是提升,與后項獲獎關(guān)聯(lián)最大的前項是學(xué)習(xí)時間(長)。信任度較大關(guān)聯(lián)(0.335,0.325)的前項是機(jī)器人學(xué)習(xí)課堂融合程度(中)、學(xué)校成績(優(yōu)秀)、父母教育程度(大學(xué))。支持度較大關(guān)聯(lián)(0.188)的前項是性別(男)。人們假想的父母學(xué)歷較高、機(jī)器人學(xué)習(xí)課堂融合程度高卻不是機(jī)器人獲獎的關(guān)聯(lián)項。從圖2,將獲獎置于中心,離中心較近的項是學(xué)習(xí)時間(長),機(jī)器人學(xué)習(xí)課堂融合程度(中),性別(男);提升(顏色較深)和支持度(面積較大)的項目是性別(女)、學(xué)校成績(一般),其方向離心說明這是負(fù)關(guān)聯(lián),即學(xué)校學(xué)習(xí)平常的小姑娘不能實現(xiàn)機(jī)器人比賽獲獎的目標(biāo)。
五、結(jié)論與展望
盡管作用于學(xué)習(xí)的客觀因素不能直接的參與學(xué)習(xí)的知識建構(gòu),但在學(xué)習(xí)之初,特別是青少年階段,客觀的輔助作用是不可或缺的,學(xué)習(xí)時間是檢驗其學(xué)習(xí)成果的關(guān)鍵規(guī)則。青少年的機(jī)器人學(xué)習(xí)組織以社會辦學(xué)為主,學(xué)習(xí)時間意味著家長的投入和企業(yè)利潤的最大化。但我們不是金錢決定論的完全支持者,因為比賽獲獎不是機(jī)器人學(xué)習(xí)的真正目標(biāo),而且較長時間的學(xué)習(xí)投入對促進(jìn)學(xué)生綜合發(fā)展的利弊還需進(jìn)一步討論。此外,機(jī)器人學(xué)習(xí)中的主觀因素在學(xué)習(xí)過程中如何表現(xiàn)?原有的學(xué)習(xí)成績對機(jī)器人學(xué)習(xí)效果沒有預(yù)期遷移效果,而反之是否有影響?這些仍是我們需要進(jìn)一步討論的問題。
參考文獻(xiàn):
[1]鐘志強,張毅寧,李國軍.高中機(jī)器人教育課程讀解[J].鞍山師范學(xué)院學(xué)報,2014,(2):43-46.
[2]鐘志強,張毅寧.中小學(xué)機(jī)器人教育課程讀解[J].中小學(xué)電教,2012,(11):15-18.
[3]維基百科——關(guān)聯(lián)式規(guī)則[DB/OL].http://zh.wikipedia. org/wiki/關(guān)聯(lián)式規(guī)則, 2014-5-10.
[4]韓家煒. 數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012.
[5][8]吳喜之.復(fù)雜數(shù)據(jù)統(tǒng)計方法:基于R的應(yīng)用[M].北京:中國人民大學(xué)出版社,2013.
[6]Pang-Ning Tan. 數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2011.
[7]R語言——百度百科[DB/OL]. http://baike.baidu.com, 2014-5-10.
[9]R and Data Mining: Examples and Case Studies[DB/OL]http://www.RDataMining.com,2014,5.
(編輯:郭桂真)