鄭頻捷
(福建泉州兒童發(fā)展職業(yè)學(xué)院,福建 泉州 362000)
學(xué)前教育師資信息素養(yǎng)的挖掘模型設(shè)計(jì)*
鄭頻捷
(福建泉州兒童發(fā)展職業(yè)學(xué)院,福建 泉州 362000)
數(shù)據(jù)挖掘模型的設(shè)計(jì),對(duì)于整個(gè)挖掘過程起到了至關(guān)重要的作用,本文針對(duì)學(xué)前教育信息素養(yǎng)的調(diào)查表,圍繞著數(shù)據(jù)庫設(shè)計(jì)、數(shù)據(jù)準(zhǔn)備、挖掘方法的選用、模型建立四個(gè)方面進(jìn)行闡述,針對(duì)調(diào)查表中的若干重要的問題進(jìn)行分析、研究,從而建立挖掘模型,為最終的數(shù)據(jù)挖掘做好準(zhǔn)備.
學(xué)前教育;信息素養(yǎng);數(shù)據(jù)挖掘;模型設(shè)計(jì)
圍繞著學(xué)前教育師資信息素養(yǎng)體系,國內(nèi)各個(gè)機(jī)構(gòu)對(duì)其研究較為缺乏,沒有一個(gè)現(xiàn)成的模式可以借鑒,本人參考《江蘇省東臺(tái)市幼兒園的信息素養(yǎng)調(diào)查研究報(bào)告》為參考,請(qǐng)教學(xué)院的學(xué)前教育領(lǐng)域?qū)<?與一線教師交流,根據(jù)自身多年信息技術(shù)教學(xué)的經(jīng)驗(yàn),形成了《學(xué)前教育師資信息素養(yǎng)調(diào)查表》,從教師基本信息、信息意識(shí)與態(tài)度、信息知識(shí)與技能、信息整合與創(chuàng)新、信息道德與安全、信息技術(shù)的培訓(xùn)等六個(gè)方面進(jìn)行研究,對(duì)廈、漳、泉、莆田等地公辦、民辦、私立幼兒園的教師展開調(diào)查,希望通過數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)幼兒園教師的信息素養(yǎng)現(xiàn)狀及其影響因素.
首先,利用 Access的建表功能,先建立“學(xué)前教育師資信息素養(yǎng)”數(shù)據(jù)庫,根據(jù)調(diào)查表中設(shè)置的六大部分,分別創(chuàng)建 6個(gè)表,分別為“教師基本信息”(grxx)、“關(guān)于信息意識(shí)和態(tài)度”(ystd)、“關(guān)于信息知識(shí)和技能”(zsjn)、“關(guān)于信息整合與應(yīng)用”(zhyy)、“關(guān)于信息道德與安全”(ddaq)、“信息技術(shù)培訓(xùn)”(jspx).對(duì)各部分中的每個(gè)問題設(shè)立一字段,以縮寫形式為字段名,如“信息技術(shù)自評(píng)”的字段名為“Jszp”,“家庭上網(wǎng)條件 ”的字段名為“Jts wtj”.而每個(gè)問題的答案都是以選項(xiàng)形式填寫,所以每個(gè)字段的數(shù)據(jù)類型均設(shè)置為文本.為了便于管理,我們對(duì)每個(gè)教師都進(jìn)行了編號(hào),并將編號(hào)設(shè)為每個(gè)表的關(guān)鍵字.
本文數(shù)據(jù)的來源主要通過兩種渠道:網(wǎng)上問卷調(diào)查以及網(wǎng)下問卷收集,研究對(duì)象為廈門、漳州、泉州、莆田、龍巖等五個(gè)地區(qū)的學(xué)前教育一線教師.
由于泉州兒童發(fā)展職業(yè)學(xué)院多年來都是面向廈門、漳州、泉州、莆田、龍巖等五地招生,畢業(yè)生也基本上分布在這五個(gè)地區(qū),因此本文收集的數(shù)據(jù)有一定的區(qū)域特點(diǎn),即調(diào)查對(duì)象具有較相似的教育教學(xué)背景,這樣給統(tǒng)計(jì)、分析提供了很大的方便,使得數(shù)據(jù)更加精確.
我們根據(jù)事先設(shè)置的《學(xué)前教育師資信息素養(yǎng)調(diào)查表》的內(nèi)容,將調(diào)查表以網(wǎng)頁的形式發(fā)布在網(wǎng)上,供教師填寫;有了網(wǎng)絡(luò)工具,我們能收集到更多的數(shù)據(jù),從而使調(diào)查結(jié)果更加準(zhǔn)確.在服務(wù)器端收集的數(shù)據(jù),直接以 Access數(shù)據(jù)庫形式保存下來,然后添加到 SQL Server數(shù)據(jù)庫中.
該過程用于提高數(shù)據(jù)質(zhì)量,使數(shù)據(jù)達(dá)到分析所要求的標(biāo)準(zhǔn).數(shù)據(jù)清洗過程包括子數(shù)據(jù)集的選擇和缺失值的處理.因?yàn)閿?shù)據(jù)質(zhì)量是決定挖掘成功與否的關(guān)程中對(duì)一些重要字段進(jìn)行數(shù)據(jù)質(zhì)量檢查是十分必要的.
缺失值是指數(shù)據(jù)集中無法知道、沒有搜集或者錯(cuò)誤錄入的值.一般來說對(duì)于它們所屬的字段這些值是無效的.對(duì)于此類問題需要觀察缺失值情況,考慮舍去其后對(duì)預(yù)測(cè)的結(jié)果是否有較大的影響.
本文中,利用問卷形式收集來的數(shù)據(jù),在手工錄入的過程中,發(fā)現(xiàn)了有許多字段存在缺失值問題,表現(xiàn)為:有的題目中沒有“D”選項(xiàng),但老師的答案中卻出現(xiàn)了“D”的選擇;有的題目答案為空;還有的選擇不合邏輯,比如“年齡”選擇為“20~30”,而“教師職稱”卻選擇為“特級(jí)”.諸如最后一種選擇,在此我們先不做處理,本文主要針對(duì)前兩種缺失情況進(jìn)行研究.
第一種情形下,以“jjntff”字段 (字段含義為“解決教育教學(xué)難題采用方法”)為例,選項(xiàng)中只有 A、B、C三個(gè)選項(xiàng),但結(jié)果中出現(xiàn)了 7個(gè)D的選項(xiàng),造成數(shù)據(jù)錯(cuò)誤有可能是教師填寫錯(cuò)誤或者是錄入員錄入失誤,在這里我們將這些錯(cuò)誤值定義稱缺失值,然后利用 Excel工具,發(fā)現(xiàn)該題目中 C出現(xiàn)頻率最高,因此將 7個(gè)缺失值修改為 C.
第二種情形,我們對(duì)于答案為空的題目先放空,然后在所有數(shù)據(jù)填寫完整后,再采用類似第一種情況代替方式,以出現(xiàn)頻率最高的選項(xiàng)填寫之.
利用 Business Intelligence Development Studio工具,新建一名為“信息素養(yǎng)挖掘”的 Analysis Services項(xiàng)目,導(dǎo)入數(shù)據(jù)源,然后將數(shù)據(jù)源轉(zhuǎn)化成數(shù)據(jù)源視圖,再進(jìn)行“選擇數(shù)據(jù)”.
“選擇數(shù)據(jù)”是用來決定用于分析的數(shù)據(jù).在整合數(shù)據(jù)過程中、構(gòu)建數(shù)據(jù)庫之后,有一些字段會(huì)和分析無關(guān),這里就是要對(duì)字段進(jìn)行過濾.
選擇數(shù)據(jù)是指對(duì)一些變量的選擇取舍.選擇數(shù)據(jù)過程包括字段的選擇和記錄的選擇.我們這里主要針對(duì)字段進(jìn)行選擇.在調(diào)查表設(shè)置初期,由于對(duì)目標(biāo)問題理解不夠細(xì)致,雖然有幼教專家的指點(diǎn),但在學(xué)前教育師資信息素養(yǎng)領(lǐng)域中,有關(guān)研究還是比較缺乏,因此我們?cè)谠O(shè)置數(shù)據(jù)表時(shí)考慮也不夠完善,有關(guān)字段設(shè)置可能是多余的,這也需要通過數(shù)據(jù)挖掘過程去發(fā)現(xiàn).由于篇幅限制,本文只針對(duì)每部分中的典型項(xiàng)目進(jìn)行挖掘研究.
在學(xué)前教育領(lǐng)域中,問題調(diào)查一般選項(xiàng)式、問答式的題目來實(shí)現(xiàn),針對(duì)選項(xiàng)式的調(diào)查,以下我們將對(duì)本文涉及的問題進(jìn)行研究.
挖掘關(guān)聯(lián)規(guī)則的過程,就是尋找具有內(nèi)在、隱性聯(lián)系信息的過程.隨著收集和存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù)規(guī)模越來越大,人們可以從中挖掘出更可靠、更有價(jià)值的關(guān)聯(lián)規(guī)則.參與關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)項(xiàng)可以沒有顯性的關(guān)聯(lián)特征,正是要通過挖掘,探討它們之間的內(nèi)在聯(lián)系.
通過對(duì)調(diào)查表的分析,我們發(fā)現(xiàn)各字段之間的關(guān)系可分為兩種情形.其中一種有著內(nèi)在或外在聯(lián)系,如在“教師職稱結(jié)構(gòu)與自評(píng)”中,教師年齡與教師職稱字段之間有著隱形的聯(lián)系,即不同年齡的教師具有不同的職稱,而教師年齡與信息技術(shù)自評(píng)、教師職稱與信息技術(shù)自評(píng)之間的關(guān)系則是用戶所關(guān)心的問題,這個(gè)關(guān)系需要通過研究得出.根據(jù)關(guān)聯(lián)規(guī)則的適用范圍及其目的,我們發(fā)現(xiàn)只有關(guān)聯(lián)規(guī)則最接近客戶的要求:通過挖掘,得出不同年齡、不同職稱教師對(duì)自我信息技術(shù)的評(píng)價(jià),即相互間的制約、相互影響的規(guī)律.
我們這里可以設(shè)定教師信息技術(shù)自評(píng)為預(yù)測(cè)字段,將年齡和職稱設(shè)置成輸入字段,這樣通過挖掘,便可以得到年齡與信息技術(shù)自評(píng)、職稱與信息技術(shù)自評(píng)的關(guān)聯(lián)規(guī)則.
從上面的例子我們可以發(fā)現(xiàn),當(dāng)問題相關(guān)的字段是不同范圍的,或者有一項(xiàng)是不同范圍的,則可以使用關(guān)聯(lián).
通過聚類,人們能夠自動(dòng)發(fā)現(xiàn)數(shù)據(jù)集中的數(shù)據(jù)由于其各自的相似性和相異性被分成不同的類,這些類別具有明顯的特征,進(jìn)而發(fā)現(xiàn)全局?jǐn)?shù)據(jù)的分布模式,以及數(shù)據(jù)之間的有趣的、隱含的相互聯(lián)系[13].
在調(diào)查表中,我們可以發(fā)現(xiàn)字段之間的另一種關(guān)系——各字段之間都是相對(duì)獨(dú)立,是同一個(gè)范圍的不同方面.這里以“教師多媒體軟件使用情況”問題為例.
該問題包含了四個(gè)字段,分別為“使用 powerpoint情況 ”(Ppt)、“使用 flash情況 ”(Flash)、“使用 authorware情況”(Aw)、“Photoshop制作”(Psdzz).這四個(gè)方面都是屬于教師使用多媒體軟件能力的調(diào)查,每種能力之間都是相對(duì)獨(dú)立的,而用戶關(guān)心的是發(fā)現(xiàn)哪些教師能夠使用哪些多媒體軟件,從而對(duì)不同教師設(shè)定進(jìn)行不同的培訓(xùn)內(nèi)容.根據(jù)聚類方法的適用范圍及其方法特點(diǎn),我們發(fā)現(xiàn)只有聚類方法最符合用戶的需要:通過挖掘,將教師分成若干類別,每個(gè)類別都有區(qū)別于其他類別的顯著特征,這樣使得培訓(xùn)部門可以有的放矢的進(jìn)行針對(duì)性教學(xué).
在此,我們將問題中的每個(gè)字段都設(shè)置為輸入和預(yù)測(cè)字段.
從上面的例子我們可以發(fā)現(xiàn),當(dāng)問題相關(guān)的字段是同范圍的不同方面,則可以選擇聚類方法進(jìn)行挖掘,得到需要的結(jié)果.
在利用 SQL Server 2005 Analysis Services進(jìn)行數(shù)據(jù)挖掘時(shí),需要先指定包含據(jù)以生成模型的定型數(shù)據(jù)的數(shù)據(jù)源視圖,設(shè)置表中的項(xiàng)目,并指定事例表中列的用法.
在 SQL Server 2005 Analysis Services中,數(shù)據(jù)必須作為包含在事例表中的一系列事例提供給數(shù)據(jù)挖掘算法.不是所有的事例都可以用一行數(shù)據(jù)就可以說明.例如一個(gè)事例可能派生自兩個(gè)表,而一個(gè)表也可以派生出兩個(gè)事例,因此Analysis Services提供了數(shù)據(jù)集的解決方法,可以表示多種數(shù)據(jù)來源方式,并提供了嵌套表方式.
指定了事例表后,就可以確定要包括在挖掘結(jié)構(gòu)中的表的每一列使用類型.數(shù)據(jù)挖掘列可以為下列四種類型之一:鍵列、輸入列、可預(yù)測(cè)列或輸入列和可預(yù)測(cè)列的組合.鍵列包含表中每個(gè)行的唯一標(biāo)識(shí)符.輸入列提供據(jù)以進(jìn)行預(yù)測(cè)的信息,而預(yù)測(cè)列包含要在挖掘模型中預(yù)測(cè)的信息.
針對(duì)教師信息素養(yǎng)調(diào)查表設(shè)計(jì),我們將其分為三大部分:個(gè)人信息意識(shí)與態(tài)度、個(gè)人信息知識(shí)和技能水平、個(gè)人信息素養(yǎng)綜合因素以及學(xué)習(xí)目標(biāo),對(duì)于每個(gè)部分,我們僅提取每部分中的一個(gè)主要問題進(jìn)行挖掘模型設(shè)計(jì).
“教師職稱結(jié)構(gòu)與自評(píng)情況”挖掘模型設(shè)計(jì)
(1)指定“列 ”的用法
根據(jù)調(diào)查表內(nèi)容,相關(guān)字段為“教師年齡”(Age)、“教師職稱”(Zc)、“信息技術(shù)自評(píng)”(Jszp),我們通過“教師年齡”、“教師職稱”這兩個(gè)字段來預(yù)測(cè)出教師“信息技術(shù)自評(píng)”的情況,從而了解不同層次教師的信息自我評(píng)價(jià).
根據(jù)前面所述,在進(jìn)行挖掘時(shí),首先要指定數(shù)據(jù)源中“教師基本信息”(Grxx)為事例表,然后從中提取出“Age”、“Zc”、“Jszp”三個(gè)“列 ”(字段 )組成挖掘結(jié)構(gòu) ,其中“Age”、“Zc”為“ Input”屬性 ,“Jszp”為“Predict”屬性.
(2)挖掘算法的選擇及其參數(shù)設(shè)置
根據(jù)挖掘方法的特點(diǎn),這里采用關(guān)聯(lián)規(guī)則挖掘方法,即研究不同年齡、職稱的教師對(duì)自我信息技術(shù)的評(píng)價(jià)情況.
例如教師年齡 =‘20~30’π 信息技術(shù)自評(píng) =‘良好’;
教師職稱 =‘二級(jí)’π 信息技術(shù)自評(píng) =‘良好’.
其中涉及到關(guān)聯(lián)規(guī)則挖掘算法的屬性設(shè)置,我們采用默認(rèn)設(shè)置.
“教師多媒體軟件使用情況”挖掘模型設(shè)計(jì)
(1)指定“列 ”的用法
根據(jù)調(diào)查表內(nèi)容,相關(guān)字段為“使用 powerpoint情況”(Ppt)、“使用 flash情況 ”(Flash)、“使用 authorware情況 ”(Aw)、“Photoshop制作 ”(Psdzz),根據(jù)要求 ,我們指定數(shù)據(jù)源中“信息知識(shí)與技能”(Zsjn)為事例表,提取出“Ppt”、“Flash”、“Aw”、“Psdzz”四個(gè)“列 ”組成挖掘結(jié)構(gòu) ,列屬性均為“Input and Predict”.
(2)挖掘算法的選擇及其參數(shù)設(shè)置
在此我們利用挖掘,了解教師對(duì)于四種多媒體軟件的了解、掌握程度,并自動(dòng)分成具有顯著特征的若干個(gè)類別,然后找出每個(gè)類別中的共性,也就是說通過挖掘,希望能將教師進(jìn)行分類.根據(jù)前面所述,我們認(rèn)為聚類分析挖掘算法最為合適.
根據(jù)聚類分析挖掘算法的屬性設(shè)置,我們同樣將CLUSTER_COUNT修改為 0,為了最準(zhǔn)確地確定要生成的分類數(shù).
“信息化教學(xué)意識(shí)”挖掘模型設(shè)計(jì)
(1)指定“列 ”的用法
根據(jù)調(diào)查表內(nèi)容,相關(guān)字段為“信息化教學(xué)設(shè)計(jì)重點(diǎn)”(Xxhjx)、“信息技術(shù)運(yùn)用教學(xué)”(Xxjsyy)、“多媒體教學(xué)方法的運(yùn)用”(Dmtjx)、“多媒體教學(xué)與傳統(tǒng)教學(xué)區(qū)別”(Dmtct).
根據(jù)要求,我們指定數(shù)據(jù)源中“信息整合與應(yīng)用”(Zhyy)為事例表 ,表 4-4所示 ,提取出“Xxhjx”、“Xxjsyy”、“Dmtjx”、“Dmtct”四個(gè)“列 ”組成挖掘結(jié)構(gòu) ,列屬性均為“In2 put and Predict”.
(2)挖掘算法的選擇及其參數(shù)設(shè)置
上述四個(gè)字段都是教師對(duì)于信息技術(shù)在教學(xué)中應(yīng)用的理解以及使用情況的不同方面,我們希望通過挖掘,了解不同類別教師的共性.根據(jù)前面所述,我們認(rèn)為,聚類分析挖掘算法最為合適.
根據(jù)聚類分析挖掘算法的屬性設(shè)置,我們同樣將CLUSTER_COUNT修改為 0,為了最準(zhǔn)確地確定要生成的分類數(shù).
至此,我們已經(jīng)將整個(gè)數(shù)據(jù)挖掘模型的結(jié)構(gòu)建立起來,對(duì)于其中典型問題進(jìn)行了分析,選擇了適用的挖掘方法,為其他問題的挖掘方法選擇提供了參考,為最終結(jié)論的產(chǎn)生起到了至關(guān)重要的作用.
[1]數(shù)據(jù)挖掘概念[P].http://msdn2.microsoft.com/zhcn/library/ms174949.aspx1
[2]數(shù)據(jù)挖掘教程[P].http://msdn2.microsoft.com/zhcn/library/1
[3]王利.數(shù)據(jù)挖掘技術(shù)在高校管理中的應(yīng)用[J].福建電腦,2005,(6):48~501
[4]胡紅曉,謝佳,韓冰.缺失值處理方法比較研究 [J].商場(chǎng)現(xiàn)代化,2007,(5):352~3531
[5]戴瑩.東臺(tái)市幼兒園教師信息素養(yǎng)調(diào)查研究[C].江蘇省 2005年度學(xué)前教育優(yōu)秀論文 1
[6]鄭洪英.數(shù)據(jù)挖掘聚類算法的分析和應(yīng)用研究[D].重慶:重慶大學(xué),20021101151
[7]包劍.關(guān)聯(lián)規(guī)則挖掘研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2005,(11):56~581
G61
A
1006-5342(2011)06-0158-03
2011-03-13
湖北科技學(xué)院學(xué)報(bào)2011年6期