張穎
聚類分析算法在高校選修課設置中的應用研究
張穎
聚類分析是一個功能強大、應用廣泛的數(shù)據(jù)挖掘算法,本文介紹聚類分析和聚類分析算法的工作原理,闡述了如何配置Microsoft聚類分析算法的參數(shù)建立挖掘模型。結(jié)合高職院校的實例,對聚類分析挖掘算法在選修課設置中的應用進行了研究,并對挖掘得到的結(jié)果進行了分析。
聚類分析 挖掘 算法 挖掘模型
所謂聚類,就是將物理或抽象對象的集合構(gòu)成為由類似的對象組成的多個類或簇的過程。聚類分析的思想是由樣本分組,尋找多維數(shù)據(jù)點中的差異之處。特點:(1)聚類分析的分類方式并不需要預先指定一個指針變量;(2)聚類分析屬于一種非參數(shù)分析方法,沒有非常嚴謹?shù)臄?shù)理依據(jù)。
(一)Microsoft 聚類分析算法
Microsoft 聚類分析算法使用迭代技術(shù)將數(shù)據(jù)集中的事例分組為包含類似特征的分類。在瀏覽數(shù)據(jù)、標識數(shù)據(jù)中的異常及創(chuàng)建預測時,這些分組十分有用。利用聚類分析算法構(gòu)建的聚類分析模型可以標識數(shù)據(jù)集中可能無法通過隨意觀察在邏輯上得出的關系。
(二)聚類分析原理
Microsoft 聚類分析算法首先標識數(shù)據(jù)集中的關系,并根據(jù)這些關系生成一系列分類。散點圖可以直觀地表示算法如何對數(shù)據(jù)進行分組,可以表示數(shù)據(jù)集中的所有事例,在該圖中每個事例就是一個點。分類對該圖中的點進行分組并闡釋該算法所標識的關系。
(一)挖掘模型簡介
聚類挖據(jù)算法可以將一群沒有明顯特征的數(shù)據(jù)按照其固有特征分組,換句話說它可以發(fā)現(xiàn)一些隱含變量,這些變量可以準確地將數(shù)據(jù)進行分組。由于聚類算法有能力發(fā)現(xiàn)用來對數(shù)據(jù)進行分組的隱含變量,因此聚類算法是一種非常流行的數(shù)據(jù)挖掘技術(shù),特別是在銷售行業(yè)很常見。
(二)字段定義
在挖掘模型中,聚類算法可以對字段添加一些特殊的標簽。在聚類模型測試結(jié)束后,根據(jù)事例的其他屬性來預測事例的分類,并根據(jù)分類來得到此屬性的取值,作為字段的預測值。聚類分析模型必須包含一個鍵列和若干輸入列。還可以將輸入列定義為可預測列。
(三)參數(shù)配置說明
Microsoft 聚類分析算法支持多個參數(shù),這些參數(shù)會對所生成的挖掘模型的性能和準確性產(chǎn)生影響。
(四)模型查看器
模型查看器包含四個選項卡,說明如下:
(1)分類關系圖
使用“分類關系圖”選項卡,可以瀏覽算法發(fā)現(xiàn)的分類之間的關系。分類之間的線條表示“接近程度”,其明暗度取決于分類之間的相似程度。每個分類的實際顏色表示分類中變量和狀態(tài)的出現(xiàn)頻率。
(2)分類剖面圖
“分類剖面圖”選項卡提供模型的總體視圖。在“分類剖面圖”選項卡中,模型中每個分類都有一個對應的列。第一列列出至少與一個分類關聯(lián)的屬性。離散變量的分布以彩色條顯示,最大條數(shù)在“直方圖條”列表中顯示。連續(xù)屬性以菱形圖顯示,表示每個分類中的平均偏差和標準偏差。
(3)分類特征
使用“分類特征”選項卡,可以更加詳細地檢查組成分類的特征。
(4)分類對比
使用“分類對比”選項卡,可以瀏覽區(qū)分分類的特征。從“分類1”和“分類2”框中選擇兩個分類后,查看器會確定相應分類之間的區(qū)別,并按各分類最獨特的屬性排序顯示。
以某高職院校2004年—2007年的工商管理與計算機應用兩個專業(yè)為例,利用聚類分析挖掘算法對兩個專業(yè)的選修課數(shù)據(jù)信息進行挖掘,并對挖掘結(jié)果進行分析。
(一)業(yè)務問題
通過對培養(yǎng)方案的分析,發(fā)現(xiàn)學生可以選修的課程包括“限選”類和“任選”類課程。因此,將學生選課的挖掘分析目標定為“限選”類和“任選”類課程。
選修課程涵蓋了“人文社科基礎”、“自然科學基礎”、“學科基礎”和“專業(yè)課程”四大類課程類型中。其中,以“學科基礎”和“專業(yè)課程”類居多,占選修課程學分的大多數(shù),對于培養(yǎng)學生的學科基礎和專業(yè)知識起到相當重要的作用。而“人文社科基礎”、“自然科學基礎”,占選修課程學分的少部分,對于陶冶學生的情操也起到補充作用。通過對選修課程的信息進行挖掘,可以了解學生對于專業(yè)知識的興趣面和興趣度,有助于學校合理的安排、調(diào)整選修課程,更好的完成教學目標和培養(yǎng)方案。
(二)采用聚類分析作為數(shù)據(jù)挖掘的方法
聚類增強了人們對客觀現(xiàn)實的認識。對選課信息進行聚類挖掘可以生成不同的選課群體,而這些群體對某些課程有著相同的學習要求和學習偏好?;诖?,可以分析在課程設置方面各專業(yè)之間的異同,同時可以深入了解“選修”類課程的選修率,揭示選課狀況以及學習興趣。
(三)數(shù)據(jù)準備
數(shù)據(jù)來源于教務管理信息系統(tǒng)。數(shù)據(jù)結(jié)構(gòu)包含學生姓名,學號,專業(yè)名稱,課程名稱等。
(四)挖掘結(jié)構(gòu)
有了準備好的數(shù)據(jù),可以根據(jù)挖掘目標選擇特定的數(shù)據(jù)源和視圖來創(chuàng)建挖掘結(jié)構(gòu)。
(五)挖掘模型
根據(jù)創(chuàng)建的挖掘結(jié)構(gòu),選擇聚類分析挖掘算法,創(chuàng)建挖掘模型。根據(jù)鍵表的定義,對列的用法作規(guī)定。
(六)挖掘參數(shù)設置
不同的參數(shù)設置決定了得到滿足不同需要的挖掘結(jié)果,這里參數(shù)設置為默認值就可以滿足挖掘目標。
(七)挖掘結(jié)果及分析
分類查看器顯示使用聚類分析算法生成的挖掘模型的挖掘結(jié)果,瀏覽數(shù)據(jù)以標識數(shù)據(jù)中的變體并創(chuàng)建預測。
1.挖掘結(jié)果
(1)分類關系圖
挖掘結(jié)果有九個分類。兩個分類之間連線的明暗度表示分類的相似程度。如果明暗度較淺或無明暗度,則表示分類的相似程度較低。連線的顏色越深,鏈接的相似性越強。明暗度越深,特定狀態(tài)所對應的屬性分布范圍就越大。明暗度越淺,分布范圍就越小。
(2)分類剖面圖
挖掘結(jié)果分類剖面圖提供了算法創(chuàng)建的分類的總體視圖。視圖顯示了分類中的每個屬性以及屬性的分布。每個單元顯示分布統(tǒng)計信息,每個列顯示分類的總體。
(3)分類特征
每個分類特征顯示組成特征。分類包含的屬性將列在“變量”列中,所列屬性的狀態(tài)列在“值”列中。屬性狀態(tài)按重要性順序列出,重要性由這些狀態(tài)會出現(xiàn)在分類中的概率表示。
(4)分類對比
分類對比可以比較每個分類與其他分類的屬性,確定分類之間最為重要的一些差異,并按重要性順序顯示與這些差異關聯(lián)的屬性狀態(tài)。。
2.分析結(jié)論
利用聚類分析算法,對選修類課程的信息進行挖掘,得到了許多挖掘結(jié)果。挖掘結(jié)果以分類關系圖、分類剖面圖、分類特征和分類對比的形式表現(xiàn)出來,各種表現(xiàn)形式從不同的角度表現(xiàn)了同樣的挖掘信息。仔細分析不同表現(xiàn)形式展現(xiàn)的挖掘信息,可以得到許多有意義的結(jié)論,為以后的選修課設置管理提供決策支持。
(1)分類結(jié)果反映專業(yè)差異
由于只選擇了兩個專業(yè)的選課信息進行挖掘分析,9個分類中都包含兩個專業(yè)和相關課程,并沒有單專業(yè)聚合成一個分類的情況。說明兩個專業(yè)的選修課程關聯(lián)度還比較高。當然,如果參與挖掘的專業(yè)信息越多,分類結(jié)果會更合理,挖掘的信息也會更有參考價值。由分類結(jié)果可以看出大部分分類的內(nèi)部相似度比較高,與別的分類的關聯(lián)度比較低。仔細分析各個分類的詳細信息,會發(fā)現(xiàn):每個分類都從不同的方面體現(xiàn)了素質(zhì)培養(yǎng)的需求。
(2)分類結(jié)果反映興趣取向
培養(yǎng)方案對工商管理、計算機應用兩個專業(yè)分別設置了不同的專業(yè)課程體系,并設置了完整的選修課程體系,因此課程的選擇反映了學生的選課傾向和學習興趣。通過瀏覽分類關系圖、分類剖面圖、分類特征和分類對比視圖能進一步了解各類別的詳細信息。
[1]謝邦昌主編.商務智能與數(shù)據(jù)挖掘Microsoft SQL Server應用.機械工業(yè)出版社,2008.
[2]王欣,徐滕飛,唐連章等編著.SQL Server 2005數(shù)據(jù)挖掘?qū)嵗治? 中國水利水電出版社, 2008.
(張穎:黑龍江農(nóng)墾管理干部學院,副教授,碩士。研究方向:計算機科學與技術(shù)。)