聚類分析算法在高校選修課設置中的應用研究

2011-08-15 00:45:37張穎

大家 2011年6期

張穎

張穎

聚類分析是一個功能強大、應用廣泛的數(shù)據(jù)挖掘算法，本文介紹聚類分析和聚類分析算法的工作原理，闡述了如何配置Microsoft聚類分析算法的參數(shù)建立挖掘模型。結(jié)合高職院校的實例，對聚類分析挖掘算法在選修課設置中的應用進行了研究，并對挖掘得到的結(jié)果進行了分析。

聚類分析挖掘算法挖掘模型

一、聚類分析

所謂聚類，就是將物理或抽象對象的集合構(gòu)成為由類似的對象組成的多個類或簇的過程。聚類分析的思想是由樣本分組，尋找多維數(shù)據(jù)點中的差異之處。特點:(1)聚類分析的分類方式并不需要預先指定一個指針變量；(2)聚類分析屬于一種非參數(shù)分析方法，沒有非常嚴謹?shù)臄?shù)理依據(jù)。

二、Microsoft聚類分析算法

（一）Microsoft 聚類分析算法

Microsoft 聚類分析算法使用迭代技術(shù)將數(shù)據(jù)集中的事例分組為包含類似特征的分類。在瀏覽數(shù)據(jù)、標識數(shù)據(jù)中的異常及創(chuàng)建預測時，這些分組十分有用。利用聚類分析算法構(gòu)建的聚類分析模型可以標識數(shù)據(jù)集中可能無法通過隨意觀察在邏輯上得出的關系。

（二）聚類分析原理

Microsoft 聚類分析算法首先標識數(shù)據(jù)集中的關系，并根據(jù)這些關系生成一系列分類。散點圖可以直觀地表示算法如何對數(shù)據(jù)進行分組，可以表示數(shù)據(jù)集中的所有事例，在該圖中每個事例就是一個點。分類對該圖中的點進行分組并闡釋該算法所標識的關系。

三、Microsoft聚類挖掘模型

（一）挖掘模型簡介

聚類挖據(jù)算法可以將一群沒有明顯特征的數(shù)據(jù)按照其固有特征分組，換句話說它可以發(fā)現(xiàn)一些隱含變量，這些變量可以準確地將數(shù)據(jù)進行分組。由于聚類算法有能力發(fā)現(xiàn)用來對數(shù)據(jù)進行分組的隱含變量，因此聚類算法是一種非常流行的數(shù)據(jù)挖掘技術(shù)，特別是在銷售行業(yè)很常見。

（二）字段定義

在挖掘模型中，聚類算法可以對字段添加一些特殊的標簽。在聚類模型測試結(jié)束后，根據(jù)事例的其他屬性來預測事例的分類，并根據(jù)分類來得到此屬性的取值，作為字段的預測值。聚類分析模型必須包含一個鍵列和若干輸入列。還可以將輸入列定義為可預測列。

（三）參數(shù)配置說明

Microsoft 聚類分析算法支持多個參數(shù)，這些參數(shù)會對所生成的挖掘模型的性能和準確性產(chǎn)生影響。

（四）模型查看器

模型查看器包含四個選項卡，說明如下：

（1）分類關系圖

使用“分類關系圖”選項卡，可以瀏覽算法發(fā)現(xiàn)的分類之間的關系。分類之間的線條表示“接近程度”，其明暗度取決于分類之間的相似程度。每個分類的實際顏色表示分類中變量和狀態(tài)的出現(xiàn)頻率。

（2）分類剖面圖

“分類剖面圖”選項卡提供模型的總體視圖。在“分類剖面圖”選項卡中，模型中每個分類都有一個對應的列。第一列列出至少與一個分類關聯(lián)的屬性。離散變量的分布以彩色條顯示，最大條數(shù)在“直方圖條”列表中顯示。連續(xù)屬性以菱形圖顯示，表示每個分類中的平均偏差和標準偏差。

（3）分類特征

使用“分類特征”選項卡，可以更加詳細地檢查組成分類的特征。

（4）分類對比

使用“分類對比”選項卡，可以瀏覽區(qū)分分類的特征。從“分類1”和“分類2”框中選擇兩個分類后，查看器會確定相應分類之間的區(qū)別，并按各分類最獨特的屬性排序顯示。

四、案例分析

以某高職院校2004年—2007年的工商管理與計算機應用兩個專業(yè)為例，利用聚類分析挖掘算法對兩個專業(yè)的選修課數(shù)據(jù)信息進行挖掘，并對挖掘結(jié)果進行分析。

（一）業(yè)務問題

通過對培養(yǎng)方案的分析，發(fā)現(xiàn)學生可以選修的課程包括“限選”類和“任選”類課程。因此，將學生選課的挖掘分析目標定為“限選”類和“任選”類課程。

選修課程涵蓋了“人文社科基礎”、“自然科學基礎”、“學科基礎”和“專業(yè)課程”四大類課程類型中。其中，以“學科基礎”和“專業(yè)課程”類居多，占選修課程學分的大多數(shù)，對于培養(yǎng)學生的學科基礎和專業(yè)知識起到相當重要的作用。而“人文社科基礎”、“自然科學基礎”，占選修課程學分的少部分，對于陶冶學生的情操也起到補充作用。通過對選修課程的信息進行挖掘，可以了解學生對于專業(yè)知識的興趣面和興趣度，有助于學校合理的安排、調(diào)整選修課程，更好的完成教學目標和培養(yǎng)方案。

（二）采用聚類分析作為數(shù)據(jù)挖掘的方法

聚類增強了人們對客觀現(xiàn)實的認識。對選課信息進行聚類挖掘可以生成不同的選課群體，而這些群體對某些課程有著相同的學習要求和學習偏好?；诖?，可以分析在課程設置方面各專業(yè)之間的異同，同時可以深入了解“選修”類課程的選修率，揭示選課狀況以及學習興趣。

（三）數(shù)據(jù)準備

數(shù)據(jù)來源于教務管理信息系統(tǒng)。數(shù)據(jù)結(jié)構(gòu)包含學生姓名，學號，專業(yè)名稱，課程名稱等。

（四）挖掘結(jié)構(gòu)

有了準備好的數(shù)據(jù)，可以根據(jù)挖掘目標選擇特定的數(shù)據(jù)源和視圖來創(chuàng)建挖掘結(jié)構(gòu)。

（五）挖掘模型

根據(jù)創(chuàng)建的挖掘結(jié)構(gòu)，選擇聚類分析挖掘算法，創(chuàng)建挖掘模型。根據(jù)鍵表的定義，對列的用法作規(guī)定。

（六）挖掘參數(shù)設置

不同的參數(shù)設置決定了得到滿足不同需要的挖掘結(jié)果，這里參數(shù)設置為默認值就可以滿足挖掘目標。

（七）挖掘結(jié)果及分析

分類查看器顯示使用聚類分析算法生成的挖掘模型的挖掘結(jié)果，瀏覽數(shù)據(jù)以標識數(shù)據(jù)中的變體并創(chuàng)建預測。

1.挖掘結(jié)果

（1）分類關系圖

挖掘結(jié)果有九個分類。兩個分類之間連線的明暗度表示分類的相似程度。如果明暗度較淺或無明暗度，則表示分類的相似程度較低。連線的顏色越深，鏈接的相似性越強。明暗度越深，特定狀態(tài)所對應的屬性分布范圍就越大。明暗度越淺，分布范圍就越小。

（2）分類剖面圖

挖掘結(jié)果分類剖面圖提供了算法創(chuàng)建的分類的總體視圖。視圖顯示了分類中的每個屬性以及屬性的分布。每個單元顯示分布統(tǒng)計信息，每個列顯示分類的總體。

（3）分類特征

每個分類特征顯示組成特征。分類包含的屬性將列在“變量”列中，所列屬性的狀態(tài)列在“值”列中。屬性狀態(tài)按重要性順序列出，重要性由這些狀態(tài)會出現(xiàn)在分類中的概率表示。

（4）分類對比

分類對比可以比較每個分類與其他分類的屬性，確定分類之間最為重要的一些差異，并按重要性順序顯示與這些差異關聯(lián)的屬性狀態(tài)。。

2.分析結(jié)論

利用聚類分析算法，對選修類課程的信息進行挖掘，得到了許多挖掘結(jié)果。挖掘結(jié)果以分類關系圖、分類剖面圖、分類特征和分類對比的形式表現(xiàn)出來，各種表現(xiàn)形式從不同的角度表現(xiàn)了同樣的挖掘信息。仔細分析不同表現(xiàn)形式展現(xiàn)的挖掘信息，可以得到許多有意義的結(jié)論，為以后的選修課設置管理提供決策支持。

（1）分類結(jié)果反映專業(yè)差異

由于只選擇了兩個專業(yè)的選課信息進行挖掘分析，9個分類中都包含兩個專業(yè)和相關課程，并沒有單專業(yè)聚合成一個分類的情況。說明兩個專業(yè)的選修課程關聯(lián)度還比較高。當然，如果參與挖掘的專業(yè)信息越多，分類結(jié)果會更合理，挖掘的信息也會更有參考價值。由分類結(jié)果可以看出大部分分類的內(nèi)部相似度比較高，與別的分類的關聯(lián)度比較低。仔細分析各個分類的詳細信息，會發(fā)現(xiàn)：每個分類都從不同的方面體現(xiàn)了素質(zhì)培養(yǎng)的需求。

（2）分類結(jié)果反映興趣取向

培養(yǎng)方案對工商管理、計算機應用兩個專業(yè)分別設置了不同的專業(yè)課程體系，并設置了完整的選修課程體系，因此課程的選擇反映了學生的選課傾向和學習興趣。通過瀏覽分類關系圖、分類剖面圖、分類特征和分類對比視圖能進一步了解各類別的詳細信息。

［1］謝邦昌主編.商務智能與數(shù)據(jù)挖掘Microsoft SQL Server應用.機械工業(yè)出版社,2008.

［2］王欣,徐滕飛,唐連章等編著.SQL Server 2005數(shù)據(jù)挖掘?qū)嵗治? 中國水利水電出版社, 2008.

（張穎：黑龍江農(nóng)墾管理干部學院，副教授，碩士。研究方向：計算機科學與技術(shù)。）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

聚類分析算法在高校選修課設置中的應用研究

一、聚類分析

二、Microsoft聚類分析算法

三、Microsoft聚類挖掘模型

四、案例分析

一、聚類分析

二、Microsoft聚類分析算法

三、Microsoft聚類挖掘模型

四、案例分析