方倩珊
(漳州城市職業(yè)學(xué)院初等教育系,福建漳州363000)
粗糙集理論 (Rough Set)[1]是一種新的處理模糊和不精確性知識(shí)的數(shù)學(xué)工具.近年來,它已被廣泛地應(yīng)用在人工智能、模式識(shí)別、數(shù)據(jù)挖掘等方面.如何迅速有效地建立質(zhì)量評(píng)估的挖掘模型,獲得隱藏在數(shù)據(jù)之后的商機(jī)、財(cái)富等有用的知識(shí)信息,成為眾多決策者和管理者的當(dāng)務(wù)之急.
目前,國內(nèi)外已有很多關(guān)于質(zhì)量評(píng)估的挖掘模型,如基于屬性重要度的挖掘模型、基于區(qū)分矩陣的挖掘模型、基于互信息的挖掘模型等等.這些挖掘模型的算法,在絕大數(shù)情況下能夠得到?jīng)Q策表的一個(gè)屬性約簡,但不能保證得到?jīng)Q策表的最佳約簡集.如果進(jìn)行挖掘的數(shù)據(jù)集比較龐大,屬性條目多,這些挖掘模型的算法將非常的復(fù)雜,所需時(shí)間和空間代價(jià)都很高,嚴(yán)重影響后續(xù)挖掘的效率.為了在一定程度上解決此問題,提出了一種改進(jìn)的質(zhì)量評(píng)估的挖掘模型,稱它為質(zhì)量評(píng)估的粗挖掘模型.該模型的算法不僅能計(jì)算決策表的最佳約簡集,而且能簡化最佳約簡集的生成,減少計(jì)算機(jī)的大量運(yùn)算,有效地促進(jìn)粗挖掘的實(shí)施.實(shí)踐證明,運(yùn)用此模型能夠挖掘出對(duì)象潛在的特征模式,有效地預(yù)測分析對(duì)象的行為趨勢,動(dòng)態(tài)地把握管理,進(jìn)行對(duì)象特征分類,強(qiáng)化規(guī)范管理,發(fā)現(xiàn)被忽略的要素,提高管理質(zhì)量與效率,促進(jìn)體制的完善和發(fā)展,為管理者提供了決策支持,為拓展粗糙集的應(yīng)用領(lǐng)域做出了有益的探索.
____定義1_(___________知識(shí)表達(dá)系統(tǒng)) 粗糙集理論中定義知識(shí)表達(dá)系統(tǒng)為一個(gè)如下四元組:S=(U,A,V,f),其中U={X1,X2,…Xn}是對(duì)象集,即論域;A是屬性集合,A=C∪D,且 C∩D=φ,其中C為條件屬性,D為決策屬性;V為屬性A的值域;f是U×A→V的映射,它為U中各對(duì)象的屬性指定唯一值.S又被稱為決策表.
定義2(不可區(qū)分關(guān)系) 在知識(shí)表達(dá)系統(tǒng)S中,對(duì)于一屬性集 P?A,xi,xj∈U,P上的不可區(qū)分關(guān)系用 IND(P)表示,定義為:
不可區(qū)分關(guān)系實(shí)際上就是 P上的等價(jià)關(guān)系.因此,針對(duì)屬性集 P上的不可區(qū)分關(guān)系,U可劃分為幾個(gè)等價(jià)類,用U/IND(P)表示,可簡記為U/P.[X]R表示包含元素X∈U的R等價(jià)類.
定義3(約簡) 知識(shí)表達(dá)系統(tǒng)S中不含多余屬性并保證分類正確的最小條件屬性集定義為約簡,即C的約簡的集合記作Red(C).一個(gè)知識(shí)表達(dá)系統(tǒng)可能同時(shí)存在幾個(gè)約簡.
定義4(區(qū)分矩陣) 基于給定知識(shí)表達(dá)系統(tǒng) S關(guān)于屬性集C的區(qū)分矩陣M(C)=(mij)n×n定義為:
M(C)=(mij)n×n是代表了區(qū)分xi,xj的完整信息,它是對(duì)稱矩陣,所以只需計(jì)算
mij(1≤j≤i≤n)
定義5(核) 知識(shí)表達(dá)系統(tǒng)S中所有約簡的交集定義為決策表的核 (Core),即 Core(C)=∩Red(C).核中的屬性是影響分類的重要屬性.求核一般通過區(qū)分矩陣進(jìn)行,具體計(jì)算的公式如下:
Core={C∈C:mij={c},對(duì)于所有1≤j≤i≤n}.
定義6(下近似) 設(shè)?X?U,P?A,則 X關(guān)于知識(shí) P的下近似集定義為:P(X)= ∪{Y|(?Y∈U/P)∧(Y?X)}
定義7(正域) 設(shè)D為決策屬性集,P?C為一條件屬性集,則決策屬性集D關(guān)于條件屬性集 P的正域定義為:POSP(D)=
定義8(屬性的依賴度) 不同屬性對(duì)于決定條件屬性和決策屬性之間的依賴關(guān)系起著不同的作用.屬性集 P對(duì)R的依賴程度用γR(P)表示.其定義如下:
定義9(屬性的重要性) 在屬性約簡中,利用二個(gè)屬性集合 P、R?A之間的相互依賴程度,可以定義一個(gè)屬性a的重要性.從屬性集 R中去掉屬性a時(shí),對(duì)于分類U/P的重要程度定義為:sig(a,R,P)=γR(P)-γR-{a}(P).
定義10(支持度和置信度) 度量關(guān)聯(lián)規(guī)則的參數(shù)是支持度 (support)與置信度 (confidence).通常用戶根據(jù)采掘需要指定最小支持度 (記為minsupport)和最小置信度 (記為minconfidence).前者描述了關(guān)聯(lián)規(guī)則的最低重要程度,后者規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最低可靠性.在粗糙集理論中支持度與置信度可以表示為:
support(X?Y) =P(X∪Y),confidence(X?Y) =P(Y|X).
如果support(X?Y) ≥minsupport且confidence(X?Y) ≥minconfidence,稱關(guān)聯(lián)規(guī)則 X?Y為強(qiáng)規(guī)則,否則稱關(guān)聯(lián)規(guī)則 X?Y為弱規(guī)則.給定一個(gè)數(shù)據(jù)庫 D,關(guān)聯(lián)規(guī)則的挖掘問題就是在 D中求解所有支持度和置信度均不低于minsupport和minconfidence的關(guān)聯(lián)規(guī)則.
此模型包含數(shù)據(jù)采集、數(shù)據(jù)清洗、屬性約簡、粗挖掘、模式解釋及知識(shí)評(píng)價(jià)等五個(gè)建模步驟 (見圖1).
Step 1:數(shù)據(jù)采集
數(shù)據(jù)采集是粗挖掘的基礎(chǔ),粗挖掘的成功與否,數(shù)據(jù)采集起到了至關(guān)重要的作用.數(shù)據(jù)采集包含很多方面:一是從多種數(shù)據(jù)源中綜合和挖掘所需的數(shù)據(jù),保證數(shù)據(jù)的綜合性、易用性、時(shí)效性;另一方面是如何從現(xiàn)有數(shù)據(jù)中衍生出所需的指標(biāo),這主要取決于粗挖掘者的分析經(jīng)驗(yàn)和工具的方便性[3].
圖1 建模步驟
Step 2:數(shù)據(jù)清洗
通過對(duì)數(shù)據(jù)的初始信息進(jìn)行數(shù)據(jù)清洗,采用關(guān)系數(shù)據(jù)庫模型,經(jīng)關(guān)系數(shù)據(jù)庫的導(dǎo)入及連接并進(jìn)行抽象、離散化等預(yù)處理,獲得初始信息表,并明確條件屬性集和決策屬性.
Step 3:屬性約簡
屬性約簡是在保持決策信息系統(tǒng)的分類和決策能力不變的前提下,刪除不相關(guān)或不重要的屬性,即刪除決策表中的冗余屬性,根據(jù)屬性之間的依賴關(guān)系、重要性,有效地找出一個(gè)最佳約簡.
Step 4:粗挖掘
給定屬性的最小支持度閾值、最小置信度閾值,根據(jù)上面的屬性約簡,通過屬性之間的隱含關(guān)系進(jìn)行粗挖掘,找出那些支持度、置信度大于給定閾值的關(guān)聯(lián)規(guī)則.
Step 5:模式解釋及知識(shí)評(píng)價(jià)
經(jīng)過粗挖掘可得到大量的模式和規(guī)則,需對(duì)規(guī)則作出進(jìn)一步的篩選、合并,對(duì)它們進(jìn)行解釋、評(píng)價(jià)及分類.
該模型的算法是在基于Pawlak屬性重要度的挖掘模型[4]的基礎(chǔ)上,提出一種改進(jìn)的啟發(fā)式屬性約簡,進(jìn)行粗挖掘.該算法以決策表的相對(duì)核為起點(diǎn),首先從代數(shù)定義的角度出發(fā),根據(jù)屬性的依賴關(guān)系,以屬性的重要度作為啟發(fā)信息,有效地找出一個(gè)最佳約簡集,這樣提高了后續(xù)規(guī)則的提取效率.算法第1步是計(jì)算決策表的核core;第2—5步依次選擇重要性最大的屬性加入約簡屬性集B.到第5步的前向選擇結(jié)束后,屬性集已是一個(gè)和初始屬性具有相同決策能力的較小屬性集合,并沒有改變?cè)紝傩约c決策屬性之間的依賴程度.第6-7步是從屬性集B中逐個(gè)去掉約簡以外的屬性.如果去掉該屬性會(huì)造成依賴度變化,則恢復(fù)該屬性,否則刪除該屬性,最終獲得屬性的最小相對(duì)約簡.在此基礎(chǔ)上,給定最小支持度閾值、最小置信度閾值,進(jìn)行粗挖掘.
主要算法的具體描述如下:
輸入:決策表S= (U,C∪D,V,f).
輸出:一個(gè)最佳約簡集B.
方法:
1)計(jì)算決策表的核core;
2)B=core;
3)C1=C B
4)計(jì)算γB(D)和γC(D);
5)While(γB(D) ≠γC(D)){
選擇屬性,k∈C1,
使得sig(k,B,D) =Max(sig(aj,B,D)),其中 aj∈C1(j=1,2,…,m),m為C1中元素的個(gè)數(shù) (若存在多個(gè)屬性 aj∈C1的重要性同時(shí)取得最大值,則從中選擇一個(gè)與B的屬性值組合數(shù)最少的屬性作為k);//從 C1中選擇重要性最大的屬性
B=B∪{k}; //向相對(duì)核添加重要性最大的屬性
C1=C1{k};
計(jì)算γB(D) //計(jì)算新的依賴度
}
6)n=|B|;
7)For(i=1;i≤n;i++){
if(a1?core{
B=B-{ai}; //從屬性集B中逐個(gè)去除約簡以外的屬性
計(jì)算γB(D);
if(γB(D)≠γC(D)); //如果去掉該屬性造成依賴度變化
B=B+{ai} //則恢復(fù)該屬性,否則刪除該屬性
}
}
return(B);
以作者所在學(xué)院教學(xué)質(zhì)量的評(píng)估為例,驗(yàn)證此模型的有效性.
隨機(jī)抽取教學(xué)質(zhì)量評(píng)估表200份,表1給出了部分考評(píng)信息視圖,共有200條記錄.
將影響教師評(píng)價(jià)結(jié)果的因素:性別、面貌、第一學(xué)歷、畢業(yè)學(xué)校、學(xué)歷變動(dòng)、現(xiàn)聘職稱、評(píng)定年齡作為系統(tǒng)的條件屬性C,而將評(píng)價(jià)結(jié)果作為決策屬性D.通過屬性選擇與處理后的信息表示如表2所示.按表2的規(guī)則抽象和離散化原始數(shù)據(jù),得到轉(zhuǎn)換后的數(shù)據(jù)表如表3所示.
根據(jù)上面的定義和算法,計(jì)算決策表的核Core={畢業(yè)學(xué)校,評(píng)定年齡,第一學(xué)歷}.根據(jù)屬性的依賴關(guān)系,通過屬性重要性的判斷,發(fā)現(xiàn)性別、政治面貌的重要程度,即sig(a,B,D)與sig(b,B,D)幾乎為零,也就是說性別、政治面貌與本決策表的決策幾乎無關(guān)可以省略.因此得到的約簡B={畢業(yè)學(xué)校,評(píng)定年齡,現(xiàn)聘職稱,第一學(xué)歷,學(xué)歷變動(dòng)}.
表1 教學(xué)評(píng)價(jià)信息視圖
表2 屬性離散化表示
表3 離散處理后的教師數(shù)據(jù)
表4 關(guān)聯(lián)規(guī)則
給定最小支持度閾值6%,最小置信度閾值80%,可得到同時(shí)滿足最小支持度閾值和最小置信度閾值的關(guān)聯(lián)規(guī)則,如表4所示.規(guī)則r1表明:第一學(xué)歷是碩士,在36-40歲就評(píng)上副教授,有82%以上概率可以斷定該教師的教學(xué)評(píng)價(jià)優(yōu)秀;規(guī)則r3表明:普通高校本科畢業(yè),職稱是助教的教師,有81%的概率斷定該教師的教學(xué)評(píng)價(jià)一般;規(guī)則 r6表明:第一學(xué)歷是本科、學(xué)歷有變動(dòng)的教師,即有80%的幾率斷定該教師的教學(xué)評(píng)價(jià)良好.對(duì)于其他規(guī)則,可作類似地理解.
根據(jù)這些數(shù)據(jù)可以找到一些內(nèi)在的聯(lián)系:性別、面貌、對(duì)教學(xué)評(píng)價(jià)的結(jié)果影響不大,而畢業(yè)學(xué)校、第一學(xué)歷、學(xué)歷變動(dòng)、現(xiàn)聘職稱、評(píng)定年齡對(duì)教學(xué)評(píng)價(jià)結(jié)果有顯著影響.年齡在36-45歲,職稱是副教授以上教師的中青年教師具有豐富的課堂教學(xué)經(jīng)驗(yàn),支持度、置信度較高.他們的科研水平較高,有寬廣的知識(shí)面,注重教學(xué)與科研有機(jī)結(jié)合,促進(jìn)學(xué)生科研能力的增長,深受學(xué)生的歡迎.初級(jí)職稱教師還需多實(shí)踐、多學(xué)習(xí),努力提高自己的科研、教學(xué)水平.第一學(xué)歷是碩士、學(xué)歷有變動(dòng)的教師或重點(diǎn)高校 (國外高校畢業(yè))的教師,其評(píng)價(jià)結(jié)果明顯優(yōu)于普通高校畢業(yè)生;普通高校畢業(yè),評(píng)定職稱年齡在36-40之間的教師評(píng)價(jià)結(jié)果良好;第一學(xué)歷在本科及本科以下的教師,在41~50歲才評(píng)上副教授,相對(duì)來說評(píng)價(jià)結(jié)果一般.
可見,教師的課堂教學(xué)質(zhì)量與學(xué)歷、職稱及評(píng)定年齡有很大關(guān)系.特別是職稱越高,學(xué)歷越高的中青年教師,學(xué)生的評(píng)價(jià)結(jié)果越好.因此,要提高教育教學(xué)質(zhì)量,一方面中青年教師要努力提高自己的職稱和學(xué)歷水平,進(jìn)一步增強(qiáng)提高學(xué)歷 (學(xué)位)和業(yè)務(wù)水平的緊迫感.學(xué)校應(yīng)多提供外出參加培訓(xùn)和進(jìn)修的機(jī)會(huì),支持中青年教師攻讀博士、碩士學(xué)位,盡快改善師資隊(duì)伍的學(xué)歷結(jié)構(gòu).另一方面,在人才引進(jìn)時(shí)就要限制引進(jìn)教師的畢業(yè)學(xué)校和第一學(xué)歷.從引進(jìn)源頭抓起,改善師資隊(duì)伍結(jié)構(gòu),提高高層次高學(xué)歷人才在引進(jìn)師資總量中的比例.從以上的數(shù)據(jù)分析來看,近幾年我院注重高學(xué)歷中青年骨干教師的引進(jìn)和培養(yǎng),已經(jīng)初見成效,一批中青年骨干教師已經(jīng)成長起來,青黃不接的狀況正在逐步改變.但從總體來看,引進(jìn)師資中高學(xué)歷、高層次教師所占比例不高,師資結(jié)構(gòu)在引進(jìn)源頭上就不夠合理,不能適應(yīng)目前學(xué)科建設(shè)快速發(fā)展的需要.要實(shí)現(xiàn)合理的學(xué)歷結(jié)構(gòu),必須在引進(jìn)師資總量中保證具有碩士學(xué)位以上人員比例不低于80%.同時(shí),在班級(jí)排課時(shí),應(yīng)該充分考慮到配備教師的狀態(tài)特征,注意一個(gè)教學(xué)班中教師的年齡、職稱的合理搭配,使學(xué)生能夠保持良好的學(xué)習(xí)狀態(tài).
這樣,通過對(duì)信息數(shù)據(jù)實(shí)例進(jìn)行粗挖掘,不僅挖掘出教師的課堂教學(xué)質(zhì)量與學(xué)歷、職稱及評(píng)定年齡之間的關(guān)系,為教學(xué)部門提供決策支持信息,促使更好地開展教學(xué)工作,提高教學(xué)質(zhì)量,而且對(duì)高校人才引進(jìn)與培養(yǎng),優(yōu)化人才結(jié)構(gòu)具有一定的指導(dǎo)意義[5].
質(zhì)量評(píng)估的粗挖掘模型算法能計(jì)算最佳約簡集,減少計(jì)算機(jī)的運(yùn)算量,提高挖掘的效率.運(yùn)用此模型能有效地預(yù)測對(duì)象的行為,動(dòng)態(tài)地把握規(guī)范管理,發(fā)現(xiàn)被忽略的要素,提高管理質(zhì)量與效率,所建立的質(zhì)量評(píng)估的粗挖掘模型是可行的、有效的.質(zhì)量評(píng)估的挖掘模型應(yīng)用廣泛,如何借助現(xiàn)有的質(zhì)量評(píng)估的粗挖掘模型與實(shí)際問題緊密結(jié)合起來,并在實(shí)踐中實(shí)現(xiàn)并進(jìn)一步充實(shí)和完善該模型,是今后的主要研究方向.
[1] Pawlak Z.Rough Set[J].Intern J Comp Inform Sci,1982,11(05):341-356
[2] 張文修,吳偉志,梁吉業(yè),等.粗糙集理論與方法 [M].北京:科學(xué)出版社,2008:1-39
[3] Olivia Par Rud.數(shù)據(jù)挖掘?qū)嵺` [M].北京:機(jī)械工業(yè)出版社,2003:50
[4] 苗奪謙,李道國.粗糙集理論、算法與應(yīng)用 [M].北京:清華大學(xué)出版社,2008:180-207
[5] 宮立波.從兩次學(xué)生教學(xué)評(píng)價(jià)調(diào)查引發(fā)的幾點(diǎn)思考 [J].有色金屬高教研究.1999,(05):87-89