曾慧平
(江西交通職業(yè)技術(shù)學(xué)院,江西 南昌 330013)
信息素養(yǎng)包括文化素養(yǎng)、信息意識和信息技能三個層面,決定了什么時候需要什么樣的信息,在哪里能獲取到信息,并能夠評價和有效利用所需的信息。信息素養(yǎng)是人在信息時代所必備的技能,決定了其對社會的適應(yīng)能力與對事件的應(yīng)對能力。信息素養(yǎng)涉及多方面的內(nèi)容,人文、技術(shù)、經(jīng)濟(jì)、法律甚至周邊學(xué)科的專業(yè)知識,都會影響個人的信息素養(yǎng)水平。高校教師作為國家人才的培養(yǎng)者,更需要具備高層次的信息素養(yǎng),以便在信息爆炸的大背景下敏銳地捕捉到先進(jìn)、正確的科學(xué)知識,并傳授給學(xué)生。但是高校教師作為科研育人的特殊群體,如何評價其信息素養(yǎng),如何確定具體人員的信息素養(yǎng)構(gòu)成要素,都是一個有待深入研究的課題。
RreliefF特征選擇算法是對各個影響要素的權(quán)重進(jìn)行賦值、綜合評定的一種運(yùn)算方法。在算法中,首先考慮了對事件結(jié)果可能產(chǎn)生影響的所有影響要素,其次注重各要素間的相互作用,用發(fā)展的視角看待各要素對結(jié)果的制約作用,還可以根據(jù)初始條件的不同,動態(tài)選擇參與計(jì)算的要素種類和內(nèi)容。因此RreliefF特征選擇算法可以更真實(shí)地反映模擬計(jì)算結(jié)果。
將RreliefF特征選擇算法應(yīng)用于高校教師的信息素養(yǎng)指標(biāo)評定,可以區(qū)分不同專業(yè)、不同需求教師群體的特殊性,并在歸一化的基礎(chǔ)條件之上客觀評價教師的信息素養(yǎng)?;诖怂枷?,該文開發(fā)了高校教師信息素養(yǎng)指標(biāo)體系。
RreliefF算法的基本思想是對每個屬性進(jìn)行權(quán)重分配,通過迭代的方式來確定權(quán)重,再通過權(quán)重的方式來確定屬性的子集合,進(jìn)而使優(yōu)秀的屬性集合在一起,而非獨(dú)立的個體。對高校教師信息素養(yǎng)的評價,需要枚舉出影響因素。為規(guī)范評價行為,針對影響因素進(jìn)行分類匯總,根據(jù)不同高校的專業(yè)領(lǐng)域、教師的具體研究方向,概括為人文素質(zhì)選項(xiàng)、技術(shù)實(shí)力選項(xiàng)、經(jīng)濟(jì)能力選項(xiàng)、法律儲備選項(xiàng)以及用于個性化定制的其他選項(xiàng)。在每一個選項(xiàng)中,還可以細(xì)分為二級考核點(diǎn),例如人文素質(zhì)選項(xiàng)中可包括人文常識、表達(dá)能力、寫作能力和文字功底等很多考核點(diǎn);技術(shù)實(shí)力選項(xiàng)細(xì)分為專業(yè)技術(shù)、通用技術(shù)、周邊技術(shù)、融合能力和知識產(chǎn)權(quán)等?;诖思?xì)分原則,假設(shè)給定單標(biāo)簽數(shù)據(jù)集有個類標(biāo)簽,其訓(xùn)練數(shù)據(jù)集記為{(,)(,)…(x,y)},其中x∈R(=1,2,…,),R為樣本特征空間,為樣本特征空間的序號,y∈R(=1,2,…,),R為樣本類別空間。如果第個樣本x屬于第k類,則記為y()=1,否則記為y()=0。因此,數(shù)據(jù)集可看作是由的特征矩陣[,,…,x]和的標(biāo)簽矩陣[,,…,y]構(gòu)成的,且矩陣的每一列只有1個元素值為1。
將訓(xùn)練數(shù)據(jù)集輸入之后,其迭代的次數(shù)即為,樣本個數(shù)為最接近的值,特征權(quán)值向量在輸出時最明顯[6]。特征權(quán)值向量()=0.0最開始會出現(xiàn)數(shù)據(jù)顯現(xiàn),其內(nèi)容為=1,2,3,…,。在中不按規(guī)則地選取一個隨即樣本,這個隨機(jī)樣本被記作R;尋找與這個隨機(jī)樣本R一樣的最近鄰值記作,對每個類≠class(R),尋找和R不一樣類別的個最近鄰值M(),for:=1:更新每個特征權(quán)值,如公式(1)(RreliefF算法)所示。
式中:[]為特征全職矩陣集合;(R)為樣本R擁有的類標(biāo)簽;(,R,M())為樣本關(guān)于特征的距離;()為類別的可能性;((R))為R擁有的類標(biāo)簽的可能性;M()為第C類目標(biāo)的第個樣本;(·)為按照采樣大小設(shè)置和。
在確定各屬性權(quán)重后,權(quán)重較大,則說明各屬性具有較好的判別能力,由此可以利用門限選取新的特征子集,并在子集中降低維度。
該方法是在訓(xùn)練集合中隨意選擇一個例子,然后對相鄰的1個例子進(jìn)行檢索,在該例子中,相似(擊中)的分類樣品被稱作,而相似(錯誤)的分類樣品被稱作?;谠撌纠臄?shù)值對各屬性的差異值進(jìn)行了評估,并按照下列準(zhǔn)則進(jìn)行加權(quán)。當(dāng)1個例子和1個樣本分類的屬性數(shù)值不一樣時,這個特性會把2個執(zhí)行個體從1個相同的類中分開,從而降低了1個品質(zhì)評估。當(dāng)1個例子和1個試品樣品的屬性數(shù)值不一樣時,它會把2個例子從1個非相似的例子中分開,并且相應(yīng)地提高它們的品質(zhì)。上述步驟反復(fù)多次,最終求出每個特性的加權(quán)平均值,各屬性的權(quán)值愈高,則其分類性能愈好;相反,則表明此特性的分類性能較差。從算法上可以看到,在尋找最接近領(lǐng)值時,只把每一個樣品歸入1個類別,并沒有將這個樣品歸入多個類別(也就是多標(biāo)記的資料),并且在步驟中,特征權(quán)的計(jì)算也沒有將多類別標(biāo)記的貢獻(xiàn)度計(jì)算在內(nèi),所以ReliefF為單一標(biāo)記,不能用于多標(biāo)記的屬性選取,多標(biāo)記的選取還需要更深入探討。
RreliefF是一種求解多類別數(shù)字挖掘的擴(kuò)展方法,其實(shí)質(zhì)是將多個類型的問題分解成單一對多個的問題。RreliefF是一種擴(kuò)展的方法,該方法利用多重隨機(jī)取樣把多個屬性選取問題分為2個類型。從各個分類中隨意選取2種不同類型的情況,可以不做任何修改。采用RreliefF方法對這2種類型問題進(jìn)行分類后,將各類型的屬性權(quán)重合并,進(jìn)而得出最終的屬性評估。ReliefF并未考慮多個分類的情況下,搜索的最鄰近和屬性權(quán)重的變化情況,很明顯不適合多標(biāo)記的特征選取。為了解決這個問題,該文設(shè)計(jì)把ReliefF方法推廣到多標(biāo)記問題,并在此基礎(chǔ)上給出了1種多標(biāo)記的特征選取方法。
假定樣本所具有的類別標(biāo)記對其的貢獻(xiàn)是相同的,在屬性權(quán)重計(jì)算中添加了貢獻(xiàn)度,并對其進(jìn)行了修正。在查找最近鄰時,需要先找到樣本擁有的個類標(biāo)簽,記=(,,…,h),然后分別考慮每個類標(biāo)簽h=(=1,2,…,),該方法可以有效地克服ReliefF方法無法處理多類的共現(xiàn)問題。多標(biāo)記的訓(xùn)練資料集合在標(biāo)記矩陣中,每個欄的取樣可以歸入多個分類,因此每個欄的單元數(shù)值是1。在ReliefF算法中,W是選取樣本,R是每個類標(biāo)簽對其的貢獻(xiàn)程度,其他參數(shù)基本一致。用1表示樣品的全部標(biāo)記貢獻(xiàn)的總和,則樣本R每個標(biāo)簽的貢獻(xiàn)值W為1/,這種方法通常叫作一范式加權(quán)方法。該權(quán)值分布將多標(biāo)記與單一標(biāo)記的資料并列,但多標(biāo)記的資料包括了更多的資訊,應(yīng)該給予更多的關(guān)注與更大的權(quán)值。另外一個是使用了一個簡單的加權(quán)指派,即每類對樣本R的貢獻(xiàn)都設(shè)為1(稱單位權(quán)重法),那么它的全部貢獻(xiàn)是標(biāo)記數(shù)目的總和。
該方法將類別標(biāo)記的權(quán)值與標(biāo)記數(shù)目相等,許多試驗(yàn)結(jié)果顯示該權(quán)值的分配方式再次強(qiáng)調(diào)了多重標(biāo)記的重要性。根據(jù)標(biāo)準(zhǔn)規(guī)范化的思路,將各標(biāo)記權(quán)重因子之和設(shè)為1,則每個標(biāo)簽的貢獻(xiàn)值W定為范權(quán)重法。在強(qiáng)調(diào)多個標(biāo)記的同時,不能設(shè)置多個標(biāo)記的加權(quán),如果樣本R有1個類標(biāo)簽,貢獻(xiàn)值W的值總為1,這說明ReliefF算法是一種特殊情況。
特征選擇的屬性抽取是將原資料中的變量進(jìn)行線性或非線性結(jié)合,生成新的群組變量,進(jìn)而獲得與所要解決的問題有關(guān)的某些問題。該文提出一種基于偏極最小二乘子的方法來驗(yàn)證該方法的正確性,設(shè)計(jì)了一種基于多元統(tǒng)計(jì)的新分析模型。該算法將、這2個變量都進(jìn)行了拆分,分別從、中隨機(jī)抽取各分量(一般稱作“因素”),然后根據(jù)這些因素的相互關(guān)系由大到小依次進(jìn)行排序。這種算法的目的主要是利用最少的方差來尋找一套最好的函數(shù),也就是利用一種簡便的算法來獲得某些不知道的真數(shù)值,并使2個錯誤的平方和最少。偏最小二乘法近似為多元線性回歸,結(jié)合經(jīng)典相關(guān)性和主成份分析,將其應(yīng)用到多元線性回歸的研究中的最簡化的方法是,用單一的線性模式對和預(yù)期組的相關(guān)性進(jìn)行分析?;谏鲜龇椒?,該文提出了一種基于濾波的特性篩選方法,該方法在對該特性進(jìn)行評估時,根據(jù)該特性的基本性質(zhì),對各特征行進(jìn)行相應(yīng)的打分,此計(jì)算方法無須借助RreliefF就可進(jìn)行。假設(shè)是所有消息的集合,且={,,…,x},()是給定消息的概率,那么的熵()的定義為公式(2)所示。
在信息學(xué)中,互信息是一種重要的信息測量方法。概率理論與信息學(xué)都可以利用2個隨機(jī)變數(shù)的交互信息使它們彼此依賴,在范圍內(nèi)交互信息(;)的表達(dá)式為公式(3)所示。
式中:()為的熵;(,)為聯(lián)合熵,其定義如公式(4)所示。
式中:(,)為特征選擇結(jié)果的最終概率。
在采用5類信息篩選方法進(jìn)行分類評估時,一般會先將其與分類的相關(guān)資訊分開,若資訊數(shù)值高,說明該特性與分類之關(guān)系愈大,也就是該特性對分類的辨識能力更強(qiáng)。把各屬性按互信息量的遞減順序排列,可以得出各屬性對分類的優(yōu)劣程度。在資訊增益方面,通過觀測特性所能給的分類體系的訊息數(shù)目便可以測度該特性是否有類別分的能力,此即是資訊擴(kuò)增的基礎(chǔ)概念,1個特性為分類所能提供的資訊愈多,則該特性愈具價值。1個特性在1個特定的屬性集中,其信息的數(shù)量會隨著時間的推移而改變,其大小就是該特性所能提供的信息,即為教師個人的信息素養(yǎng)評價結(jié)果。
試驗(yàn)內(nèi)容包括2個方面:一個是ReliefF法中的不同貢獻(xiàn)度的計(jì)算,另一個是對比了各種特征選取方法。試驗(yàn)選用KNN作為分類器(為3),使用5 fold交叉校驗(yàn),按特征權(quán)大小由大到小選擇。該研究選取3位教師的信息素質(zhì)之綜合指數(shù)資料,其中的數(shù)據(jù)集包括很多部分,這3個數(shù)據(jù)集的情況見表1。
表1 試驗(yàn)所需數(shù)據(jù)集數(shù)值內(nèi)容
根據(jù)以上2種方法分別求取相應(yīng)的貢獻(xiàn)度,再采用ReliefF算法選取特征子集中,根據(jù)ReliefF算法進(jìn)行多標(biāo)記的分類,并通過數(shù)據(jù)對ReliefF的效果進(jìn)行比較。
根據(jù)以上方法在試驗(yàn)中的貢獻(xiàn)值的確定W,采用 ReliefF方法選取了多個特征點(diǎn),并將其歸類為多標(biāo)記,并對其效果進(jìn)行了對比。3個貢獻(xiàn)度對ReliefF的作用如圖1所示。在這些數(shù)據(jù)中,橫軸代表了所選取的特征量所占的比例。
圖1 貢獻(xiàn)值對算法的影響
根據(jù)圖1可知,二范權(quán)重法的分類準(zhǔn)確率最少,表現(xiàn)為穩(wěn)定性;當(dāng)屬性維度一致時,采用一范權(quán)重法對多標(biāo)記與單一標(biāo)記的數(shù)據(jù)進(jìn)行比較,選擇的屬性不夠理性,因此一范權(quán)重法的分類準(zhǔn)確率最低。而單元加權(quán)法過于注重多項(xiàng)指標(biāo),因此其分類準(zhǔn)確率比二范權(quán)重法的準(zhǔn)確率低。
對ReliefF和ALA-ReliefF這2種特征選取方法進(jìn)行對比,以全面檢驗(yàn)該方法的正確性。ALA-ReliefF方法是將多個標(biāo)記的資料集合轉(zhuǎn)換為單一標(biāo)記,再使用ReliefF方法進(jìn)行標(biāo)記的選取。ReliefF方法采用二次加權(quán)方法,對其進(jìn)行了求解。如表2所示,在2個特征選擇算法中,對最早20%的屬性進(jìn)行了分類,在80%以上的情況下也同樣對其進(jìn)行了分類。
根據(jù)表2可知,當(dāng)具有同樣的特征維度時,基于ReliefF方法的識別準(zhǔn)確度要比ALA-ReliefF方法好得多,因?yàn)锳LAReliefF在將多個標(biāo)記的信息向單個標(biāo)記的轉(zhuǎn)換過程中會形成一些干擾,進(jìn)而使其識別準(zhǔn)確度下降。ReliefF方法在進(jìn)行了特征選取后,其準(zhǔn)確度明顯優(yōu)于未進(jìn)行特征選取的情況,表明ReliefF方法能有效地消除噪聲,并能有效地改善其識別準(zhǔn)確度。ReliefF方法在識別準(zhǔn)確率方面的差異要比ALAReliefF方法低,表明ReliefF方法具有很好的穩(wěn)定性,其獲得的教師信息素養(yǎng)指標(biāo)體系評價結(jié)果更能夠反映真實(shí)情況。
表2 2種特征選擇算法的分類正確率
該文基于我國大學(xué)教師的信息素質(zhì)評價指標(biāo),分析了我國大學(xué)教師的信息素質(zhì)特征,并對其構(gòu)成進(jìn)行了分析。然后基于RreliefF特征選擇算法對大學(xué)英語專業(yè)教師的信息素質(zhì)進(jìn)行了分析,并建立了相應(yīng)的評估指標(biāo)和評估標(biāo)準(zhǔn)。大學(xué)教師的信息素質(zhì)指數(shù)是一個多層次、多結(jié)構(gòu)且綜合性強(qiáng)、可測性高的量化性時代性評定方法。制定高校教師信息素養(yǎng)指標(biāo)體系是一個龐大而復(fù)雜的系統(tǒng)工程,該文的指標(biāo)體系只是一個探索和嘗試,希望更多的研究機(jī)構(gòu)和專家學(xué)者參與相關(guān)研究,基于RreliefF特征選擇算法早日制定出符合我國國情的高校教師信息素養(yǎng)指標(biāo)體系。