高校教師信息素養(yǎng)指標(biāo)體系研究
——基于RreliefF特征選擇算法

2022-08-29 09:36曾慧平

中國新技術(shù)新產(chǎn)品 2022年10期

曾慧平

（江西交通職業(yè)技術(shù)學(xué)院，江西南昌 330013）

0 引言

信息素養(yǎng)包括文化素養(yǎng)、信息意識和信息技能三個層面，決定了什么時候需要什么樣的信息，在哪里能獲取到信息，并能夠評價和有效利用所需的信息。信息素養(yǎng)是人在信息時代所必備的技能，決定了其對社會的適應(yīng)能力與對事件的應(yīng)對能力。信息素養(yǎng)涉及多方面的內(nèi)容，人文、技術(shù)、經(jīng)濟(jì)、法律甚至周邊學(xué)科的專業(yè)知識，都會影響個人的信息素養(yǎng)水平。高校教師作為國家人才的培養(yǎng)者，更需要具備高層次的信息素養(yǎng)，以便在信息爆炸的大背景下敏銳地捕捉到先進(jìn)、正確的科學(xué)知識，并傳授給學(xué)生。但是高校教師作為科研育人的特殊群體，如何評價其信息素養(yǎng)，如何確定具體人員的信息素養(yǎng)構(gòu)成要素，都是一個有待深入研究的課題。

RreliefF特征選擇算法是對各個影響要素的權(quán)重進(jìn)行賦值、綜合評定的一種運(yùn)算方法。在算法中，首先考慮了對事件結(jié)果可能產(chǎn)生影響的所有影響要素，其次注重各要素間的相互作用，用發(fā)展的視角看待各要素對結(jié)果的制約作用，還可以根據(jù)初始條件的不同，動態(tài)選擇參與計(jì)算的要素種類和內(nèi)容。因此RreliefF特征選擇算法可以更真實(shí)地反映模擬計(jì)算結(jié)果。

將RreliefF特征選擇算法應(yīng)用于高校教師的信息素養(yǎng)指標(biāo)評定，可以區(qū)分不同專業(yè)、不同需求教師群體的特殊性，并在歸一化的基礎(chǔ)條件之上客觀評價教師的信息素養(yǎng)?；诖怂枷?，該文開發(fā)了高校教師信息素養(yǎng)指標(biāo)體系。

1 基于RreliefF特征選擇算法的信息素養(yǎng)指標(biāo)體系

1.1 RreliefF算法

RreliefF算法的基本思想是對每個屬性進(jìn)行權(quán)重分配，通過迭代的方式來確定權(quán)重，再通過權(quán)重的方式來確定屬性的子集合，進(jìn)而使優(yōu)秀的屬性集合在一起，而非獨(dú)立的個體。對高校教師信息素養(yǎng)的評價，需要枚舉出影響因素。為規(guī)范評價行為，針對影響因素進(jìn)行分類匯總，根據(jù)不同高校的專業(yè)領(lǐng)域、教師的具體研究方向，概括為人文素質(zhì)選項(xiàng)、技術(shù)實(shí)力選項(xiàng)、經(jīng)濟(jì)能力選項(xiàng)、法律儲備選項(xiàng)以及用于個性化定制的其他選項(xiàng)。在每一個選項(xiàng)中，還可以細(xì)分為二級考核點(diǎn)，例如人文素質(zhì)選項(xiàng)中可包括人文常識、表達(dá)能力、寫作能力和文字功底等很多考核點(diǎn)；技術(shù)實(shí)力選項(xiàng)細(xì)分為專業(yè)技術(shù)、通用技術(shù)、周邊技術(shù)、融合能力和知識產(chǎn)權(quán)等?；诖思?xì)分原則，假設(shè)給定單標(biāo)簽數(shù)據(jù)集有個類標(biāo)簽，其訓(xùn)練數(shù)據(jù)集記為{（，）（，）…（x，y）}，其中x∈R（=1，2，…，），R為樣本特征空間，為樣本特征空間的序號，y∈R（=1，2，…，），R為樣本類別空間。如果第個樣本x屬于第k類，則記為y（）=1，否則記為y（）=0。因此，數(shù)據(jù)集可看作是由的特征矩陣[，，…，x]和的標(biāo)簽矩陣[，，…，y]構(gòu)成的，且矩陣的每一列只有1個元素值為1。

將訓(xùn)練數(shù)據(jù)集輸入之后，其迭代的次數(shù)即為，樣本個數(shù)為最接近的值，特征權(quán)值向量在輸出時最明顯[6]。特征權(quán)值向量（）=0.0最開始會出現(xiàn)數(shù)據(jù)顯現(xiàn)，其內(nèi)容為=1，2，3，…，。在中不按規(guī)則地選取一個隨即樣本，這個隨機(jī)樣本被記作R；尋找與這個隨機(jī)樣本R一樣的最近鄰值記作，對每個類≠class（R），尋找和R不一樣類別的個最近鄰值M（），for：=1：更新每個特征權(quán)值，如公式（1）（RreliefF算法）所示。

式中：[]為特征全職矩陣集合；（R）為樣本R擁有的類標(biāo)簽；（，R，M（））為樣本關(guān)于特征的距離；（）為類別的可能性；（（R））為R擁有的類標(biāo)簽的可能性；M（）為第C類目標(biāo)的第個樣本；（·）為按照采樣大小設(shè)置和。

在確定各屬性權(quán)重后，權(quán)重較大，則說明各屬性具有較好的判別能力，由此可以利用門限選取新的特征子集，并在子集中降低維度。

該方法是在訓(xùn)練集合中隨意選擇一個例子，然后對相鄰的1個例子進(jìn)行檢索，在該例子中，相似（擊中）的分類樣品被稱作，而相似（錯誤）的分類樣品被稱作?；谠撌纠臄?shù)值對各屬性的差異值進(jìn)行了評估，并按照下列準(zhǔn)則進(jìn)行加權(quán)。當(dāng)1個例子和1個樣本分類的屬性數(shù)值不一樣時，這個特性會把2個執(zhí)行個體從1個相同的類中分開，從而降低了1個品質(zhì)評估。當(dāng)1個例子和1個試品樣品的屬性數(shù)值不一樣時，它會把2個例子從1個非相似的例子中分開，并且相應(yīng)地提高它們的品質(zhì)。上述步驟反復(fù)多次，最終求出每個特性的加權(quán)平均值，各屬性的權(quán)值愈高，則其分類性能愈好；相反，則表明此特性的分類性能較差。從算法上可以看到，在尋找最接近領(lǐng)值時，只把每一個樣品歸入1個類別，并沒有將這個樣品歸入多個類別（也就是多標(biāo)記的資料），并且在步驟中，特征權(quán)的計(jì)算也沒有將多類別標(biāo)記的貢獻(xiàn)度計(jì)算在內(nèi)，所以ReliefF為單一標(biāo)記，不能用于多標(biāo)記的屬性選取，多標(biāo)記的選取還需要更深入探討。

1.2 多類數(shù)據(jù)處理

RreliefF是一種求解多類別數(shù)字挖掘的擴(kuò)展方法，其實(shí)質(zhì)是將多個類型的問題分解成單一對多個的問題。RreliefF是一種擴(kuò)展的方法，該方法利用多重隨機(jī)取樣把多個屬性選取問題分為2個類型。從各個分類中隨意選取2種不同類型的情況，可以不做任何修改。采用RreliefF方法對這2種類型問題進(jìn)行分類后，將各類型的屬性權(quán)重合并，進(jìn)而得出最終的屬性評估。ReliefF并未考慮多個分類的情況下，搜索的最鄰近和屬性權(quán)重的變化情況，很明顯不適合多標(biāo)記的特征選取。為了解決這個問題，該文設(shè)計(jì)把ReliefF方法推廣到多標(biāo)記問題，并在此基礎(chǔ)上給出了1種多標(biāo)記的特征選取方法。

假定樣本所具有的類別標(biāo)記對其的貢獻(xiàn)是相同的，在屬性權(quán)重計(jì)算中添加了貢獻(xiàn)度，并對其進(jìn)行了修正。在查找最近鄰時，需要先找到樣本擁有的個類標(biāo)簽，記=（，，…，h），然后分別考慮每個類標(biāo)簽h=（=1，2，…，），該方法可以有效地克服ReliefF方法無法處理多類的共現(xiàn)問題。多標(biāo)記的訓(xùn)練資料集合在標(biāo)記矩陣中，每個欄的取樣可以歸入多個分類，因此每個欄的單元數(shù)值是1。在ReliefF算法中，W是選取樣本，R是每個類標(biāo)簽對其的貢獻(xiàn)程度，其他參數(shù)基本一致。用1表示樣品的全部標(biāo)記貢獻(xiàn)的總和，則樣本R每個標(biāo)簽的貢獻(xiàn)值W為1/，這種方法通常叫作一范式加權(quán)方法。該權(quán)值分布將多標(biāo)記與單一標(biāo)記的資料并列，但多標(biāo)記的資料包括了更多的資訊，應(yīng)該給予更多的關(guān)注與更大的權(quán)值。另外一個是使用了一個簡單的加權(quán)指派，即每類對樣本R的貢獻(xiàn)都設(shè)為1（稱單位權(quán)重法），那么它的全部貢獻(xiàn)是標(biāo)記數(shù)目的總和。

該方法將類別標(biāo)記的權(quán)值與標(biāo)記數(shù)目相等，許多試驗(yàn)結(jié)果顯示該權(quán)值的分配方式再次強(qiáng)調(diào)了多重標(biāo)記的重要性。根據(jù)標(biāo)準(zhǔn)規(guī)范化的思路，將各標(biāo)記權(quán)重因子之和設(shè)為1，則每個標(biāo)簽的貢獻(xiàn)值W定為范權(quán)重法。在強(qiáng)調(diào)多個標(biāo)記的同時，不能設(shè)置多個標(biāo)記的加權(quán)，如果樣本R有1個類標(biāo)簽，貢獻(xiàn)值W的值總為1，這說明ReliefF算法是一種特殊情況。

1.3 特征選擇

特征選擇的屬性抽取是將原資料中的變量進(jìn)行線性或非線性結(jié)合，生成新的群組變量，進(jìn)而獲得與所要解決的問題有關(guān)的某些問題。該文提出一種基于偏極最小二乘子的方法來驗(yàn)證該方法的正確性，設(shè)計(jì)了一種基于多元統(tǒng)計(jì)的新分析模型。該算法將、這2個變量都進(jìn)行了拆分，分別從、中隨機(jī)抽取各分量（一般稱作“因素”），然后根據(jù)這些因素的相互關(guān)系由大到小依次進(jìn)行排序。這種算法的目的主要是利用最少的方差來尋找一套最好的函數(shù)，也就是利用一種簡便的算法來獲得某些不知道的真數(shù)值，并使2個錯誤的平方和最少。偏最小二乘法近似為多元線性回歸，結(jié)合經(jīng)典相關(guān)性和主成份分析，將其應(yīng)用到多元線性回歸的研究中的最簡化的方法是，用單一的線性模式對和預(yù)期組的相關(guān)性進(jìn)行分析?；谏鲜龇椒?，該文提出了一種基于濾波的特性篩選方法，該方法在對該特性進(jìn)行評估時，根據(jù)該特性的基本性質(zhì)，對各特征行進(jìn)行相應(yīng)的打分，此計(jì)算方法無須借助RreliefF就可進(jìn)行。假設(shè)是所有消息的集合，且={，，…，x}，（）是給定消息的概率，那么的熵（）的定義為公式（2）所示。

在信息學(xué)中，互信息是一種重要的信息測量方法。概率理論與信息學(xué)都可以利用2個隨機(jī)變數(shù)的交互信息使它們彼此依賴，在范圍內(nèi)交互信息（；）的表達(dá)式為公式（3）所示。

式中：（）為的熵；（，）為聯(lián)合熵，其定義如公式（4）所示。

式中：（，）為特征選擇結(jié)果的最終概率。

在采用5類信息篩選方法進(jìn)行分類評估時，一般會先將其與分類的相關(guān)資訊分開，若資訊數(shù)值高，說明該特性與分類之關(guān)系愈大，也就是該特性對分類的辨識能力更強(qiáng)。把各屬性按互信息量的遞減順序排列，可以得出各屬性對分類的優(yōu)劣程度。在資訊增益方面，通過觀測特性所能給的分類體系的訊息數(shù)目便可以測度該特性是否有類別分的能力，此即是資訊擴(kuò)增的基礎(chǔ)概念，1個特性為分類所能提供的資訊愈多，則該特性愈具價值。1個特性在1個特定的屬性集中，其信息的數(shù)量會隨著時間的推移而改變，其大小就是該特性所能提供的信息，即為教師個人的信息素養(yǎng)評價結(jié)果。

2 對比試驗(yàn)

2.1 試驗(yàn)準(zhǔn)備

試驗(yàn)內(nèi)容包括2個方面：一個是ReliefF法中的不同貢獻(xiàn)度的計(jì)算，另一個是對比了各種特征選取方法。試驗(yàn)選用KNN作為分類器（為3），使用5 fold交叉校驗(yàn)，按特征權(quán)大小由大到小選擇。該研究選取3位教師的信息素質(zhì)之綜合指數(shù)資料，其中的數(shù)據(jù)集包括很多部分，這3個數(shù)據(jù)集的情況見表1。

表1 試驗(yàn)所需數(shù)據(jù)集數(shù)值內(nèi)容

根據(jù)以上2種方法分別求取相應(yīng)的貢獻(xiàn)度，再采用ReliefF算法選取特征子集中，根據(jù)ReliefF算法進(jìn)行多標(biāo)記的分類，并通過數(shù)據(jù)對ReliefF的效果進(jìn)行比較。

2.2 試驗(yàn)結(jié)果

根據(jù)以上方法在試驗(yàn)中的貢獻(xiàn)值的確定W，采用 ReliefF方法選取了多個特征點(diǎn)，并將其歸類為多標(biāo)記，并對其效果進(jìn)行了對比。3個貢獻(xiàn)度對ReliefF的作用如圖1所示。在這些數(shù)據(jù)中，橫軸代表了所選取的特征量所占的比例。

圖1 貢獻(xiàn)值對算法的影響

根據(jù)圖1可知，二范權(quán)重法的分類準(zhǔn)確率最少，表現(xiàn)為穩(wěn)定性；當(dāng)屬性維度一致時，采用一范權(quán)重法對多標(biāo)記與單一標(biāo)記的數(shù)據(jù)進(jìn)行比較，選擇的屬性不夠理性，因此一范權(quán)重法的分類準(zhǔn)確率最低。而單元加權(quán)法過于注重多項(xiàng)指標(biāo)，因此其分類準(zhǔn)確率比二范權(quán)重法的準(zhǔn)確率低。

對ReliefF和ALA-ReliefF這2種特征選取方法進(jìn)行對比，以全面檢驗(yàn)該方法的正確性。ALA-ReliefF方法是將多個標(biāo)記的資料集合轉(zhuǎn)換為單一標(biāo)記，再使用ReliefF方法進(jìn)行標(biāo)記的選取。ReliefF方法采用二次加權(quán)方法，對其進(jìn)行了求解。如表2所示，在2個特征選擇算法中，對最早20%的屬性進(jìn)行了分類，在80%以上的情況下也同樣對其進(jìn)行了分類。

根據(jù)表2可知，當(dāng)具有同樣的特征維度時，基于ReliefF方法的識別準(zhǔn)確度要比ALA-ReliefF方法好得多，因?yàn)锳LAReliefF在將多個標(biāo)記的信息向單個標(biāo)記的轉(zhuǎn)換過程中會形成一些干擾，進(jìn)而使其識別準(zhǔn)確度下降。ReliefF方法在進(jìn)行了特征選取后，其準(zhǔn)確度明顯優(yōu)于未進(jìn)行特征選取的情況，表明ReliefF方法能有效地消除噪聲，并能有效地改善其識別準(zhǔn)確度。ReliefF方法在識別準(zhǔn)確率方面的差異要比ALAReliefF方法低，表明ReliefF方法具有很好的穩(wěn)定性，其獲得的教師信息素養(yǎng)指標(biāo)體系評價結(jié)果更能夠反映真實(shí)情況。

表2 2種特征選擇算法的分類正確率

3 結(jié)語

該文基于我國大學(xué)教師的信息素質(zhì)評價指標(biāo)，分析了我國大學(xué)教師的信息素質(zhì)特征，并對其構(gòu)成進(jìn)行了分析。然后基于RreliefF特征選擇算法對大學(xué)英語專業(yè)教師的信息素質(zhì)進(jìn)行了分析，并建立了相應(yīng)的評估指標(biāo)和評估標(biāo)準(zhǔn)。大學(xué)教師的信息素質(zhì)指數(shù)是一個多層次、多結(jié)構(gòu)且綜合性強(qiáng)、可測性高的量化性時代性評定方法。制定高校教師信息素養(yǎng)指標(biāo)體系是一個龐大而復(fù)雜的系統(tǒng)工程，該文的指標(biāo)體系只是一個探索和嘗試，希望更多的研究機(jī)構(gòu)和專家學(xué)者參與相關(guān)研究，基于RreliefF特征選擇算法早日制定出符合我國國情的高校教師信息素養(yǎng)指標(biāo)體系。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

高校教師信息素養(yǎng)指標(biāo)體系研究——基于RreliefF特征選擇算法