陳卓賀敬
(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島266061)
中國的幼兒教育服務(wù)著全世界最龐大的學(xué)齡前兒童,由于地域,文化,經(jīng)濟(jì)等差異,教師數(shù)量,質(zhì)量,資源配置,公辦,私營不同,城鄉(xiāng)差距等,幼兒發(fā)展的情況幾乎天差地別。幼兒教育對(duì)個(gè)人乃至社會(huì)發(fā)展有著重要的、基礎(chǔ)性的、不可或缺的重大意義。如何對(duì)幼兒的成長和教育情況予以科學(xué)的測(cè)評(píng)就顯得極具意義。隨著計(jì)算機(jī)技術(shù)和軟件技術(shù)的發(fā)展,通過建立數(shù)據(jù)模型,運(yùn)用一定的算法來分析幼兒成長的各項(xiàng)數(shù)據(jù),做出科學(xué)合理的測(cè)試結(jié)果成為可能。
支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力的一種機(jī)器學(xué)習(xí)方法[1]。
支持向量機(jī)方法是從線性可分情況下的最優(yōu)分類提出的。即系統(tǒng)產(chǎn)生一個(gè)超平面并移動(dòng)它,使得不同類別的樣本點(diǎn)正好處在該超平面的兩側(cè),這樣得到的平面為最優(yōu)超平面,從理論上實(shí)現(xiàn)了線性可分?jǐn)?shù)據(jù)的最優(yōu)分類問題[2]。如下圖1所示:即L為把x型和o形沒有錯(cuò)誤地分開的分類線,分別為過各類樣本中離分類線最近點(diǎn)、且平行于分類線的直線,和之間的距離做兩類的分類間隔。所謂最優(yōu)分類線就是要求分類線不但能將兩類無錯(cuò)誤地分開,而且要使兩類的分類間隔最大[3]。前者是保證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,使分類空隙最大,實(shí)際上就是使推廣性的界中的置信范圍最小,從而使真實(shí)風(fēng)險(xiǎn)最小。推廣到高維空間,最優(yōu)分類線就成為最優(yōu)分類平面。對(duì)于線性不可分情況,通過指定常數(shù)C,控制對(duì)樣本懲罰的程度,實(shí)現(xiàn)在錯(cuò)分樣本的比例與算法復(fù)雜度之間的折衷。
圖1 最優(yōu)分類示意圖
SVM支持向量機(jī)是一項(xiàng)成熟的機(jī)器學(xué)習(xí)方法,在JAVA中我們可以直接調(diào)用相應(yīng)的類。我們需要先建立幼兒測(cè)試用的矩陣數(shù)據(jù)結(jié)構(gòu),然后據(jù)此建立樣本數(shù)據(jù)。
1)建立應(yīng)用于幼兒成長測(cè)評(píng)系統(tǒng)的矩陣,樣本標(biāo)簽,樣本數(shù)據(jù)。樣本數(shù)據(jù)將作為訓(xùn)練集在程序中使用。
(1)樣本標(biāo)簽,我們大致將幼兒測(cè)試結(jié)果分為A出色,B良好,C預(yù)警,D干預(yù)四類,作為樣本標(biāo)簽使用,A出色:4分,B良好:3分,C預(yù)警:2分,D 干預(yù),1分。
(2)樣本數(shù)據(jù),成長測(cè)試指標(biāo)分類見下表(性別男表示為1,女表示為 2):
表1 樣本指標(biāo)
2)通過對(duì)學(xué)齡前幼兒進(jìn)行大批量的測(cè)試建立樣本數(shù)據(jù)。樣本該數(shù)據(jù)越準(zhǔn)確,樣本數(shù)量越多,得到的效果也就越準(zhǔn)確。我們建立樣本數(shù)據(jù)如下表2。
表2 樣本數(shù)據(jù)
3)分類模型及參數(shù)。被評(píng)價(jià)數(shù)據(jù)是由4個(gè)等級(jí)的數(shù)據(jù)構(gòu)成,因此該分類屬于多分類問題,考慮到分類的樣式不多,本文選用一對(duì)一策略,構(gòu)造六個(gè)支持向量分類器,每個(gè)分類器只對(duì)兩類進(jìn)行分類,模型簡單且具有較好的分類能力。
圖2 分類模型示意圖
SVM的核函數(shù)采用性能比較好的徑向基核函數(shù):
k(||x-xc||)=exp{-||x-xc||^2/(2*σ^2)
其中xc為核函數(shù)中心,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用圍。
SVM技術(shù)在小樣本,非線性,高維度下模式識(shí)別方面有著獨(dú)有的優(yōu)勢(shì),在科研和商業(yè)上都有著廣泛的應(yīng)用,很多流行編程軟件都開發(fā)了相應(yīng)的工具包。借助這些工具包我們可以直接調(diào)用相應(yīng)的函數(shù),而不必關(guān)心它們是如何實(shí)現(xiàn)的。
隨機(jī)取5組數(shù)據(jù)作測(cè)試樣本,得到測(cè)試結(jié)果見下表
表3 測(cè)試結(jié)果
從表3可以看出,程序測(cè)試結(jié)果可以保持不錯(cuò)的一致性,當(dāng)然由于這里我們訓(xùn)練樣本有限,誤差率還比較高。但是隨著訓(xùn)練樣本的數(shù)量增加,優(yōu)化后的SVM模型準(zhǔn)確性會(huì)進(jìn)一步提高,具有廣泛的應(yīng)用前景。
我們通過對(duì)幼兒成長中的各項(xiàng)評(píng)價(jià)指標(biāo)進(jìn)行量化,建立一種基于SVM的模型,應(yīng)用在實(shí)際系統(tǒng)中,取得了比較好的效果,省去了人工評(píng)價(jià)過程中的不客觀因素,節(jié)省了人力成本,擴(kuò)展了SVM的應(yīng)用范圍。
[1]何婕.SVM及其在車牌字符識(shí)別中的運(yùn)用[D].四川大學(xué),2005.
[2]王靜.基于GA-SVM的高職學(xué)生綜合素質(zhì)評(píng)價(jià)模型[J].廣西教育,2014,11:55-57.
[3]朱海林.基于SVM多分類的教學(xué)質(zhì)量評(píng)價(jià)研究[D].山東師范大學(xué),2009.