楊 利,葉明全,黃道斌
(皖南醫(yī)學(xué)院公共基礎(chǔ)學(xué)院,安徽蕪湖241002)
隨著社會競爭的日益激烈,大學(xué)生群體正面臨著如學(xué)業(yè)、情感、就業(yè)、生活等多重壓力,心理健康問題頻頻發(fā)生,為避免一幕幕悲劇的發(fā)生,高校均定期對大學(xué)生心理健康進(jìn)行評估,但是,目前所采用的心理健康預(yù)警系統(tǒng)大部分是基于傳統(tǒng)機(jī)器學(xué)習(xí)算法,如BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)[1]、決策樹算法[2]等,計(jì)算量巨大且預(yù)警的準(zhǔn)確率不高。
通過癥狀自評量表采集到的大學(xué)生心理健康數(shù)據(jù)通常是高維數(shù)據(jù)集,在預(yù)警的過程中,所處理的數(shù)據(jù)量是巨大的,而心理健康數(shù)據(jù)之間存在著一定的關(guān)聯(lián)性,即存在著冗余數(shù)據(jù)。近年來,大量研究學(xué)者對流形學(xué)習(xí)算法展開了深入研究,該算法已作為特征提取、數(shù)據(jù)降維的有效方法并迅速發(fā)展,且在多個(gè)領(lǐng)域有了成功的應(yīng)用,如人臉識別[3]、圖像檢索[4]、植物葉片識別[5-6]、文本分類[7]等。因此,本文首先通過癥狀自評量表獲取大學(xué)生心理健康數(shù)據(jù)并進(jìn)行預(yù)處理;然后采用一種非線性流形學(xué)習(xí)算法--局部線性嵌入算法(Locally linear embedding,LLE)對多維心理健康數(shù)據(jù)進(jìn)行降維,提取心理健康數(shù)據(jù)主要特征;最后采用(Support Vector Machine,SVM)分類器識別提取到的心理健康數(shù)據(jù)主要特征,從而確定學(xué)生的心理健康狀況。通過將本文提出的系統(tǒng)與目前采用BP神經(jīng)網(wǎng)絡(luò)和決策樹算法的心理健康預(yù)警系統(tǒng)進(jìn)行實(shí)驗(yàn)結(jié)果比較,采用LLE結(jié)合SVM的大學(xué)生心理健康預(yù)警系統(tǒng)能夠明顯提高預(yù)警的準(zhǔn)確率。
局部線性嵌入(LLE)是一種非線性流形學(xué)習(xí)算法,該算法主要通過尋找高維數(shù)據(jù)集中所潛藏的低維流形結(jié)構(gòu)來實(shí)現(xiàn)數(shù)據(jù)的降維,復(fù)雜度低,易于實(shí)現(xiàn)。
若存在高維空間的數(shù)據(jù)集X={x1,x2,…,xn}?RD,LLE算法對其進(jìn)行降維的具體步驟為:
(a)計(jì)算數(shù)據(jù)集X中所有樣本點(diǎn)之間的歐式距離,對與樣本點(diǎn)xi歐式距離的其他樣本點(diǎn)進(jìn)行逆序排序,選取前K個(gè)樣本點(diǎn)作為xi的鄰域,K的取值具有很大的不確定性,需要在實(shí)驗(yàn)過程中調(diào)節(jié);
(b)計(jì)算樣本點(diǎn)xi的局部重構(gòu)權(quán)值矩陣W,矩陣元素Wij與樣本點(diǎn)xi的K鄰域線性重構(gòu)xi,最小化重構(gòu)誤差函數(shù)ε(W);
其中,
權(quán)值矩陣W的單個(gè)元素為Wij,當(dāng)xj?{xi的K鄰域}時(shí),Wij為0。Wij滿足約束條件
(c)在Wij不變的前提下,計(jì)算樣本點(diǎn)xi在低維空間的嵌入yi,最小化加權(quán)誤差函數(shù)εi(W);其中,
式(3)中,
低維嵌入yi∈Rd(d?D)且滿足條件
(d)對矩陣M進(jìn)行非稀疏對角化,舍去第1個(gè)為0的特征值,計(jì)算出2-(d+1)個(gè)特征值對應(yīng)的特征向量,即可得到高維樣本集X所對應(yīng)的低維輸出Y。
支持向量機(jī)(SVM)[8]是一種分析數(shù)據(jù)、識別模式的學(xué)習(xí)模型,該模型基于統(tǒng)計(jì)學(xué)習(xí)相關(guān)理論,應(yīng)用領(lǐng)域很廣,特別擅長處理小樣本、高維度和非線性數(shù)據(jù)。支持向量機(jī)的核心在于核函數(shù),通過對核函數(shù)映射,將低維空間中的樣本非線性轉(zhuǎn)換到高維空間,選擇合適的核函數(shù),在高維空間中找尋找最優(yōu)的分類超平面,支持向量機(jī)的最優(yōu)分類函數(shù)為:
該學(xué)習(xí)模型的學(xué)習(xí)步驟:
(1)給定支持向量機(jī)的輸入數(shù)據(jù),一組訓(xùn)練樣本xi和yi,其中yi是訓(xùn)練樣本xi的類別,yi∈{+1,-1},i=1,2,…,n;
(2)計(jì)算函數(shù)Q(α)的最大值,得到;該過程需要滿足如下約束條件:
其中,
(3)計(jì)算出W*和b*,計(jì)算公式如下
其中xs是一個(gè)特定的支持向量;
(4)選擇某種核函數(shù)K(x,xi),計(jì)算測試樣本x的支持向量機(jī)最優(yōu)分類函數(shù):
計(jì)算結(jié)果為+1或-1,作為類別判定依據(jù)。
向某學(xué)院500名學(xué)生發(fā)放癥狀自評量表(SCL-90),進(jìn)行心理數(shù)據(jù)采集,為量化每個(gè)學(xué)生的心理狀態(tài),構(gòu)建大學(xué)生的心理健康數(shù)據(jù)結(jié)構(gòu)為(學(xué)號,軀體化,人際關(guān)系敏感,強(qiáng)迫癥狀,抑郁,焦慮,恐怖,敵對,偏執(zhí),精神病性,其他)。實(shí)驗(yàn)中,隨機(jī)從這500份大學(xué)生心理健康數(shù)據(jù)中選取300份作為訓(xùn)練樣本,剩余200份數(shù)據(jù)作為測試樣本。
將采集到的每個(gè)學(xué)生心理健康數(shù)據(jù)結(jié)構(gòu)表示成含有11個(gè)元素的一維列向量,因此,實(shí)驗(yàn)中的訓(xùn)練樣本和測試樣本均可由含有11個(gè)元素的一維列向量表示。
在對大學(xué)生心理健康進(jìn)行調(diào)研的過程中,調(diào)研項(xiàng)目越多,越能真實(shí)體現(xiàn)該學(xué)生的心理健康狀況,但是較多的調(diào)研項(xiàng)目也擴(kuò)充了學(xué)生心理健康數(shù)據(jù)結(jié)構(gòu),增加最終的心理健康評估計(jì)算量及評估時(shí)間。同時(shí),采集到的心理健康數(shù)據(jù)結(jié)構(gòu)中包含著冗余特征信息,為了減少計(jì)算量,本文利用LLE算法對提取到的大量學(xué)生心理健康數(shù)據(jù)進(jìn)行維數(shù)約簡,降低每個(gè)學(xué)生的心理健康數(shù)據(jù)維數(shù),實(shí)現(xiàn)心理健康數(shù)據(jù)特征提取。
本實(shí)驗(yàn)結(jié)合LLE和SVM對大學(xué)生心理健康數(shù)據(jù)進(jìn)行預(yù)警,由于LLE算法含有近鄰參數(shù)K和嵌入維數(shù)d兩個(gè)參數(shù),因此實(shí)驗(yàn)過程中要解決這兩個(gè)參數(shù)的取值問題。若K過小,則會打破流形的全局特性;K過大,數(shù)據(jù)降維后原有的非線性特性就不存在了。若d過小,低維空間中數(shù)據(jù)可能會重疊;若d過大,會給降維后的數(shù)據(jù)集引入噪聲,從而影響最終的心理健康評估結(jié)果。
實(shí)驗(yàn)中保持樣本數(shù)據(jù)集固定不變,由于每個(gè)學(xué)生心理健康數(shù)據(jù)結(jié)構(gòu)由11個(gè)元素的一維列向量組成,最大維度為11,因此可選取d的取值區(qū)間為[2,10],步長為1;近鄰參數(shù)K的取值區(qū)間為[3,10],步長為1[6]。實(shí)驗(yàn)中,利用SVM作為分類器,其核函數(shù)為C-SVC,所涉參數(shù)具體值為degree=3,gamma=0.5,coef0=0,懲罰因子C=1。表1為不同K、d情況下大學(xué)生心理健康數(shù)據(jù)預(yù)警的準(zhǔn)確率。
經(jīng)過在實(shí)驗(yàn)中不斷調(diào)整參數(shù)K和d,力求使得評估準(zhǔn)確率最高,通過觀察實(shí)驗(yàn)結(jié)果表1,最終確定K的取值為5,d的取值為8。
利用LLE算法結(jié)合SVM方法和目前常用的心理健康預(yù)警方法BP神經(jīng)網(wǎng)絡(luò)、決策樹對大學(xué)生心理健康數(shù)據(jù)進(jìn)行預(yù)警,每種方法進(jìn)行10次實(shí)驗(yàn),每次實(shí)驗(yàn)所用的訓(xùn)練樣本和測試樣本都是隨機(jī)選取的,大學(xué)生心理健康狀況取10次實(shí)驗(yàn)的最佳預(yù)警準(zhǔn)確率和平均預(yù)警準(zhǔn)確率。表2為大學(xué)生心理健康狀況預(yù)警結(jié)果。
本文提出一種基于LLE算法和SVM的大學(xué)生心理健康預(yù)警方法,實(shí)驗(yàn)表明該方法可以有效提高大學(xué)生心理健康預(yù)警的準(zhǔn)確率。實(shí)驗(yàn)過程中,涉及到近鄰參數(shù)K和降維維數(shù)d的取值問題,本文不斷調(diào)整K和d的值,使得心理健康評估準(zhǔn)確率達(dá)到最優(yōu),綜合性的選取K和d,因此本方法不具備自適應(yīng)性。下一步的研究工作著重于K和d的選取,使得本文提出的預(yù)警方法具備自適應(yīng)性。
[1]李春意.基于BP神經(jīng)網(wǎng)絡(luò)的大學(xué)生心理狀況預(yù)測及分析[D].天津:天津大學(xué),2012.
[2]亓文娟,晏杰.決策樹算法在大學(xué)生心理健康測評系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,24(11):230-234.
[3]Hao W,Wen Y.Face Recognition Using Spatially Smooth and Maximum Minimum Value of Manifold Preserving[J].Chinese Journal of Electronics,2013,22(1):71-75.
[4]賀廣南,楊育彬.基于流形學(xué)習(xí)的圖像檢索算法研究[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2010,40(5):129-136.
[5]楊利,葉明全.基于S-WLLE算法和SVR的植物葉片圖像識別方法[J].宿州學(xué)院學(xué)報(bào),2014,29(11):69-74.
[6]閻慶,梁棟,張晶晶.基于Fisher變換的植物葉片圖像識別監(jiān)督LLE算法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2012,43(9):179-183.
[7]夏士雄,李佑文等.一種半監(jiān)督局部線性嵌入算法的文本分類方法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(1):64-67.
[8]張浩然,韓正之,李昌剛.支持向量機(jī)[J].計(jì)算機(jī)科學(xué),2002,29(12):135-137.