馬曉巖
(中國(guó)人民解放軍93897 部隊(duì)保障部衛(wèi)生隊(duì),陜西 西安 710000)
隨著社會(huì)的發(fā)展及教育資源的不斷優(yōu)厚,當(dāng)今時(shí)代大學(xué)生越來(lái)越多元化,學(xué)生的需求也發(fā)生了很大變化。大學(xué)生的心理健康問(wèn)題不僅越來(lái)越復(fù)雜,而且數(shù)量越來(lái)越多、嚴(yán)重程度也越來(lái)越高[1-2]。
為此,許多學(xué)者將機(jī)器學(xué)習(xí)用于心理醫(yī)療診斷領(lǐng)域[3-4]。楊昱梅[5]等基于數(shù)據(jù)挖掘理論對(duì)大學(xué)生心理健康狀況進(jìn)行了分析和研究。楊帆[6]等利用兩步聚類和快速聚類兩種聚類分析方法對(duì)青少年危險(xiǎn)行為進(jìn)行聚類分析,并據(jù)此為青少年制訂干預(yù)方案。聶敏等[7]研究了高校學(xué)生心理健康情況對(duì)其社交網(wǎng)絡(luò)結(jié)構(gòu)的影響,挖掘?qū)W生的抑郁癥狀發(fā)生水平。Kesuma Z M[8]等利用中值聚類算法對(duì)孕產(chǎn)婦心理保健服務(wù)進(jìn)行聚類分析。
上述研究大都采用有監(jiān)督的機(jī)器學(xué)習(xí)方法來(lái)學(xué)習(xí)模型,其中可以使用標(biāo)記良好的數(shù)據(jù)樣本。然而,對(duì)于心理健康領(lǐng)域存在不足,特別是許多心理健康前期無(wú)明顯表征,或者其特征是不確定或短暫的狀態(tài)。因此,在該文研究中,假設(shè)在那些有極端心理健康問(wèn)題與正常健康狀態(tài)之間存在一些中間階段,并提出了K-means 結(jié)合蟻獅優(yōu)化算法對(duì)學(xué)生進(jìn)行聚類劃分,進(jìn)一步幫助了解大學(xué)生心理健康階段,為大學(xué)生心理輔導(dǎo)或心理干預(yù)提供參考。
聚類[9-11]是基于某種相似性度量對(duì)一組對(duì)象進(jìn)行分組的過(guò)程。每一組分區(qū)對(duì)象都稱為一個(gè)集群。分區(qū)是通過(guò)聚類算法來(lái)完成的。因此,聚類是有利的,因?yàn)樗梢栽谙嗤臄?shù)據(jù)中獲得先前未知的組。數(shù)據(jù)聚類是發(fā)現(xiàn)數(shù)據(jù)集中結(jié)構(gòu)的有效方法。一些聚類方法將對(duì)象劃分為簇之間沒(méi)有特定的邊界,而其他一些方法則將對(duì)象劃分為互斥的簇。同時(shí),也有一些方法把兩個(gè)物體之間的距離作為相似度的標(biāo)準(zhǔn)。
K-means 聚類[12-13]是一種無(wú)監(jiān)督的硬劃分聚類方法。目標(biāo)是目標(biāo)函數(shù)J,從數(shù)據(jù)中找到k個(gè)聚類,具體定義如下:
其中,d2(Ci-Xj)是第i個(gè)簇質(zhì)心和第j個(gè)數(shù)據(jù)點(diǎn)之間的歐式距離的平方。N是數(shù)據(jù)點(diǎn)的總數(shù)。根據(jù)得到的距離,將點(diǎn)分配給距離質(zhì)心最小的簇。在對(duì)這些點(diǎn)進(jìn)行聚類后,找到屬于該聚類的所有點(diǎn)的平均值。然后將平均值指定為下一次迭代的新的聚類質(zhì)心。重復(fù)這個(gè)過(guò)程,直到得到的質(zhì)心與上一次迭代的質(zhì)心相同。K-means 算法的目標(biāo)是最小化目標(biāo)函數(shù)。
蟻獅優(yōu)化模型[14-15]是一種自然啟發(fā)的算法,它遵循螞蟻幼蟲(chóng)的捕食行為。一只蟻獅幼蟲(chóng)在沙子里沿著一條環(huán)形的路徑移動(dòng),用它巨大的顎把沙子扔出去,從而形成一個(gè)圓錐形的洞。挖完陷阱后,幼蟲(chóng)躲在圓錐體的底部,等待螞蟻被困在坑里。一旦蟻獅意識(shí)到獵物被困住了,它就會(huì)把沙子向外扔,并把獵物滑進(jìn)坑里。當(dāng)獵物被抓進(jìn)下巴時(shí),蟻獅會(huì)把獵物拉向自己并吃掉。這個(gè)過(guò)程在數(shù)學(xué)上被設(shè)計(jì)用來(lái)執(zhí)行優(yōu)化。該方法主要有5 個(gè)步驟如下:
1)螞蟻的隨機(jī)游動(dòng);
2)建立陷阱;
3)將螞蟻困在陷阱中;
4)捕捉獵物;
5)重建陷阱。
螞蟻利用隨機(jī)游動(dòng)在受螞蟻陷阱影響的搜索空間中移動(dòng)。在每次迭代中,螞蟻的位置都會(huì)隨著隨機(jī)游動(dòng)而更新。迭代t的隨機(jī)游動(dòng)由如下公式獲取:
其中,X(t) 為螞蟻隨機(jī)游動(dòng)時(shí)步數(shù)的集合。cussum為計(jì)算過(guò)程中的累加和。t為迭代過(guò)程中的步長(zhǎng),r(t)為隨機(jī)函數(shù),具體定義如下:
為了確保所有隨機(jī)游動(dòng)都在搜索空間的邊界內(nèi),使用如下所示的歸一化公式:
其中,ai、bi分別為第i維變量隨機(jī)游動(dòng)的最大值和最小值。分別為第i維變量在迭代t時(shí)的最小值和最大值。
此外,螞蟻制造的陷阱將會(huì)對(duì)其隨機(jī)行走產(chǎn)生影響,為此建立如下模型:
其中,ct、dt分別為所有變量的最小值和最大值,為第j只螞蟻在迭代t時(shí)的位置。
進(jìn)一步采用輪盤(pán)賭選擇方法,根據(jù)螞蟻的適應(yīng)度值進(jìn)行優(yōu)化。在每次迭代中將最適合的螞蟻保存為精英螞蟻。精英將影響螞蟻的整體運(yùn)動(dòng)。此外,螞蟻的位置會(huì)根據(jù)所選螞蟻和精英的隨機(jī)游動(dòng)來(lái)更新。每只螞蟻都會(huì)繞著一只選定的螞蟻游走,因此也可能會(huì)圍繞精英游走。該過(guò)程可描述為:
其中,為螞蟻利用輪盤(pán)賭在迭代值為t時(shí)到蟻獅周?chē)S機(jī)游動(dòng)l步時(shí)的值。為螞蟻在迭代t時(shí)到精英蟻獅周?chē)S機(jī)游動(dòng)l步時(shí)的值。
此外,計(jì)算所有螞蟻的適應(yīng)值。如果一只螞蟻比剩余螞蟻有更好的適應(yīng)能力,則其被相應(yīng)的螞蟻取代。同樣地,如果任何一個(gè)蟻獅比精英蟻獅更優(yōu),則精英蟻獅也會(huì)被該蟻獅取代。
該節(jié)將介紹一種改進(jìn)的混合聚類分析算法,為幫助了解大學(xué)生心理健康階段,為大學(xué)生心理輔導(dǎo)或心理干預(yù)提供參考。該算法是由K-means 和蟻獅優(yōu)化算法混合而成。
首先,確定要形成的簇的數(shù)目。然后根據(jù)得到的最小歐氏距離對(duì)所有數(shù)據(jù)點(diǎn)進(jìn)行聚類。然后,為得到的每個(gè)簇計(jì)算優(yōu)化的簇質(zhì)心。在優(yōu)化過(guò)程中,每個(gè)簇隨機(jī)初始化為螞蟻和螞蟻種群。然后利用K-means 聚類方法的目標(biāo)函數(shù),計(jì)算所有螞蟻和螞蟻的適應(yīng)度值。當(dāng)簇內(nèi)距離的平均值之和最小時(shí),將適應(yīng)度值最小的蟻群作為精英值。之后對(duì)每一個(gè)簇進(jìn)行蟻獅優(yōu)化,得到簇質(zhì)心的最佳位置。K-means聚類算法將返回的精英作為質(zhì)心。該方法的流程如圖1 所示。
圖1 改進(jìn)的混合聚類分析算法執(zhí)行流程
為驗(yàn)證算法性能,基于不同的性能指標(biāo)對(duì)算法的聚類質(zhì)量進(jìn)行了評(píng)價(jià)。文中引入的性能指標(biāo)是群內(nèi)距離平均值和F測(cè)度。
2.2.1 群內(nèi)平均距離
聚類的原則是屬于同一簇的數(shù)據(jù)點(diǎn)應(yīng)盡可能靠近,即簇內(nèi)距離應(yīng)盡可能小,以獲得最優(yōu)的聚類質(zhì)量。
常用計(jì)算簇內(nèi)距離[16]的方法有歐式距離d、曼哈頓距離d12和余弦相似度dc等,距離計(jì)算公式如下:
其中,xi、yi為簇內(nèi)任意兩個(gè)點(diǎn)的值,n為簇內(nèi)點(diǎn)的數(shù)目。
2.2.2 F測(cè)度
利用信息檢索[17]中準(zhǔn)確率和召回率的概念計(jì)算F測(cè)度。數(shù)據(jù)集的每個(gè)聚類i記為查詢所需的ni項(xiàng)集,每個(gè)聚類j記為一個(gè)查詢檢索到的一組nj項(xiàng)。故nij表示聚類j中第i類的元素?cái)?shù)量。因此,準(zhǔn)確度pre、召回率re和F測(cè)度的計(jì)算公式如下:
為分析大學(xué)生的壓力和健康相關(guān)行為,以一個(gè)實(shí)際案例驗(yàn)證所提方法。首先,數(shù)據(jù)集由問(wèn)卷調(diào)查方式通過(guò)統(tǒng)計(jì)參與者在近兩個(gè)月內(nèi)的情況生成,每個(gè)問(wèn)題分為有1~5 分5 個(gè)等級(jí)。表1 所示為調(diào)查結(jié)果部分統(tǒng)計(jì)情況。
表1 部分心理測(cè)試試題
利用文中所提方法對(duì)數(shù)據(jù)集進(jìn)行聚類分析。圖2 所示為578 名學(xué)生心理健康聚類結(jié)果,其中橫軸表示聚類劃分的不同層級(jí),包括正常、輕微、中等、嚴(yán)重和特別嚴(yán)重5 個(gè)級(jí)別??梢钥闯稣{(diào)查結(jié)果中49.6%的人有輕度或更高的抑郁癥狀,60.0%的人有焦慮癥狀,42.0%的人有精神壓力。
圖2 心理健康聚類結(jié)果
將文中算法的聚類結(jié)果歸一化后與傳統(tǒng)K-means、K-means PSO、K-means FA、模糊K-means 相比,聚類結(jié)果的群內(nèi)平均距離和F測(cè)度如表2 所示。可以看出,K-means PSO 和文中方法提供了最小的簇內(nèi)距離。隨著迭代次數(shù)的增加,模糊K-means 和文中算法比較穩(wěn)定不會(huì)出現(xiàn)波動(dòng)現(xiàn)象。綜合比較,文中方法比其他方法結(jié)果更好。
表2 不同算法性能對(duì)比結(jié)果
為了確定聚類算法之間是否存在顯著的性能差異,將測(cè)試者分為4 組進(jìn)行統(tǒng)計(jì)分析。為了確定差異,文中采用了Friedman 檢驗(yàn)[18]。Friedman 檢驗(yàn)是一種非參數(shù)檢驗(yàn),用于找出順序因變量組間的差異。零假設(shè)用H0描述所有聚類算法的性能相同。
試驗(yàn)的置信水平α取0.1。對(duì)于每組數(shù)據(jù),所有算法都進(jìn)行了相應(yīng)的排序計(jì)算,故j個(gè)算法的平均排序Rj計(jì)算如下:
其中,N為測(cè)試次數(shù),為第j個(gè)算法在第i(i∈[1,N])次測(cè)試中的排序。表3 所示為不同算法在測(cè)試中的排序統(tǒng)計(jì)結(jié)果??梢钥闯鑫闹蟹椒ū憩F(xiàn)最好,K-means 方法表現(xiàn)最差。
表3 不同算法排序統(tǒng)計(jì)結(jié)果
Friedman 檢驗(yàn)計(jì)算公式如下:
其中,N為測(cè)試次數(shù);k為使用算法的數(shù)量。
Friedman 統(tǒng)計(jì)量FF由自由度為k-1 和(k-1)(N-1)的F分布構(gòu)成。對(duì)于5 個(gè)算法和8 個(gè)數(shù)據(jù)集,自由度在4~28 之間。Friedman 檢驗(yàn)中z值計(jì)算公式如下:
然后,利用z值得到概率p與α/(k-1)。表4 為不同算法的Friedman 檢驗(yàn)統(tǒng)計(jì)結(jié)果。
表4 Friedman檢驗(yàn)統(tǒng)計(jì)結(jié)果
由表4 可知,無(wú)效假設(shè)被拒絕。因此各算法性能不同。綜合以上分析結(jié)果,可以確定文中所提方法在統(tǒng)計(jì)上比K-means、K-means PSO、K-means FA、模糊K-means 算法表現(xiàn)更好。
文中對(duì)大學(xué)生心理健康的聚類分析問(wèn)題進(jìn)行了研究,提出了應(yīng)用于大學(xué)生心理健康程度的聚類分析模型,并實(shí)現(xiàn)了一種混合聚類優(yōu)化算法。
文中在模型驗(yàn)證時(shí)選取的數(shù)據(jù)類型較為基礎(chǔ),仍存在進(jìn)一步提升空間。同時(shí)對(duì)數(shù)據(jù)整合時(shí)僅為統(tǒng)計(jì)學(xué)分析,沒(méi)有進(jìn)行數(shù)據(jù)挖掘與內(nèi)部關(guān)系探討。未來(lái)研究的方向包括數(shù)據(jù)校驗(yàn),挖掘各指標(biāo)之間內(nèi)涵關(guān)系等。