王艷軍 李 舒 陳子航 董 坤 沈雪靜
(1.河南師范大學(xué) 智能計(jì)算與數(shù)據(jù)挖掘工程中心 招生辦公室,河南 新鄉(xiāng) 453007;2.河南師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007)
招生宣傳在當(dāng)今重視教育發(fā)展的時(shí)代背景下尤為重要,隨著時(shí)代的變化,伴隨著新高考改革步伐的進(jìn)行,考生數(shù)量每年呈現(xiàn)遞增態(tài)勢(shì),信息通道在重復(fù)構(gòu)建。據(jù)調(diào)查,考生每年報(bào)考時(shí)都存在信息獲取不完善等諸多問(wèn)題。新生一般通過(guò)官方網(wǎng)站、QQ群和咨詢電話等方式獲取報(bào)考信息,其中使用較多的方式是進(jìn)行人工咨詢和網(wǎng)上詢問(wèn),其存在電話熱線高峰期難撥通、咨詢問(wèn)題不能及時(shí)被解答等問(wèn)題,另外網(wǎng)上答疑的方式單一,常會(huì)出現(xiàn)答非所問(wèn)的現(xiàn)象,因?yàn)樽稍冃畔⒘烤薮?,答疑人員只是集中解答相似度較高的問(wèn)題,無(wú)法特別細(xì)致地進(jìn)行解答。隨著科技發(fā)展迅速,引入更加科學(xué)智能化的咨詢平臺(tái)就顯得尤為重要。
隨著目前教育規(guī)模的不斷擴(kuò)大,大學(xué)生數(shù)量急劇增加,給高校招生錄取工作帶來(lái)很大壓力,單純的招生信息管理系統(tǒng)已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足需求,因此筆者根據(jù)需求并結(jié)合教育相關(guān)政策提出了智能答疑系統(tǒng)的建設(shè)目標(biāo),即以網(wǎng)絡(luò)為基礎(chǔ),利用先進(jìn)的信息化手段和工具,實(shí)現(xiàn)資源數(shù)字化,實(shí)現(xiàn)計(jì)算機(jī)管理大量的數(shù)據(jù)。智能答疑系統(tǒng)將積聚大量的數(shù)據(jù),如何挖掘數(shù)據(jù)中所隱含的有價(jià)信息,應(yīng)用這些有價(jià)信息去指導(dǎo)學(xué)校的招生工作,從而改善整個(gè)招生咨詢的管理,提高錄取管理效率是一項(xiàng)非常有意義的工作。
網(wǎng)上的智能答疑是由圖1過(guò)程操作完成,對(duì)于常見(jiàn)性問(wèn)題以及重復(fù)性問(wèn)題,由智能機(jī)器人自動(dòng)識(shí)別并對(duì)其進(jìn)行解答,若出現(xiàn)智能機(jī)器人無(wú)法解決的問(wèn)題,將會(huì)自動(dòng)轉(zhuǎn)化為人工服務(wù),可以分級(jí)管控,答疑質(zhì)量與效率兼顧;快捷搜查對(duì)照回答,減少答疑培訓(xùn);設(shè)有過(guò)程跟蹤管理,具有即時(shí)答疑即時(shí)互動(dòng)的優(yōu)點(diǎn),減少了招辦人工延時(shí)答疑的問(wèn)題,而且手機(jī)通知答疑結(jié)果,更為便捷。通過(guò)對(duì)不同類別的生源進(jìn)行信息采集,將其分類分析,最后生成一個(gè)分析報(bào)告,使結(jié)果更加明了。
圖2數(shù)據(jù)是智能答疑系統(tǒng)根據(jù)聚類分析思想而自動(dòng)檢測(cè)并生成的結(jié)果圖,較以往人工整理更加快捷便利。
數(shù)據(jù)挖掘是近些年來(lái)發(fā)展起來(lái)的新技術(shù),通過(guò)數(shù)據(jù)挖掘,人們可以發(fā)現(xiàn)數(shù)據(jù)背后隱藏的有價(jià)值的、潛在的知識(shí),為科學(xué)地進(jìn)行各種商業(yè)決策提供強(qiáng)有力的支持。而聚類分析是數(shù)據(jù)挖掘中的一項(xiàng)主要技術(shù),它是將物理或抽象對(duì)象的集合分組為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中,從而為相關(guān)數(shù)據(jù)基礎(chǔ)上的決策提供依據(jù),保障整個(gè)招生咨詢工作。
由于所研究的樣品或指標(biāo)之間存在不同程度的相似性。于是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類型的依據(jù)。把一些相似程度較大的樣品或指標(biāo)聚合為一類,把另外一些彼此之間相似程度較大的樣品或指標(biāo)又聚合為另一類,直到把所有的樣品或指標(biāo)聚合完畢。在聚類分析中,通常我們將根據(jù)分類對(duì)象的不同分為Q型聚類分析和R型聚類分析兩大類。筆者在本文中多采用Q型聚類分析。Q型聚類分方法是對(duì)樣本進(jìn)行分類處理,根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行回歸分析或Q型聚類分析。
3.2.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理包括選擇數(shù)量、類型和特征的標(biāo)度,它依靠特征選擇和特征抽取,特征選擇是選擇主要的特征,特征抽取把輸入的特征轉(zhuǎn)化為一個(gè)新的顯著特征,它們經(jīng)常被用來(lái)獲取一個(gè)合適的特征集,避免“維數(shù)災(zāi)難”。數(shù)據(jù)預(yù)處理還包括將孤立點(diǎn)移出數(shù)據(jù),孤立點(diǎn)是不依附于一般數(shù)據(jù)行為或模型的數(shù)據(jù),因此孤立點(diǎn)經(jīng)常會(huì)導(dǎo)致有偏差的聚類結(jié)果,因此為了得到正確的聚類,我們將孤立點(diǎn)剔除。
在招生工作中,對(duì)考生信息進(jìn)行分類的幾個(gè)最主要特征是區(qū)域類別、考生類別、專業(yè)類別。招生人員在進(jìn)行招生錄取過(guò)程中,依據(jù)上述三個(gè)類別區(qū)分各考生的信息。同時(shí)在招生中還存在一些擾亂的信息,比如:有些考生在我校招生咨詢留言板上詢問(wèn)關(guān)于其他院校的一些情況,或者詢問(wèn)一些與報(bào)考院校不相關(guān)的信息,這些都稱之為孤立點(diǎn),需要將其剔除才能獲取較為準(zhǔn)確的聚類結(jié)果,以便于分析。為此我們采集到了某高校在招生過(guò)程中處理問(wèn)答信息的相關(guān)數(shù)據(jù),如表1所示。
表1 招生問(wèn)答信息表
3.2.2 為衡量數(shù)據(jù)點(diǎn)間的相似度定義一個(gè)距離函數(shù)
既然相似性是定義一個(gè)類的基礎(chǔ),那么不同數(shù)據(jù)之間在同一個(gè)特征空間相似度的衡量對(duì)于聚類步驟是很重要的,由于特征類型和特征標(biāo)度的多樣性,距離度量必須謹(jǐn)慎,它經(jīng)常依賴于應(yīng)用。例如,通常通過(guò)定義在特征空間的距離度量來(lái)評(píng)估不同對(duì)象的相異性。
在招生應(yīng)用中,本文采取的是歐式距離的度量方法,對(duì)來(lái)自不同省份不同專業(yè)的考生進(jìn)行算法分析。因?yàn)樵谶M(jìn)行招生時(shí),不同區(qū)域的招生要求存在差異,不同專業(yè)類別的招生要求也不相同,這就要求我們需要將地域相同,專業(yè)類別相同的考生歸為一類,因此借助二維空間內(nèi)的相似性度量來(lái)進(jìn)行距離計(jì)算,我們假設(shè)該生所在地域?yàn)闄M坐標(biāo),所選專業(yè)類別為縱坐標(biāo),建立空間直角坐標(biāo)系,如圖3所示。
我們將橫坐標(biāo)不同區(qū)域的考生分別定義為X1,X2,專業(yè)類別定義為Y1,Y2,將距離函數(shù)關(guān)系定義為D,可設(shè)計(jì)算公式如下:
其中當(dāng)考生所在區(qū)域相同時(shí),X2-X1=0,當(dāng)所在區(qū)域不同時(shí),X2-X1=1;當(dāng)考生所報(bào)類別相同時(shí),Y2-Y1=0,當(dāng)所報(bào)類別不同時(shí),Y2-Y1=1;在計(jì)算距離函數(shù)時(shí),D越小,說(shuō)明考生相似性越高,反之越低。
借助歐式距離函數(shù),我們可以將考生進(jìn)行分類,減小統(tǒng)計(jì)難度。
表2 招生數(shù)據(jù)
表2是某高校在2019年對(duì)5個(gè)省份招生的數(shù)據(jù),當(dāng)我們用歐式距離對(duì)其進(jìn)行分析的時(shí)候,可以看到對(duì)福建的招生中根據(jù)地域來(lái)計(jì)算,因?yàn)槎继幱谕粋€(gè)省份,故D 為0;另外在福建招生中,文科生與理科生分別招生15人,在對(duì)類別進(jìn)行計(jì)算的時(shí)候,D 為1;相比較北京和福建招生時(shí),兩者屬于不同的省份,故D為1。分析表2數(shù)據(jù)可知,當(dāng)我們只有數(shù)據(jù)卻未知其具體分類情況時(shí),可以采用歐式距離算法對(duì)其進(jìn)行分析,根據(jù)D 的數(shù)值將其更加細(xì)致地分類,從而減少了人工操作的繁瑣。
3.2.3 聚類分組
在招生工作中,首先根據(jù)不同的省份將其進(jìn)行第一次分類,將相同省份的考生集中在一起,因?yàn)椴煌氖》葜g對(duì)考生的要求不同,將其進(jìn)行分類是為了避免出現(xiàn)回答問(wèn)題時(shí)的失誤;再根據(jù)考生是文科生還是理科生進(jìn)行第二次分類,因?yàn)槊磕晡目粕屠砜粕浫〉姆謹(jǐn)?shù)線都有一定的差異,而且相對(duì)于專業(yè)而言,有些專業(yè)只允許理科生填報(bào),而有些專業(yè)是只允許文科生填報(bào),為了避免出現(xiàn)這種填報(bào)的嚴(yán)重性錯(cuò)誤,需要將理科生和文科生區(qū)分開來(lái);然后再根據(jù)所詢問(wèn)的專業(yè)進(jìn)行第三次分類,不同的專業(yè)分?jǐn)?shù)要求不同,盡量減少分?jǐn)?shù)的浪費(fèi)以及錯(cuò)誤的填報(bào)。
表3 生源省份信息表
表4 高校文理招收統(tǒng)計(jì)表
3.2.4 評(píng)估輸出
評(píng)估聚類結(jié)果的質(zhì)量是一個(gè)重要階段,聚類是一個(gè)無(wú)管理的程序,也沒(méi)有客觀的標(biāo)準(zhǔn)來(lái)評(píng)價(jià)聚類結(jié)果,它是通過(guò)一個(gè)類有效索引來(lái)評(píng)價(jià)。類有效索引在決定類的數(shù)目時(shí)具有重要作用,通常決定類數(shù)目的方法是選擇一個(gè)特定的類有效索引的最佳值,這個(gè)索引能否真實(shí)得出類的數(shù)目是判斷該索引是否有效的標(biāo)準(zhǔn)。
在招生工作中的類有效索引便是文科生和理科生的區(qū)別,但僅靠文科生和理科生的區(qū)別,不能完全得出類的數(shù)目,還需對(duì)區(qū)域以及專業(yè)進(jìn)一步分類,以便得出更準(zhǔn)確的結(jié)果。
本文在面對(duì)招生的過(guò)程中提出一種基于聚類分析的答疑模式,將考生信息進(jìn)行聚類,得到較好的分類結(jié)果,不僅提高了工作速度,還節(jié)省了時(shí)間和人力,并且結(jié)合互聯(lián)網(wǎng)技術(shù),將智能答疑系統(tǒng)應(yīng)用于招生工作,其在未來(lái)的高校招生領(lǐng)域具有較好的應(yīng)用前景。