王紅旗
(宿州職業(yè)技術(shù)學(xué)院 安徽·宿州 234000)
在信息科技引領(lǐng)21世紀(jì)時代潮流的背景下,人們每天會面臨數(shù)以萬計的各種數(shù)據(jù),這些海量數(shù)據(jù)難以用人工統(tǒng)計的方式來發(fā)現(xiàn)或?qū)ふ译[藏在其中的某一些規(guī)律,惟有運(yùn)用先進(jìn)的數(shù)據(jù)庫處理技術(shù)才能對一些龐大的數(shù)據(jù)集群進(jìn)行深入的挖掘,進(jìn)而精準(zhǔn)又快速地找到隱藏在數(shù)據(jù)中的規(guī)律,最終為某方面的工作需求提供決策參考,根據(jù)數(shù)據(jù)挖掘出來的規(guī)律來制定較為合理的政策或措施,可使某行業(yè)或領(lǐng)域發(fā)展始終處于健康、穩(wěn)定及可持續(xù)狀態(tài)[1]。總之,挖掘數(shù)據(jù)庫中的數(shù)據(jù)、找到隱藏在數(shù)據(jù)中的規(guī)律是最終目標(biāo)。如何挖掘數(shù)據(jù)庫是人們面臨的共同難題。本文針對職業(yè)院校招生數(shù)據(jù),利用SPSS modeler軟件對職業(yè)院校歷年來的招生數(shù)據(jù)進(jìn)行挖掘,并從中發(fā)現(xiàn)職業(yè)院校招生的某些規(guī)律,據(jù)此規(guī)律而改進(jìn)招生策略,可使當(dāng)前面臨困境的職業(yè)院校招生問題得以緩解,為以后進(jìn)入良性的可持續(xù)階段打下基礎(chǔ)。
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程[2]。數(shù)據(jù)挖掘的三個重要步驟為:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和分析,具體分為以下幾個步驟:商業(yè)定義、數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示。數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。
SPSS modeler軟件是一款專門用于數(shù)據(jù)挖掘的軟件,操作界面通俗易懂,設(shè)置的挖掘參數(shù)方便快捷,建立的模型分析結(jié)果可靠[3]。SPSS modeler軟件操作的主要步驟:數(shù)據(jù)預(yù)處理—運(yùn)行SPSS modeler出結(jié)果—統(tǒng)計規(guī)律。數(shù)據(jù)預(yù)處理就是將不適用于SPSS modeler軟件運(yùn)行分析的數(shù)據(jù)做篩選刪除處理;運(yùn)行SPSSmodeler出結(jié)果就是將已處理的數(shù)據(jù)導(dǎo)入軟件,利用SPSS modeler軟件建立可視化的模型,實(shí)現(xiàn)對數(shù)據(jù)全方位的挖掘,同時將軟件運(yùn)行的結(jié)果顯示在操作界面上;統(tǒng)計規(guī)律即通過顯示的結(jié)果找到某一特定的規(guī)律,以便于分析人員根據(jù)規(guī)律來制定相對應(yīng)的策略[3]。在運(yùn)行SPSS modeler軟件時主要設(shè)置三個參數(shù),即:數(shù)據(jù)的提升度、置信度及支持度,如若能合理設(shè)置這三個參數(shù),就能對在數(shù)據(jù)挖掘中出現(xiàn)的規(guī)律提供更好的判斷依據(jù)。
職業(yè)院校招生在高校招生中處于最后一批次,生源的數(shù)量質(zhì)量較本科院校招生處于劣勢,因此職業(yè)院校的招生除了受到本身教學(xué)質(zhì)量和生源就業(yè)率的影響外,生源的數(shù)量與質(zhì)量也是影響職業(yè)院校招生的關(guān)鍵因素。
(1)生源的成績數(shù)據(jù)分析
根據(jù)歷年招生的生源成績來科學(xué)劃定生源的層次,層次劃分的準(zhǔn)則是符合職業(yè)院校招生生源成績實(shí)際情況,成績段劃分過高或過低都會影響招生。
(2)需求專業(yè)的設(shè)置分析
職業(yè)院校應(yīng)該以服務(wù)地方經(jīng)濟(jì)為導(dǎo)向來合理地設(shè)置本職業(yè)院校的專業(yè),從而提高職業(yè)院校的社會認(rèn)可度。
(3)生源畢業(yè)時的就業(yè)情況分析
生源在選擇職業(yè)院校的基本意向就是畢業(yè)后能夠就業(yè),若就業(yè)率較高,則生源的選擇本職業(yè)院校的機(jī)率就大,否則下一年的本職業(yè)院校招生生源率就會下降。
(1)對體現(xiàn)數(shù)據(jù)是否具備關(guān)聯(lián)性的三項指標(biāo):數(shù)據(jù)的提升度、置信度及支持度設(shè)定合理閾值。
(2)對招生生源的成績數(shù)據(jù)、需求專業(yè)的設(shè)置及生源畢業(yè)時的就業(yè)數(shù)據(jù)做篩選處理,即對這些數(shù)據(jù)按照離散數(shù)學(xué)上的離散原理做離散處理。
(3)編制數(shù)據(jù)關(guān)聯(lián)性處理程序?qū)β殬I(yè)院校的生源成績數(shù)據(jù)、需求專業(yè)的設(shè)置及生源畢業(yè)時的就業(yè)數(shù)據(jù)進(jìn)行處理,并將處理的結(jié)果保存在系統(tǒng)中。
(4)分析數(shù)據(jù)關(guān)聯(lián)性處理后的數(shù)據(jù)結(jié)果,找到能夠準(zhǔn)確反映職業(yè)院校招生的規(guī)律。
(5)對有關(guān)聯(lián)性的數(shù)據(jù)深入挖掘,通過體現(xiàn)數(shù)據(jù)關(guān)聯(lián)性強(qiáng)弱的三項指標(biāo):數(shù)據(jù)的提升度、置信度及支持度來驗(yàn)證關(guān)聯(lián)數(shù)據(jù)存在的關(guān)系,即數(shù)據(jù)支持度在預(yù)先設(shè)置的閾值范圍內(nèi)的判定為有關(guān)聯(lián)性的數(shù)據(jù),越靠近支持度的設(shè)定閾值,其關(guān)聯(lián)性越強(qiáng);數(shù)據(jù)的提升度也在預(yù)先設(shè)定的閾值范圍內(nèi)并與閾值差的絕對值越小,則該組關(guān)聯(lián)性相關(guān)數(shù)據(jù)是影響職業(yè)院校招生的重要數(shù)據(jù)。SPSS modeler軟件分析出的置信度分別與系統(tǒng)設(shè)置的閾值進(jìn)行比較,進(jìn)而分析出隱藏在關(guān)聯(lián)性的數(shù)據(jù)中客觀存在的規(guī)律[4]。關(guān)聯(lián)性的數(shù)據(jù)挖掘的設(shè)計流程,如圖2-1所示。
圖2-1 關(guān)聯(lián)性的數(shù)據(jù)挖掘的設(shè)計流程
按照職業(yè)院校招生數(shù)據(jù)挖掘分析和設(shè)計原則,利用SPSS modeler軟件對職業(yè)院校招生數(shù)據(jù)做處理,并建立招生生源的成績、需求專業(yè)的設(shè)置以及生源畢業(yè)時的就業(yè)情況模型,如圖3-1所示。
圖3-1 職業(yè)院校招生數(shù)據(jù)挖掘模型圖
從圖3-1可知,對招生生源的成績、需求專業(yè)的設(shè)置以及生源畢業(yè)時的就業(yè)情況按照圖中要求來建立模型,從而找出三者間有關(guān)聯(lián)性的數(shù)據(jù)以及隱藏在數(shù)據(jù)中的規(guī)律,最終為職業(yè)院校招生提供決策支持。
針對招生生源的成績、需求專業(yè)的設(shè)置以及生源畢業(yè)時的就業(yè)情況數(shù)據(jù),需要對這些數(shù)據(jù)進(jìn)行篩選預(yù)處理,為進(jìn)一步的關(guān)聯(lián)性的數(shù)據(jù)挖掘提供便利。如表3-1、表3-2及表3-3所示。
表3-1 招生生源的成績基本信息
表3-2 需求專業(yè)設(shè)置情況
表3-3 生源畢業(yè)時的就業(yè)情況
利用spss modeler軟件對職業(yè)院校招生數(shù)據(jù)進(jìn)行挖掘,先將招生生源的成績、需求專業(yè)的設(shè)置以及生源畢業(yè)時的就業(yè)情況數(shù)據(jù)做離散和差集篩選處理。先將數(shù)據(jù)做平均分段處理,選中軟件界面上的篩選鍵,點(diǎn)擊確認(rèn),則經(jīng)過篩選后顯示的數(shù)據(jù)為離散差集處理后的全部數(shù)據(jù)段,同時需要多次重復(fù)篩選,直至界面顯示數(shù)據(jù)處理完成。再設(shè)置三項指標(biāo)即:數(shù)據(jù)的提升度、置信度及支持度值,最后運(yùn)行軟件,操作界面顯示系統(tǒng)運(yùn)行后跳出的一組數(shù)據(jù),即在設(shè)置的支持度范圍內(nèi)的多次重復(fù)項集。最后界面跳出在預(yù)設(shè)的提升度和置信度范圍內(nèi)的一組數(shù)據(jù)。本文利用spss modeler數(shù)據(jù)挖掘軟件對職業(yè)院校招生數(shù)據(jù)進(jìn)行挖掘,流程圖如圖3-2所示。
圖3-2 職業(yè)院校招生數(shù)據(jù)進(jìn)行挖掘流程圖
由圖3-2所示,招生生源的成績、需求專業(yè)的設(shè)置以及生源畢業(yè)時的就業(yè)情況數(shù)據(jù)以excel表格形式輸入spss modeler軟件中,再設(shè)定三項指標(biāo)的參數(shù),即設(shè)定數(shù)據(jù)的提升度、置信度最小為60及最低條件支持度為15,如圖3-3、3-4和3-5所示。
圖3-3 招生的生源成績關(guān)聯(lián)性的數(shù)據(jù)建模
圖3-4 需求專業(yè)的設(shè)置關(guān)聯(lián)性的數(shù)據(jù)建模
圖3-5 生源畢業(yè)時的就業(yè)情況關(guān)聯(lián)性的數(shù)據(jù)建模
通過SPSS modeler軟件對職業(yè)院校招生數(shù)據(jù)進(jìn)行挖掘分析,在分析中需要將招生生源的成績、需求專業(yè)的設(shè)置以及生源畢業(yè)時的就業(yè)情況的三個因素中,分別通過招生生源的成績作為自變量,而需求專業(yè)的設(shè)置和生源畢業(yè)時的就業(yè)情況作為因變量;將需求專業(yè)的設(shè)置作為自變量,招生生源的成績和生源畢業(yè)時的就業(yè)情況作為因變量;將生源畢業(yè)時的就業(yè)情況作為自變量,招生生源的成績和需求專業(yè)的設(shè)置作為因變量,并且以系統(tǒng)設(shè)置的數(shù)據(jù)的提升度、置信度最小為60及最低條件支持度為15為前提條件,最后職業(yè)院校招生數(shù)據(jù)的挖掘結(jié)果及數(shù)據(jù)的提升度、置信度和支持度的參數(shù),如表3-4所示。
由職業(yè)院校招生數(shù)據(jù)的挖掘的結(jié)果及置信度和支持度值來看,找出職業(yè)院校招生數(shù)據(jù)中隱藏的一些規(guī)律如下:
(1)根據(jù)支持度結(jié)果分析,生源畢業(yè)時的就業(yè)情況分段數(shù)據(jù)的平均支持度值與設(shè)定的最低條件支持度差值絕對值是最大的,招生生源的成績分段數(shù)據(jù)中的支持度平均值與設(shè)定的最低條件支持度差值絕對值為最小的,需求專業(yè)的設(shè)置分段數(shù)據(jù)的平均支持度值與設(shè)定的最低條件支持度差值絕對值介于生源畢業(yè)時的就業(yè)情況的與招生生源的成績之間,按照最低條件支持度與平均支持度的差值絕對值的大小影響因素原則來判斷,絕對值的偏差越小,影響越大[5],則可得出結(jié)論:在影響職業(yè)院校招生的三個因素中,招生生源的成績數(shù)據(jù)對于職業(yè)院校的招生的影響〉需求專業(yè)的設(shè)置的影響〉生源畢業(yè)時的就業(yè)情況。
表3-4 招生的數(shù)據(jù)挖掘情況及參數(shù)
(2)根據(jù)置信度結(jié)果分析,招生生源的成績分段數(shù)據(jù)中的置信度平均值與設(shè)定的最低條件置信度差值絕對值為最小的,而生源畢業(yè)時的就業(yè)情況分段數(shù)據(jù)的平均置信度與設(shè)定的最低條件置信度差值絕對值是最大的,按照最低條件置信度與平均置信度的差值絕對值的大小影響因素原則來判斷,絕對值的偏差越小,影響越大[5],則也可得出結(jié)論:在影響職業(yè)院校招生的三個因素中,招生生源的成績數(shù)據(jù)對于職業(yè)院校的招生的影響〉需求專業(yè)的設(shè)置的影響〉生源畢業(yè)時的就業(yè)情況。
(3)總結(jié)置信度和支持度與各自設(shè)定的絕對值差值可知,影響職業(yè)院校招生的因素大小順序是招生生源的成績〉需求專業(yè)的設(shè)置〉生源畢業(yè)時的就業(yè)情況。
綜上所述,運(yùn)用SPSS modeler軟件對職業(yè)院校招生數(shù)據(jù)進(jìn)行深入挖掘分析,針對挖掘數(shù)據(jù)中的三項指標(biāo),數(shù)據(jù)的提升度、置信度和支持度值,來設(shè)定較為合理的條件值,再運(yùn)用SPSS modeler軟件對招生生源的成績、需求專業(yè)的設(shè)置以及生源畢業(yè)時的就業(yè)情況等數(shù)據(jù)進(jìn)行分析,最后得出結(jié)論。職業(yè)院校的招生工作,可以根據(jù)以上結(jié)論制定本校良性發(fā)展策略:短期來說,可根據(jù)生源的實(shí)際情況正確選擇考生的成績段以確保順利完成招生任務(wù);長遠(yuǎn)來看,要重視專業(yè)設(shè)置,要以服務(wù)地方特色經(jīng)濟(jì)和社會需求為設(shè)置方向。另外,還要充分考慮各專業(yè)畢業(yè)生的就業(yè)情況。
[1]王宏志.大數(shù)據(jù)算法[M].北京:機(jī)械工業(yè)出版社,2015.
[2]劉功申,邱衛(wèi)東,孟魁,李建華.基于真實(shí)數(shù)據(jù)挖掘的口令脆弱性評估及恢復(fù)[J].計算機(jī)學(xué)報,2016,39(03):454-467.
[3]張啟徽.關(guān)聯(lián)規(guī)則挖掘中查找頻繁項集的改進(jìn)算法[J].統(tǒng)計與決策,2015,(04):32-35.
[4]陳榮鑫.R軟件的數(shù)據(jù)挖掘應(yīng)用[J].重慶工商大學(xué)學(xué)報(自然科學(xué)版),2011,28(06):602-607.
[5]薛毅,陳立萍.統(tǒng)計建模與R軟件[M].北京:清華大學(xué)出版社,2007.