蔡傳軍,童緒軍
(安徽醫(yī)學高等??茖W校 公共基礎學院,安徽 合肥 230601)
頂崗實習是高等教育不可或缺的組成部分,為有效監(jiān)控學生的頂崗實習情況,大多數(shù)學校都開發(fā)了頂崗實習管理系統(tǒng),通過學生上傳的實習報告和實習評價結果記錄頂崗實習情況,確保校內指導教師了解學生的整體工作狀況[1-3]。但是,隨著校內頂崗實習管理系統(tǒng)使用年數(shù)的增加,系統(tǒng)內會積累大量數(shù)據(jù),會降低數(shù)據(jù)的利用效率[4]。現(xiàn)代數(shù)據(jù)挖掘技術的進步,使數(shù)據(jù)的查找和分析效率有了明顯提升。針對頂崗實習管理系統(tǒng),設計合理的數(shù)據(jù)挖掘方法成為當前的研究重點,但是現(xiàn)有的數(shù)據(jù)挖掘方法難以滿足院校的頂崗實習數(shù)據(jù)管理需求[5]。為解決這一問題,本研究提出了一種基于卷積神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘方法,可精準提取所需的頂崗實習數(shù)據(jù),為頂崗實習管理工作打下基礎。
頂崗實習管理系統(tǒng)內包含的數(shù)據(jù)多種多樣,需要建立面向主題的數(shù)據(jù)倉庫,作為后續(xù)數(shù)據(jù)挖掘的基礎。以數(shù)據(jù)主題作為宏觀分析條件[6],對實習管理系統(tǒng)內包含的數(shù)據(jù)進行聚類分析,形成多個數(shù)據(jù)單元,再通過數(shù)據(jù)加工和集成處理,以滿足數(shù)據(jù)倉庫集成特性的要求。因此,在數(shù)據(jù)倉庫的創(chuàng)建過程中,將數(shù)據(jù)加工和數(shù)據(jù)集成歸納為一個復雜的環(huán)節(jié),先提取原始數(shù)據(jù)的矛盾點,再以此為核心將應用數(shù)據(jù)結構轉換為面向主題的數(shù)據(jù)結構[7]。本研究提出的數(shù)據(jù)挖掘方法以數(shù)據(jù)倉庫為基礎組織結構,首先對頂崗實習管理系統(tǒng)中提取出的各類數(shù)據(jù)進行處理,形成基礎數(shù)據(jù)集,然后分析基礎數(shù)據(jù)所呈現(xiàn)出的時間變化趨勢,對基礎數(shù)據(jù)進行分類、歸納和加工,結合時間控制機制形成歷史數(shù)據(jù)集,再與基礎數(shù)據(jù)集相結合形成綜合數(shù)據(jù)。
由于學生頂崗實習工作所涉及的外部部門較多,即外部數(shù)據(jù)較多,所以在建立數(shù)據(jù)倉庫時,還需要將這些外部數(shù)據(jù)單獨劃分出來,與外部數(shù)據(jù)源進行對比驗證,確保外部數(shù)據(jù)的真實性[8]。同時,需要設計一個集成數(shù)據(jù)處理器,連接數(shù)據(jù)倉庫與外部數(shù)據(jù)源,后者所包含的數(shù)據(jù)發(fā)生改變后,可同步更新數(shù)據(jù)倉庫信息。本研究所構建的數(shù)據(jù)倉庫,采用如圖1所示的基本邏輯結構。
從圖1可以看出,一個數(shù)據(jù)倉庫的組成包括倉庫設計、數(shù)據(jù)獲取、數(shù)據(jù)管理和數(shù)據(jù)訪問4個環(huán)節(jié),分別負責定義倉庫環(huán)境、解析外部數(shù)據(jù)源、數(shù)據(jù)分布管理與更新維護,以及向管理人員提供數(shù)據(jù)報告。
針對建立的數(shù)據(jù)倉庫設計一種分布式數(shù)據(jù)結構,以實現(xiàn)目標數(shù)據(jù)的模糊分布式存儲。由于頂崗實習管理系統(tǒng)內包含的部分數(shù)據(jù)存在交互性[9],數(shù)據(jù)挖掘過程中又存在較多擾動影響因素,且這些影響因素具有時變性特點,因此本研究提出運用模糊聚類技術,融合不同特征維度的數(shù)據(jù),形成包含關聯(lián)規(guī)則項約束條件的數(shù)據(jù)信息流模型[10],具體表達式為
xn=x(t0+nΔt)=h(t0+nΔt)+θn,
(1)
式中:x表示頂崗實習管理系統(tǒng)數(shù)據(jù)信息流模型;n表示關聯(lián)規(guī)則項數(shù)量;t0表示初始時刻;Δt表示變化時刻;h(·)表示多維數(shù)據(jù)結構模型函數(shù);θ表示數(shù)據(jù)測量誤差。在此基礎上,采用分布式結構模型,將頂崗實習管理系統(tǒng)的數(shù)據(jù)表述為以下分布函數(shù):
(2)
式中:u表示目標數(shù)據(jù);z表示數(shù)據(jù)存儲結構的階數(shù);α表示數(shù)據(jù)采集時間窗口寬度。
按照頂崗實習管理系統(tǒng)數(shù)據(jù)采集時間,結合式(2)構建具有分布式特點的時態(tài)結構模型,將四元組條件下提取的關聯(lián)規(guī)則項特征轉換為五元組關聯(lián)規(guī)則項,得到數(shù)據(jù)挖掘所需要的關聯(lián)規(guī)則知識[11],并給出特征標志函數(shù)。引入統(tǒng)計回歸分析思想,針對頂崗實習管理系統(tǒng)數(shù)據(jù),形成非線性時間序列數(shù)據(jù)組合模型。
針對具有連續(xù)性特點的頂崗實習管理系統(tǒng)數(shù)據(jù),本研究應用連續(xù)模板匹配技術,深入分析分布式數(shù)據(jù)結構,對子結構數(shù)據(jù)進行融合處理。在實際操作過程中,需要針對非線性時間序列數(shù)據(jù)組合模型,提取其中包含的大數(shù)據(jù)節(jié)點,并針對每個節(jié)點提取閉頻繁項集特征。通過極限學習方法,對上述提取出的特征項進一步分析得到全局最優(yōu)解,結合待挖掘數(shù)據(jù)所屬鏈路的負載情況,獲取數(shù)據(jù)特征估計值。針對線性規(guī)劃模型所涉及的數(shù)據(jù)進行特征提取,經(jīng)過小波熵分解算法處理后,與數(shù)據(jù)特征估計值相結合,建立數(shù)據(jù)特征提取機制,得到數(shù)據(jù)關聯(lián)規(guī)則特征提取結果。
可以將數(shù)據(jù)挖掘當成一個簡單的分類問題,根據(jù)上述數(shù)據(jù)關聯(lián)規(guī)則特征提取結果,將給定的數(shù)據(jù)集劃分為多個子集,每個數(shù)據(jù)子集具有不同的主題和屬性。根據(jù)數(shù)據(jù)挖掘要求,將數(shù)據(jù)倉庫內的數(shù)據(jù)分為目標數(shù)據(jù)和非目標數(shù)據(jù),其中目標數(shù)據(jù)即數(shù)據(jù)挖掘結果。采用神經(jīng)網(wǎng)絡訓練的方式,描述數(shù)據(jù)屬性與數(shù)據(jù)分類結果之間的聯(lián)系,并構造一個分類決策樹。
依托關聯(lián)規(guī)則特征,提出一種以卷積神經(jīng)網(wǎng)絡為基礎的數(shù)據(jù)挖掘模型,將每個數(shù)據(jù)關聯(lián)規(guī)則特征看作模型輸入值,通過卷積層、池化層和全連接層進行傳遞[12],并通過神經(jīng)元運算輸出最終結果,具體模型如圖2所示。
圖2 卷積神經(jīng)網(wǎng)絡數(shù)據(jù)挖掘模型Fig.2 Convolutional neural network data mining model
在圖2所示的卷積神經(jīng)網(wǎng)絡數(shù)據(jù)挖掘模型計算過程中,輸入數(shù)據(jù)和輸出數(shù)據(jù)之間存在直接對應關系,但二者的實際關系是間接性的,造成這種現(xiàn)象的原因是輸出誤差。為提高卷積神經(jīng)網(wǎng)絡數(shù)據(jù)挖掘結果的準確性,并提高模型運算效率,以網(wǎng)絡訓練誤差最小化為目標,建立相應的關系強化約束條件。這部分強化約束條件的主要功能是提升網(wǎng)絡訓練模型的學習能力,可以將其描述為誘導型約束模式,采用以下的約束引入方式:
(3)
依托卷積神經(jīng)網(wǎng)絡構造的決策樹,設置約束條件,包括權值約束和導數(shù)關系約束。權值約束的計算需要從偏導數(shù)入手,對卷積神經(jīng)網(wǎng)絡中乘積項的權值進行限制,保持權值固定不變,以保證數(shù)據(jù)挖掘的準確性。權值約束所對應的模型為
(4)
式中:S表示權值約束誤差;D表示卷積神經(jīng)網(wǎng)絡內所有結構的連接權重。
導數(shù)關系約束的存在是為了降低各屬性導數(shù)值的變化頻率,最大限度降低數(shù)值變化對數(shù)據(jù)挖掘結果的影響,同時有利于每個有用屬性的導數(shù)值呈現(xiàn)出均勻單調變化特點,便于判斷數(shù)據(jù)分類結果的誤差。導數(shù)關系約束模型的建立,需要先求解偏導數(shù)與輸入數(shù)據(jù)所對應的線性回歸曲線,并對比回歸曲線上每個樣本點的預測值和偏導數(shù),得出約束誤差計算結果:
(5)
式中:c表示樣本點;φ表示輸入層內神經(jīng)元;F表示輸入值;K表示樣本點總數(shù)量;A、B表示偏導數(shù)與輸入值組成的線性回歸常數(shù)。將上述兩個約束條件融入卷積神經(jīng)網(wǎng)絡數(shù)據(jù)挖掘模型中,得到符合要求的數(shù)據(jù)挖掘結果。
在上述卷積神經(jīng)網(wǎng)絡模型的基礎上,融合模糊分類器,結合特征壓縮方法實現(xiàn)頂崗實習管理系統(tǒng)數(shù)據(jù)的降維處理,再融入模糊聚類方法,以低開銷為原則獲取數(shù)據(jù)挖掘聚類結果。
分類器融合方法中,單個分類器為第0層,多分類器融合為第1層分類器,第1層分類器是模糊系統(tǒng)μ1。假設得到符合要求的數(shù)據(jù)挖掘結果具有λ個模式類,λ={λ1,λ2,…,λn},在融合模糊分類器中,需要將第0層分類器的輸入樣本εi轉換為第1層分類器模糊系統(tǒng)μ1的輸入樣本,因此第0層的樣本和模式類λ各個分類器的輸出樣本可表示為
(6)
(7)
獲取訓練集后,采用冗余數(shù)據(jù)的高階累積量特征壓縮處理方法對數(shù)據(jù)聚類中心進行計算:
V={vij|i=1,2,…,I,j=1,2,…,J|},
(8)
式中:vij為冗余數(shù)據(jù)中第i個干擾向量;j為加權權重,可定義冗余數(shù)據(jù)的降維目標函數(shù)ρ。
設ri為第i類冗余信息特征狀態(tài),那么數(shù)據(jù)挖掘聚類結果
(9)
從頂崗實習管理系統(tǒng)中提取部分數(shù)據(jù),分別構建測試樣本集和訓練樣本集,并提取數(shù)據(jù)特征分布集和數(shù)據(jù)關聯(lián)規(guī)則特征數(shù)量作為數(shù)據(jù)挖掘模型的輸入數(shù)據(jù)。經(jīng)過卷積神經(jīng)網(wǎng)絡的運算,可得出數(shù)據(jù)分類挖掘結果,步驟如下:①針對待識別的頂崗實習管理系統(tǒng)數(shù)據(jù)進行分析,獲取規(guī)則項特征點;②針對卷積神經(jīng)網(wǎng)絡分類構造樹,設置合理的加權值;③運用特征壓縮方法進行降維處理,實現(xiàn)特征的分離、壓縮處理;④設置合理的收斂條件,當數(shù)據(jù)分類挖掘結果滿足條件時停止網(wǎng)絡模型迭代計算,輸出當前挖掘數(shù)據(jù),若不滿足收斂條件,則需要重復迭代計算步驟,直到滿足收斂要求。
為驗證本研究提出的基于卷積神經(jīng)網(wǎng)絡的頂崗實習管理系統(tǒng)數(shù)據(jù)挖掘方法的有效性,以某學院內的頂崗實習管理系統(tǒng)為研究對象,對系統(tǒng)內的數(shù)據(jù)進行挖掘。本實驗所采用的頂崗實習管理系統(tǒng)內包含多種數(shù)據(jù),具體功能結構如圖3所示。
圖3 頂崗實習管理系統(tǒng)功能結構Fig.3 Functional structure of post practice management system
為保證數(shù)據(jù)挖掘實驗順利進行,采用網(wǎng)絡爬蟲對頂崗實習管理系統(tǒng)內業(yè)務子系統(tǒng)和統(tǒng)計子系統(tǒng)的數(shù)據(jù)進行采集,獲取實驗數(shù)據(jù)集。采集數(shù)據(jù)是從該管理系統(tǒng)內直接導出的,保存為csv格式。
考慮到對原始導出數(shù)據(jù)直接進行實驗分析會出現(xiàn)個人隱私泄露和數(shù)據(jù)不完整的問題,因此在實驗準備階段,需要對這些數(shù)據(jù)進行脫敏處理。將頂崗實習管理系統(tǒng)導出數(shù)據(jù)中的身份證號、通信地址等信息標注為隱私數(shù)據(jù),從實驗數(shù)據(jù)集內剔除,最終得到有效實驗數(shù)據(jù)2 745條,從中隨機選擇1 000條數(shù)據(jù)作為測試數(shù)據(jù)集,再選擇1 000條數(shù)據(jù)作為驗證數(shù)據(jù)集,整理剩余數(shù)據(jù)形成訓練數(shù)據(jù)集,作為后續(xù)實驗的基礎。
本實驗環(huán)境設置為Linux Ubuntu 18.04,依托TensorFlow框架,建立以卷積神經(jīng)網(wǎng)絡為基礎的數(shù)據(jù)挖掘模型,模型相關參數(shù)如表1所示。
表1 模型參數(shù)Tab.1 Model parameters
運用卷積神經(jīng)網(wǎng)絡進行數(shù)據(jù)挖掘時,實驗數(shù)據(jù)會劃分為多個批次,按照批次來更新模型參數(shù)。批大小會對數(shù)據(jù)挖掘結果產(chǎn)生直接影響,批設置得過大會造成運行時內存不足,太小又會導致模型收斂性較差。因此,除了表1設置的模型參數(shù),還需要在固定參數(shù)條件下,分析不同批大小對模型損失的影響,確定最合理的批大小。分別設置批大小為8、16、32、64、129、256,不同條件下模型損失影響情況如表2所示。
表2 批大小對模型損失的影響Tab.2 Impact of batch size on model loss
從表2可以看出,同樣的批大小下,驗證損失和測試損失極為相似,但是訓練損失最初極小,隨著批大小的增大而不斷提升。這是因為模型在訓練的過程中,會主動擬合訓練數(shù)據(jù)集。本實驗定義批大小時,著重觀察驗證損失和測試損失變化情況,可以看出當批大小為64時,二者達到最小值,分別為0.36和0.35,故設置批大小為64。
模型參數(shù)設置完成后,運用卷積神經(jīng)網(wǎng)絡模型展開數(shù)據(jù)挖掘測試。在2 000條測試數(shù)據(jù)中,對頂崗實習管理系統(tǒng)中學生綜合能力評價數(shù)據(jù)進行挖掘,同時采用基于決策樹和基于一維卷積網(wǎng)絡的方法進行數(shù)據(jù)挖掘。在相同的實驗環(huán)境下,獲取3種方法的數(shù)據(jù)挖掘結果(表3)。
表3 數(shù)據(jù)挖掘結果對比Tab.3 Comparison of data mining results
以表3數(shù)據(jù)為基礎,將數(shù)據(jù)挖掘的泛化誤差作為衡量數(shù)據(jù)挖掘方法性能的指標,具體計算公式如下:
(10)
以不同方法得到的數(shù)據(jù)挖掘結果為基礎,采用公式(6)進行計算,得到如圖4所示的泛化誤差對比結果。
圖4 不同數(shù)據(jù)挖掘方法的泛化誤差對比Fig.4 Comparison of generalization errors of different data mining methods
根據(jù)圖4可知,基于卷積神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘方法在實際應用過程中泛化誤差控制在[-0.05,0.05],基于決策樹方法的數(shù)據(jù)挖掘結果泛化誤差為[-0.14,0.13],基于一維卷積網(wǎng)絡方法的數(shù)據(jù)挖掘結果泛化誤差為[-0.27,0.25]。本研究所提方法與其他兩種方法相比泛化誤差較小,能夠保持在[-0.05,0.05],這說明以卷積神經(jīng)網(wǎng)絡為核心的數(shù)據(jù)挖掘方法挖掘精度較高,可以獲取更加準確的數(shù)據(jù)挖掘結果。
為從頂崗實習管理系統(tǒng)中準確提取所需要的數(shù)據(jù),設計了一種以卷積神經(jīng)網(wǎng)絡為核心的數(shù)據(jù)挖掘模型。經(jīng)實驗驗證,采用所提方法的泛化誤差比傳統(tǒng)方法有了大幅度降低,達到了預期目標。