鄭陽平
(承德石油高等??茖W(xué)校 計算機與信息工程系,河北 承德 067000)
隨著時代的發(fā)展和移動終端的普及,隨時隨地在線自主學(xué)習(xí)成為知識獲取的重要渠道,推進移動化泛在學(xué)習(xí)已經(jīng)成為時代發(fā)展的需要。在線開放課程、精品資源共享課、云課堂、MOOC(慕課)等形式的在線學(xué)習(xí)已經(jīng)成為現(xiàn)代學(xué)習(xí)者的主要學(xué)習(xí)方式和知識獲取途徑。煤礦安全教育云平臺建設(shè)也在逐步興起,面對煤礦從業(yè)工種較多,資源種類和類型繁多,如何針對某一從業(yè)工種,快速將適合的煤礦安全生產(chǎn)教育資源實體推送給一線礦工。因為一線礦工文化程度不高,學(xué)習(xí)積極性不高。通過一線礦工注冊的信息,獲取其從業(yè)的工種和工作崗位,記錄學(xué)習(xí)行為,運用大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù),智能智慧推薦相關(guān)學(xué)習(xí)資源,保證一線礦工必須技術(shù)知識的學(xué)習(xí)?;趶臉I(yè)工種的煤礦安全生產(chǎn)教育推薦服務(wù)應(yīng)從以下四要素著手建設(shè):
1)煤礦安全生產(chǎn)教育資源建設(shè)。煤礦安全生產(chǎn)教育資源以形象、生動、樂學(xué)、易學(xué)為原則進行設(shè)計開發(fā)。根據(jù)煤礦一般從業(yè)人員、班組長、安全管理人員分類,大致可以分為,十大特殊工種(如井下爆破,瓦斯抽采,掘進機等)和21個一般從業(yè)工種(采煤工、防塵工、掘進工、軌道工等)。對每一從業(yè)工種,按照技術(shù)增長路線進行資源建設(shè),并且為每個資源打上特征標(biāo)簽,如工種、工作崗位,能力、技能點等,以短視頻、圖片、漫畫、3D動漫、VR仿真警示教育體驗等信息化形式展示給一線礦工,使煤礦安全生產(chǎn)教育資源具有感染力和吸引力,促使一線礦工興趣娛樂學(xué)習(xí)。短視頻主要演示操作規(guī)范和技術(shù)要點;3D動漫形象直觀、生動地將煤礦中的人、機、環(huán)、管危險源的過程再現(xiàn),將枯燥的安全知識點通俗生動的表現(xiàn)出來,讓一線礦工在輕松的氛圍中熟識各類危險源,掌握排除危險的方法;VR仿真警示教育體驗是在建立的煤礦生產(chǎn)操作虛擬環(huán)境,將不可見的地下的一些不安全行為操作形象、直觀的表現(xiàn)出來,提高井下工人的安全意識,克服不良習(xí)慣,促進安全生產(chǎn)。
2)煤礦安全生產(chǎn)教育云平臺建設(shè)。煤礦安全生產(chǎn)教育云平臺以簡單、易學(xué)、開放、實用為原則進行開發(fā)和設(shè)計。智慧云平臺通過對一線礦工用戶工種、工作崗位、學(xué)習(xí)行為和個性特征的采集與分析,應(yīng)用智慧推薦策略,推送相對應(yīng)的學(xué)習(xí)資源,從而實現(xiàn)基于工種的技術(shù)知識學(xué)習(xí)。本平臺采用HDFS和關(guān)系型數(shù)據(jù)庫相結(jié)合的存儲結(jié)構(gòu),通過數(shù)據(jù)庫的檢索查詢,獲取資源實體在HDFS中的存儲位置,實現(xiàn)對煤礦安全生產(chǎn)教育資源的訪問。
3)煤礦安全生產(chǎn)教育資源智能化搜索建設(shè)。隨著信息爆炸式增長,煤礦安全生產(chǎn)教育教學(xué)資源儲備呈現(xiàn)海量化特征,根據(jù)一線礦工用戶搜索的關(guān)鍵字,結(jié)合工作和工作崗位,在海量化的教育教學(xué)資源中,利用知識圖譜和用戶行為數(shù)據(jù)快速的縮小搜索范圍,將精確的煤礦安全生產(chǎn)教育資源快速的推送一線礦工學(xué)習(xí)。
4)煤礦安全生產(chǎn)教育資源推薦服務(wù)建設(shè)。面對安全生產(chǎn)教育資源信息過載引起的問題,如何改變學(xué)習(xí)者(一線礦工和安全管理人員)的學(xué)習(xí)行為,由主動的利用搜索引擎尋找學(xué)習(xí)資源轉(zhuǎn)變?yōu)楸粍拥慕邮栈谔囟üしN的煤礦安全生產(chǎn)資源的推送,是智慧推薦服務(wù)建設(shè)的目的。通過收集較為完整的學(xué)習(xí)者的學(xué)習(xí)行為、基本檔案信息、興趣愛好等特征向量構(gòu)建學(xué)習(xí)者模型,在學(xué)習(xí)者和煤礦安全生產(chǎn)教育資源、學(xué)習(xí)者和學(xué)習(xí)策略之間建立連接。借助于學(xué)習(xí)者特征向量、學(xué)習(xí)煤礦安全生產(chǎn)教育資源特征向量和學(xué)習(xí)策略特征向量之間的關(guān)系紐帶進行科學(xué)的計算,生成學(xué)習(xí)診斷或建議,智慧推薦基于從業(yè)工種的學(xué)習(xí)內(nèi)容或?qū)W習(xí)路線。
煤礦安全生產(chǎn)教育資源推薦服務(wù)主要涉及學(xué)習(xí)者(一線礦工和安全管理人員)、煤礦安全生產(chǎn)教育資源和云平臺三個實體,云平臺是教育資源載體,同時收集學(xué)習(xí)者的一些屬性和學(xué)習(xí)行為,煤礦安全生產(chǎn)教育教學(xué)資源是云平臺與用戶銜接橋梁。推薦服務(wù)通過洞悉學(xué)習(xí)者的需求,提供針對某一工種的煤礦安全生產(chǎn)教育資源,確保其從事安全生產(chǎn),避免無知型違章。借助學(xué)習(xí)者特征向量、煤礦安全生產(chǎn)教育資源特征向量和學(xué)習(xí)策略特征向量的關(guān)系紐帶,將學(xué)習(xí)者與學(xué)習(xí)資源或?qū)W習(xí)策略連接起來。學(xué)習(xí)者特征向量包括學(xué)習(xí)者基本信息(編號、性別、工種、工作崗位、關(guān)注對象等),學(xué)習(xí)風(fēng)格(認(rèn)知風(fēng)格、媒體偏好、學(xué)習(xí)傾向、興趣愛好等),學(xué)習(xí)行為(學(xué)習(xí)內(nèi)容、學(xué)習(xí)時間、學(xué)習(xí)資源類型、學(xué)習(xí)過程、測試評價等)。引入學(xué)習(xí)資源特征描述的目的是通過其特征描述、評論信息和屬性標(biāo)記等方式,使得學(xué)習(xí)資源的管理和檢索更加便捷。煤礦安全生產(chǎn)教育資源特征向量包括資源描述、工種類型、工作崗位、知識點、技能點、能力、媒體類型、難易程度和資源評論等。學(xué)習(xí)策略特征向量包括認(rèn)知策略(記憶、理解等)、元認(rèn)知策略(學(xué)習(xí)計劃、學(xué)習(xí)過程記錄等)和資源管理策略(學(xué)習(xí)時間、評價等),各個策略都有自己對應(yīng)的子策略(見圖1)。
隨著互聯(lián)網(wǎng)+和電子商務(wù)的快速發(fā)展,推薦服務(wù)系統(tǒng)越來越被人們重視?;诿旱V從業(yè)工種的安全生產(chǎn)教育資源推薦服務(wù)系統(tǒng)整體框架,如圖2所示,其中,推薦算法和數(shù)據(jù)挖掘技術(shù)是推薦服務(wù)系統(tǒng)的重要組成部分。
協(xié)同過濾推薦技術(shù)分為基于User協(xié)同過濾推薦(User CF)和基于Item協(xié)同過濾推薦(Item CF)?;赨ser協(xié)同過濾推薦算法,通過一線礦工用戶對煤礦安全生產(chǎn)教育資源評價來評測學(xué)習(xí)者之間的相似性,推薦那些有共同工種和興趣愛好的用戶所感興趣的資源,優(yōu)點是適合性較強,適用于用戶個性化興趣不太明顯的場景,缺點是存在冷啟動問題和稀疏問題;基于Item的協(xié)同過濾推薦算法是給學(xué)習(xí)者推薦哪些資源相似的煤礦安全生產(chǎn)教育資源,優(yōu)點是可以有效進行長尾挖掘,能夠發(fā)現(xiàn)學(xué)習(xí)者潛在的興趣愛好,缺點是過于依賴用戶行為,存在冷啟動問題,多樣性較差?;旌贤扑]技術(shù)集兩者優(yōu)勢,在不同的階段使用不同的推薦技術(shù),以達到最佳的推薦效果。
關(guān)于煤礦安全生產(chǎn)教育資源相似度計算的方法有很多,如毆氏距離、曼哈頓距離、余弦相似度、杰卡德相似系數(shù)和皮爾遜相關(guān)系數(shù)等。學(xué)習(xí)者與煤礦安全生產(chǎn)教育資源相似度描述了不同學(xué)習(xí)者的興趣與關(guān)注資源的相似程度,將學(xué)習(xí)者對某一煤礦安全生產(chǎn)資源的喜好或者評價作為一個特征向量,該向量值越高,則說明學(xué)習(xí)者對煤礦安全生產(chǎn)教育資源類別中的相關(guān)資源的興趣度越高。因此,建立一個從煤礦安全生產(chǎn)教育資源1到m的矩陣Am×n來表示學(xué)習(xí)者對各個類別煤礦安全教育資源的喜好程度。其中,m表示煤礦安全教育資源數(shù),n為學(xué)習(xí)學(xué)習(xí)者總數(shù),元素xij表示第i個學(xué)習(xí)者給第j個煤礦安全教育資源感興趣程度。
由于學(xué)習(xí)者對煤礦安全生產(chǎn)教育資源選擇及感興趣程度不同,這里采用杰卡德相似系數(shù)進行計算,自定義其函數(shù)為def Jaccard(a, b),其公式如下:
式中,Sim1,m表示煤礦安全教育資源1與煤礦安全教育資源m的相似度,A1∪Am表示對煤礦安全教育資源1與煤礦安全教育資源m感興趣的學(xué)習(xí)者總數(shù),A1∩Am表示同時對煤礦安全教育資源1和煤礦安全教育資源m感興趣的學(xué)習(xí)者總數(shù)。通過計算,完成各個煤礦安全教育資源之間的相似度計算,即可構(gòu)成一個煤礦安全教育資源相似度矩陣,如表1所示,根據(jù)所建立的相似度矩陣,推薦算法會向?qū)W習(xí)者推薦與相應(yīng)煤礦安全教育資源最相似的K個煤礦安全教育資源,同時根據(jù)對推薦的內(nèi)容進行排序,將已經(jīng)學(xué)習(xí)過的煤礦安全教育資源給予剔除。通過計算相似度矩陣的函數(shù)def similarity(self, x, distance)進行實現(xiàn)。
表1 煤礦安全教育資源相似度矩陣示例
在面向一線礦工的煤礦安全生產(chǎn)教育資源云平臺中,提供了與學(xué)習(xí)者交互的頁面,學(xué)習(xí)者在云平臺中的絕大多數(shù)學(xué)習(xí)行為,都會被記錄在用戶日志和后臺數(shù)據(jù)庫中。學(xué)習(xí)者行為數(shù)據(jù)主要存儲三個字段:用戶ID,煤礦安全教育資源ID,資源標(biāo)簽和喜好反饋值,如表2所示,學(xué)習(xí)者的學(xué)習(xí)行為可以歸結(jié)為二元特性,即感興趣或不感興趣,學(xué)習(xí)或者不學(xué)習(xí)。學(xué)習(xí)者對煤礦安全教育資源發(fā)生的行為可以認(rèn)為是對此資源所帶標(biāo)簽的行為。煤礦安全教育資源推薦系統(tǒng)通過分析學(xué)習(xí)者的行為數(shù)據(jù),進行數(shù)據(jù)挖掘和計算,并將結(jié)果存儲在后臺數(shù)據(jù)庫中。
表2 一線礦工或管理人員學(xué)習(xí)行為分值表
與基于從業(yè)工種的煤礦安全生產(chǎn)教育資源之間的相似度計算相似,同理,從學(xué)習(xí)者的學(xué)習(xí)行為數(shù)據(jù)庫中,提取偏好矩陣Rm×n來計算學(xué)習(xí)者的興趣矩陣Pm×n,計算公式為:
Pm×n=Simm×n×Rm×n
這樣就度量了推薦算法中學(xué)習(xí)者對煤礦安全教育資源的感興趣程度。
事實上,Item CF推薦算法已經(jīng)可以實現(xiàn)結(jié)果的推薦,但是它的推薦結(jié)果是相似度較高的煤礦安全教育資源,如某個知識點或技能點的視頻、文檔、習(xí)題等,基本屬于同一級別的知識點,對知識增長和學(xué)習(xí)路線的推薦結(jié)果可能不夠理想。所以,構(gòu)建以某一工種技術(shù)知識增長路線推薦就顯得非常重要。以某一工種技術(shù)知識點為中心,建立該技術(shù)知識的前導(dǎo)必須知識點或技能點以及后續(xù)緊鄰知識或技能點。如圖3所示井下采煤工技術(shù)知識增長路線關(guān)系模型,當(dāng)學(xué)習(xí)者在學(xué)習(xí)或者搜索“采掘工作面安全”這一技術(shù)知識時,與它相似度較高的教學(xué)資源較多,就需要對這些相似度較高的知識點和技能點,進行關(guān)系因子修正,然后將后續(xù)緊鄰的技術(shù)知識點(如礦井災(zāi)害防治)推薦在前幾位,使其朝著知識增長路線推薦。關(guān)系修正因子δ取值范圍為[0,1],當(dāng)δ接近1時則表示系統(tǒng)更加趨于知識增長路線推薦。對于同級別教學(xué)資源其修正因子為δ=0.96,前導(dǎo)必需知識相關(guān)的教學(xué)資源(如TCP協(xié)議格式)關(guān)系修正因子δ驟然遞減,如0.90,0.70,0.40,0.00;后續(xù)緊鄰知識點關(guān)系修正因子為δ=1.00,再后續(xù)知識修正因子δ驟然遞減,這樣就可以使學(xué)習(xí)者按照知識增長路線進行系統(tǒng)學(xué)習(xí)。需要說明的是,通過構(gòu)建基于從業(yè)工種的技術(shù)知識增長路線關(guān)系庫,根據(jù)大量數(shù)據(jù)進行模型訓(xùn)練和深度學(xué)習(xí)得出關(guān)系修正因子,實現(xiàn)修正推薦結(jié)果更加精確。通過技術(shù)知識增長路線關(guān)系庫的構(gòu)建,一是可以避免Item CF推薦算法存在的冷啟動問題,二是能夠改進推薦結(jié)果,使推薦結(jié)果朝著知識增長和認(rèn)知規(guī)律方向發(fā)展,滿足學(xué)習(xí)者循序漸進的知識或技能求知欲。最終,計算公式為:
T=δ×Pm×n
通過應(yīng)用函數(shù)def recommend(self, a)得出最終煤礦安全生產(chǎn)資源推薦列表。
為了對比改進的Item CF個性化推薦算法優(yōu)劣性,評測過程中引入非個性化算法:Random算法和Popular算法。其中,Random算法每次都向?qū)W習(xí)者隨機推薦沒有產(chǎn)生過學(xué)習(xí)行為的煤礦安全生產(chǎn)教育資源;Popular算法是按照煤礦安全生產(chǎn)教育資源的熱度或流行度,向?qū)W習(xí)者推薦沒有產(chǎn)生過學(xué)習(xí)行為的煤礦安全生產(chǎn)教育資源中最熱的資源。采用交叉驗證的方法,對上述三種算法分別進行數(shù)據(jù)建模分析,獲取三種算法的推薦效果評價。為了更加直觀的獲得評測推薦結(jié)果,在煤礦安全生產(chǎn)教育資源學(xué)習(xí)過程中,認(rèn)為只有感興趣與不感興趣兩種選擇。針對這種數(shù)據(jù)類型的預(yù)測,引入準(zhǔn)確率和召回率分類準(zhǔn)確度指標(biāo),其中,準(zhǔn)確率表示學(xué)習(xí)者對被推薦煤礦安全生產(chǎn)教育資源的感興趣程度;召回率=正樣本預(yù)測結(jié)果數(shù)/正樣本實際數(shù),表示一個學(xué)習(xí)者喜歡的煤礦安全生產(chǎn)教育資源被推薦的概率。通過對比三種推薦算法,在采取不同的推薦K值(分別取值為3、5、10、15、20)的情況下得出的準(zhǔn)確率與召回率的評價指標(biāo),如圖4所示。從圖中可以看出,Random算法的推薦結(jié)果最不理想,幾乎為0;Popular算法隨著推薦數(shù)K的增加,其召回率在增長,準(zhǔn)確率將降低,推薦效果較差;基于改進的Item CF推薦算法,隨著K值得增加,召回率也在同時增長,準(zhǔn)確率也在上升,當(dāng)?shù)竭_某一臨界點時,其準(zhǔn)確率隨著K值得增加而趨于平穩(wěn)。
實驗中還發(fā)現(xiàn),針對數(shù)據(jù)類別的多樣性和復(fù)雜性,可以采用基于煤礦安全生產(chǎn)教育資源的相似矩陣最大值進行歸一化,這樣不但可以提高推薦的準(zhǔn)確率,還可以提高推薦覆蓋率和多樣性。
個性化推薦服務(wù)系統(tǒng)在電子商務(wù)、社交網(wǎng)站等眾多領(lǐng)域有著廣泛的應(yīng)用,并逐漸扮演更重要的角色。在互聯(lián)網(wǎng)+飛速發(fā)展的今天,通過對一線礦工用戶行為數(shù)據(jù)的分析,結(jié)合用戶工種和工作崗位,采用基于Item CF推薦算法,通過構(gòu)建的基于從業(yè)工種的煤礦安全生產(chǎn)教育資源關(guān)系庫,向一線礦工用戶和安全管理人員推薦從業(yè)工種所必須的煤礦安全生產(chǎn)教育資源,通過在線學(xué)習(xí),使其達到從業(yè)資格,勝任工作崗位?;诿旱V從業(yè)工種的安全生產(chǎn)教育資源推薦服務(wù)符合新時代發(fā)展的需要,可以解決煤礦安全生產(chǎn)教育培訓(xùn)的一些問題,變傳統(tǒng)培訓(xùn)學(xué)習(xí)為休閑娛樂學(xué)習(xí),是一線礦工和安全管理人員隨時隨地學(xué)習(xí)的小助手。面向一線礦工的煤礦安全生產(chǎn)教育資源推薦服務(wù)研究的推廣和應(yīng)用,將使煤礦一線職工受益,很有可能培養(yǎng)一批批能工巧匠。