王 密
河南牧業(yè)經(jīng)濟(jì)學(xué)院,河南 鄭州 450046
在大數(shù)據(jù)這一時(shí)代背景下,社會中任意事物均可以被數(shù)據(jù)化,而數(shù)據(jù)化事物可以被進(jìn)一步研究、預(yù)測、應(yīng)用,為精準(zhǔn)個性化服務(wù)實(shí)現(xiàn)提供支持。這種情況下,在大數(shù)據(jù)背景下,如何恰當(dāng)利用大數(shù)據(jù)技術(shù),為大學(xué)生提供更加精準(zhǔn)、個性化的就業(yè)指導(dǎo),降低大學(xué)生在人才市場中碰壁風(fēng)險(xiǎn),幫助大學(xué)畢業(yè)季擺脫最難就業(yè)季厄運(yùn),就成為大學(xué)院校面臨的重要任務(wù)。
大數(shù)據(jù)采集、大數(shù)據(jù)計(jì)算是大數(shù)據(jù)背景下大學(xué)生個性化就業(yè)指導(dǎo)主要用技術(shù)。
一方面,大數(shù)據(jù)采集具有采集渠道廣泛、數(shù)據(jù)資源收集便捷、數(shù)據(jù)庫容量大、數(shù)據(jù)庫保存時(shí)間長等優(yōu)良特點(diǎn)。通過從多個渠道收集信息,可以保證創(chuàng)業(yè)指導(dǎo)方向、就業(yè)指導(dǎo)方向客觀、全面性,為教師授課、學(xué)生學(xué)習(xí)提供實(shí)際價(jià)值較高的預(yù)測方案[1]。
另一方面,大數(shù)據(jù)計(jì)算具有容錯能力強(qiáng)、計(jì)算速度快、誤差分析處理效率高等優(yōu)良特點(diǎn)。通過大數(shù)據(jù)分析計(jì)算,可以搭建較為恰當(dāng)、科學(xué)的數(shù)學(xué)模型,還原真實(shí)就業(yè)情況,保證大學(xué)生就業(yè)指導(dǎo)數(shù)字預(yù)測、評估的準(zhǔn)確性[2]。
大數(shù)據(jù)背景下的大學(xué)生個性化就業(yè)指導(dǎo)平臺本質(zhì)上為一個基于Hadoop平臺的大學(xué)生個性化就業(yè)指導(dǎo)系統(tǒng)。其可以將第三方就業(yè)信息服務(wù)網(wǎng)絡(luò)搜集整理,結(jié)合大學(xué)生求職簡歷,為其分析個人偏好、專業(yè)水平,隨后為其推薦恰當(dāng)?shù)恼衅感畔ⅰ?/p>
基于大數(shù)據(jù)背景下的大學(xué)生個性化就業(yè)指導(dǎo)平臺主要包括基礎(chǔ)數(shù)據(jù)層、個性化指導(dǎo)層、系統(tǒng)展現(xiàn)層三個部分。其中基礎(chǔ)數(shù)據(jù)層主要是利用分布式數(shù)據(jù)庫HBASE,實(shí)現(xiàn)數(shù)據(jù)存儲。其可以存放全部從互聯(lián)網(wǎng)爬取的就業(yè)信息、指導(dǎo)結(jié)果、學(xué)生信息、學(xué)生反饋信息等,上述信息均是由分布式爬蟲Nutch,爬取第三方就業(yè)服務(wù)網(wǎng)站就業(yè)信息并進(jìn)行網(wǎng)頁解析,最終儲存在分布式數(shù)據(jù)庫內(nèi);個性化指導(dǎo)層(邏輯層)主要是依托個性化指導(dǎo)引擎及Mahout、MapReduce,對數(shù)據(jù)層大量數(shù)據(jù)進(jìn)行分析、計(jì)算、推理,針對每一位大學(xué)生特點(diǎn),為其推薦個性化信息;系統(tǒng)展現(xiàn)層(表示層)主要包括大學(xué)生注冊、登錄、信息反饋列表等幾個部分,學(xué)生可以根據(jù)個性化指導(dǎo)信息,結(jié)合自身興趣度評分結(jié)果,選擇恰當(dāng)方案,并反饋結(jié)果,為個性化就業(yè)指導(dǎo)平臺改進(jìn)提供依據(jù)。
個性化指導(dǎo)引擎及策略是大數(shù)據(jù)背景下大學(xué)生個性化就業(yè)指導(dǎo)核心,因此,為了從根本上克服個性化指導(dǎo)系統(tǒng)在實(shí)際運(yùn)行中遇到的問題,可以將整個個性化指導(dǎo)策略劃分為離線指導(dǎo)部分、在線指導(dǎo)部分兩個部分。依據(jù)離線指導(dǎo)為主,在線指導(dǎo)為輔的原則,相輔相成,對基于內(nèi)容的指導(dǎo)方案進(jìn)行改革優(yōu)化,保證離在線并行式混合指導(dǎo)工作順利開展[3]。
第一,在僅考慮就業(yè)信息內(nèi)容本身的情況下,可以摒棄歷史評分?jǐn)?shù)據(jù),制定基于內(nèi)容的分布式指導(dǎo)策略。即針對就業(yè)信息庫內(nèi)以文本形式存儲的信息,利用TF-IDF方法,剔除高頻詞匯后,將其轉(zhuǎn)化為向量空間模型。隨后作為LDA(線性判別分析)輸入數(shù)據(jù)輸出主題集合,分別將每一條就業(yè)信息、求職信息映射到一個主題向量上。最終得到的主題向量就是大學(xué)生偏好向量,在大學(xué)生偏好向量明確之后,可以利用余弦相似性計(jì)算方法,分別對就業(yè)信息主題向量、學(xué)生求職信息主題向量進(jìn)行分析。
確定大學(xué)生、就業(yè)信息相似度,根據(jù)相似度大小次序,將就業(yè)信息添加到指導(dǎo)方案中。
第二,除基于就業(yè)內(nèi)容的指導(dǎo)方案外,也可以選擇基于物品的協(xié)同過濾指導(dǎo)方法。即提取大學(xué)生對已指導(dǎo)信息表達(dá)興趣度評分,以URL(統(tǒng)一資源定位系統(tǒng))的形式,將數(shù)據(jù)庫中數(shù)據(jù)形成一條記錄。隨后構(gòu)建物品的共現(xiàn)矩陣(部分評分列表中每一物品共同出現(xiàn)的次數(shù)矩陣)。綜合考慮對某一就業(yè)信息進(jìn)行過評分的學(xué)生數(shù)量共現(xiàn)次數(shù)、對某一就業(yè)信息進(jìn)行過評分的學(xué)生數(shù)量共現(xiàn)次數(shù)等因素,將上述因素與學(xué)生偏好向量相乘,獲得指導(dǎo)方案。
第三,在指導(dǎo)策略確定后,結(jié)合大數(shù)據(jù)背景下學(xué)生個性化就業(yè)指導(dǎo)需求,可以在NoSQL數(shù)據(jù)庫框架確定的基礎(chǔ)上,僅設(shè)計(jì)RowKey(行鍵)一個索引。依據(jù)字典順序,進(jìn)行儲存,提高索引速度。同時(shí)將索引字段放在列族中,允許適當(dāng)數(shù)據(jù)冗余。
個性化就業(yè)指導(dǎo)平臺實(shí)現(xiàn)主要是通過路由器,將各個節(jié)點(diǎn)連接。隨后依托Web服務(wù)器,在學(xué)生端、教師端搭建信息交互橋梁。這種情況下,學(xué)生可以通過訪問Web服務(wù)器,將個人情況、反饋信息提交至Hadoop集群中。系統(tǒng)計(jì)算指導(dǎo)方案可以通過Web服務(wù)器傳遞給教師,為教師離線或在線指導(dǎo)提供幫助。同時(shí)基于Nutch的分布式爬蟲、離線指導(dǎo),可以每間隔一定時(shí)期在Hadoop集群中運(yùn)行爬取最新信息,更新每一位學(xué)生指導(dǎo)方案。
個性化指導(dǎo)平臺主要應(yīng)用于往屆大學(xué)生就業(yè)情況分析、現(xiàn)階段就業(yè)市場情況分析、大學(xué)生就業(yè)情況分析幾個方面。
第一,往屆大學(xué)畢業(yè)生就業(yè)情況分析,明確往屆大學(xué)畢業(yè)生就業(yè)指導(dǎo)信息,可以為本屆大學(xué)生個性化就業(yè)指導(dǎo)方案優(yōu)化提供依據(jù)。因此,院校應(yīng)注意依托大數(shù)據(jù)平臺,對每一條往屆大學(xué)生興趣度評分、指導(dǎo)方案評價(jià)信息進(jìn)行匯總,并將其儲存在專門的數(shù)據(jù)庫中。
第二,現(xiàn)階段就業(yè)市場情況分析,為了解現(xiàn)階段就業(yè)市場實(shí)際情況,學(xué)校應(yīng)依托大數(shù)據(jù)技術(shù),摒棄抽樣調(diào)查的方法,依托廣泛數(shù)據(jù)樣本,掌握現(xiàn)階段就業(yè)市場發(fā)展動態(tài)。并對當(dāng)年學(xué)院各專業(yè)對口用人企業(yè)招聘人才傾向進(jìn)行分析,結(jié)合本屆用人企業(yè)要求,為畢業(yè)生提供個性化就業(yè)指導(dǎo)。
第三,大學(xué)生專業(yè)及自身能力分析,學(xué)生專業(yè)及自身能力分析是大數(shù)據(jù)背景下大學(xué)生個性化就業(yè)指導(dǎo)工作開展的前提。因此,在基于大數(shù)據(jù)的大學(xué)生個性化就業(yè)指導(dǎo)方案應(yīng)用的基礎(chǔ)上,院校應(yīng)從大學(xué)生專業(yè)、個人介紹、求職意向、實(shí)踐經(jīng)歷、實(shí)習(xí)經(jīng)歷、求職信息等方面。結(jié)合系統(tǒng)計(jì)算的大學(xué)生特征向量信息,制定個性化就業(yè)指導(dǎo)策略方案。
大數(shù)據(jù)背景下大學(xué)生個性化就業(yè)指導(dǎo)應(yīng)注意避免大數(shù)據(jù)與大學(xué)生個體脫鉤、大數(shù)據(jù)與社會實(shí)際脫鉤、大數(shù)據(jù)與真實(shí)性脫鉤等問題出現(xiàn)[4]。
第一,為保證大數(shù)據(jù)與大學(xué)生個體相符性,應(yīng)明晰大數(shù)據(jù)背后隱藏的大學(xué)生真實(shí)行為習(xí)慣、思維方式,以引導(dǎo)大學(xué)生樹立正確就業(yè)觀、人生觀為核心,進(jìn)行數(shù)據(jù)模型構(gòu)建。
第二,基于大學(xué)生獲取信息量大、信息價(jià)值密度低、信息獲取速度快的特點(diǎn),為避免大學(xué)生在互聯(lián)網(wǎng)中即興發(fā)布言論對個性化服務(wù)指導(dǎo)真實(shí)性造成影響,應(yīng)注意從客觀入手,篩選較為準(zhǔn)確、真實(shí)的大學(xué)生信息,保證大數(shù)據(jù)分析價(jià)值效應(yīng)[5]。
綜上所述,大數(shù)據(jù)是一個系統(tǒng)性概念,在指導(dǎo)大學(xué)生個性化就業(yè)方面,大數(shù)據(jù)技術(shù)的優(yōu)勢主要表現(xiàn)在大數(shù)據(jù)采集、大數(shù)據(jù)分析計(jì)算等模塊。因此,大學(xué)院校應(yīng)正確認(rèn)識大數(shù)據(jù)技術(shù)在大學(xué)生個性化就業(yè)指導(dǎo)中應(yīng)用優(yōu)勢,結(jié)合本院校各專業(yè)大學(xué)畢業(yè)生就業(yè)需求,搭建適應(yīng)性、個性化的大學(xué)生個性化就業(yè)指導(dǎo)平臺。依托大數(shù)據(jù)技術(shù),通過廣泛數(shù)據(jù)樣本收集、計(jì)算、分析、展現(xiàn),為大學(xué)生提供個性化就業(yè)指導(dǎo),幫助大學(xué)生順利實(shí)現(xiàn)更高質(zhì)量的就業(yè)。