謝莉莉 翟志剛
摘? ?要:大數(shù)據(jù)在高校精準資助工作中的應(yīng)用價值是巨大的,但在實際的使用中,仍然面臨著現(xiàn)實、道德與技術(shù)的多重困境。為解決出現(xiàn)的難題,可從獲取資源數(shù)據(jù)、分析數(shù)據(jù)、判斷數(shù)據(jù)、數(shù)據(jù)安全等技術(shù)角度開展工作,推動高校精準資助工作的高質(zhì)量發(fā)展。
關(guān)鍵詞:精準資助;大數(shù)據(jù);困境;技術(shù)訴求
中圖分類號:G647 文獻標志碼:A 文章編號:1673-8454(2019)07-0001-05
社會公平的基石是教育公平。近10多年,我國的學(xué)生資助政策進一步完善,高校建立起一整套“獎助貸補減免”的資助政策體系,使“不讓一個學(xué)生因家庭經(jīng)濟困難而失學(xué)”的承諾成為可能。在基本實現(xiàn)家庭經(jīng)濟困難學(xué)生資助全覆蓋的同時,如何在資助工作中實現(xiàn)對象精準、需求精準、形式精準和效能精準成為高校學(xué)生資助工作運行機制中亟待解決的問題。
習近平總書記曾多次強調(diào):扶貧工作要在精準扶貧、精準脫貧上下更大工夫。教育部在2015年召開的全國教育工作會議上明確提出“要提高國家資助政策的精準度,依托國家教育管理信息系統(tǒng)建設(shè)平臺,確保國家學(xué)生資助、獎補等優(yōu)惠政策真正落實到每一個需要幫扶的學(xué)生身上”。顯然,高校的學(xué)生資助工作是國家整體精準扶貧工作不可或缺的一部分。隨著信息通信及互聯(lián)網(wǎng)技術(shù)的普及,大數(shù)據(jù)在教育領(lǐng)域的運用受到越來越多研究者的關(guān)注。通過大數(shù)據(jù)技術(shù)的運用,可以實現(xiàn)精準識別資助對象、精準判定資助需求和資助形式,以及精準控制資助效能的作用。[1]當前,大數(shù)據(jù)在高校精準資助工作中的應(yīng)用尚處于起步和探索階段,需要我們不斷探索和積極應(yīng)對使用過程中存在的各種難題,為提高精準資助工作的實效性奠定基礎(chǔ)。
大數(shù)據(jù)與人們生活的方方面面緊密相連,對大數(shù)據(jù)的挖掘研究可以為高校精準資助工作提供便利條件。
第一,大數(shù)據(jù)時代浪潮推動了高校數(shù)字化教學(xué)管理環(huán)境的變革,為精準資助工作數(shù)據(jù)的搜集提供了有力保障。大數(shù)據(jù)是以容量大(Volume)、類型多(Variety)、存取速度快(Velocity)、應(yīng)用價值高(Value)為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進行采集、存儲和關(guān)聯(lián)分析,并從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)。美國作為世界科技強國,提出“通過收集、處理龐大而復(fù)雜的數(shù)據(jù)信息,從中獲得知識和洞見,提升能力,加快科學(xué)、工程領(lǐng)域的創(chuàng)新步伐”。[2]我國的大數(shù)據(jù)研究也從2013年起呈現(xiàn)爆發(fā)式增長趨勢。高校利用其自身的技術(shù)環(huán)境,通過信息數(shù)據(jù)的交流及共享為大數(shù)據(jù)的技術(shù)運用奠定基礎(chǔ),掀起利用大數(shù)據(jù)促進教育改革創(chuàng)新發(fā)展的熱潮。
第二,高?!爸腔坌@”的建設(shè)使大數(shù)據(jù)的搜集和挖掘成為可能,使精準資助工作支撐有了數(shù)據(jù)的依托。智慧校園“利用‘互聯(lián)網(wǎng)+的思維方式和新一代信息技術(shù)手段,把學(xué)校各類信息化系統(tǒng)和資源整合為一個有機的整體,構(gòu)建具有高度感知能力、協(xié)同能力和服務(wù)能力的新型信息化校園環(huán)境,深入融合滲透到教育教學(xué)的全過程”。[3]各高校啟動的智慧校園建設(shè),比如校園一卡通的使用,通過其身份認證、學(xué)費收繳、成績查詢、生活消費、圖書借閱、門禁管理等功能的智能化運用所記錄的海量數(shù)據(jù),來挖掘出學(xué)生在經(jīng)濟困難程度、學(xué)習生活需求、興趣愛好等方面相關(guān)數(shù)據(jù),與精準資助要求相結(jié)合,構(gòu)建模型,預(yù)測方法,為工作開展提供決策支持。
第三,高校信息服務(wù)平臺的整合和數(shù)據(jù)共享的搭建,更有利于落實精準資助工作的匯聚共享與不同層級目標群體的定位。隨著高校學(xué)生教育管理改革的不斷推進,學(xué)生各項事務(wù)辦理被逐步整合為一個統(tǒng)一服務(wù)平臺。在這個平臺中關(guān)于學(xué)生個人學(xué)習生活等一切方面的數(shù)據(jù)都被存貯、交換、共享和在線分析。這些數(shù)據(jù)客觀、真實且全面反映了家庭經(jīng)濟困難學(xué)生的面貌和行為表現(xiàn),通過數(shù)據(jù)關(guān)聯(lián)分析可以基本掌握其行為特征,為高校精準資助提供一個嶄新的認知高度。
那么,大數(shù)據(jù)在高校精準資助工作中的價值體現(xiàn),筆者認為可以從三個方面進行考察。
一是優(yōu)化資助體系,強化精準資助實現(xiàn)力度。資助方對資助對象信息的獲取是實現(xiàn)精準資助工作的基礎(chǔ)。精準資助要求,“找準資助對象,通過差別化的資助形式,提升資助目的與資助對象需求之間的契合度,最大程度發(fā)揮資助的效能”。[4]大數(shù)據(jù)作為考察學(xué)生家庭經(jīng)濟困難的顯性表征,能夠如實記錄下學(xué)生學(xué)習生活信息,通過精準分析和科學(xué)預(yù)測,有助于精準資助目標的實現(xiàn)。
首先,大數(shù)據(jù)改變了過去學(xué)生信息采集的模型構(gòu)建來源。過去學(xué)生按照資助方要求填寫的表格,街道、社區(qū)辦事處,及民政部門等出具的家庭收入證明材料不足以使高校在高強度的信息甄別方面能夠精準鎖定資助對象。大數(shù)據(jù)平臺可以全方面、多層次地對學(xué)生群體信息進行收集、整合和互聯(lián)互通。如校園“一卡通”的實現(xiàn)和校園學(xué)生事務(wù)中心在線平臺的使用可以對海量數(shù)據(jù)進行挖掘分析,從而實現(xiàn)資助對象的精準化。其次,高校目前建立的“獎助貸補減免”的資助體系是在各自分散狀態(tài)下獨立進行管理的。不同級別、來源、性質(zhì)的資助項目都是采取各自申請、審批、發(fā)放、監(jiān)管的運行機制。在實際操作中,為了兼顧全局利益,資助資源是按照家庭經(jīng)濟困難學(xué)生人數(shù)比例進行切割的,這種自上而下而不是以學(xué)生個人需求為導(dǎo)向的分配方式會導(dǎo)致資助需求的不均衡性。大數(shù)據(jù)平臺有效對接學(xué)生管理系統(tǒng)、資助系統(tǒng)、教務(wù)系統(tǒng)、財務(wù)系統(tǒng)等子系統(tǒng),對有效信息進行讀取識別,以資助對象需求為導(dǎo)向進行有區(qū)別的獎勵性或補償性資助。
二是提升資助效能,促進資助育人目標的實現(xiàn)。與社會上的扶貧工作相比,高校的資助工作不是單純的扶貧和救濟,其最終目標和任務(wù)是育人。[5]對于家庭經(jīng)濟困難學(xué)生來說,實現(xiàn)個人經(jīng)濟保障固然重要,但在自身需求滿足之后,其個人的情感需求、尊重需求及自我實現(xiàn)的需求就顯得不可取代。大數(shù)據(jù)平臺通過對家庭經(jīng)濟困難學(xué)生的學(xué)習成績、個人興趣、實踐能力、技能素養(yǎng)、就業(yè)志向等相關(guān)信息分析,使資助工作由粗放走向精準,為其有的放矢地對學(xué)生個人提供思想的引領(lǐng)、學(xué)習的幫扶和能力的拓展提供精準服務(wù)。
首先,利用大數(shù)據(jù)關(guān)注學(xué)生思想道德需求。通過大數(shù)據(jù)平臺,對家庭經(jīng)濟困難學(xué)生的事實數(shù)據(jù)和行為數(shù)據(jù)行進搜集整理,針對誠信教育,勵志、感恩教育的現(xiàn)狀在學(xué)生中開展有針對性的校園文化活動,提升資助工作的育人功能,建立公平公正、積極向上的校園資助文化。其次,利用大數(shù)據(jù)關(guān)注家庭經(jīng)濟困難學(xué)生的學(xué)習狀況。針對雙困學(xué)生的現(xiàn)實困境,分析具體原因,采取具體舉措,以促進學(xué)生的成長成才。最后,利用大數(shù)據(jù)幫助家庭經(jīng)濟困難大學(xué)生發(fā)現(xiàn)自己的興趣特長,并輔之以線下對學(xué)生個人素質(zhì)的拓展、能力的培養(yǎng),從而為學(xué)生今后個人發(fā)展提供強大的動力支持。這種以生為本的評判標準,可以真正促進精準資助工作所能達到的最優(yōu)效果,也是其自身價值的最大體現(xiàn)。
三是拓寬參與式資助,打造資助監(jiān)管模式。大數(shù)據(jù)獲取、存貯及分析的方便快捷化,使其成為人們進行決策支持的重要參考方面,這有助于拓寬參與精準資助工作的方式,從而形成協(xié)調(diào)發(fā)展的監(jiān)管體系。首先,利用大數(shù)據(jù)公平公正的陽光操作,不斷發(fā)展資助社團建設(shè),充分發(fā)揮家庭經(jīng)濟困難學(xué)生的力量,使其參與到精準資助工作中來,成為學(xué)校與廣大經(jīng)濟困難學(xué)生之間溝通的橋梁。其次,基于大數(shù)據(jù)分析做出的決策提升了資助的監(jiān)管水平。一方面,動態(tài)化的監(jiān)測使資助工作者能從多維度、海量化的數(shù)據(jù)中發(fā)現(xiàn)問題,從而進行預(yù)警和預(yù)控;另一方面,可以根據(jù)即時和關(guān)聯(lián)數(shù)據(jù)反饋,精準監(jiān)督資助工作開展情況,不斷優(yōu)化和改進工作決策水平。
大數(shù)據(jù)時代的出現(xiàn)對社會各個領(lǐng)域都產(chǎn)生了深刻的影響。高校資助工作領(lǐng)域,隨著精準資助工作要求的提出,使資助工作者比以往更希望通過大數(shù)據(jù)的搜集來解決工作中面臨的一系列棘手問題,從而推動精準資助工作的順利開展。但是,縱觀目前大數(shù)據(jù)在高校精準資助工作中的應(yīng)用,仍然面臨著現(xiàn)實、道德與技術(shù)的多重困境。
1.海量數(shù)據(jù)與資源相關(guān)性的困境
“大數(shù)據(jù)的明顯特征是數(shù)據(jù)的社會化。從互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng)再到物聯(lián)網(wǎng),人類以及各類物理實體的實時聯(lián)網(wǎng)已經(jīng)而且還將繼續(xù)產(chǎn)生難以估量的數(shù)據(jù)?!盵6]網(wǎng)上數(shù)據(jù)海量出現(xiàn),為精準資助工作提供強大的支持,但是準確定位哪些數(shù)據(jù)是跟資助對象相關(guān)的并不容易,高校精準資助工作在應(yīng)用大數(shù)據(jù)的過程中面臨著海量數(shù)據(jù)共享、融合和分析的困境,即首先需要解決海量數(shù)據(jù)與數(shù)據(jù)資源相關(guān)性的問題。
近些年來高校信息化建設(shè)步伐加快,資助工作體系不斷完善發(fā)展,納入學(xué)生資助工作的數(shù)據(jù)范疇越來越廣泛,學(xué)生資助工作的數(shù)據(jù)樣本空間越來越大。比如,資助工作信息系統(tǒng)中隨著歷年來工作的開展,歷史數(shù)據(jù)越來越多;隨著高校信息系統(tǒng)的完善,諸如食堂消費記錄、學(xué)生卡等學(xué)生行為的記錄數(shù)據(jù)越來越豐富;隨著微博、微信等社交軟件的快速發(fā)展,學(xué)生發(fā)布在社交媒體上的文字、圖片、視頻,各類交易平臺數(shù)據(jù)、位置數(shù)據(jù)等大量個人信息數(shù)據(jù)也海量出現(xiàn)。從這些海量數(shù)據(jù)中準確關(guān)聯(lián)資助對象,或者說如何準確獲取海量數(shù)據(jù)與研究客體之間的相關(guān)性對實現(xiàn)精準資助至關(guān)重要。
2.數(shù)據(jù)多樣性與資源共享化的困境
找到與資助對象關(guān)聯(lián)或者相關(guān)的數(shù)據(jù)后,如何處理這些數(shù)據(jù)、利用這些數(shù)據(jù)是面臨的第二個問題。從網(wǎng)上獲取的海量數(shù)據(jù)以各種形式存在,有結(jié)構(gòu)化數(shù)據(jù),有半結(jié)構(gòu)化數(shù)據(jù),還有大量非結(jié)構(gòu)化數(shù)據(jù),要把這些數(shù)據(jù)都處理成可以直接處理并對精準資助判斷提供依據(jù)的數(shù)據(jù)需要一個過程,需要新的數(shù)據(jù)處理技術(shù)。
當今時代,數(shù)據(jù)的海量化和碎片化特征越來越明顯。一方面,數(shù)據(jù)的形態(tài)千差萬別,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。現(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長的特點,至2012年末,非結(jié)構(gòu)化數(shù)據(jù)占有比例已達到整個數(shù)據(jù)量的75%以上,其處理技術(shù)完全不同于傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)。另一方面,數(shù)據(jù)的來源各不相同。有機器產(chǎn)生的數(shù)據(jù)、人創(chuàng)造的數(shù)據(jù)、行為產(chǎn)生的數(shù)據(jù)及分享集中的數(shù)據(jù)等多方面。這些數(shù)據(jù)散落在高校、政府、企業(yè)各個系統(tǒng)的不同功能模塊中。這些數(shù)據(jù)存儲在不同的服務(wù)器上,導(dǎo)致數(shù)據(jù)之間標準不統(tǒng)一、功能不匹配,使各系統(tǒng)之間數(shù)據(jù)難以整合、銜接。因此,資助工作者亟需掌握有效的數(shù)據(jù)共享技術(shù)使海量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)兼容,深入分析數(shù)據(jù),挖掘數(shù)據(jù)內(nèi)涵,把握事物的內(nèi)在規(guī)律。
3.數(shù)據(jù)關(guān)聯(lián)性與準確性之間的困境
根據(jù)這些有關(guān)聯(lián)的、經(jīng)過融合以后能處理的數(shù)據(jù),怎么準確定位資助對象是第三個需要面對的問題。假設(shè)一個班級所有學(xué)生都申請了某項資助基金,根據(jù)相關(guān)分析和數(shù)據(jù)融合技術(shù)已經(jīng)獲得跟資助對象有關(guān)的所有數(shù)據(jù),但是這些學(xué)生哪些應(yīng)該獲得資助,哪些不應(yīng)該獲得資助;獲得資助的學(xué)生應(yīng)該獲得那種程度的資助,還需要進一步的認定,需要新的數(shù)據(jù)挖掘來解決這類問題。數(shù)據(jù)挖掘技術(shù)可以通過數(shù)據(jù)抽取、清洗等技術(shù)手段來計算數(shù)據(jù)之間的相似性,但是大數(shù)據(jù)環(huán)境下傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)倉庫技術(shù)不再完全適用,需要研究新的數(shù)據(jù)挖掘技術(shù)來準確匹配資助對象的相似度。
4.數(shù)據(jù)應(yīng)用性和數(shù)據(jù)安全性的困境
網(wǎng)絡(luò)安全和信息化建設(shè)是一體兩翼的兩個方面,缺一不可,學(xué)生資助領(lǐng)域因為涉及個人信息、網(wǎng)絡(luò)安全,尤其要重視數(shù)據(jù)安全,特別是個人信息數(shù)據(jù)的隱私保護。對于高校精準資助工作來說,大數(shù)據(jù)雖然在確立資助對象精準、形式精準等方面存在著各種優(yōu)點,能夠給人們提供海量數(shù)據(jù),幫助決策者提高洞察力,幫助資助工作者對受助群體進行精準定位。但風險與優(yōu)勢是并存的,高校在獲取信息的同時,個人信息被竊取的可能性也在增加,使個人隱私被侵害的可能性增大,這也是必須要避免的問題。
為解決上述困境,從技術(shù)角度,可以考慮從以下四個方面開展工作:
1.充分利用數(shù)據(jù)相關(guān)性研究技術(shù)獲取資源數(shù)據(jù)
大數(shù)據(jù)研究中,“相關(guān)關(guān)系”和“因果關(guān)系”一直存在爭論,但無論爭論結(jié)果如何,大數(shù)據(jù)的相關(guān)性關(guān)系分析能對我們進行某項決策提供支持,數(shù)據(jù)之間的相關(guān)性分析也可以幫助人們更快更高效地發(fā)現(xiàn)事物之間的聯(lián)系,有效地發(fā)現(xiàn)與度量相關(guān)關(guān)系仍具有重要研究價值,可以說,大數(shù)據(jù)相關(guān)分析已經(jīng)成為大數(shù)據(jù)分析與挖掘的核心科學(xué)問題與關(guān)鍵應(yīng)用技術(shù)。[7]
納入分析的范圍可以重點考慮文本數(shù)據(jù),因為在眾多數(shù)據(jù)類型中,文本數(shù)據(jù)是存儲和交換信息最自然的方式,尤其值得關(guān)注和研究。[8]文本數(shù)據(jù)挖掘是數(shù)據(jù)挖掘中的一個分支,又稱文本知識發(fā)現(xiàn),是指從大量文本數(shù)據(jù)中抽取隱含的、前所未知的、潛在有用的、可理解的模式和知識的過程。[9]大數(shù)據(jù)時代,網(wǎng)上大量出現(xiàn)非結(jié)構(gòu)化數(shù)據(jù),人們處理和接觸最多的就是文本數(shù)據(jù)這種非結(jié)構(gòu)化數(shù)據(jù)形式,充分利用文本主題挖掘與關(guān)聯(lián)搜索等技術(shù),進行基于關(guān)鍵詞的查詢擴展,提高文本數(shù)據(jù)挖掘與相關(guān)性搜索的準確性?;驹硎鞘紫韧ㄟ^文本解析提取、文本預(yù)處理和文本索引等手段對文本信息進行預(yù)處理,然后通過主題發(fā)現(xiàn)模型構(gòu)建、模型參數(shù)計算等步驟建立基于潛在語義關(guān)系的主題發(fā)現(xiàn)模型,最后實現(xiàn)文本的主題關(guān)聯(lián)搜索。
在具體的分析方法上,可以使用目前比較通用的一些定義和分析理論。用X,Y代表兩個隨機變量,首先分析一維變量,定義(x1,x2,……,xn)(y1,y2,……,yn)為X,Y的取值,n為樣本空間大小。當X,Y均為一維變量時,可以視作樣本的兩個特征變量,則(x1,y1)(x2,y2)……(xn,yn)是n個樣本在X,Y上的取值。進一步定義,X=(X1, X2,……,Xp),Y=(Y1, Y2,……,Yq)是p維、q維的隨機向量,X1,X2,……,Xp和Y1,Y2,……,Yq分別是X和Y的特征值。定義E1為不知道X值預(yù)測Y值時產(chǎn)生的誤差,E2為知道X值預(yù)測Y值時產(chǎn)生的誤差,則:
PRE=(E1-E2)/E1
PRE值越大則表示X和Y的相關(guān)性越大,研究數(shù)據(jù)之間的相關(guān)性定量為研究PRE值的大小,這是一種適用于任何類型數(shù)據(jù)的相關(guān)系數(shù)。
以此為基礎(chǔ),可以進一步研究定類變量、定序變量之間的相關(guān)系數(shù),得出相關(guān)系數(shù)層次圖,再進一步擴展到多變量相關(guān)系數(shù),最后研究基于矩陣計算、基于距離的相關(guān)系數(shù)等,從而通過對相關(guān)系數(shù)的研究獲取數(shù)據(jù)之間相關(guān)性的定量分析和準確判斷。
2.通過利用數(shù)據(jù)融合技術(shù)獲取分析數(shù)據(jù)
大數(shù)據(jù)的一個重要特征即數(shù)據(jù)類型繁多。現(xiàn)代互聯(lián)網(wǎng)環(huán)境除傳統(tǒng)數(shù)據(jù)格式,還出現(xiàn)了大量視頻、圖像等非結(jié)構(gòu)化數(shù)據(jù),其處理技術(shù)完全不同于傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)。通過各種手段獲取了與研究樣本關(guān)聯(lián)的相關(guān)性數(shù)據(jù)以后,如何通過技術(shù)手段把這些數(shù)據(jù)變成能統(tǒng)一處理和分析的數(shù)據(jù)是要解決的第二個問題,有效的手段之一是數(shù)據(jù)融合技術(shù)。
大數(shù)據(jù)融合技術(shù)不同于傳統(tǒng)數(shù)據(jù)庫或數(shù)據(jù)倉庫研究領(lǐng)域的數(shù)據(jù)抽取、集成、清洗技術(shù),數(shù)據(jù)融合技術(shù)需要用動態(tài)的方式分析處理不同數(shù)據(jù)來源不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù),并將其轉(zhuǎn)化為統(tǒng)一可識別處理的知識資源,形成知識庫。知識庫作為知識組織管理的一種特殊的數(shù)據(jù)庫,是知識存儲和計算的重要組織形式。[10] 高校精準資助研究領(lǐng)域中的知識庫,代表著能直接對是否資助對象進行判斷的數(shù)據(jù)資源,數(shù)據(jù)融合也就可以視為:如何從海量異構(gòu)數(shù)據(jù)中,通過數(shù)據(jù)融合技術(shù),獲得能直接進行處理判斷依據(jù)的數(shù)據(jù)資源知識庫,整個過程可以稱之為知識融合。
知識融合技術(shù)可分為知識評估和知識擴充,知識評估主要解決,在知識獲取基礎(chǔ)上從不同數(shù)據(jù)源獲取的各種各樣知識之間的沖突和不一致性,并從中找到真實的數(shù)據(jù),可以考慮目前較成熟的幾種知識評估方法,包括基于貝葉斯估計的知識評估方法、基于D-S證據(jù)理論的知識評估方法、基于模糊集理論的知識評估方法和基于圖模型的知識評估方法。知識擴充是在知識評估基礎(chǔ)上,將從不同信息源獲取并驗證為正確的知識更新到知識庫中,與知識庫中已有的知識進行關(guān)聯(lián)與合并,從而擴充知識庫,達到知識融合的目的。目前較成熟的方法包括實體擴充、關(guān)系擴充和分類擴充等。圖1提供了常用的知識融合技術(shù)。
3.通過數(shù)據(jù)挖掘得出判斷數(shù)據(jù)
通過上述步驟,獲得與資助對象相關(guān)的數(shù)據(jù),并且通過數(shù)據(jù)融合技術(shù)處理不同數(shù)據(jù)源的數(shù)據(jù)以后,下一步要解決的就是如何判斷哪些對象應(yīng)該進入資助名單,進入資助名單的資助對象都應(yīng)該處于什么位置。大數(shù)據(jù)研究領(lǐng)域解決此類問題最自然而然的方法是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘技術(shù)可以通過數(shù)據(jù)抽取、清洗后利用分類、聚類等手段準確匹配主體和客體,目前數(shù)據(jù)挖掘技術(shù)已經(jīng)比較成熟??紤]到目前使用最廣泛的訪問控制技術(shù)是基于角色訪問控制策略和模型(RBAC,Role-Based Access Control),可以通過研究基于角色的數(shù)據(jù)挖掘技術(shù)來獲得通用的技術(shù)手段,也就是角色挖掘技術(shù)(Role Mining),即從已有的用戶權(quán)限分配中挖出角色集合并實施用戶角色分配和權(quán)限角色分配。
絕大部分的角色挖掘方法都是從無到有地進行構(gòu)建,所有角色都是新挖掘出來的,而沒有考慮事先已經(jīng)存在的角色集合,這并不適用目前高校精準資助工作現(xiàn)狀。而且現(xiàn)存的從已有角色集合的方法中提出的相似度定義均不滿足交換律,可以采用的技術(shù)之一是最小擾動混合角色挖掘方法(HybridMiner)。[11]這種最小擾動混合角色挖掘方法雖然復(fù)雜度和效率并不是最好的,但是準確率卻是最高的,考慮到目前硬件產(chǎn)品成本的下降,采用該方法是一個值得考慮的方案。
定義最小擾動混合角色挖掘:給定用戶集合U,權(quán)限集合P,用戶權(quán)限指派UPA以及已有角色集合DROLES;找出一個角色集合ROLES,并據(jù)此得到用戶角色指派UA,權(quán)限角色指派PA以及角色繼承關(guān)系RH,并得到新角色系統(tǒng)狀態(tài)RC=
其中UPA?哿USERS×PERMS,即用戶權(quán)限分配;UA?哿USERS×ROLES,即用戶角色分配;PA?哿ROLES×PERMS即權(quán)限角色分配;RH?哿ROLES×ROLES,即角色繼承。RC=
4.注意保障數(shù)據(jù)安全
大數(shù)據(jù)時代的到來會引發(fā)對大數(shù)據(jù)的盲目崇拜,隨著對數(shù)據(jù)規(guī)模無止境的需求,會忽略對象隱私性的保護問題,因此除了在法律法規(guī)、政策制度上加強建設(shè),還應(yīng)該在技術(shù)上加以避免。
數(shù)據(jù)隱私的研究范圍跟傳統(tǒng)信息安全有所差異,傳統(tǒng)信息安全研究的主要是信息及信息系統(tǒng)免受未經(jīng)授權(quán)的訪問也就是讀操作,同樣免受未經(jīng)授權(quán)的修改也就是寫操作,三個關(guān)鍵維度為數(shù)據(jù)的機密性、完整性和可用性,主要技術(shù)包括身份認證、訪問控制、審計和密碼學(xué)等。而數(shù)據(jù)隱私主要指個人等客體(也可能是組織)不愿意被外部獲取自己有關(guān)的信息,主要涉及信息安全中的機密性,數(shù)據(jù)隱私自身研究的維度主要是數(shù)據(jù)的模糊性、隱私性和可用性,主要技術(shù)包括模糊化、匿名化和差分隱私等。
大數(shù)據(jù)帶來的隱私風險包括前文步驟中數(shù)據(jù)收集帶來的風險、輸入融合帶來的風險以及數(shù)據(jù)分析帶來的風險等,針對復(fù)雜的隱私風險來源,應(yīng)建立綜合性的隱私管理框架,應(yīng)至少包含隱私主動監(jiān)控體系、隱私主動評估體系、隱私主動管理技術(shù)體系、問題系統(tǒng)體系以及法律法規(guī)體系等5部分,從而為實現(xiàn)大數(shù)據(jù)隱私管理提供技術(shù)支持。[12] 關(guān)鍵的技術(shù)可以采用匿名化技術(shù)、數(shù)據(jù)加密技術(shù)、差分隱私技術(shù)、隱私信息檢索技術(shù)和問責系統(tǒng)等。
匿名化技術(shù)主要指隱藏或模糊數(shù)據(jù)以及數(shù)據(jù)源。加密技術(shù)即對數(shù)據(jù)進行加密,如果所有信息處理過程的所有數(shù)據(jù)都進行加密,則可以徹底解決大數(shù)據(jù)中的隱私保護問題,但密文域上高效的大數(shù)據(jù)處理新模式仍舊是現(xiàn)在研究的難點。無論匿名化技術(shù)還是加密技術(shù),都是針對外部發(fā)起的攻擊進行響應(yīng),面對新出現(xiàn)的攻擊時則需要重新制定保護方法,解決方式可以通過研究差分隱私技術(shù)來緩解。另外從應(yīng)用角度,在數(shù)據(jù)被查詢時可采用隱私信息檢索技術(shù)來大大降低隱私泄露的風險。最后還應(yīng)該完善問責系統(tǒng),記錄用戶數(shù)據(jù)的訪問記錄、修改記錄等,問責系統(tǒng)不同于傳統(tǒng)審計方式,工作流經(jīng)過的途徑都有可能要問責。
高校精準資助工作任重道遠,在當前大數(shù)據(jù)的新時代,高校精準資助工作也面臨著新矛盾,通過大數(shù)據(jù)研究領(lǐng)域中的成熟技術(shù),在精準資助領(lǐng)域加以應(yīng)用,通過相關(guān)性分析、數(shù)據(jù)融合、數(shù)據(jù)挖掘精確匹配,同時保護個人數(shù)據(jù)隱私,最后實現(xiàn)高校學(xué)生精準資助工作的高質(zhì)量發(fā)展。
[1]吳朝文,代勁,孫延楠.大數(shù)據(jù)環(huán)境下高校貧困生精準資助模式初探[J].黑龍江高教研究,2016(12):41-44.
[2]Big Data Research and Development Initiative[DB/OL].[2012-03-29].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf.
[3][4]張遠航.論高校家庭經(jīng)濟困難學(xué)生的“精準資助”[J].思想理論教育,2016(1):108-111.
[5]張福友.關(guān)于普通高校學(xué)生精準資助工作的理路[J].黑龍江高教研究,2015(11):78-80.
[6]郭曉科主編.大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2013:21.
[7]梁吉業(yè),馮晨嬌,宋鵬.大數(shù)據(jù)相關(guān)分析綜述[J].計算機學(xué)報,2016(1):1-18.
[8]朱衛(wèi)星,徐偉光,何紅悅,李雯.文本數(shù)據(jù)主題挖掘與關(guān)聯(lián)搜索研究[J].計算機科學(xué),2017(s2):411-413,456.
[9]FELDMAN R,DAGAN I. KDT-Knowledge Discovery in Textual Database[C].Proceedings of the 1st Annual Conference on Knowledge Discovery and DataMining,1995:112-117.
[10]文君.知識庫系統(tǒng)原理及其應(yīng)用[M].上海:復(fù)旦大學(xué)出版社,1995:58.
[11]翟志剛,王建東,曹子寧等.最小擾動混合角色挖掘方法研究[J].計算機研究與發(fā)展,2013(5):951-960.
[12]孟小峰,張嘯劍.大數(shù)據(jù)隱私管理[J].計算機研究與發(fā)展,2015(2):265-281.
(編輯:王天鵬)