国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)碰撞在高校學(xué)籍管理中的應(yīng)用探討

2016-08-10 07:40:16蔣澤剛
關(guān)鍵詞:學(xué)籍管理信息

蔣澤剛

(貴州廣播電視大學(xué) 貴陽(yáng) 550004)

?

數(shù)據(jù)碰撞在高校學(xué)籍管理中的應(yīng)用探討

蔣澤剛

(貴州廣播電視大學(xué)貴陽(yáng)550004)

摘要:文章針對(duì)沒有大型專業(yè)化、智能化學(xué)籍信息管理軟件或系統(tǒng),而使用手工處理大量學(xué)籍信息的難題,提出了基于Excel的數(shù)據(jù)碰撞解決方案。該方案以數(shù)據(jù)隊(duì)列中具有唯一性的共有項(xiàng)為基礎(chǔ),利用運(yùn)算法和查重法進(jìn)行人工聚類,碰撞檢索出目標(biāo)數(shù)據(jù),從而完成數(shù)據(jù)核對(duì)或合并。

關(guān)鍵詞:數(shù)據(jù)碰撞;學(xué)籍管理;信息;運(yùn)算法;查重法

在計(jì)算機(jī)網(wǎng)絡(luò)和軟件技術(shù)日新月異的大數(shù)據(jù)時(shí)代,高校學(xué)生信息管理體系逐步完善,學(xué)生信息管理軟件日趨數(shù)字化、多維化、智能化,為學(xué)生信息的完整性、準(zhǔn)確性提供了強(qiáng)有力的保障。數(shù)據(jù)碰撞原理也被廣泛應(yīng)用于數(shù)據(jù)查重、數(shù)據(jù)核對(duì)、刑事案件偵查、考試資格校驗(yàn)等大型軟件的開發(fā)應(yīng)用中。目前,我國(guó)很多高校學(xué)生信息管理系統(tǒng)(特別是非全日制學(xué)生信息管理系統(tǒng))還沒有實(shí)現(xiàn)與戶籍信息的互聯(lián)互通、自動(dòng)核對(duì)、動(dòng)態(tài)信息智能化合并功能,大量信息核對(duì)和數(shù)據(jù)合并都需要在線下手工完成。因此,研究數(shù)據(jù)碰撞方法,對(duì)提高高校學(xué)生信息管理效率和準(zhǔn)確性具有現(xiàn)實(shí)意義。

一、基本概念解讀

(一)數(shù)據(jù)碰撞的定義

數(shù)據(jù)碰撞是指運(yùn)用現(xiàn)代計(jì)算機(jī)技術(shù),基于聚類算法,從多個(gè)目標(biāo)數(shù)據(jù)隊(duì)列中碰撞檢索出具有共同特征項(xiàng)或與自定義字段相符數(shù)據(jù)的方法。其原理是將改進(jìn)的CURE聚類算法對(duì)訓(xùn)練集進(jìn)行聚類,然后對(duì)簇進(jìn)行標(biāo)識(shí),最后使用基于矩形的建模算法建立相關(guān)性模型,將待檢測(cè)數(shù)據(jù)與該模型進(jìn)行碰撞比對(duì),并將CURE聚類算法放到Impala中運(yùn)行。

(二)學(xué)籍信息內(nèi)容

學(xué)生學(xué)籍信息是記錄其在校學(xué)習(xí)期間成長(zhǎng)成才、畢業(yè)審核的重要檔案,也是他們走向工作崗位后不可或缺的人事檔案組成部分。它可分為靜態(tài)信息和動(dòng)態(tài)信息兩個(gè)方面,靜態(tài)信息主要是指學(xué)生的基本信息,如姓名、性別、民族、身份證號(hào)、學(xué)號(hào)、專業(yè)、班號(hào)、家庭成員;動(dòng)態(tài)信息主要指大學(xué)生在大學(xué)期間形成的其他信息,如:政治面貌、獎(jiǎng)學(xué)金、資助、生源地貸款、評(píng)先評(píng)優(yōu)、紀(jì)律處分等信息。

(三)學(xué)籍信息管理內(nèi)涵

學(xué)籍信息管理是指根據(jù)有關(guān)規(guī)定對(duì)學(xué)生的入學(xué)資格、在校學(xué)習(xí)情況及畢業(yè)資格進(jìn)行考核、記載、控制和處理的活動(dòng)。學(xué)籍管理主要包括學(xué)籍的取得和注冊(cè)管理、課程考核和成績(jī)記載管理、轉(zhuǎn)專業(yè)和轉(zhuǎn)學(xué)管理、紀(jì)律與考勤、學(xué)籍異動(dòng)管理和學(xué)歷與學(xué)位證書管理等,學(xué)生信息管理在經(jīng)歷了人工管理、內(nèi)部信息化管理以及網(wǎng)絡(luò)信息化管理三個(gè)發(fā)展階段后逐步走向智能化、動(dòng)態(tài)化,進(jìn)一步保證學(xué)生信息的準(zhǔn)確性和完整性。學(xué)籍管理的主體稱之為學(xué)籍管理相關(guān)者,主要由校級(jí)學(xué)籍管理部門、招生就業(yè)部門、教務(wù)考務(wù)部門、畢業(yè)審核部門、院系學(xué)籍負(fù)責(zé)人、班主任及輔導(dǎo)員等組成。

二、數(shù)據(jù)碰撞應(yīng)用方法分析

數(shù)據(jù)碰撞在高校線下學(xué)籍信息管理中的應(yīng)用是指在不依靠專業(yè)數(shù)據(jù)查重或合并軟件/系統(tǒng)的情況下,將具有唯一性共有項(xiàng)的多組數(shù)據(jù)按該共有項(xiàng)進(jìn)行人工聚類,再篩選出目標(biāo)數(shù)據(jù)。人工聚類的方法主要有運(yùn)算法和查重法兩種。

(一)運(yùn)算法

該方法只適用于多組數(shù)據(jù)表現(xiàn)實(shí)體一樣的純數(shù)字項(xiàng)核對(duì)。如高校每年高考錄取的學(xué)生數(shù)據(jù)庫(kù)與被錄取后報(bào)到注冊(cè)數(shù)據(jù)庫(kù)加上被錄取但沒有報(bào)到注冊(cè)學(xué)生數(shù)據(jù)就屬于表現(xiàn)實(shí)體一樣的數(shù)據(jù)庫(kù),若學(xué)校以錄取數(shù)據(jù)庫(kù)為參照數(shù)據(jù)核對(duì)報(bào)到注冊(cè)學(xué)生身份證號(hào)是否一致,則可用運(yùn)算法進(jìn)行核對(duì)。具體方法為:將被錄取但沒有來(lái)報(bào)到的學(xué)生信息復(fù)制到注冊(cè)報(bào)到學(xué)生信息后面,保證兩組數(shù)據(jù)表現(xiàn)實(shí)體一致,以身份證號(hào)或考生號(hào)為具有唯一性的共有項(xiàng),將其排序,使之一一對(duì)應(yīng)后將兩組數(shù)據(jù)中的身份證號(hào)等純數(shù)字項(xiàng)分別進(jìn)行對(duì)應(yīng)相減或相除,用減法運(yùn)算時(shí),結(jié)果為0則一致,非0則不一致;用除法運(yùn)算時(shí),結(jié)果為1則一致,非1則不一致。

將多組數(shù)據(jù)按照具有唯一性的共有項(xiàng)進(jìn)行排序,使共有的核對(duì)項(xiàng)一一對(duì)應(yīng),是運(yùn)算法數(shù)據(jù)碰撞的基礎(chǔ)。排序規(guī)則分為升序和降序,排序的方法通常有按數(shù)字大小、字符長(zhǎng)度、字母順序、姓氏筆畫等幾種。在運(yùn)算法的應(yīng)用中,排序需保證兩個(gè)條件:一是多組數(shù)據(jù)唯一性共有項(xiàng)排列規(guī)則和排列方法要一致;二是要保證每條數(shù)據(jù)整體同步移動(dòng)不散亂。如用EXCEL軟件操作則需選中整組數(shù)據(jù)區(qū),參照項(xiàng)和對(duì)比項(xiàng)按具有唯一性的共有項(xiàng)數(shù)據(jù)排序后再?gòu)?fù)制在一個(gè)表格中進(jìn)行對(duì)應(yīng),若DBF格式在轉(zhuǎn)換成EXCEL的過程中出現(xiàn)數(shù)據(jù)丟失或格式不兼容時(shí),可用VFP進(jìn)行處理。

(二)查重法

查重法是利用查找重復(fù)的公式,把多個(gè)目標(biāo)數(shù)據(jù)隊(duì)列中具有唯一性的共有項(xiàng)的數(shù)據(jù)批量篩選出來(lái)的方法。查重法只適用于具有唯一性共有項(xiàng)數(shù)據(jù)隊(duì)列的比對(duì)和篩選。如把高考投檔數(shù)據(jù)和被錄取學(xué)生報(bào)到注冊(cè)數(shù)據(jù)合并在一起,利用查重公式對(duì)具有唯一性的共有項(xiàng)數(shù)據(jù)進(jìn)行查重,標(biāo)記為“重復(fù)”的學(xué)生為被錄取且已經(jīng)報(bào)到注冊(cè)的學(xué)生,沒有被標(biāo)記的學(xué)生或?yàn)闆]有被錄取、或?yàn)楸讳浫]有報(bào)到注冊(cè)、或?yàn)闆]有通過高考投檔被錄取并注冊(cè)(如自主招生錄取)。

查重的函數(shù)比較多,可以根據(jù)需要編寫??梢杂谩?IF(COUNTIF(A:A,A1)>1,"重復(fù)","")”查重函數(shù)進(jìn)行運(yùn)算(此時(shí)查找對(duì)象都復(fù)制在A列,可以不一一對(duì)應(yīng))。用函數(shù)“=SUBSTITUTE($A1,B1,)”進(jìn)行查重,如賦值為空白則說明數(shù)據(jù)是一致的,非空白則說明不一致。

學(xué)生學(xué)籍信息特別是動(dòng)態(tài)信息會(huì)隨著學(xué)生的成長(zhǎng)而變化,這些信息大都只能靠線下手工合并或核對(duì)整理后再統(tǒng)一錄入/導(dǎo)入學(xué)籍管理系統(tǒng),項(xiàng)目繁多,工作量大,熟練掌握數(shù)據(jù)碰撞方法則可大大提高線下工作效率和質(zhì)量。高校學(xué)籍管理中純數(shù)字?jǐn)?shù)據(jù)主要有學(xué)號(hào)、班號(hào)、專業(yè)代碼、成績(jī)等,文本格式數(shù)據(jù)主要有身份證號(hào)等,文字格式數(shù)據(jù)主要有姓名、性別、民族、政治面貌、專業(yè)名稱、家庭成員等。將運(yùn)算法和查重法整合交叉使用,可處理純數(shù)字、文本、文字等格式的信息核對(duì)及合并。

三、數(shù)據(jù)碰撞應(yīng)用步驟

(一)確定參照項(xiàng)

數(shù)據(jù)核對(duì)也稱數(shù)據(jù)比對(duì),有參照項(xiàng)和核對(duì)項(xiàng),參照項(xiàng)和核對(duì)項(xiàng)可以根據(jù)工作需要相互轉(zhuǎn)換。一般情況下會(huì)選擇比較可靠的一組數(shù)據(jù)作為參照項(xiàng),另外一項(xiàng)作為核對(duì)項(xiàng)或者選擇條數(shù)較多的數(shù)據(jù)項(xiàng)作為參照項(xiàng),而較少的作為核對(duì)項(xiàng)。在高校學(xué)生信息核對(duì)中一般選擇從教務(wù)系統(tǒng)導(dǎo)出的數(shù)據(jù)作為參照項(xiàng),而將其他基層學(xué)籍信息管理相關(guān)者報(bào)來(lái)匯總的數(shù)據(jù)作為核對(duì)項(xiàng)。

(二)尋找唯一性共有項(xiàng)

唯一性共有項(xiàng)數(shù)據(jù)包含兩層意思:一是此項(xiàng)數(shù)據(jù)在組內(nèi)是不重復(fù)的;二是此項(xiàng)數(shù)據(jù)為需要對(duì)比的多數(shù)據(jù)所共有,如身份證、學(xué)號(hào)等都有此特征。唯一性共有項(xiàng)數(shù)據(jù)是將多組數(shù)據(jù)進(jìn)行排序或查重的基礎(chǔ),如將姓名、性別、民族等非唯一性數(shù)據(jù)進(jìn)行排列就會(huì)導(dǎo)致組內(nèi)重復(fù)。

(三)確定碰撞方法

若多組數(shù)據(jù)表現(xiàn)的實(shí)體一樣,且核對(duì)項(xiàng)為純數(shù)字,則可以采用運(yùn)算法;若數(shù)據(jù)表現(xiàn)實(shí)體不一,數(shù)據(jù)隊(duì)列中數(shù)據(jù)條數(shù)不一、數(shù)據(jù)格式多樣等,可采用查重法。

(四)檢查并修正錯(cuò)誤

數(shù)據(jù)核對(duì)的目的是要找出錯(cuò)誤并修正,使得參照組和對(duì)照組與實(shí)際信息三方一致。數(shù)據(jù)碰撞應(yīng)用的最后一個(gè)步驟就是根據(jù)運(yùn)算的賦值情況或查重的結(jié)果確認(rèn)核對(duì)項(xiàng)與參照項(xiàng)是否一致,如不一致則需拿學(xué)生證件及相關(guān)文件進(jìn)行核對(duì)并修正,確保三方信息一致。具體流程如圖1所示。

圖1 基于EXCEL的數(shù)據(jù)碰撞應(yīng)用模型(以學(xué)生身份證號(hào)核對(duì)為例)

四、數(shù)據(jù)碰撞應(yīng)用實(shí)踐

在國(guó)家的統(tǒng)一招生考試中,學(xué)生的網(wǎng)絡(luò)報(bào)考數(shù)據(jù)與錄取后到校報(bào)到注冊(cè)數(shù)據(jù)不一致,系統(tǒng)漏洞也會(huì)導(dǎo)致自動(dòng)生成出生日期等數(shù)據(jù)與真實(shí)數(shù)據(jù)存在差異,學(xué)籍動(dòng)態(tài)管理同樣會(huì)因新產(chǎn)生評(píng)獎(jiǎng)評(píng)優(yōu)等信息導(dǎo)致學(xué)籍管理相關(guān)者每年會(huì)有大量信息核對(duì)、合并,熟練掌握數(shù)據(jù)碰撞方法,可以取到事半功倍的效果。

(一)入學(xué)注冊(cè)信息核對(duì)——基于EXCEL查重法

一是確定參照項(xiàng)。將國(guó)家高等教育統(tǒng)一招生入學(xué)考試投檔錄取數(shù)據(jù)作為參照項(xiàng),報(bào)到入學(xué)注冊(cè)數(shù)據(jù)中身份證號(hào)作為需核對(duì)項(xiàng)。

二是尋找唯一性共有項(xiàng)。在這兩組數(shù)據(jù)隊(duì)列中找到具有唯一性的共有項(xiàng)——身份證號(hào)碼,并將格式統(tǒng)一,一般統(tǒng)一為文本格式。

三是合并數(shù)據(jù)并標(biāo)記。將兩組數(shù)據(jù)隊(duì)列進(jìn)行合并,使身份證號(hào)在同一列,且標(biāo)記注冊(cè)數(shù)據(jù)為紅色。

四是插入空白列。在身份證號(hào)這一列后插入空白列。

五是插入查重公式。在此空白列第一個(gè)單元格中插入函數(shù)“=IF(COUNTIF(A:A,A1)>1,"重復(fù)","")”,并向下填充格式。

六是檢查結(jié)果。利用EXCEL自動(dòng)篩選功能查看結(jié)果,標(biāo)記為“重復(fù)”的說明兩組數(shù)據(jù)中身份證號(hào)碼一致,沒有標(biāo)記的需逐個(gè)核實(shí)修正。

姓名、性別、民族這些信息不具備唯一性,組內(nèi)可能已經(jīng)重復(fù),不能用此方法核對(duì),需將運(yùn)算法和查重法交叉使用。

(二)系統(tǒng)有漏洞時(shí)自動(dòng)生成項(xiàng)核對(duì)——基于EXCEL運(yùn)算法

由于系統(tǒng)漏洞或被黑客攻擊,會(huì)導(dǎo)致從教務(wù)管理系統(tǒng)導(dǎo)出的學(xué)生信息中系統(tǒng)自動(dòng)生成的出生日期和身份證上出生日期不一致,此時(shí)可采用運(yùn)算法進(jìn)行批量核對(duì)。具體步驟為:

第一,選擇參照項(xiàng)。在參照項(xiàng)一行數(shù)據(jù)的最后位置將核對(duì)項(xiàng)身份證號(hào)整列復(fù)制過來(lái),用EXCEL數(shù)據(jù)固定長(zhǎng)度分列功能將正確的出生日期從身份證號(hào)中分列出來(lái)作為參照項(xiàng),刪除分列產(chǎn)生的出生日期外的多余數(shù)據(jù)。如圖2所示。

圖2 整列復(fù)制身份證號(hào)

第二,選擇唯一性共有項(xiàng)。身份證號(hào)具備唯一性,整列復(fù)制后的身份證號(hào)碼就是共有項(xiàng)。如圖3所示。

圖3 用身份證號(hào)分列出正確的出生日期

第三,按唯一性共有項(xiàng)數(shù)據(jù)排列規(guī)則順序。由于身份證號(hào)是從核對(duì)項(xiàng)中整列復(fù)制過來(lái)的,故順序已經(jīng)一一對(duì)應(yīng),不用排序。

第四,將核對(duì)項(xiàng)進(jìn)行減法運(yùn)算。身份證號(hào)分列出來(lái)的出生日期屬于純數(shù)字,故可用減法或除法,此處選擇減法。在身份證號(hào)分列出來(lái)的出生日期后面一列雙擊進(jìn)入單元格,然后輸入“=”后選中學(xué)籍系統(tǒng)生成的出生日期項(xiàng),鍵入減號(hào)后再選中身份證分列生成的出生日期項(xiàng),按回車鍵并向下填充公式。如圖4所示。

圖4 運(yùn)算兩項(xiàng)的出生日期

第五,檢查結(jié)果。值為0的表示出生日期正確,非0的表示不正確。如圖5所示。

圖5 填充函數(shù)并查看運(yùn)算結(jié)果

五、結(jié)語(yǔ)

隨著學(xué)籍檔案信息化進(jìn)程的快速推進(jìn),學(xué)籍信息分類越來(lái)越細(xì),需要處理的數(shù)據(jù)量也越來(lái)越大。在不依靠大型專業(yè)化數(shù)據(jù)處理軟件的情況下,數(shù)據(jù)碰撞在高校學(xué)籍線下管理中的應(yīng)用顯得方便快捷。

2015年秋季,貴州廣播電視大學(xué)成人開放教育學(xué)院注冊(cè)新生2000余人。由于系統(tǒng)漏洞,教務(wù)管理平臺(tái)中自動(dòng)生成的出生日期有少數(shù)比真實(shí)出生日期晚一天,運(yùn)用數(shù)據(jù)碰撞中的運(yùn)算法,僅用幾分鐘就把120多名出生日期錯(cuò)誤的學(xué)生從2000多名新生數(shù)據(jù)庫(kù)中全部篩選出來(lái);運(yùn)用數(shù)據(jù)碰撞中的查重法,快速完成了300多名2015年成人高考上線學(xué)生身份證號(hào)的核對(duì)。

數(shù)據(jù)碰撞方法實(shí)用快捷,但若存在數(shù)據(jù)無(wú)共有項(xiàng)、共有項(xiàng)數(shù)據(jù)無(wú)唯一性、數(shù)據(jù)格式難統(tǒng)一、有多余空格等問題時(shí),用數(shù)據(jù)碰撞來(lái)解決高校學(xué)籍管理問題比較麻煩,需使用專用軟件或手工配合處理。

參考文獻(xiàn)

[1]王艷,潘晨光.基于HDFS和IMPALA的碰撞比對(duì)分析.電視技術(shù),2015(14).

[2]梁小曉,韋崇崗.基于Web的高校學(xué)生信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版),2010(6).

[3]丁曉麗.新形勢(shì)下高校學(xué)籍管理存在的問題及對(duì)策.揚(yáng)州大學(xué)學(xué)報(bào)(高教研究版),2008(6).

[4]中華人民共和國(guó)教育部令第21號(hào).普通高等學(xué)校學(xué)生管理規(guī)定[EB/OL].[2006-01-17]. http://www.gov.cn/flfg/2006-01/17/content_161593.htm.

[5]余海峰.高校學(xué)籍管理實(shí)踐與探索.改革與開放,2009(6).

[6]張穎卓.計(jì)算機(jī)信息處理技術(shù)在高校新生學(xué)籍注冊(cè)中的應(yīng)用.民營(yíng)科技,2014(12).

(責(zé)任編輯:段娟)

收稿日期:2015-11-11

作者簡(jiǎn)介:蔣澤剛(1985—),男,貴州六盤水人,助教。

文章編號(hào):1008—2573(2016)02—0013—06

Data-collision Application in Student Status Information Management

JIANG Zegang

(Guizhou Radio & TV UniversityGuiyang550004)

Abstract:To deal with the problem of manual processing of students’ information without professional and intelligent information management software, the author of this thesis proposes to use the approach of datacollision by means of Excel. Based on the data with unique and common features, data check or consolidation is completed by using algorithms and repetition checking to conduct manual clustering and retrieving the target data.

Key words:Data-collision; Enrollment Management; Information; Algorithms;Repetition Checking

猜你喜歡
學(xué)籍管理信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
高職院校學(xué)籍管理工作思考
東方教育(2016年19期)2017-01-16 11:13:12
計(jì)算機(jī)應(yīng)用技術(shù)在高職院校學(xué)籍管理工作中應(yīng)用策略
高校學(xué)籍管理問題探析
東方教育(2016年3期)2016-12-14 12:56:51
現(xiàn)行高校學(xué)籍管理制度的現(xiàn)狀與不足
農(nóng)村留守兒童成績(jī)分析及學(xué)籍管理存在的問題
基于以人為本理念的高校學(xué)籍管理制度的研究
展會(huì)信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
庆城县| 海南省| 阿合奇县| 宜阳县| 乐陵市| 塘沽区| 天柱县| 浦县| 历史| 禹城市| 博湖县| 巴林左旗| 黄梅县| 连山| 通州区| 海门市| 仁化县| 昆明市| 资中县| 武鸣县| 桐柏县| 中牟县| 雷州市| 淄博市| 响水县| 敦煌市| 来宾市| 朝阳市| 师宗县| 樟树市| 蒲城县| 砀山县| 伊吾县| 将乐县| 金昌市| 婺源县| 云南省| 乐东| 安塞县| 岳池县| 澄迈县|