国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)鍵屬性匹配的高校人員信息整合研究

2019-04-23 03:29:52,,,,
微型電腦應(yīng)用 2019年2期
關(guān)鍵詞:學(xué)工證件源頭

, , , ,

(同濟(jì)大學(xué) 1.教育技術(shù)與計(jì)算中心;2.海洋科學(xué)技術(shù)研究中心;3.信息化辦公室,上海 200092;4.電子與信息工程學(xué)院,上海 201804)

0 引言

我國(guó)高校信息化經(jīng)過(guò)30年左右的快速發(fā)展,逐步重視業(yè)務(wù)流程優(yōu)化和服務(wù)整合以適應(yīng)智慧校園建設(shè)的需求[1]。由于缺乏統(tǒng)一標(biāo)準(zhǔn)、系統(tǒng)分散管理,造成數(shù)據(jù)不一致和不完整[2,3]。高校信息化需要通過(guò)有效的數(shù)據(jù)治理手段進(jìn)一步提高數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)資源在各業(yè)務(wù)部門的有效整合和共享,使高校變得更加智慧和敏捷[4,5]。

為有效解決當(dāng)前高校信息化中的數(shù)據(jù)質(zhì)量問(wèn)題,主數(shù)據(jù)管理受到重視,較好地實(shí)現(xiàn)了數(shù)據(jù)的深度共享和價(jià)值發(fā)現(xiàn)[6-8]。所謂主數(shù)據(jù)是信息系統(tǒng)中描述核心業(yè)務(wù)、實(shí)體并且在不同業(yè)務(wù)系統(tǒng)間共享使用的數(shù)據(jù),是企業(yè)內(nèi)部能夠跨業(yè)務(wù)、跨系統(tǒng)重復(fù)使用的高價(jià)值數(shù)據(jù)[9]。高校信息化圍繞“人”、“財(cái)”、“物”產(chǎn)生了大量的數(shù)據(jù),而“人”的數(shù)據(jù)是最基本最核心的主數(shù)據(jù)。因此,同濟(jì)大學(xué)在進(jìn)行主數(shù)據(jù)管理時(shí)也從人員出發(fā),設(shè)計(jì)適合高校人員的主數(shù)據(jù)模型[10]。高校的人員類型較一般企業(yè)復(fù)雜,同一個(gè)人同時(shí)存在多種身份,同時(shí)人員管理上也很分散,造成系統(tǒng)數(shù)據(jù)分散和重復(fù),同一個(gè)人在不同的業(yè)務(wù)系統(tǒng)中,用不同的ID號(hào)表達(dá)。不同部門信息化管理水平的不同,也使得人員信息的質(zhì)量參差不齊。只有人員信息經(jīng)過(guò)整合后,才能使高校真正從以業(yè)務(wù)為核心向以人為核心的轉(zhuǎn)化成為可能[11]。

將不同業(yè)務(wù)系統(tǒng)中以不同方式記錄的人員數(shù)據(jù),通過(guò)一定的算法識(shí)別為現(xiàn)實(shí)世界中的同一個(gè)人,是人員信息整合的基礎(chǔ)??梢芍貜?fù)處理作為主數(shù)據(jù)管理的關(guān)鍵技術(shù)之一,通過(guò)設(shè)置匹配關(guān)鍵元素或預(yù)置算法發(fā)現(xiàn)可能重復(fù)的記錄[12]。高校人員的關(guān)鍵屬性包括姓名、證件類型、證件號(hào)碼、學(xué)號(hào)/工號(hào)等,本文在深入分析這些關(guān)鍵屬性及其各種組合下出現(xiàn)的數(shù)據(jù)質(zhì)量問(wèn)題,提出一種基于關(guān)鍵屬性匹配的高校人員信息整合方法,對(duì)人員賦予唯一編號(hào)標(biāo)識(shí),在實(shí)踐中取得很好的應(yīng)用效果,并促進(jìn)高校人員的主數(shù)據(jù)管理工作。

1 高校人員數(shù)據(jù)的現(xiàn)狀

高校人員指在高校中學(xué)習(xí)和工作過(guò)的學(xué)生和教職工,高校人員數(shù)據(jù)是由學(xué)校相應(yīng)管理部門納入業(yè)務(wù)管理系統(tǒng)的人員基本數(shù)據(jù),諸如:人員的基本信息、學(xué)業(yè)信息、崗位信息等。

高校分而治之的管理以及各部門管理力度不一,使得高校中人員數(shù)據(jù)分散,缺乏統(tǒng)一的人員信息模型,沒(méi)有進(jìn)行一體化管理,造成數(shù)據(jù)質(zhì)量問(wèn)題。主要體現(xiàn)在以下幾個(gè)方面:

(1) 人員數(shù)據(jù)來(lái)源多個(gè)系統(tǒng)且使用不同的主鍵標(biāo)識(shí)

目前高校人員管理的主要部門為:人事處、教務(wù)處、研究生院、留學(xué)生辦公室,分別對(duì)應(yīng)管理:教職工、本科生、研究生、留學(xué)生,分別對(duì)應(yīng)不同的管理系統(tǒng),并使用不同的學(xué)號(hào)或工號(hào)(下稱“學(xué)工號(hào)”)作為主鍵標(biāo)識(shí)。

(2) 同一人員在不同階段角色不一

同一系統(tǒng)中同一人不同階段存在多個(gè)身份,如:研究生系統(tǒng)中不同的培養(yǎng)層次,如碩士生升入博士生,同一個(gè)人有不同的學(xué)號(hào)對(duì)應(yīng);人事系統(tǒng)中,從博士后、到派遣人員、到編制類人員或高研院人員,同一個(gè)人不同階段有不同的工號(hào)對(duì)應(yīng)。同一人同一身份在不同系統(tǒng)中,如本科長(zhǎng)學(xué)制學(xué)生,在完成學(xué)業(yè)申請(qǐng)碩士學(xué)位前會(huì)以同一學(xué)號(hào)進(jìn)入研究生系統(tǒng),同一身份同時(shí)存在于兩個(gè)系統(tǒng)。不同時(shí)期擁有相同的身份,如未取得學(xué)位的博士生幾年后重新考取繼續(xù)博士學(xué)位攻讀,博士生階段就有不同的學(xué)號(hào)對(duì)應(yīng)。

(3) 源頭數(shù)據(jù)錄入帶來(lái)的數(shù)據(jù)質(zhì)量問(wèn)題

源頭數(shù)據(jù)甚至是關(guān)鍵數(shù)據(jù)都可能出現(xiàn)重復(fù)、不一致、不完整的情況。如:姓名拼寫錯(cuò)誤,證件號(hào)等關(guān)鍵信息為空,簡(jiǎn)體或繁體,縮寫或全稱,重復(fù)分配學(xué)工號(hào),文本字段的不規(guī)范填寫等。

(4) 歷史數(shù)據(jù)遺留帶來(lái)的數(shù)據(jù)質(zhì)量問(wèn)題

高校的人員管理系統(tǒng)已經(jīng)運(yùn)行多年,早期存在一些數(shù)據(jù)質(zhì)量相對(duì)較低的人員信息,特別是人事系統(tǒng)中,上百年的教職工信息以及并校等原因,使得有些人員的關(guān)鍵信息不完整、不準(zhǔn)確,且無(wú)從追查。

高校數(shù)據(jù)治理中最重要的一環(huán)是人員數(shù)據(jù)的治理,而人員信息的整合是數(shù)據(jù)治理的第一步。

2 高校人員信息整合的方法

人員數(shù)據(jù)是高校所有核心數(shù)據(jù)中的主數(shù)據(jù),是學(xué)校所有業(yè)務(wù)運(yùn)行的基礎(chǔ),其數(shù)據(jù)質(zhì)量的好壞直接影響到對(duì)師生管理和服務(wù)水平的提高。

2.1 總體思路

將一個(gè)人多個(gè)系統(tǒng)中不同階段的多個(gè)身份,通過(guò)算法將其識(shí)別為同一個(gè)人,并用校內(nèi)唯一的人員唯一編號(hào)PID(Person ID)予以標(biāo)識(shí),即將人次轉(zhuǎn)化為人,根據(jù)設(shè)計(jì)的一體化人員信息模型,對(duì)其全生命周期進(jìn)行管理,將不同階段的信息作為其全生命周期的一個(gè)片段,即達(dá)到人員整合的目的,如圖1所示。

圖1 高校人員信息整合的總體思路

2.2 問(wèn)題分析

解決思路的關(guān)鍵在于從現(xiàn)有紛繁復(fù)雜的人員信息中判斷是否為同一個(gè)人。從圖1看出同一個(gè)人的學(xué)工號(hào)并不唯一,只能作為重要參考信息。而作為人員的關(guān)鍵屬性如身份證、姓名等理論上是可以唯一確定的,但是因各種數(shù)據(jù)質(zhì)量問(wèn)題使得判斷依據(jù)變得復(fù)雜。

(1) 姓名問(wèn)題

相同的證件號(hào),在不同系統(tǒng)甚至同一個(gè)系統(tǒng)中,姓名存在各種差異,如同音字、生僻字用符號(hào)或拼音代替、少數(shù)名族姓名中間點(diǎn)等等。

(2) 證件號(hào)問(wèn)題

除很多由于歷史遺留問(wèn)題或留學(xué)生護(hù)照號(hào)獲取有延遲,造成證件號(hào)為空的情況外,對(duì)于有證件號(hào)的數(shù)據(jù),也存在身份證號(hào)不是15或18位的、年份生日不合規(guī)的、含有特殊字符的等問(wèn)題。

(3) 復(fù)合問(wèn)題

從姓名、證件號(hào)單一來(lái)看,數(shù)據(jù)都是規(guī)范的,但將數(shù)據(jù)綜合起來(lái)分析時(shí),會(huì)發(fā)現(xiàn)較多的問(wèn)題,諸如:兩人共用證件號(hào)、兩人共用學(xué)工號(hào)、同一個(gè)人在不同系統(tǒng)中的證件號(hào)不同等。

2.3 算法流程

針對(duì)前文所述的數(shù)據(jù)特點(diǎn)和數(shù)據(jù)質(zhì)量的現(xiàn)狀,提出人員信息整合的原則:1)定期獲取業(yè)務(wù)系統(tǒng)的人員數(shù)據(jù),并獲得增量變化數(shù)據(jù);2)選取關(guān)鍵屬性進(jìn)行組合判斷:姓名+證件號(hào)+證件類型+學(xué)工號(hào);3)在算法中多層次考慮組合屬性數(shù)據(jù)質(zhì)量可能造成的影響判斷的因素;4)算法能處理相對(duì)規(guī)范化的情況,對(duì)于個(gè)別異常情況的數(shù)據(jù),增加可疑數(shù)據(jù)人工處理的環(huán)節(jié);5)歷史無(wú)從確認(rèn)的數(shù)據(jù),對(duì)于關(guān)鍵屬性不全的,為其執(zhí)行一次性的初始化算法,當(dāng)其后續(xù)信息不再改變時(shí),這些歷史人員不再納入算法。

根據(jù)這些原則,人員整合的算法流程分為3個(gè)步驟實(shí)施。如圖2所示。

(1) 數(shù)據(jù)預(yù)處理

數(shù)據(jù)倉(cāng)庫(kù)每天從源頭系統(tǒng)中獲取增量數(shù)據(jù),檢查數(shù)據(jù)關(guān)鍵信息的完整性,對(duì)證件號(hào)進(jìn)行必要的規(guī)范化處理,梳理出具備條件進(jìn)入下一環(huán)節(jié)的數(shù)據(jù),其過(guò)程如圖3所示。

(2) 基于關(guān)鍵屬性匹配的人員唯一性識(shí)別

采用人員的關(guān)鍵屬性:姓名、證件類型、證件號(hào)碼(下稱“名”、“類”、“號(hào)”)作為基本的判斷條件,輔以學(xué)工號(hào)作為補(bǔ)充判斷依據(jù),詳細(xì)過(guò)程如圖4所示。

圖2 高校人員信息整合的算法流程

圖3 高校人員信息整合數(shù)據(jù)預(yù)處理

圖4 基于關(guān)鍵屬性匹配規(guī)則的人員識(shí)別

將不同階段用不同身份標(biāo)識(shí)的一個(gè)人識(shí)別為同一個(gè)人,整合后將為其分配唯一編號(hào)PID,區(qū)別于源業(yè)務(wù)系統(tǒng)中的學(xué)工號(hào)(源業(yè)務(wù)系統(tǒng)為管理需要為人員分配的ID號(hào),下稱“SID”)。

人員整合后,將產(chǎn)生一個(gè)完整的PID列表存放一個(gè)人的PID及對(duì)應(yīng)的關(guān)鍵屬性(即PID信息表,下稱“info表”),另外還有一個(gè)表達(dá)PID和SID之間關(guān)系的列表(即PID與SID關(guān)聯(lián)表,下稱“rela表”)。通過(guò)這兩個(gè)列表,可以將人的所有信息表達(dá)完整。

對(duì)于所有的人員,正常流程主要有兩類,一類是全新的人,第一次進(jìn)入某一個(gè)人員系統(tǒng),在關(guān)鍵組合信息規(guī)范完整的情況下,算法為其分配一個(gè)新PID;一類是新的身份,諸如升學(xué)本校研究生、留校任教、轉(zhuǎn)編等環(huán)節(jié),在關(guān)鍵組合信息規(guī)范一致的情況下,算法將現(xiàn)有PID和新SID進(jìn)行關(guān)聯(lián)。

流程中的異常分支,主要用于處理和識(shí)別非正常的情況,如證件號(hào)、學(xué)工號(hào)被共用,錄入時(shí)證件號(hào)、姓名等關(guān)鍵字段不一致等。算法中將這些無(wú)法自動(dòng)識(shí)別的信息記錄到異常表中,進(jìn)入可疑處理環(huán)節(jié)。

(3) 可疑數(shù)據(jù)人工處理

對(duì)于算法無(wú)法處理的異常問(wèn)題,將其詳細(xì)展示并進(jìn)行人工處理,如圖5所示。由專門人員進(jìn)行核查,確認(rèn)需要新增的人員為其分配新的PID,確認(rèn)是原先存在的人員,將信息合并到原PID中。對(duì)于錯(cuò)誤的信息,則提交源頭系統(tǒng)修正,對(duì)于無(wú)效的信息,則將異常記錄忽略。

對(duì)于與源頭確認(rèn)修改正確的人員數(shù)據(jù),實(shí)現(xiàn)合并、失效、更新等操作,將確定正確的修改直接作用到人員整合結(jié)果集中。如:當(dāng)源頭修改了一個(gè)現(xiàn)有人員(PID、SID已有)的證件號(hào)時(shí),算法拋出Q202異常,并將異常詳細(xì)信息展示出來(lái)。異常信息經(jīng)過(guò)源業(yè)務(wù)管理員確認(rèn),若是該人員修改了證件號(hào),則將新證件號(hào)關(guān)聯(lián)到原PID上;若是該SID給了一個(gè)新進(jìn)人員使用,則為該人員分配一個(gè)新PID,將證件號(hào)與新PID進(jìn)行關(guān)聯(lián);若是本次證件號(hào)修改為一個(gè)誤操作,則將該異常忽略,不做任何改動(dòng)。

經(jīng)過(guò)人工確認(rèn)后的異常,如果是需要源系統(tǒng)修改的問(wèn)題,源頭管理人員操作修改后的數(shù)據(jù)將進(jìn)入下一輪的算法整合,正確的修改便直接作用到人員整合結(jié)果集中。

主要問(wèn)題包含:1)數(shù)據(jù)完整性不夠:如身份證號(hào)為空或不符合規(guī)范,這類問(wèn)題須源頭將數(shù)據(jù)進(jìn)行完整化后再行處理。2)源頭糾錯(cuò)產(chǎn)生的各種異常情況需要確認(rèn):如源頭發(fā)現(xiàn)同一個(gè)人分配了多個(gè)工號(hào)后,將其中一個(gè)工號(hào)重新分給了另外一個(gè)新進(jìn)校人員等。此類非常規(guī)性問(wèn)題,需要數(shù)據(jù)源頭進(jìn)行確認(rèn)后進(jìn)行對(duì)應(yīng)操作。3)全量檢查異常問(wèn)題:源頭系統(tǒng)中人員或歷史數(shù)據(jù)經(jīng)過(guò)人員整合步驟后,并未為其生成PID的情況。有些異常數(shù)據(jù)由于師生離校時(shí)間太長(zhǎng),源業(yè)務(wù)管理人員也無(wú)法確認(rèn)其數(shù)據(jù)的正確性,這些數(shù)據(jù)將保留在異常數(shù)據(jù)歷史表中存放,管理人員可方便地在平臺(tái)上查看,待時(shí)機(jī)成熟時(shí)再行處理,如圖5所示。

圖5 可疑數(shù)據(jù)處理

3 高校人員信息整合的實(shí)踐效果

以同濟(jì)大學(xué)為例,從2014年開(kāi)始建設(shè)數(shù)據(jù)倉(cāng)庫(kù),現(xiàn)已將所有重要業(yè)務(wù)系統(tǒng)的重要數(shù)據(jù)都入倉(cāng),并每天抽取一份全量數(shù)據(jù),人員整合方案便是建立在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上進(jìn)行的。

通過(guò)人員整合算法,第一步對(duì)學(xué)校所有在系統(tǒng)中管理的人員實(shí)施整合,截止2017年10月20日,將原有的234 519人整合為205 732人,效果如圖6所示。

圖6 高校人員信息整合效果

一個(gè)人在校園生活中存在的多個(gè)身份也能直觀地展示出來(lái),如圖7所示。

結(jié)合人員整合的運(yùn)維功能,從運(yùn)維平臺(tái)界面上可以直觀地查看每天整合完成的情況,如圖8所示。

4 總結(jié)

人員信息整合后形成的人員“黃金視圖”,是精確的、完整的、可信任的人員信息,是提供個(gè)性化、精細(xì)化、精準(zhǔn)服務(wù)的基礎(chǔ)。同濟(jì)大學(xué)于2015年開(kāi)始引入同心云平臺(tái),成為了學(xué)校正式使用的官方云平臺(tái),其中聚集著各類師生的服務(wù)應(yīng)用,有專門針對(duì)教師的、有針對(duì)學(xué)生的、有向全體開(kāi)放的、有只對(duì)研究生開(kāi)放的等等,這些應(yīng)用統(tǒng)一通過(guò)整合后人員對(duì)外提供接口,自動(dòng)識(shí)別用戶是否為該應(yīng)用的合法用戶。除此之外,整合后的人員信息還正在用于支撐學(xué)校的身份認(rèn)證系統(tǒng)、校級(jí)的綜合性應(yīng)用、校友的精準(zhǔn)服務(wù)等。

圖7 高校人員的多重身份展示效果

圖8 高校人員信息整合運(yùn)維平臺(tái)

目前人員信息整合還是數(shù)據(jù)治理的第一步初探工作,焦點(diǎn)主要集中在梳理人員既有數(shù)據(jù),致力于形成一套經(jīng)過(guò)整合可信賴的人員庫(kù),目前已經(jīng)基本達(dá)到該既定目標(biāo)。但人員信息整合和數(shù)據(jù)治理的目標(biāo)還遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到,接下來(lái)主要從以下兩個(gè)方面進(jìn)一步探索:1)與主數(shù)據(jù)管理相結(jié)合,在人員信息的產(chǎn)生環(huán)節(jié)就進(jìn)行人員整合,減少產(chǎn)生數(shù)據(jù)質(zhì)量問(wèn)題的源頭,從而形成更加有效的整合機(jī)制;2)探索逐步形成數(shù)據(jù)治理閉環(huán)機(jī)制,從數(shù)據(jù)的產(chǎn)生、整合處理、應(yīng)用各環(huán)節(jié)形成閉環(huán),完善數(shù)據(jù)處理的管理規(guī)范,從而長(zhǎng)效地促進(jìn)治理體系和治理能力的提升。

猜你喜歡
學(xué)工證件源頭
深化改革創(chuàng)新 強(qiáng)化源頭治理
因應(yīng)聘證件引發(fā)的勞動(dòng)糾紛
安徽師范大學(xué)學(xué)工系統(tǒng)戰(zhàn)役工作紀(jì)實(shí)
學(xué)工團(tuán)隊(duì)自省:解決校園文化沖突的有效途徑研究
?;卦搭^看看
學(xué)院成功舉辦2017年伊朗出入境證件識(shí)別培訓(xùn)班
高校學(xué)工事務(wù)管理流程標(biāo)準(zhǔn)化及教育路徑初探
從源頭上確保食品安全
源頭
淺析高校學(xué)工助理隊(duì)伍建設(shè)
——學(xué)工助理的角色定位與管理
苏尼特左旗| 马龙县| 盐源县| 和顺县| 都匀市| 林口县| 哈尔滨市| 谢通门县| 揭西县| 长春市| 湾仔区| 增城市| 墨玉县| 永丰县| 科尔| 应城市| 泽库县| 中西区| 黄骅市| 辽宁省| 偃师市| 金乡县| 陆丰市| 潮州市| 黄冈市| 汝阳县| 静安区| 合作市| 邹城市| 房山区| 浦城县| 安国市| 青川县| 富裕县| 武鸣县| 武安市| 林周县| 阿巴嘎旗| 滨海县| 长海县| 宜兴市|