方奇超,劉華金
基于云平臺(tái)的數(shù)據(jù)處理系統(tǒng)開(kāi)發(fā)
方奇超,劉華金
浙江越秀外國(guó)語(yǔ)學(xué)院, 浙江 紹興 312000
數(shù)據(jù)處理系統(tǒng)主要是加工和整理各種數(shù)據(jù)信息,計(jì)算出相關(guān)的分析指標(biāo),在各行業(yè)中應(yīng)用廣泛。本系統(tǒng)處理的是高校招生數(shù)據(jù),以Citrix技術(shù)和云平臺(tái)為依托,彌補(bǔ)了傳統(tǒng)C/S結(jié)構(gòu)的不足。整個(gè)數(shù)據(jù)處理流程包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、生成新生數(shù)據(jù)、數(shù)據(jù)加工、數(shù)據(jù)統(tǒng)計(jì)等,全面實(shí)現(xiàn)招生數(shù)據(jù)的處理工作。在用戶友好度方面,本系統(tǒng)提供了自定義規(guī)則功能,包括分班規(guī)則自定義、學(xué)號(hào)流水號(hào)的順序自定義等,使用戶的操作更加方便。
數(shù)據(jù)處理系統(tǒng); 云平臺(tái); 數(shù)據(jù)轉(zhuǎn)換; 數(shù)據(jù)統(tǒng)計(jì)
數(shù)據(jù)處理系統(tǒng)(Data processing system)是指通過(guò)計(jì)算機(jī)處理數(shù)據(jù)信息而構(gòu)建的系統(tǒng)[1]。該系統(tǒng)的功能主要是加工和整理數(shù)據(jù)信息,并經(jīng)過(guò)計(jì)算得出相關(guān)分析指標(biāo),使信息形式更容易被人們所接受,最后在數(shù)據(jù)庫(kù)中儲(chǔ)存已經(jīng)處理的信息。數(shù)據(jù)庫(kù)是系統(tǒng)的核心節(jié)點(diǎn),計(jì)算與儲(chǔ)存工作都在數(shù)據(jù)庫(kù)中完成,常用的數(shù)據(jù)庫(kù)有Mysql、Oracle等。云平臺(tái)(Cloud platforms)則是一種開(kāi)放型的共享平臺(tái),允許已經(jīng)寫(xiě)好的程序在“云”里運(yùn)行,或是提供相應(yīng)的云服務(wù),或兩者皆是[2]。基于云平臺(tái)的數(shù)據(jù)處理系統(tǒng),能夠有效提高系統(tǒng)運(yùn)行效率,降低投入的成本。Sotiriadis等將“軟件即服務(wù)”、“附著服務(wù)”等云平臺(tái)核心理念引入到數(shù)據(jù)處理系統(tǒng)開(kāi)發(fā)中,有效提高了數(shù)據(jù)處理系統(tǒng)的服務(wù)效率[3]。Shafiq SI等借助云平臺(tái)Hadoop的分布式文件系統(tǒng)和分布式并行計(jì)算框架,構(gòu)建海量數(shù)字圖像數(shù)據(jù)處理系統(tǒng),實(shí)現(xiàn)海量數(shù)字圖像信息數(shù)據(jù)的挖掘和處理[4]。本文以基于云平臺(tái)的招生數(shù)據(jù)處理系統(tǒng)為例,對(duì)高校招錄取數(shù)據(jù)的轉(zhuǎn)換與統(tǒng)計(jì)進(jìn)行介紹,并實(shí)現(xiàn)該系統(tǒng)。
高校招生數(shù)據(jù)處理系統(tǒng)的主要功能是轉(zhuǎn)換錄取數(shù)據(jù)并進(jìn)行相關(guān)的統(tǒng)計(jì),軟件系統(tǒng)采用C/S結(jié)構(gòu),系統(tǒng)開(kāi)發(fā)語(yǔ)言為pb10.0。傳統(tǒng)C/S結(jié)構(gòu)在部署程序方面有著較高的成本,用戶使用系統(tǒng)要安裝客戶端軟件,當(dāng)系統(tǒng)更新后,還需要重新安裝客戶端[5]。因此,此次設(shè)計(jì)使用新型客戶端服務(wù)器技術(shù)Citrix,并將服務(wù)器部署在云平臺(tái)上面,形成一種基于云服務(wù)器的網(wǎng)絡(luò)計(jì)算模式。Citrix本身有客戶端與服務(wù)器端,但客戶端軟件安裝于服務(wù)器中,因此用戶無(wú)需下載和安裝客戶端,而是通過(guò)網(wǎng)頁(yè)登錄即可訪問(wèn)系統(tǒng),由此達(dá)到了統(tǒng)一部署和版本控制的目標(biāo)[6]。Citrix服務(wù)器可以根據(jù)用戶填寫(xiě)的登錄信息,有效識(shí)別用戶身份并控制權(quán)限,大幅降低服務(wù)器與客戶端的流量,并提高了系統(tǒng)訪問(wèn)效率及安全性。
基于云平臺(tái)的招生數(shù)據(jù)處理系統(tǒng)需要實(shí)現(xiàn)錄取數(shù)據(jù)的接收與轉(zhuǎn)換,同時(shí)生成新生數(shù)據(jù),然后統(tǒng)計(jì)分析新生數(shù)據(jù)。由于招生業(yè)務(wù)階段性比較強(qiáng),整個(gè)操作過(guò)程環(huán)環(huán)相扣,按照這一特性設(shè)計(jì)系統(tǒng)功能,使系統(tǒng)功能部署與招生業(yè)務(wù)順序相一致,用戶操作更加方便。系統(tǒng)功能模型如圖1所示。本系統(tǒng)的核心是處理錄取數(shù)據(jù),考慮到招生業(yè)務(wù)存在多階段,每一階段的數(shù)據(jù)內(nèi)容和構(gòu)成有所不同,因此系統(tǒng)需要按照不同階段,歸納分析相關(guān)的業(yè)務(wù)數(shù)據(jù)。系統(tǒng)數(shù)據(jù)模型如圖2所示。
圖 1 系統(tǒng)功能模型圖
圖 2 系統(tǒng)數(shù)據(jù)模型圖
招生數(shù)據(jù)處理系統(tǒng)首先需要對(duì)高考錄取平臺(tái)的錄取數(shù)據(jù)進(jìn)行接收,這一步驟為數(shù)據(jù)預(yù)處理。系統(tǒng)從高考錄取平臺(tái)下載dbf文件,并根據(jù)格式與數(shù)據(jù)的對(duì)應(yīng)關(guān)系儲(chǔ)存到系統(tǒng)中,為后續(xù)數(shù)據(jù)處理奠定基礎(chǔ)。數(shù)據(jù)預(yù)處理的操作步驟如下:首先系統(tǒng)對(duì)招生錄取數(shù)據(jù)進(jìn)行讀取,其中主存儲(chǔ)數(shù)據(jù)為t_tdd.dbf,選擇該文件之后,系統(tǒng)會(huì)自動(dòng)在文件列表中顯示其余的dbf文件。其次系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行合成,根據(jù)上一步驟所獲得的數(shù)據(jù)情況,將所有數(shù)據(jù)按照dbf文件標(biāo)準(zhǔn)實(shí)施匯總操作,形成一個(gè)大數(shù)據(jù)表,然后生成新生通知書(shū)號(hào)。
由于錄取數(shù)據(jù)的編碼規(guī)則與校內(nèi)系統(tǒng)有所不同,因此需要按照雙方對(duì)應(yīng)關(guān)系進(jìn)行一定的數(shù)據(jù)轉(zhuǎn)換,才能使錄取數(shù)據(jù)在校內(nèi)系統(tǒng)正常使用。轉(zhuǎn)換操作主要分成兩個(gè)階段:第一階段形成專業(yè)對(duì)應(yīng)關(guān)系,包括學(xué)院名稱和專業(yè)號(hào)、專業(yè)名稱相對(duì)應(yīng);第二階段進(jìn)行專業(yè)轉(zhuǎn)換操作,可以根據(jù)專業(yè)名稱進(jìn)行轉(zhuǎn)換,或者根據(jù)專業(yè)號(hào)進(jìn)行轉(zhuǎn)換,本系統(tǒng)按照專業(yè)號(hào)進(jìn)行轉(zhuǎn)換,由于錄取數(shù)據(jù)的專業(yè)名稱定義可能與校內(nèi)定義有所不同,因此還要根據(jù)專業(yè)號(hào)更新相應(yīng)的專業(yè)名。
按照錄取數(shù)據(jù)的后續(xù)用途不同以及迎新數(shù)據(jù)要求,本系統(tǒng)的新生數(shù)據(jù)包含如下:(1)新生的基本信息;(2)新生的錄取成績(jī);(3)監(jiān)護(hù)人信息;(4)新生的戶口信息;(5)新生的社會(huì)關(guān)系信息。系統(tǒng)接收到這些信息之后,在一個(gè)大數(shù)據(jù)表中進(jìn)行匯總,然后根據(jù)數(shù)據(jù)主題的不同實(shí)施拆分操作,將各種數(shù)據(jù)信息編入到相應(yīng)數(shù)據(jù)表中,以便后續(xù)的數(shù)據(jù)處理及導(dǎo)出。新生數(shù)據(jù)庫(kù)生成之后,可校驗(yàn)各種數(shù)據(jù),確保數(shù)據(jù)接收與轉(zhuǎn)換不會(huì)發(fā)生錯(cuò)誤。
當(dāng)新生數(shù)據(jù)庫(kù)生成之后,相關(guān)數(shù)據(jù)的關(guān)鍵字段依然是錄取通知書(shū)號(hào),而校內(nèi)系統(tǒng)主要以學(xué)號(hào)作為身份識(shí)別手段,因此還需要進(jìn)行數(shù)據(jù)加工。學(xué)號(hào)生成序列通常是以班級(jí)作為依據(jù)的,因此首先要進(jìn)行分班。新生的分班通常要遵循一定規(guī)則,例如成績(jī)好的學(xué)生要平均分配到各班,同一專業(yè)下的男女生分配也要均勻。為使用戶操作方便,本系統(tǒng)使用自定義分班規(guī)則,即用戶可以按照實(shí)際需求對(duì)分班規(guī)則進(jìn)行自定義。但分班時(shí)可能會(huì)出現(xiàn)特殊情況,例如某個(gè)專業(yè)里只有兩位女生,則需要將她們分在一個(gè)班內(nèi),使女生之間有所照應(yīng),這種情況下用戶動(dòng)態(tài)設(shè)置就難以實(shí)現(xiàn),只能體現(xiàn)在程序代碼之中。同時(shí)本系統(tǒng)具備數(shù)據(jù)校驗(yàn)功能,可以實(shí)時(shí)校驗(yàn)分配情況,確保分班結(jié)果的正確性。分學(xué)號(hào)則是以分班為基礎(chǔ),為每一位新生分配獨(dú)一無(wú)二的學(xué)號(hào)。本系統(tǒng)的學(xué)號(hào)信息共有10位數(shù)字,其中前4位數(shù)字是招生的年份,中間2位數(shù)字是招生的類(lèi)型,最后4位數(shù)字是流水號(hào)。在本系統(tǒng)中,流水號(hào)生成的順序也可以自定義,從而使用戶可以按照實(shí)際情況對(duì)流水號(hào)生成方式進(jìn)行及時(shí)調(diào)整。
統(tǒng)計(jì)招生信息是學(xué)校招生工作的一個(gè)重點(diǎn)。當(dāng)編制新一年的招生計(jì)劃時(shí),需要按照上一年招生結(jié)果實(shí)施調(diào)整,因此在招生數(shù)據(jù)處理系統(tǒng)中,數(shù)據(jù)統(tǒng)計(jì)模塊必不可少。本系統(tǒng)的統(tǒng)計(jì)功能可以覆蓋所有的招生數(shù)據(jù),包括招生計(jì)劃執(zhí)行情況統(tǒng)計(jì)、新生基本情況統(tǒng)計(jì)、按專業(yè)分類(lèi)人數(shù)綜合統(tǒng)計(jì)、各錄取類(lèi)別新生人數(shù)統(tǒng)計(jì)、各專業(yè)高考投檔分、平均分統(tǒng)計(jì)、報(bào)到率、生源地、民族等。此外,本系統(tǒng)還能統(tǒng)計(jì)多年份數(shù)據(jù),只要對(duì)當(dāng)前年份或歷史年份進(jìn)行設(shè)置,即可實(shí)現(xiàn)相應(yīng)的統(tǒng)計(jì)報(bào)表,這樣使用戶歸檔操作更加方便,同時(shí)還能為報(bào)考指南等相關(guān)宣傳手冊(cè)提供數(shù)據(jù)。
近年來(lái),基于云平臺(tái)的數(shù)據(jù)處理系統(tǒng)越來(lái)越受到學(xué)界關(guān)注,并引起學(xué)界廣泛討論。張麗勇針對(duì)當(dāng)前內(nèi)河航運(yùn)中船舶吃水存在的諸多問(wèn)題,提出一種基于云平臺(tái)及超聲波技術(shù)的船舶吃水實(shí)時(shí)檢測(cè)系統(tǒng),可以實(shí)時(shí)監(jiān)測(cè)和處理異常數(shù)據(jù),并對(duì)船舶吃水?dāng)?shù)據(jù)進(jìn)行分割,從而獲得準(zhǔn)確的船舶吃水?dāng)?shù)據(jù)[7]。范磊等提出以云數(shù)據(jù)、云計(jì)算為核心的農(nóng)業(yè)大數(shù)據(jù)分析云平臺(tái)設(shè)計(jì)方案,其中云數(shù)據(jù)采用分布式數(shù)據(jù)處理方式,以更好地處理多源異構(gòu)數(shù)據(jù),云計(jì)算由提供模糊控制等算法的基礎(chǔ)運(yùn)算層和提供生產(chǎn)銷(xiāo)售等分析模型的分析模型庫(kù)組成[8]。李潔珊等提出了一種基于Open Stack的輸電線路數(shù)據(jù)云平臺(tái)架構(gòu),共分?jǐn)?shù)據(jù)采集層、數(shù)據(jù)中心層、應(yīng)用層、接入層四個(gè)層次,充分利用Open Stack技術(shù)靈活性、松耦合、開(kāi)源性的優(yōu)勢(shì),提供實(shí)施簡(jiǎn)單、可大規(guī)模擴(kuò)展的云計(jì)算管理平臺(tái),實(shí)現(xiàn)了云主機(jī)、云硬盤(pán)、對(duì)象存儲(chǔ)及關(guān)系型數(shù)據(jù)庫(kù)等服務(wù)[9]。從總體情況看,基于云平臺(tái)的數(shù)據(jù)處理系統(tǒng)相關(guān)研究雖然取得了一定進(jìn)展,但還需要進(jìn)一步創(chuàng)新研究方向,才能使數(shù)據(jù)處理系統(tǒng)在各領(lǐng)域得到更好的應(yīng)用。
在云計(jì)算和大數(shù)據(jù)技術(shù)的快速發(fā)展下,傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)有更多的開(kāi)拓和創(chuàng)新途徑。本系統(tǒng)基于云服務(wù)器實(shí)現(xiàn)網(wǎng)絡(luò)計(jì)算,采用先進(jìn)的Citrix技術(shù),有效彌補(bǔ)了傳統(tǒng)C/S結(jié)構(gòu)的不足。整個(gè)招生數(shù)據(jù)處理流程包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、生成新生數(shù)據(jù)、數(shù)據(jù)加工、數(shù)據(jù)統(tǒng)計(jì)等,都能在Citrix技術(shù)的支持下有效實(shí)現(xiàn)。在用戶友好度方面,本系統(tǒng)提供了自定義規(guī)則功能,包括分班規(guī)則自定義、學(xué)號(hào)流水號(hào)的順序自定義等,使用戶的操作更加方便。
[1] Combrinck M.Using representative synthetic data to analyze effects of filters when processing full waveform airborne TEM data[J].ASEG Extended Abstracts, 2018,47(1):1-15
[2] Anureet A, Bikrampal K, Kaur B. An Effective Technique to Decline Energy Expenditure in Cloud Platforms[J]. International Journal of Modern Education and Computer Science (IJMECS), 2018,10(2):54-62
[3] Sotiriadis S, Nik B, Euripides GM,Virtual machine cluster mobility in inter-cloud platforms[J].Future generations computer systems, 2017,74(6):179-189
[4] Shafiq SI, Szczerbicki E, Sanin C.Manufacturing data analysis in internet of things/internet of data (IoT/IoD) scenario[J].Syed imran shafiq edward szczerbicki cesar sanin, 2018,49(3):1-16
[5] 陳澤堃,李強(qiáng),逯峻雨.一種弱C/S架構(gòu)的計(jì)算遷移模型的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2018(5):1421-1425
[6] Rachna G. Citrix powers mobility driven work spaces[J]. Voice & data: the business of communications, 2015,22(6):28-39
[7] 張麗勇.基于云平臺(tái)的船舶吃水實(shí)時(shí)檢測(cè)系統(tǒng)數(shù)據(jù)處理技術(shù)[J].艦船科學(xué)技術(shù),2016(24):91-93
[8] 范磊,李鳳利,鄭國(guó)清,等.農(nóng)業(yè)企業(yè)集團(tuán)大數(shù)據(jù)分析云平臺(tái)設(shè)計(jì)及應(yīng)用[J].河南農(nóng)業(yè)科學(xué),2018(5):155-160
[9] 李潔珊,趙志勤.基于Open Stack的輸電線路數(shù)據(jù)云平臺(tái)架構(gòu)設(shè)計(jì)[J].機(jī)電工程,2018(1):79-82
Development of Data Processing System Based on Cloud Platform
FANG Qi-chao, LIU Hua-jin
312000,
Data processing system mainly processes and collates various data information, calculates relevant analysis indicators, and is widely used in various industries. This system deals with the enrollment data of colleges and universities. It relies on Citrix technology and cloud platform to make up for the shortcomings of traditional C/S structure. The whole data processing process includes data preprocessing, data conversion, generation of new data, data processing, data statistics and so on, which comprehensively realizes the processing of enrollment data. In terms of user friendliness, the system provides the function of customization rules, including the customization of shift rules and the sequence customization of school number, which makes the operation of users more convenient.
Data processing system; cloud platform; data conversion; data statistics
C931.9
A
1000-2324(2019)03-0438-03
10.3969/j.issn.1000-2324.2019.03.017
2018-04-12
2018-06-02
2016年浙江省教育廳大學(xué)生思想政治教育專項(xiàng)課題(Y201635073);紹興市哲學(xué)社會(huì)科學(xué)研究“十三五”規(guī)劃2019年度重點(diǎn)課題(135477)
方奇超(1977-),男,碩士,助理研究員,主要研究方向?yàn)樗颊逃c就業(yè)創(chuàng)業(yè)指導(dǎo). E-mail:357614559@qq.com
山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版)2019年3期