楊朔+楊威+陶礫+金鳳飛
摘 要: 科技云服務(wù)平臺(tái)積累了大量科技數(shù)據(jù),而數(shù)據(jù)質(zhì)量問題會(huì)對大數(shù)據(jù)的應(yīng)用產(chǎn)生致命影響,因此需要對存在質(zhì)量問題的大數(shù)據(jù)進(jìn)行清洗。文章提出了一種數(shù)據(jù)清洗模型,采用神經(jīng)網(wǎng)絡(luò),依據(jù)數(shù)據(jù)相關(guān)性原則實(shí)現(xiàn)高可擴(kuò)展性的大數(shù)據(jù)清洗。使用該模型,能夠以計(jì)算機(jī)自動(dòng)化數(shù)據(jù)修正的方式代替數(shù)據(jù)補(bǔ)錄與修正工作,有效地提升工作效率。
關(guān)鍵詞: 海量數(shù)據(jù); 數(shù)據(jù)清洗; 神經(jīng)網(wǎng)絡(luò)模型; 多任務(wù)優(yōu)化; MapReduce
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2017)07-06-03
Data cleaning model of the science and technology cloud based on
neural networks and MapReduce
Yang Shuo, Yang Wei, Tao Li, Jin Fengfei
(Zhejiang Topcheer Information Technology Co.,Ltd., Hangzhou, Zhejiang 310006, China)
Abstract: The science and technology cloud service platform has accumulated a large number of scientific and technological data, and the data quality problem will result in a fatal impact on the application of big data. Therefore, the massive data with quality problem need to be cleaned. In this paper, a data cleaning model is proposed, which according to the data correlation principle, uses neural networks to realize the big data cleaning with high scalability. Using this model, the repeated data refills and corrections can be replaced by computer automatic data correction, the work efficiency is effectively improved.
Key words: massive data; data cleaning; neural network model; multitask optimization; MapReduce
0 引言
科技創(chuàng)新云服務(wù)平臺(tái)的建設(shè)過程中,集成了大量科技數(shù)據(jù),由于數(shù)據(jù)的來源廣泛,數(shù)據(jù)標(biāo)準(zhǔn)不同,數(shù)據(jù)錄入要求及錄入人的素質(zhì)差異,導(dǎo)致大量的“臟”數(shù)據(jù)產(chǎn)生,從而導(dǎo)致了數(shù)據(jù)的可用性降低,影響整個(gè)數(shù)據(jù)分析的過程。
1 現(xiàn)狀分析
云平臺(tái)現(xiàn)有的數(shù)據(jù)分為幾大類,一是基礎(chǔ)數(shù)據(jù),如機(jī)構(gòu)信息、載體信息、人員信息等,該類信息有明確的來源,可通過業(yè)務(wù)認(rèn)定系統(tǒng)以及工商、行政、公安、民政等第三方管理部門的接口進(jìn)行驗(yàn)證;二是業(yè)務(wù)數(shù)據(jù),由業(yè)務(wù)相關(guān)人員完成填報(bào),需要經(jīng)過監(jiān)管部門和專家校驗(yàn),出錯(cuò)的可能性不大,有一定的時(shí)效性和制約性;三是其他輔助數(shù)據(jù),如證明材料等等。因?yàn)樵破脚_(tái)的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)中抽取而來,而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤的,有的數(shù)據(jù)相互之間有沖突。目前不符合要求的數(shù)據(jù)主要有不完整的、錯(cuò)誤的、重復(fù)的數(shù)據(jù)三大類。
⑴ 不完整的數(shù)據(jù)主要是一些應(yīng)該有的信息缺失,如儀器設(shè)備信息中儀器設(shè)備的英文名稱、產(chǎn)地國別、生產(chǎn)制造商、主要技術(shù)指標(biāo)等等,這類數(shù)據(jù)在業(yè)務(wù)填報(bào)時(shí)往往不做要求,但在需要查找定位設(shè)備時(shí)卻有很重要的意義。
⑵ 錯(cuò)誤的數(shù)據(jù)產(chǎn)生的原因主要是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒有進(jìn)行判斷或無法判斷正確值域的情況下直接寫入后臺(tái)數(shù)據(jù)庫造成的。
⑶ 重復(fù)的數(shù)據(jù)的產(chǎn)生原因主要因?yàn)閿?shù)據(jù)入口不統(tǒng)一,同一個(gè)數(shù)據(jù)通過不同的入口被錄入系統(tǒng),由于申報(bào)口徑并不統(tǒng)一,申報(bào)人不同,導(dǎo)致無法判斷是否為重復(fù)數(shù)據(jù)。
科技數(shù)據(jù)本身的嚴(yán)謹(jǐn)性很重要,其相關(guān)性也是數(shù)據(jù)分析的重要因素,為了能有效的利用科技數(shù)據(jù),將其作為科技工作決策提供依據(jù),基礎(chǔ)數(shù)據(jù)就需要盡量完整、嚴(yán)謹(jǐn)并且具有明晰的關(guān)系網(wǎng),而這就需要進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)清洗(Data cleaning)——對數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。
傳統(tǒng)的清洗方式一般是要求數(shù)據(jù)來源方重新梳理補(bǔ)全并修正,但這樣工作量很大,特別是不同的管理入口負(fù)責(zé)人并不能確保哪一方的數(shù)據(jù)是正確的,僅僅針對系統(tǒng)中幾十萬條待處理的科研儀器設(shè)備,就有很大的難度,更何況是云平臺(tái)內(nèi)TB級的海量數(shù)據(jù),所以就需要有一種計(jì)算機(jī)自動(dòng)化的方式來進(jìn)行數(shù)據(jù)清洗工作。
2 模型設(shè)計(jì)
以科研設(shè)備為例,簡單的設(shè)備信息記錄的清洗通過對單一表的分析無法實(shí)現(xiàn)自動(dòng)化數(shù)據(jù)清理,但是將設(shè)備的基本信息與申報(bào)單位信息、單位之間的關(guān)聯(lián)信息、設(shè)備維護(hù)人員信息、設(shè)備使用信息等大量相關(guān)內(nèi)容進(jìn)行組合,將單一的設(shè)備信息變成多維度的綜合信息后,就可以利用設(shè)備的關(guān)系網(wǎng)進(jìn)行分析。因此本文設(shè)計(jì)通過神經(jīng)網(wǎng)絡(luò),利用云平臺(tái)中的海量數(shù)據(jù)進(jìn)行分析,從而去除重復(fù),修正錯(cuò)誤并盡可能的補(bǔ)足缺失內(nèi)容。
2.1 構(gòu)建遺傳神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)是一種模擬人腦信息處理機(jī)制的網(wǎng)絡(luò)系統(tǒng),它對輸入輸出樣本進(jìn)行自動(dòng)學(xué)習(xí),將輸入輸出之間的映射規(guī)則自動(dòng)抽取并分布存儲(chǔ)在網(wǎng)絡(luò)的連接中,能夠以任意的精度逼近復(fù)雜的非線性映射。BP(backpropagation)神經(jīng)網(wǎng)絡(luò)是至今為止應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)。雖然得到廣泛應(yīng)用,BP神經(jīng)網(wǎng)絡(luò)也存在不足,最明顯的兩點(diǎn)不足是收斂速度慢和易陷入局部極小值。遺傳算法(GA- Genetic Algorithm)是一種自適應(yīng)的全局搜索算法,具有全局收斂、并行性和魯棒性等特點(diǎn)。
本文采用神經(jīng)網(wǎng)絡(luò)和遺傳算法結(jié)合的方法,利用遺傳算法搜索神經(jīng)網(wǎng)絡(luò)的權(quán)值的最優(yōu)解,可以在一定程度上能克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)易陷入局部極小值的缺點(diǎn)?;谝陨戏治觯瑢⑦z傳神經(jīng)網(wǎng)絡(luò)應(yīng)用到計(jì)算整個(gè)記錄的相關(guān)性中。
2.1.1 參數(shù)設(shè)定
遺傳神經(jīng)網(wǎng)絡(luò)各個(gè)參數(shù)設(shè)定如下。
⑴ 神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)
理論證明:三層BP神經(jīng)網(wǎng)絡(luò)可以以任意精度逼近非線性函數(shù)腳。本文采用三層結(jié)構(gòu),輸入層、隱藏層和輸出層的節(jié)點(diǎn)數(shù)分別為以n,m,1;神經(jīng)元的激勵(lì)函數(shù)一般采用Sigmoid函數(shù),即
⑵ 適應(yīng)度函數(shù)
在遺傳算法中,對適應(yīng)度函數(shù)的要求是:單調(diào),連續(xù),非負(fù)和最大化。由于目標(biāo)函數(shù)是神經(jīng)網(wǎng)絡(luò)中的誤差平方和,且為求其最小值,因此適應(yīng)度函數(shù)定義如下。
該式中,S訓(xùn)練樣本總數(shù),M輸出神經(jīng)元的個(gè)數(shù),E全局誤差,t期望輸出,y實(shí)際輸出。
⑶ 遺傳算子:選擇、交叉是遺傳算法的基本算子
選擇算子:采用輪盤賭選擇方式,以個(gè)體適應(yīng)度值的高低來進(jìn)行隨機(jī)選擇。保證了高適應(yīng)度值的個(gè)體以大的概率遺傳到下一代中去。計(jì)算適應(yīng)度為的個(gè)體對應(yīng)的選擇概率為
交叉算子:從父代里隨機(jī)選擇兩個(gè)個(gè)體,隨機(jī)地、獨(dú)立地選擇相同數(shù)目的連接權(quán)值進(jìn)行交換。選取的交換數(shù)目由自適應(yīng)交換率決定。這使得適應(yīng)值大的個(gè)體交換率小,適應(yīng)值小的交換率大,從而保證優(yōu)良個(gè)體的遺傳性。
變異算子:采用自適應(yīng)變異率,將變異率同個(gè)體的適應(yīng)度值聯(lián)系起來,使適應(yīng)度大的個(gè)體變異率小,適應(yīng)度小的個(gè)體變異率大。
2.1.2 網(wǎng)絡(luò)訓(xùn)練過程
先用BP算法訓(xùn)練一個(gè)預(yù)定結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),直到全局誤差不再減少為止,然后在此基礎(chǔ)上用遺傳算法進(jìn)行若干代的優(yōu)化,最后,再利用BP算法進(jìn)行局部的調(diào)整。這種組合方法的基本思想是先用BP算法確定使誤差函數(shù)取最小值的權(quán)值組合,再利用遺傳算法去掉可能的局部極小值,最后再利用BP算法進(jìn)行局部優(yōu)化。
網(wǎng)絡(luò)訓(xùn)練流程如圖1所示。
2.1.3 記錄相關(guān)性檢測框架
基于遺傳神經(jīng)網(wǎng)絡(luò)的相似重復(fù)記錄檢測系統(tǒng)的框架如圖2所示,系統(tǒng)分為訓(xùn)練階段和檢測階段。
在訓(xùn)練階段,首先,從數(shù)據(jù)集中抽取若干對記錄作為訓(xùn)練樣例,其次,使用上文中提出的記錄相關(guān)度計(jì)算方法根據(jù)兩個(gè)記錄的對應(yīng)字段的相關(guān)性計(jì)算出的記錄的相關(guān)度,并手工標(biāo)注記錄對的相關(guān)度;最后,將包含記錄相關(guān)度的特征矢量作為輸入,訓(xùn)練遺傳神經(jīng)網(wǎng)絡(luò)。
在檢測階段,為了降低時(shí)間復(fù)雜度,先對數(shù)據(jù)集進(jìn)行初步聚類,初步聚類采用基于Canopies的方法進(jìn)行,這種方法可以在數(shù)據(jù)集上快速產(chǎn)生若干個(gè)重疊的可能的相關(guān)記錄聚類;然后將同一聚類中的記錄兩兩組成記錄對,使用上文中提出的記錄相關(guān)度計(jì)算方法計(jì)算出記錄對的相關(guān)度,得到記錄對的相關(guān)度矢量,再利用訓(xùn)練好的遺傳神經(jīng)網(wǎng)絡(luò)計(jì)算記錄的相關(guān)度。最后選擇合適的閾值,確定相關(guān)的記錄。
2.2 數(shù)據(jù)修正
整理出相關(guān)數(shù)據(jù)后,可使用Hadoop 平臺(tái)對相關(guān)數(shù)據(jù)進(jìn)行基于任務(wù)合并的并行大數(shù)據(jù)清洗。下面通過圖3和式1簡要介紹本模塊的實(shí)現(xiàn)。
[開始][參數(shù)估計(jì)][連接][修正][結(jié)束]
⑴
⑴ 參數(shù)估計(jì)模塊
整個(gè)修正系統(tǒng)是用貝葉斯分類的思想來計(jì)算出概率最大的記錄作為標(biāo)準(zhǔn)記錄。參數(shù)估計(jì)模塊的任務(wù)是利用式⑴計(jì)算出所有的概率,其中P(X)對所有取值為常數(shù),所以只需要計(jì)算P(X|Ci)P(Ci)即可。在各個(gè)取值的先驗(yàn)概率未知的情況下,不妨假設(shè)其是等概率的,因此只需計(jì)算P(X|Ci)即可。對于具有多屬性的數(shù)據(jù)集則采用式⑵來計(jì)算P(X|Ci)。
⑵
因此,整個(gè)參數(shù)估計(jì)模塊就是用來計(jì)算所有屬性的每個(gè)取值的概率。概率論中認(rèn)為,當(dāng)樣本空間足夠大時(shí)概率≈頻率,系統(tǒng)用統(tǒng)計(jì)不含缺失值的元組中各個(gè)屬性取值出現(xiàn)的頻率的方式來計(jì)算概率P(X|Ci)。
⑵ 連接模塊
系統(tǒng)在修正模塊會(huì)根據(jù)式⑵計(jì)算出擁有差異數(shù)據(jù)的元組在它的依賴屬性取值確定的所確定的各個(gè)待修正值的概率。但是由于MapReduce函數(shù)在map階段和reduce階段一次只能處理一條記錄,所以系統(tǒng)必須使依賴屬性取值和其條件概率關(guān)聯(lián)起來,這就是連接模塊存在的必要性和需要解決的問題。連接模塊的輸入數(shù)據(jù)為參數(shù)估計(jì)模塊的輸出數(shù)據(jù)和原待修正數(shù)據(jù),輸出數(shù)據(jù)是將含修正數(shù)據(jù)的元組中依賴屬性取值與該取值條件概率相關(guān)聯(lián)的文件。
此模塊的輸入數(shù)據(jù)為原待修正數(shù)據(jù)和參數(shù)估計(jì)模塊的輸出,輸出數(shù)據(jù)為經(jīng)過填充之后的數(shù)據(jù)。利用式⑵計(jì)算出每個(gè)Ci(待填充屬性可能的取值)對應(yīng)的條件概率,選擇其中P(X|Ci)概率最大的Ci進(jìn)行填充。
⑶ 修正模塊
修正模塊由一輪MapReduce實(shí)現(xiàn),首先將連接模塊的輸出結(jié)果和原始輸入數(shù)據(jù)以偏移量為鍵值進(jìn)行連接運(yùn)算,map階段和連接模塊類似,reduce階段利用式⑵計(jì)算出每個(gè)Ci(待填充屬性可能的取值)對應(yīng)的條件概率,選擇其中P(X|Ci)概率最大的Ci作為基準(zhǔn)數(shù)據(jù)對其他同組數(shù)據(jù)進(jìn)行修正。
3 總結(jié)
本文提出的數(shù)據(jù)清洗模型,可用于數(shù)據(jù)的相關(guān)性分析,使用MapReduce編程框架利用并行技術(shù)可對現(xiàn)有的科技云服務(wù)平臺(tái)數(shù)據(jù)進(jìn)行清理,能夠在保留原始數(shù)據(jù)的前提下提高數(shù)據(jù)質(zhì)量。目前該模型成功地對科研設(shè)備數(shù)據(jù)完成了清洗,用計(jì)算機(jī)自動(dòng)化數(shù)據(jù)修正的方式代替了重復(fù)數(shù)據(jù)的補(bǔ)錄和修正工作,有效地提升了工作效率。下一步將把該模型擴(kuò)展應(yīng)用到云平臺(tái)的所有相關(guān)數(shù)據(jù),完成數(shù)據(jù)清洗工作的同時(shí),研究提高決策分析的準(zhǔn)確程度。
參考文獻(xiàn)(References):
[1] 宋均,祝林.基于云計(jì)算的海量數(shù)據(jù)處理平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].
電訊技術(shù),2012.52(4):566-570
[2] 馮秀芳,肖文炳.神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分類算法在物聯(lián)網(wǎng)中的應(yīng)
用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012.22(8):245-248
[3] 楊東華,李寧寧,王宏志等.基于任務(wù)合并的并行大數(shù)據(jù)清洗
過程優(yōu)化[J].計(jì)算機(jī)學(xué)報(bào),2016.1:97-108
[4] 金連,王宏志,黃沈?yàn)I等.基于Map-Reduce的大數(shù)據(jù)缺失值
填充算法[J].計(jì)算機(jī)研究與發(fā)展,2013.50(z1):312-321
[5] 孟祥逢,魯漢榕,郭玲等.基于遺傳神經(jīng)網(wǎng)絡(luò)的相似重復(fù)記錄
檢測方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2010.31(7):1550-1553
[6] 徐曉.基于RBF神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)與網(wǎng)絡(luò),
2014.19:67-69
[7] 李仲,劉明地,吉守祥等.基于枸杞紅外光譜人工神經(jīng)網(wǎng)絡(luò)的
產(chǎn)地鑒別[J].光譜學(xué)與光譜分析,2016.36(3):720-723