国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于最優(yōu)化數(shù)據(jù)質(zhì)量的圖書館大數(shù)據(jù)動態(tài)清洗策略研究

2021-02-24 05:18:06馬曉亭蘭州財經(jīng)大學(xué)信息工程學(xué)院
圖書館理論與實踐 2021年6期
關(guān)鍵詞:決策圖書館

馬曉亭(蘭州財經(jīng)大學(xué)信息工程學(xué)院)

目前,圖書館界已進入大數(shù)據(jù)時代。大數(shù)據(jù)具有數(shù)據(jù)體量巨大(Volume)、處理速度快(Velocity)、價值密度低(Value)、數(shù)據(jù)類型繁多(Variety)的4個“V”特性[1]。據(jù)統(tǒng)計,大型數(shù)據(jù)庫中數(shù)據(jù)的錯誤率約為5%[2],且數(shù)據(jù)清洗時間約占大數(shù)據(jù)分析總時間的60%~80%[3]。大量臟數(shù)據(jù)(Dirty data)的存在,嚴重影響了圖書館數(shù)據(jù)分析、知識發(fā)現(xiàn)和數(shù)據(jù)決策的正確與實效[4]。因此,如何精準、高效、實時和低成本地完成對圖書館大數(shù)據(jù)庫中臟數(shù)據(jù)的清洗,是關(guān)系提升圖書館大數(shù)據(jù)價值密度和可用性,增強智慧服務(wù)決策科學(xué)性與讀者個性化服務(wù)質(zhì)量的關(guān)鍵。

1 圖書館臟數(shù)據(jù)的定義、產(chǎn)生原因與數(shù)據(jù)清洗的目的

1.1 圖書館臟數(shù)據(jù)的定義

臟數(shù)據(jù)(Dirty Data)是指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi),或?qū)τ趯嶋H業(yè)務(wù)毫無意義,或是數(shù)據(jù)格式非法、過時、不完整、不準確的任何類型的電子數(shù)據(jù),或者源系統(tǒng)中存在不規(guī)范的編碼或含糊的業(yè)務(wù)邏輯。圖書館中的臟數(shù)據(jù)可能是由于數(shù)據(jù)采集錯誤、人員錄入錯誤、未能定期更新數(shù)據(jù)或重復(fù)采集而產(chǎn)生的。臟數(shù)據(jù)的存在嚴重降低了圖書館大數(shù)據(jù)的價值密度、決策科學(xué)性和經(jīng)濟性,以及讀者個性化閱讀服務(wù)的智能化、實時性和專屬定制水平[5]。圖書館臟數(shù)據(jù)的類型與表現(xiàn)種類如表1所示。

表1 圖書館臟數(shù)據(jù)的類型與表現(xiàn)分類表

臟數(shù)據(jù)主要由缺失數(shù)據(jù)、錯誤數(shù)據(jù)、數(shù)據(jù)重復(fù)、不一致數(shù)據(jù)、噪聲數(shù)據(jù)等5部分組成,是關(guān)系圖書館大數(shù)據(jù)決策智慧化水平和讀者個性化服務(wù)滿意度的關(guān)鍵。因此,圖書館必須加強臟數(shù)據(jù)的管理與清洗工作。

1.2 圖書館臟數(shù)據(jù)產(chǎn)生的原因

“摩爾定律”告訴我們,集成電路芯片上所集成電路的數(shù)目,每隔18個月就翻一番。同時,微處理器的性能每隔18個月提高一倍,而價格下降一半。因此,數(shù)據(jù)采集與處理設(shè)備性能的提升和采購價格的大幅下降,在提升了圖書館大數(shù)據(jù)獲取能力的同時,有效降低了數(shù)據(jù)獲取的成本,支持圖書館全方位、不間斷地采集相關(guān)大數(shù)據(jù),最終提升了圖書館大數(shù)據(jù)庫的數(shù)據(jù)總價值與大數(shù)據(jù)決策的能力,但也導(dǎo)致圖書館大數(shù)據(jù)總量呈現(xiàn)指數(shù)級增長和價值密度急劇下降的現(xiàn)象[6]。

圖書館主要通過視頻監(jiān)控設(shè)備、傳感器網(wǎng)絡(luò)、個人數(shù)字閱讀PDA、網(wǎng)絡(luò)服務(wù)器、視頻監(jiān)控設(shè)備等采集大數(shù)據(jù),所采集的數(shù)據(jù)除包括圖書館企業(yè)資源計劃數(shù)據(jù)、財務(wù)管理系統(tǒng)數(shù)據(jù)、數(shù)字文獻管理信息系統(tǒng)數(shù)據(jù)、讀者信息與服務(wù)管理系統(tǒng)數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)之外,還包括諸如網(wǎng)頁、文本、圖像、視頻、語音之類的非結(jié)構(gòu)型數(shù)據(jù),且非結(jié)構(gòu)化數(shù)據(jù)占據(jù)圖書館數(shù)據(jù)總量的80%以上,錯綜復(fù)雜的數(shù)據(jù)采集對象、方式和環(huán)境是圖書館臟數(shù)據(jù)大量產(chǎn)生的主要原因。具體原因有以下幾方面。①圖書館通過大量的射頻識別(RFID)設(shè)備實現(xiàn)了對讀者身份認證、個人移動路徑、讀者地理位置信息、查閱管理和圖書館安全管控等數(shù)據(jù)的不間斷采集,物理電磁復(fù)雜環(huán)境和設(shè)備使用人員的不規(guī)范操作導(dǎo)致臟數(shù)據(jù)的產(chǎn)生[7]。②視頻監(jiān)控設(shè)備、傳感器網(wǎng)絡(luò)、個人數(shù)字閱讀PDA、網(wǎng)絡(luò)服務(wù)器、視頻監(jiān)控設(shè)備等大數(shù)據(jù)采集設(shè)備的標準化程度、設(shè)備故障、人為原因,以及異構(gòu)系統(tǒng)的系統(tǒng)兼容性、友好性與可操控性也是導(dǎo)致圖書館臟數(shù)據(jù)產(chǎn)生的原因。③所采集大數(shù)據(jù)的標準化、科學(xué)性、傳輸與存儲方法合理性、異構(gòu)系統(tǒng)的兼容性等,也是導(dǎo)致臟數(shù)據(jù)產(chǎn)生的重要因素。

1.3 圖書館臟數(shù)據(jù)的清洗目的

1.3.1 將不規(guī)整數(shù)據(jù)轉(zhuǎn)化為規(guī)整數(shù)據(jù)

圖書館大數(shù)據(jù)采集終端設(shè)備存在著設(shè)備類型多樣、數(shù)據(jù)采集標準不統(tǒng)一的特點,且設(shè)備網(wǎng)絡(luò)拓撲結(jié)構(gòu)以分布式結(jié)構(gòu)存在,所采集的數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)、類型和邏輯上呈現(xiàn)不規(guī)整的狀態(tài)。因此,必須依據(jù)圖書館大數(shù)據(jù)決策需求和讀者個性化智慧閱讀場景需要,通過科學(xué)的數(shù)據(jù)清洗流程對所采集的大數(shù)據(jù)在數(shù)據(jù)格式、標準、邏輯和處理流程上進行統(tǒng)一,并對存在于規(guī)整數(shù)據(jù)中的隨機噪聲數(shù)據(jù)進行平滑、過濾和刪除,只有這樣才能確保決策大數(shù)據(jù)高價值、標準化、可應(yīng)用和無差錯。

1.3.2 對數(shù)據(jù)進行審查和校驗

圖書館在大數(shù)據(jù)的采集中,由于數(shù)據(jù)采集設(shè)備和用戶閱讀終端的多樣性,導(dǎo)致大數(shù)據(jù)庫中部分數(shù)據(jù)呈現(xiàn)重復(fù)疊加的現(xiàn)象,這些重復(fù)數(shù)據(jù)不但增加了大數(shù)據(jù)庫的存儲負荷,也增加了大數(shù)據(jù)處理、分析和決策系統(tǒng)的應(yīng)用負擔(dān),最終導(dǎo)致圖書館大數(shù)據(jù)決策的準確性、實時性、經(jīng)濟性和可控性降低。因此,必須有效刪除大數(shù)據(jù)庫中的重復(fù)數(shù)據(jù)。此外,圖書館不同的大數(shù)據(jù)決策分析對數(shù)據(jù)的類型、結(jié)構(gòu)和精確度要求不同,因此必須以圖書館大數(shù)據(jù)決策需求為依據(jù),在不影響數(shù)據(jù)一致性、精確性、完整性和有效性的前提下,通過對數(shù)據(jù)的審查和校驗來消除數(shù)據(jù)異常,最終實現(xiàn)數(shù)據(jù)的集成、清洗與標準化。

1.3.3 標準化數(shù)據(jù)的格式與類型

圖書館大數(shù)據(jù)決策具有海量、實時、快速和動態(tài)的需求,其大數(shù)據(jù)庫數(shù)據(jù)格式與類型標準化的程度直接關(guān)系大數(shù)據(jù)處理、挖掘、分析、機器學(xué)習(xí)、決策、可視化等流程的正確、實時和可用。因此,必須通過對大數(shù)據(jù)的科學(xué)分解、重組和標準化處理,才能得到標準、干凈、實時和連續(xù)的大數(shù)據(jù)資源[7]。

標準化數(shù)據(jù)所涉及的內(nèi)容主要包括數(shù)據(jù)來源統(tǒng)一、格式統(tǒng)一、類型統(tǒng)一、表現(xiàn)形式統(tǒng)一、單位度量統(tǒng)一、存儲與調(diào)用方式統(tǒng)一、處理與分析流程統(tǒng)一等方面,而其中最大的挑戰(zhàn)與難點是海量流數(shù)據(jù)格式與類型的統(tǒng)一。流數(shù)據(jù)具有海量、動態(tài)、多源異構(gòu)、高維度和強時空相關(guān)性的特點,是讀者個性化智慧閱讀實時服務(wù)最重要的決策依據(jù),其數(shù)據(jù)標準化水平的高低直接關(guān)系圖書館大數(shù)據(jù)決策的科學(xué)性、準確性、高效性、即時性和個性化的程度,因此必須通過流數(shù)據(jù)的動態(tài)、實時、快速和準確清洗,才能保證讀者具有較高的個性化閱讀滿意度[8]。

2 基于大數(shù)據(jù)決策質(zhì)量反饋控制的數(shù)據(jù)清洗流程設(shè)計

2.1 大數(shù)據(jù)清洗流程設(shè)計

圖書館大數(shù)據(jù)的清洗應(yīng)堅持從數(shù)據(jù)的生命周期流程管理出發(fā),以圖書館大數(shù)據(jù)決策科學(xué)性、智慧性、實時性和經(jīng)濟性為目的,保證清洗后的大數(shù)據(jù)準確、完整、一致、唯一、合理、適時、可用和高價值,如此才能夠為圖書館大數(shù)據(jù)決策提供高質(zhì)量的數(shù)據(jù)支持。本文設(shè)計的基于大數(shù)據(jù)決策質(zhì)量反饋控制的圖書館大數(shù)據(jù)清洗流程如圖1所示。

圖1 基于大數(shù)據(jù)決策質(zhì)量反饋控制的圖書館大數(shù)據(jù)清洗流程圖

從圖書館大數(shù)據(jù)決策生命周期管理流程劃分,數(shù)據(jù)清洗的層次結(jié)構(gòu)可分為數(shù)據(jù)資源庫層、數(shù)據(jù)評估層、數(shù)據(jù)清洗層和數(shù)據(jù)決策質(zhì)量評估反饋控制層等四個層次。

(1)數(shù)據(jù)資源庫層是大數(shù)據(jù)資源的存儲層,依據(jù)圖書館大數(shù)據(jù)的結(jié)構(gòu)模式、價值屬性、決策類型、存儲方式和安全管理需求,分別以分布式存儲于資源計劃數(shù)據(jù)庫、數(shù)字文獻管理信息系統(tǒng)數(shù)據(jù)庫、讀者閱讀行為相關(guān)數(shù)據(jù)庫、圖書館管理與運行數(shù)據(jù)庫、相關(guān)流數(shù)據(jù)庫中,同時確保大數(shù)據(jù)存儲安全、高性能、易擴展和低功耗[9]。

(2)大數(shù)據(jù)評估層位于系統(tǒng)的第二層,負責(zé)完成大數(shù)據(jù)清洗前的數(shù)據(jù)質(zhì)量評估。數(shù)據(jù)評估層主要依據(jù)圖書館大數(shù)據(jù)應(yīng)用實際需求,對大數(shù)據(jù)的準確性、一致性、時效性和完整性等四個方面進行評估。評估內(nèi)容主要包括數(shù)據(jù)是否異常與錯誤、格式是否統(tǒng)一、能否實時動態(tài)反映當(dāng)前的系統(tǒng)服務(wù)與讀者閱讀情景、數(shù)據(jù)是否存在缺失值。數(shù)據(jù)評估標準是隨著圖書館大數(shù)據(jù)決策的智能化、個性化、實時性、經(jīng)濟性需求變化而動態(tài)變化,數(shù)據(jù)質(zhì)量評估標準的高低與圖書館大數(shù)據(jù)清洗的效果成正比例關(guān)系,而與數(shù)據(jù)清洗系統(tǒng)的資源損耗和經(jīng)濟性成反比例關(guān)系。

(3)第三層是數(shù)據(jù)清洗層。首先,按照大數(shù)據(jù)標準化模式要求對缺失的數(shù)據(jù)內(nèi)容進行填補,以增強缺失大數(shù)據(jù)的價值屬性。其次,通過內(nèi)容清洗、數(shù)據(jù)邏輯錯誤清洗、非需求數(shù)據(jù)清洗、數(shù)據(jù)關(guān)聯(lián)性驗證、噪聲信號處理等操作,將清洗后的標準大數(shù)據(jù)傳輸給大數(shù)據(jù)應(yīng)用系統(tǒng),為圖書館大數(shù)據(jù)決策與讀者個性化智慧閱讀服務(wù)提供可靠的數(shù)據(jù)支持。數(shù)據(jù)清洗層的清洗規(guī)則和程度是隨著圖書館大數(shù)據(jù)應(yīng)用要求的不同而動態(tài)變化的,復(fù)雜的數(shù)據(jù)清洗規(guī)則將會消耗更多的清洗時間和系統(tǒng)資源。因此,圖書館必須制定恰當(dāng)?shù)臄?shù)據(jù)清洗策略,才能確保清洗流程在效率、質(zhì)量、時間和成本方面的綜合評估結(jié)果最優(yōu)化[10]。

(4)反饋控制層為系統(tǒng)的第四層。經(jīng)過清洗的干凈數(shù)據(jù)傳輸?shù)酱髷?shù)據(jù)決策與應(yīng)用層并進行數(shù)據(jù)的處理、分析、價值提取、大數(shù)據(jù)決策后,數(shù)據(jù)應(yīng)用質(zhì)量評估層結(jié)合讀者對個性化閱讀服務(wù)的滿意度,對大數(shù)據(jù)決策的科學(xué)性、有效性、經(jīng)濟性和實時性進行評估,并將評估結(jié)果傳輸?shù)綌?shù)據(jù)清洗反饋控制模塊。如果評估結(jié)果不能滿足圖書館大數(shù)據(jù)決策需求,數(shù)據(jù)清洗反饋控制模塊則通過反饋控制來修改、完善大數(shù)據(jù)的評估標準和數(shù)據(jù)清洗規(guī)則,并通過二次清洗進一步提高決策大數(shù)據(jù)的數(shù)據(jù)質(zhì)量、可用性和安全性。

2.2 數(shù)據(jù)清洗應(yīng)重視的關(guān)鍵問題

2.2.1 大數(shù)據(jù)缺失值的清洗

圖書館大數(shù)據(jù)的缺失主要是由數(shù)據(jù)終端采集設(shè)備采集過程中的數(shù)據(jù)丟失、人工錄入數(shù)據(jù)失誤而發(fā)生的缺失,以及數(shù)據(jù)在傳輸、存儲和調(diào)度等過程中發(fā)生的缺失等情況造成。終端采集數(shù)據(jù)的缺失可通過對終端設(shè)備完善、升級和軟件優(yōu)化等措施避免,人工錄入數(shù)據(jù)缺失可通過錯誤碼校驗、必填項控制及人工補錄等方式完善。

在圖書館大數(shù)據(jù)應(yīng)用中,缺失值的存在是不可避免的,特別是當(dāng)缺失值非隨機出現(xiàn)且變量之間強相關(guān)性時,不同的數(shù)據(jù)清理處理策略會得到不同的數(shù)據(jù)質(zhì)量。因此,對于無效缺失值或者低價值、低樣本比重、弱相關(guān)性的缺失值可以直接刪除缺失值。如果缺失數(shù)據(jù)呈現(xiàn)高價值、高相關(guān)性和多維度時,可采取人工填補遺漏值、利用均值填補遺漏值、預(yù)測值填補遺漏值的方式,確保缺失數(shù)據(jù)完整、高價值、可應(yīng)用和可控制。

2.2.2 大數(shù)據(jù)格式與內(nèi)容的清洗

圖書館為了提升讀者個性化閱讀服務(wù)推送的精準性、時效性,必須大量采集讀者每日的移動路徑信息、閱讀終端信息、閱讀內(nèi)容信息、閱讀習(xí)慣信息、閱讀時間信息、地理位置信息等,通過對每日閱讀大數(shù)據(jù)的清洗和關(guān)聯(lián)計算,預(yù)測未來某日、某時間段讀者的閱讀需求,進而自動選擇相應(yīng)的閱讀內(nèi)容和閱讀模式向讀者實時推薦,來滿足讀者的閱讀需求和提升閱讀滿意度。圖書館采集的讀者個人閱讀數(shù)據(jù)具有多終端采集、多模式和離散性強的特點。因此,圖書館必須依據(jù)讀者個性化閱讀大數(shù)據(jù)決策的需求,將數(shù)據(jù)進行標準化統(tǒng)一,并為不同的數(shù)據(jù)變量分配相應(yīng)的權(quán)重比例,通過每個數(shù)據(jù)點減去所有數(shù)據(jù)平均值的方法處理離群點,防止離散數(shù)據(jù)偏差而導(dǎo)致大數(shù)據(jù)決策準確性降低[11]。其次,對于多終端、多人員、多對象采集的數(shù)據(jù),應(yīng)通過格式清洗的方式確保數(shù)據(jù)在時間、日期、數(shù)值、全半角等顯示格式上一致,并刪除數(shù)據(jù)在格式內(nèi)容上不存在和多余的字符。再次,對于多終端采集或者人員多次錄入的重復(fù)數(shù)據(jù),可采取相同的關(guān)鍵信息匹配方法去重,也可以通過主鍵進行去重。

2.2.3 異常大數(shù)據(jù)的清洗

在圖書館大數(shù)據(jù)應(yīng)用過程中,過度超出數(shù)據(jù)采集范圍區(qū)間、規(guī)律、規(guī)則,或者與平均數(shù)據(jù)差異較大的數(shù)據(jù)稱為異常數(shù)據(jù)。如,圖書館某日采集的一位讀者閱讀興趣數(shù)據(jù),該讀者的閱讀內(nèi)容、時間、習(xí)慣等與平日采集數(shù)據(jù)均值有較大差異性,這可能是他人利用該讀者的閱讀終端與用戶賬號登錄服務(wù)系統(tǒng)而產(chǎn)生的數(shù)據(jù),此類數(shù)據(jù)對判定該讀者的閱讀行為沒有參考價值和統(tǒng)計意義。又如,某日網(wǎng)絡(luò)監(jiān)控設(shè)備發(fā)現(xiàn)圖書館服務(wù)器TCP隊列滿,并且CPU負荷快速升高、內(nèi)存過載而導(dǎo)致服務(wù)器宕機,嚴重影響了服務(wù)器的服務(wù)性能,而這種遠遠超出日常在線用戶平均數(shù)的統(tǒng)計大數(shù)據(jù)則十分有價值,通過大數(shù)據(jù)分析可以得出服務(wù)器可能正在受到DDoS攻擊,因此可由大數(shù)據(jù)決策系統(tǒng)構(gòu)建相應(yīng)的防御策略進行防御[11]。對于異常大數(shù)據(jù)的清洗可以通過構(gòu)建相應(yīng)的規(guī)則庫實現(xiàn),規(guī)則庫必須以常識性規(guī)則、業(yè)務(wù)規(guī)則和數(shù)據(jù)關(guān)聯(lián)規(guī)則等進行科學(xué)判定,而不是對大幅度偏離平均值的數(shù)據(jù)簡單刪除或者修改。此外,異常大數(shù)據(jù)的清洗規(guī)則必須隨著大數(shù)據(jù)決策系統(tǒng)的智慧自主學(xué)習(xí)而動態(tài)變化,并不斷提升數(shù)據(jù)清洗的智能和自動化水平。

2.2.4 噪聲大數(shù)據(jù)的清洗

圖書館大數(shù)據(jù)采集具有多終端、多用戶、不間斷和全方位的特點,圖書館大數(shù)據(jù)除具有大數(shù)據(jù)的4“V”特性外,還具備高維度、多變量數(shù)據(jù)、大規(guī)模和高增長的特性。由于采集設(shè)備、方法、對象、時間、流程和軟件程序科學(xué)性的缺陷,所采集的大數(shù)據(jù)存在著錯誤、失真、異常和無關(guān)的數(shù)據(jù),這些數(shù)據(jù)大幅度增加了數(shù)據(jù)存儲、處理、分析和決策的難度,也將大幅度影響決策大數(shù)據(jù)的收斂速度,降低圖書館大數(shù)據(jù)決策模型的科學(xué)性、準確性和可靠性。因此,圖書館必須加強對噪聲數(shù)據(jù)的清洗[1]。①對于圖書館數(shù)據(jù)庫中存在的與大數(shù)據(jù)決策無關(guān),甚至明顯錯誤的數(shù)據(jù),可由圖書館工作人員依據(jù)自身的業(yè)務(wù)知識人工處理即可。②對于正態(tài)分布的大數(shù)據(jù),可以利用3個標準差原則進行去噪,或使用四分位差進行去噪。③對于偏態(tài)分布數(shù)據(jù)可以采用分箱處理的方法,按照屬性值劃分子區(qū)間。如果一個屬性值處于某個子區(qū)間范圍內(nèi),就把該屬性值放進這個子區(qū)間所代表的“箱子”內(nèi)。把待處理的數(shù)據(jù)按照一定的規(guī)則放進一些箱子中,考察每一個箱子中的數(shù)據(jù),采用某種方法分別對各個箱子中的數(shù)據(jù)進行規(guī)則處理,最后再對每個箱子中的數(shù)據(jù)進行平滑處理。④圖書館員可將類型、結(jié)構(gòu)和決策對象相同的數(shù)據(jù),按照數(shù)據(jù)的內(nèi)在性質(zhì)將數(shù)據(jù)分成一些聚合類,每一聚合類中的元素盡可能具有相同的特性,而不同聚合類之間的特性差別盡可能大。這些聚類集合之外的數(shù)據(jù)即為噪聲數(shù)據(jù),應(yīng)對這些孤立點進行刪除或替換。⑤對于兩個或者多個相關(guān)變量數(shù)據(jù),可通過構(gòu)造回歸函數(shù)的方式,確保該函數(shù)能夠更大程度地滿足兩個變量之間的關(guān)系,并使用這個函數(shù)來平滑數(shù)據(jù)。

3 結(jié)語

為了精準、高效、實時和低成本地完成圖書館大數(shù)據(jù)的清洗工作,圖書館首先必須認識到數(shù)據(jù)治理工作的重要性、復(fù)雜性和長期性,應(yīng)構(gòu)建標準化、動態(tài)和持續(xù)優(yōu)化的數(shù)據(jù)清洗流程,同時根據(jù)圖書館大數(shù)據(jù)決策系統(tǒng)資源配置實際,制定恰當(dāng)?shù)拇髷?shù)據(jù)清洗流程與標準,并依據(jù)大數(shù)據(jù)應(yīng)用決策需求變化對數(shù)據(jù)清洗算法、數(shù)據(jù)清洗對象、清洗精確度進行完善與優(yōu)化,才能保證圖書館在大數(shù)據(jù)分析決策需求、系統(tǒng)資源損耗、決策實時性和總體經(jīng)濟性上最優(yōu);其次,圖書館必須堅持人工清洗和設(shè)備自動化清洗相結(jié)合的原則,利用數(shù)理統(tǒng)計、數(shù)據(jù)挖掘、語義分析或預(yù)定義的清理規(guī)則,提升對特殊臟數(shù)據(jù)清洗的效率與準確性;再次,圖書館在數(shù)據(jù)清洗關(guān)系模型的設(shè)計中,應(yīng)堅持簡單、高效和低系統(tǒng)資源損耗的原則,實現(xiàn)數(shù)據(jù)清洗模型的復(fù)雜性、資源損耗率、時效性和數(shù)據(jù)分析結(jié)果準確性之間的最佳平衡。

猜你喜歡
決策圖書館
為可持續(xù)決策提供依據(jù)
圖書館
文苑(2019年20期)2019-11-16 08:52:12
決策為什么失誤了
決策大數(shù)據(jù)
決策(2018年11期)2018-11-28 01:10:26
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
決策大數(shù)據(jù)
決策(2018年10期)2018-11-07 02:01:38
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
去圖書館
關(guān)于抗美援朝出兵決策的幾點認識
軍事歷史(1997年5期)1997-08-21 02:36:06
怀化市| 江川县| 惠东县| 白朗县| 岑溪市| 和林格尔县| 肇庆市| 镇平县| 客服| 赣州市| 通化市| 囊谦县| 永定县| 海南省| 罗田县| 平远县| 井研县| 威信县| 肇庆市| 连云港市| 静乐县| 潮州市| 镇沅| 贺兰县| 山东省| 额敏县| 武胜县| 崇阳县| 墨玉县| 泸西县| 泰兴市| 灌阳县| 柞水县| 舒城县| 竹溪县| 龙里县| 怀来县| 红桥区| 张家川| 库车县| 郁南县|