王崢
摘要:檔案數(shù)據(jù)化這種方便、快捷、高效率的檔案管理方式促進了各行各業(yè)的進步與發(fā)展。但,同樣也遇到了前所未有的挑戰(zhàn),那就是“垃圾數(shù)據(jù)”的出現(xiàn),這種看似正確實則錯誤的數(shù)據(jù)危害巨大,本文主要從垃圾數(shù)據(jù)的產(chǎn)生和如何清理垃圾數(shù)據(jù)入手進行分析,并提供有效措施。
關(guān)鍵詞:檔案數(shù)據(jù);垃圾數(shù)據(jù);措施
引言:“垃圾數(shù)據(jù)”這一常見現(xiàn)象正是伴隨著數(shù)據(jù)信息化發(fā)展而來的棘手問題?!袄鴶?shù)據(jù)”直接影響了檔案數(shù)據(jù)的有效性和運行效率,這對信息化管理的檔案數(shù)據(jù)所產(chǎn)生的影響是深遠的。如何對“垃圾數(shù)據(jù)”問題進行科學合理的解決是擺在檔案管理行業(yè)前進道路上的一個急需面對的挑戰(zhàn)。
1.垃圾數(shù)據(jù)的含義
想要理解垃圾數(shù)據(jù)的含義,首先要了“解檔案數(shù)據(jù)庫”的意義。檔案數(shù)據(jù)庫的概念要從兩個維度進行闡述,首先是在前臺計算機用戶方面,檔案數(shù)據(jù)庫是一種“檔案信息管理系統(tǒng)”,它主要是對基本的檔案信息進行錄入、顯示和打印等,是最為常見的辦公系統(tǒng):其次是在后臺計算機服務(wù)器方面,檔案數(shù)據(jù)庫是一種“數(shù)據(jù)庫系統(tǒng)”,它主要是對檔案數(shù)據(jù)進行存儲和管理、維護等,是檔案管理人員接觸到的系統(tǒng)管理工具,為前臺用戶的檔案檢索和查閱提供平臺和服務(wù)。
檔案數(shù)據(jù)的存儲方式是以一種二維數(shù)據(jù)表格的形式進行,由行、列兩部分組成,記錄著基本的檔案信息。在存儲過程中,就要求行、列及其中的字段、數(shù)據(jù)等都有嚴格的格式標準和規(guī)則,以便于后期的有效檢測和管理。垃圾數(shù)據(jù)的產(chǎn)生就與這有直接關(guān)系,當其中的某個記錄或數(shù)據(jù)違反了既定的標準和規(guī)則時,就會直接導致數(shù)據(jù)庫系統(tǒng)與檔案信息管理系統(tǒng)在運算上出現(xiàn)錯誤”。這種數(shù)據(jù)就被稱之為“垃圾數(shù)據(jù)”。
2.垃圾數(shù)據(jù)的種類
“垃圾數(shù)據(jù)”根據(jù)數(shù)據(jù)錯誤形式大致分為以下幾種類型:
2.1數(shù)據(jù)語法錯誤
語法錯誤主要是指在錄入階段,當錄入的數(shù)據(jù)不符合規(guī)定的數(shù)據(jù)類型時而出現(xiàn)的一種錯誤,這是一種較為常見的“垃圾數(shù)據(jù)”表現(xiàn)形式。例如,錄入的信息應(yīng)該是數(shù)字卻填寫成了文字,應(yīng)該錄入大寫數(shù)字卻填寫成了小寫數(shù)字等一類語法型錯誤。但這種“垃圾數(shù)據(jù)”比較容易辨別,也是最為低級的錯誤,只要認真檢查,加強管理,出現(xiàn)的比例并不高。
2.2數(shù)據(jù)邏輯錯誤
邏輯錯誤數(shù)據(jù)主要表現(xiàn)形式是在“信息管理系統(tǒng)”中所輸入的信息,表面上看其格式、字段等都沒有問題,但實則與“數(shù)據(jù)庫系統(tǒng)”程序的原始設(shè)計并不相符,這就會使得在存儲和檢索檔案數(shù)據(jù)時無法正確運行數(shù)據(jù)。這種“邏輯式”錯誤數(shù)據(jù)往往是比較隱蔽的,只有數(shù)據(jù)庫系統(tǒng)的相關(guān)管理人員通過認真檢查核驗才能夠發(fā)現(xiàn)并及時預防,因此,這類垃圾數(shù)據(jù)是比較難發(fā)現(xiàn)和難清理的。
2.3信息重復
“重復式”垃圾數(shù)據(jù)是指在內(nèi)容信息上重復,這種垃圾數(shù)據(jù)一般分為兩種:一種是由于內(nèi)容相同的數(shù)據(jù)會在程序排序的過程中出現(xiàn)集中排序的情況,從而導致重復:另一種是由于半角和全角符號使用混亂導致數(shù)據(jù)雖然內(nèi)容相同,但最終顯示出來卻是不同的數(shù)據(jù)信息,這就導致數(shù)據(jù)信息重復。這種“垃圾”數(shù)據(jù)不能集中排序,文字符號又不同,所以很難被發(fā)現(xiàn)。
3.垃圾數(shù)據(jù)的影響
3.1影響數(shù)據(jù)庫系統(tǒng)的穩(wěn)定運行
檔案數(shù)據(jù)庫系統(tǒng)均為程序開發(fā)設(shè)計人員先行設(shè)計好的系統(tǒng),計算機會根據(jù)設(shè)計安排處理檔案數(shù)據(jù),一旦出現(xiàn)垃圾數(shù)據(jù),計算機無法像人一樣辨別和處理,它只會根據(jù)固有設(shè)計運行?!袄鴶?shù)據(jù)”出現(xiàn)會導致數(shù)據(jù)庫系統(tǒng)運行不穩(wěn),系統(tǒng)退出、死機等情況就會出現(xiàn),從而影響檔案工作,帶來諸多問題。
3.2影響檔案數(shù)據(jù)信息的檢索
檔案數(shù)據(jù)管理系統(tǒng)在提供檢索服務(wù)時,主要是根據(jù)檢索關(guān)鍵字輸入進行查找,而垃圾數(shù)據(jù)的存在直接導致檢索者無法獲得真實可靠的信息,或者檢索不到信息。例如,出生年月為1986年李某,在檔案錄入中被寫成了1976年,那么檢索李某信息時就無法檢索到他的檔案或者檢索到了但信息有誤等。類似于此的“垃圾數(shù)據(jù)”影響了檢索人員的信息檢索,不僅對檢索者本人造成一定的困擾,而且會對檔案部門的工作帶來一定的影響。
3.3影響數(shù)據(jù)的統(tǒng)計分析
檔案數(shù)據(jù)化所帶來的一個最直觀的好處就是海量檔案數(shù)據(jù)的存儲和統(tǒng)計分析的便捷性和可靠性。但是這要建立在檔案數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)是正確、無重復等錯誤的,一旦出現(xiàn)“垃圾數(shù)據(jù)”則必然會造成統(tǒng)計分析結(jié)果不正確,從而對整個檔案管理工作以及由此產(chǎn)生的決策等產(chǎn)生影響。
4.建議舉措
基于以上分析,要想避免“垃圾數(shù)據(jù)”問題的出現(xiàn),首先要從源頭上加強管理和監(jiān)督。對檔案管理人員及工作人員,要強化工作態(tài)度、工作職責等方面的教育,在基礎(chǔ)錄入、早期監(jiān)督、中期維護和后期保障等方面加大投入力度,加強管理,層層強化,避免“垃圾數(shù)據(jù)”從源頭上出現(xiàn);其次是要嚴格制定標準和格式,避免出現(xiàn)重復數(shù)據(jù)和不必要的數(shù)據(jù)錯誤。例如,對半角和全角符號所應(yīng)用的范圍進行界定和劃分,并嚴格執(zhí)行,將會提高檢索的效率。再次是對數(shù)據(jù)進行程序自行排查和人工排查相結(jié)合的糾正錯誤方式,對檔案數(shù)據(jù)進行錯誤更正;最后是及時更新檔案數(shù)據(jù)庫系統(tǒng),在程序開發(fā)中融入糾錯、提醒和自行更正等功能,保證檔案數(shù)據(jù)的準確性。
結(jié)語:大數(shù)據(jù)時代所帶來的檔案信息化發(fā)展,為檔案管理提供了巨大的發(fā)展?jié)摿?。但是伴隨而來的“垃圾數(shù)據(jù)”影響巨大?!袄鴶?shù)據(jù)”的種類不同,解決方式不盡相同,但都需要程序設(shè)計者和檔案管理者的共同努力,在源頭和工作中將錯誤降到最低,提升檔案管理水平、檔案管理質(zhì)量,滿足當前各行各業(yè)的巨大檔案服務(wù)需求。