国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于企業(yè)海量電子文件的數(shù)據(jù)采集模型

2018-05-08 13:20:44楊迪陳雪萍馮宇李沛斐陳風(fēng)熙
電子技術(shù)與軟件工程 2018年22期
關(guān)鍵詞:電子文件數(shù)據(jù)采集

楊迪 陳雪萍 馮宇 李沛斐 陳風(fēng)熙

摘要 文章在參考前人研究結(jié)果的基礎(chǔ)上,結(jié)合閉著多年的工作經(jīng)驗(yàn),提出了企業(yè)海量電子文件數(shù)據(jù)采集模型,并詳細(xì)介紹了該系統(tǒng)的數(shù)據(jù)采集來源、數(shù)據(jù)預(yù)處理流程、數(shù)據(jù)清洗方法以及數(shù)據(jù)轉(zhuǎn)化功能等模塊,力求為企業(yè)海量電子文件數(shù)據(jù)的采集和管理提供可靠的參考依據(jù)。

【關(guān)鍵詞】電子文件 數(shù)據(jù)采集 數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗

在互聯(lián)網(wǎng)技術(shù)日益完善、多媒體功能逐漸強(qiáng)大以及先進(jìn)辦公軟件不斷普及等因素的共同作用下,電子文件已被廣泛運(yùn)用于企業(yè)中,且因其與紙質(zhì)文件相比,具有可塑性高、便捷性強(qiáng)以及傳遞速度快等優(yōu)點(diǎn),有效的增強(qiáng)了文件在企業(yè)生存與發(fā)展中的價值,為企業(yè)及時獲取文件信息、全面運(yùn)用信息資源等都創(chuàng)造了良好的環(huán)境。但是,隨著電子文件種類和涉及范圍不斷增多,企業(yè)傳統(tǒng)文件管理制度、管理方法以及管理軟件中存在的問題也在不斷顯現(xiàn)出來,嚴(yán)重制約著電子文件真實(shí)性、完整性以及及時性的提升,大大降低了電子文件的價值和使用價值。換而言之,要想增強(qiáng)電子文件的使用質(zhì)量和利用效率,我們就必須要建立符合海量電子文件數(shù)據(jù)采集模型,因此,對本文進(jìn)行深入的分析與研究具有十分重要的意義。

1 電子文件數(shù)據(jù)采集來源

文章對電子文件數(shù)據(jù)采集主要分為兩部分,一部分是通過爬蟲等系統(tǒng)采集的數(shù)據(jù),另一部分是企業(yè)現(xiàn)有的電子文件資料數(shù)據(jù)。這兩部分?jǐn)?shù)據(jù)在被收集以后,并不能直接作為企業(yè)海量電子文件的數(shù)據(jù)源,需要通過數(shù)據(jù)預(yù)處理平臺進(jìn)行數(shù)據(jù)的清洗,轉(zhuǎn)換和過濾,最終將完整的有價值的數(shù)據(jù)保存到企業(yè)電子文件數(shù)據(jù)路中。

1.1 數(shù)據(jù)采集器

數(shù)據(jù)采集器主要包含了調(diào)度器、采集器以及預(yù)處理三個部分:

1.1.1 調(diào)度器

調(diào)度采集和預(yù)處理器進(jìn)行數(shù)據(jù)采集和預(yù)處理。調(diào)度方法可以采用定時、事件觸發(fā)方式。

1.1.2 采集器

(l)爬蟲系統(tǒng):自動抓取網(wǎng)頁及鏈接的網(wǎng)頁內(nèi)容,適用于內(nèi)外網(wǎng)網(wǎng)站W(wǎng)eb內(nèi)容的采集。

(2) ETL程序:采用存儲過程、腳本或外部程序來讀取被采集系統(tǒng)的新數(shù)據(jù)。

(3)上傳接收:個人整理或原創(chuàng)的文檔,通過上傳方式采集。

1.1.3 預(yù)處理器

完成對采集到數(shù)據(jù)的加工處理,轉(zhuǎn)換產(chǎn)生文庫需要的數(shù)據(jù)格式。

(l)過濾器:將不符合條件的數(shù)據(jù)過濾掉,保證進(jìn)入文庫數(shù)據(jù)的質(zhì)量和價值。

(2)清洗:處理臟數(shù)據(jù)。

(3)轉(zhuǎn)換:數(shù)據(jù)編碼映射轉(zhuǎn)化;調(diào)用搜索和大數(shù)據(jù)引擎進(jìn)行全文索引處理。

1.2 數(shù)據(jù)采集來源

企業(yè)電子文件數(shù)據(jù)主要來自以下三個渠道:

(1)系統(tǒng)來源:主要是針對電子文件系統(tǒng)與檔案管理系統(tǒng)中面向全網(wǎng)開放的電子文件。結(jié)構(gòu)化數(shù)據(jù),通過ETL工具采集數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)通過文本信息分析技術(shù)進(jìn)行采集;

(2)個人來源:針對個人上傳的電子文件分為普通文件與私有文件,普通文件任何人可以檢索和閱讀,私有文件僅自己可見,針對私有的電子文件可以設(shè)置共享或是授權(quán)共享的功能;

(3)外部來源:主要是引入外部的資源如:知網(wǎng)、萬方等外部資源,所有引入的資源面向所有用戶公開;個人來源和外部來源將會完善和豐富文庫的數(shù)據(jù)內(nèi)容,增強(qiáng)其專業(yè)性,滿足員工對專業(yè)化文檔資料的需求。

2 電子文件數(shù)據(jù)預(yù)處理平臺

2.1 數(shù)據(jù)的預(yù)處理

隨著電子信息化的發(fā)展,企業(yè)現(xiàn)存的電子文件數(shù)量越來越龐大,數(shù)據(jù)的種類繁多,不同系統(tǒng)中存儲的電子文件內(nèi)容和格式都不盡相同,為了保證在企業(yè)數(shù)據(jù)庫中電子文件資料從數(shù)量和質(zhì)量達(dá)到最優(yōu)的效果,所以需要將采集到的電子文件資料進(jìn)行預(yù)處理,從而提高系統(tǒng)的性能和用戶的滿意度。預(yù)處理流程為:數(shù)據(jù)預(yù)處理是企業(yè)電子文件的數(shù)據(jù)準(zhǔn)備工作,一方面保證企業(yè)電子文件數(shù)據(jù)的正確性和有效性,另一方面通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合電子文件數(shù)據(jù)庫的需要。系統(tǒng)收集到元數(shù)據(jù)后,需要經(jīng)過預(yù)處理平臺對數(shù)據(jù)進(jìn)行處理,用全新的“數(shù)據(jù)模型”來組織原來的電子文件數(shù)據(jù),摒棄一些重復(fù)的、無效的垃圾數(shù)據(jù)。為企業(yè)電子文件數(shù)據(jù)庫提取干凈、準(zhǔn)確、更有針對性的數(shù)據(jù)創(chuàng)造良好的環(huán)境,從而減少系統(tǒng)的數(shù)據(jù)處理量,提高使用效率,提高發(fā)現(xiàn)資料數(shù)據(jù)的準(zhǔn)確度。

2.2 數(shù)據(jù)清洗

數(shù)據(jù)清洗是清除錯誤和不一致數(shù)據(jù)的過程,主要任務(wù)是過濾或者修改那些不符合要求的數(shù)據(jù)。將“臟數(shù)據(jù)”轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量或應(yīng)用要求的數(shù)據(jù),從而提高數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。數(shù)據(jù)清洗需要解決的數(shù)據(jù)質(zhì)量問題主要有空值問題,錯誤值問題和不一致的數(shù)據(jù)等。缺失值的清洗方法主要包括下面幾種:

(1)忽略其屬性包括缺失值的記錄。

(2)某些缺失值可以從本數(shù)據(jù)源或其他數(shù)據(jù)源推導(dǎo)出來。由于原始外部數(shù)據(jù)不同,錄入習(xí)慣不同,不同系統(tǒng)對記錄屬性的要求不同,導(dǎo)致同一實(shí)體對應(yīng)的各個記錄缺失程度不同,通過清洗可以得到一條相對完整的記錄。

(3)可用平均值、中間值、最大值、最小值或更為復(fù)雜的概率統(tǒng)計(jì)函數(shù)值代替缺失的值。

(4)人工輸入一個可接受的值。對于大規(guī)模的數(shù)據(jù)量一般不采用該方法。錯誤值的檢測及清洗方法包括以下幾種:1利用統(tǒng)計(jì)分析或人工智能的方法檢測屬性可能的錯誤值或異常值。2使用簡單規(guī)則庫(常識性規(guī)則和業(yè)務(wù)特定規(guī)則等)檢測和修正錯誤。3使用不同屬性間的約束檢測和修正錯誤。第四,使用外部數(shù)據(jù)源檢測和修正錯誤。

2.3 數(shù)據(jù)轉(zhuǎn)換

從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定完全滿足存儲的要求,例如數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯誤、數(shù)據(jù)不完整等等,還要對采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換和加工,保證數(shù)據(jù)按共同理懈的業(yè)務(wù)需求轉(zhuǎn)換為目標(biāo)數(shù)據(jù)結(jié)構(gòu)。不一致數(shù)據(jù)轉(zhuǎn)換,這個過程是一個整合的過程,將不同業(yè)務(wù)系統(tǒng)的相同類型的數(shù)據(jù)統(tǒng)一,比如同一個分類數(shù)據(jù)增加分類編碼,這樣在抽取過來之后統(tǒng)一轉(zhuǎn)換成一個編碼。在數(shù)據(jù)結(jié)構(gòu)中數(shù)據(jù)之間的關(guān)系通過轉(zhuǎn)換成線性關(guān)系存儲。線性表是一個比較靈活的數(shù)據(jù)結(jié)構(gòu),它的長度根據(jù)需要增長或縮短,也可以對線性表的數(shù)據(jù)元素進(jìn)行不同的操作(如訪問數(shù)據(jù)元素、插入、刪除數(shù)據(jù)元素等)。

3 結(jié)束語

隨著企業(yè)電子文件的使用頻率和使用范圍不斷擴(kuò)大,傳統(tǒng)電子文件數(shù)據(jù)采集系統(tǒng)中存在的弊端也在不斷凸顯,很難滿足企業(yè)對電子文件的管理需求。文章所提及的數(shù)據(jù)采集模型在提升電子文件管理質(zhì)量和管理效率等方面都有著極為顯著的作用,值得我們在今后的工作中不斷推廣和使用。

參考文獻(xiàn)

[1]楊強(qiáng),胡心宇.基于HBase的海量電子文件元數(shù)據(jù)管理的研究與實(shí)踐[J],貴州電力技術(shù),2017,20 (10):69-73.

[2]張琳.基于海量數(shù)據(jù)的市場投放策略研究[D].浙江理工大學(xué),2018.

[3]鄧芳.大型物聯(lián)網(wǎng)電子設(shè)備的海量數(shù)據(jù)高效挖掘方法研究[J].現(xiàn)代電子技術(shù),2016, 39 (04): 159-162.

猜你喜歡
電子文件數(shù)據(jù)采集
圖像電子文件的歸檔格式及其轉(zhuǎn)換研究
檔案管理(2017年1期)2017-01-17 19:15:57
電子文件檢查歸檔移交備份存儲機(jī)研究
淺談電子文檔與紙質(zhì)文檔在保護(hù)技術(shù)上的差異
檔案管理中電子文件的存儲探究
淺談電子文件的全過程管理
CS5463在植栽用電子鎮(zhèn)流器老化監(jiān)控系統(tǒng)中的應(yīng)用
大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時空分布研究綜述
基于廣播模式的數(shù)據(jù)實(shí)時采集與處理系統(tǒng)
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:52:53
开鲁县| 哈密市| 关岭| 青河县| 上虞市| 翼城县| 林西县| 射洪县| 安平县| 青河县| 海伦市| 宝坻区| 沙洋县| 邯郸市| 土默特左旗| 策勒县| 寻甸| 敖汉旗| 嘉定区| 射洪县| 桂林市| 奎屯市| 邵武市| 新龙县| 方城县| 仁布县| 吉首市| 桐乡市| 佛学| 游戏| 随州市| 文水县| 中牟县| 桐乡市| 团风县| 嘉黎县| 长白| 闵行区| 宿迁市| 宁明县| 鹿邑县|