国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)管理分析中的分類法

2020-11-30 07:04朱懋強
電子技術(shù)與軟件工程 2020年10期
關(guān)鍵詞:數(shù)據(jù)管理分類分析

朱懋強

(金航數(shù)碼科技有限責(zé)任公司 北京市 100028)

近些年來,各種各樣的數(shù)字設(shè)備得到了廣泛的應(yīng)用,源源不斷的產(chǎn)生著各種各樣的數(shù)據(jù),全國乃至全球的數(shù)據(jù)量都在瘋長,逐漸形成了我們所謂的大數(shù)據(jù)時代。大數(shù)據(jù)實際上就是數(shù)據(jù)量增長太快,傳統(tǒng)中的數(shù)據(jù)庫面對如此之多的數(shù)據(jù),以及無法滿足其存儲、分析以及處理的需求。當(dāng)前各個行業(yè)進行競爭的重要依據(jù)就是以數(shù)據(jù)的形式對大數(shù)據(jù)進行管理。大數(shù)據(jù)的管理是科技信息技術(shù)目前最大的挑戰(zhàn),各個行業(yè)都在尋求數(shù)據(jù)為核心的管理結(jié)構(gòu)和運用方式。

在過去進行數(shù)據(jù)儲存、分析和處理的時候,其產(chǎn)生都是來自有限的源或者比較簡單的數(shù)據(jù),一般計算結(jié)果都比較準確。但是大數(shù)據(jù)產(chǎn)生為數(shù)據(jù)管理帶來很大的難題,因為傳統(tǒng)的程序和工具在設(shè)計時并沒有考慮到數(shù)據(jù)會發(fā)展到如此龐大的數(shù)量。并且,當(dāng)前的基礎(chǔ)計算工具也無法進行大數(shù)據(jù)管理中各類數(shù)據(jù)的計算。其原因不只是因為數(shù)據(jù)量的擴大,還有數(shù)據(jù)變得復(fù)雜化和動態(tài)化的原因,這導(dǎo)致分析和處理工作幾乎不可能使用傳統(tǒng)的管理技術(shù)進行。顯而易見,大數(shù)據(jù)的管理對基礎(chǔ)設(shè)施來說挑戰(zhàn)性很高。

當(dāng)前對大數(shù)據(jù)進行處理的技術(shù)將重點放在了數(shù)據(jù)的特征上來進行,比如類別、體積或者速度等等。另外,大數(shù)據(jù)中有很多關(guān)于管理和生產(chǎn)的數(shù)據(jù),這類數(shù)據(jù)一般具有較高的復(fù)雜性,這就使得管理技術(shù)必須進行不斷的創(chuàng)新和升級。但是目前還沒有此類技術(shù)的深入性研究,所以本文嘗試通過分類化對大數(shù)據(jù)管理進行探究,旨在為大數(shù)據(jù)管理工作者提供一些參考。

1 大數(shù)據(jù)的概念

目前對于數(shù)據(jù)這一概念,還沒有達到統(tǒng)一的意見。從內(nèi)容來看,數(shù)據(jù)被定義為物體運動變化的狀態(tài)以及數(shù)字的體現(xiàn),是基于人們感官得到的刺激然后進行記錄的得到的信息或者符號;從形式來看,數(shù)據(jù)包含的類型有數(shù)字、事實、圖像、文本、音頻以及尚未注釋的數(shù)字編碼等等,數(shù)據(jù)不依附于問題存在,沒有鮮明的意義,它的存在是毫無意義的;再通過關(guān)聯(lián)性來看,各個數(shù)據(jù)之間并沒有關(guān)系的建立,呈現(xiàn)出分散性和孤立性。

2 大數(shù)據(jù)管理分類的意義

大數(shù)據(jù)是通過計算機來實現(xiàn)大量數(shù)據(jù)的處理工作,在超出計算范圍后,常規(guī)的數(shù)據(jù)處理器已經(jīng)無法滿足處理工作的需求,就要進行創(chuàng)新和開發(fā)更加高級的數(shù)據(jù)處理器,以實現(xiàn)管理收法數(shù)據(jù)的目的。

數(shù)據(jù)管理分類顧名思義就是把屬性相似或者有一定共性的數(shù)據(jù)進行歸類,能夠以數(shù)據(jù)的特征或者特點為重點進行檢索,以便于查詢數(shù)據(jù)或者篩選數(shù)據(jù),比較常用的數(shù)據(jù)管理分類包括:離散型和連續(xù)性、截面數(shù)據(jù)和時序數(shù)據(jù)、定類數(shù)據(jù)、定比數(shù)據(jù)以及定序數(shù)據(jù)等等,統(tǒng)計學(xué)、邏輯學(xué)等相關(guān)行業(yè)對數(shù)據(jù)管理分類運用的比較多。數(shù)據(jù)管理分類也要根據(jù)一定的原則進行,首先要保證穩(wěn)定性,以數(shù)據(jù)的特點、屬性作為分類標準的時候,要保證提取的特點或者屬性具有穩(wěn)定性,從而保證數(shù)據(jù)管理分類的穩(wěn)定性;其次要滿足系統(tǒng)性,數(shù)據(jù)管理分類后必須有清楚的邏輯,系統(tǒng)中要井井有條,便于瀏覽和修改;再次要具備可兼容性,儲存越來越多的數(shù)據(jù)是數(shù)據(jù)管理分類最根本的目的,數(shù)據(jù)變得越來越多后,要確保數(shù)據(jù)的各個類別可以兼容共存;然后是具有擴充性,數(shù)據(jù)隨時能夠以分類標準為依據(jù)進行擴充;最后是實用性,為了科學(xué)、有效的管理和應(yīng)用數(shù)據(jù),才對數(shù)據(jù)進行分類,因此必須要具備鮮明的分類標準,并且有清楚的邏輯,以便于索引,方便獲取和使用數(shù)據(jù)[1]。

3 大數(shù)據(jù)管理分析的分類法

對大數(shù)據(jù)管理分類法進行討論之前,必須充分了解大數(shù)據(jù)管理的相關(guān)技術(shù)設(shè)計的環(huán)節(jié)。首先,將各個來源的數(shù)據(jù)匯總到儲存設(shè)備上,然后進行預(yù)處理的執(zhí)行,最后進行分析,這樣就是到了決策的終點。管理大數(shù)據(jù)是為了有效并且安全的進行儲存數(shù)據(jù)、應(yīng)用數(shù)據(jù)[2]。但是,大數(shù)據(jù)的管理進展受到了很多因素的影響和阻礙,這表明大數(shù)據(jù)管理在分類以及流程等方面還存在著一定的問題。針對這些問題,也有一些解決方案的提出,比如,在復(fù)制和高維數(shù)據(jù)方面,聚類受到了儲存的限制,為了解決這個限制問題,國外一位學(xué)者拿出了相對應(yīng)的解決方案,對存儲的空間利用分層聚類機制進行優(yōu)化。并且,因為分區(qū)缺乏選擇科學(xué)合理的分區(qū)機制,加大了數(shù)據(jù)的處理量,因此為數(shù)據(jù)的科學(xué)處理帶來了一定的挑戰(zhàn),所以,機器學(xué)習(xí)算法是十分重要的。

3.1 數(shù)據(jù)的存儲

由于容量數(shù)據(jù)以及異構(gòu)的不斷產(chǎn)生,存儲的管理成為了根本性的問題,可用設(shè)備的儲存量遠遠不足以保存如此大量的數(shù)據(jù)。為了保證未來決策的科學(xué)性和準確性,不能一味的對數(shù)據(jù)進行篩選過濾甚至是浪費。由于數(shù)據(jù)的多維度、動態(tài)化以及復(fù)雜化,使得儲存管理要滿足的要求越來越高,管理系統(tǒng)要保存大量的數(shù)據(jù),優(yōu)化數(shù)據(jù)對處理站的可使用性,同時要提高檢索工作的效率。大數(shù)據(jù)的管理包括對儲存的優(yōu)化工作以及并行執(zhí)行工作等等。從這一角度來看,數(shù)據(jù)的集群、索引以及復(fù)制等等都是十分重要的活動[3]。

3.2 預(yù)處理

決策的質(zhì)量離不開數(shù)據(jù)的質(zhì)量。數(shù)據(jù)的合理性問題是大數(shù)據(jù)管理同化工作中重要的問題之一。所以在大數(shù)據(jù)進行分析之前,有必要對數(shù)據(jù)的質(zhì)量進行檢測。數(shù)據(jù)的預(yù)處理工作是指將原始的數(shù)據(jù)進行轉(zhuǎn)化,以便能夠更加有效的對數(shù)據(jù)進行分析,這些原始的數(shù)據(jù)可能有缺失、錯誤或者不能使用的問題。比如說,在某個數(shù)據(jù)庫內(nèi),A 物品的數(shù)據(jù)的定義類型是數(shù)字,記為001,但是在另外一個數(shù)據(jù)庫內(nèi),該物品被定義為字母,記為a,那么,在對該物品的數(shù)據(jù)進行分析之前,必須將數(shù)據(jù)全部處理為標準的格式,才能對數(shù)據(jù)進行性集成。

3.3 處理

一些豐富的信息可能會影響到業(yè)務(wù)的處理,為了充分利用這些信息,就必須有能力對大量的數(shù)據(jù)進行處理。但是,受數(shù)據(jù)處理工作復(fù)雜性的影響以及支持算法過于基礎(chǔ),不能充分擴展,對于大部分的處理程序來說,處理數(shù)據(jù)仍是一個很大的挑戰(zhàn)。數(shù)據(jù)的處理目標主要是對各個特征間的聯(lián)系進行充分了解,同時開發(fā)出數(shù)據(jù)挖掘的有效方式[4]。大數(shù)據(jù)的處理原則主要有:首先對于各種類型的分析算法,該構(gòu)架都能夠支持,比如機器學(xué)習(xí)、視覺分析、統(tǒng)計分析以及數(shù)據(jù)挖掘等等各種方式;再次就是不能將全部的數(shù)據(jù)在同一個類型的空間進行存儲,所以,不同的階段存儲的機制以及數(shù)據(jù)的處理都是不同的;最后要保證數(shù)據(jù)訪問的有效性,無論是結(jié)構(gòu)化的數(shù)據(jù)還是非結(jié)構(gòu)化的數(shù)據(jù),隨著時間的變化,他們的挖掘和訪問速度都在不斷的增長,可見,數(shù)據(jù)處理的技術(shù)必須要能夠?qū)嫶蟮臄?shù)據(jù)進行挖掘處理。

3.4 安全性

由于大數(shù)據(jù)的生成來源不止一個,這些來源是否安全是需要重視的問題。絕大部分的企業(yè)組織難以對數(shù)據(jù)進行有效的處理,主要是因為大量的數(shù)據(jù)都不是正常的數(shù)據(jù)并且特征明顯。想要保證分析數(shù)據(jù)的質(zhì)量,就必須擴大儲存空間,推出更高級的算法,并對現(xiàn)有的算法進行優(yōu)化,以實現(xiàn)對發(fā)大數(shù)據(jù)的高效處理。

4 傳統(tǒng)數(shù)據(jù)管理分析中分類存在的問題

4.1 分類數(shù)據(jù)過于冗余

數(shù)據(jù)的冗余就是指數(shù)據(jù)存在重復(fù)情況,簡單來說就是在多個系統(tǒng)或者文件中都能對同一個數(shù)據(jù)進行查詢,適當(dāng)?shù)臄?shù)據(jù)冗余可以一定程度上防止丟失數(shù)據(jù),確保數(shù)據(jù)的安全[5]。一旦數(shù)據(jù)冗余太多,就會造成檢索過程中不能高效的對數(shù)據(jù)進行查詢,大部分通過人工操作在不同的地方對同一數(shù)據(jù)進行存放,并且為了保證數(shù)據(jù)完整多次進行了儲存和備份,這樣一來,使得數(shù)據(jù)的冗余度大大增加。傳統(tǒng)的數(shù)據(jù)管理分類中過于擔(dān)心數(shù)據(jù)會丟失,多次對數(shù)據(jù)進行備份工作,但是實際上提高數(shù)據(jù)的獨立性,降低數(shù)據(jù)的冗余程度,對數(shù)據(jù)的質(zhì)量以及使用效率都可以進行提高,提高這方面的意識是十分重要的。

4.2 數(shù)據(jù)分類沒有明確的標準

數(shù)據(jù)分類的目的是為了更加充分的管理和運用數(shù)據(jù),數(shù)據(jù)進行分類的工作一定程度上可以緩解以前操作中數(shù)據(jù)過于冗余的情況,但是傳統(tǒng)的數(shù)據(jù)分類沒有對分類的標準進行明確的規(guī)定,數(shù)據(jù)在分類的過程中過于盲目,在檢索時會發(fā)生很多不便,不能有效的對數(shù)據(jù)進行查詢和提取。對傳統(tǒng)數(shù)據(jù)進行分類的方法主要有基于支持向量機的分類方法、基于小波變換算法分類方法、基于數(shù)據(jù)增益算法,這幾類的算法都會使數(shù)據(jù)的冗余程度過高。

5 大數(shù)據(jù)管理分析中對分類進行優(yōu)化

5.1 對數(shù)據(jù)冗余進行分類優(yōu)化

數(shù)據(jù)冗余簡單來說就是對種類進行分類的問題,計算機進行數(shù)據(jù)分類的主要目的之一就是提高數(shù)據(jù)的獨立性,降低數(shù)據(jù)的冗余程度[6]。大數(shù)據(jù)通過對分類算法的改變進行優(yōu)化分類,分析并處理冗余的數(shù)據(jù),在這數(shù)據(jù)進行分類優(yōu)化的工程中,通過局部特征這一分析的方式,再次提取冗余數(shù)據(jù)里面的重點信息,并對其進行標記,以替代之前數(shù)據(jù)的特征和屬性,并且將之前的數(shù)據(jù)特征和屬性定義為數(shù)據(jù)冗余的標準和標志,避免數(shù)據(jù)管理的后再次發(fā)生同樣的數(shù)據(jù)冗余。

5.2 要有明確清晰數(shù)據(jù)分類標準明確清晰

由于大數(shù)據(jù)的數(shù)量龐大性,其中包含了很多的類別,對這些數(shù)據(jù)進行分類的過程中必須有明確清晰的標準可以依據(jù),目前傳統(tǒng)的計算機技術(shù)不能達到這一點。在對大數(shù)據(jù)進行研究的時候,以特定的標準作為依據(jù)對數(shù)據(jù)進行分類,分類的標準主要以大數(shù)據(jù)中的關(guān)鍵特征和數(shù)據(jù)作為依據(jù),在后續(xù)對數(shù)據(jù)進行整理和歸類的工作中,能夠嚴格按照分類的標準實施歸檔工作,以實現(xiàn)高效的管理和運用數(shù)據(jù)。通過研究表明,在一些特定的仿真環(huán)境中,在虛擬的世界里,模擬數(shù)據(jù)分類的優(yōu)化過程,并且對結(jié)果進行統(tǒng)計得出仿真圖像,通過圖像能夠看出,大數(shù)據(jù)的分類處理以時域波形的形狀呈現(xiàn),這說明數(shù)據(jù)的分類處理得出的結(jié)果是比較準確的。另外,向量量化法也可以對大數(shù)據(jù)中的關(guān)鍵信息進行提出和分析處理,并且能夠?qū)Ψ诸惼鸬絻?yōu)化的作用,效果十分理想。

6 未來的發(fā)展趨勢

盡管大數(shù)據(jù)在管理方面的研究已經(jīng)有了一定的突破,但是目前還有很多問題沒有解決。想要為相關(guān)人員能夠充分把握管理大數(shù)據(jù)的發(fā)展趨勢和研究重點提供幫助,就必須更加深入的對未來機遇和挑戰(zhàn)進行研究。因為某些原因,會造成相當(dāng)一段時間里,數(shù)據(jù)的預(yù)處理工作要面臨很大的挑戰(zhàn)[7]。比如說,一些社交軟件提倡用戶對自己的相關(guān)數(shù)據(jù)進行搜集、探索或者總結(jié),并分享給其他人。他們希望人們能夠生成或者尋到合適的數(shù)據(jù),實現(xiàn)共享數(shù)據(jù)的簡單化,并對客戶實行激勵措施,通過極具說服力的條款對數(shù)據(jù)隱私的覆蓋率進行提高,并且避免數(shù)據(jù)擁有者出現(xiàn)降低系統(tǒng)性能級別的發(fā)生。從某種角度來講,數(shù)據(jù)集成就是實現(xiàn)人們的數(shù)據(jù)共享。但是,數(shù)據(jù)的集成有很強的復(fù)雜化,并且很多處理程序還沒有明確的集成方式。比如,有兩家公司生產(chǎn)不同的產(chǎn)品,并且使用的系統(tǒng)是一樣的,那么就必須對兩家公司系統(tǒng)數(shù)據(jù)在同一系統(tǒng)中進行集成是如何操作的進行充分的了解。所以,大數(shù)據(jù)的管理分析中,主要的挑戰(zhàn)就是開發(fā)出更多的集成工具對數(shù)據(jù)進行處理。

7 結(jié)束語

隨著時間的流逝,數(shù)據(jù)的規(guī)模變得越來越龐大,進而擴展出了更多的生成數(shù)據(jù)。所以,管理大數(shù)據(jù)的重點就是要采取科學(xué)有效的管理技術(shù)。本文全面分析了大數(shù)據(jù)管理的分類法,對分類法的存儲、預(yù)處理、處理以及安全性進行了論述,并且對分類法的問題和優(yōu)化措施進行了簡單的探究。大數(shù)據(jù)管理目前還沒有達到成熟階段,希望本篇文章可以對大數(shù)據(jù)的管理分析工作有所助益。

猜你喜歡
數(shù)據(jù)管理分類分析
企業(yè)級BOM數(shù)據(jù)管理概要
定制化汽車制造的數(shù)據(jù)管理分析
海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
分類算一算
隱蔽失效適航要求符合性驗證分析
CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
分類討論求坐標
電力系統(tǒng)不平衡分析
數(shù)據(jù)分析中的分類討論
電力系統(tǒng)及其自動化發(fā)展趨勢分析