歐陽(yáng)柏成
摘要:“大數(shù)據(jù)”(Big data)是繼云計(jì)算、物聯(lián)網(wǎng)之后又一顛覆性的信息技術(shù)革命,大數(shù)據(jù)技術(shù)是從各種各類(lèi)型的巨量數(shù)據(jù)中快速獲得有價(jià)值信息的技術(shù)。隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)也吸引了越來(lái)越多的關(guān)注,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘(Data Mining,DM)是最關(guān)鍵的工具。進(jìn)入21世紀(jì)后,對(duì)于在大數(shù)據(jù)時(shí)代挖掘更豐富、更多元的信息課題的研究變得愈加迫切、艱巨,挖掘技術(shù)的探究依然成為一項(xiàng)社會(huì)型的研究課題;現(xiàn)今階段,無(wú)論信息技術(shù),還是數(shù)據(jù)挖掘技術(shù),都在影響、改變著數(shù)據(jù)信息在日常信息管理、信息處理方面的影響與作用;它能夠幫助信息依靠非常強(qiáng)的邏輯處理功能,消除信息資源的相互干擾及影響,及邏輯障礙和空間局限等問(wèn)題,完成信息資源職能上的蛻變與發(fā)展?;诖?,該文將結(jié)合大數(shù)據(jù)時(shí)代背景條件下,數(shù)據(jù)挖掘技術(shù)的發(fā)展現(xiàn)狀及使用特征,解析數(shù)據(jù)挖掘技術(shù)的相關(guān)應(yīng)用問(wèn)題。
關(guān)鍵詞:大數(shù)據(jù);挖掘技術(shù);數(shù)據(jù)信息;研究與應(yīng)用
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)15-0003-02
2011年5月,全球多個(gè)發(fā)達(dá)國(guó)家達(dá)成了普遍共識(shí),并意識(shí)到全球已經(jīng)進(jìn)入到大數(shù)據(jù)時(shí)代,且特別在全球研究會(huì)中明確強(qiáng)調(diào)了,以網(wǎng)絡(luò)、工程系統(tǒng)為載體,形成的信息資源已經(jīng)進(jìn)入到各行各業(yè),成為重要的生產(chǎn)管理元素。筆者閱讀了《大數(shù)據(jù)信息》這篇著作后發(fā)現(xiàn),大數(shù)據(jù)是數(shù)據(jù)集優(yōu)、分派、管理發(fā)展的過(guò)程背景與平臺(tái),在操作和使用過(guò)程中,數(shù)據(jù)的潛在信息量不容易被準(zhǔn)確的探尋得到,需要依靠數(shù)據(jù)挖掘技術(shù)進(jìn)一步整理、優(yōu)化才行。由此可見(jiàn),數(shù)據(jù)挖掘技術(shù)之于大數(shù)據(jù)時(shí)代背景,有著舉足輕重的發(fā)展地位,其技術(shù)的研發(fā)與應(yīng)用,標(biāo)志著一個(gè)國(guó)家對(duì)數(shù)據(jù)信息的編輯處理功能,發(fā)展意義及作用影響巨大。
1 大數(shù)據(jù)時(shí)代的發(fā)展歷程及現(xiàn)狀表現(xiàn)
2012年3月29日,美國(guó)政府在白宮網(wǎng)站上發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,表示將投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,這一政策舉動(dòng)當(dāng)即引起了眾多發(fā)達(dá)國(guó)家的注意,側(cè)面證明了,大數(shù)據(jù)平臺(tái)的建立與研發(fā),已經(jīng)成為評(píng)價(jià)一個(gè)國(guó)家實(shí)力和資本能力的重要指標(biāo)。據(jù)統(tǒng)計(jì),從“大數(shù)據(jù)”概念被提出至今,大數(shù)據(jù)的信息容量和數(shù)據(jù)交流量就在不斷的刷新紀(jì)錄,由2011年的1.8ZB提高到14.2ZB,這個(gè)容量相當(dāng)于每個(gè)人每天要消耗、應(yīng)用200GB以上的數(shù)據(jù)信息。還不止如此,在美國(guó)國(guó)家統(tǒng)計(jì)局2014年的總結(jié)報(bào)告中,美國(guó)2012-2014年的大數(shù)據(jù)容量皆能夠以50%左右的增幅增長(zhǎng),這種驚人的增長(zhǎng)速度,是任何行業(yè)、領(lǐng)域都很難達(dá)到的。尤其是近期中國(guó)開(kāi)始走進(jìn)大數(shù)據(jù)環(huán)境,各行各領(lǐng)域的數(shù)據(jù)、信息的本質(zhì)已悄然發(fā)生了變化,如:ERP系統(tǒng),它可將所有業(yè)務(wù)信息集合在一起,形成一體化管理模式,最大限度降低業(yè)務(wù)操作行為所產(chǎn)生的損耗資源,如此一來(lái),工作的效率和質(zhì)量都會(huì)有所提高。從發(fā)展現(xiàn)狀上看,我國(guó)企事業(yè)單位對(duì)大數(shù)據(jù)、互聯(lián)網(wǎng)環(huán)境的包容能力很強(qiáng),他們知道該怎樣利用信息的集合優(yōu)勢(shì),能夠正確評(píng)價(jià)作業(yè),使大數(shù)據(jù)充分發(fā)揮其影響作用。
2 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)述及數(shù)據(jù)信息分析方法
2.1理論概述
作為一個(gè)新興的技術(shù)科學(xué),數(shù)據(jù)挖掘技術(shù)是伴隨著網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的逐步推進(jìn)而漸漸發(fā)展起來(lái)的,它不光被商業(yè)領(lǐng)域生產(chǎn)、管理工作所應(yīng)用,還能夠進(jìn)入到各種無(wú)規(guī)則、無(wú)程序要求、復(fù)雜的數(shù)據(jù)信息使用環(huán)境中。數(shù)據(jù)挖掘的目的在于通過(guò)技術(shù)手段,把存留、積聚在網(wǎng)絡(luò)上的數(shù)據(jù)信息抽離出來(lái),編輯、處理成信息集合,供人們收錄、查看,以及撲捉應(yīng)用。
2.2基本分析方法
要想延展、推廣數(shù)據(jù)挖掘技術(shù)的應(yīng)用表現(xiàn),需要從數(shù)據(jù)用途、分析方法入手,系統(tǒng)探究,因?yàn)橹挥羞@樣才能發(fā)揮出數(shù)據(jù)真實(shí)、本質(zhì)的應(yīng)用影響及價(jià)值。對(duì)于任何一種特殊數(shù)據(jù)來(lái)講,深挖其信息資源的具體內(nèi)容都可以發(fā)現(xiàn)或多或少的規(guī)律、特點(diǎn),甚至是相同的信息內(nèi)容。常見(jiàn)的信息分析方法有:
2.2.1聚類(lèi)分析法
把抽象、不確定、無(wú)指向的數(shù)據(jù)信息集中在一起,分類(lèi)整理、編輯處理后,形成具有統(tǒng)一特征、表現(xiàn)的數(shù)據(jù)源,以供分析研究,給分析方法極為常見(jiàn),可以適用于各種應(yīng)用到數(shù)據(jù)信息的工作中。
2.2.2關(guān)聯(lián)分析法
不同數(shù)據(jù)之間有關(guān)聯(lián)性影響,但憑借人力很難發(fā)現(xiàn)這些信息的特征,需要預(yù)先圍繞信息的關(guān)聯(lián)表現(xiàn),制定數(shù)據(jù)關(guān)聯(lián)管理方案,以完成某種目的性的信息處理目的和任務(wù),它適用于對(duì)信息處理要求高、任務(wù)復(fù)雜的信息管理工作。
2.2.3特征性數(shù)據(jù)分析法
隨著數(shù)據(jù)資源應(yīng)用范圍的廣泛,網(wǎng)絡(luò)數(shù)據(jù)的特征性功能和性質(zhì)被大量挖掘出來(lái),如:人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)通過(guò)復(fù)雜的大批量數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)對(duì)于計(jì)算機(jī)或人腦而言非常復(fù)雜的模式抽取及趨勢(shì)分析;遺傳算法經(jīng)常被用作評(píng)估其他算法的適合度,圍繞生物進(jìn)化原理,假設(shè)、虛擬信息數(shù)據(jù)成長(zhǎng)過(guò)程,組建半真實(shí)、半虛擬的信息資源;可視化技術(shù)可視化技術(shù)是數(shù)據(jù)挖掘中應(yīng)用非常廣泛的一種輔助技術(shù).它借助圖形、圖像、動(dòng)畫(huà)等手段形象地指導(dǎo)操作、引導(dǎo)挖掘和表達(dá)結(jié)果等。
3 數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用問(wèn)題
3.1數(shù)據(jù)挖掘的基本過(guò)程
對(duì)某公司采用的數(shù)據(jù)挖掘技術(shù)進(jìn)行系統(tǒng)分析可知,數(shù)據(jù)的挖掘也需要依靠固定流程、順序操作方才能完成信息資源的整合及處理,具體操作流程如下圖1所示,本文把它分為三個(gè)步驟加以論述,具體內(nèi)容為:一是數(shù)據(jù)準(zhǔn)備,開(kāi)始數(shù)據(jù)挖掘之初,要有明確、客觀的“目標(biāo)數(shù)據(jù)”,也就是說(shuō),在尋找數(shù)據(jù)、挖掘數(shù)據(jù)之前要首先知道需要哪些數(shù)據(jù),方才不致盲目。數(shù)據(jù)準(zhǔn)備的過(guò)程中,系統(tǒng)會(huì)根據(jù)具體操作和指示,在浩瀚無(wú)垠的數(shù)據(jù)庫(kù)中檢索符合條件、目標(biāo)原則的信息資源,加以分類(lèi)、清洗、編輯,甚至于預(yù)處理。二是數(shù)據(jù)挖掘,經(jīng)過(guò)處理后的目標(biāo)數(shù)據(jù)信息,需要經(jīng)過(guò)“挖掘”處理后,才能被正確、高效引用到管理機(jī)制中,所以該操作環(huán)節(jié)是整個(gè)程序的關(guān)鍵過(guò)程。如:按照數(shù)據(jù)挖掘的目標(biāo)要求,選擇合適、科學(xué)的計(jì)算方法、分析方法,找尋、歸納數(shù)據(jù)信息的特征及應(yīng)用價(jià)值表現(xiàn);又如:根據(jù)程序的應(yīng)用表現(xiàn),選擇固定的數(shù)據(jù)區(qū)域,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)“挖掘”,以獲取較為有深度、有內(nèi)涵價(jià)值的數(shù)據(jù)信息資源,最后對(duì)挖掘過(guò)的數(shù)據(jù)結(jié)果進(jìn)行解釋、分析、提取有意義或有使用價(jià)值的規(guī)律,還原成人們能夠理解的數(shù)據(jù)語(yǔ)言。三是巧妙的運(yùn)用管理知識(shí)、計(jì)算知識(shí),盡快的把數(shù)據(jù)挖掘技術(shù)提取、總結(jié)出來(lái)的數(shù)據(jù)信息以及評(píng)估結(jié)果,應(yīng)用到現(xiàn)實(shí)工作當(dāng)中,判斷、影響某個(gè)決策行為、意識(shí)思想的正確與否、科學(xué)與否。這個(gè)步驟顯然是數(shù)據(jù)挖掘技術(shù)應(yīng)用價(jià)值最終極的體現(xiàn),所以也應(yīng)一絲不茍的完成。
3.2技術(shù)應(yīng)用的延展方向
對(duì)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)的相關(guān)應(yīng)用問(wèn)題進(jìn)行系統(tǒng)分析可知,在未來(lái)幾年,數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域會(huì)被進(jìn)一步拓寬,除了在市場(chǎng)營(yíng)銷(xiāo)領(lǐng)域、科學(xué)研究領(lǐng)域、生產(chǎn)制造業(yè)領(lǐng)域、電信領(lǐng)域、教育領(lǐng)域得到廣泛應(yīng)用外,還會(huì)逐漸向其他行業(yè)延伸,如:航空航天、生物制藥、刑偵調(diào)查等領(lǐng)域,技術(shù)應(yīng)用領(lǐng)域的發(fā)展,要求數(shù)據(jù)挖掘技術(shù)的功能性必須愈加豐富,才能迎合該項(xiàng)技術(shù)事業(yè)的拓展表現(xiàn),主要延展方向有。
3.2.1 挖掘后數(shù)據(jù)信息資源的職能范圍和表現(xiàn)形式
單一靠背景、環(huán)境來(lái)促進(jìn)數(shù)據(jù)挖掘技術(shù)的轉(zhuǎn)型是不科學(xué)的、不合理的,因此,當(dāng)網(wǎng)絡(luò)信息化環(huán)境形成時(shí),便要考慮社會(huì)經(jīng)濟(jì)、科技、文化等環(huán)境要素的變化趨向,使其數(shù)據(jù)挖掘技術(shù)職能的發(fā)展能夠最大限度的配合工作。職能作用更加豐富,在信息環(huán)境下,數(shù)據(jù)挖掘技術(shù)信息的限定條件變的不同了,以原始數(shù)據(jù)挖掘技術(shù)概念為框架,數(shù)據(jù)挖掘技術(shù)信息只被用于數(shù)據(jù)挖掘技術(shù)管理,而不參與決策管理,而現(xiàn)階段信息化數(shù)據(jù)挖掘技術(shù)則不同,它可以解釋企業(yè)經(jīng)濟(jì)活動(dòng)中所有物質(zhì)的性質(zhì)和價(jià)值變化趨向,圍繞數(shù)據(jù)變化特征及具體規(guī)律表現(xiàn),找出信息的基本要素、信息質(zhì)量特征、數(shù)據(jù)管理要求等多種信息源種類(lèi),進(jìn)而豐富其表現(xiàn)形式。因此,經(jīng)數(shù)據(jù)挖掘技術(shù)處理后的信息,其職能范圍、表現(xiàn)形式的擴(kuò)大與豐富,預(yù)示著網(wǎng)絡(luò)擬定的目標(biāo)服務(wù)是較為完整的,并具有特殊個(gè)體物品屬性的,它承擔(dān)著傳統(tǒng)數(shù)據(jù)挖掘技術(shù)生產(chǎn)、工作的所有物質(zhì)、信息資源管理責(zé)任,卻不拘泥于此,能夠充分滿足大數(shù)據(jù)時(shí)代,數(shù)據(jù)化信息處理、編輯管理的各種工作要求,整合不同種類(lèi)的業(yè)務(wù),做到一體化業(yè)務(wù)數(shù)據(jù)挖掘技術(shù)服務(wù)。
3.2.2 充分利用大數(shù)據(jù)背景,防止數(shù)據(jù)挖掘技術(shù)信息失真
數(shù)據(jù)挖掘技術(shù)信息主要來(lái)源于社會(huì)、出自大數(shù)據(jù),因此,包括各行各業(yè)在內(nèi)的數(shù)據(jù)挖掘技術(shù)需求者應(yīng)對(duì)社會(huì)、網(wǎng)絡(luò)等自身需要的數(shù)據(jù)信息資源進(jìn)行統(tǒng)籌規(guī)劃,使之成為具有公共物品性質(zhì)的產(chǎn)品,能夠發(fā)揮個(gè)性化職能影響,主導(dǎo)、控制、管理數(shù)據(jù)挖掘技術(shù)管理工作。首先,數(shù)據(jù)挖掘技術(shù)職能如何充分發(fā)揮大數(shù)據(jù)背景,意味著技術(shù)信息化程度的較高,具備被挖掘、被記錄、被管理的能力和平臺(tái),因此,要想推動(dòng)數(shù)據(jù)挖掘技術(shù)信息資源轉(zhuǎn)型與應(yīng)用,必須充分利用大背景數(shù)據(jù),使得業(yè)務(wù)與技術(shù)操作程序真正的一體化。業(yè)務(wù)與技術(shù)操作程序的一體化也就意味著數(shù)據(jù)挖掘技術(shù)可以把各項(xiàng)資源的消耗、變化,以及管理操作等行為有效、科學(xué)的記憶,只要技術(shù)操作者愿意,都可以獲得發(fā)生在資源消耗源頭的信息,那么這對(duì)于評(píng)價(jià)數(shù)據(jù)信息資源消耗的效益十分有意義,進(jìn)一步有助于評(píng)價(jià)作業(yè)的價(jià)值,從而可以?xún)?yōu)化業(yè)務(wù)流程。圍繞大數(shù)據(jù)背景,重新定義數(shù)據(jù)挖掘技術(shù)職能,針對(duì)數(shù)據(jù)挖掘技術(shù)信息有外部和內(nèi)部服務(wù)的區(qū)別,合理控制企業(yè)內(nèi)部各階段、各類(lèi)型的數(shù)據(jù)挖掘技術(shù)信息,并采用輔助管理機(jī)制,完善數(shù)據(jù)挖掘技術(shù)的相關(guān)職能。
4 結(jié)論
綜上分析可知,大數(shù)據(jù)時(shí)代的到來(lái),對(duì)數(shù)據(jù)挖掘技術(shù)職能轉(zhuǎn)型、變遷有著積極的影響作用。目前,數(shù)據(jù)挖掘技術(shù)職能轉(zhuǎn)型面臨著許許多多的限制條件,信息資源豐富度不強(qiáng);數(shù)據(jù)挖掘技術(shù)信息的社會(huì)性質(zhì)差,無(wú)法說(shuō)明其數(shù)據(jù)信息真正的價(jià)值取向;信息的核心價(jià)值欠缺等,所以,要在數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)踐中充分發(fā)揮數(shù)據(jù)挖掘技術(shù)職能,研究信息化背景下數(shù)據(jù)挖掘技術(shù)職能發(fā)揮路徑的變遷和改進(jìn)是重要的問(wèn)題。未來(lái)幾年,我國(guó)數(shù)據(jù)挖掘技術(shù)應(yīng)當(dāng)依附于大數(shù)據(jù)背景,從現(xiàn)實(shí)角度出發(fā),討論數(shù)據(jù)挖掘技術(shù)職能轉(zhuǎn)型、發(fā)展的相關(guān)問(wèn)題。
參考文獻(xiàn):
[1] 李平榮.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報(bào),2014,10(103):145-147.
[2] 盧建昌,樊圍國(guó).大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)在電力企業(yè)中的應(yīng)用[J].廣東電力,2014,22(109):88-94.
[3] 張樹(shù)森.大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘?qū)芾頂?shù)據(jù)挖掘技術(shù)職能的影響[A].中國(guó)數(shù)據(jù)挖掘技術(shù)學(xué)會(huì)數(shù)據(jù)挖掘技術(shù)信息化專(zhuān)業(yè)委員會(huì).中國(guó)數(shù)據(jù)挖掘技術(shù)學(xué)會(huì)第十三屆數(shù)據(jù)挖掘技術(shù)信息化年會(huì)報(bào)告論文集[C].中國(guó)數(shù)據(jù)挖掘技術(shù)學(xué)會(huì)數(shù)據(jù)挖掘技術(shù)信息化專(zhuān)業(yè)委員會(huì),2014,22(12):15-23.
[4] 宋志秋.大數(shù)據(jù)時(shí)代營(yíng)銷(xiāo)中的數(shù)據(jù)挖掘技術(shù)[J].數(shù)字技術(shù)與應(yīng)用,2015,22(103):209-211.
[5] 曹莉.芻議大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與精細(xì)管理[J].經(jīng)營(yíng)管理者,2013,10(118):191-192.
[6] 韓英.淺析大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與精細(xì)管理[J].成都航空職業(yè)技術(shù)學(xué)院學(xué)報(bào),2013,29(104):63-71.
[7] 趙倩倩,程國(guó)建,冀乾宇,戎騰學(xué).大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J].電腦知識(shí)與技術(shù),2014,10(133):7831-7833.
[8] 馬遙.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在CBA聯(lián)賽中的應(yīng)用理論研究[J].鄭州大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014,29(23):102-112.