国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究

2018-05-22 11:13周力
中國(guó)科技縱橫 2018年7期
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù)大數(shù)據(jù)互聯(lián)網(wǎng)

周力

摘 要:為了適應(yīng)大數(shù)據(jù)時(shí)代的需求,拓展自身的專業(yè)知識(shí),不斷去學(xué)習(xí)一些先進(jìn)的技術(shù)尤為重要。其中數(shù)據(jù)挖掘工作已經(jīng)逐漸成為當(dāng)前社會(huì)主要研究的課題,通過(guò)對(duì)數(shù)據(jù)更加深入的分析和研究就可以使數(shù)據(jù)得到更加充分的利用。本文針對(duì)大數(shù)據(jù)挖掘技術(shù)的基本方法及應(yīng)用進(jìn)行分析并提出了具體運(yùn)用策略。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘技術(shù);互聯(lián)網(wǎng)

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2018)07-0007-02

著名未來(lái)學(xué)家阿爾文·托夫勒早于1980年著書(shū),把“大數(shù)據(jù)”激動(dòng)地頌贊是“第三次浪潮的華彩樂(lè)章”。不過(guò),大約從2009年開(kāi)始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。美國(guó)Internet數(shù)據(jù)研究中心指出,世界互聯(lián)網(wǎng)上的數(shù)據(jù)以年50%增加,并且以兩年翻番增加,目前世界上91%以上的大數(shù)據(jù)是最近幾年才產(chǎn)生的。若是把“大數(shù)據(jù)”看作產(chǎn)業(yè),那這份產(chǎn)業(yè)的價(jià)值關(guān)鍵是去提高對(duì)這些大數(shù)據(jù)的“加工能力”,通過(guò)“加工”完成數(shù)據(jù)的“增值”。從技術(shù)角度來(lái)看,我們必須學(xué)會(huì)從大量的不規(guī)則、復(fù)雜、模糊、隨機(jī)的數(shù)據(jù)中獲得人們事先沒(méi)有覺(jué)察的、隱隱的、潛值的知識(shí)的過(guò)程。

1 大數(shù)據(jù)的表象

數(shù)據(jù)增長(zhǎng)有四個(gè)方向的挑戰(zhàn)和機(jī)遇:量(Volume)即數(shù)據(jù)多少、速(Velocity)即數(shù)據(jù)輸入輸出的速度、類(Variety)即多樣性、真實(shí)性(Veracity)即高質(zhì)量的數(shù)據(jù)。對(duì)大數(shù)據(jù)的定義各有不同,但都廣泛提及這4V特征。

大量化(Volume)表征的是數(shù)據(jù)的量和數(shù)據(jù)的完整性。多樣性(Variety)表現(xiàn)在數(shù)據(jù)格式和來(lái)源都變得越來(lái)越多樣,而且非結(jié)構(gòu)化的數(shù)據(jù)類型占3/4以上??焖俣龋╒elocity)是指數(shù)據(jù)產(chǎn)生得快、處理得快,它滿足人們對(duì)信息的實(shí)時(shí)性需求。真實(shí)性(Veracity)則是指數(shù)據(jù)的重要性在于對(duì)決策的支持,數(shù)據(jù)規(guī)模并不能決定其能否為決策提供幫助,真實(shí)性和質(zhì)量才是獲得真知和思路最重要的因素,是制定成功決策最堅(jiān)實(shí)的基礎(chǔ)。為此,我們需要篩選、挖掘并發(fā)現(xiàn)、理解海量數(shù)據(jù)信息的真實(shí)性及它們間的關(guān)系,讓數(shù)據(jù)“說(shuō)話”。

2 數(shù)據(jù)挖掘技術(shù)的基本概述

人工智能技術(shù)就是數(shù)據(jù)挖掘技術(shù)的體現(xiàn),而人工智能技術(shù)的開(kāi)發(fā)與運(yùn)用就是與數(shù)據(jù)挖掘技術(shù)的應(yīng)用相對(duì)應(yīng)的,也就是說(shuō)數(shù)據(jù)挖掘其實(shí)是依賴機(jī)器學(xué)習(xí)算法技術(shù)的提升來(lái)實(shí)現(xiàn)數(shù)據(jù)的整體創(chuàng)新的技術(shù)。其主要目的就是將一些規(guī)律之外的數(shù)據(jù)或者是相對(duì)于比較復(fù)雜的數(shù)據(jù)信息進(jìn)行深入的挖掘,從而獲取一些隱秘不容易被人知道的信息,并且還能夠根據(jù)信息的具體形式從而判斷其是否具有大量的潛在價(jià)值,通過(guò)對(duì)數(shù)據(jù)的深入調(diào)查分析并將其轉(zhuǎn)換成對(duì)自身有意義的數(shù)據(jù)信息來(lái)制定公司企業(yè)的發(fā)展計(jì)劃,從而使企業(yè)獲得巨大的經(jīng)濟(jì)利潤(rùn),保證公司的穩(wěn)定發(fā)展。

3 數(shù)據(jù)挖掘技術(shù)的方法介紹

數(shù)據(jù)挖掘技術(shù)的核心就是數(shù)理分析,通過(guò)分析方法的不同來(lái)解決不同類別的問(wèn)題,以實(shí)現(xiàn)數(shù)據(jù)挖掘的潛值。該技術(shù)主要就是對(duì)人工智能的利用,通過(guò)對(duì)人工智能技術(shù)大力的研究并逐漸利用從而實(shí)現(xiàn)技術(shù)的總體創(chuàng)新。而其分析手段也有很多種,第一是聚類分析法,這種方法主要就是對(duì)收集到的數(shù)據(jù)按照其共性進(jìn)行相關(guān)的分組,逐漸以板塊的形式呈現(xiàn)出來(lái),把一些毫無(wú)相關(guān)的數(shù)據(jù)進(jìn)行深入的研究和分析從而將其分成不同的組別,然后在這些組別中尋找到有一定價(jià)值的信息并充分的進(jìn)行利用。但是這種分析方法也存在著明顯的缺陷,由于數(shù)據(jù)信息的屬性以及其類別很難保持聯(lián)系就導(dǎo)致此方法只適用于一些統(tǒng)計(jì)學(xué)計(jì)算、數(shù)據(jù)的識(shí)別過(guò)程以及相關(guān)的心理學(xué)研究上。第二是人工神經(jīng)網(wǎng)絡(luò),這種方法通過(guò)復(fù)雜的大批量數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)對(duì)于計(jì)算機(jī)或人腦而言非常復(fù)雜的模式抽取及趨勢(shì)分析,它是建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上的,神經(jīng)網(wǎng)絡(luò)一般是有指導(dǎo)的學(xué)習(xí),也能夠無(wú)指導(dǎo)聚類,但輸入神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。所以就應(yīng)該在收集到數(shù)據(jù)的同時(shí)就按照自身的實(shí)際需求來(lái)對(duì)數(shù)據(jù)進(jìn)行有目的的分析。第三是關(guān)聯(lián)性分析法,因?yàn)橛袝r(shí)候收集到的數(shù)據(jù)并不能直接進(jìn)行應(yīng)用,所以需要去對(duì)具有隱蔽性的數(shù)據(jù)以關(guān)聯(lián)性進(jìn)行識(shí)別,完成數(shù)據(jù)顯性,這種分析方法是帶有一定精準(zhǔn)目的性,因此這種分析方法主要就是應(yīng)用在一些需要精準(zhǔn)的數(shù)據(jù)分析上,例如一些非常精確的檔案信息管理工作。第四是特征性數(shù)據(jù)分析法,網(wǎng)絡(luò)上的數(shù)據(jù)信息隨著互聯(lián)網(wǎng)逐漸廣泛的應(yīng)用其數(shù)量呈現(xiàn)出瘋漲的態(tài)勢(shì),導(dǎo)致數(shù)據(jù)的整理過(guò)程更加具有難度,對(duì)此,為了能夠更好的解決這種情況,當(dāng)前的數(shù)據(jù)整理工程師就應(yīng)該對(duì)特征數(shù)據(jù)分析法進(jìn)行應(yīng)用。

在具體實(shí)施應(yīng)用中,根據(jù)不同需求選擇適合的分析法是數(shù)據(jù)挖掘技術(shù)的核心要素。目前,在諸多數(shù)據(jù)挖掘中典型的是決策樹(shù)學(xué)習(xí)法。數(shù)據(jù)挖掘領(lǐng)域的編程算法很多,而且是實(shí)現(xiàn)數(shù)據(jù)挖掘的核心技術(shù)。結(jié)合“聚類分析法”以C4.5算法為例,此算法可以解決:用數(shù)據(jù)增益率來(lái)選擇屬性,它克服了用數(shù)據(jù)增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝;能夠完成對(duì)連續(xù)屬性的離散化處理;能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。其優(yōu)點(diǎn)是:產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。其缺點(diǎn)是:在構(gòu)造樹(shù)的過(guò)程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。除了這些還有很多種數(shù)據(jù)分析方法是對(duì)計(jì)算機(jī)的應(yīng)用來(lái)把大量的虛擬信息進(jìn)行更好的分類分析,找到數(shù)據(jù)之間的共性以及不同的特征狀態(tài)去進(jìn)行更加深入的分析,從而為企業(yè)決策者提供更加準(zhǔn)確的參考依據(jù)。

4 數(shù)據(jù)挖掘技術(shù)的應(yīng)用舉例

4.1 以大數(shù)據(jù)為創(chuàng)新方向的行業(yè)競(jìng)爭(zhēng)力不斷提升

數(shù)據(jù)挖掘技術(shù)的具體流程是先對(duì)海量數(shù)據(jù)進(jìn)行保存、分析、整理、選擇、轉(zhuǎn)換等,然后才是對(duì)數(shù)據(jù)進(jìn)行挖掘、評(píng)估、運(yùn)用。

首先是在市場(chǎng)營(yíng)銷領(lǐng)域,該領(lǐng)域是最先應(yīng)用的數(shù)據(jù)挖掘技術(shù),并且也是運(yùn)用最廣的一個(gè)領(lǐng)域。依據(jù)政府2017年6月提供的數(shù)據(jù),我國(guó)超過(guò)7.5億網(wǎng)絡(luò)用戶。他們當(dāng)中有96%都是智能手機(jī)一類移動(dòng)設(shè)備的使用者,也就是說(shuō),他們每天都上網(wǎng)。有調(diào)查報(bào)告稱,除網(wǎng)民的姓名、年齡、性別個(gè)人數(shù)據(jù)外,對(duì)于網(wǎng)民去何地、購(gòu)買何物或在網(wǎng)上搜索什么、與誰(shuí)聯(lián)系等數(shù)據(jù)也都能夠由人工智能采集并分析,幫助企業(yè)向消費(fèi)者提供后期最適宜的產(chǎn)品和服務(wù)。其次是科學(xué)研究和實(shí)驗(yàn)往往產(chǎn)生巨大的數(shù)據(jù)??茖W(xué)研究中一般是根據(jù)研究?jī)?nèi)容選擇數(shù)據(jù)挖掘技術(shù)分析法去計(jì)算而找到數(shù)據(jù)中存在的規(guī)律,達(dá)成數(shù)據(jù)挖掘的價(jià)值,獲得科學(xué)知識(shí)的新成果。據(jù)說(shuō),天文學(xué)和基因?qū)W是最早產(chǎn)生大數(shù)據(jù)變革的領(lǐng)域,現(xiàn)在的基因儀15分鐘就可以完成過(guò)去需要10年才能完成的30億對(duì)堿基對(duì)的排序工作量。接下來(lái)是制造業(yè),隨著人民日益增長(zhǎng)的美好生活需要的不斷提高,對(duì)于生活用品質(zhì)量的要求也更高,所以就應(yīng)該加大數(shù)據(jù)挖掘技術(shù)的應(yīng)用。對(duì)產(chǎn)品的生產(chǎn)以及經(jīng)濟(jì)效益進(jìn)行準(zhǔn)確的預(yù)測(cè),然后根據(jù)當(dāng)前的實(shí)際狀況對(duì)分析產(chǎn)品缺陷的原因,對(duì)其進(jìn)行完善與修正,制造出更多高質(zhì)量的產(chǎn)品,進(jìn)而幫助企業(yè)獲取更多的經(jīng)濟(jì)利潤(rùn),還能夠?qū)ξ覈?guó)制造業(yè)起到推動(dòng)作用,所以就要求數(shù)據(jù)挖掘技術(shù)能夠在制造行業(yè)中有更好的運(yùn)用方式。

4.2 將數(shù)據(jù)挖掘技術(shù)運(yùn)用到高校管理中

高校人員密集,伴隨著各種隨身設(shè)備、物聯(lián)網(wǎng)和云計(jì)算、云存儲(chǔ)等技術(shù)的發(fā)展,人和物的所有軌跡都可以被記錄,數(shù)據(jù)因此被大量生產(chǎn)出來(lái)。隨著數(shù)據(jù)挖掘技術(shù)在高校教育教學(xué)管理中的大量運(yùn)用,反映招生、就業(yè)、助困、教學(xué)評(píng)價(jià)、后勤服務(wù)、科研、學(xué)生思想政治工作等工作方面的相關(guān)數(shù)據(jù)一方面困惑我們,另一方面缺乏開(kāi)發(fā)利用。所以數(shù)據(jù)挖掘尤其需要在高校管理中進(jìn)一步開(kāi)發(fā)。怎樣做好高校管理工作,我們可以通過(guò)數(shù)據(jù)挖掘技術(shù)的合理運(yùn)用來(lái)探討??梢詮膹?qiáng)化大數(shù)據(jù)意識(shí)、提高利用大數(shù)據(jù)的能力、完善利用大數(shù)據(jù)技術(shù)體系及制度保障著手,不斷提高工作的針對(duì)性、精準(zhǔn)性,挖掘高校教育的管理運(yùn)行的潛在規(guī)律,夯實(shí)高校管理基礎(chǔ)。比如,通過(guò)對(duì)課堂教學(xué)、學(xué)生的心理和其生活中的一些數(shù)據(jù)進(jìn)行分析就能夠幫助老師在教學(xué)的過(guò)程中有所依據(jù),并且制定合理的教學(xué)方案,然后對(duì)學(xué)生的學(xué)習(xí)成績(jī)以及他們平時(shí)課堂上的表現(xiàn)來(lái)了解到學(xué)生在學(xué)習(xí)過(guò)程中難以接受的知識(shí)點(diǎn),從而對(duì)教學(xué)方法進(jìn)行調(diào)整,促進(jìn)老師可以有針對(duì)性的教學(xué);還可以將數(shù)據(jù)挖掘技術(shù)應(yīng)用到教學(xué)方法中去,來(lái)優(yōu)化學(xué)生的教學(xué)資源,使教學(xué)的相關(guān)資源發(fā)揮出更大的作用,從而使教學(xué)的方式和條件得到一定程度的提高。我們知道,數(shù)據(jù)挖掘技術(shù)在高校管理中的應(yīng)用范圍是比較廣的,其內(nèi)容比較復(fù)雜,但對(duì)每個(gè)小部分都能利用數(shù)據(jù)挖掘技術(shù)進(jìn)行管理,比如招生就業(yè)評(píng)價(jià),學(xué)生成績(jī)管理,課堂教學(xué)評(píng)價(jià)系統(tǒng)等等。

4.3 幫助企業(yè)的管理者更好的做出決策

每一個(gè)企業(yè)的管理者在做出一些決策的時(shí)候都不是憑借個(gè)人的喜好和猜測(cè)進(jìn)行制定,都是根據(jù)一些基礎(chǔ)的數(shù)據(jù)進(jìn)行提取和分析從而為決策者提高一些理論基礎(chǔ)。每一個(gè)企業(yè)都有其相關(guān)的決策和管理系統(tǒng),而這些個(gè)系統(tǒng)在運(yùn)作的時(shí)候就需要對(duì)數(shù)據(jù)挖掘技術(shù)大力的應(yīng)用,并最終為領(lǐng)導(dǎo)者提供一個(gè)系統(tǒng)化的數(shù)據(jù)倉(cāng)庫(kù),這些倉(cāng)庫(kù)里面的信息保證了其內(nèi)容的真實(shí)性、超前性和完整性。這個(gè)數(shù)據(jù)倉(cāng)庫(kù)的建立需要相關(guān)的工作人員將簡(jiǎn)單的數(shù)據(jù)進(jìn)行查詢并統(tǒng)計(jì)起來(lái)逐漸轉(zhuǎn)變成業(yè)務(wù)洞察及管理的方式,然后由決策者對(duì)于一些項(xiàng)目進(jìn)行完善和優(yōu)化,保證其覆蓋范圍和一些系統(tǒng)的數(shù)據(jù)具有很好的質(zhì)量,最終使集團(tuán)能夠?qū)?shù)據(jù)的收集工作更好的進(jìn)行下去,提高企業(yè)的使用機(jī)制,并且有效的使企業(yè)決策者能夠制定出更加符合公司發(fā)展的策略。每一個(gè)企業(yè)的決策系統(tǒng)都是經(jīng)過(guò)一定時(shí)間的優(yōu)化與提升最終逐步建立起來(lái),在該系統(tǒng)的發(fā)展過(guò)程中,其主要的工作以及職責(zé)也變得更加重要,從而使得企業(yè)的整個(gè)管理系統(tǒng)有更大工作范圍,幫助決策者更好制定相關(guān)規(guī)定。從當(dāng)前各個(gè)行業(yè)對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用情況來(lái)看,該技術(shù)已經(jīng)發(fā)揮出了更加重要的作用,并且根據(jù)當(dāng)前的大體趨勢(shì)來(lái)看,在未來(lái)的航空航天以及處理一些刑偵案件時(shí)都會(huì)對(duì)數(shù)據(jù)挖掘技術(shù)有更加深入的應(yīng)用,要想實(shí)現(xiàn)這些就應(yīng)該對(duì)當(dāng)前的技術(shù)進(jìn)行研究與創(chuàng)新然后逐漸完善企業(yè)的管理和決策系統(tǒng)。

5 結(jié)語(yǔ)

繼實(shí)驗(yàn)科學(xué)、理論科學(xué)和計(jì)算科學(xué)之后,大數(shù)據(jù)已被定義為科學(xué)探索的第四范式?;ヂ?lián)網(wǎng)的數(shù)據(jù)爆炸孕育了大數(shù)據(jù)學(xué)科,將理論、實(shí)驗(yàn)和計(jì)算仿真等范式統(tǒng)一起來(lái)。大數(shù)據(jù)的價(jià)值在于預(yù)測(cè)未知領(lǐng)域、非特定因素的未來(lái)趨勢(shì),在于破解長(zhǎng)期的、普遍的社會(huì)難題。在以云計(jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開(kāi)始容易被利用起來(lái)。簡(jiǎn)言之,從各種各樣類型的數(shù)據(jù)中,快速挖掘獲得有價(jià)值信息的能力,就是大數(shù)據(jù)挖掘技術(shù),懂得這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。通過(guò)各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)挖掘技術(shù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值。

參考文獻(xiàn)

[1]舒永芳.大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)在電力企業(yè)中的應(yīng)用研究[J].低碳世界,2016,(36):102-102.

[2]程軍鋒.Web數(shù)據(jù)挖掘研究[J].重慶三峽學(xué)院學(xué)報(bào),2013,(3):43-45.

[3]凌小萍,鄧伯軍.大數(shù)據(jù)時(shí)代高校思想政治教育探究[J].廣西師范大學(xué)學(xué)報(bào),2015,(1):62-67.

猜你喜歡
數(shù)據(jù)挖掘技術(shù)大數(shù)據(jù)互聯(lián)網(wǎng)
從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
互聯(lián)網(wǎng)背景下大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目的實(shí)施
肃北| 桂林市| 张家界市| 台东市| 新宁县| 武安市| 施秉县| 晋中市| 蓝田县| 兴城市| 吉水县| 金坛市| 彭山县| 镇宁| 忻州市| 泌阳县| 城口县| 乐至县| 五华县| 泗水县| 淄博市| 庄河市| 拉孜县| 乐平市| 乌海市| 吴堡县| 饶河县| 城固县| 绥滨县| 沅陵县| 黔东| 阜新市| 凭祥市| 玛纳斯县| 利辛县| 曲靖市| 承德市| 漳浦县| 乐业县| 綦江县| 监利县|