国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)研究

2019-06-30 12:03:10雷宇
企業(yè)科技與發(fā)展 2019年7期
關(guān)鍵詞:大數(shù)據(jù)

雷宇

【摘 要】現(xiàn)階段,互聯(lián)網(wǎng)推行大數(shù)據(jù)之后存在兩個(gè)方面的影響:首先,數(shù)據(jù)量迅速增長(zhǎng);其次,數(shù)據(jù)復(fù)雜性不斷提高。一旦數(shù)據(jù)量增長(zhǎng)并不斷累積,勢(shì)必會(huì)出現(xiàn)質(zhì)變現(xiàn)象。大數(shù)據(jù)涵蓋內(nèi)容廣泛,除了視頻數(shù)據(jù)之外,結(jié)構(gòu)信息還包括文本數(shù)據(jù),此外無論是處理速度,還是采集速度,都實(shí)現(xiàn)快速提高。生產(chǎn)企業(yè)一旦成功應(yīng)用,除了生產(chǎn)效率得到迅速提升之外,決策效率也會(huì)提高;政府部門成功應(yīng)用,能夠及時(shí)處理應(yīng)急事件。由此,數(shù)據(jù)挑戰(zhàn)在今后發(fā)展過程中將越來越突出。

【關(guān)鍵詞】大數(shù)據(jù);高位數(shù)據(jù);挖掘技術(shù)

【中圖分類號(hào)】TP311.13 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688(2019)07-0166-02

1 大數(shù)據(jù)的發(fā)展挑戰(zhàn)

現(xiàn)階段,數(shù)據(jù)庫正在全球化發(fā)展,立足于該發(fā)展模式,分布式模式需要得以創(chuàng)建,除了需要龐大機(jī)器之外,還需要技術(shù)有效處理龐大的數(shù)據(jù)信息。但是面對(duì)大數(shù)據(jù)時(shí)代,針對(duì)飛速激增的數(shù)據(jù)量,傳統(tǒng)數(shù)據(jù)分析已經(jīng)不能滿足需求,其體現(xiàn)在以下3個(gè)方面。

1.1 數(shù)據(jù)處理的時(shí)效性

面對(duì)大數(shù)據(jù)不斷推行,為了符合現(xiàn)階段數(shù)據(jù)處理實(shí)際需求,數(shù)據(jù)應(yīng)實(shí)現(xiàn)在線處理。在此基礎(chǔ)上,無論是數(shù)據(jù)處理選擇,還是數(shù)據(jù)處理模式,都不斷改變,使得處理具有實(shí)時(shí)性,除了能夠?qū)崿F(xiàn)流處理之外,批處理也成功實(shí)現(xiàn)。立足于大數(shù)據(jù)實(shí)時(shí)性處理,無論是業(yè)務(wù)需求,還是根據(jù)應(yīng)用,都逐步發(fā)生改變。

1.2 實(shí)現(xiàn)了動(dòng)態(tài)變化環(huán)境中的索引形式

在索引形式的基礎(chǔ)上,關(guān)系數(shù)據(jù)庫查詢速度將不斷提升,此時(shí)使用傳統(tǒng)數(shù)據(jù)管理模式,索引形式并不會(huì)產(chǎn)生變化,因此,無論是更新效率,還是創(chuàng)建方式,都不斷形成。針對(duì)大數(shù)據(jù)信息變化特點(diǎn),除了需要具備設(shè)計(jì)簡(jiǎn)潔的特點(diǎn),創(chuàng)建索引方式還需要具有高效的特點(diǎn),由此針對(duì)大數(shù)據(jù)變化,數(shù)據(jù)信息需求調(diào)整和處理都可以良好使用??梢?,針對(duì)大數(shù)據(jù)變化,全新的索引形式能確保查詢工作順利實(shí)施。

1.3 先驗(yàn)知識(shí)的缺失

立足于傳統(tǒng)數(shù)據(jù)分析結(jié)構(gòu),在關(guān)系型保存模式基礎(chǔ)上,先驗(yàn)知識(shí)和隱藏內(nèi)部關(guān)系早已出現(xiàn)。比如說,對(duì)信息屬性進(jìn)行分析過程中,需要確定可能存在的取值范圍,并且在實(shí)際分析之前了解數(shù)據(jù)。針對(duì)大數(shù)據(jù)分析,非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)都需要?jiǎng)?chuàng)建類似數(shù)據(jù),并且實(shí)現(xiàn)正式關(guān)系式。但是數(shù)據(jù)流的產(chǎn)生是不間斷的,所以針對(duì)實(shí)時(shí)發(fā)生的數(shù)據(jù),先驗(yàn)知識(shí)并不會(huì)創(chuàng)建完善,在此情況下,需要及時(shí)發(fā)現(xiàn)并處置無先驗(yàn)知識(shí)。

2 高維數(shù)據(jù)挖掘中的問題

2.1 高維數(shù)據(jù)簡(jiǎn)介

大數(shù)據(jù)庫飛速發(fā)展,維數(shù)同樣在急劇擴(kuò)大,一旦增長(zhǎng)到瓶頸處,數(shù)據(jù)處理將難以進(jìn)行,人們將該數(shù)據(jù)叫做高維數(shù)據(jù)。相對(duì)于傳統(tǒng)數(shù)據(jù)挖掘而言,除了具有復(fù)雜性特點(diǎn)之外,高維數(shù)據(jù)還具有多信息量性,由此成為數(shù)據(jù)挖掘的核心所在。

2.2 高維數(shù)據(jù)的特點(diǎn)

(1)稀疏性。實(shí)質(zhì)就是數(shù)據(jù)庫相對(duì)龐大時(shí),雖然高維數(shù)據(jù)非常多,但是能夠符合使用要求的相對(duì)較少。

(2)維度災(zāi)難。挖掘高維數(shù)據(jù)的過程中,往往存在較多的屬性變化,此時(shí)索引結(jié)構(gòu)性能將不斷降低,無最近鄰、最遠(yuǎn)鄰和查詢點(diǎn)的距離往往都一樣,由此最近鄰?fù)翢o意義,數(shù)據(jù)挖掘難度也將急劇增加。

2.3 高維數(shù)據(jù)對(duì)于數(shù)據(jù)挖掘產(chǎn)生的影響

結(jié)合大數(shù)據(jù)特征,實(shí)際挖掘數(shù)據(jù)過程中使用最近鄰法,在龐大數(shù)據(jù)中查詢效率將急劇提升。最近鄰法往往依賴索引結(jié)構(gòu)進(jìn)行,可是針對(duì)高維數(shù)據(jù)存在“維度災(zāi)難”的特點(diǎn),最近鄰查詢的索引結(jié)構(gòu)支持度不斷降低,甚至使得最近鄰查詢無法有效進(jìn)行。

無論是進(jìn)行高維數(shù)據(jù)的分類聚類分析,還是進(jìn)行高維數(shù)據(jù)的異常檢測(cè),均受到索引結(jié)構(gòu)制約,效果大打折扣,甚至失去效果,由此異常檢測(cè)算法與聚類分析性能將不斷降低。除此之外,針對(duì)同樣的數(shù)據(jù)點(diǎn)距離,分類聚類概念意義不斷消失,針對(duì)高??臻g數(shù)據(jù)具備的稀疏性,任何數(shù)據(jù)點(diǎn)都可視為異常點(diǎn),此時(shí)針對(duì)高維數(shù)據(jù)異常檢測(cè)將困難重重。

2.4 高維數(shù)據(jù)挖掘的研究方向

(1)距離函數(shù)或相似性度量函數(shù)。無論是重新定義距離函數(shù),還是重新定義相似性度量函數(shù),都能夠成功避免“維度災(zāi)難”的制約。

(2)選維和降維。在不斷降低高維數(shù)據(jù)維度的基礎(chǔ)上,使其成功形成低維數(shù)據(jù),由此進(jìn)行低維數(shù)據(jù)的數(shù)據(jù)挖掘。該方法最為人們所接受。

(3)高效的聚類算法和異常檢測(cè)算法。為成功解決算法效率低的難題,可采取3個(gè)方面措施:{1}設(shè)計(jì)性能更好的索引結(jié)構(gòu);{2}增量算法;{3}并行算法。

3 大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)

3.1 大數(shù)據(jù)儲(chǔ)存的三維矩陣模型

針對(duì)不同來源的數(shù)據(jù),往往可以選取不同的數(shù)據(jù)處理方式。比如,在分解數(shù)據(jù)種類的基礎(chǔ)上,可將調(diào)研數(shù)據(jù)分為單選、多選、排序3類。傳統(tǒng)數(shù)據(jù)的記錄和分析過程,都應(yīng)立足于同樣的數(shù)據(jù)庫,由此增加維度的差異。

因此,大數(shù)據(jù)時(shí)代數(shù)據(jù)模型創(chuàng)建除了需要具有內(nèi)容多的特征外,還需要存在極強(qiáng)的通用性。同樣以上文例子為例,在數(shù)據(jù)調(diào)研過程中,無論是單選,還是多選,都能夠依據(jù)向量來有效表達(dá),對(duì)應(yīng)的題目排序可以利用矩陣表現(xiàn),在社會(huì)網(wǎng)絡(luò)數(shù)據(jù)的基礎(chǔ)上進(jìn)行,并且結(jié)合關(guān)鍵性類別來實(shí)際代表選題方式,最后模型轉(zhuǎn)換則是建立在傳統(tǒng)數(shù)據(jù)庫和三維矩陣基礎(chǔ)之上(如圖1所示),處理關(guān)鍵數(shù)據(jù),由此不一樣的空間形式將存在空間維度里,此時(shí)三維矩陣將由全部數(shù)據(jù)來源構(gòu)成,進(jìn)行有效組合之后形成立體式模型(如圖2所示)。

3.2 關(guān)聯(lián)規(guī)則的三維矩陣挖掘

實(shí)際進(jìn)行大數(shù)據(jù)挖掘過程中,關(guān)聯(lián)規(guī)則挖掘是最受人們青睞的。無論是不一樣的屬性,還是項(xiàng)目關(guān)系,都無法隱藏和預(yù)知,只能在統(tǒng)計(jì)方法和數(shù)據(jù)庫的基礎(chǔ)上加以實(shí)現(xiàn)。現(xiàn)階段,關(guān)聯(lián)規(guī)則挖掘技術(shù)憑借其良好的性能成為使用廣泛的技術(shù)之一。關(guān)聯(lián)規(guī)則挖掘過程中存在以下核心要素:{1}置信度。主要用于度量衡量強(qiáng)度及準(zhǔn)確性。{2}支持度。主要用于衡量度量重要性。

在日常生活和工作中,關(guān)聯(lián)規(guī)則挖掘只有上述核心因素?cái)?shù)值最小、支持度也對(duì)應(yīng)最小值時(shí),才能成功處于關(guān)聯(lián)規(guī)則內(nèi)。假如關(guān)聯(lián)規(guī)則可靠性最低,那么置信度需要確保為最低。

想要使多維數(shù)據(jù)成功在空間中表現(xiàn),須立足于空間特種,能夠在多維儲(chǔ)存模型的基礎(chǔ)上成功表現(xiàn),此時(shí)數(shù)據(jù)層次、數(shù)據(jù)語言都能有效表達(dá)。例如,在檢測(cè)海洋數(shù)據(jù)過程中,氣象環(huán)境除了風(fēng)力之外,還有降水等;海底環(huán)境處理重力之外,還有水深等;水體環(huán)境除了有水溫、鹽度之外,還有潮流和水聲,因素眾多且相互交織,由此多維數(shù)據(jù)得以形成。在模型建立的基礎(chǔ)上,使得多維數(shù)據(jù)能夠在空間成功表達(dá),使得海洋多樣化的數(shù)據(jù)結(jié)構(gòu)得以呈現(xiàn)。

3.3 基于超圖的聚類算法

在原始數(shù)據(jù)相互關(guān)系的基礎(chǔ)上,結(jié)合超圖數(shù)據(jù)集,不斷優(yōu)化圖形劃分方法,此為超圖聚類算法。在三維矩陣之中,利用分割算法進(jìn)行圖像劃分,使用最為廣泛的是HMETIS算法,步驟如下:首先是粗化階段,在最小超圖的基礎(chǔ)上,結(jié)合推進(jìn)超圖不斷壓縮。其次是初始劃分階段,在二次劃分超圖的基礎(chǔ)上,利用二次方法不斷強(qiáng)化超圖質(zhì)量,有效提升工作效率。最后遷移優(yōu)化階段,分解超圖之后,在投影基礎(chǔ)上不斷提升分解質(zhì)量。

3.4 高維數(shù)據(jù)挖掘的工具

現(xiàn)階段,存在SPSS、Exterprise Miner、SAS 3種使用廣泛的高維數(shù)據(jù)挖掘工具,其特征如下:{1}SAS。建立在統(tǒng)計(jì)理論之上,存在諸多功能,高維數(shù)據(jù)挖掘功能相對(duì)齊全,但是需要專業(yè)人士進(jìn)行操作,并且存在極高的運(yùn)用成本。{2}Exterprise Miner。具有操作簡(jiǎn)便的優(yōu)勢(shì),高維數(shù)據(jù)的處理能力相對(duì)適中,但是不能進(jìn)行數(shù)據(jù)搜索。{3}SPSS。與SAS功能類似,但是相對(duì)而言性價(jià)比較高,高維數(shù)據(jù)挖掘功能較為出眾,除此之外,立足于集成及發(fā)布功能,工作人員能夠較好地掌握并理解挖掘結(jié)果。

參 考 文 獻(xiàn)

[1]閆婷婷.數(shù)學(xué)建模中的高維數(shù)據(jù)挖掘技術(shù)優(yōu)化研究[J].計(jì)算機(jī)測(cè)量與控制,2017(9):158-160.

[2]虞翔,李青.大數(shù)據(jù)環(huán)境下的高維數(shù)據(jù)挖掘在入侵檢測(cè)中的有效應(yīng)用[J].電腦編程技巧與維護(hù),2016(22):57-58.

[3]田祥宏,陳正宇.大數(shù)據(jù)環(huán)境下的高維數(shù)據(jù)挖掘技術(shù)研究[J].自動(dòng)化與儀器儀表,2016(3):100-101.

[責(zé)任編輯:陳澤琦]

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
基于大數(shù)據(jù)的小微電商授信評(píng)估研究
大數(shù)據(jù)時(shí)代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
文成县| 东丽区| 周至县| 巩义市| 库车县| 汪清县| 东丽区| 宁明县| 巢湖市| 万源市| 明星| 沭阳县| 工布江达县| 十堰市| 边坝县| 高台县| 托克托县| 辉南县| 宜黄县| 宜都市| 仙居县| 莲花县| 萍乡市| 汪清县| 山东| 梧州市| 汶上县| 大洼县| 留坝县| 东阳市| 缙云县| 鲁甸县| 杭州市| 咸阳市| 卢湾区| 淳化县| 新疆| 五寨县| 隆尧县| 灵台县| 广西|