国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的在線數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)

2020-06-19 08:20李星熠吳小勇韓龍姜發(fā)健陳子康
關(guān)鍵詞:數(shù)據(jù)可視化數(shù)據(jù)分析數(shù)據(jù)挖掘

李星熠 吳小勇 韓龍 姜發(fā)健 陳子康

摘? ?要:隨著信息時(shí)代的到來(lái),數(shù)據(jù)量日益膨脹,尋找一種能夠有效分析、處理數(shù)據(jù)的手段的需求也日益迫切,在當(dāng)今社會(huì)生產(chǎn)活動(dòng)中,數(shù)據(jù)分析可視化正成為一種越來(lái)越普遍的需求。因此數(shù)據(jù)分析軟件也隨之成為各行各業(yè)從業(yè)人員的標(biāo)配,本文將介紹的ZoomIn數(shù)據(jù)分析系統(tǒng),采用簡(jiǎn)單易懂的Web操作界面來(lái)為用戶提供將復(fù)雜數(shù)據(jù)可視化和使用模型對(duì)數(shù)據(jù)深度挖掘的功能,讓用戶能夠通過(guò)對(duì)數(shù)據(jù)進(jìn)行清洗、統(tǒng)計(jì)分析、訓(xùn)練相應(yīng)的機(jī)器學(xué)習(xí)模型之后挖掘出隱藏在數(shù)據(jù)中的潛在價(jià)值。

關(guān)鍵詞:數(shù)據(jù)挖掘? 數(shù)據(jù)分析? 數(shù)據(jù)可視化

中圖分類號(hào):TP311.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2020)03(a)-0133-02

現(xiàn)今大數(shù)據(jù)時(shí)代下,不少中小企業(yè)已經(jīng)積累了大量本行業(yè)的數(shù)據(jù),但是由于沒(méi)有專業(yè)數(shù)據(jù)分析能力,或是未配備數(shù)據(jù)分析人員,導(dǎo)致并不能將數(shù)據(jù)轉(zhuǎn)化為生產(chǎn)力。

現(xiàn)有市面上的數(shù)據(jù)分析工具如:Tableau、Spss等軟件操作門檻較高,對(duì)專業(yè)能力有著一定的要求,需要數(shù)據(jù)分析師進(jìn)行技術(shù)支持,成本過(guò)高。而且,市面上的數(shù)據(jù)分析軟件大部分是PC端,鮮有Web端應(yīng)用,這就造成使用不便、系統(tǒng)配置成本大等問(wèn)題[1]。如何才能讓大數(shù)據(jù)分析變得友好和易于理解,可視化無(wú)疑是最有效的途徑。

ZoomIn數(shù)據(jù)分析系統(tǒng)是一款智能數(shù)據(jù)分析產(chǎn)品,把抽象數(shù)據(jù)的可視化功能和專業(yè)的數(shù)據(jù)挖掘模型科學(xué)整合,系統(tǒng)采用Web應(yīng)用的方式呈現(xiàn)給用戶,在使用后可導(dǎo)出可視化分析報(bào)告、輔助決策等。

1? 系統(tǒng)架構(gòu)

本系統(tǒng)將目標(biāo)需求按數(shù)據(jù)分析思路劃分為五個(gè)模塊,其中包括創(chuàng)建任務(wù)模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)挖掘模塊和任務(wù)發(fā)布模塊。

在任務(wù)發(fā)布后,用戶對(duì)于同一任務(wù)可以進(jìn)入任意模塊進(jìn)行迭代與改進(jìn),以保證分析結(jié)果的準(zhǔn)確性和靈活性。

ZoomIn數(shù)據(jù)分析系統(tǒng)各組件均采用開(kāi)源技術(shù),這些技術(shù)具備成熟度高、性能穩(wěn)定與可擴(kuò)展性高等諸多優(yōu)勢(shì)。系統(tǒng)組件包括:Web后端框架Django搭配前端框架Vue、前端數(shù)據(jù)可視化工具E-Charts、進(jìn)行數(shù)據(jù)處理與清洗的Pandas、繪圖工具庫(kù)Seaborn、機(jī)器學(xué)習(xí)算法庫(kù)Scikit-learn以及結(jié)構(gòu)化數(shù)據(jù)庫(kù)MySQL等。

2? 數(shù)據(jù)挖掘與展示

2.1 數(shù)據(jù)挖掘

Python語(yǔ)言近幾年來(lái)在數(shù)據(jù)挖掘、數(shù)據(jù)分析等領(lǐng)域的使用率與熱度持續(xù)上升,這主要得益于其豐富且強(qiáng)大的庫(kù)以及其優(yōu)雅簡(jiǎn)潔的語(yǔ)法特性。本系統(tǒng)中主要使用到的Pandas是Python中一種數(shù)據(jù)分析的包,可以用來(lái)做科學(xué)計(jì)算,從而為數(shù)據(jù)挖掘提供預(yù)先數(shù)據(jù)清洗和處理的環(huán)境。

數(shù)據(jù)挖掘階段,我們就會(huì)使用Scikit-learn包,運(yùn)用其中封裝好的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法構(gòu)造挖掘模型。其中我們的數(shù)據(jù)挖掘模塊將不同字段組合放在不同算法模型進(jìn)行關(guān)聯(lián)分析、相關(guān)性分析、預(yù)測(cè)分析、聚類分析等挖掘其隱藏的信息。

2.2 數(shù)據(jù)可視化

本系統(tǒng)做為一個(gè)數(shù)據(jù)分析平臺(tái),其主要功能就是為了在Web端通過(guò)用戶的簡(jiǎn)單交互操作,將復(fù)雜的數(shù)據(jù)源進(jìn)行整理并將數(shù)據(jù)分析圖表或是數(shù)據(jù)挖掘結(jié)果進(jìn)行多維度展示。在數(shù)據(jù)挖掘階段,我們將準(zhǔn)備的各種挖掘模型的可調(diào)參數(shù)暴露給用戶,讓用戶可以通過(guò)反復(fù)的調(diào)參配合圖表進(jìn)行不同角度的觀察與分析。

本系統(tǒng)的數(shù)據(jù)可視化部分采用兩種不同展示方案,首先在數(shù)據(jù)預(yù)處理與數(shù)據(jù)分析階段,由于用戶需要拖拽字段和數(shù)據(jù)列來(lái)做直觀處理,我們采用在前端使用E-Charts進(jìn)行支持。而后在數(shù)據(jù)挖掘階段,由于涉及大數(shù)據(jù)量的模型運(yùn)算,會(huì)大大造成運(yùn)算服務(wù)器的壓力,所以我們使用SeaBorn將模型運(yùn)算后的視圖直接傳送到前端展示。

3? 應(yīng)用價(jià)值

本系統(tǒng)不僅填補(bǔ)了Web端數(shù)據(jù)分析軟件的空白,并且操作門檻低。專業(yè)的數(shù)據(jù)分析功能解決了有數(shù)據(jù)但無(wú)分析能力的中小用戶的痛點(diǎn),具有很高的應(yīng)用價(jià)值,非常適合非數(shù)據(jù)挖掘?qū)I(yè)方向的用戶進(jìn)行使用。借助數(shù)據(jù)挖掘模型[2]從大量原始數(shù)據(jù)中發(fā)掘出隱含的、有用的、尚未發(fā)現(xiàn)的信息,幫助決策者尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的因素。

4? 實(shí)驗(yàn)與應(yīng)用

4.1 數(shù)據(jù)源

數(shù)據(jù)來(lái)源是由用戶提供,由于Pandas的強(qiáng)大功能可以將目前主流的數(shù)據(jù)文件類型統(tǒng)一處理比如csv、txt文件等,這些都屬于中、小規(guī)模數(shù)據(jù)量,如果是大數(shù)據(jù)量處理的話,系統(tǒng)會(huì)選擇高速通道傳輸文件。

4.2 學(xué)生成績(jī)分析

智能教育是人工智能、大數(shù)據(jù)等智能技術(shù)與教育深度融合和創(chuàng)新發(fā)展形成的教育新模式[3],隨著它的普及,教育愈發(fā)從傳統(tǒng)的經(jīng)驗(yàn)式把控逐漸向著數(shù)據(jù)量化控制方向靠攏。而成績(jī)分析與預(yù)測(cè)就是其中的一環(huán),結(jié)合中小學(xué)生升學(xué)過(guò)程中不同階段的考試為數(shù)據(jù)源,進(jìn)行趨勢(shì)把控,嘗試去預(yù)測(cè)其后面的成績(jī)變化方向。我們依靠某市所有初、高中的學(xué)生入學(xué)與升學(xué)成績(jī)數(shù)據(jù)為數(shù)據(jù)源,進(jìn)行分析挖掘和展示。

如上圖所示是將學(xué)生成績(jī)做線性回歸的結(jié)果展示,系統(tǒng)成功地將復(fù)雜的分析結(jié)果通過(guò)Web應(yīng)用的媒介直觀地展示給用戶,并且會(huì)在最后的結(jié)果發(fā)布模塊給出相關(guān)的模型誤差參考與分析建議。

5? 結(jié)語(yǔ)

本文提出了一種基于數(shù)據(jù)挖掘的在線數(shù)據(jù)分析系統(tǒng),針對(duì)于非數(shù)據(jù)分析方向的相關(guān)從業(yè)人員,解決其在低學(xué)習(xí)成本要求下進(jìn)行專業(yè)數(shù)據(jù)挖掘和分析的硬性需求。系統(tǒng)有效的滿足了用戶簡(jiǎn)單交互、多維度分析數(shù)據(jù)并獲取專業(yè)且直觀的分析結(jié)果的訴求。

目前系統(tǒng)主要是進(jìn)行中小規(guī)模的數(shù)據(jù)挖掘與處理,為滿足進(jìn)一步擴(kuò)大的數(shù)據(jù)量規(guī)模,在后續(xù)工作中,我們將引進(jìn)分布式計(jì)算框架,用來(lái)支持大數(shù)據(jù)的分布式計(jì)算,更好地優(yōu)化系統(tǒng),使其可以應(yīng)對(duì)更高水平的需求。

參考文獻(xiàn)

[1] 閆龍川.基于開(kāi)源軟件的數(shù)據(jù)分析與可視化應(yīng)用[A]. 中國(guó)電機(jī)工程學(xué)會(huì)電力信息化專業(yè)委員會(huì)、國(guó)家電網(wǎng)公司信息通信分公司.2016電力行業(yè)信息化年會(huì)論文集[C].中國(guó)電機(jī)工程學(xué)會(huì)電力信息化專業(yè)委員會(huì)、國(guó)家電網(wǎng)公司信息通信分公司:人民郵電出版社電信科學(xué)編輯部,2016:268-271.

[2] 朱家元,張恒喜,虞健飛.在數(shù)據(jù)挖掘中基于SOM網(wǎng)絡(luò)的數(shù)據(jù)分析可視化設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用與軟件,2003(2):15-16,41.

[3] 劉邦奇.智能教育的發(fā)展形態(tài)與實(shí)踐路徑——兼談智能教育與智慧教育的關(guān)系[J].現(xiàn)代教育技術(shù),2019,29(10):20-27.

猜你喜歡
數(shù)據(jù)可視化數(shù)據(jù)分析數(shù)據(jù)挖掘
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
可視化:新媒體語(yǔ)境下的數(shù)據(jù)、敘事與設(shè)計(jì)研究
我國(guó)數(shù)據(jù)新聞的發(fā)展困境與策略研究
淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營(yíng)銷模式的影響
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究