国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

企業(yè)大數(shù)據(jù)分析挖掘中大數(shù)據(jù)BI工具的應(yīng)用探討

2023-03-22 16:54:26劉宇陽(yáng)
數(shù)字通信世界 2023年1期
關(guān)鍵詞:數(shù)據(jù)挖掘工具預(yù)測(cè)

劉宇陽(yáng)

(光大科技有限公司,北京 100040)

0 引言

企業(yè)在經(jīng)營(yíng)發(fā)展的過(guò)程中,必然會(huì)積累大量的數(shù)據(jù)資源,相關(guān)數(shù)據(jù)資源能夠反映企業(yè)的經(jīng)營(yíng)情況、經(jīng)營(yíng)風(fēng)險(xiǎn)以及市場(chǎng)走向等信息。利用好相關(guān)數(shù)據(jù)資源,對(duì)于進(jìn)一步提升企業(yè)經(jīng)營(yíng)決策能力以及風(fēng)險(xiǎn)規(guī)避能力具有重要的意義?,F(xiàn)階段,大數(shù)據(jù)BI工具的出現(xiàn)與發(fā)展為企業(yè)大數(shù)據(jù)分析與挖掘提供了有效的方法。在大數(shù)據(jù)BI工具的支撐下,大量的企業(yè)數(shù)據(jù)資源能夠被分析應(yīng)用,從而為企業(yè)經(jīng)營(yíng)決策提供重要支撐,因此需要對(duì)大數(shù)據(jù)BI工具的應(yīng)用進(jìn)行深入分析。

1 大數(shù)據(jù)BI工具概述

利用大數(shù)據(jù)技術(shù)進(jìn)行企業(yè)數(shù)據(jù)的分析與挖掘,最有效的方式就是利用BI工具。大數(shù)據(jù)BI工具對(duì)大數(shù)據(jù)技術(shù)的基本實(shí)施過(guò)程進(jìn)行了詳細(xì)的封裝,在此基礎(chǔ)上,再通過(guò)BI工具對(duì)數(shù)據(jù)進(jìn)行分析與挖掘,無(wú)須編寫(xiě)代碼,這樣即使沒(méi)有IT技術(shù)背景的管理人員也可以利用BI工具對(duì)數(shù)據(jù)進(jìn)行分析和處理[1]。在企業(yè)管理領(lǐng)域應(yīng)用BI工具能夠有效提升大數(shù)據(jù)挖掘與分析效率,有利于經(jīng)營(yíng)管理人員將精力集中于數(shù)據(jù)的分析以及企業(yè)戰(zhàn)略決策上,而不用為編程而發(fā)愁。目前市面上存在多種BI工具,不同的BI工具在功能與使用場(chǎng)景方面存在一定的差異,具有各自的特點(diǎn)。常規(guī)的BI工具主要有數(shù)據(jù)匯集、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析、數(shù)據(jù)可視化等多種功能,不同的BI工具在數(shù)據(jù)分析方面存在著很大的差別。有些數(shù)據(jù)分析工具以傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)為基礎(chǔ),對(duì)SQL的查詢(xún)和統(tǒng)計(jì)進(jìn)行簡(jiǎn)單的分析,有些則采用了以機(jī)器學(xué)習(xí)等智能算法為基礎(chǔ)的復(fù)雜分析方法。當(dāng)前常用的大數(shù)據(jù)BI工具有IBM Cognos、Oracle OBIEE、SAP BO、Tableau、帆軟FineBI、微軟PowerBI、QlikView、SpagoBI等。

2 大數(shù)據(jù)分析挖掘關(guān)鍵節(jié)點(diǎn)

2.1 數(shù)據(jù)獲取

大數(shù)據(jù)的來(lái)源主要有物聯(lián)網(wǎng)、互聯(lián)網(wǎng)應(yīng)用、傳統(tǒng)的數(shù)據(jù)資源等,相關(guān)數(shù)據(jù)資源的獲得途徑也不盡相同。物聯(lián)網(wǎng)所提供的數(shù)據(jù)資源大多是無(wú)組織的,且大部分都是視頻、音頻和各種感知數(shù)據(jù),相關(guān)數(shù)據(jù)資源的價(jià)值并不高,因而通常都是通過(guò)數(shù)據(jù)分析商來(lái)獲得[2]?;ヂ?lián)網(wǎng)數(shù)據(jù)主要包括網(wǎng)絡(luò)應(yīng)用數(shù)據(jù)和手機(jī)App應(yīng)用數(shù)據(jù),主要表現(xiàn)為網(wǎng)絡(luò)鏈接、文本、數(shù)據(jù)表以及其他無(wú)組織格式的圖片、音頻、視頻等,這類(lèi)數(shù)據(jù)在數(shù)據(jù)價(jià)值方面往往有著較高的密度,主要通過(guò)網(wǎng)絡(luò)獲取,也可以從數(shù)據(jù)分析商處直接購(gòu)買(mǎi)。傳統(tǒng)的數(shù)據(jù)資源大多屬于結(jié)構(gòu)數(shù)據(jù),其價(jià)值較高,數(shù)據(jù)來(lái)源主要包括ERP系統(tǒng)、政務(wù)系統(tǒng)、各種公司的內(nèi)部系統(tǒng)等,這些數(shù)據(jù)可以從相應(yīng)的系統(tǒng)軟件中獲取。而在公共平臺(tái)上發(fā)布的氣象、交通等數(shù)據(jù),則可以通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集。

2.2 數(shù)據(jù)預(yù)處理

在利用算法進(jìn)行數(shù)據(jù)挖掘和分析前,必須對(duì)數(shù)據(jù)的完整性和質(zhì)量進(jìn)行檢驗(yàn),對(duì)不符合標(biāo)準(zhǔn)的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,確保所采集的數(shù)據(jù)有較高的規(guī)范化水平,能夠滿(mǎn)足機(jī)器學(xué)習(xí)的要求[3]。在采集到的原始數(shù)據(jù)中,經(jīng)常會(huì)出現(xiàn)特征值缺失、異常值、重復(fù)等問(wèn)題,針對(duì)相關(guān)問(wèn)題需要對(duì)其進(jìn)行進(jìn)一步的分析和處理。數(shù)據(jù)集的缺省將影響數(shù)據(jù)的聚類(lèi)、分組和預(yù)測(cè),若將包含缺省的數(shù)據(jù)進(jìn)行大規(guī)模的刪除,將會(huì)造成大量的隱性數(shù)據(jù)丟失,嚴(yán)重時(shí)會(huì)降低大數(shù)據(jù)的客觀真實(shí)性,進(jìn)而降低算法的精確度。在數(shù)據(jù)缺省不高的情況下可以采用人工填寫(xiě)、平均值填充、特殊值填充等方法來(lái)填充數(shù)據(jù),無(wú)論采用何種方式對(duì)缺省數(shù)據(jù)進(jìn)行處置,都要根據(jù)具體的情形進(jìn)行適當(dāng)?shù)恼{(diào)整。在進(jìn)行數(shù)據(jù)預(yù)處理時(shí),還可以通過(guò)貝葉斯網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)等方法來(lái)分析和挖掘丟失數(shù)據(jù)。在數(shù)據(jù)預(yù)處理過(guò)程中,還需要對(duì)離群值過(guò)大的數(shù)據(jù)進(jìn)行處理。離群值是指數(shù)據(jù)集合中不合理的數(shù)據(jù),例如使用者替換數(shù)據(jù)、傳感器測(cè)量的誤差、實(shí)驗(yàn)的誤差、處理數(shù)據(jù)、抽樣中的異常和天然異常數(shù)據(jù)等。在處理離群點(diǎn)時(shí),應(yīng)采取與丟失點(diǎn)同樣的處理方式,并盡可能地對(duì)產(chǎn)生的異常值進(jìn)行校正。

在所采集到的數(shù)據(jù)中可能存在大量重復(fù)數(shù)據(jù),重復(fù)數(shù)據(jù)可以是多條數(shù)字完全一樣的數(shù)據(jù),也可以是同一數(shù)據(jù)集合中的某一特定特性的數(shù)據(jù),其值會(huì)因數(shù)據(jù)的不同而有所差異。如果是前者,可以直接進(jìn)行去重處理;如果是后者,則要看具體的業(yè)務(wù)狀況,可以將這些重復(fù)的數(shù)據(jù)進(jìn)行合并,也可以不進(jìn)行處理。

2.3 數(shù)據(jù)標(biāo)準(zhǔn)化

目前,大部分的機(jī)器學(xué)習(xí)算法都對(duì)數(shù)據(jù)的特性有特殊的需求,在利用機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)挖掘和分析前,必須根據(jù)需求對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理[4]。數(shù)據(jù)標(biāo)準(zhǔn)化也稱(chēng)為數(shù)據(jù)規(guī)范化,可以克服因具有各種特性的單元尺度所引起的數(shù)據(jù)間的不可比較性,進(jìn)而改善機(jī)器辨識(shí)的精度。目前,最常見(jiàn)的數(shù)據(jù)標(biāo)準(zhǔn)化方法有最小化、非線性標(biāo)準(zhǔn)化、z-尺度標(biāo)準(zhǔn)化、平均標(biāo)準(zhǔn)化。

2.4 數(shù)據(jù)分析與挖掘

在數(shù)據(jù)挖掘方面,需要運(yùn)用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù)來(lái)建立分析、判斷和智能決策支撐體系。機(jī)器學(xué)習(xí)對(duì)于大數(shù)據(jù)分析的重要性是毋庸置疑的,能讓我們對(duì)過(guò)去和現(xiàn)在的數(shù)據(jù)進(jìn)行更好的分析,并且對(duì)將來(lái)的數(shù)據(jù)進(jìn)行更精確的預(yù)測(cè)[5]。將機(jī)器學(xué)習(xí)運(yùn)用于企業(yè)管理領(lǐng)域,能夠有效地從大量數(shù)據(jù)中挖掘有用的信息,尋找出最優(yōu)的營(yíng)銷(xiāo)戰(zhàn)略,從而極大地改善企業(yè)的經(jīng)營(yíng)決策水平,促進(jìn)企業(yè)生產(chǎn)力的提升,使企業(yè)的運(yùn)營(yíng)風(fēng)險(xiǎn)降到最低。目前來(lái)看,機(jī)器學(xué)習(xí)算法主要分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)算法。有監(jiān)督學(xué)習(xí)算法又可以分為兩種,一種是分類(lèi)算法,另一種是對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法,該算法基于離散類(lèi)型的分類(lèi)信息,利用回歸算法對(duì)數(shù)字?jǐn)?shù)據(jù)進(jìn)行預(yù)測(cè),所預(yù)測(cè)的對(duì)象為連續(xù)類(lèi)型。K-近鄰算法、線性回歸、樸素貝葉斯算法、支持向量機(jī)等均屬于監(jiān)督學(xué)習(xí)算法這類(lèi)算法訓(xùn)練不需要包含明確的分類(lèi)對(duì)象,所以也不需要對(duì)新的數(shù)據(jù)進(jìn)行預(yù)報(bào)。聚類(lèi)算法、密度估算法等是目前最常用的算法。在應(yīng)用聚類(lèi)算法時(shí),若要估計(jì)不同類(lèi)別的相似程度,可用密度估計(jì)法來(lái)進(jìn)行分析;采用無(wú)監(jiān)督算法,可以減少特征的維度。K-均值算法、最大期望算法、DBSCAN算法等都是非監(jiān)督學(xué)習(xí)算法。

2.5 數(shù)據(jù)可視化

在進(jìn)行數(shù)據(jù)探索、分析預(yù)測(cè)時(shí),可采用數(shù)據(jù)可視化的方法,能夠使抽象的數(shù)據(jù)以圖形化的方式直觀地呈現(xiàn),從而大大提升了數(shù)據(jù)分析的效率[6]。很多BI工具都帶有Dash-board(Dashboard)數(shù)據(jù)顯示模塊。Dashboard可以為使用者提供數(shù)據(jù)跟蹤、挖掘和多維數(shù)據(jù)處理功能,并提供大量的數(shù)據(jù)源,能夠?qū)崿F(xiàn)實(shí)時(shí)數(shù)據(jù)更新,具有互動(dòng)顯示面板。在可視性圖形分類(lèi)上,BI工具可以為用戶(hù)提供各種類(lèi)型的圖像,如區(qū)域圖、熱力圖、流向圖、點(diǎn)圖等。

3 企業(yè)大數(shù)據(jù)分析應(yīng)用策略

現(xiàn)階段,隨著信息技術(shù)不斷發(fā)展,市面上出現(xiàn)了大量的大數(shù)據(jù)BI工具,不同的BI工具在軟件功能設(shè)計(jì)以及使用場(chǎng)景方面存在一定的差異。從應(yīng)用實(shí)踐來(lái)看,數(shù)獵云是一款功能強(qiáng)大且具有較高實(shí)用性的大數(shù)據(jù)BI工具軟件,因此本文以數(shù)獵云為例,探究大數(shù)據(jù)BI工具在企業(yè)大數(shù)據(jù)挖掘中的應(yīng)用。

3.1 實(shí)踐環(huán)境

數(shù)獵云是一款基于數(shù)獵云客戶(hù)機(jī)接入數(shù)獵云大數(shù)據(jù)服務(wù)器的圖形大數(shù)據(jù)BI工具,該款工具軟件與許多BI工具的區(qū)別在于,不但具有數(shù)據(jù)轉(zhuǎn)換、分析、可視化、數(shù)據(jù)處理等多種數(shù)據(jù)處理模塊,以及幾十種統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等算法,且無(wú)須編程,只要用鼠標(biāo)輕輕一拉,就可以完成對(duì)企業(yè)數(shù)據(jù)的分析和預(yù)測(cè)。

3.2 業(yè)務(wù)數(shù)據(jù)分析

數(shù)獵云所采用的機(jī)器學(xué)習(xí)算法為監(jiān)督學(xué)習(xí)算法,在應(yīng)用的過(guò)程中能夠依據(jù)大數(shù)據(jù)對(duì)企業(yè)經(jīng)營(yíng)過(guò)程中的風(fēng)險(xiǎn)進(jìn)行分析預(yù)測(cè)。在利用該BI工具進(jìn)行企業(yè)經(jīng)營(yíng)風(fēng)險(xiǎn)預(yù)測(cè)時(shí),需要對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練,并對(duì)數(shù)據(jù)集的特征進(jìn)行提取。在這個(gè)過(guò)程中,Education、Self_Employed、Loan-Amount、Loan_AmountTerm、Credit_History、屬性_Area等為特征變量,Loan_Status為分類(lèi)標(biāo)簽,并利用算法模型的特征變量,對(duì)企業(yè)經(jīng)營(yíng)過(guò)程中的風(fēng)險(xiǎn)進(jìn)行判斷。

業(yè)務(wù)數(shù)據(jù)分析的目的是利用向量機(jī)在原始數(shù)據(jù)基礎(chǔ)上對(duì)企業(yè)經(jīng)營(yíng)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)[7]。支撐向量機(jī)的是一種二元型有監(jiān)督的學(xué)習(xí)算法,在應(yīng)用的過(guò)程中首先要對(duì)模型進(jìn)行訓(xùn)練,然后才能對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。模型訓(xùn)練的數(shù)據(jù)來(lái)源為企業(yè)OA系統(tǒng)所提供的CSV格式文件。企業(yè)OA系統(tǒng)所提供的樣本數(shù)據(jù)可達(dá)數(shù)萬(wàn)條,在模型訓(xùn)練的過(guò)程中可將數(shù)據(jù)按照70%、30%的比率分成兩個(gè)小組,前者是訓(xùn)練預(yù)測(cè)模型的支持?jǐn)?shù)據(jù),后者是訓(xùn)練試驗(yàn)?zāi)P偷挠?xùn)練數(shù)據(jù),以評(píng)價(jià)模型的作用。數(shù)獵云與數(shù)據(jù)源進(jìn)行連接,從企業(yè)的業(yè)務(wù)數(shù)據(jù)中抽取出CSV數(shù)據(jù),在此基礎(chǔ)上將CSV數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)數(shù)據(jù),再將結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)寫(xiě)入對(duì)應(yīng)的數(shù)據(jù)庫(kù),實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)的匯集。

3.3 數(shù)據(jù)預(yù)處理

將數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等應(yīng)用于大數(shù)據(jù)分析中,通常都會(huì)對(duì)數(shù)據(jù)的輸入有一定的限制。Married、Depen-dents等存在數(shù)據(jù)空值、數(shù)據(jù)類(lèi)型不統(tǒng)一的情形,必須進(jìn)行數(shù)據(jù)清洗和處理。在清洗處理前,可以利用數(shù)據(jù)瀏覽和統(tǒng)計(jì)的方式來(lái)研究和描述數(shù)據(jù)的質(zhì)量。以Married畫(huà)像為例,在數(shù)獵云中,Mar ried的屬性(業(yè)務(wù)類(lèi)型、業(yè)務(wù)指標(biāo)完成情況)可以被分類(lèi),以此來(lái)判斷Married的非法屬性值有多少。在預(yù)處理過(guò)程中要盡可能地彌補(bǔ)Married的缺失,并在必要的時(shí)候引用相關(guān)的商業(yè)數(shù)據(jù),如Married業(yè)務(wù)類(lèi)型和Dependents業(yè)務(wù)指標(biāo)之間的關(guān)系。從商業(yè)角度來(lái)看,不同的業(yè)務(wù)類(lèi)型其業(yè)務(wù)指標(biāo)有一定的差異,當(dāng)業(yè)務(wù)類(lèi)型較為復(fù)雜時(shí),業(yè)務(wù)指標(biāo)達(dá)成也存在很大的困難。這樣,Married的缺省值就可以根據(jù)這種業(yè)務(wù)相關(guān)性來(lái)填補(bǔ)。針對(duì)數(shù)據(jù)集中的Self_Employed、CoapplicantIncome、Loan_Amount_Term、redit_History、Loan_Status等屬性,因?yàn)橄嚓P(guān)屬性缺失的比率不高,很難拼接成有意義的信息,因此可以對(duì)相關(guān)屬性的空白值記錄進(jìn)行刪除。

3.4 數(shù)據(jù)分析與挖掘

支持向量機(jī)是一種監(jiān)督學(xué)習(xí)算法,該算法需要訓(xùn)練預(yù)測(cè)模型,并對(duì)訓(xùn)練后的模型進(jìn)行預(yù)測(cè)性能評(píng)估。只有經(jīng)過(guò)評(píng)估,才能真正應(yīng)用到實(shí)踐中去。在運(yùn)用模型時(shí),必須將模型預(yù)測(cè)結(jié)果與實(shí)際經(jīng)營(yíng)情況進(jìn)行分析對(duì)比,在此基礎(chǔ)上不斷完善模型。對(duì)支持向量機(jī)進(jìn)行訓(xùn)練,可以得到精確的預(yù)測(cè)模型。在數(shù)獵云中,支持向量機(jī)的輸入要求是CSN型。首先可利用NumAssemable轉(zhuǎn)換工具,其歸類(lèi)標(biāo)(Loan_Status)和多種特性數(shù)字的類(lèi)型、標(biāo)準(zhǔn)化CSN數(shù)據(jù)(應(yīng)用實(shí)例、CoapplicantIncome、LoanAmount、Credit_History)組合為CSN類(lèi)型,并將CSN數(shù)據(jù)輸入到SVM中,設(shè)定迭代次數(shù)、步長(zhǎng)、正則化參數(shù)。在分類(lèi)門(mén)限等相關(guān)參數(shù)的基礎(chǔ)上,進(jìn)行建模。模型訓(xùn)練完成后,要注意對(duì)模型的訓(xùn)練效果進(jìn)行觀察。模型的預(yù)測(cè)精度是由0到1來(lái)計(jì)算的,隨著時(shí)間的推移,模型的精度也會(huì)越來(lái)越高。在測(cè)試精度不高時(shí),要對(duì)模型的訓(xùn)練參數(shù)進(jìn)行調(diào)整,以便對(duì)模型進(jìn)行完善。針對(duì)模型的訓(xùn)練可以反復(fù)進(jìn)行,直至模型精度符合需求為止。在評(píng)價(jià)模型的過(guò)程中需要應(yīng)用預(yù)測(cè)精度。在數(shù)獵云系統(tǒng)中,首先需要將多個(gè)具有不同數(shù)值的特征信息進(jìn)行組合,將這些特征信息輸入到網(wǎng)絡(luò)中,然后進(jìn)行仿真計(jì)算,得出相應(yīng)的模型預(yù)測(cè)結(jié)果。通過(guò)對(duì)預(yù)測(cè)結(jié)果與實(shí)測(cè)數(shù)據(jù)進(jìn)行對(duì)比,檢驗(yàn)?zāi)P皖A(yù)測(cè)結(jié)果是否具有準(zhǔn)確性。■

猜你喜歡
數(shù)據(jù)挖掘工具預(yù)測(cè)
無(wú)可預(yù)測(cè)
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測(cè)卷(B卷)
選修2-2期中考試預(yù)測(cè)卷(A卷)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
波比的工具
波比的工具
“巧用”工具
讀者(2017年18期)2017-08-29 21:22:03
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
开平市| 民勤县| 铜山县| 革吉县| 松江区| 正镶白旗| 浦城县| 瑞安市| 甘谷县| 靖宇县| 萍乡市| 远安县| 雷波县| 西和县| 边坝县| 石泉县| 武清区| 峨边| 临安市| 福安市| 巴马| 江川县| 常宁市| 沙坪坝区| 龙州县| 昌图县| 清镇市| 天台县| 六枝特区| 柘荣县| 名山县| 闻喜县| 定南县| 肇庆市| 杂多县| 鄂伦春自治旗| 五原县| 和龙市| 乐陵市| 岳西县| 嘉兴市|