国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘與基于多維數(shù)據(jù)庫的在線分析系統(tǒng)OLAP淺析

2016-03-11 09:38:37王曉霞
關(guān)鍵詞:數(shù)據(jù)收集聚類預(yù)測

梁 旭 王曉霞

(1.張家口市生產(chǎn)力促進(jìn)中心,河北 張家口 075000;2.中國人民銀行張家口市中心支行,河北 張家口 075000)

?

數(shù)據(jù)挖掘與基于多維數(shù)據(jù)庫的在線分析系統(tǒng)OLAP淺析

梁旭1王曉霞2

(1.張家口市生產(chǎn)力促進(jìn)中心,河北 張家口 075000;2.中國人民銀行張家口市中心支行,河北 張家口 075000)

摘要:數(shù)據(jù)挖掘和OLAP都是在商業(yè)智能家族中重要的分析技術(shù).對(duì)于能夠?qū)崿F(xiàn)的商業(yè)智能的最深層次,在商業(yè)智能的解決方案中數(shù)據(jù)挖掘處于較為重要的位置.隨著存儲(chǔ)器存儲(chǔ)容量的增長,收集的數(shù)據(jù)變得如此之多,以至對(duì)于實(shí)際利用中存儲(chǔ)的數(shù)據(jù)開始遭到限制.提煉已有數(shù)據(jù)中的知識(shí),使數(shù)據(jù)的內(nèi)在價(jià)值獲得提高是數(shù)據(jù)挖掘的主要目的.數(shù)據(jù)挖掘與OLAP是相輔相成的,并將會(huì)獲得進(jìn)一步分析的能力,彼此之間同時(shí)也可以在其特征中得到好處.

關(guān)鍵詞:數(shù)據(jù)挖掘分析技術(shù);數(shù)據(jù)收集;預(yù)測;OLAP;聚類

1數(shù)據(jù)挖掘的商業(yè)應(yīng)用

數(shù)據(jù)挖掘這項(xiàng)技術(shù)幾乎可用于所有商業(yè)應(yīng)用,解決各種商業(yè)問題.事實(shí)上,當(dāng)今并不缺少可用的軟件,只要有使用數(shù)據(jù)挖掘的動(dòng)機(jī),并掌握了實(shí)際技術(shù),就可以采用數(shù)據(jù)挖掘技術(shù).下面列舉了幾種數(shù)據(jù)挖掘的應(yīng)用.

1.1異常檢測

如何知道數(shù)據(jù)是正常的還是有問題呢?數(shù)據(jù)挖掘可以分析數(shù)據(jù),并挑選出那些不同與其余項(xiàng)的項(xiàng).信用卡公司使用具有異常檢測功能的數(shù)據(jù)挖掘驅(qū)動(dòng)來對(duì)某個(gè)特定的交易的有效性進(jìn)行確定.當(dāng)有交易異常被數(shù)據(jù)挖掘系統(tǒng)指出后,公司將會(huì)給客戶打電話,以使客戶本人是否在使用信用卡得已確認(rèn).

1.2客戶流失分析

各個(gè)行業(yè)現(xiàn)如今正面臨著的競爭是日趨激烈的,分毫之間,自己的客戶就會(huì)成為競爭對(duì)手的客戶.據(jù)電信公司統(tǒng)計(jì),發(fā)展一個(gè)新客戶需要廣告費(fèi)用等超過1000元人民幣的市場投資,每流失一個(gè)老客戶公司年損失2000元人民幣.各個(gè)公司都力所能及的發(fā)展和留住客戶.通過流失性分析,市場部經(jīng)理能夠了解可能會(huì)流失哪些客戶以及這些客戶流失的原因.同時(shí)可以進(jìn)一步去地完善、改善公司與客戶的關(guān)系,最后將客戶留下來.

1.3風(fēng)險(xiǎn)管理

給某客戶的一項(xiàng)貸款應(yīng)該批準(zhǔn)嗎?因?yàn)榇渭?jí)抵押貸款有風(fēng)險(xiǎn),所以在銀行業(yè)中出現(xiàn)這樣的問題是很常見的.數(shù)據(jù)挖掘技術(shù)會(huì)幫助貸款的提供方,這是為了能確定貸款申請的風(fēng)險(xiǎn),做出正確的決策去保證每一個(gè)貸款申請的有效性和成本.

1.4預(yù)測

這個(gè)超市下個(gè)星期能賣多少瓶可樂?每個(gè)月最合理的庫存是多少?數(shù)據(jù)挖掘預(yù)測技術(shù)能夠回答這種與時(shí)間相關(guān)的問題.

2數(shù)據(jù)挖掘的任務(wù)

很多任務(wù)問題都可能被涉及到,特別是對(duì)于每一個(gè)由數(shù)據(jù)挖掘系統(tǒng)所提出的問題.有些時(shí)侯,只有應(yīng)用涉及單一任務(wù)于其中時(shí),才會(huì)有明顯的解決措施.然而更多時(shí)候?yàn)榭赡塬@得更完善的解決方案,是需要去研究并整合多個(gè)任務(wù)的.下面將要介紹幾類數(shù)據(jù)挖掘任務(wù)都是實(shí)際中經(jīng)常見到的.

2.1分類

處于數(shù)據(jù)挖掘任務(wù)之一的分類,是最常見的任務(wù).而分類通常會(huì)涉及在像廣告定位、風(fēng)險(xiǎn)管理和客戶流失分析這一類的商業(yè)問題之中.

每個(gè)事例中自然都會(huì)包含有相應(yīng)的一組屬性,在眾多事例的屬性中有一個(gè)叫做類別屬性.將按照多個(gè)類別區(qū)分每個(gè)事例,這樣的行為稱作是分類.貝葉斯算法、神經(jīng)網(wǎng)絡(luò)算法和決策樹算法是典型的分類算法.

2.2關(guān)聯(lián)

關(guān)聯(lián)也被稱作是進(jìn)行購物籃分析.對(duì)銷售事物表作分析,并且在一個(gè)購物籃中識(shí)別出出現(xiàn)的那些商品是一個(gè)相當(dāng)常見的關(guān)聯(lián)問題.在確定常見規(guī)則集和物品集的過程中,通常采用關(guān)聯(lián),將交叉銷售的目的實(shí)現(xiàn).

2.3聚類

聚類分析憑借一組屬性對(duì)事例作出分組,也稱作細(xì)分.多多少少會(huì)有相似的屬性值出現(xiàn)于同一個(gè)聚類的事例當(dāng)中.

聚類分析是沒有任何屬性用于訓(xùn)練過程的指導(dǎo),是一種無監(jiān)督狀態(tài)下的挖掘數(shù)據(jù)的任務(wù).所以,將平等對(duì)待任何的輸入屬性.通過多次迭代來構(gòu)建模型是大多數(shù)聚類算法的方法,也就是說,算法停止會(huì)在模型收斂時(shí)發(fā)生.換言之,當(dāng)出現(xiàn)穩(wěn)定的細(xì)分邊界時(shí)算法將會(huì)自動(dòng)停止.

2.4預(yù)測

有一類重要的數(shù)據(jù)挖掘任務(wù)稱為預(yù)測.這些問題可通過預(yù)測幫忙解決:下個(gè)季度服裝的銷售量將是多少?而下周蘋果的股票價(jià)格又將會(huì)多少?采用數(shù)列作為輸入,表示一系列時(shí)間值是預(yù)測技術(shù)的常用方法,各種能處理數(shù)據(jù)的噪聲分析、趨勢分析和周期性分析是要運(yùn)用計(jì)算機(jī)去完成的,再對(duì)這些序列未來的值作出估算則用統(tǒng)計(jì)技術(shù)來實(shí)現(xiàn)的.

2.5回歸

與分類任務(wù)類似,但并非是查找描述類的模式稱作回歸任務(wù).舉一個(gè)例子——回歸中的線性線段擬合技術(shù),輸出是可以通過輸入的值進(jìn)行確定的,并且是以一個(gè)函數(shù)作為結(jié)果.邏輯回歸和線性回歸是回歸最流行的使用技術(shù).查找模式以確定數(shù)值是它的目的.支持?jǐn)?shù)值輸入以及分類輸入是回歸形式高級(jí)表現(xiàn).

3數(shù)據(jù)挖掘項(xiàng)目的生命周期

從最初的商業(yè)問題形成到具體的部署和維護(hù)管理,大多數(shù)數(shù)據(jù)挖掘項(xiàng)目都要經(jīng)歷相同的階段:商業(yè)問題的形成,數(shù)據(jù)收集,數(shù)據(jù)轉(zhuǎn)換和清理,模型構(gòu)建,模型評(píng)估等.

3.1商業(yè)問題的形成

首先要明白客戶提出的重要問題.開始項(xiàng)目之前遇到了什么問題?解決此問題將采用什么方法?是否能知道如何解決問題?這些都是要考慮的內(nèi)容.如此以來許多商業(yè)問題的結(jié)果是出人意料的.

通常我們會(huì)需要確定一些未知的東西并且這些未知東西是以其具有一定價(jià)值作為前提的,數(shù)據(jù)挖掘解決方案或預(yù)言方案正是需要如此工作.一般來講可以獲得140%的投資回報(bào),這需要采用成功的數(shù)據(jù)挖掘解決方案.如此一來論證工作將會(huì)變得更基礎(chǔ),更簡單.

3.2數(shù)據(jù)收集

企業(yè)的許多系統(tǒng)往往是商業(yè)數(shù)據(jù)存儲(chǔ)的地方.把相關(guān)的數(shù)據(jù)放到一個(gè)數(shù)據(jù)集市或者數(shù)據(jù)庫是第一步,同時(shí)在數(shù)據(jù)集市或數(shù)據(jù)庫中應(yīng)用數(shù)據(jù)分析.但是在少數(shù)情況下,數(shù)據(jù)倉庫中的現(xiàn)有數(shù)據(jù)可能會(huì)出現(xiàn)數(shù)據(jù)殘缺或匱乏的情況,所以一些額外的數(shù)據(jù)還需要被補(bǔ)充進(jìn)入數(shù)據(jù)倉庫.

3.3數(shù)據(jù)轉(zhuǎn)換和清理

在數(shù)據(jù)的挖掘項(xiàng)目中,最消耗資源的一步是數(shù)據(jù)轉(zhuǎn)換和清理.修改數(shù)據(jù)源是數(shù)據(jù)轉(zhuǎn)換的目的,使它可用于數(shù)據(jù)挖掘.除去數(shù)據(jù)不相關(guān)的信息和集中的“噪聲”則是數(shù)據(jù)清理的目的.目前數(shù)據(jù)轉(zhuǎn)換和清理的技術(shù)有聚集、分組、數(shù)值轉(zhuǎn)換、刪除孤立點(diǎn)和缺失值處理.

3.4模型構(gòu)建

數(shù)據(jù)挖掘任務(wù)的核心就是進(jìn)行模型的構(gòu)建,資源和時(shí)間不密集是它與數(shù)據(jù)轉(zhuǎn)換的差別.接下來會(huì)相對(duì)容易地選擇合適的算法,尤其在是理解和掌握了數(shù)據(jù)挖掘任務(wù)的類型和常見商業(yè)問題的狀況后.但是在構(gòu)建模型之前有一點(diǎn)情況不可否認(rèn),很多時(shí)候我們不知道到底哪一種算法是最合適的.而算法精確度是依靠數(shù)據(jù)本身的性質(zhì)作為質(zhì)量保障的.用一些工具評(píng)估來這些模型的精確度,然后構(gòu)建多個(gè)使用不同算法的模型來作比較則是一種正確的方法.優(yōu)化模型的精確度可以通過參數(shù)設(shè)置的調(diào)整來實(shí)現(xiàn),特別是同一算法構(gòu)建的模型.

3.5模型評(píng)估

模型進(jìn)行評(píng)估階段時(shí),不僅要確定所發(fā)現(xiàn)模式的意義,將所構(gòu)建模型的精確度進(jìn)行評(píng)估,還必須加以考慮如何將它們?nèi)谌胗跇I(yè)務(wù)中并作出分析模型.模型之中會(huì)存在沒有用的模式,正是由于解決業(yè)務(wù)問題所需要的最適合的變量并不是模型中的一組變量.為了可以衍生出的變量更有意義,可能會(huì)需要反復(fù)地執(zhí)行步驟如數(shù)據(jù)轉(zhuǎn)換和清理,重新定義問題甚至也會(huì)使用到.適合的模型通常要經(jīng)過多次循環(huán)才能找到,而數(shù)據(jù)挖掘就是這樣的一個(gè)循環(huán)過程.

4基于多維數(shù)據(jù)庫的OLAP

OLAP和數(shù)據(jù)挖掘都是重要的分析技術(shù),且都會(huì)存在于商業(yè)智能家族中.數(shù)據(jù)挖掘與OLAP是相輔相成的,并將會(huì)獲得進(jìn)一步分析的能力,彼此之間同時(shí)也可以在其特征中得到好處.數(shù)據(jù)挖掘找出數(shù)據(jù)集的隱藏模式往往是通過分析屬性值之間的相關(guān)性來實(shí)現(xiàn)的.它將不同類型的數(shù)據(jù)點(diǎn)分成子組,從而在每個(gè)子組中的數(shù)據(jù)點(diǎn)或多或少是類別相同的.數(shù)據(jù)挖掘的基本過程之一是分析屬性和屬性值之間的相關(guān)性.統(tǒng)計(jì)學(xué)家對(duì)該問題研究了幾個(gè)世紀(jì).許多深?yuàn)W的統(tǒng)計(jì)學(xué)理論今天仍然在應(yīng)用.

聚集大量事務(wù)數(shù)據(jù)的OLAP卻是根據(jù)對(duì)維的理解來進(jìn)行的.OLAP服務(wù)器能處理大量的多維數(shù)據(jù),同時(shí)其本身也屬于數(shù)據(jù)庫服務(wù)器中的特殊類型.聚集計(jì)算是眾所周知OLAP的核心技術(shù).OLAP需要處理RDBMS需要解決的大多數(shù)任務(wù),包括索引、查詢、持久性和數(shù)據(jù)緩存等.然而,因?yàn)镺LAP服務(wù)器具有多維性,所以它不能在沒有進(jìn)行重要改進(jìn)的情況下就簡單的應(yīng)用關(guān)系技術(shù).

使用OLAP來對(duì)預(yù)算、金融、銷售和各種其他類型應(yīng)用的聚集信息做分析在決策支持系統(tǒng)中是常見的.立方體是多維的數(shù)據(jù)庫.為快速實(shí)現(xiàn)決策支持查詢是構(gòu)建OLAP立方體的目的.典型的立方體包含一組定義明確的維,每個(gè)維包含許多成員.查詢聚集的值可以在不同級(jí)別層次上得以操作.

存儲(chǔ)預(yù)先計(jì)算的聚集于特定的數(shù)據(jù)結(jié)構(gòu)中,依據(jù)不同維的層次作聚集度量是OLAP在線分析系統(tǒng)的主要作用.為獲得實(shí)時(shí)返回決策支持查詢得到的結(jié)果可以通過這樣的幫助如特殊索引或者預(yù)聚集,并隨時(shí)可對(duì)聚集的數(shù)據(jù)進(jìn)行查詢,而在脫機(jī)模式和批處理下才能完成這傳統(tǒng)的方式.

5總結(jié)

在企業(yè)中能夠把存有的數(shù)據(jù)轉(zhuǎn)化為知識(shí),并協(xié)助企業(yè)做出有關(guān)業(yè)務(wù)經(jīng)營類決策的工具通常被理解的商業(yè)智能.企業(yè)業(yè)務(wù)系統(tǒng)的交易賬目、庫存、訂單、供應(yīng)商和客戶等競爭對(duì)手和企業(yè)本身所處行業(yè)的這些數(shù)據(jù)以及處于外部環(huán)境中的企業(yè)的一些數(shù)據(jù)都是這里所談的數(shù)據(jù).且商業(yè)智能能對(duì)業(yè)務(wù)的經(jīng)營決策過程作出幫助,既包括戰(zhàn)略層和戰(zhàn)術(shù)層的決策,也包括操作層面的的決策.聯(lián)機(jī)分析處理(OLAP)工具、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘等技術(shù)是商業(yè)智能策略為實(shí)現(xiàn)將數(shù)據(jù)轉(zhuǎn)化為知識(shí)而需要的能互相支撐的技術(shù).

Analysis on Data mining and OLAP of Multidimensional database-based Online Analysis System

LIANG Xu1,WANG Xiao-xia2

(1.Zhangjiakou Productivity Promotion Center,Zhangjiakou,Hebei 075000;2.Zhangjiakou Central Sub-branch,The People’s Bank of China,Zhangjiakou,Hebei 075000)

Abstract:Data mining and On-line Analytical Processing (OLAP) are two important analysis technologies in the family of business intelligence.Data mining occupies a more important position in business intelligence solutions.Along with the increasing of storage capacity,the collected data has become so large that the actual use of the data stored is beginning limited.It is the main purpose of data mining to refine knowledge in existing data to improve the intrinsic value of data.Data mining and OLAP are complementary to each other,which can gain the ability to further analysis and benefit from each other’s characteristics.

Key words:analysis technology of data mining;data collection;prediction;On-line Analytical Processing(OLAP);clustering

收稿日期:2015-12-06

作者簡介:梁旭(1988-),男,大學(xué)本科,助理工程師,從事計(jì)算機(jī)應(yīng)用研究.

中圖分類號(hào):TP 3

文獻(xiàn)標(biāo)識(shí)碼:A

猜你喜歡
數(shù)據(jù)收集聚類預(yù)測
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測卷(B卷)
選修2-2期中考試預(yù)測卷(A卷)
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
不必預(yù)測未來,只需把握現(xiàn)在
網(wǎng)絡(luò)工程全面信息化管理分析
裝備使用階段RMS數(shù)據(jù)收集研究
基于改進(jìn)的遺傳算法的模糊聚類算法
變電運(yùn)行設(shè)備的狀態(tài)檢修與數(shù)據(jù)收集
基于全集成自動(dòng)化的能耗監(jiān)控管理系統(tǒng)設(shè)計(jì)
辽阳市| 聂荣县| 庆阳市| 汉源县| 全州县| 东光县| 腾冲县| 龙井市| 冷水江市| 宝坻区| 周口市| 定安县| 华亭县| 崇明县| 尚志市| 开鲁县| 林甸县| 广昌县| 西峡县| 菏泽市| 永定县| 安远县| 扎赉特旗| 丹东市| 元阳县| 丽水市| 花莲市| 上饶县| 屏东市| 乐平市| 遂溪县| 科技| 大竹县| 交城县| 博爱县| 德江县| 油尖旺区| 黄骅市| 博湖县| 乡宁县| 万荣县|