国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Excel2010數(shù)據(jù)挖掘工具的應(yīng)用研究

2014-02-25 16:51徐軍偉程國忠
電腦知識與技術(shù) 2014年1期
關(guān)鍵詞:飛翔數(shù)據(jù)挖掘工具

徐軍偉 程國忠

摘要:Excel2010作為一種數(shù)據(jù)挖掘工具,既簡單又實用。該文重點研究了Excel2010在數(shù)據(jù)挖掘方面的功能,并以公共自行車在城市交通網(wǎng)絡(luò)中的應(yīng)用為例,介紹了Excel2010數(shù)據(jù)挖掘方法并對Excel2010數(shù)據(jù)挖掘算法進(jìn)行了分析。

關(guān)鍵詞:Excel2010;數(shù)據(jù)挖掘

中圖分類號:TP317 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)01-0004-04

隨著計算機技術(shù)的發(fā)展和數(shù)據(jù)庫技術(shù)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多,大量數(shù)據(jù)背后隱藏著許多有價值的信息。挖掘大量數(shù)據(jù)背后有價值的信息,促成了數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)的產(chǎn)生。數(shù)據(jù)挖掘(Data Mining)是知識發(fā)現(xiàn)(KDD)最核心的部分[1]。數(shù)據(jù)挖掘在經(jīng)歷了十幾年的快速發(fā)展后,已經(jīng)逐漸成為一門獨立的應(yīng)用學(xué)科。

Excel作為Microsoft Office的組件,日常工作中經(jīng)常使用。它以其直觀的界面、出色的計算功能和圖表工具,再加上Microsoft成功的市場營銷,使Excel成為最流行的個人計算機電子制表和數(shù)據(jù)處理軟件。Excel 2010數(shù)據(jù)挖掘工具是一個功能強大的工具。它提供一個快速直觀的界面,可用于創(chuàng)建、測試和管理數(shù)據(jù)挖掘結(jié)構(gòu)和模型,同時不會降低 SQL Server Analysis Services 中的數(shù)據(jù)挖掘所提供的強大的自定義功能。[2] Excel 2010數(shù)據(jù)挖掘工具提供的一些向?qū)Ш凸ぞ?,可輕松地從數(shù)據(jù)中提取有意義的信息。它們可以找出隱藏在復(fù)雜數(shù)據(jù)中的模式和趨勢,并通過圖表和交互式查看器等方式使這些模式可視化,然后生成可用于演示和業(yè)務(wù)分析的豐富多彩的匯總信息。它可以對存儲在 Microsoft Office Excel 表中的數(shù)據(jù)進(jìn)行相關(guān)性分析和預(yù)測,也可以創(chuàng)建和修改存儲在 Analysis Services 實例中的數(shù)據(jù)挖掘模型,還可以在 Microsoft Office Visio 中以圖形方式顯示結(jié)果。Excel 2010數(shù)據(jù)挖掘工具除了提供數(shù)據(jù)建模算法外,還提供一個集測試、預(yù)測和繪圖于一體的桌面數(shù)據(jù)挖掘解決方案。因此,Excel 2010數(shù)據(jù)挖掘工具的有效利用將大幅提高數(shù)據(jù)挖掘的效率。Excel2010成為最簡單實用的數(shù)據(jù)挖掘軟件,使數(shù)據(jù)挖掘分析方法得到推廣和應(yīng)用。

1 數(shù)據(jù)挖掘介紹

數(shù)據(jù)挖掘(Data Mining)是從大量數(shù)據(jù)中挖掘有趣模式和知識的過程。[3]旨在從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的而又潛在有用的信息和知識。還有很多和這一術(shù)語相近似的術(shù)語,如從數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。

數(shù)據(jù)挖掘系統(tǒng)的典型結(jié)構(gòu),如圖1所示。數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲庫或動態(tài)地流入系統(tǒng)的數(shù)據(jù)。數(shù)據(jù)挖掘系統(tǒng)經(jīng)由以下步驟的迭代序列組成:1)數(shù)據(jù)清理,消除噪聲和刪除不一致的數(shù)據(jù)。2)數(shù)據(jù)集成,多種數(shù)據(jù)源可以組合在一起。3)數(shù)據(jù)選擇,從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù)。4)數(shù)據(jù)變換,通過匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式。5)數(shù)據(jù)挖掘,基本步驟,使用智能方法提取數(shù)據(jù)模式。6)模式評估,根據(jù)某種興趣度度量,識別代表知識的真正有趣的模式。7)知識表示,使用可視化和知識表示技術(shù),向用戶提供數(shù)據(jù)挖掘的知識。

步驟1—4是數(shù)據(jù)預(yù)處理的不同形式,為挖掘準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)挖掘步驟可能與用戶或知識庫交互。有趣的模式提供給用戶,或作為新的知識存放在知識庫中。

2 Excel2010數(shù)據(jù)挖掘工具介紹

在Excel2010中使用數(shù)據(jù)挖掘工具之前,需要在適當(dāng)?shù)牟僮飨到y(tǒng)環(huán)境下安裝好數(shù)據(jù)挖掘外接程序,并且要有Microsoft SQL Server Analysis Services (SSAS) 的支持。該文使用的操作系統(tǒng)環(huán)境是Windows7,Excel版本是2010,數(shù)據(jù)庫版本是Microsoft SQL Server 2012,使用Microsoft SQL Server 2012 Office 2010 數(shù)據(jù)挖掘外接程序。Microsoft SQL Server 2012 Office 2010 數(shù)據(jù)挖掘外接程序利用了 Analysis Services 數(shù)據(jù)挖掘引擎的強大功能。也就是說,可以在熟悉的 Office 環(huán)境中使用 Microsoft SQL Server 2012 Analysis Services實例,運行算法,快速處理和執(zhí)行復(fù)雜的分析。Microsoft SQL Server 2012 Office 2010 數(shù)據(jù)挖掘外接程序有助于揭示數(shù)據(jù)中隱藏的模式和關(guān)系,然后利用它們提高分析質(zhì)量。

Excel2010采用外接程序的形式來實現(xiàn)數(shù)據(jù)挖掘功能。Microsoft SQL Server 2012 Office 2010數(shù)據(jù)挖掘外接程序主要包括三個模塊:一是Excel表分析工具,通過簡單的鼠標(biāo)操作,即可檢測和分析數(shù)據(jù)中值的關(guān)鍵影響因素,突出顯示與其余數(shù)據(jù)不符的值;二是Excel 數(shù)據(jù)挖掘客戶端,使用電子表格數(shù)據(jù),或使用可通過 Analysis Services 數(shù)據(jù)庫訪問的外部數(shù)據(jù),在 Excel 內(nèi)經(jīng)歷完整的數(shù)據(jù)挖掘模型開發(fā)生命周期。三是Visio 數(shù)據(jù)挖掘模板,以可以加注的 Visio 繪圖形式呈現(xiàn)和共享挖掘模型,以提供更好的數(shù)據(jù)挖掘結(jié)果展示。Excel2010數(shù)據(jù)挖掘外接程序結(jié)合了SSAS(SQL Server 2012 Analysis Services)的強大功能,使用起來更加方便。

安裝完成Microsoft SQL Server 2012 Office 2010 數(shù)據(jù)挖掘外接程序后的Excel2010界面如圖2所示。在Excel2010的菜單中出現(xiàn)“數(shù)據(jù)挖掘”選項,選擇“數(shù)據(jù)挖掘”選項后即可看到數(shù)據(jù)挖掘工具區(qū)。endprint

圖2 Excel2010數(shù)據(jù)挖掘工具

3 Excel2010數(shù)據(jù)挖掘工具的功能

Excel2010數(shù)據(jù)挖掘工具可以創(chuàng)建、測試和管理數(shù)據(jù)挖掘結(jié)構(gòu)和模型。主要包括以下部分:

1) 數(shù)據(jù)準(zhǔn)備:瀏覽、清除、重新標(biāo)記數(shù)據(jù)以及為數(shù)據(jù)分區(qū),查看和清除數(shù)據(jù),以便為數(shù)據(jù)挖掘任務(wù)做好準(zhǔn)備。瀏覽數(shù)據(jù),查看單個列中數(shù)據(jù)的分布情況和數(shù)據(jù)類型。清除數(shù)據(jù),通過標(biāo)識、修改或取消不完整的值來刪除離群值。重新標(biāo)記數(shù)據(jù),更改表達(dá)值或?qū)χ颠M(jìn)行分組的方式,以使分析更簡單。示例數(shù)據(jù),幫助創(chuàng)建新的數(shù)據(jù)集或定型以及測試數(shù)據(jù)集。可以使用隨機抽樣獲取一部分代表數(shù)據(jù),或調(diào)整數(shù)據(jù)的平衡性以增加特定值的比例。

2) 數(shù)據(jù)建模:分析數(shù)據(jù),分類數(shù)據(jù)、預(yù)測趨勢、標(biāo)識關(guān)聯(lián)或查找分類。用于從數(shù)據(jù)中派生模式,根據(jù)屬性對數(shù)據(jù)行分組或者研究關(guān)聯(lián)。 此工具功能區(qū)中的向?qū)Щ?Analysis Services的數(shù)據(jù)挖掘算法。分類,用于生成一個分類模型,它根據(jù)模型中其他列的值來預(yù)測某一列的值。估計,用于生成一個估計模型,它提取數(shù)據(jù)模式并使用這些模式來預(yù)測連續(xù)的數(shù)字、日期或時間值。聚類分析,用于生成一個聚類分析模型,它檢測具有類似特征的行組。關(guān)聯(lián),用于生成一個關(guān)聯(lián)模型,它檢測同時在多個事務(wù)中出現(xiàn)的項之間的關(guān)聯(lián)性:例如,用于購物籃分析。預(yù)測,用于生成一個預(yù)測模型,它檢測一個單元序列中的模式,然后預(yù)測其他值。

高級可用于創(chuàng)建挖掘結(jié)構(gòu),生成支持多面分析的數(shù)據(jù)結(jié)構(gòu),并創(chuàng)建自定義數(shù)據(jù)挖掘模型。在交互式 UI 中創(chuàng)建自定義數(shù)據(jù)挖掘查詢。根據(jù)存儲在 Excel 中的數(shù)據(jù),使用 SQL Server Analysis Services 中的任意數(shù)據(jù)挖掘算法來生成新的數(shù)據(jù)挖掘模型。 通過該向?qū)Э梢允褂貌樵兙庉嬈鱽碜远x參數(shù)并生成數(shù)據(jù)挖掘擴展插件 (DMX) 語句。高級還可以向結(jié)構(gòu)中添加模型,通過創(chuàng)建新的相關(guān)模型來修改現(xiàn)有數(shù)據(jù)結(jié)構(gòu)。 通過這些新模型,可以使用不同的數(shù)據(jù)挖掘技術(shù)來分析相同的數(shù)據(jù)。

3) 準(zhǔn)確性和驗證:測試和評估模型,創(chuàng)建用于分析數(shù)據(jù)挖掘解決方案準(zhǔn)確性的圖表,以圖形方式顯示結(jié)果,同時顯示常規(guī)統(tǒng)計度量值。準(zhǔn)確性圖表,通過生成提升圖或散點圖來評估數(shù)據(jù)挖掘模型的性能。分類矩陣,通過創(chuàng)建基于模型的精確預(yù)測和不精確預(yù)測的匯總圖表,評估分類模型的性能。利潤圖,通過將預(yù)測的準(zhǔn)確性與基于預(yù)測所采取行動的成本和效益進(jìn)行繪圖,以了解數(shù)據(jù)挖掘模型的影響。交叉驗證,用于創(chuàng)建報表,匯總模型在數(shù)據(jù)集的多個子集間的準(zhǔn)確性,以此確定模型的穩(wěn)定程度。

4) 模型用法:顯示模型,使用自定義查看器瀏覽結(jié)果。 使用內(nèi)置文檔向?qū)Ц櫤凸芾矸治鲞^程。 瀏覽模型,用于在包含多個圖形和工具的"瀏覽"窗口中查看現(xiàn)有數(shù)據(jù)挖掘模型??梢詾g覽、篩選和自定義數(shù)據(jù)挖掘結(jié)果。文檔模型,用于創(chuàng)建提供有關(guān)數(shù)據(jù)挖掘模型詳細(xì)信息的報表,以便您更好地理解和跟蹤模型中的更改。查詢,用于針對現(xiàn)有數(shù)據(jù)挖掘模型創(chuàng)建預(yù)測查詢。還可以使用"數(shù)據(jù)挖掘高級查詢編輯器"能夠以交互方式生成復(fù)雜的 DMX 語句。

5) 管理:查看并管理 SQL Server Analysis Services 實例中存儲的現(xiàn)有數(shù)據(jù)挖掘解決方案。管理模型,處理當(dāng)前連接上的現(xiàn)有挖掘模型和結(jié)構(gòu)。

6) 連接:用于管理與 Analysis Services 實例之間連接的向?qū)А榱耸褂脭?shù)據(jù)挖掘工具和算法,必須定義與 Analysis Services 實例的連接。使用"跟蹤"向?qū)Э梢员O(jiān)視通過連接發(fā)送的所有活動。所有活動作為 DMX 語句存儲,這樣便于排除數(shù)據(jù)挖掘會話中的故障,也便于保存信息以備日后使用。連接,用于創(chuàng)建和修改與 Analysis Services 的連接。跟蹤,提供對 Excel 客戶端和 SQL Server 服務(wù)器之間交互的不間斷監(jiān)視。

4 Excel2010數(shù)據(jù)挖掘工具的應(yīng)用

統(tǒng)計信息是統(tǒng)計研究的產(chǎn)物,而統(tǒng)計研究的關(guān)鍵問題就是統(tǒng)計分組和頻數(shù)統(tǒng)計。該文以公共自行車在城市交通網(wǎng)絡(luò)中的應(yīng)用為例,在Excel2010中采用數(shù)據(jù)挖掘方法分析處理數(shù)據(jù),分別統(tǒng)計在公共自行車服務(wù)系統(tǒng)中,自行車租賃各站點中每天的借車頻次和還車頻次。在公共自行車管理中心數(shù)據(jù)庫中使用單日數(shù)據(jù),對借出車站號進(jìn)行分類,使用Excel2010數(shù)據(jù)挖掘模塊中的分類, Microsoft Decision Trees算法創(chuàng)建并定型模型以便為數(shù)據(jù)分類。得到單日公共自行車租賃各站點的借車頻次,如圖3所示。同法得到單日公共自行車租賃各站點的還車頻次。

運用Microsoft SQL Server 2012 數(shù)據(jù)挖掘外接程序的Excel2010數(shù)據(jù)挖掘工具創(chuàng)建數(shù)據(jù)挖掘模型,運用該環(huán)境下的數(shù)據(jù)挖掘算法生成公共自行車在城市交通網(wǎng)絡(luò)中應(yīng)用的數(shù)據(jù)挖掘模型,輕松得到自行車租賃各站點中每天的借車頻次和還車頻次。

圖3 單日公共自行車租賃各站點的借車頻次

然后借助Excel2010的數(shù)據(jù)挖掘功能對用車時長進(jìn)行數(shù)據(jù)挖掘分析。對借還車使用時間在1分鐘以上的借還車情況進(jìn)行分析,首先使用Excel2010數(shù)據(jù)挖掘模塊數(shù)據(jù)準(zhǔn)備中的清理數(shù)據(jù)標(biāo)記離群值功能,剔除掉1分鐘以下的數(shù)據(jù)。對用車時長進(jìn)行類別檢測,得到檢測了5個類別和類別特征,如圖4所示。Excel2010對挖掘結(jié)果進(jìn)行直觀展現(xiàn),如圖5所示??梢钥闯?,絕大部分自行車借車時長在67分鐘以內(nèi),因此將公共自行車的借車免費時長定在1小時內(nèi)是合適的。60 min內(nèi)免費租用;60 min以上至120 min(含),收取1元租車服務(wù)費;120 min以上至180 min(含),收取2元租車服務(wù)費;超過180 min按3 元·h-1計費(不足1 h的按 1 h 計)。[4]此收費標(biāo)準(zhǔn)比較合適。

圖4 用車時長類別檢測結(jié)果

圖5 用車時長類別配置文件

5 Excel2010數(shù)據(jù)挖掘工具的算法

Excel2010作為一種數(shù)據(jù)挖掘工具提供多種數(shù)據(jù)挖掘功能。數(shù)據(jù)挖掘模型功能的實現(xiàn)都是通過特定的數(shù)據(jù)挖掘算法來實現(xiàn)的。一種算法不可能完成所有類型的數(shù)據(jù)挖掘,對于某一類問題,數(shù)據(jù)本身的特性往往會影響到用戶所選用的數(shù)據(jù)挖掘算法,所以需要用戶從數(shù)據(jù)中找到最佳的挖掘算法。Excel2010數(shù)據(jù)挖掘工具中的數(shù)據(jù)挖掘算法是基于數(shù)據(jù)創(chuàng)建模式的機制。在創(chuàng)建模型時,必須選擇適合于目標(biāo)和要分析的數(shù)據(jù)的算法。

SQL Server 2012 Office2010數(shù)據(jù)挖掘外接程序所使用的算法基于 Analysis Services 提供的算法。包括以下算法類型:

1)"分類算法"基于數(shù)據(jù)集中的其他屬性預(yù)測一個或多個離散變量。

2)"回歸算法"基于數(shù)據(jù)集中的其他屬性預(yù)測一個或多個連續(xù)變量。

3)"分段算法"將數(shù)據(jù)劃分為組或分類,這些組或分類的項具有相似的屬性。

4)"關(guān)聯(lián)算法"查找數(shù)據(jù)集中不同屬性之間的相關(guān)性。 此類算法通常用于創(chuàng)建關(guān)聯(lián)規(guī)則。 關(guān)聯(lián)規(guī)則可用于市場籃分析。

5) "順序分析算法"可匯總數(shù)據(jù)中的常見順序或事件,如用戶在瀏覽網(wǎng)站時所遵循的路徑。

Excel2010數(shù)據(jù)挖掘工具中的數(shù)據(jù)挖掘算法都是當(dāng)前數(shù)據(jù)挖掘各領(lǐng)域發(fā)展比較成熟的常用的算法。這些算法主要有:關(guān)聯(lián)規(guī)則、聚類分析、決策樹、線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、時序分析等。

6 結(jié)束語

Excel2010結(jié)合Microsoft SQL Server 2012 Office 2010 數(shù)據(jù)挖掘外接程序,在多種算法的支持下,具有很強的數(shù)據(jù)挖掘功能,同時能很好的將挖掘結(jié)果展現(xiàn)出來。Excel2010數(shù)據(jù)挖掘工具,以其簡便易用性、直觀高效性的優(yōu)勢在實際的工作和研究中的應(yīng)用越來越廣泛,能基本滿足實際的數(shù)據(jù)分析需求。

參考文獻(xiàn):

[1] 羅森林,馬俊,潘麗敏編著.數(shù)據(jù)挖掘理論與技術(shù)[M].北京:電子工業(yè)出版社,2013.

[2] 上田和明,苅田正雄,渕上美喜,等.Excel學(xué)數(shù)據(jù)挖掘[M].孫英英,譯.北京:科學(xué)出版社,2012.

[3] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯. 3版.北京:機械工業(yè)出版社,2012.

[4] 姚遙,周揚軍.杭州市公共自行車系統(tǒng)規(guī)劃[J].城市交通, 2009(4):30-38.

圖4 用車時長類別檢測結(jié)果

圖5 用車時長類別配置文件

5 Excel2010數(shù)據(jù)挖掘工具的算法

Excel2010作為一種數(shù)據(jù)挖掘工具提供多種數(shù)據(jù)挖掘功能。數(shù)據(jù)挖掘模型功能的實現(xiàn)都是通過特定的數(shù)據(jù)挖掘算法來實現(xiàn)的。一種算法不可能完成所有類型的數(shù)據(jù)挖掘,對于某一類問題,數(shù)據(jù)本身的特性往往會影響到用戶所選用的數(shù)據(jù)挖掘算法,所以需要用戶從數(shù)據(jù)中找到最佳的挖掘算法。Excel2010數(shù)據(jù)挖掘工具中的數(shù)據(jù)挖掘算法是基于數(shù)據(jù)創(chuàng)建模式的機制。在創(chuàng)建模型時,必須選擇適合于目標(biāo)和要分析的數(shù)據(jù)的算法。

SQL Server 2012 Office2010數(shù)據(jù)挖掘外接程序所使用的算法基于 Analysis Services 提供的算法。包括以下算法類型:

1)"分類算法"基于數(shù)據(jù)集中的其他屬性預(yù)測一個或多個離散變量。

2)"回歸算法"基于數(shù)據(jù)集中的其他屬性預(yù)測一個或多個連續(xù)變量。

3)"分段算法"將數(shù)據(jù)劃分為組或分類,這些組或分類的項具有相似的屬性。

4)"關(guān)聯(lián)算法"查找數(shù)據(jù)集中不同屬性之間的相關(guān)性。 此類算法通常用于創(chuàng)建關(guān)聯(lián)規(guī)則。 關(guān)聯(lián)規(guī)則可用于市場籃分析。

5) "順序分析算法"可匯總數(shù)據(jù)中的常見順序或事件,如用戶在瀏覽網(wǎng)站時所遵循的路徑。

Excel2010數(shù)據(jù)挖掘工具中的數(shù)據(jù)挖掘算法都是當(dāng)前數(shù)據(jù)挖掘各領(lǐng)域發(fā)展比較成熟的常用的算法。這些算法主要有:關(guān)聯(lián)規(guī)則、聚類分析、決策樹、線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、時序分析等。

6 結(jié)束語

Excel2010結(jié)合Microsoft SQL Server 2012 Office 2010 數(shù)據(jù)挖掘外接程序,在多種算法的支持下,具有很強的數(shù)據(jù)挖掘功能,同時能很好的將挖掘結(jié)果展現(xiàn)出來。Excel2010數(shù)據(jù)挖掘工具,以其簡便易用性、直觀高效性的優(yōu)勢在實際的工作和研究中的應(yīng)用越來越廣泛,能基本滿足實際的數(shù)據(jù)分析需求。

參考文獻(xiàn):

[1] 羅森林,馬俊,潘麗敏編著.數(shù)據(jù)挖掘理論與技術(shù)[M].北京:電子工業(yè)出版社,2013.

[2] 上田和明,苅田正雄,渕上美喜,等.Excel學(xué)數(shù)據(jù)挖掘[M].孫英英,譯.北京:科學(xué)出版社,2012.

[3] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯. 3版.北京:機械工業(yè)出版社,2012.

[4] 姚遙,周揚軍.杭州市公共自行車系統(tǒng)規(guī)劃[J].城市交通, 2009(4):30-38.

圖4 用車時長類別檢測結(jié)果

圖5 用車時長類別配置文件

5 Excel2010數(shù)據(jù)挖掘工具的算法

Excel2010作為一種數(shù)據(jù)挖掘工具提供多種數(shù)據(jù)挖掘功能。數(shù)據(jù)挖掘模型功能的實現(xiàn)都是通過特定的數(shù)據(jù)挖掘算法來實現(xiàn)的。一種算法不可能完成所有類型的數(shù)據(jù)挖掘,對于某一類問題,數(shù)據(jù)本身的特性往往會影響到用戶所選用的數(shù)據(jù)挖掘算法,所以需要用戶從數(shù)據(jù)中找到最佳的挖掘算法。Excel2010數(shù)據(jù)挖掘工具中的數(shù)據(jù)挖掘算法是基于數(shù)據(jù)創(chuàng)建模式的機制。在創(chuàng)建模型時,必須選擇適合于目標(biāo)和要分析的數(shù)據(jù)的算法。

SQL Server 2012 Office2010數(shù)據(jù)挖掘外接程序所使用的算法基于 Analysis Services 提供的算法。包括以下算法類型:

1)"分類算法"基于數(shù)據(jù)集中的其他屬性預(yù)測一個或多個離散變量。

2)"回歸算法"基于數(shù)據(jù)集中的其他屬性預(yù)測一個或多個連續(xù)變量。

3)"分段算法"將數(shù)據(jù)劃分為組或分類,這些組或分類的項具有相似的屬性。

4)"關(guān)聯(lián)算法"查找數(shù)據(jù)集中不同屬性之間的相關(guān)性。 此類算法通常用于創(chuàng)建關(guān)聯(lián)規(guī)則。 關(guān)聯(lián)規(guī)則可用于市場籃分析。

5) "順序分析算法"可匯總數(shù)據(jù)中的常見順序或事件,如用戶在瀏覽網(wǎng)站時所遵循的路徑。

Excel2010數(shù)據(jù)挖掘工具中的數(shù)據(jù)挖掘算法都是當(dāng)前數(shù)據(jù)挖掘各領(lǐng)域發(fā)展比較成熟的常用的算法。這些算法主要有:關(guān)聯(lián)規(guī)則、聚類分析、決策樹、線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、時序分析等。

6 結(jié)束語

Excel2010結(jié)合Microsoft SQL Server 2012 Office 2010 數(shù)據(jù)挖掘外接程序,在多種算法的支持下,具有很強的數(shù)據(jù)挖掘功能,同時能很好的將挖掘結(jié)果展現(xiàn)出來。Excel2010數(shù)據(jù)挖掘工具,以其簡便易用性、直觀高效性的優(yōu)勢在實際的工作和研究中的應(yīng)用越來越廣泛,能基本滿足實際的數(shù)據(jù)分析需求。

參考文獻(xiàn):

[1] 羅森林,馬俊,潘麗敏編著.數(shù)據(jù)挖掘理論與技術(shù)[M].北京:電子工業(yè)出版社,2013.

[2] 上田和明,苅田正雄,渕上美喜,等.Excel學(xué)數(shù)據(jù)挖掘[M].孫英英,譯.北京:科學(xué)出版社,2012.

[3] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯. 3版.北京:機械工業(yè)出版社,2012.

[4] 姚遙,周揚軍.杭州市公共自行車系統(tǒng)規(guī)劃[J].城市交通, 2009(4):30-38.

猜你喜歡
飛翔數(shù)據(jù)挖掘工具
飛翔吧,少年!
飛翔(上)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
波比的工具
波比的工具
“巧用”工具
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
獨自前行 迎風(fēng)飛翔
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
好夢飛翔
龙口市| 大同县| 新民市| 永济市| 太原市| 英德市| 郎溪县| 北流市| 二连浩特市| 侯马市| 南漳县| 华阴市| 鄂伦春自治旗| 阜康市| 青冈县| 高安市| 平果县| 金塔县| 辽阳县| 安庆市| 彰武县| 融水| 灵台县| 台湾省| 宝兴县| 滁州市| 通化县| 合水县| 资源县| 吴桥县| 开平市| 阿合奇县| 靖州| 永安市| 基隆市| 乌拉特后旗| 那曲县| 吉林省| 高淳县| 永嘉县| 姜堰市|