林 芳
(廣西工商職業(yè)技術(shù)學(xué)院,南寧 530003)
數(shù)據(jù)挖掘技術(shù)在許多行業(yè)得到了廣泛的運(yùn)用,特別在保險(xiǎn)、金融及醫(yī)療等方面,發(fā)揮著非常重要的作用。但是,由于不同的廠商采用的技術(shù)體制不一樣,實(shí)現(xiàn)的數(shù)據(jù)挖掘系統(tǒng)存在著差異,致使挖掘模型不可以在眾多的數(shù)據(jù)挖掘系統(tǒng)間進(jìn)行資源的共享,這就阻礙了數(shù)據(jù)挖掘的作用發(fā)揮。而且,由于數(shù)據(jù)源分布位置的不同,也導(dǎo)致了數(shù)據(jù)集中要花費(fèi)較高的成本。為了促進(jìn)和加強(qiáng)數(shù)據(jù)挖掘模型的標(biāo)準(zhǔn)化,目前一些組織及廠商(例如IBM,Microsoft,KXEN)已經(jīng)提出了有關(guān)的標(biāo)準(zhǔn)。在這些標(biāo)準(zhǔn)中,影響最廣的是數(shù)據(jù)挖掘組織(Data Mining Group,DMG)提出的預(yù)測(cè)模型標(biāo)記語(yǔ)言(Predictive Model Markup Language,PMML)。
為此,本文設(shè)計(jì)了一種基于預(yù)測(cè)模型標(biāo)記語(yǔ)言和Web服務(wù)的開(kāi)放式數(shù)據(jù)挖掘體系,把預(yù)測(cè)模型標(biāo)記語(yǔ)言當(dāng)成數(shù)據(jù)挖掘標(biāo)準(zhǔn),進(jìn)行模型的描述,因此就能夠方便地進(jìn)行模型實(shí)施的可視化及模型的多種應(yīng)用。采用Web服務(wù)技術(shù),能夠使數(shù)據(jù)挖掘系統(tǒng)可以構(gòu)建應(yīng)用至應(yīng)用的結(jié)構(gòu),具備較好的動(dòng)態(tài)擴(kuò)展性及可移植性,達(dá)到模塊間松散耦合的目的,而且,采用作為Web服務(wù)發(fā)布的不只是封裝的算法,也可以是模型預(yù)測(cè),數(shù)據(jù)預(yù)處理,模型可視化等。把這兩者進(jìn)行結(jié)合,引入至數(shù)據(jù)挖掘系統(tǒng)里,可以實(shí)現(xiàn)各種硬件和軟件資源的共享。
依據(jù)側(cè)重點(diǎn)及功能的不同,可以把數(shù)據(jù)挖掘語(yǔ)言劃分成三個(gè)類型,即:挖掘建模語(yǔ)言、挖掘查詢語(yǔ)言以及通用挖掘語(yǔ)言。
查詢語(yǔ)言是數(shù)據(jù)挖掘原語(yǔ)構(gòu)成的,通過(guò)數(shù)據(jù)挖掘原語(yǔ),來(lái)進(jìn)行對(duì)數(shù)據(jù)挖掘任務(wù)的定義。通過(guò)數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)挖掘原語(yǔ)之間的通信,促使更加有效地知識(shí)發(fā)現(xiàn)。該原語(yǔ)主要有五種類型,即:挖掘知識(shí)種類、用戶關(guān)心的數(shù)據(jù)集、測(cè)量模式估值、指導(dǎo)挖掘?qū)I(yè)知識(shí)以及挖掘知識(shí)的可視化過(guò)程。
建模語(yǔ)言是定義及描述數(shù)據(jù)挖掘的模型的語(yǔ)言,即通過(guò)規(guī)范的建模語(yǔ)言,讓在模型描述及定義方面,數(shù)據(jù)挖掘系統(tǒng)可以遵循相關(guān)的標(biāo)準(zhǔn),從而讓眾多挖掘系統(tǒng)間能夠進(jìn)行模型的共享,這不但能夠克服各系統(tǒng)間封閉性問(wèn)題,而且能夠?qū)?shù)據(jù)挖掘模型嵌入到應(yīng)用系統(tǒng)中,有效解決單獨(dú)知識(shí)發(fā)現(xiàn)問(wèn)題。而預(yù)測(cè)模型標(biāo)記語(yǔ)言,恰是符合這種要求的一種建模語(yǔ)言。
該語(yǔ)言是把上面兩種語(yǔ)言進(jìn)行綜合,不但有模型定義功能,還可以作為查詢語(yǔ)言和數(shù)據(jù)挖掘系統(tǒng)實(shí)施通信,實(shí)施特定的挖掘和交互。標(biāo)準(zhǔn)化的通用數(shù)據(jù)挖掘語(yǔ)言,是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域一個(gè)最佳的解決方案。其中,OLE DB for Data Mining語(yǔ)言就是微軟公司提出的一種通用數(shù)據(jù)挖掘語(yǔ)言。
1)數(shù)據(jù)挖掘系統(tǒng)中,數(shù)據(jù)的表示機(jī)制及存儲(chǔ)的一致性是分布式情況下要解決好的一個(gè)重要問(wèn)題。而采用基于XML語(yǔ)言的Web服務(wù)技術(shù),其設(shè)計(jì)了一個(gè)獨(dú)立的數(shù)據(jù)表示機(jī)制,能夠有效解決數(shù)據(jù)的不兼容性問(wèn)題及私有化問(wèn)題,讓在不同應(yīng)用系統(tǒng)中交換數(shù)據(jù)不再成為問(wèn)題。
2)數(shù)據(jù)挖掘系統(tǒng)采用了Web服務(wù)技術(shù)之后,將會(huì)極大地提高系統(tǒng)的易用性。由于Web服務(wù)技術(shù)為構(gòu)建在因特網(wǎng)基礎(chǔ)上的,因而能夠通過(guò)WSDL及SOAP技術(shù),部署在任何的地理位置供使用。而且,其接口具有平臺(tái)獨(dú)立性特點(diǎn),具有自應(yīng)用至應(yīng)用的結(jié)構(gòu)優(yōu)點(diǎn),與用戶至應(yīng)用結(jié)構(gòu)有明顯的區(qū)別。
3)隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,用戶需求的不斷變化,要求數(shù)據(jù)挖掘系統(tǒng)具有可擴(kuò)展的、動(dòng)態(tài)的架構(gòu)。將Web服務(wù)技術(shù)引入進(jìn)來(lái)之后,各供應(yīng)廠商采用Web服務(wù)發(fā)布的組件就能夠?qū)嵤﹦?dòng)態(tài)地調(diào)用,滿足新技術(shù)發(fā)展需求及用戶的需求變化的需要。
采用PMML與Web服務(wù)技術(shù)的數(shù)據(jù)挖掘系統(tǒng),可以跨越數(shù)據(jù)結(jié)構(gòu)及平臺(tái)的異構(gòu)性,移植性較好,還可以跨越代理服務(wù)器與防火墻實(shí)施通信,具有良好的可擴(kuò)展性、用戶透明性以及使用靈活等特點(diǎn)?;赪eb服務(wù)的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)設(shè)計(jì)如圖1所示。在圖1中能夠看出,該挖掘平臺(tái)是由四個(gè)邏輯模塊組成的,分別是:挖掘服務(wù)模塊、Web應(yīng)用模塊、UDDI模塊和用戶接口模塊。
數(shù)據(jù)挖掘任務(wù)與挖掘步驟如下。
1)構(gòu)建在UDDI接口上的用戶界面,為系統(tǒng)提供Web服務(wù)的實(shí)時(shí)查找功能。
2)UDDI注冊(cè)中心針對(duì)全部記錄進(jìn)行查詢,并將符合條件的記錄返回至用戶界面。
圖 1 基于Web服務(wù)的數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)
3)某個(gè)挖掘服務(wù)被用戶選中后,系統(tǒng)將該請(qǐng)求、參數(shù)及數(shù)據(jù)等發(fā)送至遠(yuǎn)程服務(wù)端。
4)當(dāng)遠(yuǎn)端服務(wù)端收到該請(qǐng)求以后,進(jìn)行數(shù)據(jù)挖掘任務(wù)的執(zhí)行。
5)當(dāng)任務(wù)執(zhí)行完之后,由服務(wù)端把形成的挖掘模型發(fā)送給用戶。
典型的數(shù)據(jù)挖掘系統(tǒng)通常由三個(gè)模塊組成,即:數(shù)據(jù)準(zhǔn)備模塊,模型建立模塊及模型應(yīng)用模塊。把Web服務(wù)應(yīng)用到挖掘系統(tǒng)之后,挖掘系統(tǒng)將全部的挖掘過(guò)程及挖掘組件進(jìn)行封裝,變成Web服務(wù)的形式,并生成UDDI注冊(cè)中心,進(jìn)行動(dòng)態(tài)的服務(wù)管理。其中的UDDI模塊,其主要功能就是完成對(duì)服務(wù)的管理,例如服務(wù)的發(fā)布、查詢以及注銷等。功能模塊設(shè)計(jì)圖如圖2所示。
圖 2 數(shù)據(jù)挖掘系統(tǒng)的功能模塊
3.3.1 UDDI模塊
把Web服務(wù)引入至數(shù)據(jù)挖掘系統(tǒng)里來(lái),封裝數(shù)據(jù)挖掘應(yīng)用成Web服務(wù),還需要有針對(duì)被封裝的挖掘服務(wù)的Web服務(wù)管理機(jī)制。針對(duì)該挖掘服務(wù)的主要操作是:服務(wù)發(fā)布,更新,發(fā)現(xiàn),刪除等,而這些操作均能夠以UDDI管理的方式進(jìn)行實(shí)現(xiàn)。通過(guò)UDDI模塊,使系統(tǒng)具備了較好的可擴(kuò)展性特點(diǎn)。UDDI模塊的構(gòu)成主要有四個(gè)部分,即:服務(wù)發(fā)布模塊、服務(wù)注銷模塊、服務(wù)發(fā)現(xiàn)模塊和UDDI注冊(cè)中心。UDDI模塊結(jié)構(gòu)如圖3所示。
圖 3 UDDI模塊結(jié)構(gòu)圖
3.3.2 模型構(gòu)造模塊
該挖掘系統(tǒng)關(guān)鍵模塊,就是模型構(gòu)造模塊。模型構(gòu)造模塊進(jìn)行挖掘算法的調(diào)用,當(dāng)數(shù)據(jù)完成預(yù)處理之后,就在數(shù)據(jù)集上進(jìn)行實(shí)際數(shù)據(jù)挖掘任務(wù),形成數(shù)據(jù)挖掘模型,同時(shí)要對(duì)挖掘模型實(shí)施驗(yàn)證分析,最后,采用預(yù)測(cè)模型標(biāo)記語(yǔ)言進(jìn)行挖掘模型的表示。模型構(gòu)造模塊的模型驗(yàn)證模塊,也是其中非常重要的一個(gè)模塊,模型驗(yàn)證是對(duì)模型的有效性及可信度的評(píng)價(jià),可以有效地輔助決策者辨別出有意義的模型。
為跨越各企業(yè)間及系統(tǒng)平臺(tái)、實(shí)現(xiàn)資源共享,還需要完成模型的共享,為此,還需要應(yīng)用獨(dú)立的PMML模塊。此模塊的主要功能有兩個(gè)方面:
1)在當(dāng)前的數(shù)據(jù)挖掘系統(tǒng)中,取得數(shù)據(jù)挖掘模型,應(yīng)用PMML模塊,把它以標(biāo)準(zhǔn)化的PMML規(guī)范進(jìn)行描述。采用PMML格式挖掘模型能夠方便地引入至其它數(shù)據(jù)挖掘應(yīng)用里,實(shí)施模型的部署,預(yù)測(cè),集成,以及可視化。
2)把現(xiàn)有的PMML描述的挖掘模型,使用PMML模塊實(shí)施解析。經(jīng)過(guò)PMML文檔解析之后,從而獲得了實(shí)際的模型信息,該信息能被其他挖掘系統(tǒng)所調(diào)用。PMML模塊的應(yīng)用如圖4所示。
圖 4 PMML模塊的應(yīng)用
根據(jù)上述的PMML模塊功能分析,PMML模塊提供了不同挖掘系統(tǒng)間的通信紐帶。所以,PMML模塊需要有較強(qiáng)的獨(dú)立性,還要能夠完整地支持PMML規(guī)范操作。此外,PMML模塊要進(jìn)行動(dòng)態(tài)的不同類型挖掘模型添加處理。為此,本文使用了模塊化的、面向?qū)ο蟮脑O(shè)計(jì),提供一套應(yīng)用程序接口,因而不同的應(yīng)用系統(tǒng)就可以進(jìn)行對(duì)應(yīng)的接口調(diào)用,實(shí)現(xiàn)PMML規(guī)范的良好支持。與此同時(shí),實(shí)現(xiàn)PMML規(guī)范支持方法要有多種,可以及時(shí)地變換實(shí)現(xiàn)方法,促使其性能更加穩(wěn)定。另外,實(shí)施了模塊化的設(shè)計(jì),PMML的內(nèi)部模塊耦合度也相應(yīng)地降低,可以很容易地支持新的挖掘算法。
綜上所述,本文在對(duì)Web服務(wù)技術(shù)及數(shù)據(jù)挖掘語(yǔ)言實(shí)施了分析和研究后,提出一種在PMML和Web服務(wù)基礎(chǔ)上的數(shù)據(jù)挖掘系統(tǒng)架構(gòu)。該架構(gòu)具有可動(dòng)態(tài)擴(kuò)展性、平臺(tái)無(wú)關(guān)性及可移植性等特點(diǎn),可以實(shí)現(xiàn)知識(shí)共享、應(yīng)用集成及節(jié)約資源的目的。
[1] 侯敬軍, 曾致遠(yuǎn), 向凌. 一種基于Web服務(wù)的分布式數(shù)據(jù)挖掘體系結(jié)構(gòu)[J]. 微機(jī)發(fā)展, 2006, 14(6): 48-51.
[2] 方駿, 方云, 肖杰. 數(shù)據(jù)挖掘的工業(yè)標(biāo)準(zhǔn)的現(xiàn)狀和展望[J]. 計(jì)算機(jī)應(yīng)用研究, 2007, 6: 8-10.
[3] 石峰, 周紹梅. 數(shù)據(jù)挖掘語(yǔ)言及其標(biāo)準(zhǔn)化淺析[J]. 江西科學(xué), 2007, 23(1): 69-71.
[4] 蘇衛(wèi). 數(shù)據(jù)挖掘工具的應(yīng)用與標(biāo)準(zhǔn)化[J]. 計(jì)算機(jī)工程(增刊), 2008, 30: 40-42.
[5] 王闖舟. PMML實(shí)現(xiàn)高速便捷的數(shù)據(jù)挖掘[J]. 金融電子化, 2007, 4: 57-58.