邱奕敏(武漢科技大學(xué)信息科學(xué)與工程學(xué)院,武漢 430081)
云計(jì)算的多源信息挖掘?qū)嶒?yàn)教學(xué)研究
邱奕敏
(武漢科技大學(xué)信息科學(xué)與工程學(xué)院,武漢430081)
信息服務(wù)對(duì)現(xiàn)代服務(wù)業(yè)起著支撐作用。但在云計(jì)算環(huán)境下,伴隨著信息的爆炸性增長(zhǎng),出現(xiàn)了信息異構(gòu)、冗余、沖突和不可信等諸多問(wèn)題。針對(duì)這些熱門問(wèn)題,通過(guò)實(shí)驗(yàn)教學(xué)的方式輔助學(xué)生,利用多源信息挖掘的實(shí)驗(yàn)來(lái)掌握整合資源的知識(shí),為學(xué)生加深專業(yè)理解做鋪墊。
云計(jì)算;多源信息;數(shù)據(jù)挖掘;實(shí)驗(yàn)教學(xué)
近年來(lái),云計(jì)算技術(shù)越來(lái)越受到重視,得到了迅速的發(fā)展,在企業(yè)中的初步推廣和應(yīng)用收到了顯著的經(jīng)濟(jì)和社會(huì)效益,成為目前的研究熱點(diǎn)。云計(jì)算通常涉及互聯(lián)網(wǎng)來(lái)提供虛擬的信息資源[1,2]。它提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問(wèn),將傳統(tǒng)的任務(wù)處理方式轉(zhuǎn)到網(wǎng)絡(luò),進(jìn)入可以配置的計(jì)算資源共享來(lái)支持各類應(yīng)用。作為新世紀(jì)的人才,筆者所在的學(xué)院開設(shè)了有關(guān)云計(jì)算專業(yè)課程,以擴(kuò)大學(xué)生的知識(shí)面,緊跟學(xué)科發(fā)展的腳步。
隨著應(yīng)用需求的不斷增加,用戶希望從海量信息源中快速獲取有用信息并進(jìn)行處理,對(duì)軟硬件系統(tǒng)和信息源進(jìn)行操作。然而,這些信息源物理上可能分布在異構(gòu)環(huán)境的多個(gè)自治域中,具有不同的數(shù)據(jù)格式、存儲(chǔ)方式、訪問(wèn)控制策略,并在邏輯上存在著很大差異[3],這些差異可能是在數(shù)據(jù)模型中,或者是數(shù)據(jù)語(yǔ)義等方面。已有的各種異構(gòu)數(shù)據(jù)管理系統(tǒng),可以利用多源信息服務(wù)系統(tǒng)針對(duì)不同的訪問(wèn)方法和用戶界面做處理,讓用戶能夠訪問(wèn)多種異構(gòu)數(shù)據(jù)源,提供一個(gè)信息交互處理平臺(tái)來(lái)處理數(shù)據(jù)查詢結(jié)果。由于云計(jì)算不對(duì)用戶集中控制,因此用戶通過(guò)簡(jiǎn)單的界面,可以得到他所需要的計(jì)算資源和信息服務(wù)[2,4]。因此,將云計(jì)算與多源信息結(jié)合起來(lái),能夠便捷地實(shí)現(xiàn)不同設(shè)備間的數(shù)據(jù)和應(yīng)用共享,提高當(dāng)前計(jì)算資源的利用率,降低服務(wù)的能耗量,并且有效降低計(jì)算資源的出錯(cuò)概率。
在云計(jì)算環(huán)境下,多源信息資源是通過(guò)互聯(lián)網(wǎng)找到可用的信息的。網(wǎng)頁(yè)和Web服務(wù)的集合是目前互聯(lián)網(wǎng)上的主要信息資源,隨著信息資源提供方式的改變,傳統(tǒng)的網(wǎng)頁(yè)集合變?yōu)閃eb服務(wù)[5]的集合,面向服務(wù)的方式變?yōu)槟壳暗闹匾绞?。?dāng)前信息資源的發(fā)現(xiàn)機(jī)制是基于語(yǔ)法上的和基于語(yǔ)義上的,前者利用關(guān)鍵詞精確匹配,后者利用語(yǔ)義本體。關(guān)鍵詞精確匹配的發(fā)現(xiàn)機(jī)制通過(guò)UDD I來(lái)實(shí)現(xiàn)。基于語(yǔ)義本體的發(fā)現(xiàn)機(jī)制則分為單獨(dú)建立語(yǔ)義和對(duì)UDD I進(jìn)行語(yǔ)義擴(kuò)展兩種。
由于技術(shù)的發(fā)展,許多領(lǐng)域都積累了海量數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘才能將有用的數(shù)據(jù)發(fā)現(xiàn)和提取出來(lái)。因此我們開設(shè)云計(jì)算的多源信息挖掘?qū)嶒?yàn)課程,用以幫助學(xué)生加深對(duì)數(shù)據(jù)庫(kù)、語(yǔ)義、體系結(jié)構(gòu)、網(wǎng)絡(luò)等領(lǐng)域的理解。將該實(shí)驗(yàn)課作為一個(gè)輔助手段,提高學(xué)生的專業(yè)知識(shí),其意義非常重大。
因此,需要從以下方面來(lái)加深理解:
(1)由于不同的數(shù)據(jù)有不同的特點(diǎn),因此需要用與之相關(guān)的算法來(lái)挖掘,這就需要學(xué)生們?cè)谡n下做好預(yù)習(xí)工作,了解常用的挖掘算法,并將其在計(jì)算機(jī)上用程序?qū)崿F(xiàn)。
(2)由于挖掘算法和需求的不同,例如有的可能獲取的是描述型、容易理解的知識(shí)(如,采用規(guī)則表示的挖掘方法優(yōu)于神經(jīng)網(wǎng)絡(luò)之類的方法),而有的獲取的是預(yù)測(cè)準(zhǔn)確度盡可能高的預(yù)測(cè)型知識(shí)。所以需要學(xué)生們根據(jù)自己的需要選擇挖掘算法,之后就可以實(shí)施數(shù)據(jù)挖掘操作,獲取有用的模式。
(3)了解了數(shù)據(jù)的特點(diǎn)和挖掘算法后,還需要使信息資源和用戶需求匹配,即用戶需求經(jīng)過(guò)語(yǔ)義處理后可以和信息資源通過(guò)本體匹配,實(shí)現(xiàn)用戶需求和信息資源的語(yǔ)義匹配。這就需要學(xué)生們實(shí)驗(yàn)時(shí)對(duì)本體和匹配知識(shí)有一定的了解,查詢相關(guān)的概念和資源,幫助更好的實(shí)現(xiàn)多源信息挖掘?qū)嶒?yàn)。
(4)由于云計(jì)算的多源信息挖掘囊括了很多領(lǐng)域的知識(shí),因此實(shí)驗(yàn)教學(xué)的難度很大,需要教師和學(xué)生的默契配合,實(shí)驗(yàn)教師應(yīng)該根據(jù)知識(shí)的特點(diǎn),利用各式各樣的例題來(lái)幫助學(xué)生加強(qiáng)理解;學(xué)生也需要對(duì)書上的例題多加練習(xí),多在互聯(lián)網(wǎng)上查詢相關(guān)的資料。
多源信息是目前和未來(lái)互聯(lián)網(wǎng)環(huán)境中數(shù)據(jù)挖掘的重要研究點(diǎn),云計(jì)算的多源信息挖掘機(jī)制能保證精準(zhǔn)高效的信息查詢。云計(jì)算的多源信息服務(wù)系統(tǒng)研究,雖然是一個(gè)較新的研究方向,但由于它的研究主要是從知識(shí)管理、軟件工程和信息檢索應(yīng)用技術(shù)發(fā)展起來(lái)的,其涉及到的機(jī)器學(xué)習(xí)、信息融合與信息集成已經(jīng)取得了眾多的研究成果。信息檢索、語(yǔ)義Web、本體學(xué)習(xí)、W ebServices的相關(guān)方法和技術(shù)都可以作為參考和借鑒。這些知識(shí)的融合可以幫助學(xué)生提高興趣,加深對(duì)專業(yè)領(lǐng)域的理解,并能夠作為相關(guān)知識(shí)的一個(gè)延續(xù),促使學(xué)生緊跟專業(yè)發(fā)展的腳步。
[1]Peter Fingar著,王靈俊譯.云計(jì)算21世紀(jì)的商業(yè)平臺(tái)[J].北京:電子工業(yè)出版社,2009(09).
[2]陳全,鄧倩妮.云計(jì)算及其關(guān)鍵技術(shù)[M].計(jì)算機(jī)應(yīng)用,29(09),2009,pp. 2562-2567.
[3]Anastasios Kementsietsidis, Marcelo Arenas. Data Sharing Through Query Translation in Autonomous Sources. In Proceedings of the 30th International Conference on Very Large Data Bases (VLDB 2004), Toronto, Canada, 2004:468-479.
[4]楊善林,羅賀,丁帥.基于云計(jì)算的多源信息服務(wù)系統(tǒng)研究綜述[N].管理科學(xué)學(xué)報(bào),15(05),2012,pp.83-96.
[5]吳朱華.云計(jì)算核心技術(shù)剖析[J].人民郵電出版社,2011.