国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進Hadoop云平臺的海量文本數(shù)據(jù)挖掘

2016-06-25 06:47:25陳炎龍段紅玉
關(guān)鍵詞:文本挖掘云計算

陳炎龍+段紅玉

摘 要 針對常用的文本數(shù)據(jù)挖掘系統(tǒng)在處理海量文本數(shù)據(jù)時時間效率較低的問題,論文提出了一種基于改進Hadoop云平臺的海量文本數(shù)據(jù)挖掘方法.該方法首先將傳統(tǒng)Hadoop云平臺進行改進以適應(yīng)海量文本數(shù)據(jù)挖掘的需要,然后將海量文本數(shù)據(jù)集和挖掘任務(wù)分解到該改進平臺上的多臺計算機上并行處理,從而實現(xiàn)了一個基于改進Hadoop云平臺的海量文本數(shù)據(jù)挖掘平臺,并通過對10 000篇新聞材料組成的實驗數(shù)據(jù)集進行挖掘驗證了該平臺的有效性和高效性.

關(guān)鍵詞 文本挖掘;Hadoop;云計算;文本數(shù)據(jù)

中圖分類號 TP301 文獻標識碼 A 文章編號 1000-2537(2016)03-0084-05

Abstract To overcome the problem of low time efficiency for commonly used text data mining system in the treatment of massive text data, an improved mass text data mining method was put forward based on the Hadoop cloud platform.This method firstly improved traditional Hadoop cloud framework to meet the needs of the massive text data mining, and then decomposed mass text data sets and mining task to multiple computers of the improved platform for parallel processing. By doing so, this method realizes the mass text data mining platform based on the improved Hadoop cloud platform. The effectiveness of this improved platform is verified by the mass experimental data set composed of 10 000 news materials.

Key words text mining; Hadoop; cloud computing; text data;

隨著計算機技術(shù)與信息技術(shù)的飛速發(fā)展,國民經(jīng)濟各行業(yè)所獲得的數(shù)據(jù)呈爆炸式增長,TB級甚至PB級海量數(shù)據(jù)無處不在[1].由于數(shù)據(jù)主要來自于互聯(lián)網(wǎng),例如電子商務(wù)、微博等,這些數(shù)據(jù)主要以文本形式存儲,十分繁雜但又極具價值.它們產(chǎn)生的速度遠遠超過了人們收集信息、利用信息的速度,使得人們無法快速有效地查找到自己真正感興趣的信息,從而造成了時間、資金和精力的巨大浪費,導(dǎo)致“數(shù)據(jù)資源”變成“數(shù)據(jù)災(zāi)難”[2].因此,如何有效地從這類海量數(shù)據(jù)中獲取信息或規(guī)律已成為當(dāng)今信息科學(xué)技術(shù)領(lǐng)域所面臨的基本科學(xué)問題之一.

然而, 在傳統(tǒng)計算框架下,海量文本數(shù)據(jù)的處理一般需要借助高性能機或者是更大規(guī)模的計算設(shè)備來完成[3].這雖然能夠在一定程度上解決海量數(shù)據(jù)的處理問題,但是其具有成本昂貴、隨著時間推移容錯性能差、可擴展性差等缺點,從而導(dǎo)致其很難普及[4].

Hadoop云平臺作為一種專門處理海量數(shù)據(jù)的新式計算模型于2005年被提出,2011年1.0.0版本釋出,標志著Hadoop已經(jīng)初具生產(chǎn)規(guī)模,它將現(xiàn)代計算機的高性能與人的高智能相結(jié)合,是當(dāng)今處理海量數(shù)據(jù)最有效、最核心的手段與途徑[5].論文將傳統(tǒng)Hadoop云平臺進行改進以適應(yīng)海量文本數(shù)據(jù)挖掘的需要,然后將海量文本數(shù)據(jù)集和挖掘任務(wù)分解到該改進平臺上的多臺計算機上并行處理,從而實現(xiàn)了一個基于改進Hadoop云平臺的海量文本數(shù)據(jù)挖掘平臺,并通過對10 000篇新聞材料組成的實驗數(shù)據(jù)集進行挖掘驗驗證了平臺的有效性和高效性.

1 Hadoop云平臺簡介

Hadoop云平臺[6]是由Apache基金會開發(fā)的一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺.通過該框架,用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運算和存儲.Hadoop框架由HDFS[7]和MapReduce[8]組成,其中,Hadoop分布式文件系統(tǒng)(HDFS)[3]在最開始是作為Apache Nutch搜索引擎項目的基礎(chǔ)架構(gòu)而開發(fā)的,目前已經(jīng)是Apache Hadoop Core項目的一部分.HDFS被設(shè)計成適合運行在通用硬件(commodity hardware)上的分布式文件系統(tǒng).它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點.但同時,它和其他的分布式文件系統(tǒng)的區(qū)別也很明顯[9].HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上;能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用[10].MapReduce[11]是谷歌開發(fā)的一種分布式程序設(shè)計框架,基于它編寫的應(yīng)用程序能夠運行在由上千臺計算機組成的大型集群上,并且以一種可靠容錯的方式對海量數(shù)據(jù)進行并行處理.Hadoop能夠?qū)崿F(xiàn)對多種類型文件的處理,比如文本、圖像、視頻等.我們可以根據(jù)自己的需要編寫特定的應(yīng)用程序來完成任務(wù)目標 [12].

2 傳統(tǒng)基于Hadoop云平臺的文本數(shù)據(jù)挖掘

在傳統(tǒng)基于Hadoop云平臺的文本挖掘系統(tǒng)中,節(jié)點主要分為主節(jié)點(Master)和從節(jié)點(Slave)這兩類.整個系統(tǒng)僅有一個Master節(jié)點,由NameNode、文本數(shù)據(jù)集、JobTracker、文本挖掘算法庫組成.在系統(tǒng)中可有多個Slave節(jié)點,它由DataNode、TaskTracker組成,主要負責(zé)系統(tǒng)的存儲和計算任務(wù).系統(tǒng)的整體架構(gòu)如圖1所示.

NameNode: 整個集群中只有一個,是整個系統(tǒng)的大腦,負責(zé)管理HDFS的目錄樹和相關(guān)的文件元數(shù)據(jù)信息以及監(jiān)控各個DataNode的健康狀態(tài).NameNode主要職責(zé)是跟蹤文件如何被分割成文件塊、文件塊又被哪些節(jié)點存儲,以及分布式文件系統(tǒng)的整體運行狀態(tài)是否正常等,如果NameNode節(jié)點停止運行的話將會導(dǎo)致數(shù)據(jù)節(jié)點無法通信,客戶端無法讀取和寫入數(shù)據(jù)到HDFS,實際上這也將導(dǎo)致整個系統(tǒng)停止工作.通常情況下每個Slave節(jié)點安裝一個DataNode,數(shù)據(jù)以若干個固定大小的block塊的形式在其上存儲,定期向NameNode匯報其上存儲的數(shù)據(jù)信息.

文本挖掘算法庫主要用于存儲對數(shù)據(jù)進行挖掘所需的算法,這些算法都被存于Master節(jié)點中.通常算法都是串行的,為使它們能夠在Hadoop云平臺執(zhí)行,在使用之前需要對它們按照Hadoop云平臺的特點進行改造.在挖掘過程中,JobTracker會根據(jù)實際所需自動將其分發(fā)至各Slave節(jié)點,供TaskTracker使用.

在該系統(tǒng)中,Master周期性地ping每個Slave,如果在一個時間段內(nèi)Slave沒有返回信息,Master就會標注該Slave節(jié)點失效,此節(jié)點上所有任務(wù)將被重新初始空閑狀態(tài),并被分配給其他Slave執(zhí)行.

從功能上劃分,NameNode、DataNode、文本數(shù)據(jù)集形成了系統(tǒng)的存儲部件,JobTracker、文本挖掘算法庫、TaskTracker形成了系統(tǒng)的計算部件.

3 Hadoop云平臺的改進

在海量文本數(shù)據(jù)挖掘中,網(wǎng)絡(luò)通信性能制約了系統(tǒng)性能的提高,網(wǎng)絡(luò)寬帶資源比較重要.在“計算遷移總是比數(shù)據(jù)遷移代價低”[12]的思想指導(dǎo)下,本文將計算節(jié)點和存儲節(jié)點配置在一起,在任務(wù)調(diào)度時盡量在保存相應(yīng)輸入文件塊的設(shè)備上分配并執(zhí)行任務(wù),這種方法使得大部分并行任務(wù)都在本地機器上讀取輸入數(shù)據(jù),有效的減少網(wǎng)絡(luò)數(shù)據(jù)流量,從而減少了節(jié)點間的通訊消耗.

在Hadoop云平臺工作過程中,節(jié)點間的數(shù)據(jù)傳輸消耗大量時間,如果能減少數(shù)據(jù)傳輸次數(shù),就有可能提高系統(tǒng)整體時間性能.在傳統(tǒng)的Hadoop云平臺中,需要將具有相同鍵值Key/Value對的中間數(shù)據(jù)傳送到同一個Reduce節(jié)點歸約.如果相同類型的鍵值Key/Value對較多,即這類中間結(jié)果較多的話,那么節(jié)點間就必定存在大量中間結(jié)果的傳送,這勢必消耗大量寬帶資源,平臺的時間性能也就交差.為此,我們對傳統(tǒng)Hadoop云平臺作如下修改:在Map階段增加一個CombineProcess模塊,對同一Map階段中具有相同鍵值Key/Value對的中間結(jié)果做一個初步合并,并過濾掉一些無用的中間結(jié)果.改進后的Hadoop云平臺海量文本數(shù)據(jù)挖掘系統(tǒng)工作流程如圖2所示.

由于CombineProcess模塊位于Map階段,只在本地機上執(zhí)行,并不存在節(jié)點間的數(shù)據(jù)傳輸,因此,該模塊耗時較少.而在文本挖掘中,相同鍵值Key/Value對的中間結(jié)果以及無用的中間結(jié)果較多,經(jīng)過CombineProcess模塊的初步合并和過濾,能夠減少很多中間結(jié)果,相應(yīng)地也就較多地減少了節(jié)點間的數(shù)據(jù)傳輸,此較少的消耗時間要比CombineProcess模塊在本地機上執(zhí)行初步合并和過濾所消耗的時間要多得多,因此,改進后的Hadoop云平臺系統(tǒng)在整體上能夠減少耗時,執(zhí)行效率能夠有所提升.

4 仿真實驗

在實驗中,我們的Hadoop云平臺由9臺計算機組成(其中1臺為Master,另8臺為Slave),操作系統(tǒng)均為CentOS-6.4 64 bit,配置均為八核IntelCorei 7處理器,4 GB內(nèi)存,1 TB硬盤,Hadoop版本為1.1.2,Java版本為1.7.25,每個節(jié)點通過100Mb/s的局域網(wǎng)連接.實驗數(shù)據(jù)集,從新華網(wǎng)(http://forum.xinhuanet.com/)下載2010—2013年間新聞材料,共10 000篇,包括財經(jīng)、法律、娛樂、體育、計算機等10大類.這些實驗數(shù)據(jù)集經(jīng)預(yù)處理后 (忽略所有的報頭)進行挖掘?qū)嶒?,采用改進前后的Hadoop云平臺海量文本挖掘系統(tǒng),主要進行了以下3組不同的對比實驗(注:所有時間結(jié)果都四舍五入取整):

實驗1 處理10 000篇新聞材料,文件復(fù)制數(shù)分別設(shè)為1和3,BlockSize設(shè)為10 M,系統(tǒng)執(zhí)行時間如表1所示.

從表1可以看出:文件復(fù)制數(shù)的增多并沒有提高整體挖掘的時間性能,同時,文件復(fù)制數(shù)增多,系統(tǒng)準備時間在一定程度上會增多.

實驗2 文件復(fù)制數(shù)設(shè)為1, Slave分別為2,4,6,8臺,BlockSize設(shè)為10 M,處理10 000篇新聞材料,系統(tǒng)執(zhí)行時間如表2所示.

從表3可以看出:BlockSize分塊大小對系統(tǒng)有很大影響.如果BlockBlockSize較小,那么Job數(shù)目增多,系統(tǒng)調(diào)度頻繁,節(jié)點間通信開銷大,性能降低;如果BlockBlockSize較大,雖節(jié)點間通信開銷小,但是并行程度較低,節(jié)點內(nèi)部計算時間較大.

從表1、表2和表3可以看出:在同樣條件下,改進后的Hadoop云平臺海量文本數(shù)據(jù)挖掘系統(tǒng)在時間消耗上都優(yōu)于改進前的平臺系統(tǒng).這是因為改進后的平臺系統(tǒng)能夠借助CombineProcess模塊來過濾掉一些無用的數(shù)據(jù),且把計算節(jié)點和存儲節(jié)點盡可能配置在一起,從而極大地減少了節(jié)點間的網(wǎng)絡(luò)通訊,進而提高了系統(tǒng)的整體時間性能.

5 結(jié)束語

針對傳統(tǒng)文本挖掘系統(tǒng)作用于海量文本數(shù)據(jù)時時間性能較低的問題,論文把Hadoop云平臺引入其中并加以改進,在此基礎(chǔ)上提出了一個基于改進Hadoop云平臺的海量文本數(shù)據(jù)挖掘系統(tǒng).以人民網(wǎng)上下載的10 000篇新聞材料作為實驗數(shù)據(jù)集,分別進行了不同的3組對比實驗,結(jié)果都顯示改進后的平臺系統(tǒng)在時間性能上有一定程度上的提高,這也表明了改進后的平臺系統(tǒng)是有一定實用價值的.論文下一步的工作將是對平臺系統(tǒng)改進前后的挖掘精度,以及應(yīng)用于其他類型的海量數(shù)據(jù),例如對海量植物葉片圖像數(shù)據(jù)所涉及的關(guān)鍵技術(shù)做進一步研究.

參考文獻:

[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R].北京:中國互聯(lián)網(wǎng)絡(luò)信息中心, 2014.

[2] 王 珊,王會舉,覃雄派,等. 架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學(xué)報, 2011,34(10):1741-1752.

[3] SEGALL R S, ZHANG Q Y. Web mining technologies for customer and marketing surveys [J].Int J Syst Cyber, 2009,38(6):925-949.

[4] THEUER H, LASS S. Engineering data management systeme/product data management systeme [J]. Productivity Manag, 2010,15(4):34-38.

[5] MARSTON S, LI Z, BANDYOPADHYAY S, et al. Cloud computing—the business perspective[J].Decision Supp Syst, 2011,51(1):176-189.

[6] ARMBRUST M, FOX A, GRIFFITH R, et al. A view of cloud computing[J]. Commun ACM, 2010,53(4):50-58.

[7] DEAN J, GHEMAWAT S. MapReduce: a flexible data processing tool[J]. Commun ACM, 2010,53(1):72-77.

[8] AFRATI F N, ULLMAN J D. Optimizing multiway joins in a map-reduce environment[J]. IEEE Trans Knowled Data Engi, 2011,23(9):1282-1298.

[9] 覃雄派,王會舉,杜小勇,等.大數(shù)據(jù)分析——RDBMS 與MapReduce 的競爭與共生[J].軟件學(xué)報, 2012,23(1):32-45.

[10] 李建江,崔 健,王 聃. MapReduce并行編程模型研究綜述[J].電子學(xué)報, 2011,39(11):2635-2642.

[11] SRINIVASAN A, FARUQUIE T A, JOSHI S. Data and task parallelism in ILP using MapReduce [J]. Mach Lear, 2012,86(1):141-168.

[12] 羅軍舟,金嘉暉,宋愛波,等. 云計算:體系架構(gòu)與關(guān)鍵技術(shù)[J].通信學(xué)報, 2011,32(7):13-21.

(編輯 HWJ)

猜你喜歡
文本挖掘云計算
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析
從《遠程教育》35年載文看遠程教育研究趨勢
基于云計算的移動學(xué)習(xí)平臺的設(shè)計
實驗云:理論教學(xué)與實驗教學(xué)深度融合的助推器
云計算中的存儲虛擬化技術(shù)應(yīng)用
科技視界(2016年20期)2016-09-29 13:34:06
慧眼識璞玉,妙手煉渾金
芒康县| 孝义市| 诏安县| 张家界市| 小金县| 易门县| 东山县| 合阳县| 台安县| 宾阳县| 甘肃省| 永吉县| 东山县| 苍溪县| 乌兰县| 巢湖市| 德安县| 彩票| 嘉峪关市| 永清县| 吉林市| 高密市| 周宁县| 宜兰县| 通城县| 二连浩特市| 任丘市| 廉江市| 山阴县| 若尔盖县| 嵊泗县| 定安县| 安平县| 泉州市| 和平县| 普安县| 攀枝花市| 同仁县| 太仆寺旗| 洪泽县| 时尚|