周迪民 歐 嵬
(1.湖南科技學(xué)院 教師教育學(xué)院,湖南 永州425199;2.湖南科技學(xué)院 電子與信息工程學(xué)院,湖南 永州425199)
大數(shù)據(jù)云計(jì)算云服務(wù)讓全球的 IT 業(yè)發(fā)生巨大的轉(zhuǎn)變[1]。隨著大數(shù)據(jù)時(shí)代的到來(lái),信息處理技術(shù)面臨新的挑戰(zhàn)[2],大數(shù)據(jù)時(shí)代的信息具有數(shù)據(jù)量大、數(shù)據(jù)類型多、增長(zhǎng)速度快、價(jià)值密度低等特點(diǎn)[3],在大數(shù)據(jù)平臺(tái)中,大數(shù)據(jù)處理系統(tǒng)特別是基于服務(wù)的數(shù)據(jù)處理系統(tǒng)有大量應(yīng)用同時(shí)在平臺(tái)中運(yùn)行[4],用于數(shù)據(jù)處理的計(jì)算機(jī)系統(tǒng)是否穩(wěn)定運(yùn)行,在大數(shù)據(jù)云服務(wù)中起著關(guān)鍵性的作用。本文提出一個(gè)基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)分析管理系統(tǒng),實(shí)時(shí)分析系統(tǒng)的具體使用狀況,當(dāng)計(jì)算機(jī)系統(tǒng)超負(fù)荷運(yùn)行時(shí),能及時(shí)預(yù)警,并給出相關(guān)問(wèn)題的解決方案。
大數(shù)據(jù)主要是能夠獲取、存儲(chǔ)、分析以及整理數(shù)據(jù)的綜合能力,有相關(guān)人士認(rèn)為,大數(shù)據(jù)時(shí)代的到來(lái)將會(huì)從根本上改變?nèi)藗兊纳罘绞揭约艾F(xiàn)代社會(huì)的發(fā)展模式。通過(guò)大數(shù)據(jù)技術(shù)在海量的數(shù)據(jù)中挖掘出滿足用戶的真正需求的信息,提供給客戶更多優(yōu)質(zhì)和精準(zhǔn)的服務(wù)。
大數(shù)據(jù)擁有數(shù)據(jù)量大、數(shù)據(jù)儲(chǔ)存方式多樣化、信息獲取速度快以及低值密度等特點(diǎn)。其中數(shù)據(jù)量大是與以前相比,大數(shù)據(jù)處理的數(shù)據(jù)規(guī)模從TB 級(jí)上升到PB、EB 甚至ZB 級(jí);數(shù)據(jù)儲(chǔ)存多樣化,對(duì)新數(shù)據(jù)儲(chǔ)存為具有實(shí)時(shí)到達(dá)、持續(xù)不間斷、到達(dá)速度快等特征的“流數(shù)據(jù)(streaming data)”[5];獲取信息速度快是因?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)技術(shù)在不斷的進(jìn)步,在海量的數(shù)據(jù)中能及時(shí)響應(yīng);價(jià)值密度低,通過(guò)對(duì)大量的數(shù)據(jù)采集、運(yùn)算、分析,最終得到少量的真實(shí)的信息。隨著電子信息技術(shù)的不斷發(fā)展,大數(shù)據(jù)技術(shù)與云服務(wù)等技術(shù)進(jìn)一步融合,能夠?qū)崿F(xiàn)大數(shù)據(jù)進(jìn)一步發(fā)展。
網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代下,各行各業(yè)中蘊(yùn)含著海量的計(jì)算機(jī)數(shù)據(jù)信息,這些大數(shù)據(jù)具有海量化、多元化與共享化的特征,不同數(shù)據(jù)之間又有著緊密的關(guān)聯(lián)性。這一方面使得網(wǎng)絡(luò)信息的業(yè)務(wù)處理具有更多的量化性選擇,但也促使單一計(jì)算機(jī)的數(shù)據(jù)處理工作量大大增加,并導(dǎo)致多種潛在數(shù)據(jù)管理風(fēng)險(xiǎn)的產(chǎn)生。因此需要引入計(jì)算機(jī)信息處理技術(shù),采用數(shù)據(jù)挖掘、云計(jì)算、智能算法等技術(shù)在大數(shù)據(jù)系統(tǒng)平臺(tái)上實(shí)現(xiàn)網(wǎng)絡(luò)復(fù)雜數(shù)字信息的收集、分類、運(yùn)算、處理分析與存儲(chǔ),從而滿足用戶多樣化的需求。
現(xiàn)階段計(jì)算機(jī)信息處理技術(shù),主要包括信息采集、加工、傳播技術(shù)、信息存儲(chǔ)技術(shù)、虛擬化技術(shù)、自動(dòng)化資源調(diào)度等內(nèi)容。通過(guò)大數(shù)據(jù)管理平臺(tái)、云計(jì)算、Hadoop 框架、虛擬機(jī)、數(shù)據(jù)訪問(wèn)控制、數(shù)據(jù)共享等方法,協(xié)同完成計(jì)算機(jī)數(shù)據(jù)采集、運(yùn)算分析與存儲(chǔ)過(guò)程,實(shí)現(xiàn)數(shù)據(jù)資源配置、信息處理工作。
本文提出一個(gè)基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)分析管理系統(tǒng),實(shí)時(shí)分析計(jì)算機(jī)的具體使用狀況,并在計(jì)算機(jī)超負(fù)荷使用時(shí),及時(shí)預(yù)警和給出相關(guān)問(wèn)題的解決方案。本系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)判比模塊、數(shù)據(jù)分析模塊、讀取模塊、數(shù)據(jù)庫(kù)、信息收集模塊、控制器、指示燈、信息互通模塊等,詳見(jiàn)圖1。
圖1 系統(tǒng)框圖
數(shù)據(jù)采集模塊用于采集計(jì)算機(jī)的數(shù)據(jù)信息和文檔信息。在高性能計(jì)算領(lǐng)域,持續(xù)性能一般是指在高性能計(jì)算機(jī)上運(yùn)行實(shí)際應(yīng)用測(cè)試的性能,與應(yīng)用相關(guān)[6],所以數(shù)據(jù)信息只包括計(jì)算機(jī)的使用時(shí)長(zhǎng)、計(jì)算機(jī)風(fēng)扇的工作時(shí)長(zhǎng)和計(jì)算機(jī)文件的緩存量,而計(jì)算機(jī)的使用時(shí)長(zhǎng)界定為計(jì)算機(jī)屏幕常亮?xí)r的總時(shí)長(zhǎng),而計(jì)算機(jī)風(fēng)扇的工作時(shí)長(zhǎng)界定為計(jì)算機(jī)溫度異常時(shí)的總時(shí)長(zhǎng),而計(jì)算機(jī)文件的緩存量界定為計(jì)算機(jī)中的過(guò)期文件、日志文件和臨時(shí)文件的存儲(chǔ)總量,且文檔信息表示為每個(gè)本地路徑中的各文檔打開(kāi)時(shí)長(zhǎng)。
數(shù)據(jù)處理模塊獲取到上周內(nèi)的數(shù)據(jù)信息,標(biāo)定時(shí)間系數(shù)Q,負(fù)荷系數(shù)W,緩存系數(shù)E,獲取計(jì)算機(jī)使用系數(shù)。具體過(guò)程如下:
⑴獲取到數(shù)據(jù)信息中的計(jì)算機(jī)的使用時(shí)長(zhǎng)、風(fēng)扇的工作時(shí)長(zhǎng)、文件的緩存量,并對(duì)其進(jìn)行賦值;
⑵當(dāng)計(jì)算機(jī)的使用時(shí)長(zhǎng)分別為第一、第二和第三時(shí)間級(jí)時(shí),此時(shí)的時(shí)間系數(shù)Q 依次對(duì)應(yīng)著預(yù)設(shè)值A(chǔ)1、A2和 A3,且 A1大于 A2大于 A3;當(dāng)計(jì)算機(jī)風(fēng)扇的工作時(shí)長(zhǎng)分別為第一、第二和第三時(shí)間節(jié)時(shí),此時(shí)的負(fù)荷系數(shù)W 依次對(duì)應(yīng)著預(yù)設(shè)值B1、B2和B3,且B1大于B2大于B3;當(dāng)計(jì)算機(jī)文件的緩存量分別為高量級(jí)、中量級(jí)和低量級(jí)時(shí),此時(shí)的緩存系數(shù)E依次對(duì)應(yīng)著預(yù)設(shè)值 C1、C2和 C3,且 C1大于 C2大于C3。
⑶數(shù)據(jù)處理模塊在獲取到時(shí)間系數(shù)Q、負(fù)荷系數(shù) W 和緩存系數(shù)E 時(shí),將其對(duì)計(jì)算機(jī)使用程度的影響占比進(jìn)行權(quán)重分配,依次分配為預(yù)設(shè)值 q、w和e,且q 小于w 小于e,求計(jì)算機(jī)使用系數(shù)公式如下:
并將其傳輸至數(shù)據(jù)判比模塊;所述數(shù)據(jù)判比模塊在接收到計(jì)算機(jī)使用系數(shù)R 時(shí),將其與預(yù)設(shè)值r 相比較,當(dāng)滿足R 大于等于r 時(shí),生成過(guò)度使用信號(hào),當(dāng)滿足R 小于r 時(shí),生成正常使用信號(hào),且將過(guò)度使用信號(hào)或正常使用信號(hào)傳輸至數(shù)據(jù)分析模塊。
數(shù)據(jù)分析模塊將接收到的正常使用信號(hào)傳輸至控制器,而控制器在接收到正常使用信號(hào)時(shí),控制指示燈閃爍,控制器與指示燈之間通信連接,數(shù)據(jù)分析模塊在接收到過(guò)度使用信號(hào)時(shí),從讀取模塊中提取上周內(nèi),計(jì)算機(jī)每次使用時(shí)的CPU 占用率、內(nèi)存占用率和硬盤(pán)讀寫(xiě)速率,并對(duì)其進(jìn)行分析操作:
⑴獲取到上周內(nèi),計(jì)算機(jī)每次使用時(shí)的 CPU占用率、內(nèi)存占用率和硬盤(pán)讀寫(xiě)速率,并將其依次標(biāo)定為 Ti、Yi和 Ui,i=1...n,且 Ti、Yi和 Ui一一對(duì)應(yīng);
⑵先依據(jù)上述中的Ti、Yi 和Ui 來(lái)分別計(jì)算出各自的變化量:
求出上周內(nèi)計(jì)算機(jī)每次使用時(shí)的 CPU 占用率的平均變化量、內(nèi)存占用率的平均變化量和硬盤(pán)讀寫(xiě)速率的平均變化量,公式如下:
最后求得上周內(nèi),計(jì)算機(jī)每次使用時(shí)的 CPU占用率的均值、內(nèi)存占用率的均值和硬盤(pán)讀寫(xiě)速率的均值,公式如下:
將T、Y 和U,以及t、y 和u 分別與預(yù)設(shè)值a、s 和d,以及f、g 和h 相比較,當(dāng)滿足T 大于a、t大于f 時(shí),生成CPU 異常信號(hào)并傳輸至數(shù)據(jù)庫(kù)中調(diào)取對(duì)應(yīng)的CPU 占用過(guò)度解決文檔,并與T 和t 一同生成CPU 解決信號(hào),當(dāng)滿足Y 大于s、y 大于g 時(shí),生成內(nèi)存異常信號(hào)并傳輸至數(shù)據(jù)庫(kù)中調(diào)取對(duì)應(yīng)的內(nèi)存過(guò)度解決文檔,并與Y 和y 一同生成內(nèi)存解決信號(hào),當(dāng)滿足U 大于d、u 大于h 時(shí),生成硬盤(pán)讀寫(xiě)異常信號(hào)并傳輸至數(shù)據(jù)庫(kù)中調(diào)取對(duì)應(yīng)的硬盤(pán)讀寫(xiě)緩慢解決文檔,并與U 和u 一同生成硬盤(pán)讀寫(xiě)解決信號(hào),且將 CPU 解決信號(hào)、內(nèi)存解決信號(hào)或硬盤(pán)讀寫(xiě)解決信號(hào)經(jīng)由控制器傳輸至信息互通模塊;信息互通模塊將接收到的 CPU 解決信號(hào)、內(nèi)存解決信號(hào)或硬盤(pán)讀寫(xiě)解決信號(hào)發(fā)送至用戶手機(jī)中進(jìn)行顯示;而在 T 與 a、t 與 f,Y 與 s、y 與 g 或 U 與d、u 與h 處于其它情況下時(shí),不生成任何信號(hào)與數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)交流,只是將T、t,Y、y 和U、u 一同發(fā)送至用戶手機(jī)中進(jìn)行顯示,便于用戶對(duì)上周計(jì)算機(jī)的使用程度進(jìn)行了解,實(shí)現(xiàn)了計(jì)算機(jī)系統(tǒng)的實(shí)時(shí)掌控。
高性能計(jì)算機(jī)的穩(wěn)定運(yùn)行直接關(guān)系到大數(shù)據(jù)服務(wù)的有效性和實(shí)時(shí)性。本系統(tǒng)能實(shí)時(shí)掌握高性能計(jì)算機(jī)工作狀態(tài),并其在過(guò)度使用時(shí),對(duì)計(jì)算機(jī)核心部分的工作狀況進(jìn)行分析,同時(shí)提供相應(yīng)的解決方案,及時(shí)調(diào)整計(jì)算機(jī)系統(tǒng)工作狀態(tài),保障大數(shù)據(jù)服務(wù)的正常運(yùn)行。