陳貴平
摘 要: 在大型Web網(wǎng)絡(luò)數(shù)據(jù)中心構(gòu)架中包含海量的多媒體信息資源,為了高效挖掘資源,提高資源的調(diào)度能力,提出一種基于模糊語(yǔ)義本體映射的大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源高效挖掘技術(shù)。對(duì)大型Web網(wǎng)絡(luò)數(shù)據(jù)中心的資源信息流進(jìn)行信息流重建,采用泛化學(xué)習(xí)方法進(jìn)行資源信息流的模糊聚類處理,結(jié)合語(yǔ)義本體映射方法實(shí)現(xiàn)互信息特征提取,以提取的特征為訓(xùn)練集,進(jìn)行數(shù)據(jù)迭代,實(shí)現(xiàn)資源優(yōu)化挖掘。仿真結(jié)果表明,采用該方法進(jìn)行大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源挖掘的準(zhǔn)確性較好,資源調(diào)度的效率得到提高。
關(guān)鍵詞: Web網(wǎng)絡(luò); 數(shù)據(jù)中心; 資源挖掘; 多媒體信息; 模糊語(yǔ)義
中圖分類號(hào): TN711?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)24?0018?03
Abstract: Large amount of multimedia information resources exist in the architecture of large Web network data center. To improve resource scheduling capability by means of efficient resource mining, an efficient resource mining technology based on fuzzy semantic ontology mapping is proposed for large Web network data center. Resource information flow in large Web network data center is reconstructed. The generalized learning method is adopted to perform fuzzy clustering of resource information flow. Combined with the semantic ontology mapping method, the mutual information features are extracted and taken as the training set for data iteration and realize resource mining optimization. The simulation results show that the resource mining method for large Web network data center has good accuracy and can improve resource scheduling efficiency.
Keywords: Web network; data center; resource mining; multimedia information; fuzzy semantic
0 引 言
隨著網(wǎng)絡(luò)多媒體信息技術(shù)的發(fā)展,大量的多媒體資源信息以視頻、聲音和文本等形式存儲(chǔ)在大型Web網(wǎng)絡(luò)數(shù)據(jù)中心,用戶通過(guò)數(shù)據(jù)庫(kù)訪問(wèn)和檢索方法,進(jìn)行多媒體資源調(diào)度使用。對(duì)大型Web網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的訪問(wèn)建立在對(duì)數(shù)據(jù)中心資源的高效挖掘基礎(chǔ)上,通過(guò)挖掘網(wǎng)絡(luò)數(shù)據(jù)中心資源的關(guān)聯(lián)特征信息,結(jié)合數(shù)據(jù)信息融合和聚類方法,實(shí)現(xiàn)資源調(diào)度和優(yōu)化分類,提高資源的使用效率。研究大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源高效挖掘技術(shù),同樣在Web網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的優(yōu)化設(shè)計(jì)中具有重要意義,相關(guān)的數(shù)據(jù)挖掘方法研究受到人們的極大重視[1]。在大型Web網(wǎng)絡(luò)數(shù)據(jù)中心構(gòu)架體系中,由于存儲(chǔ)構(gòu)架體系的差異性以及數(shù)據(jù)之間的擾動(dòng),導(dǎo)致對(duì)資源的挖掘和調(diào)度的準(zhǔn)確性不好,容易出現(xiàn)數(shù)據(jù)冗余。對(duì)此,本文提出基于模糊語(yǔ)義本體映射的大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源高效挖掘技術(shù),并進(jìn)行了仿真測(cè)試,得出有效性結(jié)論。
1 大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源分布結(jié)構(gòu)模型
1.1 大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源的分布式結(jié)構(gòu)構(gòu)架
為了實(shí)現(xiàn)對(duì)大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源高效挖掘,首先分析數(shù)據(jù)中心資源的分布式結(jié)構(gòu)模型,并進(jìn)行資源信息流的時(shí)間序列擬合和多維信息特征重組。通過(guò)資源優(yōu)化挖掘,提高大型Web網(wǎng)絡(luò)數(shù)據(jù)中心的訪問(wèn)和調(diào)度能力[2]。在大型Web網(wǎng)絡(luò)數(shù)據(jù)中心中,數(shù)據(jù)庫(kù)的存儲(chǔ)節(jié)點(diǎn)通過(guò)分布式結(jié)構(gòu)構(gòu)建方式將資源存儲(chǔ)在大型Web數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)采用云存儲(chǔ)構(gòu)架模型進(jìn)行數(shù)據(jù)讀取,將大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源數(shù)據(jù)進(jìn)行二值圖模型構(gòu)建,表示為。在數(shù)據(jù)挖掘中,對(duì)采集的資源數(shù)據(jù)進(jìn)行信息分類,分類集合A,B,融合聚類中心滿足,。假設(shè)大型Web網(wǎng)絡(luò)數(shù)據(jù)中心的數(shù)據(jù)存儲(chǔ)模型為一個(gè)分布節(jié)點(diǎn)為,網(wǎng)絡(luò)數(shù)據(jù)中心訪問(wèn)接口的信息融合中心函數(shù)滿足,令:
為資源信息分布的模糊概念集,在數(shù)據(jù)分塊中選擇k個(gè)實(shí)例集,建立資源數(shù)據(jù)挖掘的聚類目標(biāo)函數(shù)為:
對(duì)聚類目標(biāo)函數(shù)進(jìn)行極值優(yōu)化求解,得大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源挖掘模糊概念集為:
給定資源分布的4層量化信息結(jié)構(gòu)模型[3],通過(guò)分布式結(jié)構(gòu)構(gòu)架,得大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源分布式的信息結(jié)構(gòu)模型用二元擬合為:
在Web網(wǎng)絡(luò)數(shù)據(jù)中心資源的分布式結(jié)構(gòu)構(gòu)架模型中,進(jìn)行信息融合和數(shù)據(jù)聚類處理,實(shí)現(xiàn)資源高效挖掘。
1.2 大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源信息流模型
在大型Web網(wǎng)絡(luò)數(shù)據(jù)中心的查詢向量集中通過(guò)查詢接口進(jìn)行信息特征提取,構(gòu)建大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源信息流模型,采用資源信息的文本塊學(xué)習(xí)器和實(shí)例學(xué)習(xí)器構(gòu)建資源信息分布的本體模型為:
采用本體映射方法構(gòu)建一個(gè)包含n個(gè)特征分類屬性的進(jìn)行大型Web網(wǎng)絡(luò)數(shù)據(jù)中心數(shù)據(jù)庫(kù)語(yǔ)義映射關(guān)系,計(jì)算本體內(nèi)元素之間語(yǔ)義相似度[4]。在資源存儲(chǔ)空間中采用決策信息融合方法,資源信息流分布貝葉斯粗糙集可寫(xiě)為:endprint
式中:是大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源的有限論域;為資源挖掘的客觀推理準(zhǔn)則。構(gòu)建資源信息流分布的信息函數(shù),采用傅里葉變換進(jìn)行時(shí)頻特征分解[5],過(guò)程為:
式中:為大型Web網(wǎng)絡(luò)數(shù)據(jù)中心的非平穩(wěn)態(tài)特征值;為邊界域的時(shí)頻聯(lián)合分布;為分類特征參數(shù);為置信增益函系數(shù),在語(yǔ)義本體負(fù)域和邊界域內(nèi),得到大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源信息流的二值決策模型為:
在語(yǔ)義本體論域框架中,進(jìn)行資源信息流模型擬合,為進(jìn)行信息融合和資源挖掘提供識(shí)別框架內(nèi)的冪集特征信息。
2 資源高效挖掘?qū)崿F(xiàn)
在對(duì)大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源信息流進(jìn)行信息流重建后,進(jìn)行資源高效挖掘算法優(yōu)化設(shè)計(jì),提出基于模糊語(yǔ)義本體映射大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源高效挖掘技術(shù),構(gòu)建大型Web網(wǎng)絡(luò)數(shù)據(jù)中心大數(shù)據(jù)信息流時(shí)間序列分析模型[6],得網(wǎng)絡(luò)數(shù)據(jù)中心邊緣性狀態(tài)函數(shù)表示為:
式中:代表大型Web網(wǎng)絡(luò)數(shù)據(jù)中心錐形核分布狀態(tài)矢量;為一個(gè)核函數(shù)。采用特征量化分解方法進(jìn)行資源信息重組,表達(dá)式為:
求得大型Web網(wǎng)絡(luò)數(shù)據(jù)中心多媒體資源流挖掘的最大梯度差[7]為:
式中:是資源信息語(yǔ)義指向性函數(shù);m,n分別是大型Web網(wǎng)絡(luò)數(shù)據(jù)中心多媒體資源的維數(shù)和頻數(shù)。采用泛化學(xué)習(xí)方法進(jìn)行資源信息流的模糊聚類處理[8],得到聚類中心矢量分布集合描述為:
式中:,表示大型Web網(wǎng)絡(luò)數(shù)據(jù)中心關(guān)聯(lián)規(guī)則分布概率密度函數(shù);X,Y為原始資源信息的負(fù)載量;是關(guān)聯(lián)規(guī)則互信息函數(shù)。采用表示大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源特征分布互信息量,結(jié)合語(yǔ)義本體映射方法實(shí)現(xiàn)互信息特征提取,得到資源分布的區(qū)域密度函數(shù)為:
式中:和分別是兩組資源信息列分布的模糊聚類中心;表示資源信息流采樣的長(zhǎng)度;表示歸一化區(qū)域分布密度。待挖掘的資源信息的關(guān)聯(lián)屬性為,結(jié)合語(yǔ)義本體映射方法實(shí)現(xiàn)互信息特征提取,得到特征提取結(jié)果為:
以提取的特征為訓(xùn)練集,進(jìn)行數(shù)據(jù)迭代,實(shí)現(xiàn)資源挖掘,迭代式為:
式中:為初始聚類參量;為大型Web網(wǎng)絡(luò)數(shù)據(jù)中心數(shù)據(jù)流樣本的特征維數(shù)。
3 仿真實(shí)驗(yàn)與結(jié)果分析
為了測(cè)試本文算法在實(shí)現(xiàn)大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源挖掘中的性能,進(jìn)行仿真實(shí)驗(yàn)。實(shí)驗(yàn)中,軟件工具采用Matlab 2010b,網(wǎng)絡(luò)數(shù)據(jù)中心數(shù)據(jù)庫(kù)采用Deep Web 200 GB,首先進(jìn)行資源信息的原始數(shù)據(jù)采樣,資源信息流采集的長(zhǎng)度為1 024,數(shù)據(jù)采樣的周期長(zhǎng)T為0.04 s,實(shí)驗(yàn)信噪比為-10 dB,信息聚類自適應(yīng)初始步長(zhǎng)選為μ0=0.001。根據(jù)仿真環(huán)境和參數(shù)設(shè)定,進(jìn)行資源仿真分析,進(jìn)行大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源信息流重建,重建時(shí)域波形如圖1所示。
對(duì)圖1采集的資源信息進(jìn)行泛化學(xué)習(xí)和模糊聚類,結(jié)合語(yǔ)義本體映射方法實(shí)現(xiàn)互信息特征提取,實(shí)現(xiàn)資源挖掘,得到挖掘的精度對(duì)比結(jié)果如圖2所示。分析圖2得知,采用本文方法進(jìn)行大型Web網(wǎng)絡(luò)數(shù)據(jù)中心的資源挖掘的精度較高,性能更優(yōu)。
4 結(jié) 語(yǔ)
本文研究了大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源高效挖掘問(wèn)題,提出基于模糊語(yǔ)義本體映射的大型Web網(wǎng)絡(luò)數(shù)據(jù)中心資源高效挖掘技術(shù)。通過(guò)實(shí)驗(yàn)分析可知,采用本文方法進(jìn)行資源挖掘準(zhǔn)確定位性能較好,資源調(diào)度能力較強(qiáng)。
參考文獻(xiàn)
[1] 何力,丁兆云,賈焰,等.大規(guī)模層次分類中的候選類別搜索[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):41?49.
[2] 李永剛,張治中,李龍江.一種WLAN與eHRPD系統(tǒng)間負(fù)載均衡算法[J].微電子學(xué)與計(jì)算機(jī),2017,34(1):44?47.
[3] 王亞強(qiáng),湯銘,曾沁,等.級(jí)聯(lián)式低消耗大規(guī)模網(wǎng)頁(yè)分類在線獲取方法[J].計(jì)算機(jī)應(yīng)用,2017,37(4):924?927.
[4] 潘穎,元昌安,李文敬,等.一種支持更新操作的數(shù)據(jù)空間訪問(wèn)控制方法[J].電子與信息學(xué)報(bào),2016,38(8):1935?1941.
[5] 郭明強(qiáng),黃穎,謝忠.一種多核環(huán)境下的WebGIS模型優(yōu)化策略[J].計(jì)算機(jī)工程,2013,39(8):15?19.
[6] 韓國(guó)輝,陳黎,梁時(shí)木,等.Na?ve Bayes分類器制導(dǎo)的專業(yè)網(wǎng)頁(yè)爬取算法[J].中文信息學(xué)報(bào),2010,24(4):32?38.
[7] TEA T, BOGDAN F. Visualization of Pareto front approximations in evolutionary multiobjective optimization: a critical review and the prosection method [J]. IEEE transactions on evolutionary computation, 2015, 19(2): 225?245.
[8] 王亞玲,李春陽(yáng),崔蔚,等.基于Docker的PaaS平臺(tái)建設(shè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(3):72?77.endprint