鄭麗娟
一、前言
在目前大數(shù)據(jù)以及移動互聯(lián)網(wǎng)高速發(fā)展的新形勢下,通過移動互聯(lián)網(wǎng)下的海量數(shù)據(jù)通信與管理,可以充分的配置資源,降低成本,充分利用當前數(shù)據(jù)庫以及分布式技術(shù)的優(yōu)勢,實現(xiàn)多方合理資源共享以及降低成本,提高政府公共工作效率與利潤。海量數(shù)據(jù)是互聯(lián)網(wǎng)入口的核心切入點,由于當前分布式存儲以及大數(shù)據(jù)是主要發(fā)展趨勢與熱點領(lǐng)域之一,對于海量數(shù)據(jù)的存儲和管理,通過移動網(wǎng)絡(luò)傳輸時,如何進行一定的壓縮是當前的主要技術(shù)瓶頸。本文即針對此需求,結(jié)合空間數(shù)據(jù)傳輸?shù)奶攸c,設(shè)計與研究面向移動網(wǎng)絡(luò)的海量空間數(shù)據(jù)壓縮管理算法。
二、空間數(shù)據(jù)格式基礎(chǔ)
1、空間數(shù)據(jù)的概念。本文研究的移動網(wǎng)絡(luò)條件下的主要數(shù)據(jù)來源不同于其他的一般信息系統(tǒng),由于智慧城市的管理需要,需要提供城市的基本的道路數(shù)據(jù)、建筑數(shù)據(jù),這些統(tǒng)稱為空間數(shù)據(jù),其科學(xué)概念是這么定義的,即地球上每一種物體都有其明確的空間屬性,包括它的坐標、空間三維尺寸、空間拓撲屬性等。2、GML語言與定位。本文研究中采用的空間數(shù)據(jù)是研究城市的基礎(chǔ)地理數(shù)據(jù),其數(shù)據(jù)格式是空間語言GML,是一種XML格式的擴展,其具有標簽化管理、坐標清晰的特點,是一種本質(zhì)上對空間對象進行描述的,由開放地理信息協(xié)會制定標準的語言。該語言中立于各廠商,是一種開放的標準,對空間數(shù)據(jù)有規(guī)范的編碼,另外可以快速在互聯(lián)網(wǎng)上進行共享,繼承了XML的優(yōu)勢,對于網(wǎng)絡(luò)化傳輸有先天的優(yōu)勢,利于數(shù)據(jù)管理與網(wǎng)絡(luò)實時傳輸。
三、壓縮算法設(shè)計與實現(xiàn)
1、基于語義同構(gòu)的壓縮模型設(shè)計。在這個算法模型中,輸入端是現(xiàn)場采集或者后臺分發(fā)的數(shù)據(jù)的GML文件,以及自定義的分組個數(shù),首先,GML數(shù)據(jù)文檔經(jīng)過系統(tǒng)的提取以及解釋操作,得到了基于XML模型的數(shù)據(jù)文檔樹。然后進行整體同構(gòu)壓縮的過程,壓縮過程中主要有2個子流程,主要是根據(jù)其數(shù)據(jù)文檔的數(shù)據(jù)內(nèi)容和坐標聚類進行的內(nèi)容同構(gòu)壓縮以及根據(jù)文檔標簽特性進行自動化替換的采用類似索引的思路進行置換后壓縮,而數(shù)據(jù)內(nèi)容則是根據(jù)所付地物的坐標進行K-Means聚類算法對數(shù)據(jù)進行空間分組并以各子坐標系為原點重新計算坐標,從而大量壓縮數(shù)據(jù)內(nèi)容。
2、GML數(shù)據(jù)內(nèi)容同構(gòu)壓縮。本文研究中采用的空間數(shù)據(jù)是研究城市的基礎(chǔ)地理數(shù)據(jù),其數(shù)據(jù)格式是空間語言GML,是一種XML格式的擴展,其具有標簽化管理、坐標清晰的特點,是一種本質(zhì)上對空間對象進行描述的,由開放地理信息協(xié)會制定標準的語言。該語言中立于各廠商,是一種開放的標準,對空間數(shù)據(jù)有規(guī)范的編碼,另外可以快速在互聯(lián)網(wǎng)上進行共享,繼承了XML的優(yōu)勢,對于網(wǎng)絡(luò)化傳輸有先天的優(yōu)勢,利于數(shù)據(jù)管理與網(wǎng)絡(luò)實時傳輸。經(jīng)過聚類算法的同構(gòu)壓縮,可以將大量長度較大的坐標數(shù)值存儲為相對坐標,在數(shù)值量特別大的情況下,此種方法能有效的減少坐標數(shù)值串的字節(jié)數(shù)量,進一步降低文本文件的大小。
3、GML語義同構(gòu)壓縮。算法的主要過程為,首先遍歷文檔中的全部字符,然后提取重復(fù)率最高的標簽,并用較簡單的字符進行替代。如將重復(fù)率最高的
四、算法實驗與效率分析4.1系統(tǒng)集成與開發(fā)環(huán)境
本文在學(xué)校實驗室進行相關(guān)模擬,主要網(wǎng)絡(luò)為中國電信專門提供的千兆光纖,網(wǎng)速相對較快,但是需要各種配置才能達到測試的需求。主要開發(fā)環(huán)境:Microsoft Visual Studio 2015;數(shù)據(jù)庫環(huán)境:SQL Server 2008;各Web瀏覽器主要采用Chrome瀏覽器。移動終端模型采用的是iPhone 6 Plus以及華為Mate 7,分別代表iOS 和Android智能操作系統(tǒng)
4.2移動網(wǎng)絡(luò)傳輸分析
為了更好的模擬海量數(shù)據(jù)處理時的網(wǎng)絡(luò)情況,本文采用了不同的數(shù)據(jù)量的文件進行了各個不同網(wǎng)絡(luò)環(huán)境下的相應(yīng)的實驗和測試,以實驗針對海量數(shù)據(jù)管理、存儲和傳輸相應(yīng)的系統(tǒng)表現(xiàn)。本文在學(xué)校的200兆和千兆光纖環(huán)境下進行了多用戶并發(fā)傳輸實驗,實驗結(jié)果圖表1所示。
通過上述結(jié)果可以看出,當有不到10個的移動終端設(shè)備訪問監(jiān)控后臺系統(tǒng)時,可以啟動十個線程對于數(shù)據(jù)請求進行處理,當用戶急劇增加時,請求的響應(yīng)和數(shù)據(jù)發(fā)送時間會受到一定的減弱,一方面是由于數(shù)據(jù)傳輸和獲取時都需要線程加鎖等操作,另一方面并發(fā)線程小于并發(fā)消息 時,消息在隊列中的排除時間會造成同步的延遲。
結(jié)語:本文對于系統(tǒng)的整個算法流程,特別是數(shù)據(jù)壓縮的關(guān)鍵技術(shù)和海量數(shù)據(jù)存儲管理的主要技術(shù)進行了論述,給出了詳細的數(shù)據(jù)壓縮的方案,包括基于數(shù)據(jù)坐標的聚類壓縮以及基于文檔標簽特性的文本頻次壓縮方法。最后介紹開發(fā)的平臺環(huán)境以及數(shù)據(jù),使原形系統(tǒng)實驗有一個客觀的對比性平臺,在Visual Studio平臺上進行了二次開發(fā),分別形成了移動終端和后臺的原型系統(tǒng),介紹系統(tǒng)開發(fā)及實現(xiàn)并進行相關(guān)實現(xiàn),最后進行軟件測試,證明了軟件的有效性和科學(xué)性。