陳苗苗+++蔡吸禮
摘 要: IT時代正在向DT時代的遷移,高校數據中心的數據隨著業(yè)務邊界的擴展而迅速膨脹。混合云模式的數據中心建設已逐漸成為高校未來數據中心發(fā)展的核心目標。根據數據生命周期理論,通過將數據中心的數據按安全等級、訪問頻率、數據量大小等因子進行分析并統(tǒng)一建模,建立科學的遷移調度算法來對數據實施動態(tài)調度,從而有效的提高數據的利用率,保證數據的高可用性。
關鍵詞: 混合云; 遷移調度算法; 數據中心; 動態(tài)調度
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2016)05-41-04
Abstract: When the IT era is transferring to the DT era, with the expansion of business boundary, the data is rapidly expanding in data center of colleges. Construction of data center of hybrid cloud model has gradually become the core target of the future development of the data center in colleges. According to the theory of data lifecycle, the data in data center is analyzed and unified modeling in terms of the factors of the security level, access frequency and data size, a scientific migration scheduling algorithm is established to schedule the date dynamically, so as to effectively improve the data utilization rate, ensure the high availability of data.
Key words: hybrid cloud; migration scheduling algorithm; data center; dynamic scheduling
0 引言
伴隨著云計算技術的出現和發(fā)展,高校的信息化、數字化也不斷的向前發(fā)展。云計算應用模式作為一種按量付費的模式,不僅在硬件成本上對高校有著重要的意義,而且更能在硬件管理的成本上為高校減少不小的開支。
云計算作為大數據的支撐平臺,在硬件的投入成本、學校的管理成本等方面有著不俗的表現[1]。大數據,指的是伴隨互聯網、社交網絡、云計算等信息技術的迅猛發(fā)展,而產生的海量數字化以及非結構化或半結構化為特征的數據集[2]。大數據作為一項顛覆性的技術革命,不僅成為影響政治、經濟、社會和文化的重要因素,更對教育改革與創(chuàng)新產生直接而深遠的促進作用[3]。
1 云計算在高校數據中心面臨的問題
云計算與高校數據中心的整合,已經從理論探討層面,快速的步入到實用階段。近兩年來,隨著云計算的迅速崛起,云服務的價格快速的降低,而安全性、功能性則日益提高。云計算從早期的實驗室應用步入到大規(guī)模的商用階段,類似于12306等大量的政企類項目逐漸地以云服務為支撐,云計算已經毫無爭議的成為未來普惠經濟的基石之一。
據統(tǒng)計,中國目前80%以上的云計算是獨立于現有數據中心的,這種獨立主要體現在管理方式上,公有云和現有數據中心的管理是兩種完全獨立形式[4]。這種現狀對于中國的高校尤為明顯。由于公有云與現有數據中心不具有互操作性,導致數據遷移環(huán)境復雜,對遷移標準化提出很高要求。標準化問題包括技術標準和服務標準,同時也涉及到云平臺的規(guī)劃設計、系統(tǒng)建設、服務及質量控制等。另外鑒于網絡安全方面的考慮,涉及服務平臺自身的安全、學校及師生的數據和應用安全、資源的濫用[5]。
有鑒于此,綜合公有云和私有云各自優(yōu)勢的混合云,就能以最小代價、最低成本、最佳兼容的特點,成為高校數據中心未來升級改造的最優(yōu)方案。但在對高校數據中心由私有云向混合云轉變、公有云與現有數據中心數據互遷的改造中,如何平衡數據安全性和效率之間的關系,是高校混合云建設能否成功的關鍵所在。
云計算有兩大問題:
其一是數據安全問題,因為云計算能力和數據都在云里,保證數據的安全就尤為重要,特別在高校中,學校的資產數據、師生的個人數據更為重要[6]。安全主要包括兩個方面:一是保證數據不會被泄漏或者不被外部人員通過黑客等手段獲??;二是數據不會丟失,這一般可以通過數據備份來解決。
其二是網絡訪問的延遲或中斷問題,云計算一般都是遠程通過網絡訪問的,雖然現在網速提高很快,但是和局域網相比,速度還是有所延遲的,而如果一旦網絡中斷,服務也就無法訪問[7]。
2 數據的形式化定義
大數據和云計算的爆發(fā)對高校教育領域的發(fā)展起到了非常重要的支撐作用。在云計算的主要業(yè)務交付形式中,更適合高校的當屬混合云模式,既可以保證學生隱私數據安全無誤的存儲和傳輸,也可以滿足大數據分析、互聯網,業(yè)務、移動應用等多種擴展性需求。但是前文中提到使用混合云面臨最大的障礙是云存儲安全性問題以及訪問速度和延遲性問題。因此如何有效的保證數據的安全,提高訪問速度將是本文需要解決的問題,而如何對數據集進行遷移調度,以及對數據集如何分層存儲是提高混合云存儲的關鍵。
混合云是私有云與公有云的組合,是組織提供和管理一些內部資源,以及其他組織提供外部資源的云計算環(huán)境,是一種保持平衡的方式,需要在保證本地敏感數據安全性前提下充分利用云環(huán)境的可擴展性和靈活性——對高校IT管理來說變得越來越重要[8]。分塊管理計算和存儲能力是混合云的優(yōu)勢,盡管互聯網的連接速度越來越快,也不能與一個高校自建數據中心的訪問速度相比,并且在高校數據中心保存高校自己產生的數據是非常重要的。因此,本文提出了混合云存儲環(huán)境下針對高校大數據的遷移調度算法,在保證了敏感數據安全的同時,也最大地優(yōu)化數據的訪問速度,提高數據的利用效率。
關于數據集對象的模式定義,在高校中數據分析通常是實現教育決策的根本路徑,而數據來源的可靠性是教育決策的根本,所以數據的意義與數據來源有很大關系。這里,我們針對高校大數據本文給出如下定義。
3 遷移調度算法
混合云的存儲策略是建立在私有云和公有云服務之上,本文將會采用一種混合云存儲策略決定數據存儲到公有云還是學校內部的數據中心上,如圖1所示。存儲策略不僅僅包括數據的存儲調度策略還包括數據的遷移調度策略,為了提升訪問性能,數據的存儲策略會采用兩層模式,即在服務器硬盤中設定一定大小的緩存空間,用于存放數據集位置表以及對于需要經常訪問的數據。數據的遷移調度策略將會結合數據的敏感度、存儲時間、數據的訪問頻率、數據大小等因素綜合考慮,最大程度地提高數據的訪問速度[9]。由于緩存空間的容量有限,本算法僅對200MB以下的數據進行緩存。
訪問數據時首先根據數據集的安全等級標準判斷數據存儲在私有云還是公有云,本文中將安全等級在0的數據集存放在私有云,對于其他安全等級的數據集則根據下文中提到的遷移指數,指定存儲于緩存空間或者公有云上。并且,為了提升存儲在公有云數據的訪問速度,本文設計在服務器硬盤中設定一定大小的緩存空間,通過遍歷緩存空間的數據集位置表,查找目標數據集,如果數據集在緩存空間則可以直接獲取,否則讀取數據集的位置,到相應的位置獲取。緩存空間是為了使經常使用的數據可以直接獲取,不需要從云服務器上獲取,在一定程度上提高了數據獲取時的性能。但是緩存空間的容量有限,本文設置存儲容量為500GB,為了描述此存儲遷移調度策略,需要首先描述定義存儲遷移調度函數,本文定義的遷移調度函數綜合考慮了數據訪問的頻率、數據的大小、數據的采集時間因素,最大程度地提高數據的訪問速度。所以得到遷移調度函數為:
其中,T表示數據的時間長度,本文中用系統(tǒng)當前時間(t)減去上次的訪問時間(tk)即為該數據集的某個時間長度記為Tk,整個數據集D的時間T為T==。就數據價值而言,根據數據的生命周期可知,數據的價值與數據的時間長度相關,數據時間長度越長,被訪問的頻率越低,所以數據的價值將相對越低[10-12]。F表示數據訪問的頻率,即在某個時間內被訪問的次數,在一定時間,數據訪問頻率越大,則相應的數據價值也就越高,而同樣,一段時間內,數據被訪問后未使用的時間越長,在一定時間內的數據訪問頻率F會較小,數據重要性就越低,數據被再次訪問的可能性也相應降低。V為數據集D的大小。
根據遷移調度函數計算數據集的遷移指數,指數越大則遷移到緩存空間的要求度越高。數據存儲過程算法如下。
4 實驗分析
混合云存儲系統(tǒng)所在網絡的傳輸性能及帶寬對本文算法的性能會有較大影響,本文實驗環(huán)境中內部網絡的傳輸寬帶為100Mbps,公有云的網關上行帶寬為2Mbps,下行帶寬為5Mbps。服務器以我校網絡信息中心的服務器作為私有云存儲平臺共100TB,其中500GB為緩沖空間,阿里云服務提供商提供公有云。數據來源包括:通過學校內部業(yè)務系統(tǒng)采集的師生數據、其他院校公開的科研等數據,以及互聯網上的相關數據。
如圖2所示,傳統(tǒng)存儲方式對數據訪問時,由于數據位于本地的服務器上,訪問數據的速度較快且訪問速度穩(wěn)定;而本文的混合云存儲模式是一種私有云和公有云結合的數據存儲方式,由于某些數據需要從公有云調用數據,這必然會影響數據的訪問速度,但是本文的遷移調度算法因為增加了緩沖空間,所以減少了數據從公有云上調用的概率,所以在一定程度上保證了數據的訪問速度。
5 結束語
混合云存儲架構將高校的數據中心與公有云存儲整合在一起,彌補了公有云存儲在數據安全性和訪問性能上的不足。本文采用混合云的存儲模式對數據進行管理,即將隱私數據存放于本地的數據中心,將另一部分非隱私的數據存放于公有云中,這樣不僅可以減少購買硬件的成本,同時也節(jié)省了數據管理與維護的成本,并通過增加緩沖空間的概念在一定程度上保證了數據的訪問速度。在存儲空間無止境增加的情況下,本文提出的云存儲方式并不會影響數據的訪問效率。
未來的工作將對此問題進行更為深入的研究,并繼續(xù)完善本文提出的遷移調度算法,提高緩沖空間在訪問時的命中率,進而將其應用在實際的產品中。
參考文獻(References):
[1] 陳康,鄭緯民.云計算:系統(tǒng)實例與研究現狀[J].軟件學報,2009(5):1337-1348
[2] 韓晶.大數據服務與若干關鍵技術研究[D].北京郵電大學,2013:1-72
[3] 孟小峰,慈祥.大數據的管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(1):145-169
[4] 蘇命峰.云計算環(huán)境下高校數據中心的虛擬化研究與實現[D].湖南大學.2015:1-48
[5] 朱承學,伍海波.云計算環(huán)境下高校教學資源建設與應用研究[J].中國教育信息化,2015.11:51-52
[6] 劉瑋,王麗宏.云計算應用及其安全問題研究[J].計算機研究與發(fā)展,2012.S2:186-191
[7] 曹爽,顧柏園,王昭建.高校網絡建設中的必然趨勢:云計算技術的應用研究[J].教育,2015.16:223-223
[8] 田由輝.高?;旌显拼鎯Φ难芯颗c實踐[J].電腦知識與技術,2015.26:35-38
[9] 盧亮.混合云存儲架構的研究與設計[D].北京郵電大學.2014:1-54
[10] Graduate School of Library and Information Science atUT-Austin:the Information Lifecycle. http://www.ischool.utexas.edu/~l38613dw/readings/infolife-cycle.html,2009.
[11] Humphrey,Charles.e-Science and the life cycle ofresearch. http://datalib.library.ualberta.ca/-humphrey/life-cycle-science060308.doc,2012.
[12] CEOS.Data lifecycle models and concepts. http://wgiss.ceos.org/dsig/whitepapers,2012.