溫 潔
(中州大學(xué) 圖書館,河南 鄭州 450044)
隨著全球信息的爆炸式增長,存儲技術(shù)越來越為人們所關(guān)注.當前,全球數(shù)據(jù)存儲每年以60%的速度遞增,數(shù)據(jù)的持續(xù)快速增長帶來的數(shù)據(jù)膨脹壓力使越來越多的企事業(yè)單位把數(shù)據(jù)存儲作為重要項目來管理.
檔案信息化是一個動態(tài)的發(fā)展過程,它以檔案信息的資源建設(shè)為核心,以檔案信息網(wǎng)絡(luò)建設(shè)為基礎(chǔ),以檔案信息資源共享為目標.檔案信息化包含三層含義:數(shù)字化、一體化、網(wǎng)絡(luò)化.其中,檔案信息的數(shù)字化是開展信息化建設(shè)的基礎(chǔ),大量的館藏檔案和紙質(zhì)文件需要進行數(shù)字化加工.以河南省檔案館為例,截至2010年3月,館藏統(tǒng)計為746 000卷(冊),假設(shè)數(shù)字化加工掃描存儲為占據(jù)空間較少的PDF圖像格式,每卷平均容量按30M來算(實際工作過程中,每卷的平均容量要大于30M),所需存儲空間約為21T.如果要掃描存儲為占據(jù)空間大的TIFF圖像格式,所需存儲空間還要大得多.另外,隨著檔案信息化建設(shè)的推進,進館的電子文件及多媒體資料會愈來愈多,這會給存儲帶來更大的壓力.
虛擬存儲,簡單地說就是把不止一個的存儲介質(zhì)模塊利用特定的技術(shù)手段集中在一個存儲池中,進行集中的統(tǒng)一管理[1].用戶使用的不再是物理存儲硬件,而是虛擬的存儲空間,管理者也不用管理物理存儲部件,而只需要對存儲空間進行管理.
虛擬存儲作為一種先進的存儲技術(shù),具有如下特點:
首先,它提供了一個管理手段,可以用來集中管理大容量存儲系統(tǒng).虛擬存儲利用網(wǎng)絡(luò)中的某一個存在環(huán)節(jié)如服務(wù)器、交換機等進行統(tǒng)一管理,這樣一來就方便了技術(shù)人員的日常管理及用戶使用.日后一旦存儲需求提高,需要增加新的存儲設(shè)備的時候,只需要技術(shù)人員在已有的存儲系統(tǒng)的配置上進行一些簡單的更改,就可以使用新增加的存儲系統(tǒng)的容量,而客戶端不需要有任何操作.
其次,它大幅度提高了存儲系統(tǒng)的訪問帶寬.一般情況下存儲系統(tǒng)是由多個存儲模塊組合而成,虛擬存儲系統(tǒng)可以在多個模塊之間進行負載平衡,把訪問數(shù)據(jù)需要的整體帶寬平均地分配到各個獨立的存儲模塊上,從而使存儲系統(tǒng)的整體訪問帶寬得到進一步地增大.
一般情況下,虛擬存儲有以下三種實現(xiàn)方法.
1)基于主機的虛擬存儲.基于主機的虛擬化存儲一般通過存儲管理軟件實現(xiàn).管理軟件的作用就是向系統(tǒng)輸出一個單獨的虛擬存儲設(shè)備,使得主機上的存儲設(shè)備可以并行使用.這種方法需要通過管理軟件完成,會縮短系統(tǒng)CPU的使用周期,從而造成主機的性能瓶頸.由于不需要額外增加硬件、容易實現(xiàn)、成本較低,對于存儲要求不高的網(wǎng)絡(luò)環(huán)境來說,是一種性價比很高的方法[2].
2)基于存儲設(shè)備的虛擬化存儲.虛擬化技術(shù)也可以通過存儲設(shè)備內(nèi)部的控制系統(tǒng)加以實現(xiàn).這種虛擬方法通過特定的算法把邏輯存儲單元映射至物理設(shè)備上,最終實現(xiàn)用戶所看到的邏輯卷,不依附所屬的存儲設(shè)備.
3)基于網(wǎng)絡(luò)的虛擬存儲.基于網(wǎng)絡(luò)的虛擬化是存儲技術(shù)的最新發(fā)展方向.基于網(wǎng)絡(luò)的虛擬化功能是在存儲局域網(wǎng)絡(luò)(SAN)內(nèi)部完成的.通常有以下兩種方式.
(1)帶內(nèi)虛擬.也叫做對稱虛擬(Symmetric),通過應(yīng)用服務(wù)器和存儲設(shè)備數(shù)據(jù)通路的內(nèi)部來實現(xiàn)[3].一般情況下,存儲服務(wù)器上的虛擬軟件允許控制數(shù)據(jù)和真實數(shù)據(jù)在一個數(shù)據(jù)通路內(nèi)傳遞.而從用戶角度來看,帶內(nèi)虛擬存儲服務(wù)器就如同是主機上附加的一個存儲設(shè)備.
(2)帶外虛擬.又稱為不對稱虛擬(Asymmetric),虛擬功能是在數(shù)據(jù)通路以外的服務(wù)器上來實現(xiàn)的.控制數(shù)據(jù)存放于數(shù)據(jù)通路以外的存儲服務(wù)器上,而需要存儲的實際數(shù)據(jù)則直接通過存儲網(wǎng)絡(luò)在應(yīng)用服務(wù)器和存儲設(shè)備之間進行傳遞.雖然帶外虛擬使得網(wǎng)絡(luò)中的數(shù)據(jù)流量大大減少,但是要在主機端安裝客戶軟件,也容易受到攻擊.
由于虛擬存儲技術(shù)在資源數(shù)字化存儲整合中的特點與優(yōu)勢,各類資源相對比較豐富的部門(包括檔案館)對其給予了極大的關(guān)注,并逐漸把這種技術(shù)應(yīng)用到工作之中.
目前,虛擬存儲技術(shù)還沒有出臺統(tǒng)一的技術(shù)標準,單從拓撲結(jié)構(gòu)方面來講虛擬存儲分為對稱式和非對稱式兩種.對稱式虛擬存儲技術(shù)需要嵌入網(wǎng)絡(luò)數(shù)據(jù)傳輸路徑中,將虛擬存儲控制設(shè)備和交換設(shè)備、存儲軟件系統(tǒng)作為一個整體來進行;而非對稱式虛擬存儲技術(shù)與之恰恰相反,虛擬存儲控制設(shè)備完全獨立于數(shù)據(jù)傳輸路徑之外.對稱式虛擬存儲技術(shù)具有更高的帶寬性能,安全方面也更有保障,比較適合檔案館使用.
以河南省檔案局為例,采用的是通過存儲設(shè)備(磁盤陣列)在存儲網(wǎng)絡(luò)上實現(xiàn)虛擬化的技術(shù)方案.其拓撲結(jié)構(gòu)為對稱式,如圖1所示.其中,所選用的存儲設(shè)備為NetApp公司的FAS 2040磁盤陣列,配有NetApp的Data ONTAP 8.0操作系統(tǒng),包括NetApp公司所有的先進數(shù)據(jù)服務(wù),如壓縮、重復(fù)數(shù)據(jù)刪除、災(zāi)難恢復(fù)和快照等.數(shù)據(jù)服務(wù)器操作系統(tǒng)選用中科紅旗(Asianux Sever 3.0for x86-64sp2)的,數(shù)據(jù)庫系統(tǒng)購買的是甲骨文公司的正版Oracle(11g).
圖1 存儲拓撲結(jié)構(gòu)
磁盤陣列通過光纖交換機接入存儲局域網(wǎng)絡(luò)(SAN),系統(tǒng)控制信息數(shù)據(jù)和實際存儲數(shù)據(jù)通過相同的數(shù)據(jù)通路進行傳遞.應(yīng)用服務(wù)器發(fā)出的數(shù)據(jù)請求被磁盤陣列中的控制器接收后,磁盤陣列中的控制器就會在后臺的磁盤中搜索存儲數(shù)據(jù)(在實際的存儲過程中,所請求的數(shù)據(jù)可能分布于不同的多個磁盤中),當所需要的數(shù)據(jù)被找到后,控制器就會把數(shù)據(jù)傳送至應(yīng)用服務(wù)器,這樣就完成了一次完整的請求響應(yīng).
為了進一步加強數(shù)據(jù)保護,本實例中的磁盤陣列采用RAID 6/DP系統(tǒng)設(shè)計,每個硬盤上都有同級數(shù)據(jù)XOR校驗區(qū).另外,還有一個針對每個數(shù)據(jù)塊的XOR校驗區(qū).也就是說每個數(shù)據(jù)塊有了兩個校驗保護屏障,整個磁盤陣列中的若干硬盤,即使同時有兩個硬盤壞掉也不影響數(shù)據(jù)的安全性及系統(tǒng)的正常運行.
此方案在控制器中添加虛擬化功能,將一個磁盤陣列上的存儲容量劃分為多個存儲空間(LUN),供不同的主機系統(tǒng)訪問,虛擬化的工作在磁盤陣列的控制器上就得以完成.這一虛擬存儲方案具有如下三個特點:
1)提升了系統(tǒng)的應(yīng)用性能.傳統(tǒng)應(yīng)用服務(wù)都是直接掛接存儲,與此相比,本例的對稱式虛擬存儲、檔案管理系統(tǒng)、電子資源應(yīng)用服務(wù)使用大容量的高速緩存、多端口并行技術(shù),不但消除了I/O瓶頸,還使得數(shù)據(jù)傳輸速度比傳統(tǒng)方式有了顯著地提高,系統(tǒng)的可用帶寬從整體上也得到了提高.
2)存儲控制更加方便.磁盤陣列將整個存儲池中實際存在的物理硬盤空間變?yōu)樘摂M的邏輯存儲單元(LUN),并進行端口映射.主機端則將這些邏輯存儲單元分別映射為操作系統(tǒng)可以識別的盤符.整個劃分過程對用戶或管理人員都是透明的,系統(tǒng)管理員不必再關(guān)心后端存儲,只需專注管理存儲空間.
3)可擴展性.在SAN之上可方便地增加、刪除交換設(shè)備,從而實現(xiàn)超大規(guī)模的SAN.同時由于方案保持了標準的SAN結(jié)構(gòu),為系統(tǒng)以后的擴展提供了有力的技術(shù)保障.
網(wǎng)絡(luò)虛擬存儲從一定程度上解決了數(shù)據(jù)共享和整合的難題,但也存在如下一些問題.
1)存儲虛擬化技術(shù)所面臨的最大問題就是還不夠成熟,虛擬化的實現(xiàn)還要依托于后端操作系統(tǒng),也就是說存儲是“聚合的”而不是真正“共享的”.簡言之,虛擬化功能的實現(xiàn)目前還必須要有文件服務(wù)器操作系統(tǒng)的支持.
2)存儲設(shè)備裸容量大小與實際可用容量有著較大的差異.選購的存儲設(shè)備在安裝使用的過程中,系統(tǒng)本身要占去大量的可用容量.
還是以本方案中的存儲設(shè)備為例,購買的NetApp FAS 2040一共包含14塊1T的硬盤,裸容量大小為14T.因為系統(tǒng)做的是RADI 6/DP,需要兩個硬盤來做校驗,一個硬盤做熱備份,可用容量還剩下10T,然后每個盤快照占了20%,文件系統(tǒng)格式化后占了20%左右,那么實際可用容量僅剩下6.4T.
3)磁盤陣列中的快照技術(shù)是在線存儲設(shè)備防范數(shù)據(jù)丟失的有效方法之一,存儲設(shè)備發(fā)生應(yīng)用故障或者文件損壞時可以進行及時數(shù)據(jù)恢復(fù).對于用戶來講,花費昂貴的價格購買存儲設(shè)備,就是為了擁有盡可能多的存儲空間.對于實時性要求不高的系統(tǒng),再加上諸如Oracle等數(shù)據(jù)庫本身強大的容錯、備份機制,磁盤陣列中的快照技術(shù)所占用空間是否能釋放出來或者減少到一定程度,是需要進一步研究探討的問題.
檔案數(shù)字化信息的潛在增長趨勢,對存儲系統(tǒng)有著更高的要求.虛擬存儲技術(shù)可以實現(xiàn)存儲系統(tǒng)的數(shù)據(jù)共享,為普通用戶提供更透明的高可用性,為管理人員提供更方便的可擴展性.可以有效減少存儲系統(tǒng)的管理開銷,能夠有效地滿足數(shù)字檔案館中數(shù)據(jù)的存儲需求,它無疑將成為建設(shè)未來數(shù)字檔案館存儲系統(tǒng)的主流架構(gòu).
同時也要清楚地認識到,由于虛擬存儲技術(shù)目前尚無統(tǒng)一的技術(shù)標準,虛擬存儲技術(shù)的實現(xiàn)方式各有優(yōu)劣,廠商對各自的虛擬存儲方案也眾說紛紜,所以在考慮選用虛擬存儲技術(shù)的時候,要依照本單位的實際情況,規(guī)劃適合自己的存儲虛擬化策略,在工作實踐中感受存儲虛擬化帶來的諸多益處.
[1]木合亞提·尼亞孜別克,古力沙吾利·塔里甫.信息存儲技術(shù)及其發(fā)展趨勢[J].中國科技信息,2011(10):116.
[2]譚生龍.存儲虛擬化技術(shù)的研究[J].微計算機應(yīng)用,2010(1):35.
[3]王文輝.虛擬存儲技術(shù)的基本實現(xiàn)及其應(yīng)用[J].陜西科技,2007(6):42.