程妍妍/南京政治學(xué)院上海校區(qū)軍事信息管理系
本文系國家社科基金重點(diǎn)資助項(xiàng)目“云計(jì)算環(huán)境下電子文件管理元數(shù)據(jù)智能化研究”(項(xiàng)目編號:13ATQ008)和“邁向知識時代的數(shù)字檔案館頂層設(shè)計(jì)與需求研究”(項(xiàng)目編號:16CTQ031)階段性成果之一。
國外網(wǎng)絡(luò)教育課程發(fā)展甚廣,英國3/4的大學(xué)開設(shè)了網(wǎng)絡(luò)教育課程[1],美國諸如哈佛大學(xué)、斯坦福大學(xué)、普林斯頓大學(xué)、紐約大學(xué)等多家世界知名大學(xué)都啟用了網(wǎng)絡(luò)教育課程。在此過程中形成的網(wǎng)絡(luò)教育課程文件能夠說明整個課程從開設(shè)到結(jié)束的所有流程,具有憑證價值,且其中的大量信息可以在下一次課程中被重復(fù)使用,因此網(wǎng)絡(luò)教育課程文件應(yīng)被視為檔案,并應(yīng)歸檔和長久保存。筆者以美國圣何塞州立大學(xué)的網(wǎng)絡(luò)教育課程文件歸檔項(xiàng)目為個案展開研究,為國內(nèi)同類課程的開設(shè)和其文件長久保存提供參考。
2015年,美國圣何塞州立大學(xué)啟動網(wǎng)絡(luò)教育課程文件歸檔項(xiàng)目,項(xiàng)目主要目標(biāo)是幫助后續(xù)課程的開發(fā)者能夠從歸檔的課程歷史信息中獲取成功經(jīng)驗(yàn)和教訓(xùn),從而開發(fā)新課程。項(xiàng)目主要研究對象是該大學(xué)網(wǎng)絡(luò)教育系列課程——“都鐸王朝”,該課程采用3D建模技術(shù)營造出虛擬的歷史情境,包括一系列運(yùn)行在網(wǎng)絡(luò)虛擬環(huán)境中的虛擬事件、課程課件和負(fù)責(zé)布置學(xué)生作業(yè)的社交網(wǎng)絡(luò)站點(diǎn),課程網(wǎng)址是www.secondlife.com。該課程自2013年開設(shè),每年根據(jù)不同課程主題增加不同的模塊,目前包括文藝復(fù)興意大利(2013年)、大革命前法國(2014年)、美國內(nèi)戰(zhàn)(2015年)等模塊。
課程要求學(xué)生在學(xué)期中選擇一個特定角色,再根據(jù)角色所處的社會地位和歷史階段選擇生活區(qū),參與所處歷史時代的相關(guān)課程。課程采用3D建模技術(shù),為學(xué)生生成該時代的生活場景、著名歷史事件。學(xué)生的任務(wù)是生成角色動畫、參與歷史文化特點(diǎn)討論,并在深度研究其所處時代文化特征的基礎(chǔ)上形成課程總結(jié)課件、視頻等。網(wǎng)絡(luò)課程結(jié)束會形成類型多樣的文件材料:第一種是文檔類的材料,例如每一個學(xué)生提交的文本報(bào)告、視頻資料、老師課件等;第二種是3D建模技術(shù)生成的虛擬世界中的3D對象,例如建筑物對象、人物角色對象、課程設(shè)計(jì)的歷史事件對象等,這些信息非常重要,需要保存下來,以便下一次授課時參考。因此圣何塞州立大學(xué)急需解決該類課程文件的歸檔和長久保存問題。
從該網(wǎng)絡(luò)教育課程使用的社交網(wǎng)絡(luò)平臺來看,文件歸檔主要存在三個問題:第一,歸檔平臺分散和多樣化。每一個新學(xué)期開始,課程設(shè)計(jì)者會在社交網(wǎng)絡(luò)平臺Spruz上創(chuàng)建新的站點(diǎn),為每個學(xué)生提供專門賬戶上傳課程經(jīng)驗(yàn)、課程作業(yè)和照片展示。而采用虛擬世界課程中提供的視頻記錄功能可以記錄下學(xué)生在虛擬世界課程中經(jīng)歷的歷史事件和歷史活動,這些視頻會被存儲至另一個社交網(wǎng)絡(luò)平臺——YouTube的賬戶中。另外,YouTube也用于存儲一些特邀教授的課件。除Spruz和YouTube外,課程還采用了Pinterest平臺賬號來保管虛擬世界圖像,WordPress博客和Twitter賬戶用來記錄課程計(jì)劃和過往事件。課程相關(guān)文件分散在Spruz、YouTube、Pinterest和WordPress四個不同的社交網(wǎng)絡(luò)平臺中,而學(xué)生的隨機(jī)行為更是增加了檔案的分散性特征,例如,項(xiàng)目組發(fā)現(xiàn)部分學(xué)生在錄制完視頻后將視頻上傳到自己的YouTube賬戶中且將鏈接提供給了課程的YouTube賬號,而不是將完整的視頻內(nèi)容上傳到課程專用賬號中,這就意味著部分學(xué)生形成的課程作業(yè)被分散保存在互聯(lián)網(wǎng)中,無法對其進(jìn)行長久保存,因?yàn)殒溄涌赡艹霈F(xiàn)斷鏈等問題,致使文件消失在互聯(lián)網(wǎng)中。第二,歸檔平臺賬號具有不穩(wěn)定性。課程使用的社交網(wǎng)絡(luò)平臺如Spruz,為課程授課老師提供一個月的免費(fèi)賬號,這就意味著如果一個月內(nèi)課程尚未結(jié)束,原有課程賬號若不續(xù)費(fèi),賬戶就會被關(guān)閉而無法使用。第三,社交網(wǎng)絡(luò)平臺歸檔經(jīng)驗(yàn)缺乏。目前大部分研究都集中在單一社交網(wǎng)絡(luò)平臺歸檔上[2],如針對Pinterest[3],Instagram[4]和Flickr[5]的歸檔研究等,因此項(xiàng)目組歸檔問題的難點(diǎn)之一在于如何將分散在不同社交網(wǎng)絡(luò)平臺上的課程文件整合一體化歸檔。
為解決上述難題,大學(xué)項(xiàng)目組決定建立統(tǒng)一的YouTube文件歸檔中心,用來記錄所有課程和學(xué)生作業(yè)視頻。為了便于控制歸檔,項(xiàng)目組要求學(xué)生將完整視頻內(nèi)容提交給老師,而不允許采用發(fā)送鏈接的方式,這些視頻將會上傳至專門的YouTube文件檔案管理賬戶中進(jìn)行統(tǒng)一管理;對于虛擬世界中形成的且可以以特定格式保存的文件,要求學(xué)生必須以統(tǒng)一規(guī)范的存儲格式保存,便于下次課程中重新輸入;對于無法導(dǎo)出和保存的對象,要求學(xué)生必須以視頻錄像的形式記錄下來,上傳到統(tǒng)一的YouTube賬號中進(jìn)行管理;學(xué)生還必須將參加本次課程完整的信息,錄制成一系列視頻,例如將都鐸王朝、文藝復(fù)興時代的活動記錄全部錄制下來,便于下次課程設(shè)計(jì)時作參考。用這種方式進(jìn)行歸檔控制后,所有課程文件都會集中存放在YouTube平臺中進(jìn)行歸檔。目前,YouTube對于上傳視頻總體數(shù)量沒有限定,對單個視頻的尺寸限制大約是128GB,最長時限大約是11小時。這樣的限制對課程視頻文件歸檔來說可以滿足需求,也可以方便未來的檢索利用。但是,采用YouTube歸檔很可能并非長久之計(jì),因?yàn)槲磥鞾ouTube平臺一旦發(fā)生變化,存儲的課程文件很可能消失,因此項(xiàng)目組認(rèn)為單獨(dú)依靠任何一種社交網(wǎng)絡(luò)平臺歸檔,無論是WordPress、Pinterest還是Spruz課程站點(diǎn),并不利于課程文件的長期保存。因此,在每學(xué)期末,大學(xué)檔案管理中心都會將社交網(wǎng)絡(luò)平臺上的文件統(tǒng)一導(dǎo)出歸檔,主要工作如下:所有的視頻都以MP4格式輸出,并且和原始的捕獲格式、視頻腳本一起保存;社交平臺上的圖像文件進(jìn)行查重、模糊圖像排除等操作后,輸出歸檔;社交平臺上的網(wǎng)頁和博客頁面以HTML格式輸出歸檔。
項(xiàng)目組從社交網(wǎng)絡(luò)平臺的文件檔案管理中心將歸檔文件統(tǒng)一導(dǎo)出后,需要進(jìn)行長久保存。最初項(xiàng)目組準(zhǔn)備利用大學(xué)自建的服務(wù)器存儲空間,采用頻繁備份的方法來長久保存歸檔文件,并確保文件安全。但是由于課程文件以視頻、3D對象為主,文件較大,自建服務(wù)器存儲空間有限,再加上課程文件數(shù)量急劇增長,傳統(tǒng)的存儲模式難以適應(yīng)文件保管需求。而隨著云存儲技術(shù)的成熟,項(xiàng)目組正在評估采用三種云存儲產(chǎn)品來進(jìn)行歸檔數(shù)據(jù)的長久保存,即亞馬遜公司提供的Amazon Glacier Services、谷歌的Google Nearline service和Preservica公司的云存儲服務(wù)。
Amazon Glacier Services是亞馬遜公司提供的云存儲服務(wù),項(xiàng)目組對數(shù)據(jù)保存成本進(jìn)行評估,發(fā)現(xiàn)其收費(fèi)標(biāo)準(zhǔn)為每月每GB數(shù)據(jù)0.01美元,TB級的數(shù)據(jù)每月10美元左右。存儲的費(fèi)用是確定的,而另一部分費(fèi)用主要是來自歸檔數(shù)據(jù)的利用(上傳和下載)次數(shù),次數(shù)越頻繁收費(fèi)越高。這種收費(fèi)模式對于網(wǎng)絡(luò)教育課程文件比較適用,因?yàn)檎n程教育文件一年集中上傳的次數(shù)并不多,一旦歸檔后利用頻次偏低,基本只會在下次課程制作之前參考利用。此外,按數(shù)據(jù)量收費(fèi)也便于制定歸檔預(yù)算。該云存儲的數(shù)據(jù)上傳和傳輸采用SSL加密,自動加密歸檔數(shù)據(jù),多個系統(tǒng)間冗余備份,以此確保數(shù)據(jù)的安全性。該云存儲不足之處在于:一是使用該云服務(wù)必須重新制定規(guī)范的歸檔標(biāo)準(zhǔn)和流程,如云存儲格式標(biāo)準(zhǔn)、數(shù)據(jù)歸檔結(jié)構(gòu)、數(shù)據(jù)捕獲和上傳標(biāo)準(zhǔn)等都必須和云服務(wù)商協(xié)商后明確;二是必須培訓(xùn)專門的云存儲使用歸檔人員,目前項(xiàng)目組正在考慮于學(xué)期末培訓(xùn)學(xué)生志愿者學(xué)會使用云存儲界面,完成大量數(shù)據(jù)云歸檔工作;三是檔案檢索速度慢,檢索時間達(dá)小時級,這個問題導(dǎo)致項(xiàng)目組對選用該云存儲與否猶豫不決。
Google Cloud Storage Nearline是谷歌公司提供的云存儲服務(wù),項(xiàng)目組對其進(jìn)行了評估和測試,發(fā)現(xiàn)其收費(fèi)標(biāo)準(zhǔn)為每月每GB數(shù)據(jù)0.01美元,成本低廉、性價比高。它與亞馬遜公司提供的云存儲相比,具有數(shù)據(jù)檢索效率高的優(yōu)勢,如后者需要消耗幾個小時的檢索,它可以在3秒內(nèi)完成。盡管3秒的檢索時間并不算快,但是對于滿足課程文件利用需求而言已是綽綽有余了,因?yàn)槔镉姓n程文件并不強(qiáng)調(diào)其及時性。該云存儲提供異地冗余存儲服務(wù),并且能和其他谷歌云服務(wù)完美集成。其缺點(diǎn)是在檔案專業(yè)性管理需求方面設(shè)計(jì)不夠,如缺乏檔案采集、遷移等業(yè)務(wù)流程設(shè)計(jì)。
Preservica公司提供的云存儲專門針對檔案領(lǐng)域,目前已有多個檔案機(jī)構(gòu)應(yīng)用,例如歐洲國家檔案館、18家美國州檔案館[6]和耶魯大學(xué)檔案館等。它的專業(yè)優(yōu)勢非常明顯,提供的云存儲能夠支持開放檔案信息系統(tǒng)(OAIS)工作流,提供檔案采集、過時載體和文件格式的遷移功能,提供友好的用戶界面用于數(shù)據(jù)管理,支持歸檔數(shù)據(jù)自動采集,并且可以為內(nèi)部和外部用戶提供自行定制的歸檔界面;具備完善的歸檔流程,無需建立歸檔標(biāo)準(zhǔn)、規(guī)范、流程等,而且運(yùn)行在亞馬遜云存儲服務(wù)平臺之上,自動繼承了亞馬遜云平臺的安全性和冗余備份功能。其缺點(diǎn)是收費(fèi)昂貴,每100GB的數(shù)據(jù)存儲年收費(fèi)為3950美元,250GB數(shù)據(jù)成本高達(dá)6950美元一年,并且對上傳數(shù)據(jù)量設(shè)定容量限制,為250GB。由于課程視頻本身的文件量較大,再加上需要保存視頻腳本文件,這樣三個學(xué)期形成的視頻文件總量能達(dá)到332GB,即使壓縮后存儲,也因超過容量限制而無法滿足歸檔需求。因此,項(xiàng)目組希望能和云服務(wù)商進(jìn)行進(jìn)一步的合作,解決容量限制等問題。
在各種社交網(wǎng)絡(luò)平臺流行的今天,依托社交網(wǎng)絡(luò)平臺方便快捷地開展網(wǎng)絡(luò)教學(xué),已成為國外多所大學(xué)的首選。該項(xiàng)目研究表明:一是使用社交網(wǎng)絡(luò)平臺發(fā)布、管理、歸檔網(wǎng)絡(luò)教育資源是可行的;二是課程文件可以使用云資源長久保存,這是一種方便而且經(jīng)濟(jì)的手段。我國開發(fā)網(wǎng)絡(luò)教育課程時,應(yīng)當(dāng)提前考慮這類課程文件的形成和歸檔問題,具體包括:一是明確歸檔范圍。明確課程文件應(yīng)歸檔的內(nèi)容,應(yīng)包括課程課件、學(xué)生作業(yè)、相關(guān)課程計(jì)劃等文檔資料,還應(yīng)包括課程中的關(guān)鍵對象,例如學(xué)生在3D建模環(huán)境中設(shè)定的歷史事件、體現(xiàn)時代特征的3D對象等,便于后續(xù)課程開展時參考或重構(gòu)3 D虛擬環(huán)境。二是明確歸檔平臺。如果在課程開展中使用社交網(wǎng)絡(luò)平臺,例如利用博客、微博、微信等社交網(wǎng)絡(luò)平臺進(jìn)行課程相關(guān)文件發(fā)布、作業(yè)提交等任務(wù)時,應(yīng)當(dāng)盡可能使用同一個平臺,便于統(tǒng)一集中歸檔,同時要選擇賬戶安全可靠、運(yùn)行穩(wěn)定的平臺。三是規(guī)范歸檔流程和歸檔格式。歸檔流程可以預(yù)先在課程建設(shè)規(guī)范中加以明確,例如規(guī)定學(xué)生在提交相關(guān)文檔、視頻、3D建模對象時應(yīng)提交完整內(nèi)容而不是提交鏈接,避免造成無法歸檔的問題;應(yīng)規(guī)范各種課程文件的歸檔格式,例如社交網(wǎng)絡(luò)平臺頁面歸檔格式、3D虛擬建模歸檔格式等。四是明確歸檔時間。對于部分時間周期較短的網(wǎng)絡(luò)教育課程,可以在本次課程結(jié)束后就立即歸檔;對于部分時間周期較長,例如跨學(xué)期的網(wǎng)絡(luò)教育課程,可以在學(xué)期結(jié)束后進(jìn)行歸檔。這樣做的意義在于避免因歸檔周期過長,社交平臺出現(xiàn)斷鏈而導(dǎo)致檔案丟失。五是積極評估采用新興技術(shù)應(yīng)用于歸檔數(shù)據(jù)量較大而利用頻次較低的課程文件歸檔工作,例如采用云存儲技術(shù)。六是明確課程檔案長久保存策略。在項(xiàng)目開始之初,大學(xué)對目前國際上網(wǎng)絡(luò)教育資源保存項(xiàng)目進(jìn)行了充分調(diào)研,發(fā)現(xiàn)國際上對網(wǎng)絡(luò)教育資源的長久保存一般采用兩種策略。一是采用OAIS模型創(chuàng)建檔案信息包(AIP)[7]的方法進(jìn)行長久保存,這時需要將網(wǎng)絡(luò)課程中需要?dú)w檔的所有文件附加上相應(yīng)的背景信息元數(shù)據(jù),再運(yùn)用一致的封裝標(biāo)準(zhǔn)打包,例如用METS、MPEG21 DIDI、FOXML和OAI-ORE等標(biāo)準(zhǔn)打包,形成一個整體的文件,再進(jìn)行保存。項(xiàng)目組經(jīng)過評估,認(rèn)為這種方法雖然可行,但是需要專門的人員去編制復(fù)雜的檔案信息包,時間花費(fèi)太多、所需成本太高。第二種方法是采用3D CAD模型長久保存方法保管網(wǎng)絡(luò)教育課程文件[8]。但項(xiàng)目組認(rèn)為,如果采用這一方法則更為復(fù)雜,因?yàn)榫W(wǎng)絡(luò)教育課程文件中雖有一部分是3D建模技術(shù)形成的文件,但它們并不是保管的重點(diǎn),重點(diǎn)應(yīng)該是圍繞課程展開形成的文件資料,因此在以保管文件為中心的總體目標(biāo)下,項(xiàng)目組制定了以保存文件材料為主的長久保存策略。
本文系國家社科基金重點(diǎn)資助項(xiàng)目“云計(jì)算環(huán)境下電子文件管理元數(shù)據(jù)智能化研究”(項(xiàng)目編號:13ATQ008)和“邁向知識時代的數(shù)字檔案館頂層設(shè)計(jì)與需求研究”(項(xiàng)目編號:16CTQ031)階段性成果之一。
注釋與參考文獻(xiàn):
[1]Kirriemuir,J.A spring 2008 snapshot of UK higher and Further Education developments in Second Life.Eduserv Virtual World Watch[DB/OL].[2016-7-21].http://www.eduserv.ac.uk/~/media/foundation/sl/uksnapshot052008/final%20pdf.ashx.
[2]Theimer,K.What is the Meaning of Archives 2.0?[J].American Archivist(74):58-68.
[3]Zarro,M.and Hall.C.Pinterest: Social collecting for linking using sharing.Proceedings of the 12th ACM/IEEE-CS joint conference on Digital Libraries.ACM,2012.
[4]Jensen,B.Instagram as Cultural Heritage: User Participation, Historical Documentation, and Curating in Museums and Archives through Social Media[J].Digital Heritage International Congress,2015.
[5]Library of Congress.Prints and Photographs Division, et al.For the common good:The Library of Congress Flickr pilot project.Library of Congress,Prints and Photographs Division,2008.
[6]Preservica.About us[EB/OL].[2015-4-22].http://preservica.com/about-us/.
[7]Consultative Committee for Space Data Systems, Reference Model for an Open Archival Information System (OAIS), CCSDS 650.0-B-1,CCSDS Scretariat,Washington D.C.,2002.
[8]Smith,M.Curating architectural 3D CAD models[J].International Journal of Digital Curation(4):98-106.