付雙雙 錢萬里 石峻峰
(1.蘇州大學檔案館,江蘇蘇州,215000 2.南京航空航天大學檔案館,江蘇南京,210016)
歐美國家進行網絡信息資源采集與保存實驗項目有:美國的The Internet Archive,MINERVA,英國的CEDARS,德國的NESTOR,澳大利亞 PANDORA, 挪 威 的PARADIGMA, 丹 麥 的NETARCHIVE,日本的WARP項目等[1]。1999年開始,英美高校與圖書館、檔案館、博物館聯(lián)合對數(shù)字資源合作研究,進行網絡檔案信息的整合與共享,簡稱LAM。它是一種分散,多元,以協(xié)會溝通協(xié)作的模式[2]。如GASHE 項目-“蘇格蘭高校檔案信息資源整合門戶網”。2002年“研究支持圖書館項目”以格拉斯哥大學為基點,整合蘇格蘭地區(qū)10 所大學檔案信息資源。格拉斯哥大學檔案館與商務中心聯(lián)手開發(fā)其檔案。“RLSP”項目由愛丁堡大學圖書館和赫瑞.瓦特檔案文件和博物處合作[3]。英國各高校采用統(tǒng)一著錄標準,建立互通的檔案資源交換機制。美國大學聯(lián)盟和其它圖書館聯(lián)盟聯(lián)合構建,共同擁有館藏并把資源編入研究性圖書館信息網,屬于研究型檔案館。如美國密歇根大學本利特檔案館;耶魯大學手稿與歷史文件室,檔案館從業(yè)人員除管理檔案還進行學術研究,講學交流,是真正的文化機構[4]。哈佛大學檔案館并入哈佛圖書館,協(xié)調管理,共建共享。2002年初,由美國高校和歷史協(xié)會,華盛頓州,西雅圖市檔案館13 個機構共同建立的合作項目-美國西北數(shù)字檔案館(northwest digital archives),該數(shù)據(jù)庫安裝在華盛頓州立大學[5]。目前還有很多大學參與投資網絡信息資源保存體系,已從以往的一次采集轉變?yōu)槭聞招筒杉⑸顚泳W采集即數(shù)據(jù)庫采集、LazyPreser2vation 即二次采集等多種方式。采集策略和方式朝多元化發(fā)展。采集內容覆蓋人類社會的方方面面。網絡信息資源存儲系統(tǒng)技術和標準框架已日趨成熟,使用工具主要有兩種,一種是PANDAS,一種是澳大利亞的PANDORA[6]。檔案學理論研究方面,英、美、澳等國發(fā)表的相關論文數(shù)量和質量排在世界前列,發(fā)表論文數(shù)量和機構更以高校居首。論文主題,研究內容緊跟信息時代。
隨著大學網絡影響力的增強,大學信息數(shù)據(jù)量激增,對高校網絡信息大規(guī)模、多種類數(shù)據(jù)的高速采集、存儲歸檔、處理與分析以提取價值資源的技術架構與技術過程必須進行實踐。高校網絡信息檔案建設的基礎就是“網絡信息數(shù)據(jù)采集”,它是指利用互聯(lián)網搜索引擎技術實現(xiàn)有針對性、精準性的網絡數(shù)據(jù)抓取,并按照一定規(guī)則和篩選標準進行數(shù)據(jù)歸類,并形成數(shù)據(jù)庫文件的一個過程。網絡信息采集系統(tǒng)的特點是能支持海量數(shù)據(jù)智能化采集,具有支持各種網站,多種網頁類型,多線層、多任務采集,文字、圖片、附件、音頻,視頻等數(shù)據(jù)的壓縮、存儲,附件與正文自動映射與關聯(lián),壓縮存儲,可保存至磁盤或數(shù)據(jù)庫。自定義表單,各種報表導出,自定義閱讀模板,各種列表、內容分頁自適應采集,集群采集,過濾,采集源管理,對采集來的信息進行二次加工。采集內容的自動排版,操作內容、操作人以及操作時間記錄,圖形監(jiān)控網絡使用情況、采集情況,采集到的信息可設置規(guī)則自動分類,轉化為結構化的記錄,保存在本地數(shù)據(jù)庫中,用于內部使用或外網發(fā)布。
高校網絡信息資源采集遵循原始性、全面性、真實性、針對性、時效性、篩選性、價值性和全程性原則。高校網絡信息采集范圍不大,但針對性、學術性、專業(yè)性強,學科面廣,數(shù)據(jù)量大、類型多。采集資源保存和利用價值高。一是實時準確地采集指定的遠程網站關于本校網頁新聞,專題等信息內容,自動保存相關圖片、視頻和文本,進行標題、正文、發(fā)布時間、文章來源的多語言、編碼格式自動識別。二是采集本校、院部網站的新聞,專題內容、行政、教學、學生管理等的文本文件;重要郵件、微博、博客、論壇帖子,教師的精品視頻課程;大學的基建、設備、建筑、人物等的珍貴資料;教師公開發(fā)表的專業(yè)文章、科研數(shù)據(jù)、成果;集成各管理部門的在線學生學籍材料庫、學生作品;學校人事、財務、學術活動、招生就業(yè)、學院特色、合作交流、校園媒體、公共服務、校園文化重要信息;采集檔案編研成果,院部設置與變遷,名師、校友的網上信息;圖書館對研究生論文、教師專著,學術專業(yè)期刊已采集的,只共享就可。采集要對每類信息自定義來源與分類,記錄唯一索引,避免相同信息重復入庫。按照類型、發(fā)布機構、內容、層次、公開、內部等層次設定權限,并滿足需求者隨時獲取信息。高校網絡信息采集徹底顛覆傳統(tǒng)檔案管理模式,成為構建現(xiàn)代大學文化信息資源的重要支撐,保存、查找與研究IT—DT 時代高校發(fā)展史的寶貴資源,實現(xiàn)高校價值資源在社會空間有效整合與信息流共享。是DT 時代現(xiàn)代大學文化得以傳承的重要條件。
我國網絡信息采集與保存始于20 世紀末國家圖書館WICP 等項目。目前,網絡信息數(shù)據(jù)采集,分析,發(fā)布系統(tǒng)軟件有Web spider,Sitemap,Mete Seeker 等,但并不適合高校網絡信息檔案建設。目前我國高校不含獨立學院有2500 多所。調研發(fā)現(xiàn)高校檔案館延續(xù)傳統(tǒng)檔案管理模式,未采用統(tǒng)一著錄標準和建立互通的檔案資源共享交換機制。內外網產生的大量有關學校,師生的重要信息,教學、科研、政務、學籍管理等大量信息數(shù)據(jù)庫,很多已無法讀取,視頻精品課,部門數(shù)據(jù)庫,校園網文化活動等都未歸檔。這些數(shù)據(jù)對教育管理、政策制定、社會需求、文化傳承等具有重要價值。高校網絡信息檔案建設缺失已不適應時代發(fā)展。作為“數(shù)字校園”建設的有機部分——“高校數(shù)字檔案館建設”在技術、觀念、理論研究和實踐機制創(chuàng)新方面明顯滯后。這種大學歷史的斷層,使未來人們不可能完整、全面、真實地重構這段大學歷史。
通過一些期刊數(shù)據(jù)庫輸入網絡信息檔案進行中文核心期刊搜索,統(tǒng)計結果是關于網絡信息資源的研究者大都是圖書、信息或情報學專業(yè)學者,研究內容涉及網絡信息資源特征、發(fā)展趨勢、采集保存、搜集整合、管理策略、機制、分布規(guī)律、開發(fā)優(yōu)化利用等。發(fā)表刊物多為圖書館學、情報學、科技發(fā)展類。檔案研究論文數(shù)量和質量不到圖書情報的十分之一,論文作者多來自高校檔案專業(yè)教師。實際工作者缺少研究實踐的積極性與高校對檔案館科研無要求,少經費支持,重視度不夠有關。檔案工作者日常性工作量大,理念保守,理論研究水平低,未成為網絡信息建設研究的重要主體。
目前我國各大學,大學內圖書館、檔案館、博物館都各自建設,和社會其它文化機構也少交流合作和資源共享機制。大學間,大學相關部門間網絡信息資源協(xié)同創(chuàng)新,合作研究,聯(lián)合開發(fā)模式沒有建立。紙質和電子時代,高校檔案館建立了的“計算機檔案管理系統(tǒng)”,“網絡版檔案管理系統(tǒng)”。DT 時代,高校檔案館無法對大學重要網絡信息資源進行采集保存,不僅檔案管理滯后,而且已失去檔案管理的大部分功能。高校圖書館在網絡信息資源采集、保存、服務等理論和技術方面做的很好,但圖書館沒有采集保存檔案的職能,管理范圍和模式是圖書、期刊、雜志、文獻等有關的數(shù)據(jù)資源建設。許多高校為打造高校的文化名片,把重要歷史文化價值的實物檔案從檔案館抽出,建立校博物館。形成三館分立,各自為政。如果各部門進行網絡信息采集,肯定有重復交叉。各大學,部門間管理標準和模式各異,現(xiàn)有的技術環(huán)境和系統(tǒng)界面不同,各高?!皵?shù)字校園建設”要么沒有考慮檔案,要么把檔案放在次要位置。建立高校網絡信息檔案集成式系統(tǒng)平臺與協(xié)調機制難度很大。
高校網絡信息檔案建設宏觀上要有大檔案,大資源,大數(shù)據(jù)的系統(tǒng)理念。微觀上要有智慧檔案管理、價值挖掘和檔案生態(tài)建設理念。這從構建網絡信息檔案系統(tǒng)平臺“檔案鏈”式工作模式—“數(shù)據(jù)信息歸檔—智慧檔案管理—大數(shù)據(jù)信息分析—檔案信息價值資源服務”得以體現(xiàn)?!皺n案鏈”具體指檔案大數(shù)據(jù)系統(tǒng)自動選擇并實時采集網絡信息,為保持系統(tǒng)空間有效性,我們要進行信息價值甄別,重要內容隨網頁狀態(tài)一起保存。針對目前檔案泛數(shù)字化現(xiàn)象,要重視檔案生態(tài)建設,對網絡檔案信息進行篩選保存并編目,通過網絡將檔案目錄數(shù)據(jù)實時傳送,形成邏輯上的目錄庫,并按檔案類型、發(fā)布機構等對目錄進行挑選重組、分層定位,實現(xiàn)輸入關鍵詞等在線目錄檢索和內容查找,形成的網絡信息檔案,系統(tǒng)默認為不可更改并加密處理供網上授權用戶使用。檔案工作者從海量數(shù)據(jù)中進行價值信息選擇,并進行關聯(lián)性資源挖掘,在數(shù)據(jù)分析基礎上進行多方面研究,形成大學文化特色資源。
建設要注重學科交叉和知識溢出效應(knowledge spillover)大數(shù)據(jù)時代檔案與其它學科交叉融合的特點更突出,這成為促進高校網絡信息檔案建設系統(tǒng)理論和實踐創(chuàng)新的重要動力。檔案從業(yè)人員專業(yè)應更寬泛,如計算機網絡學科,歷史學、文獻學、文學、管理學、統(tǒng)計學、哲學、系統(tǒng)工程學、管理學心理學、數(shù)學、外語等。檔案學研究應突破管理學范疇,延伸至社會大學科研究方向,這為檔案學理論和實踐借鑒吸收更多學科理論提供了條件,也使檔案管理新理念在實踐中有廣闊空間和機遇。
建設要突出社會共享理念。檔案載體從實物到電子,檔案內容從普通資源到珍貴資源,尤其是大學優(yōu)質網絡課程、學術講座、社團活動等應歸檔公開。網絡新技術突破時空障礙,既異地用檔,又擴大了知識和文化的傳播空間。使許多渴望接受更多大學教育的社會人士在任何時點享受大學文化,這為縮小大學文化教育資源差距,尤其一流大學文化為社會,為學習者傳播向往的大學文化提供了可能和便利。大學文化也豐富了社會文化并與社會文化形成良性互動,促進了社會進步。大學文化和精神成為公益性和共享性社會資源。
引入“社會—空間辯證法”理論??鐚W科視角突破以往檔案學理論研究(文件生命周期論、全宗論、價值論)的視野與內涵,引入“索加創(chuàng)立的社會空間辯證法”[7],從“社會—空間辯證法”角度研究大學檔案建設,更好地闡釋通過網絡技術建立大數(shù)據(jù)檔案信息平臺,把大學實體空間生產的產品和網絡數(shù)字檔案資源和精神文化產品,通過虛擬網絡空間的再生產向不同區(qū)域虛擬和實體空間提供大學檔案文化信息。借助網絡技術建構大學檔案文化資源空間相互作用的縱向和橫向結合的維度,突出網絡信息檔案空間性、社會性、歷史性的三元辯證法,更符合現(xiàn)代大學檔案和大學文化的“絕對空間”和“相對空間”的辯證統(tǒng)一,“實體空間”和“虛擬空間”的辯證統(tǒng)一,凸顯歷史檔案信息在空間、時間的流動性。形成空間的信息流,這反映了馬克思主義的“不同的人類實踐怎樣創(chuàng)作和利用了不同的空間概念”來表達檔案資源的絕對空間,相對空間和關系空間的辯證統(tǒng)一。在此理論指導下的高校網絡信息檔案建設對于發(fā)揮大學文化的社會和空間價值,實現(xiàn)大學文化間和各種社會文化空間共生,交流碰撞意義重大,更為大學發(fā)展和社會發(fā)展注入文化創(chuàng)新動力。
引入“共生理論”[8]?!肮采痹从谏飳W,“共生理論”應用在人類學、社會學、經濟學、管理學、醫(yī)學,建筑學等很多領域,本質就是“協(xié)同”。大數(shù)據(jù)時代技術和檔案資源結合,檔案與網絡“共生理論”這一新的研究視角更能提升大學檔案文化資源在社會空間中的重要作用。在尊重每所大學的地緣文化和傳統(tǒng)文化前提下,高校間,高校與其他機構間,社會間網絡檔案信息協(xié)同建設與資源共享為異質大學文化間相互交流,融合與碰撞提供了重要理論支撐,研究角度可以從高校檔案及社會文化的“異質文化共生”,“文化與技術共生”,大文化的“內部與外部共生”,大學的“歷史和未來共生”等方面進行研究。
把空間的因素引進來,以共生的理論為指導,不僅對高校,也對所有檔案建設管理實踐與理論研究都有重大意義,尤其能促進“檔案運動動力理論—價值理論”的新發(fā)展。
平臺建設。社會空間共生理論為檔案學科理論和實踐提供了支撐。技術為建立高校網絡信息檔案集成管理系統(tǒng)大數(shù)據(jù)平臺提供了可能。借鑒成熟的系統(tǒng)建設項目和標準,如OAIS 模型。它的互操作性適用獨立、合作、聯(lián)合型等多種類型數(shù)字檔案館信息集成。它完整的檔案信息保存功能模塊,包括接收具有特定格式,真實、完整的信息包;選擇恰當?shù)拇鎯γ襟w,判斷存儲級別、采取不同安保措施的歸檔存儲以及災難恢復。清晰的信息模型結構有利于數(shù)字信息的長久保存。目前OAIS 應用主要在圖書館界,我國一些檔案館已經建立基于OAIS的數(shù)字檔案館,但實踐中沒有采取聯(lián)合、協(xié)作、共享的策略和統(tǒng)一標準[9]。借鑒成熟研究理論和項目進行高校網絡信息檔案集成管理系統(tǒng)大數(shù)據(jù)系統(tǒng)平臺設計,對與本校有關的價值信息、網頁、電子郵件、媒體、論壇,數(shù)據(jù)庫、業(yè)務系統(tǒng)或其他數(shù)字技術所產生的原始信息進行采集存儲。內容包括文字、圖像、音頻、視頻等,并進行信息匯集、甄別、存儲、分層定位、智能檢索、分析管理,實現(xiàn)超大規(guī)模數(shù)據(jù)庫的信息集成,并且最大權限開放檔案。利用大數(shù)據(jù)進行統(tǒng)計分析研究,實現(xiàn)用戶個性需求。技術成熟后再進行高校間檔案系統(tǒng)群建設,有效整合共享各大學檔案資源。所以技術流程和元數(shù)據(jù)標準,業(yè)務流程管理規(guī)范,制定網絡信息收集歸檔保存原則,包括信息類型系統(tǒng)分類、安全存檔和使用、信息采集和使用的法律原則等都顯得非常重要。
機制創(chuàng)新。目前一些高校在檔案館、校史館、博物館進行檔案信息一體化建設方面已部分先行,如華南理工大學、北京交通大學、上海交通大學等,但并未與高校圖書館等部門進行合作共享。DT時代,在大數(shù)據(jù),大資源、大檔案理念下,高校應打破部門管理壁壘,首先考慮高校檔案館與圖書館,博物館三館合一,協(xié)作共建,優(yōu)勢互補,統(tǒng)籌管理,與其它社會機構合作,集中人才、技術、資金等力量建立數(shù)字資源整合的研究機構和團隊。采用統(tǒng)一著錄標準,建立跨部門、跨業(yè)務的共建互通共享的信息資源交換機制,更高層次是高校在“數(shù)字校園”基礎上建立全局性統(tǒng)一的信息資源和數(shù)據(jù)采集標準、交換共享互操作分析平臺。突出網絡信息資源采集歸檔集成管理系統(tǒng),把檔案館系統(tǒng)定位在外網信息采集歸檔和校內外網絡信息的智能選擇分類歸檔,資源的分析和利用研究上。這是DT時代現(xiàn)代大學網絡文化發(fā)展的趨勢。試點成功后,再進行高校間網絡信息資源系統(tǒng)群建設,節(jié)約研究和建設成本。
隊伍建設。高校網絡信息檔案建設是一項系統(tǒng)工程,檔案管理需要復合型人才:培養(yǎng)技術型系統(tǒng)建設維護和安全使用平臺的網絡信息人才,選擇采集價值網絡信息檔案人才,網絡信息檔案法律人才,網絡信息檔案鑒定人才,進行檔案數(shù)據(jù)挖掘、統(tǒng)計和分析人才,網絡信息檔案文化研究人才等隊伍建設。
[1]丁麗鴿.《國外網絡信息資源保存研究及其對我國的啟示》[J].《科技情報開發(fā)與經濟》.2007(25).
[2]肖希明,鄭燃.《國外圖書館、檔案館和博物館數(shù)字資源整合研究進展》[J].《中國圖書館學報》[J].2012(3).
[3]顏川梅.《淺談英國高校檔案信息資源的整合與共享》[J].《山西檔案》[J].2008(3).
[4]朱江.《研究型檔案館——美國密歇根大學本特利歷史圖書館考察記》[J]《檔案與建設》[J],2005(2).21.
[5]于麗娟.《國外數(shù)字檔案館建設概況》[J].《中國檔案》.2003(3).
[6]楊程.《網絡信息資源保存發(fā)展現(xiàn)狀及趨勢分析》[J].《信息與電腦(理論版)》.2012(08).
[7]葉超.《社會空間辯證法的由來》[J].《自然辯證法研究》[J].2012(2).
[8]黑川紀章著.(日)覃力等譯.《新共生思想》.中國建筑工業(yè)出版社[M].2012-08.
[9]王艷麗.《我國檔案界對OAIS 參考模型的研究和應用》[J].《檔案管理》.2009(4).