徐璐瑤 陳建
(山東大學(xué)歷史文化學(xué)院 濟(jì)南 250100)
在數(shù)字時(shí)代,“數(shù)字人文”是信息技術(shù)和人文學(xué)科之間的一個(gè)跨學(xué)科領(lǐng)域,作為一門新興學(xué)科,可以追溯到20世紀(jì)中期出現(xiàn)的人文學(xué)科計(jì)算[1]。而檔案眾包指的是教育或文化遺產(chǎn)機(jī)構(gòu)(主要是檔案機(jī)構(gòu))依托館藏豐富檔案資源,借助互聯(lián)網(wǎng)平臺(tái),將原本屬于自身開展的部分?jǐn)?shù)字檔案資源開發(fā)利用工作通過任務(wù)細(xì)分給大量非特定網(wǎng)絡(luò)大眾,依托公眾力量和智慧共同開展的行為。檔案眾包在數(shù)字人文研究中發(fā)揮著重要作用并具有特殊地位。從兩者的具體關(guān)系來看,首先,檔案眾包有助于建立豐富而優(yōu)質(zhì)的檔案資源,是數(shù)字人文項(xiàng)目知識(shí)挖掘、生產(chǎn)和傳播的基礎(chǔ)和依據(jù)。其次,檔案眾包項(xiàng)目中,用戶的作用是根據(jù)項(xiàng)目的需要提供和轉(zhuǎn)化資源,而數(shù)字人文的跨國性和包容性,在客觀上推動(dòng)了眾包活動(dòng)更開放的共享與合作。
目前我國學(xué)者對(duì)于數(shù)字人文與檔案眾包的研究關(guān)注較多,研究?jī)?nèi)容主要涵蓋了數(shù)字人文與檔案記憶功能[2],數(shù)字人文眾包任務(wù)的績(jī)效管理[3],用戶參與數(shù)字人文眾包的意愿和影響因素[4],眾包任務(wù)的發(fā)布與實(shí)施[5]等方面,研究不足在于對(duì)于數(shù)字人文與檔案眾包的融合研究不夠,對(duì)于檔案眾包項(xiàng)目中的數(shù)字人文特征闡述不足,對(duì)項(xiàng)目實(shí)際開展中的細(xì)節(jié)性問題的關(guān)注仍然有所欠缺。在檔案眾包實(shí)踐領(lǐng)域,我國目前已開展的檔案眾包(或有眾包色彩的)項(xiàng)目主要有上海圖書館:盛宣懷檔案抄錄項(xiàng)目[6]、中國人民大學(xué):“我的北京記憶”互動(dòng)網(wǎng)站項(xiàng)目[7]、沈陽市檔案局(館):家庭檔案網(wǎng)站項(xiàng)目[8]、遼寧省檔案館:社會(huì)檔案人欄目[9]等,國內(nèi)項(xiàng)目任務(wù)主要集中于檔案著錄、抄錄、征集等方面,但在檔案開放性、眾包管理機(jī)制、數(shù)字人文特征、數(shù)字技術(shù)參與、社會(huì)媒體激勵(lì)等方面存在不足,對(duì)于個(gè)人、社會(huì)、數(shù)字人文三者相互融合的體現(xiàn)有所欠缺,對(duì)于信息時(shí)代數(shù)據(jù)廣泛性和人文融合性的適應(yīng)程度還需進(jìn)一步加強(qiáng)。
調(diào)研發(fā)現(xiàn),目前在數(shù)字人文與檔案眾包進(jìn)行深度融合方面做的較為成功的案例是德國阿羅爾森檔案館(Arolsen Archives)(以下簡(jiǎn)稱阿羅爾森檔案館)的檔案眾包項(xiàng)目,它擁有高度開放和共享的檔案資源、便捷高效的智能與數(shù)字技術(shù)、周詳完備的數(shù)據(jù)安全與隱私規(guī)范、多維多元的眾包管理機(jī)制以及廣延外展的矩陣傳播模式,適應(yīng)了數(shù)字人文時(shí)代的信息管理需求。作為交叉學(xué)科的數(shù)字人文積極參與阿羅爾森檔案館的眾包實(shí)踐,為檔案眾包提供理論與技術(shù)支撐,二者相互促進(jìn),相互推動(dòng)。因此,本文以開展新興眾包項(xiàng)目的阿羅爾森檔案館作為案例對(duì)象,分析其如何與時(shí)俱進(jìn)地將檔案資源的歷史性與數(shù)字人文的先進(jìn)性巧妙融合,同時(shí)結(jié)合我國的眾包實(shí)踐現(xiàn)狀,探討該項(xiàng)目對(duì)于我國數(shù)字人文視閾下開展檔案眾包實(shí)踐的啟示。
阿羅爾森檔案館是納粹受迫害者檔案的國際保管中心和國際尋人服務(wù)組織(the International Tracing Service,以下簡(jiǎn)稱ITS),擁有世界上最全面的納粹受害者和幸存者檔案,已被聯(lián)合國教科文組織列入“世界記憶工程”名錄。它收藏了各種納粹政權(quán)受害者群體的文件,其中包含5000萬張索引卡,保管了約1750萬人的命運(yùn)信息。
1998年,工作人員開始將阿羅爾森的檔案數(shù)字化。在數(shù)字化過程中,需要細(xì)致掃描各種格式的問卷、索引卡和裝訂書籍。阿羅爾森檔案館為此設(shè)有專門的掃描站。在數(shù)字檔案館的建設(shè)中,阿羅爾森檔案館編制了適應(yīng)于瀏覽的電子指南。電子指南用五個(gè)關(guān)鍵問題描述了誰在何時(shí)、為什么以及如何使用檔案中的卡片和表格。指南中的交互式元素解釋了各部分的縮寫和符號(hào)。還提供了指向各種其他背景信息的鏈接,賦予其數(shù)字性特征。
該眾包項(xiàng)目的開展有其特定的原因。從阿羅爾森檔案館在追蹤和記錄方面進(jìn)行的工作來看,受害者姓名仍然是館藏的關(guān)鍵。每一份單獨(dú)的文件都經(jīng)過適當(dāng)?shù)脑u(píng)估,這種評(píng)估為研究人員的工作提供了重要的視角。但是,追溯記錄這些信息是一項(xiàng)耗時(shí)且艱巨的任務(wù)。為了支持和補(bǔ)充檔案管理人員在現(xiàn)場(chǎng)進(jìn)行的工作,阿羅爾森檔案館與Zooniverse眾包平臺(tái)和家譜門戶網(wǎng)站 Ancestry 等私營公司開展合作項(xiàng)目,有助于快速便捷地搜索盡可能多的文檔。在2020年,眾包項(xiàng)目計(jì)劃啟動(dòng),讓志愿者有機(jī)會(huì)幫助檔案館捕獲數(shù)據(jù),其中包括大量受害者名單以及迫害者的盟軍文件。這對(duì)阿羅爾森檔案館有重要意義,同時(shí)學(xué)校和其他機(jī)構(gòu)有機(jī)會(huì)參與,以一種對(duì)整個(gè)社會(huì)有意義的方式紀(jì)念納粹迫害受害者的命運(yùn),借此來了解那段沉痛的歷史。眾包計(jì)劃“everynamecounts”以其創(chuàng)新的技術(shù)方法獲得了“數(shù)字參與創(chuàng)新”提名下的智能英雄獎(jiǎng),得到了世界各地的肯定。
2020年,阿羅爾森檔案館在Zooniverse眾包平臺(tái)上發(fā)布了名為“everynamecounts”的檔案眾包項(xiàng)目,旨在創(chuàng)建包含名稱和所有者信息的數(shù)字記錄數(shù)據(jù)庫。
該項(xiàng)目的目標(biāo)是為受納粹迫害的人們建造一座數(shù)字紀(jì)念碑,使其后代能夠記住受害者的名字和身份,以此來幫助受害者澄清過去的命運(yùn),幫助受害者的子孫研究自己的家族史。眾包項(xiàng)目預(yù)計(jì)到2025年完成對(duì)所有數(shù)據(jù)的轉(zhuǎn)錄?!坝辛恕甧verynamecounts’,任何人都可以支持尊重、多樣性和民主”。到2022年,該項(xiàng)目的目標(biāo)有了新高度。下一階段,除了呼吁公眾直接參與并創(chuàng)建檔案數(shù)字記錄外,還呼吁人們采取鮮明的個(gè)人立場(chǎng),同時(shí)檔案信息可以進(jìn)一步用于記錄、研究或教育等社會(huì)目的。
該項(xiàng)目以個(gè)人記憶為主要研究視角,利用數(shù)字人文的方法,以個(gè)人記憶參與構(gòu)建社會(huì)整體的戰(zhàn)爭(zhēng)記憶史,以受害者姓名和具體信息反證其受迫害的史實(shí),以個(gè)人檔案重筑集體和社會(huì)檔案。該項(xiàng)目既是“眾包性”的,又是“個(gè)人性”的,是檔案記憶與人本情懷交織的產(chǎn)物,也是數(shù)字時(shí)代“人文性”的體現(xiàn)。項(xiàng)目致力于保存納粹受害者檔案并在全球范圍內(nèi)提供這些檔案,以期幫助因大屠殺和種族主義而失散的家庭團(tuán)聚。
“everynamecounts”項(xiàng)目的眾包倡議也提供了一種新的、直接的、動(dòng)態(tài)的聯(lián)系歷史的形式,提供了一個(gè)紀(jì)念納粹迫害受害者并捍衛(wèi)和平與團(tuán)結(jié)的機(jī)會(huì)。同時(shí),在該項(xiàng)目下,阿羅爾森檔案館的“東歐外展”部門將檔案管理方式及其服務(wù)進(jìn)行外延,帶到中歐和東歐國家,并與當(dāng)?shù)毓竞献鏖_發(fā)新的教育和信息服務(wù)。
(1)前期準(zhǔn)備階段——以眾包平臺(tái)為主導(dǎo)
在前期準(zhǔn)備階段,以眾包平臺(tái)為主導(dǎo)。作為第一步,Zooniverse提供獨(dú)特的眾包項(xiàng)目生成工具,項(xiàng)目開發(fā)人員可以使用區(qū)域標(biāo)記和繪圖工具等來免費(fèi)創(chuàng)建自己的Zooniverse項(xiàng)目。阿羅爾森檔案館與Zooniverse平臺(tái)合作,檔案館負(fù)責(zé)提供原始檔案,這些檔案將被掃描并以專題的形式上傳至Zooniverse,供志愿者查看和選擇。Zooniverse是一個(gè)世界各地的志愿者可以免費(fèi)注冊(cè)的平臺(tái)。志愿者們根據(jù)項(xiàng)目分配的任務(wù)執(zhí)行,他們提交的數(shù)據(jù)會(huì)被分類存儲(chǔ)在Zooniverse的安全在線數(shù)據(jù)庫中。審查員負(fù)責(zé)檢查任務(wù)完成的準(zhǔn)確性,平臺(tái)也允許用戶在線搜索資源。以平臺(tái)為主導(dǎo)的前期準(zhǔn)備階段,為后續(xù)的項(xiàng)目實(shí)施奠定了良好的物質(zhì)基礎(chǔ)和保障。
(2)項(xiàng)目運(yùn)行階段——以志愿者參與為主導(dǎo)
在項(xiàng)目運(yùn)行階段,以志愿者參與為主導(dǎo)。志愿者的招募和選擇是眾包成功的關(guān)鍵。志愿者主導(dǎo)進(jìn)行著文字和圖片數(shù)據(jù)的轉(zhuǎn)錄工作及部分分析工作,該項(xiàng)目為志愿者提供了各種有利于開展工作的工具,例如在錄入地理信息數(shù)據(jù)時(shí),志愿者可以使用維基數(shù)據(jù)Q-Item和GeoNames ID來輔助輸入正確位置的標(biāo)識(shí)符。在Zooniverse網(wǎng)站上,還設(shè)立了一個(gè)專門的志愿者社區(qū),社區(qū)由三部分組成:志愿者,志愿者論壇和采訪調(diào)研。同時(shí)給予志愿者自我研究的空間,如果志愿者了解最新的街道地址或GPS坐標(biāo),可以在“研究信息”中分享。在志愿者的幫助下,研究人員可以更快更準(zhǔn)確地分析既得信息,由此節(jié)省時(shí)間和資源,提高信息獲取和分析的效率。
(3)成果保留階段——以實(shí)體和數(shù)字檔案館為主導(dǎo)
在成果保留階段,以實(shí)體和數(shù)字檔案館為主導(dǎo)。截至目前,該項(xiàng)目已經(jīng)擁有22422名注冊(cè)志愿者,510萬份文件,同時(shí)在眾包平臺(tái)上處理了200153條信息數(shù)據(jù)。在Zooniverse平臺(tái)上,現(xiàn)有26556個(gè)志愿者參與,886701個(gè)分類,共365632個(gè)科目,已經(jīng)完成251956個(gè)科目。在眾包項(xiàng)目后期階段,實(shí)體和數(shù)字檔案館發(fā)揮作用,眾包的大量成果會(huì)以數(shù)據(jù)形式存入阿羅爾森的實(shí)體和數(shù)字檔案館,供公眾瀏覽和利用。實(shí)體和數(shù)字檔案館的建立為成果保留提供了重要基礎(chǔ)。
眾包的過程是將工作外包給互聯(lián)網(wǎng)上不確定的群體,參與者可以自主行動(dòng),然而眾包結(jié)果的質(zhì)量難以標(biāo)準(zhǔn)化[10]。對(duì)于眾包在數(shù)字人文領(lǐng)域的應(yīng)用,一個(gè)關(guān)鍵問題是如何有效地消除虛假和劣質(zhì)內(nèi)容,提高結(jié)果的整體質(zhì)量。阿羅爾森檔案館的眾包項(xiàng)目通過監(jiān)測(cè)和管理全過程,減輕識(shí)別偏差造成的質(zhì)量不均情況,來控制項(xiàng)目風(fēng)險(xiǎn),提高項(xiàng)目質(zhì)量。
監(jiān)測(cè)和管理過程主要由國際尋人服務(wù)國際委員會(huì)(ICITS)負(fù)責(zé),ICITS由來自11個(gè)成員國的政府代表組成,負(fù)責(zé)監(jiān)督阿羅爾森檔案館的全過程工作。自1955年《波恩條約》以來,國際委員會(huì)成員國每年輪流擔(dān)任主席——在2022-2023年度,由法國尼古拉斯·奇巴夫擔(dān)任主席。
風(fēng)險(xiǎn)在很多方面與收益相同。數(shù)以百萬計(jì)的納粹迫害受害者檔案是否應(yīng)該在互聯(lián)網(wǎng)上免費(fèi)提供,這是在線數(shù)據(jù)庫投入開發(fā)后阿羅爾森檔案館激烈討論的問題,問題主要集中在以在線方式發(fā)布文件是否會(huì)侵犯人格權(quán)和版權(quán)方面。阿羅爾森檔案館仔細(xì)考慮了這些問題:大多數(shù)專家和受害者的親屬都認(rèn)為在線檔案館提供的效益遠(yuǎn)大于其風(fēng)險(xiǎn)。
在質(zhì)量控制上,總體來看,對(duì)內(nèi)容質(zhì)量的審核方式分為人工審核與系統(tǒng)自動(dòng)審核兩類。“everynamecounts”項(xiàng)目設(shè)有檢查員檢查程序。檢查員通常在項(xiàng)目開始時(shí)設(shè)置,僅選用具有相關(guān)經(jīng)驗(yàn)的項(xiàng)目負(fù)責(zé)人或志愿者擔(dān)任。質(zhì)量控制的及時(shí)性和事后調(diào)節(jié)性并存,具體而言,每份文件至少轉(zhuǎn)錄三次,任何錯(cuò)誤都將在質(zhì)量控制階段得到糾正。如果三次輸入的結(jié)果不同,項(xiàng)目工作人員會(huì)檢查并進(jìn)行更正。如果遇到無法糾正的錯(cuò)誤,可以隨時(shí)使用“Doubts”標(biāo)簽在論壇中告訴項(xiàng)目負(fù)責(zé)人。另外檢查員在最終檢查時(shí)可通過“Report”標(biāo)簽向項(xiàng)目經(jīng)理反饋志愿者的錯(cuò)誤,以此規(guī)范志愿者的參與行為。
首先是公眾參與策略?!癳verynamecounts”項(xiàng)目最突出的公眾參與策略是利用社交媒體建立傳播矩陣進(jìn)行宣傳,分為幾個(gè)層級(jí),即從個(gè)人社交媒體平臺(tái)到公眾新聞媒體平臺(tái),從傳統(tǒng)紙質(zhì)媒體形式到新興數(shù)字媒體形式,從線上數(shù)字網(wǎng)站宣傳到線下實(shí)體海報(bào)宣傳,多維度多層面利用公眾與社交媒體參與激勵(lì),由此構(gòu)建公眾參與策略上的傳播矩陣。例如,利用Twitter和Facebook平臺(tái)發(fā)布個(gè)人參與感受,在公眾新聞媒體例如《紐約時(shí)報(bào)》上公開報(bào)道,上傳新興數(shù)字媒體如“Hadassa Magazine”網(wǎng)站,利用視頻社交平臺(tái)Youtube上傳項(xiàng)目視頻介紹,在法國駐柏林大使館外墻上顯示“everynamecounts”受害者名字的光投影等。媒體不再是單一的傳播渠道,而是一種“矩陣”形式。新舊媒體的融合使得覆蓋面更大,強(qiáng)調(diào)了通過矩陣傳播的優(yōu)越性。檔案信息根據(jù)不同信息傳播平臺(tái)的特點(diǎn)進(jìn)行編碼,從而提高媒體的影響力和知名度,并根據(jù)傳播矩陣的不同渠道改善媒體的聚合[11]?!癳verynamecounts”項(xiàng)目的公眾參與方式很好地利用了媒體傳播矩陣,使公眾參與覆蓋面更廣,傳播性更高,宣傳力更強(qiáng),適應(yīng)了數(shù)字人文時(shí)代的要求。
其次是制定有效的志愿者激勵(lì)策略,吸引和激勵(lì)大量的一次性志愿者,減少或避免志愿者流失,保持或增加志愿者的貢獻(xiàn)度和專業(yè)度,是眾包成功的關(guān)鍵措施[12]。參與項(xiàng)目的志愿者們?cè)陧?xiàng)目前期和后期都會(huì)收到一份調(diào)查問卷,來探討他們參與項(xiàng)目時(shí)遇到的問題和得到的感悟。志愿者們也可以在志愿者社區(qū)的“Talk”討論區(qū)進(jìn)行交流,收集和共享數(shù)據(jù),分享參與項(xiàng)目的心得體會(huì)。同時(shí)在“Bookshelf”討論區(qū)志愿者們可以自我發(fā)現(xiàn)、建議和鏈接,上傳自己在參與項(xiàng)目過程中聯(lián)想到的相關(guān)書籍和知識(shí),同時(shí)可以利用平臺(tái)內(nèi)的相關(guān)信息撰寫論文和出版物,達(dá)到雙向共贏,項(xiàng)目給予志愿者充分的自由度以激勵(lì)他們積極參與。
2011年的《柏林條約》為阿羅爾森檔案館的眾包項(xiàng)目提供了法律基礎(chǔ),它取代了1955年的《波恩條約》,規(guī)范了聯(lián)邦政府文化和媒體專員對(duì)阿羅爾森檔案館的管理。阿羅爾森檔案館不受國家數(shù)據(jù)保護(hù)指令的約束,但受特定國際規(guī)定的約束:國際尋人服務(wù)國際委員會(huì)(ICITS)負(fù)責(zé)監(jiān)督該機(jī)構(gòu)的工作,由ICITS所有成員國批準(zhǔn)的國際條約第11條規(guī)定,“ICITS應(yīng)獨(dú)立頒布從阿羅爾森檔案館館藏中公布個(gè)人數(shù)據(jù)的指令”。2017年,德國文化局決定在線出版期限為25年,這意味著檔案中的所有保管期限在25 年之內(nèi)的文檔都可以訪問和查詢。
與此同時(shí),在線存檔需要嚴(yán)格遵守法律要求和隱私政策。阿羅爾森檔案館遵守《歐盟通用數(shù)據(jù)保護(hù)條例》(GDPR)中有關(guān)數(shù)據(jù)保護(hù)的規(guī)定。條例規(guī)定保護(hù)個(gè)人數(shù)據(jù)的權(quán)利必須從其社會(huì)功能中進(jìn)行審查,并且必須根據(jù)相稱性原則與其他基本權(quán)利進(jìn)行權(quán)衡。在某些情況下,允許出于存檔和發(fā)布目的處理個(gè)人數(shù)據(jù)。阿羅爾森檔案館根據(jù)GDPR條例在Zooniverse上詳細(xì)列出了眾包項(xiàng)目的免責(zé)聲明、審核政策、版權(quán)及隱私政策、使用條款等法律規(guī)范。
多年來,由于法律的限制,特別是隱私法和版權(quán)法,檔案館中的材料無法訪問。但隨著信息時(shí)代到來,人們已經(jīng)認(rèn)識(shí)到,保護(hù)尊嚴(yán)的隱私法和保護(hù)財(cái)產(chǎn)的版權(quán)法不應(yīng)該阻礙重要?dú)v史檔案的公開。阿羅爾森檔案館通過公開歷史檔案,為人權(quán)事業(yè)和納粹受害者的利益服務(wù),通過眾包項(xiàng)目支持反戰(zhàn)爭(zhēng)和反侵略意識(shí)教育,由此促進(jìn)正義和真相。與大屠殺和種族滅絕有關(guān)的數(shù)據(jù)具有特殊的社會(huì)相關(guān)性,它們的公開有利于尋找真相和銘記受害者。根據(jù)以上法規(guī)和條例,阿羅爾森檔案館的眾包項(xiàng)目已經(jīng)獲得授權(quán),能夠在在線數(shù)據(jù)庫中提供包含個(gè)人數(shù)據(jù)的檔案。
阿羅爾森檔案館檔案眾包項(xiàng)目數(shù)字人文特征顯著。主要體現(xiàn)在眾包的數(shù)據(jù)類型與特征、數(shù)據(jù)眾包任務(wù)特征、數(shù)字技術(shù)特征三個(gè)方面。數(shù)字技術(shù)參與阿羅爾森檔案館的眾包項(xiàng)目,體現(xiàn)了數(shù)字人文時(shí)代對(duì)于檔案眾包的新要求,反映了一些適應(yīng)信息社會(huì)發(fā)展的新特征。
3.1.1 文字?jǐn)?shù)據(jù)的離散性
該眾包項(xiàng)目需要轉(zhuǎn)錄數(shù)以萬計(jì)的文字?jǐn)?shù)據(jù),文字?jǐn)?shù)據(jù)是各種數(shù)據(jù)類型中最主要也是最重要的部分。文字的離散性意味著從語流或文字中極易析出,即具有可分析性。此外,離散的特點(diǎn)意味著文本數(shù)據(jù)非常獨(dú)立,具有很高的自由度。文本數(shù)據(jù)作為意義單位被獨(dú)立編碼,但同時(shí)又總是可以作為結(jié)構(gòu)單位進(jìn)行重組。人們注意到文本數(shù)據(jù)的離散性,因?yàn)樗梢砸耘帕薪M合、替換、分割、插入及其組合的形式進(jìn)行重組。在阿羅爾森檔案眾包項(xiàng)目的大量文本數(shù)據(jù)中,文本的語義和連續(xù)完整性是不確定的,可重組的,同時(shí)通過文本識(shí)別和轉(zhuǎn)錄技術(shù),可以確定相關(guān)受害者文本信息的最佳組配。
3.1.2 圖像數(shù)據(jù)的歸一化
由于阿羅爾森檔案館眾包項(xiàng)目包含了大量真實(shí)的納粹受害者檔案文件,且這些文件都是由圖片的形式予以呈現(xiàn)的,因此需要對(duì)大量的圖像進(jìn)行歸一化,分類并建立起統(tǒng)一的標(biāo)準(zhǔn)形式,以便于識(shí)別和轉(zhuǎn)錄。圖像數(shù)據(jù)的歸一化是指通過一系列的變換將待處理的原始圖像轉(zhuǎn)化為單一的對(duì)應(yīng)標(biāo)準(zhǔn)格式,目標(biāo)是找到一組參數(shù),利用圖像的不變矩,消除平移、旋轉(zhuǎn)和縮放等微調(diào)變換對(duì)圖像的影響。在后續(xù)志愿者參與的轉(zhuǎn)錄環(huán)節(jié),也提供了對(duì)圖像的翻轉(zhuǎn)、縮放、染色等功能,依據(jù)不同信息將圖像數(shù)據(jù)進(jìn)行初步的模塊化區(qū)分,便于志愿者使用。
3.1.3 信息數(shù)據(jù)的個(gè)人性與公共性
阿羅爾森檔案館眾包項(xiàng)目擁有眾多有關(guān)于納粹受害者的個(gè)人信息和經(jīng)歷數(shù)據(jù)。這些數(shù)據(jù)天然具有私權(quán)屬性和排他性。而在數(shù)字人文視閾下,信息成為重要的公共資源。首先,個(gè)人信息具有識(shí)別他人的工具性,這種工具性決定了個(gè)人信息的社會(huì)性和公共性。其次,關(guān)于個(gè)人數(shù)據(jù)的信息不僅是私有財(cái)產(chǎn)。個(gè)人信息往往是由他人的服務(wù)和管理系統(tǒng)產(chǎn)生的,在產(chǎn)生時(shí)已經(jīng)處于與他人共享的狀態(tài)。最后,個(gè)人信息是數(shù)字人文時(shí)代社會(huì)發(fā)展的重要資源,觸及到廣泛的公共利益。大量關(guān)于受害者的信息數(shù)據(jù),既是受害者本人及其家族記憶的體現(xiàn),具有個(gè)人性,更是廣泛的社會(huì)記憶承載者,具有公共性,與公共利益密切相關(guān)。在這點(diǎn)上,要積極討論個(gè)人信息的保護(hù)與知識(shí)產(chǎn)權(quán)的合規(guī)性問題。
3.2.1 文本識(shí)別任務(wù)
對(duì)于內(nèi)容易于索引的中小型館藏,阿羅爾森檔案館通過“everynamecounts”眾包項(xiàng)目取得了良好的效果。通過在線平臺(tái),志愿者可以識(shí)別信息并將其傳輸?shù)皆诰€數(shù)據(jù)庫。在相關(guān)檔案的轉(zhuǎn)錄工作流程中,眾包平臺(tái)要求志愿者輸入囚犯及其親屬的個(gè)人數(shù)據(jù)。某些情況下,數(shù)據(jù)庫中已經(jīng)輸入了文檔中主要人物的姓名。但是親屬的姓名和地址并未登記過,輸入他們的名字很有必要,因?yàn)榍舴傅母改?、兄弟姐妹和配偶也?jīng)常受到迫害,有關(guān)他們?cè)庥龅男畔⒂袝r(shí)只能在這些個(gè)人檔案上找到。
3.2.2 數(shù)據(jù)轉(zhuǎn)錄任務(wù)
轉(zhuǎn)錄任務(wù)主要包括文檔所有者的序號(hào)、名字、年齡、出生日期、出生地、國籍、囚犯類別等內(nèi)容。在編制文字索引時(shí),對(duì)于數(shù)據(jù)轉(zhuǎn)錄的任務(wù)格式也有特定的要求。如果沒有關(guān)于特定條目的信息,需要輸入連字符。如果信息難以辨認(rèn),需要輸入“不清楚”。如果信息已被劃掉,需要輸入原始和更正版本,并用分號(hào)分隔。
受害者清單中記錄了受害者進(jìn)入集中營前后的“變化”,包括進(jìn)入營地、轉(zhuǎn)移、“釋放”和死亡。囚犯在集中營中被分配到的拘留地和囚犯類別反映了不同的納粹意識(shí)形態(tài),因此需要志愿者在檔案中找到所有帶有“變化”性質(zhì)的信息并進(jìn)行數(shù)據(jù)轉(zhuǎn)錄。
在對(duì)轉(zhuǎn)錄文本的理解上,也有一定的任務(wù)要求。名單上的類別反映了特定的納粹意識(shí)形態(tài),志愿者不應(yīng)只從字面上理解。例如,術(shù)語“ASO”代表“Asozial”(反社會(huì)),用于描述各種不同類型的人,包括失業(yè)或無家可歸的個(gè)人、福利領(lǐng)取者、辛提人和羅姆人。如果根據(jù)納粹種族主義和反猶太主義意識(shí)形態(tài),囚犯則被視為猶太人,在轉(zhuǎn)錄任務(wù)過程中,諸如上述的情況也被要求加以注意。
3.2.3 標(biāo)引分類任務(wù)
該眾包項(xiàng)目要求志愿者對(duì)檔案信息進(jìn)行分類和標(biāo)記,在基本信息欄中給每個(gè)檔案標(biāo)引上元數(shù)據(jù)和文件編號(hào)。標(biāo)引任務(wù)要求志愿者使用描述數(shù)字信息資源屬性的元數(shù)據(jù),添加標(biāo)簽和評(píng)論來評(píng)估和跟蹤資源,并支持高效的數(shù)據(jù)檢索。大多數(shù)標(biāo)引任務(wù)不需要志愿者具備廣泛的知識(shí),標(biāo)引分類也不需要花費(fèi)很多時(shí)間。
3.3.1 數(shù)據(jù)采集技術(shù)
因?yàn)槲谋镜淖R(shí)別和轉(zhuǎn)錄主要依靠圖片識(shí)別,所以在數(shù)據(jù)采集上,眾包項(xiàng)目提供了一些利于采集的方法。可以放大或反轉(zhuǎn)圖像,提高圖像的對(duì)比度和像素,利用縮放和反轉(zhuǎn)顏色工具可以加強(qiáng)數(shù)據(jù)收集與閱讀的便利性(見圖1)。如果遇到無法閱讀的文檔,可以利用刷新鍵來獲取新的頁面和文檔并進(jìn)行數(shù)據(jù)采集。
圖1:反轉(zhuǎn)圖片顏色[13]
3.3.2 數(shù)據(jù)識(shí)別技術(shù)
(1)OCR識(shí)別技術(shù)
阿羅爾森檔案館的眾包項(xiàng)目十分龐大,因此用于文本識(shí)別和分類的技術(shù)非常重要。OCR(光學(xué)字符識(shí)別)是成功文本識(shí)別的關(guān)鍵之一。從狹義上講,OCR可以識(shí)別字符,但極易出錯(cuò)。從廣義上講,OCR是將圖形信息轉(zhuǎn)換為文本信息(即元數(shù)據(jù))。但OCR只是工作流程的一個(gè)方面,阿羅爾森檔案館眾包項(xiàng)目中的大多數(shù)檔案都非常多樣化,OCR只能在標(biāo)準(zhǔn)化程度很高的文檔上產(chǎn)生良好效果。
(2)文檔聚類技術(shù)
阿羅爾森檔案館對(duì)于需要進(jìn)行識(shí)別的文檔集合使用OCR的“特殊類型”。從根本上說,成功識(shí)別文本需要材料分析、方法的選擇和定義、表單識(shí)別(聚類或分類)、圖像準(zhǔn)備、光學(xué)字符識(shí)別、數(shù)據(jù)檢查傳輸?shù)榷喾N不同方法的組合。光學(xué)字符識(shí)別只是整個(gè)過程中的一部分。
阿羅爾森檔案館眾包項(xiàng)目收集的一個(gè)特殊方面是利用文檔聚類技術(shù)將不同類型文件的統(tǒng)一歸檔。聚類技術(shù)是將不同類型的表單分類為組,過濾掉特定的文檔類型,包括了與囚犯有關(guān)的各種類型的索引卡、問卷和表格。檔案工作人員使用純文本識(shí)別來確定如何讀取材料,以確保在OCR期間正確識(shí)別信息元素。文檔聚類是布局和表單類型的一種OCR(見圖2)。
圖2:OCR識(shí)別與文檔聚類[14]
對(duì)于大約50%的館藏,OCR和聚類都發(fā)揮了作用。眾包項(xiàng)目已經(jīng)使用OCR 處理和數(shù)字化了約50萬份文檔,并且已經(jīng)對(duì)超過800萬份文檔進(jìn)行了聚類。
3.3.3 數(shù)據(jù)分析技術(shù)
在轉(zhuǎn)錄時(shí),對(duì)于不同信息,“everynamecounts”項(xiàng)目采用不同的數(shù)據(jù)分析策略供志愿者使用。
在日期方面,如果文檔包含多個(gè)或已更正的數(shù)據(jù),需要志愿者分析并假定正確的日期同時(shí)在字段中進(jìn)行更正。在出生地的轉(zhuǎn)錄上的要求有所不同,志愿者需要在字段中輸入與文檔中與檔案完全相同的地址,且不能進(jìn)行任何更正。對(duì)于不同信息的真實(shí)性要求采取不同的數(shù)據(jù)分析策略,能保證轉(zhuǎn)錄分析任務(wù)的原始真實(shí)性。
當(dāng)遇到需要進(jìn)行討論或者輸入錯(cuò)誤的情況時(shí)。項(xiàng)目也提供了相應(yīng)的數(shù)據(jù)分析技術(shù)。每張登記卡的數(shù)據(jù)可以輸入三次。如果三次輸入的結(jié)果不同,項(xiàng)目工作人員會(huì)檢查輸入并進(jìn)行更正。輸入完成后,志愿者可以使用線上“Talk”功能向阿羅爾森檔案館發(fā)送特定文檔的信息或問題。志愿者還可以使用討論板留下對(duì)項(xiàng)目的評(píng)論和想法,與其他志愿者進(jìn)行討論。
3.3.4 數(shù)據(jù)呈現(xiàn)技術(shù)
在數(shù)據(jù)呈現(xiàn)技術(shù)上,該眾包項(xiàng)目將每份檔案進(jìn)行模塊化區(qū)分,不同信息在圖片上用不同區(qū)域進(jìn)行標(biāo)注,列出該份文檔的名稱、規(guī)格與檔號(hào)進(jìn)行存檔。同時(shí)附有每份文檔的詳細(xì)介紹,利于志愿者進(jìn)行轉(zhuǎn)錄(見圖3)。
圖3:數(shù)據(jù)模塊化轉(zhuǎn)錄[15]
每份檔案都提供數(shù)據(jù)庫條目,有其特定的編號(hào)ID以供查詢,在數(shù)據(jù)庫中編號(hào)分配采用單次分配制,具有唯一性和專指性。利用字段呈現(xiàn)文檔的元數(shù)據(jù),包括收藏者的名稱和文檔 ID。
在對(duì)納粹受害者的信息轉(zhuǎn)錄中,文件的每一頁都包含有關(guān)30-40名迫害者的信息。為了便于志愿者工作,項(xiàng)目進(jìn)行前端控制,將每個(gè)頁面分為幾個(gè)部分。每個(gè)志愿者僅轉(zhuǎn)錄文檔中未被藍(lán)色和灰色陰影覆蓋的名稱。同時(shí)陰影區(qū)域中的名稱可見,以便志愿者可以看到所有相關(guān)信息,每個(gè)志愿者被分配到頁面的不同部分,這樣就不會(huì)丟失任何名稱或信息。
我國數(shù)字人文參與檔案眾包實(shí)踐還處于初步發(fā)展階段?,F(xiàn)存的上海圖書館盛宣懷檔案抄錄項(xiàng)目和中國人民大學(xué):“我的北京記憶”互動(dòng)網(wǎng)站項(xiàng)目等檔案眾包項(xiàng)目在“選題與內(nèi)容、平臺(tái)與設(shè)計(jì)、管理與合作、法規(guī)和技術(shù)方面”存在一定特色和創(chuàng)新性[16]。但在諸如眾包平臺(tái)選擇、項(xiàng)目管理系統(tǒng)建設(shè)、媒體宣傳激勵(lì)策略、數(shù)據(jù)開放共享程度、監(jiān)督機(jī)制建立等方面還存在亟待解決的問題。特別是在數(shù)字人文時(shí)代,信息數(shù)據(jù)的廣泛共享性對(duì)于檔案眾包項(xiàng)目提出了更高層次的要求,如何適應(yīng)信息社會(huì)的要求,將歷史檔案資源、眾包項(xiàng)目平臺(tái)以及電子信息技術(shù)有機(jī)結(jié)合起來,從阿羅爾森檔案館的檔案眾包實(shí)踐中我們能得到一些啟示。
在數(shù)據(jù)庫建設(shè)上,通過與Yad Vashem世界大屠殺紀(jì)念館合作,阿羅爾森檔案館建立了開放型在線數(shù)據(jù)庫,并將“everynamecounts”的數(shù)據(jù)信息錄入其中,世界各地的任何訪問者都可以通過在線數(shù)據(jù)庫研究相關(guān)檔案,借此了解受迫害者的苦難經(jīng)歷。開放型數(shù)據(jù)庫提高了數(shù)據(jù)的可訪問性,同時(shí)提高了信息文件的透明度。對(duì)比來看,我國上圖盛檔抄錄項(xiàng)目平臺(tái)僅開放全部盛檔的0.3%,檔案開放程度嚴(yán)重不足,信息文件不易于訪問和利用,眾包項(xiàng)目的效率因此得不到很好提高。效仿阿羅爾森檔案館的眾包項(xiàng)目,我國的檔案眾包實(shí)踐也應(yīng)積極促進(jìn)館際互聯(lián),在項(xiàng)目前期建立開放型數(shù)據(jù)庫,項(xiàng)目中期充分利用數(shù)據(jù)庫處理信息數(shù)據(jù),項(xiàng)目后期也要利用數(shù)據(jù)庫保留眾包成果。數(shù)字人文參與檔案眾包,開放型數(shù)據(jù)庫的建設(shè)是基礎(chǔ)和保障。
在眾包平臺(tái)選擇上,阿羅爾森檔案館選擇“Zooniverse”第三方眾包平臺(tái)發(fā)布任務(wù)和收集數(shù)據(jù),沒有選擇利用自建平臺(tái),這是因?yàn)槿蝿?wù)中需要處理的檔案數(shù)據(jù)類別豐富、數(shù)據(jù)間相似性高。利用數(shù)字人文科學(xué)數(shù)據(jù)的眾包平臺(tái)可以分為三大類[17]:一是自建平臺(tái),二是非營利平臺(tái),三是商業(yè)性平臺(tái)。就我國目前的檔案眾包實(shí)踐而言,應(yīng)該根據(jù)所要處理的檔案數(shù)據(jù)類型合理選擇眾包平臺(tái),當(dāng)眾包項(xiàng)目對(duì)數(shù)據(jù)的專業(yè)性和完整性有特殊要求時(shí),可以開發(fā)自建平臺(tái),借此保證數(shù)據(jù)的完整性和安全性;而在大多數(shù)情況下,數(shù)據(jù)要求不那么嚴(yán)格或者眾包數(shù)據(jù)量很大,就可以選擇第三方數(shù)據(jù)眾包平臺(tái)開展合作,合理分配資源來開展項(xiàng)目。
我國現(xiàn)存的檔案眾包項(xiàng)目較少,沒有建立完善智慧的檔案眾包管理機(jī)制,更多地是依托助捐平臺(tái)或高校開展,存在管理不完善、技術(shù)不健全、任務(wù)層次性不明顯和與公眾聯(lián)系不緊密等問題。阿羅爾森檔案館的眾包項(xiàng)目依托平臺(tái)建立了一個(gè)智慧的檔案眾包管理機(jī)制,這得益于檔案機(jī)構(gòu)、在線平臺(tái)和公眾用戶三個(gè)關(guān)鍵因素的共同參與。
同時(shí),檔案眾包項(xiàng)目的實(shí)施是一個(gè)完整的過程,從檔案館作為發(fā)起者開始到平臺(tái)項(xiàng)目運(yùn)行再到最終檔案項(xiàng)目的驗(yàn)收。在未來我國的檔案眾包實(shí)踐中,可以借鑒阿羅爾森檔案館眾包項(xiàng)目,確保發(fā)包方在全過程進(jìn)行有效管理,其中的關(guān)鍵是建立一個(gè)智慧管理機(jī)制,完善項(xiàng)目運(yùn)行、質(zhì)量控制、公眾激勵(lì)、風(fēng)險(xiǎn)排查等管理機(jī)制。全過程的智慧化控制,既能監(jiān)控眾包項(xiàng)目的實(shí)施進(jìn)度,也能及時(shí)保留眾包成果,將成果以數(shù)字化形式保留下來。
阿羅爾森檔案館的眾包項(xiàng)目利用社交媒體建立傳播矩陣,對(duì)我國檔案眾包項(xiàng)目的宣傳也有著借鑒意義。
新的媒體時(shí)代,新的信息革命,給檔案工作者的思維、業(yè)務(wù)和管理方式以及檔案信息的傳輸方式帶來了新的變化。社交媒體不僅可以為檔案部門提供數(shù)量龐大、年齡結(jié)構(gòu)合理、平臺(tái)使用率高的潛在用戶資源,還能夠憑借其自身的交互性、分享性、參與性實(shí)現(xiàn)檔案知識(shí)的快速廣泛傳遞,又能讓公眾在獲取檔案知識(shí)的同時(shí)參與檔案管理。數(shù)字人文視閾下,我國的眾包項(xiàng)目宣傳應(yīng)該變革傳播觀念,打破片面的思維壁壘,要將受眾置于傳播的主要地位。利用去中心化的傳播格局,使廣大公眾既成為信息接受者同時(shí)也成為信息傳播者,適應(yīng)受眾群體的個(gè)體化、特色化、差異化、分眾化發(fā)展。
阿羅爾森檔案館的工作人員說:“這不是工作,而是使命。我們的工作與人類歷史上最黑暗的時(shí)刻之一有關(guān)?!边@是一種強(qiáng)大的社會(huì)激勵(lì)與公眾呼吁——即利用身份認(rèn)同與民族意識(shí)參與檔案眾包活動(dòng)。
我國的眾多歷史檔案資源,有些是個(gè)人家族史,有些是歷史變遷記錄,但歸結(jié)起來,都是中華民族的集體記憶,其受眾面是廣大人民。與此同時(shí),眾包項(xiàng)目也充分強(qiáng)調(diào)“個(gè)人性”與“公眾性結(jié)合”,它首先是一項(xiàng)基于個(gè)人參與的公眾合作活動(dòng),因此有必要將個(gè)人的身份認(rèn)同、公眾的民族意識(shí)與與眾包項(xiàng)目有機(jī)結(jié)合起來,煥發(fā)公眾內(nèi)心的共鳴,利用認(rèn)同來喚起公眾參與的積極性,因?yàn)檫@不僅是個(gè)人的參與行為,更是發(fā)揮個(gè)人力量創(chuàng)建民族記憶的過程,這是廣大參與者最基本的共性因素。
同時(shí),數(shù)字人文眾包項(xiàng)目也需要靈活地在不同階段提供不同的激勵(lì)措施。例如初期問卷調(diào)查,中期的自由討論與后期的研究出版,這些措施能夠幫助參與者更好地認(rèn)識(shí)到任務(wù)的效益性和目的性,并激勵(lì)更多的用戶參與到數(shù)據(jù)眾包項(xiàng)目中。
在項(xiàng)目設(shè)計(jì)方面,也需要提高項(xiàng)目的參與趣味性,加強(qiáng)數(shù)據(jù)可用性和易用性,由此增強(qiáng)公眾參與意識(shí)。
檔案作為承載記憶的載體,可以見證個(gè)人的生平經(jīng)歷和家族的興衰存亡,也能反映國家的發(fā)展史和民族的抗?fàn)幨贰T谛畔r(shí)代,數(shù)字人文為檔案學(xué)研究提供了新視角和新方法。在數(shù)字人文視閾下,阿羅爾森檔案館的檔案眾包實(shí)踐發(fā)展成熟,同時(shí)我國的眾包實(shí)踐還有著很大的發(fā)展空間,我國應(yīng)該積極與眾包平臺(tái)合作,構(gòu)建智慧眾包管理機(jī)制,同時(shí)利用媒體矩陣進(jìn)行宣傳,加強(qiáng)身份認(rèn)同和民族意識(shí),呼喚更廣泛的公眾參與,以數(shù)字人文參與檔案眾包,以檔案眾包適應(yīng)數(shù)字人文,為現(xiàn)階段和未來的檔案眾包提供新的發(fā)展路徑。