張倩
(南京藝術(shù)學(xué)院綜合檔案室 南京 210013)
科學(xué)管理〈〈〈KEXUEGUANLI
高校人物專題檔案大數(shù)據(jù)源的潛在價(jià)值與挖掘利用
張倩
(南京藝術(shù)學(xué)院綜合檔案室 南京 210013)
本文通過分析高校人物專題檔案大數(shù)據(jù)的來源構(gòu)成,深入考察了高校人物專題檔案大數(shù)據(jù)處理的難點(diǎn),揭示了高校人物專題檔案大數(shù)據(jù)追蹤的線索依據(jù)與處理內(nèi)容,提出了便于高校人物專題檔案大數(shù)據(jù)開發(fā)利用的處理流程,并對高校人物專題檔案大數(shù)據(jù)智能集成模塊的技術(shù)創(chuàng)新進(jìn)行了初步探究。
人物專題檔案 大數(shù)據(jù)源 潛在價(jià)值 挖掘利用
高校既是教學(xué)與科研的服務(wù)中心,更是人類知識和科學(xué)創(chuàng)新的主要陣地。通過在檔案大數(shù)據(jù)智能處理平臺上創(chuàng)建高校人物專題檔案數(shù)據(jù)庫模塊,并將其作為高校檔案大數(shù)據(jù)智能檢索與挖掘利用的實(shí)用技術(shù),不僅有利于發(fā)掘高校人文精神和歷史內(nèi)涵的珍貴價(jià)值,而且有利于為造福社會發(fā)揮重要的作用。筆者在考察中發(fā)現(xiàn),承載著高校杰出人物輝煌業(yè)績的人物專題檔案,在被真實(shí)地挖掘并再現(xiàn)出其中精華的同時(shí),對與人物處于同一抽象層次的其他對象,如機(jī)構(gòu)、事件、地點(diǎn)等附載在檔案上的諸多史實(shí)信息,以及如何形成這一檔案的純技術(shù)層面的許多認(rèn)知,都具有非常豐富珍貴的挖掘價(jià)值。
如果只有大數(shù)據(jù)技術(shù),沒有數(shù)據(jù)源,即使是“巧婦”也“難為無米之炊”[1]18。通過考察可以發(fā)現(xiàn),高校人物專題檔案可被采集利用的數(shù)據(jù)來源非常多,如Internet上專業(yè)的檢索網(wǎng)站,專業(yè)機(jī)構(gòu)建立的網(wǎng)頁,甚至一些個人主頁上的人物檔案信息等,都是高校檔案管理機(jī)構(gòu)捕獲人物專題檔案信息資源的重要渠道。與這些數(shù)據(jù)源相比,高校館藏主數(shù)據(jù)源具有格式規(guī)范、質(zhì)量較高等特點(diǎn),是人物專題檔案大數(shù)據(jù)追蹤研究的理想數(shù)據(jù)源。此外,隨著新型數(shù)據(jù)源(RFID、互聯(lián)網(wǎng)和社交媒體等)的不斷加入,高校館藏檔案數(shù)據(jù)量將會持續(xù)快速增加[2]5。
據(jù)調(diào)研資料分析顯示,目前,高校構(gòu)建人物專題檔案大數(shù)據(jù)庫可供采集的主數(shù)據(jù)源主要有四類。一是每年接收進(jìn)館(室)的學(xué)籍檔案,這些檔案里面包含了全校各個學(xué)歷層次的應(yīng)屆畢業(yè)生在校期間的個人信息記錄,是富含學(xué)生這一群體信息最多的數(shù)據(jù)來源。二是每年接收進(jìn)館(室)的學(xué)生工作方面的檔案,這些檔案里面包含了學(xué)生的獎懲信息等,是大學(xué)生在校期間參加各類重要活動的真實(shí)記錄。三是人事檔案,這些檔案里面包含了全校教職工的個人信息,是豐富而翔實(shí)的教職工個人信息記錄。四是科研檔案,這些檔案里面包含了師生參與科研活動過程中產(chǎn)生的各類學(xué)術(shù)方面的信息記錄,對探究高校人物科研情況,具有舉足輕重的憑證作用。
通過調(diào)研分析發(fā)現(xiàn),高校人物專題檔案大數(shù)據(jù)處理的難點(diǎn),主要體現(xiàn)在兩個方面。
一是高校館藏中的人物專題檔案格式多種多樣,數(shù)據(jù)的結(jié)構(gòu)也可能不斷發(fā)生變化,人物信息往往隱含在復(fù)雜的數(shù)據(jù)之中,特別是隨著人物專題檔案數(shù)據(jù)體量的迅速擴(kuò)張,從中提取的信息比例會逐漸縮減。為什么會出現(xiàn)數(shù)據(jù)增加卻不能提升信息收益的現(xiàn)象?通過深入分析發(fā)現(xiàn),其原因在于:“冗余數(shù)據(jù)”越來越多[3]23。如何對異構(gòu)多變的人物檔案信息進(jìn)行數(shù)據(jù)清洗(Data Cleansing),把雜亂、充滿噪聲的“臟的”數(shù)據(jù)(Dirty Data)去除掉,并轉(zhuǎn)變?yōu)檫m合人物追蹤研究的規(guī)范化的數(shù)據(jù)格式,這是目前高校人物專題檔案大數(shù)據(jù)庫建設(shè)需要解決的一個難點(diǎn)[4]70。
二是在高校館藏檔案數(shù)據(jù)的文本空間,人物作為處于抽象層次的實(shí)體,比文字對象高一個層次,且其與文字對象所描述的具體名稱并不形成一一對應(yīng)的關(guān)系,可能存在著大量的同名同姓卻并非同一人物的現(xiàn)象,即使是同一個人物,也會出現(xiàn)不同的稱謂,這是導(dǎo)致檢索高校人物專題檔案信息易出現(xiàn)歧義的一個難點(diǎn)[5]227。
此外,筆者發(fā)現(xiàn)上述歧義問題可大致分為兩類:一類是不同人物和其他非人物實(shí)體可能具有相同的名字;另一類是同一個人物可能具有不同的稱謂。歧義問題的客觀存在,可能造成高校人物專題檔案檢索的結(jié)果難以精準(zhǔn)。對此,我們雖然可在人名后添加一些特定的屬性,并通過組合查詢等檢索表達(dá)式來細(xì)化檢索結(jié)果,但這種做法違背了建立高校人物專題檔案大數(shù)據(jù)搜索引擎所追求的簡單快捷原則,且用戶通常不是精通檢索技巧的專家,他們甚至不會愿意或者不擅長提交額外的查詢詞。
大數(shù)據(jù)技術(shù)的基本原理告訴我們,在檔案大數(shù)據(jù)文本空間內(nèi),對人物專題檔案信息數(shù)據(jù)源的跟蹤研究,應(yīng)該按照相關(guān)的線索依據(jù)來進(jìn)行,而“人物的橫向追蹤”和“人物的縱向追蹤”是最重要的線索依據(jù)。
所謂“人物的橫向追蹤”,是指從空間維度研究人與人或者人與社會的聯(lián)系。所謂“人物的縱向追蹤”,是指從時(shí)間維度研究人物的知名度變化、人物的職位變化、人物的生活狀態(tài)變化等。簡言之,人物追蹤就是要通過運(yùn)用大數(shù)據(jù)分析技術(shù),將各種檔案中縱橫交錯出現(xiàn)的人物信息枝節(jié)片段有效地連接組合起來,并使分析結(jié)果盡可能接近人物信息的全貌,進(jìn)而客觀地反映該研究人物的人生歷程。
此外,在高校檔案大數(shù)據(jù)文本處理過程中,人物追蹤在處理內(nèi)容上可分為兩個方面:一是制作人物的生平履歷表。這是指從館藏檔案中依靠大數(shù)據(jù)技術(shù)自動提取出所需制作人物的關(guān)聯(lián)屬性,并將分散的各種屬性信息進(jìn)行有效組合,形成較為完整的履歷。二是對與人物相關(guān)的事件進(jìn)行組織。主要指將該人物參與的相關(guān)事件的信息內(nèi)容按照內(nèi)在發(fā)展邏輯順序有效地組織起來,并形成清晰的邏輯結(jié)構(gòu)以供開發(fā)利用。
值得注意的是:在整理人物事件信息內(nèi)容的基礎(chǔ)上,還應(yīng)注意整理其他關(guān)聯(lián)信息與其進(jìn)行深度匹配,如構(gòu)建人物的社會關(guān)系網(wǎng)絡(luò)、識別人物處所、人物態(tài)度立場的變化,等等。
高校人物專題檔案大數(shù)據(jù)處理流程,主要有下列關(guān)鍵性程序。
1.對人物追蹤進(jìn)行大數(shù)據(jù)預(yù)處理。這一階段,需要識別出若干人物相關(guān)的零散信息,并形成人物基本模型的片段,同時(shí)應(yīng)對這些片段性的信息進(jìn)行同一性判別,即把描述不同人物的模型片段區(qū)分開。值得指出的是:在人名周邊的文本語句中,與該人物經(jīng)常共現(xiàn)的其他人名,即該人物的交往人群也應(yīng)是一個重要的區(qū)分特征。簡言之,預(yù)處理階段,是指為人物模型的計(jì)算做好準(zhǔn)備,但還沒有形成完整的人物模型。
2.運(yùn)用數(shù)據(jù)融合技術(shù)建立完整的人物模型。人物專題檔案數(shù)據(jù)在預(yù)處理階段形成的模型片段信息是分散的、孤立的,不能代表人物全貌,更無法凸顯出人物的抽象實(shí)體,這就需要把代表不同人物的模型片段區(qū)分開,并對同一人物的模型片段信息進(jìn)行有機(jī)整合,以期呈現(xiàn)較為完整的人物信息。值得指出的是:為取得完整的人物模型信息,不僅需要參照多個異構(gòu)來源的大數(shù)據(jù)信息,而且需要把多個人物模型片段的信息有機(jī)融合在一起,最終才能形成基本完整的人物信息。
3.研發(fā)人物專題檔案大數(shù)據(jù)處理的相關(guān)應(yīng)用技術(shù)。在進(jìn)行高校人物專題檔案大數(shù)據(jù)處理的過程中,實(shí)施追蹤研究需要依靠專業(yè)技術(shù)手段的支撐,因此,我們不僅要科學(xué)選擇供應(yīng)商提供的專業(yè)數(shù)據(jù)搜索引擎,而且要高度重視研發(fā)相關(guān)的應(yīng)用技術(shù)與之匹配,如提供對特定人物的跟蹤、流行人物的發(fā)現(xiàn)等各種應(yīng)用技術(shù),以期達(dá)到方便用戶直接檢索利用的目的。
可以預(yù)見,在未來的高校館藏照片檔案中,數(shù)字照片將日益增多,且人物圖像檔案將占很大的比重。因此,如何改變傳統(tǒng)照片檔案管理模式,特別是怎樣有效降低其所需的人力、物力成本,這是高校檔案管理機(jī)構(gòu)提升信息化水平的迫切需要。
通過考察發(fā)現(xiàn),“人臉識別”技術(shù)可為高校檔案管理機(jī)構(gòu)提供有效的解決方案。應(yīng)用這項(xiàng)技術(shù),不僅可在人物照片檔案大數(shù)據(jù)管理中達(dá)到較好的可視化效果,而且能讓用戶一眼判斷出核心問題和注意事項(xiàng)[6]103。
所謂“人臉識別”技術(shù),是指基于“人臉檢測”計(jì)算機(jī)識別算法的一項(xiàng)數(shù)字化技術(shù)。其主要功能:可用以準(zhǔn)確獲取人的臉部形狀和位置信息,甚至可以精確識別人臉細(xì)節(jié)的微妙支撐特征。引入這一技術(shù),將為高校人物專題檔案大數(shù)據(jù)智能集成模塊的技術(shù)優(yōu)化,發(fā)揮非常重要的支撐作用。
目前,可用于人物照片檔案海量館藏非結(jié)構(gòu)化數(shù)據(jù)的智能管理工具頗多,高校檔案管理機(jī)構(gòu)應(yīng)當(dāng)根據(jù)各自需要和成本投入能力進(jìn)行遴選。筆者推介:借助Google的免費(fèi)圖片管理工具——Picasa,可快速檢索到所需的人物照片。Picasa具有“人臉識別”功能,不僅可對人物照片進(jìn)行研判,還能將所有包含人臉的圖片自動歸集并統(tǒng)一命名。應(yīng)用這一技術(shù)的最大好處是:既能讓用戶隨時(shí)利用其搜索欄,快速查找出所需的人物照片,又能將新入庫的人物照片檔案數(shù)據(jù)也遵循既定規(guī)則,自動歸類到相應(yīng)位置。
應(yīng)用Picasa的技術(shù)優(yōu)化方法:一是要建立軟件自動搜索照片的“人物照片檔案數(shù)據(jù)庫”,并對所有包含人臉的照片檔案數(shù)據(jù)進(jìn)行自動分類。需要指出的是,在此過程中,為了能夠方便用戶進(jìn)行辨認(rèn),對每一張被檢索出來的照片都需用“大頭貼”的形式進(jìn)行顯示(相同的人物圖像檔案數(shù)據(jù)能被自動集成)。二是要建立人物標(biāo)簽加工平臺,讓暫未標(biāo)識姓名的照片人像自動存入“未命名人物”文件夾,并對其分別添加名字標(biāo)記。建立人物標(biāo)簽后,日常查找只需將待檢索的人名輸入到檢索框中,片刻(當(dāng)輸入一個字后,準(zhǔn)備輸入第二個字時(shí),軟件已能顯示檢索到的人物圖片)Picasa即可自動展示出所有包含該人物的照片。需要指出的是,Picasa也會出現(xiàn)誤判,因此,對檢索結(jié)果需設(shè)置可便于手工識別的功能,以便用戶進(jìn)行修正。如:通過點(diǎn)擊照片上的“X”標(biāo)記,可將識別錯誤的照片刪除。三是要讓Picasa不斷增強(qiáng)學(xué)習(xí)技能。隨著確認(rèn)人物照片數(shù)據(jù)量的日益增多,Picasa的識別能力也將日益加強(qiáng)。因此,高校檔案管理機(jī)構(gòu)要高度關(guān)注“人臉識別”技術(shù)的更新?lián)Q代,積極引入成熟的智能工具與服務(wù)模式,不斷完善“混搭型”的處理機(jī)制,不斷創(chuàng)新“一站式”服務(wù)的個性化功能,著力增強(qiáng)高校人物專題檔案大數(shù)據(jù)智能集成模塊的專業(yè)能力,以期提升檔案信息資源與用戶需求的精準(zhǔn)對接水平。
[1]張禮立.大數(shù)據(jù)時(shí)代的云計(jì)算敏捷紅利[M].北京:清華大學(xué)出版社,2013.
[2]鮑亮,李倩.實(shí)戰(zhàn)大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2014.
[3]郎為民.漫話大數(shù)據(jù)[M].北京:人民郵電出版社,2014.
[4]郭曉科.大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2013.
[5]張華平,高凱,黃河燕,等.大數(shù)據(jù)搜索與挖掘[M].北京:科學(xué)出版社,2014.
[6]咸由根,蔡承秉.掘金大數(shù)據(jù)[M].北京:北京時(shí)代華文書局,2013.
G273.5
A
2016-10-19
10.16565/j.cnki.1006-7744.2017.03.18
國家社科項(xiàng)目(11CTQ 030)、江蘇省檔案局科技項(xiàng)目(2016-13)。
張倩,南京藝術(shù)學(xué)院副研究館員,研究方向?yàn)闄n案信息化建設(shè)。