国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向數(shù)字人文的開放數(shù)據(jù)競賽研究
——基礎(chǔ)設(shè)施的角度

2022-12-29 13:03:41王麗華章亦可上海大學(xué)上海200444
高校圖書館工作 2022年5期
關(guān)鍵詞:上海圖書館基礎(chǔ)設(shè)施競賽

●王麗華 章亦可 (上海大學(xué) 上海 200444)

1949年,羅伯特·布撒神父對《托馬斯·阿奎那文集》編制索引開創(chuàng)了人文計算的先河[1],而起源于人文計算的數(shù)字人文,是將數(shù)據(jù)可視化、信息檢索、數(shù)據(jù)挖掘、統(tǒng)計、文本挖掘等數(shù)字化和數(shù)字資源計算工具與傳統(tǒng)人文學(xué)科的方法以及社會科學(xué)相結(jié)合的交叉學(xué)科研究領(lǐng)域[2]。新文科背景下,數(shù)據(jù)科學(xué)與人文學(xué)科的交叉更加緊密,圍繞人文學(xué)科產(chǎn)生的各類數(shù)字資源越來越多,數(shù)字人文影響力不斷擴(kuò)大。隨著數(shù)字人文研究的發(fā)展,各領(lǐng)域也逐漸展開對數(shù)字人文基礎(chǔ)設(shè)施的探討。

2009年1月美國前總統(tǒng)奧巴馬在就任當(dāng)天提出開放數(shù)據(jù)這一概念,并簽署《透明與開放政府》(Transparency and Open Government)備忘錄,同年美國開放數(shù)據(jù)門戶網(wǎng)站啟動,自此開放數(shù)據(jù)的潮流在全世界掀起。2013年,麥肯錫咨詢公司發(fā)布的研究報告《開放數(shù)據(jù):利用流動信息釋放創(chuàng)新和績效》(Open Data: Unlocking Innovation and Performance with Liquid Information)指出,每年因全球開放數(shù)據(jù)所創(chuàng)造的新價值以及可以節(jié)省的支出合起來已達(dá)到3萬億美元[3]。世界銀行的報告《開放數(shù)據(jù)助力經(jīng)濟(jì)增長》(Open Data For Economic Growth)也同樣指出了開放數(shù)據(jù)有著巨大的經(jīng)濟(jì)潛能。在全球數(shù)據(jù)開放浪潮的推動下,我國也進(jìn)入公共數(shù)據(jù)開放行列。2015年國務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)〔2015〕50號)明確提出要穩(wěn)步推動公共數(shù)據(jù)資源開放[4]。2018年3月國務(wù)院辦公廳印發(fā)的《科學(xué)數(shù)據(jù)管理辦法》(國辦發(fā)〔2018〕17號)提出了“開放為常態(tài),不開放為例外”的原則,并從職責(zé)、數(shù)據(jù)采集、保障措施等方面進(jìn)行了規(guī)范[5],大力推動了我國開放數(shù)據(jù)的發(fā)展。

當(dāng)前,越來越多的政府、機(jī)構(gòu)和公眾參與到開放數(shù)據(jù)運動中,各種類型的開放數(shù)據(jù)競賽層出不窮,不斷釋放開放數(shù)據(jù)價值,推動開放數(shù)據(jù)的創(chuàng)新應(yīng)用發(fā)展。

1 數(shù)字人文基礎(chǔ)設(shè)施

1.1 概念與層次

研究基礎(chǔ)設(shè)施是指研究人員在研究過程中可以使用的工具、平臺、系統(tǒng)、數(shù)據(jù)庫、檔案等各種資源,研究人員通過使用這些資源來挖掘新知識,開發(fā)新技術(shù)[6],研究基礎(chǔ)設(shè)施在科學(xué)技術(shù)發(fā)展中具有重要的地位。隨著數(shù)字人文研究的發(fā)展,學(xué)界展開了對數(shù)字人文基礎(chǔ)設(shè)施的探討。包弼德等指出網(wǎng)絡(luò)基礎(chǔ)設(shè)施是連接以下兩個方面的系統(tǒng),一是計算、存儲、交流的基礎(chǔ)技術(shù),二是軟件、服務(wù)、平臺和各種工具。隨著數(shù)字人文的發(fā)展,網(wǎng)絡(luò)基礎(chǔ)設(shè)施作為將研究領(lǐng)域不同的獨立數(shù)據(jù)庫相連接的橋梁,它的重要意義逐漸凸顯出來[7]。劉煒等將數(shù)字人文基礎(chǔ)設(shè)施定義為一種支持人文科研活動的基礎(chǔ)設(shè)施,具體是指在數(shù)字環(huán)境下為開展人文研究所必須具備的基本條件,包括全球范圍內(nèi)與研究主題有關(guān)的所有文獻(xiàn)、數(shù)據(jù)、相關(guān)軟件工具、學(xué)術(shù)交流和出版的公用設(shè)施及相關(guān)服務(wù)等[8]。魯?shù)さ戎赋鲋С秩宋难芯康膬?nèi)容、數(shù)據(jù)、資料、工具、平臺、系統(tǒng)、軟件等是數(shù)字人文基礎(chǔ)設(shè)施中必不可少的部分,進(jìn)而探討了基于API技術(shù)構(gòu)建數(shù)字人文基礎(chǔ)設(shè)施的實現(xiàn)架構(gòu)與實施路徑[6]。金家琴等探討了數(shù)字人文基礎(chǔ)設(shè)施中的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè),嘗試設(shè)計了一套本體模型和詞表[9]。陳濤等提出構(gòu)建數(shù)字人文語義發(fā)布基礎(chǔ)設(shè)施的方案,具體包括數(shù)據(jù)語義發(fā)布、本體語義發(fā)布和圖像語義發(fā)布,實現(xiàn)了不同數(shù)據(jù)集之間以及和圖像之間的語義組織與關(guān)聯(lián)[10]。上述研究成果不斷明確了數(shù)字人文基礎(chǔ)設(shè)施的概念內(nèi)涵,而對于數(shù)字人文基礎(chǔ)設(shè)施的建設(shè)也在不斷探索中。

劉煒等將數(shù)字人文基礎(chǔ)設(shè)施分為核心層、中間層與外圍層。其中核心層是指文獻(xiàn)資源和其服務(wù)機(jī)構(gòu),主要為數(shù)字人文提供基本研究素材的保障;中間層包括基金會、資源庫、機(jī)構(gòu)倉儲、計算設(shè)施、系統(tǒng)平臺、工具軟件、領(lǐng)域?qū)<液蛿?shù)據(jù)科學(xué)家等,是數(shù)字人文研究活動的主體; 外圍層是指數(shù)字人文成果發(fā)布、與社會交互、產(chǎn)生社會影響的界面層,通常會通過門戶或平臺的形式呈現(xiàn)出來[8]。數(shù)字人文基礎(chǔ)的這三個層次中所包含的諸多要素相互影響作用,共同組成了數(shù)字人文基礎(chǔ)設(shè)施。

1.2 數(shù)字人文基礎(chǔ)設(shè)施建設(shè)現(xiàn)狀

伴隨著數(shù)字人文研究的不斷開展與深入,良好的研究基礎(chǔ)設(shè)施在數(shù)字人文研究的可持續(xù)發(fā)展中起到的重要作用逐漸凸顯,數(shù)字人文研究需要一個內(nèi)外部要素均衡協(xié)調(diào)的基礎(chǔ)設(shè)施作為支撐。目前在相關(guān)政府、機(jī)構(gòu)的支持與規(guī)劃下,各類數(shù)字人文研究基礎(chǔ)設(shè)施的建設(shè)如火如荼,近些年來,全球尤其是歐洲建設(shè)了一批優(yōu)秀的基礎(chǔ)設(shè)施。藝術(shù)與人文數(shù)字資源基礎(chǔ)設(shè)施(Digital Research Infrastructure for the Arts and Humanities,DARIAH)、標(biāo)準(zhǔn)語言資源和技術(shù)基礎(chǔ)設(shè)施(Common Language Resources and Technology Infrastructure,CLARIN)是歐洲兩個大型的人文科學(xué)數(shù)字基礎(chǔ)設(shè)施項目,都是由歐盟委員會和一些成員國共同資助的項目。DARIAH主要面向藝術(shù)與人文學(xué)科,其目標(biāo)是促進(jìn)對分布式數(shù)據(jù)存儲庫的訪問,并開發(fā)一套數(shù)字工具,逐步支持人文學(xué)科所有領(lǐng)域的研究工作,包括挖掘文本和圖像的應(yīng)用、手稿的協(xié)作注釋、空間結(jié)構(gòu)和運動的可視化等。CLARIN則聚焦于計算語言學(xué),助力人文科學(xué)和社會科學(xué)研究,支持語言數(shù)據(jù)和工具的共享、使用和可持續(xù)性發(fā)展。而歐洲的帕耳忒諾斯項目(Pooling Activities, Resources and Tools for Heritage E-research Networking, Optimization and Synergies,PARTHENOS)由歐盟資助,是歐洲語言學(xué)、數(shù)字人文、歷史、文化遺產(chǎn)和考古學(xué)領(lǐng)域的主要研究基礎(chǔ)設(shè)施的聯(lián)合體。這個項目的工作重點是加強(qiáng)與數(shù)字人文研究的各學(xué)科合作,致力于改善人文和文化科學(xué)領(lǐng)域數(shù)字研究基礎(chǔ)設(shè)施的使用,在各個基礎(chǔ)設(shè)施之間建立橋梁,提高數(shù)據(jù)質(zhì)量和互操作性[11],進(jìn)而促進(jìn)現(xiàn)有基礎(chǔ)設(shè)施提供服務(wù)支撐能力的提升。

德國有強(qiáng)大的人文計算項目基礎(chǔ),例如,德國網(wǎng)格項目Deutschland Grid(簡稱D-Grid)致力于將網(wǎng)格計算應(yīng)用于科學(xué)研究,其中應(yīng)用于人文科學(xué)的網(wǎng)格項目TextGrid開發(fā)于2006年,為人文科學(xué)學(xué)者提供了能對大量文本語料進(jìn)行訪問、存儲、注釋、編輯和分析的工具[12],是以e-Science環(huán)境下的科學(xué)研究方法為基礎(chǔ)的一個人文計算基礎(chǔ)設(shè)施[13]。

國內(nèi)的數(shù)字人文基礎(chǔ)設(shè)施建設(shè)項目也在逐步推進(jìn),如上海圖書館的歷史人文大數(shù)據(jù)平臺、浙江大學(xué)的學(xué)術(shù)地圖發(fā)布平臺、安徽大學(xué)的中國古典文獻(xiàn)資源導(dǎo)航系統(tǒng)、首都師范大學(xué)牽頭的絲綢之路歷史地理信息開放平臺、阿里巴巴主導(dǎo)開發(fā)的漢典重光古籍?dāng)?shù)字化平臺以及中南民族大學(xué)的唐宋文學(xué)編年地圖項目等。這些數(shù)字人文基礎(chǔ)設(shè)施為相關(guān)學(xué)科領(lǐng)域的學(xué)者提供了支撐跨學(xué)科研究的資源、工具以及數(shù)據(jù)管理的通用解決方案,促進(jìn)了數(shù)字人文的發(fā)展。目前全球數(shù)字人文基礎(chǔ)設(shè)施還在持續(xù)建設(shè)中。

2 開放數(shù)據(jù)競賽

為了更好地利用開放數(shù)據(jù),通過借鑒已有的創(chuàng)新競賽、數(shù)據(jù)競賽等各種競賽類型,開放數(shù)據(jù)競賽這一新形式興起。據(jù)統(tǒng)計,2014年至2019年,全球范圍內(nèi)由不同部門與機(jī)構(gòu)開展的各類數(shù)據(jù)競賽已超過1 000余場[14]。2014年3月,馬云在北京大學(xué)發(fā)起“天池大數(shù)據(jù)競賽”[15],揭開了國內(nèi)開放數(shù)據(jù)競賽的序幕。近年來國內(nèi)所舉辦的開放數(shù)據(jù)競賽和參與者的數(shù)目持續(xù)增加。

2.1 開放數(shù)據(jù)競賽的類型

開放數(shù)據(jù)競賽是主辦方以推動互聯(lián)網(wǎng)公共的開放數(shù)據(jù)的挖掘和使用為目的,收集某一領(lǐng)域網(wǎng)絡(luò)開放數(shù)據(jù)成功應(yīng)用的案例的一種競賽形式[16]。通過競賽的形式吸引不同學(xué)科背景的研究人員與學(xué)生參與,推動了開放數(shù)據(jù)的創(chuàng)新應(yīng)用。

國內(nèi)外已經(jīng)開展了多種多樣的開放數(shù)據(jù)競賽。

按照開放數(shù)據(jù)競賽的舉辦方以及開放的數(shù)據(jù)種類來劃分,目前國內(nèi)的開放數(shù)據(jù)競賽主要有四種類型。

第一種是由省市開展的開放數(shù)據(jù)競賽。各省市擁有很多公共開放數(shù)據(jù),通過向群眾提供這些豐富的數(shù)據(jù)資源,并組織各種數(shù)據(jù)競賽,以城市治理為主要目標(biāo),思考如何開發(fā)創(chuàng)意使用數(shù)據(jù)的應(yīng)用,提升城市的管理水平。如SODA上海開放數(shù)據(jù)創(chuàng)新應(yīng)用大賽以長三角地區(qū)豐富的開放數(shù)據(jù)資源和規(guī)模龐大的數(shù)據(jù)產(chǎn)業(yè)為基礎(chǔ),競賽開放的數(shù)據(jù)涉及各個領(lǐng)域的政府開放數(shù)據(jù)和企業(yè)數(shù)據(jù)。

第二種是由公共文化服務(wù)機(jī)構(gòu)舉辦的開放數(shù)據(jù)競賽。公共文化服務(wù)機(jī)構(gòu)擁有多種多樣、結(jié)構(gòu)化或尚未得到開發(fā)的數(shù)據(jù),通過開展開放數(shù)據(jù)競賽,可以讓更多的用戶參與其中,對開放數(shù)據(jù)進(jìn)行創(chuàng)新開發(fā)利用。如上海圖書館舉辦的上海圖書館開放數(shù)據(jù)競賽旨在更加充分地釋放平臺中開放數(shù)據(jù)的價值,最大限度地挖掘數(shù)據(jù)背后的應(yīng)用潛力。這種由公共文化服務(wù)機(jī)構(gòu)舉辦的開放數(shù)據(jù)競賽,在一定程度上推動了數(shù)字人文研究,可以稱之為數(shù)字人文類開放數(shù)據(jù)競賽。

第三種是由高校舉辦的開放數(shù)據(jù)競賽。高校擁有豐富的科研數(shù)據(jù)以及圖書館的數(shù)據(jù)資源。隨著數(shù)據(jù)密集型研究范式的到來,基于數(shù)據(jù)進(jìn)行研究,對數(shù)據(jù)的再利用,已經(jīng)是學(xué)術(shù)研究的新趨勢。各高校的師生們愿意創(chuàng)新性地運用新方法、新技術(shù)來分析發(fā)掘數(shù)據(jù)的潛在價值,助力學(xué)術(shù)研究。如復(fù)旦大學(xué)圖書館聯(lián)合全國部分高校圖書館發(fā)起的“慧源共享”全國高校開放數(shù)據(jù)創(chuàng)新研究大賽、北京大學(xué)舉辦的全國高校數(shù)據(jù)驅(qū)動創(chuàng)新研究大賽,都是面向高校、研究院(所)等在讀學(xué)生舉辦的開放數(shù)據(jù)競賽。

第四種是由協(xié)會、團(tuán)體、研究機(jī)構(gòu)等組織機(jī)構(gòu)舉辦的開放數(shù)據(jù)競賽。如中國數(shù)字人文開放數(shù)據(jù)創(chuàng)新研究大賽就是中國數(shù)字人文第三屆年會的組成部分,由南京大學(xué)人文社會科學(xué)高級研究院與中國索引學(xué)會舉辦。組織機(jī)構(gòu)舉辦的開放數(shù)據(jù)競賽更有主題針對性。

目前開放數(shù)據(jù)競賽所提交的作品形式主要有三種,分別為論文、研究方案與產(chǎn)品原型。如“慧源共享”全國高校開放數(shù)據(jù)創(chuàng)新研究大賽,參賽團(tuán)隊最后通過提交研究論文來參與比賽,其中數(shù)據(jù)應(yīng)用作品為選交內(nèi)容。而LinkedUp Project中的Veni競賽,參賽者最后需要提交在教育領(lǐng)域應(yīng)用開放數(shù)據(jù)的相關(guān)方案;SODA上海開放數(shù)據(jù)創(chuàng)新應(yīng)用大賽參賽者在初賽階段需要提交針對問題需求的技術(shù)創(chuàng)意解決方案。上海圖書館開放數(shù)據(jù)競賽最后則需要提交優(yōu)秀移動應(yīng)用產(chǎn)品原型,以移動Web應(yīng)用或 iOS、Android 等平臺上的App為主要表現(xiàn)形式;LinkedUp Project中的Vidi競賽,參賽者必須在比賽結(jié)束時提交他們自己開發(fā)設(shè)計的針對教育目的的App或者原型。

2.2 開放數(shù)據(jù)競賽實踐

國外的開放數(shù)據(jù)競賽起步較早。1997年,第一屆國際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽(Knowledge Discovery and Data Mining Cup,KDD Cup)由ACM的數(shù)據(jù)挖掘及知識發(fā)現(xiàn)專委會所主辦,可以看作是開放數(shù)據(jù)競賽的開端。KDD Cup是數(shù)據(jù)挖掘領(lǐng)域最具影響力的賽事之一,到2021年已成功舉辦了25屆比賽[17]。此后,不同類型的開放數(shù)據(jù)競賽也開始出現(xiàn),如面向教育的關(guān)聯(lián)網(wǎng)絡(luò)數(shù)據(jù)項目(LinkedUp Project)與Kaggle開放數(shù)據(jù)競賽等。

LinkedUp Project項目由歐盟資助,為促進(jìn)更多的在線公共開放數(shù)據(jù)的利用,通過進(jìn)行一系列公開比賽,收集在教育領(lǐng)域中使用開放網(wǎng)絡(luò)數(shù)據(jù)的成功案例[18]。LinkedUp將收集到的與教育相關(guān)的數(shù)據(jù)資源,公開透明地提供給對關(guān)聯(lián)教育數(shù)據(jù)有興趣的學(xué)生、研究人員、開發(fā)者甚至企業(yè),吸引了很多用戶參與。挑戰(zhàn)賽分為Veni、Vedi、Veci三場比賽,每一場比賽都建立在前一場比賽的基礎(chǔ)之上。Kaggle是Google旗下的一個全球知名的數(shù)據(jù)科學(xué)競賽在線平臺,由Anthony Goldbloom和Ben Hamner于2010年在墨爾本創(chuàng)立。該平臺上展現(xiàn)的大部分的競賽都是由不同的企業(yè)或研究者發(fā)布,他們將自己需要解決的問題以及希望獲得什么樣的解決方案發(fā)布在競賽平臺上,并通過一定的獎勵方式來吸引更多的人向其提供解決問題的方案。通過競賽的開展,發(fā)布者可以快速篩選出自己需要的最有成效的方案。Kaggle比賽可以劃分為Getting Started、PlayGround、Research和Featured四類,難度不同,逐層遞進(jìn)。參賽者在了解賽題內(nèi)容、賽題數(shù)據(jù),掌握一定基礎(chǔ)后,開始構(gòu)建模型,并通過不斷更新來提高自己構(gòu)建模型的精度。

到目前為止,國內(nèi)涌現(xiàn)出很多不同主題、種類以及面向?qū)ο蟮拈_放數(shù)據(jù)競賽。如上海圖書館開放數(shù)據(jù)競賽、“慧源共享”全國高校開放數(shù)據(jù)創(chuàng)新研究大賽、SODA上海開放數(shù)據(jù)創(chuàng)新應(yīng)用大賽、中國數(shù)字人文開放數(shù)據(jù)創(chuàng)新研究大賽等。

上海圖書館從2016年開始舉辦上海圖書館開放數(shù)據(jù)競賽(原上海圖書館開放數(shù)據(jù)應(yīng)用開發(fā)競賽),迄今已經(jīng)成功舉辦了6屆,第七屆比賽于2022年5月開始舉行,將于10月落下帷幕。競賽規(guī)模逐漸擴(kuò)大,參與人數(shù)不斷增加,開放數(shù)據(jù)集逐步豐富?!盎墼垂蚕怼比珖咝i_放數(shù)據(jù)創(chuàng)新研究大賽面向的對象是全國的高校師生,是為了推動和促進(jìn)教育科研領(lǐng)域數(shù)據(jù)資源的匯聚流通和共享開放而舉辦的競賽,主要目的在于鼓勵高校師生運用各種不同的新技術(shù)開展開放數(shù)據(jù)的創(chuàng)新研究與應(yīng)用,以期培養(yǎng)和提升高校大學(xué)生的數(shù)據(jù)素養(yǎng)[19]。SODA上海開放數(shù)據(jù)創(chuàng)新應(yīng)用大賽是由上海市經(jīng)濟(jì)和信息化委員會主辦的開放數(shù)據(jù)創(chuàng)新應(yīng)用大賽,各個參賽的創(chuàng)新創(chuàng)業(yè)團(tuán)隊主要圍繞開放數(shù)據(jù)創(chuàng)新應(yīng)用方案展開交流與展示,大賽的理念為“數(shù)據(jù)眾籌,應(yīng)用眾創(chuàng),問題眾治”,希望可以調(diào)動全社會參與開放數(shù)據(jù)的開發(fā)利用,提升開放數(shù)據(jù)的價值[20]。中國數(shù)字人文開放數(shù)據(jù)創(chuàng)新研究大賽是“時代經(jīng)緯:邁向新文科的數(shù)字人文”學(xué)術(shù)研討會即“中國數(shù)字人文”第三屆年會的組成部分,由南京大學(xué)人文社會科學(xué)高級研究院與中國索引學(xué)會舉辦[21]。這次會議首次設(shè)置開放數(shù)據(jù)競賽環(huán)節(jié),面向全球征集開放數(shù)據(jù)集,集中在和鯨數(shù)據(jù)科學(xué)協(xié)同平臺進(jìn)行發(fā)布,主辦方邀請全球數(shù)字人文研究者和愛好者參加競賽,并組織專家對競賽作品進(jìn)行評選。大賽鼓勵海內(nèi)外數(shù)字人文研究者及數(shù)據(jù)分析愛好者利用各種數(shù)字人文新技術(shù)對開放數(shù)據(jù)進(jìn)行具備人文性的探索研究與應(yīng)用。

3 從數(shù)字人文基礎(chǔ)設(shè)施層次看開放數(shù)據(jù)競賽

本文將以數(shù)字人文基礎(chǔ)設(shè)施的核心、中間與外圍三個層次為基礎(chǔ),討論開放數(shù)據(jù)競賽與數(shù)字人文基礎(chǔ)設(shè)施之間的關(guān)系。

3.1 核心層——開放數(shù)據(jù)競賽的基石

數(shù)字人文基礎(chǔ)設(shè)施的核心層由文獻(xiàn)資源及其服務(wù)機(jī)構(gòu)組成,它們?yōu)閿?shù)字人文提供了基本研究素材的保障,是開放數(shù)據(jù)競賽的基石[8]。無論是從機(jī)構(gòu)組織的角度,還是從數(shù)字人文文獻(xiàn)資源與數(shù)據(jù)的角度來說,開放數(shù)據(jù)競賽得以順利開展都離不開它們。

從高校、研究所、美術(shù)館、圖書館、檔案館、博物館等機(jī)構(gòu)組織的角度來看,這些機(jī)構(gòu)組織不僅是數(shù)字人文研究素材的保障,為開放數(shù)據(jù)競賽提供其所需的數(shù)據(jù),同樣也是開放數(shù)據(jù)競賽的舉辦方與組織機(jī)構(gòu)。圖檔博等文化機(jī)構(gòu)擁有的豐富文獻(xiàn)資源很多都沒有得到開發(fā)與利用,數(shù)字人文研究的出現(xiàn)為處理海量的數(shù)據(jù)資源提供了可能,舉辦開放數(shù)據(jù)競賽可以吸引更多人對這些資源進(jìn)行合理的創(chuàng)新利用與開發(fā),釋放其內(nèi)在的價值。

從文獻(xiàn)資源與數(shù)據(jù)的角度來看,開放數(shù)據(jù)競賽的開展依托于開放數(shù)據(jù)。開放數(shù)據(jù)競賽對開放數(shù)據(jù)的質(zhì)量與可用性提出了一定的要求,開放數(shù)據(jù)競賽的數(shù)據(jù)也是吸引用戶參加競賽的重要原因之一。開放數(shù)據(jù)競賽組織者為了擴(kuò)大參賽規(guī)模,開放不同用戶可能感興趣的不同種類數(shù)據(jù),從而吸引不同領(lǐng)域的用戶參賽。如上海圖書館陸續(xù)開放了家譜元數(shù)據(jù)、盛宣懷檔案、古籍循證數(shù)據(jù)、紅色文獻(xiàn)書目數(shù)據(jù)、電影庫數(shù)據(jù)、僑批數(shù)據(jù)等多種數(shù)據(jù)供上海圖書館開放數(shù)據(jù)競賽的參賽者使用,隨著競賽規(guī)模的不斷擴(kuò)大,開放數(shù)據(jù)的種類也越來越豐富?!盎墼垂蚕怼比珖咝i_放數(shù)據(jù)創(chuàng)新研究大賽提供了大量教育科研領(lǐng)域的開放數(shù)據(jù)[19]。另外,在開放數(shù)據(jù)競賽中,競賽作品以及數(shù)字人文項目在開展過程中不斷涌現(xiàn)多種類型的數(shù)據(jù),為競賽的開放數(shù)據(jù)添磚加瓦。如在上海圖書館開放數(shù)據(jù)競賽過程中,上海圖書館的數(shù)據(jù)資源進(jìn)一步得到了擴(kuò)充,2018年就有參賽團(tuán)隊提供了兩萬余種藏印數(shù)據(jù),上海圖書館的藏印知識庫也從800種增加至超過2萬種[22],這些由參賽者提供的數(shù)據(jù)會進(jìn)入上海圖書館的信息資源庫,為參賽者提供服務(wù)。“慧源共享”全國高校開放數(shù)據(jù)創(chuàng)新研究大賽接受用戶使用自有數(shù)據(jù),參賽團(tuán)隊將自有數(shù)據(jù)自行采集、清洗、整理后,獲得了不存在版權(quán)問題的研究數(shù)據(jù),并將這些數(shù)據(jù)上傳至慧源上海教育科研數(shù)據(jù)共享平臺[19],經(jīng)競賽組委會審核后這些數(shù)據(jù)可用于大賽范圍內(nèi)的共享,其他參賽團(tuán)隊也可以使用,進(jìn)一步豐富了該競賽的數(shù)據(jù)資源。

3.2 中間層——開放數(shù)據(jù)競賽的保障

數(shù)字人文基礎(chǔ)設(shè)施的中間層由基金會、數(shù)據(jù)資源機(jī)構(gòu)倉儲、計算設(shè)施、系統(tǒng)平臺、工具軟件、領(lǐng)域?qū)<业葮?gòu)成,是數(shù)字人文研究活動的主體,也是開放數(shù)據(jù)競賽順利舉辦開展的保障[8]。

從領(lǐng)域?qū)<?數(shù)據(jù)科學(xué)家)的角度來看,領(lǐng)域?qū)<覟殚_放數(shù)據(jù)競賽提供學(xué)術(shù)與技術(shù)保障。“慧源共享”全國高校開放數(shù)據(jù)創(chuàng)新研究大賽在競賽開始之前開展了面向全國高校師生的“數(shù)據(jù)悅讀”學(xué)術(shù)訓(xùn)練營,通過邀請不同行業(yè)、不同領(lǐng)域的數(shù)據(jù)科學(xué)家,圍繞人工智能、區(qū)塊鏈、云計算、大數(shù)據(jù)、GIS地理信息等主題,開展了專題講座[19],形成提高數(shù)據(jù)素養(yǎng)的一系列課程,為參賽者順利完成作品打下基礎(chǔ)。同樣,上海圖書館學(xué)會2020年的圖書館前沿技術(shù)論壇(IT4L)聚焦“人文研究的技術(shù)之美”主題,將重點集中在數(shù)字人文技術(shù)應(yīng)用的教學(xué)方面,邀請了國內(nèi)外數(shù)字人文領(lǐng)域?qū)<乙约皩嵺`者分享人文研究的相關(guān)技術(shù)應(yīng)用[23]。它也是上海圖書館開放數(shù)據(jù)競賽的配套訓(xùn)練營。通過這些領(lǐng)域?qū)<业姆窒砼c教學(xué),可以幫助開放數(shù)據(jù)參賽者進(jìn)一步了解數(shù)字人文領(lǐng)域,通過學(xué)習(xí)激發(fā)其創(chuàng)新,也便于其更好地完成比賽作品。部分領(lǐng)域?qū)<乙矔ㄟ^參加開放數(shù)據(jù)競賽,將自身的學(xué)術(shù)研究與開放數(shù)據(jù)競賽作品結(jié)合在一起,進(jìn)行數(shù)字人文實踐研究,開展數(shù)字人文項目,一方面可以提高參賽作品水平,另一方面也推動數(shù)字人文研究的發(fā)展。

從系統(tǒng)平臺的角度來看,開放數(shù)據(jù)競賽的開展需要依托系統(tǒng)平臺。系統(tǒng)平臺可以作為開放數(shù)據(jù)競賽的數(shù)據(jù)存儲與調(diào)用平臺,也可以作為其作品的管理平臺,如自動監(jiān)測學(xué)員的競賽過程,實時展示比賽題目及競賽成果。如中國數(shù)字人文開放數(shù)據(jù)創(chuàng)新研究大賽面向全球征集開放數(shù)據(jù)集后,將數(shù)據(jù)集中在和鯨數(shù)據(jù)科學(xué)協(xié)同平臺進(jìn)行發(fā)布。和鯨數(shù)據(jù)科學(xué)協(xié)同平臺作為數(shù)據(jù)競賽平臺,已承接超200場賽事,具有可追溯的作品管理系統(tǒng)與完善的數(shù)據(jù)競賽支持系統(tǒng)[24]。開放數(shù)據(jù)平臺作為數(shù)字人文數(shù)據(jù)基礎(chǔ)設(shè)施的一部分,在開放數(shù)據(jù)競賽中不僅被使用,而且也在競賽過程中不斷被完善。如上海圖書館建立的開放數(shù)據(jù)平臺(http://data.library.sh.cn),該平臺公開發(fā)布了上海圖書館數(shù)字人文項目所用的基礎(chǔ)知識庫、文獻(xiàn)知識庫、本體詞表等數(shù)據(jù),是上海圖書館開放數(shù)據(jù)競賽開展所依托的平臺,參賽者可以調(diào)用該平臺的關(guān)聯(lián)數(shù)據(jù),參考相關(guān)研究資料來幫助團(tuán)隊進(jìn)行競賽作品的建設(shè),從而促進(jìn)數(shù)據(jù)的開發(fā)獲取、共享和重用。

從工具軟件的角度來看,在整個競賽進(jìn)程中參賽者需使用工具軟件完成參賽作品,也會開發(fā)新的工具軟件供數(shù)字人文研究使用。數(shù)字人文以各種類型的文本數(shù)據(jù)、圖像資源等為研究對象,通常使用的工具軟件主要包括文本分析、圖像識別、知識圖譜、GIS等,很多開放數(shù)據(jù)競賽的作品都使用了這些工具。如上海圖書館開放數(shù)據(jù)競賽2018年的一等獎作品《尋蹤 遇見》是一個追蹤和探尋名家足跡的知識探索平臺,通過利用OCR識別、實體識別以及可視化技術(shù)關(guān)聯(lián)多個外部數(shù)據(jù)源,來解讀和呈現(xiàn)歷史人文知識。競賽過程中競賽舉辦方也會為參賽者提供各種數(shù)據(jù)清洗與轉(zhuǎn)換的工具,便于他們使用。

從數(shù)據(jù)資源機(jī)構(gòu)倉儲的角度來看,數(shù)據(jù)基礎(chǔ)設(shè)施是數(shù)字人文基礎(chǔ)設(shè)施的一個重要部分。數(shù)據(jù)的質(zhì)量決定了能夠提供何種程度的數(shù)字人文開放數(shù)據(jù)服務(wù)。目前的數(shù)字人文研究所依賴的數(shù)據(jù)已經(jīng)具有一定規(guī)模,但分布還比較分散,項目產(chǎn)生的臨時性數(shù)據(jù)的處理標(biāo)準(zhǔn)也不完全相同。開放數(shù)據(jù)競賽對數(shù)據(jù)的形式與質(zhì)量提出了一定要求,數(shù)據(jù)資源機(jī)構(gòu)倉儲可以系統(tǒng)化、標(biāo)準(zhǔn)化地管理數(shù)據(jù),提供長期的數(shù)據(jù)存儲與備份服務(wù)。

3.3 外圍層——開放數(shù)據(jù)競賽的展示窗口

數(shù)字人文基礎(chǔ)設(shè)施的外圍層是數(shù)字人文成果發(fā)布、交流互動、產(chǎn)生社會影響的界面層,通常會通過網(wǎng)絡(luò)門戶或平臺的形式呈現(xiàn),也是開放數(shù)據(jù)競賽的展示窗口[8]。

開放數(shù)據(jù)競賽產(chǎn)生了大量優(yōu)秀的數(shù)字人文成果,通過競賽的宣傳,這些優(yōu)秀的數(shù)字人文成果能獲得更多的關(guān)注,其影響力進(jìn)一步得到提升。如上海圖書館開放數(shù)據(jù)競賽在其門戶網(wǎng)站上對歷年優(yōu)秀作品進(jìn)行展示,以吸引越來越多的人了解數(shù)字人文、數(shù)字人文項目與數(shù)字人文成果;在競賽過程中通過“人氣獎”的投票環(huán)節(jié),讓參賽作品得到人們的初步了解;在競賽結(jié)束后通過優(yōu)秀作品的交流分享,進(jìn)一步擴(kuò)大參賽作品的社會影響力。同樣,LinkedUp項目中競賽環(huán)節(jié)也采用開放投票系統(tǒng)進(jìn)行“公眾選擇”,參賽者可以通過分享,邀請其他人為他們的競賽作品投票,在整個過程中也達(dá)到了宣傳作品的目的。競賽通過對參賽作品的后續(xù)關(guān)注與孵化,也可以進(jìn)一步優(yōu)化數(shù)字人文項目,如上海圖書館開放數(shù)據(jù)競賽大賽的優(yōu)秀獲獎團(tuán)隊有機(jī)會獲得SODA大賽提供的服務(wù)和孵化機(jī)會,進(jìn)一步鞏固了數(shù)字人文成果。

4 建議與啟示

4.1 注重數(shù)字人文研究,夯實開放數(shù)據(jù)競賽基石

一方面,高校、研究所、美術(shù)館、圖書館、檔案館、博物館等機(jī)構(gòu)組織應(yīng)注重數(shù)字人文的發(fā)展,積極參與數(shù)字人文研究。特別是圖書館在數(shù)字人文研究上具有得天獨厚的優(yōu)勢,更應(yīng)該積極參與,通過獨立或多機(jī)構(gòu)合作開展開放數(shù)據(jù)競賽,推動開放數(shù)據(jù)競賽進(jìn)一步發(fā)展。另一方面,數(shù)據(jù)為基,要進(jìn)一步擴(kuò)大數(shù)據(jù)的開放程度,GLAM等相關(guān)機(jī)構(gòu)組織可以通過加快自身館藏資源及其他資料的數(shù)字化,將更多有用且高質(zhì)量的開放數(shù)據(jù)應(yīng)用到開放數(shù)據(jù)競賽中,夯實開放數(shù)據(jù)競賽基石。

4.2 多方面共同參與,提供更有力的開放數(shù)據(jù)競賽保障

吸引更多機(jī)構(gòu)參與,加大資金投入。如美國國家人文基金會目前資助了4個數(shù)字人文獎項,其中就包括“數(shù)字人文進(jìn)步獎(DHAG)”。但目前國內(nèi)在這方面并不完善,所以在加大資金投入,通過獎金規(guī)模吸引用戶參與以及對于項目與產(chǎn)品原型的進(jìn)一步孵化上有所欠缺。因此通過吸引更多機(jī)構(gòu)的參與以及加大資金的投入,可以完善競賽相關(guān)服務(wù),吸引參賽者參與,對于開放數(shù)據(jù)競賽規(guī)模的擴(kuò)大有一定作用。

建設(shè)功能完善的系統(tǒng)平臺。系統(tǒng)平臺不僅是開放數(shù)據(jù)競賽的技術(shù)支持平臺,也同樣在競賽的推廣和擴(kuò)大影響等方面起到重要作用。通過對系統(tǒng)平臺的建設(shè)、修改,其功能不斷完善,有利于提升開放數(shù)據(jù)競賽的影響力和用戶參與度;將資金投入構(gòu)建開放數(shù)據(jù)平臺、數(shù)字人文平臺中,有利于開放數(shù)據(jù)競賽的開展。

吸引領(lǐng)域?qū)<覅⑴c,提供制度保障。領(lǐng)域?qū)<?數(shù)據(jù)科學(xué)家)無論是通過參與比賽,還是舉辦系列講座都能幫助參與者更好地開展研究。同時,制定有針對性的規(guī)章制度,為開放數(shù)據(jù)提供制度保障,定期對開放數(shù)據(jù)進(jìn)行維護(hù)可以提高開放數(shù)據(jù)的安全性,更好地建設(shè)數(shù)據(jù)資源機(jī)構(gòu)倉儲。

對研究成果進(jìn)行深層次挖掘。參賽作品的提交并不意味著數(shù)字人文研究的結(jié)束,對參賽作品的進(jìn)一步修改開發(fā)并利用,進(jìn)行更深層次的挖掘,可以促進(jìn)更多知識的創(chuàng)新以及新技術(shù)的產(chǎn)生,數(shù)字人文的研究也將進(jìn)一步深入。參賽過程中產(chǎn)生的相關(guān)數(shù)字資源可以成為后續(xù)研究的數(shù)據(jù)來源和研究基礎(chǔ),將研究成果進(jìn)行一定程度的孵化也可以將參賽作品投入使用,推動數(shù)字人文的實踐。

4.3 搭建開放數(shù)據(jù)競賽展示平臺,拓寬宣傳渠道

搭建開放數(shù)據(jù)競賽展示的平臺,包括門戶網(wǎng)站、手機(jī)App等形式,不僅可以將數(shù)字人文開放數(shù)據(jù)競賽中產(chǎn)生的大量優(yōu)秀的數(shù)字人文成果展示出來,吸引用戶參與開放數(shù)據(jù)競賽,擴(kuò)大數(shù)字人文研究項目的影響力,而且可以拓寬宣傳渠道,通過微信公眾號等方式進(jìn)一步擴(kuò)大競賽在業(yè)界的影響力。通過平臺,還可以與用戶交流互動,積極聽取用戶意見,對開放數(shù)據(jù)競賽進(jìn)行一定程度的改進(jìn)。

5 結(jié)語

隨著數(shù)字人文研究的不斷發(fā)展,對數(shù)字人文基礎(chǔ)設(shè)施的需求迫在眉睫,但到目前為止還沒有真正形成體系完整、標(biāo)準(zhǔn)統(tǒng)一、數(shù)據(jù)共享、跨學(xué)科領(lǐng)域的綜合數(shù)字人文研究基礎(chǔ)設(shè)施。開放數(shù)據(jù)競賽的開展既依靠于數(shù)字人文基礎(chǔ)設(shè)施,也將進(jìn)一步推動數(shù)字人文基礎(chǔ)設(shè)施的建設(shè)與發(fā)展,兩者是互為促進(jìn)的關(guān)系。通過完善數(shù)字人文基礎(chǔ)設(shè)施建設(shè),一方面能為數(shù)字人文研究提供有力的支撐,另一方面也能夯實開放數(shù)據(jù)競賽的基石,提供更有力的開放數(shù)據(jù)競賽保障并搭建開放數(shù)據(jù)競賽展示平臺。而開放數(shù)據(jù)競賽的可持續(xù)性發(fā)展,也有助于開放數(shù)據(jù)的創(chuàng)新應(yīng)用,從而進(jìn)一步夯實數(shù)字人文基礎(chǔ)設(shè)施建設(shè)。

猜你喜歡
上海圖書館基礎(chǔ)設(shè)施競賽
農(nóng)業(yè)基礎(chǔ)設(shè)施建設(shè)有望加速
2020絲綢之路數(shù)學(xué)競賽
公募基礎(chǔ)設(shè)施REITs與股票的比較
圖書館中文圖書借閱排行榜(2019年12月)
出版人(2020年2期)2020-04-07 10:24:36
我看競賽
振動攪拌,基礎(chǔ)設(shè)施耐久性的保障
中國公路(2017年14期)2017-09-26 11:51:43
創(chuàng)新思維競賽(3)
數(shù)字閱讀推廣新形式研究
卷宗(2017年2期)2017-05-16 22:24:23
中美公共圖書館社交媒體營銷比較研究
圖書與情報(2016年6期)2017-04-17 00:02:32
創(chuàng)新創(chuàng)業(yè)環(huán)境下公共圖書館企業(yè)信息服務(wù)的轉(zhuǎn)型
湖南省| 西平县| 板桥市| 元氏县| 璧山县| 海原县| 长宁区| 平利县| 东港市| 武宁县| 玛沁县| 化德县| 涡阳县| 长春市| 磴口县| 邯郸市| 涿鹿县| 和林格尔县| 邳州市| 高碑店市| 康平县| 富川| 嵩明县| 德格县| 巢湖市| 贡嘎县| 衡水市| 纳雍县| 清徐县| 昌乐县| 高雄市| 宜章县| 南投县| 林甸县| 长葛市| 长寿区| 秦安县| 乡宁县| 襄垣县| 塔城市| 固原市|