国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

信息時(shí)代的人文計(jì)算

2015-04-29 00:44:03李啟虎尹力張全
科學(xué) 2015年1期
關(guān)鍵詞:數(shù)字人文云計(jì)算大數(shù)據(jù)

李啟虎 尹力 張全

人文泛指人類社會(huì)的各種文化現(xiàn)象,信息是聯(lián)系物理世界與人類認(rèn)知的重要橋梁和紐帶,人文與信息有著天然的聯(lián)系。信息技術(shù)的飛速發(fā)展為社會(huì)進(jìn)步做出了巨大貢獻(xiàn),已深入到社會(huì)生活的方方面面。它不僅拓展了人類認(rèn)知的疆域,也改變了人類對(duì)于物理世界的認(rèn)知模式,更進(jìn)一步影響、滲透到傳統(tǒng)研究視野下的社會(huì)學(xué)科,并形成一個(gè)文理工交叉的學(xué)科——人文計(jì)算,衍生出數(shù)字人文的概念。

人文計(jì)算(Humanities Computing或Computing in the Humanities)是一個(gè)新型的將現(xiàn)代信息技術(shù)深入應(yīng)用于傳統(tǒng)人文研究的跨學(xué)科研究領(lǐng)域。近年來,歐美發(fā)達(dá)國家已經(jīng)建立了數(shù)字人文(Digital Humanities)研究中心,人文計(jì)算已經(jīng)有了重要的創(chuàng)新成果并廣泛服務(wù)于社會(huì),取得了良好的社會(huì)效益。為了更好地服務(wù)社會(huì)發(fā)展,信息技術(shù)需要與人文社會(huì)學(xué)科更深入地結(jié)合,為相關(guān)研究注入新的活力。特別是利用信息技術(shù)手段變革傳統(tǒng)的既有研究模式,從而在廣度和深度上增強(qiáng)對(duì)人文社會(huì)學(xué)科研究內(nèi)容的認(rèn)知。這一發(fā)展趨勢(shì)既是信息技術(shù)服務(wù)社會(huì)生活的需要,也是人文社會(huì)學(xué)科適應(yīng)信息時(shí)代變化的必然,因此具有重要的研究意義。

我國作為高速發(fā)展的新興經(jīng)濟(jì)體,在經(jīng)濟(jì)建設(shè)方面已經(jīng)取得了巨大成就。推動(dòng)和強(qiáng)化人文計(jì)算研究,將催生出有中國特色的創(chuàng)新研究成果,對(duì)于繁榮我國的科學(xué)技術(shù)事業(yè)、提升我國的科研實(shí)力具有重要的現(xiàn)實(shí)意義。

人文計(jì)算概述

人文計(jì)算是針對(duì)計(jì)算與人文學(xué)科之間的交叉領(lǐng)域進(jìn)行研究、學(xué)習(xí)以及創(chuàng)新的一門學(xué)科。它的研究范圍從在線文檔處理到大規(guī)模文化數(shù)據(jù)的挖掘,研究內(nèi)容涵蓋經(jīng)過數(shù)字化加工和直接數(shù)字化產(chǎn)生的數(shù)據(jù)資源以及傳統(tǒng)人文學(xué)科(例如歷史學(xué)、哲學(xué)、語言學(xué)、文學(xué)、藝術(shù)、考古學(xué)、音樂和文化研究等)的方法。它試圖通過數(shù)據(jù)可視化、信息檢索、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、文本挖掘以及數(shù)字出版等計(jì)算方式為這些研究提供多種工具。

人文計(jì)算的一個(gè)重要內(nèi)容是,將信息處理技術(shù)系統(tǒng)地融合到人文研究的活動(dòng)中。如同當(dāng)代經(jīng)驗(yàn)社會(huì)科學(xué)研究對(duì)于計(jì)算技術(shù)的利用一樣?;A(chǔ)的信息技術(shù)已經(jīng)大量應(yīng)用到傳統(tǒng)的藝術(shù)和人文學(xué)科中,包括文本分析技術(shù)、地理信息系統(tǒng)技術(shù)、通用協(xié)同工作技術(shù)、交互式游戲和多媒體技術(shù)等。

近年來,與人文計(jì)算研究內(nèi)容相近的計(jì)算社會(huì)學(xué)蓬勃發(fā)展,取得了豐富的研究成果,特別是在社會(huì)輿情、信息傳播、社會(huì)網(wǎng)絡(luò)、人工社會(huì)等方面,有些研究成果已經(jīng)應(yīng)用于實(shí)際的社會(huì)學(xué)研究和社會(huì)管理中。

2009年2月,15位來自社會(huì)科學(xué)、物理學(xué)、信息學(xué)等領(lǐng)域的學(xué)者聯(lián)合在美國《科學(xué)》周刊發(fā)表題為《計(jì)算社會(huì)學(xué)》(Computational Social Science)的文章,分析了在廣泛使用和多樣應(yīng)用網(wǎng)絡(luò)背景下產(chǎn)生的、以發(fā)掘行為和組織規(guī)律為目的的研究問題和已有基礎(chǔ),以及學(xué)科發(fā)展的機(jī)遇與挑戰(zhàn)。該文提出了計(jì)算社會(huì)學(xué)的概念,認(rèn)為人們各種社會(huì)行為都以數(shù)據(jù)的形式留下了記錄,而這些數(shù)據(jù)中蘊(yùn)含的關(guān)于個(gè)人和群體行為的規(guī)律,可能足以改變?nèi)祟悓?duì)個(gè)人生活、組織機(jī)構(gòu)乃至整個(gè)社會(huì)的認(rèn)知。與傳統(tǒng)社會(huì)科學(xué)通過問卷調(diào)查形式獲得的數(shù)據(jù)不同,計(jì)算社會(huì)學(xué)可以借助各種新技術(shù)獲得長時(shí)間、連續(xù)、大量人群的各種行為和互動(dòng)的數(shù)據(jù)。這些更為全面客觀的數(shù)據(jù)為研究動(dòng)態(tài)的人際交流、大型社會(huì)網(wǎng)絡(luò)的演化等方面的問題打下了堅(jiān)實(shí)的基礎(chǔ)。

另據(jù)2012年11月美國《時(shí)代》周刊報(bào)道,奧巴馬團(tuán)隊(duì)在2012年美國總統(tǒng)大選中利用計(jì)算社會(huì)學(xué)研究成果,通過對(duì)各州選民投票傾向樣本數(shù)據(jù)的建模,每晚用云計(jì)算平臺(tái)模擬6.6萬次大選,并于每天上午獲得計(jì)算結(jié)果,了解在這些州勝出的可能性,從而針對(duì)性地分配資源,對(duì)奧巴馬最終贏得大選起到重要作用。

雖然經(jīng)常將社會(huì)學(xué)和人文學(xué)歸在一個(gè)大的學(xué)科領(lǐng)域,然而從研究內(nèi)容上看,計(jì)算社會(huì)學(xué)有特定的研究內(nèi)容和研究方向:在社會(huì)問題和計(jì)算技術(shù)之間架起橋梁,從基礎(chǔ)理論、實(shí)驗(yàn)手段及領(lǐng)域應(yīng)用等各個(gè)層面突破社會(huì)科學(xué)與計(jì)算科學(xué)交叉借鑒的困難。因此,計(jì)算社會(huì)學(xué)和人文計(jì)算在研究內(nèi)容上存在明顯的區(qū)別:前者側(cè)重于社會(huì)學(xué)和社會(huì)管理的研究范疇,后者則側(cè)重于信息技術(shù)與人文研究的結(jié)合。

人文計(jì)算的繁榮發(fā)展

人文計(jì)算在世界范圍內(nèi)呈現(xiàn)蓬勃發(fā)展之勢(shì)。

表現(xiàn)之一,不少學(xué)術(shù)機(jī)構(gòu)已建立了人文計(jì)算研究單位。其中歷史較長的有美國喬治梅森大學(xué)(George Mason University)于1994年成立的歷史與新媒體中心(Center for History and New Media),該機(jī)構(gòu)的名稱反映出其研究方向側(cè)重于歷史研究與新興媒體的結(jié)合。同樣,很多人文計(jì)算機(jī)構(gòu)都是由原先類似的單位演變而來的。在亞洲,日本立命館大學(xué)設(shè)立了日本藝術(shù)與文化之?dāng)?shù)字人文中心(Digital Humanities Center for Japanese Arts and Cultures);中國臺(tái)北的臺(tái)灣大學(xué)建立了數(shù)位典藏研究發(fā)展中心即數(shù)字人文研究中心。

表現(xiàn)之二,研究單位招收人文計(jì)算專業(yè)的研究生,組建人文計(jì)算實(shí)驗(yàn)室成為普遍現(xiàn)象。以美國為例,斯坦福大學(xué)有斯坦福人文實(shí)驗(yàn)室(Stanford Humanities Lab)、加州大學(xué)洛杉磯分校有數(shù)字人文中心;哈佛大學(xué)在2008年推出數(shù)字人文先導(dǎo)計(jì)劃(Digital Humanities Initiative),2010年再進(jìn)一步成立“人文2.0”(Humanities 2.0)實(shí)驗(yàn)室。他們面向校內(nèi)的人文院系,發(fā)展數(shù)字化的研究工具、建立討論平臺(tái)或是提出跨領(lǐng)域的合作計(jì)劃。

表現(xiàn)之三,定期舉辦各類人文計(jì)算學(xué)術(shù)會(huì)議。國際上具有較大影響的學(xué)術(shù)會(huì)議是一年一度的數(shù)字人文年會(huì)。此年會(huì)的前身是文學(xué)與語言學(xué)計(jì)算學(xué)會(huì)(Association for Literary and Linguistic Computing,ALLC)和計(jì)算與人文學(xué)會(huì)(Association for Computers and the Humanities)的年會(huì)。自2006年起,此會(huì)議正式更名為“數(shù)字人文”,在歐洲和美洲輪流舉行。從主辦國的分布上可以看出,人文計(jì)算的發(fā)展不是一時(shí)一地的孤立現(xiàn)象,而是國際學(xué)界共同關(guān)心的主題。

表現(xiàn)之四,有大量的研究論文發(fā)表和相關(guān)研究期刊創(chuàng)辦,例如牛津大學(xué)出版的《文學(xué)與語言學(xué)計(jì)算》(Literary and Linguistic Computing)期刊。另外還有一些期刊采取在線出版的模式,它們也是人文計(jì)算論文發(fā)表的重要園地。例如《數(shù)字人文季刊》(Digital Humanities Quarterly)圍繞人文計(jì)算展開廣泛討論,除了數(shù)據(jù)挖掘等技術(shù)層面的討論外,還有“如何將數(shù)字人文的計(jì)劃完成”這樣的專題探索。

在我國,盡管沒有明確使用人文計(jì)算這一概念,但是一些人文計(jì)算研究成果已運(yùn)用在社會(huì)實(shí)踐和生活中了。自2005年起,國家語言文字工作委員會(huì)出版發(fā)布了《中國語言生活綠皮書》回叢書。該叢書分為A系列和B系列,B系列是關(guān)于我國語言狀況的呈現(xiàn)和分析,主要發(fā)布語言生活中的各種調(diào)查報(bào)告和實(shí)態(tài)數(shù)據(jù),其中的語言數(shù)據(jù)統(tǒng)計(jì)及其處理技術(shù)屬于人文計(jì)算研究的范疇,統(tǒng)計(jì)數(shù)據(jù)按年度計(jì)算和發(fā)布。這些工作由教育部語言信息管理司具體組織和指導(dǎo)。截至2012年,語言數(shù)據(jù)已經(jīng)連續(xù)發(fā)布8年,成為該領(lǐng)域內(nèi)中國大陸乃至整個(gè)華語圈的權(quán)威。A系列則是發(fā)布各類語言規(guī)范,其中很多規(guī)范涉及語言計(jì)算的內(nèi)容,例如對(duì)數(shù)據(jù)進(jìn)行規(guī)范,便于數(shù)據(jù)的共享和再利用?!吨袊Z言生活綠皮書》叢書的內(nèi)容已經(jīng)超越了傳統(tǒng)語言學(xué)和計(jì)算語言學(xué)的研究范圍,實(shí)際上已經(jīng)涉及人文計(jì)算。圍繞《中國語言生活綠皮書》叢書的研究工作已經(jīng)成為近年來我國持續(xù)時(shí)間最長、涉及面眾多、影響廣泛的人文計(jì)算工程實(shí)踐。

人文計(jì)算的數(shù)據(jù)基礎(chǔ)、計(jì)算模型和計(jì)算資源

人文計(jì)算與數(shù)據(jù)有著密不可分的關(guān)系:第一,人文計(jì)算需要數(shù)據(jù)資源作為基礎(chǔ),這也是計(jì)算的出發(fā)點(diǎn)。第二,人文計(jì)算重視計(jì)算手段的應(yīng)用,發(fā)展計(jì)算模型嘗試提供客觀可量化的指標(biāo)輔助人文研究,但是并不認(rèn)為計(jì)算能解答所有人文研究的命題。第三,人文計(jì)算重視數(shù)據(jù)的開放與分享,且努力降低進(jìn)入領(lǐng)域的門檻,擴(kuò)大影響。

人文計(jì)算的數(shù)據(jù)基礎(chǔ)

當(dāng)今社會(huì)處在一個(gè)數(shù)據(jù)量前所未有巨大的時(shí)代,這個(gè)時(shí)代的人文計(jì)算與以前在人文學(xué)科簡單應(yīng)用計(jì)算工具大大不同,研究方法和模式也有顯著差異。數(shù)據(jù)資源是展開人文計(jì)算的基礎(chǔ),龐大的數(shù)據(jù)資源不僅僅限于文字,還包括了影像、音樂等多媒體形式。除了直接數(shù)字化產(chǎn)生的數(shù)據(jù)資源外,非數(shù)字化的資料則需要資源與人力進(jìn)行數(shù)字化。

2004年起,以歐盟為主體的“歐洲研究基礎(chǔ)建設(shè)策略論壇”(European Strategy Forum on Research)匯集了英國、法國、德國、荷蘭、丹麥等國的研究力量,合作推動(dòng)“藝術(shù)與人文的數(shù)字研究基礎(chǔ)建設(shè)”(Digital Research Infrastructure for the Arts and Humanities,DARIAH)。他們認(rèn)為,如同天文學(xué)家需要天文臺(tái)觀測(cè)宇宙,藝術(shù)與人文學(xué)者也需要相應(yīng)的研究基礎(chǔ)建設(shè)。這是DARIAH成立的目標(biāo),也是各國文獻(xiàn)資料數(shù)字化工作的目標(biāo)。許多國家的大型圖書館扮演了文獻(xiàn)資料數(shù)字化的領(lǐng)導(dǎo)角色,比如美國國會(huì)圖書館(Library of Congress)的“美國記憶”(American Memory)項(xiàng)目已經(jīng)在線為讀者提供服務(wù)。我國臺(tái)灣地區(qū)自2002年開始實(shí)施“數(shù)位典藏”科技計(jì)劃(National Digital Archives Program,NDAP),已經(jīng)建立了門類比較齊全的各類數(shù)字化人文數(shù)據(jù)資源,其中很大部分對(duì)外開放。

商業(yè)公司也積極進(jìn)入文獻(xiàn)資料的數(shù)字化領(lǐng)域,谷歌公司自2002年開始就推動(dòng)“谷歌圖書”(Google Books)計(jì)劃。根據(jù)計(jì)劃,要建立世界上最大、最全面的數(shù)字圖書館,將人類有史以來出版過的印刷書籍全數(shù)掃描上網(wǎng)。2004年,谷歌與英美幾所大學(xué)包括牛津大學(xué)、哈佛大學(xué)、斯坦福大學(xué)和密西根大學(xué)等的圖書館簽約,擬將這些圖書館的館藏書籍加以數(shù)字化。目前,“谷歌圖書”已經(jīng)可以提供超過七百萬本圖書的全文檢索,部分圖書能提供整本瀏覽,數(shù)據(jù)量十分驚人。

人文計(jì)算的計(jì)算模型

為了增進(jìn)人們對(duì)人文資源的認(rèn)知,發(fā)掘其中的新知識(shí),需要引入計(jì)算模型,通過信息處理的技術(shù)手段拓展研究的視野。

首先是“詞頻分析”,簡單地說就是計(jì)算文本中各種詞匯出現(xiàn)的次數(shù)。詞頻分析是一種常用的文獻(xiàn)分析手段。這一研究方式已經(jīng)被引入漢語文學(xué)作品中,例如針對(duì)《紅樓夢(mèng)》前八十回和后四十回是否為同一作者寫的問題,就有學(xué)者引入詞語頻度分析進(jìn)行探討。同時(shí)考慮到寫作時(shí)使用的詞匯不只是寫作風(fēng)格的反映,也是個(gè)人關(guān)注點(diǎn)和思維方式、思維傾向的表達(dá),因此還可以通過對(duì)寫作詞匯的分析去捕捉作者的思考風(fēng)格。已有研究者利用這種方法分析政治要人在不同時(shí)期的講話,從中發(fā)現(xiàn)了一些有趣的現(xiàn)象和趨勢(shì),例如英國前首相撒切爾夫人的講話,在馬島爭端前后涉及了大量的軍事詞語,而其他時(shí)間更多涉及經(jīng)濟(jì)和就業(yè)方面的內(nèi)容。

其次,數(shù)據(jù)挖掘和文本挖掘是信息技術(shù)在人文計(jì)算中的重要應(yīng)用,它們有助于研究者發(fā)現(xiàn)大量數(shù)據(jù)內(nèi)部的隱含關(guān)系,其應(yīng)用的范圍很廣。在商業(yè)銷售領(lǐng)域,可以用來分析顧客的行為模式,為后續(xù)服務(wù)提供參考;網(wǎng)絡(luò)商店的商品推薦機(jī)制就是利用用戶大量的購買記錄,來分析推測(cè)用戶的購買模式或偏好;金融保險(xiǎn)業(yè)則利用這一技術(shù)發(fā)現(xiàn)利潤豐厚的客戶。數(shù)據(jù)挖掘領(lǐng)域已發(fā)展出豐富的計(jì)算理論和模型,人文計(jì)算研究可以先直接選用,隨后到人文研究中尋找合適的應(yīng)用;或者根據(jù)人文計(jì)算需要挖掘的內(nèi)容,尋找合適的挖掘模型。

第三,研究者不斷嘗試將各種在其他領(lǐng)域使用的信息處理模式引入人文計(jì)算中,并取得了很好的效果。例如新西蘭學(xué)者把生物信息計(jì)算的概率推理模型引入語言發(fā)源的研究中,通過量化考察時(shí)間和空間上的演變過程。成功推斷出印歐語系起源的地理位置。

需要指出的是,人文計(jì)算并不是簡單地借助計(jì)算機(jī)來解決人文研究中的問題,而是利用信息技術(shù)找出一些能夠計(jì)算處理的方式和方法,對(duì)問題的研判仍需要依靠人文研究者。

人文計(jì)算具有鮮明的交叉學(xué)科特點(diǎn),而交叉學(xué)科往往是產(chǎn)生創(chuàng)新思想的沃土。在語言計(jì)算方面,有四位著名學(xué)者對(duì)于語言和計(jì)算的關(guān)系進(jìn)行了深入探討,并建立了新的理論體系。1913年,俄羅斯數(shù)學(xué)家馬爾可夫(A.A.Markov)以詩人普希金長詩中語言符號(hào)出現(xiàn)概率為實(shí)例,研究隨機(jī)過程的數(shù)學(xué)理論,提出了馬爾可夫鏈,并發(fā)展出馬爾可夫模型。1936年,英國數(shù)學(xué)家圖靈(A.M.Turing)發(fā)表了題為《論可計(jì)算數(shù)及其在判定問題中的應(yīng)用》的論文。在這篇具有開創(chuàng)性的論文中,圖靈給“可計(jì)算性”下了一個(gè)嚴(yán)格的數(shù)學(xué)定義,并提出了著名的“圖靈機(jī)”數(shù)學(xué)模型。1948年,美國科學(xué)家香農(nóng)(C.E.Shannon)使用離散馬爾可夫過程的概率模型來描述語言的自動(dòng)機(jī)。1950年,他在《機(jī)器能思維嗎》一文中提出,檢驗(yàn)計(jì)算機(jī)智能高低的最好辦法是讓計(jì)算機(jī)講英語和理解英語,他天才地預(yù)見到計(jì)算機(jī)和自然語言將會(huì)結(jié)下不解之緣。香農(nóng)的另一個(gè)貢獻(xiàn)是創(chuàng)立了“信息論”,他將通過諸如通信信道或聲學(xué)語音這樣的媒介傳輸語言的行為比喻為“噪聲信道”或者“解碼”,他還借用熱力學(xué)的術(shù)語“熵”來作為測(cè)量信道的信息能力或者語言的信息量的一種方法,并首次測(cè)定了英語的熵。1956年,美國語言學(xué)家喬姆斯基(A.N.Chomsky)從香農(nóng)的工作中吸取了有限狀態(tài)馬爾可夫過程的思想,首先把有限狀態(tài)自動(dòng)機(jī)作為一種工具來刻畫語言的語法,并且把有限狀態(tài)語言定義為由有限狀態(tài)語法生成的語言。這些早期的研究工作催生出“形式語言理論”的研究領(lǐng)域。當(dāng)然,人文計(jì)算不僅是語言計(jì)算,其研究的領(lǐng)域和層次還在不斷拓展和深入。人文計(jì)算為信息科學(xué)研究提供了廣闊的實(shí)踐天地。

人文計(jì)算的計(jì)算資源

除堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)和有效的計(jì)算模型外,人文計(jì)算還需要相應(yīng)的計(jì)算平臺(tái)和計(jì)算資源。近年來興起的云計(jì)算提供了按需付費(fèi)使用計(jì)算資源和存儲(chǔ)資源的模式,使用者可以像使用水電等基礎(chǔ)公共資源一樣,使用云平臺(tái)上的計(jì)算資源和存儲(chǔ)資源,只需要按使用量支付一定的費(fèi)用。如果云計(jì)算能真正運(yùn)用在語言計(jì)算中,研究者無需從頭開始投資建設(shè)相應(yīng)的軟硬件平臺(tái)以及這些平臺(tái)運(yùn)行的環(huán)境,就可完成復(fù)雜的計(jì)算處理,大大降低研究的成本,從而更多專注于人文研究的創(chuàng)新內(nèi)容。云計(jì)算將是人文計(jì)算研究不可或缺的計(jì)算資源基礎(chǔ)。

此外,大數(shù)據(jù)(big data)也為人文計(jì)算的發(fā)展注入了源源不斷的強(qiáng)勁動(dòng)力。大數(shù)據(jù)的“大”其實(shí)并沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),對(duì)于不同的研究領(lǐng)域,“大”的度量并不一致。因而可以認(rèn)為,大數(shù)據(jù)是指那些大小已超出傳統(tǒng)意義的尺度,一般軟件工具難以捕捉、存儲(chǔ)、管理和分析的數(shù)據(jù)。而數(shù)字化的人文資料完全具備大數(shù)據(jù)的特點(diǎn),相應(yīng)的研究成果將豐富充實(shí)大數(shù)據(jù)的研究。同時(shí),隨著大數(shù)據(jù)研究的深入,一些通用的大規(guī)模數(shù)據(jù)處理方法和模型會(huì)更豐富、完善和成熟,它們也將促進(jìn)人文計(jì)算的研究進(jìn)展。

人文計(jì)算的典型案例

在近年來人文計(jì)算蓬勃發(fā)展的形勢(shì)下,有必要對(duì)其中比較有代表性的研究項(xiàng)目進(jìn)行總結(jié)。

中國歷代人物傳記數(shù)據(jù)庫

中國歷代人物傳記數(shù)據(jù)庫(China Biographical Database,CBDB)項(xiàng)目的目標(biāo)是以宋代人物的傳記為中心,在積累大量數(shù)據(jù)的同時(shí)進(jìn)行群體傳記學(xué)(prosopography)的研究。群體傳記學(xué)是想找出某一個(gè)特定群體共有的身份信息,比如他們的教育程度、出身背景乃至宗教信仰等,進(jìn)而通過這個(gè)視角對(duì)社會(huì)現(xiàn)象進(jìn)行分析。有清史學(xué)者利用群體傳記學(xué)對(duì)清朝中葉以前的巡撫進(jìn)行研究,具體包括巡撫的籍貫、教育背景等,通過統(tǒng)計(jì)分析發(fā)現(xiàn)一些有趣的現(xiàn)象,如這些巡撫大多在科舉考試中不太成功,他們差不多都在官職生涯中期擔(dān)任這個(gè)職位,這是進(jìn)一步升官的中途站。以往研究者常常提出一些模糊的結(jié)論,此次分析讓這些論斷具有了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。隨著數(shù)據(jù)量的不斷增加,中國歷代人物傳記數(shù)據(jù)庫項(xiàng)目從群體傳記學(xué)進(jìn)一步拓展到人際關(guān)系網(wǎng)絡(luò)的分析。人際關(guān)系網(wǎng)絡(luò)關(guān)注的不再是人物群體的共有特征,而是由許多一對(duì)一關(guān)系對(duì)構(gòu)成的復(fù)雜網(wǎng)絡(luò)。

人物間的關(guān)系一直是歷史研究中的重要一環(huán)。以往的人工分析往往只局限在比較明顯或單純的關(guān)系,難以涉及那些潛在的、復(fù)雜的關(guān)系。通過計(jì)算機(jī)輔助分析,研究者很可能觀察到人際網(wǎng)絡(luò)中不同節(jié)點(diǎn)的關(guān)聯(lián),從而提出新的結(jié)論。參與中國歷代人物傳記數(shù)據(jù)庫項(xiàng)目計(jì)劃的研究者已經(jīng)開始利用這些數(shù)據(jù)來還原宋代思想學(xué)派間的互動(dòng),并推測(cè)宋代的一些學(xué)者可能是不同學(xué)派間溝通的橋梁。

從這個(gè)項(xiàng)目的研究發(fā)展可以看到,研究者在數(shù)據(jù)資源的基礎(chǔ)上不斷變化對(duì)歷史資料審視的視角,計(jì)算模型擴(kuò)展了審視的維度,為挖掘隱藏在數(shù)據(jù)背后的潛在知識(shí)提供了可能,豐富了人文計(jì)算的內(nèi)涵。

印歐語系起源的研究

印歐語系在世界范圍內(nèi)使用人數(shù)眾多,廣泛分布于歐洲、西亞和南亞地區(qū),它的起源一直富有爭議。一種理論認(rèn)為它起源于黑海北方的大草原(Pontic Steppes),大約在6000年前被一個(gè)名叫庫爾干(Kurgan)的游牧民族帶到了其他地方;另一種理論認(rèn)為印歐語系起源于安納托利亞(Anatolia,今土耳其境內(nèi)),是在8000~9500年前伴隨著農(nóng)業(yè)的傳播而散布到世界各地的。前者的主要論據(jù)來自動(dòng)植物詞匯,他們假設(shè)一種語言中如果出現(xiàn)了只在特定地區(qū)才有的動(dòng)植物名稱,比如“鮭魚”和“山毛櫸”之類,那么這種語言就很可能起源于該地。但是反對(duì)派認(rèn)為,因?yàn)闅夂蜃兓仍?,古代?dòng)植物的分布情況很可能和現(xiàn)在大不相同,因此這個(gè)方法很不可靠。

這個(gè)起源爭論由于涉及的時(shí)間漫長,波及的地域廣闊,僅憑借現(xiàn)有的考古實(shí)物難以直接給出答案。那么,有沒有可能運(yùn)用信息技術(shù)的處理手段和計(jì)算工具來研究印歐語系的起源問題?答案是肯定的。新西蘭的研究者根據(jù)特定特征在事物中的反映,利用概率信息進(jìn)行推理,發(fā)現(xiàn)了其中的關(guān)聯(lián)線索,構(gòu)擬出事物發(fā)展變化的過程(該方法已成功應(yīng)用在生物遺傳的研究中)。研究者將詞匯作為語言的遺傳物質(zhì),對(duì)103種印歐語言(既有現(xiàn)代語言,也有古代語言)進(jìn)行分析。初期對(duì)各個(gè)語言的時(shí)間特征和語言的分化特性做了研究,得出的結(jié)論是,印歐語系的各種語言分家的時(shí)間約在7800~9800年前,這個(gè)結(jié)論符合第二種假說。研究者進(jìn)一步考慮各種語言在地理空間上的分布特性,希望找出印歐語系的確切誕生地。他們?cè)诔跗诠ぷ鞯幕A(chǔ)上,運(yùn)用生物信息學(xué)在流行病傳播研究領(lǐng)域的計(jì)算方法和相關(guān)的信息處理模型,把語言的變化和地理數(shù)據(jù)同時(shí)輸入到計(jì)算機(jī)中,得出的結(jié)論明顯支持安納托利亞起源說。

這項(xiàng)研究的結(jié)論獲得首先有賴于語言學(xué)研究的發(fā)展及其豐富的研究成果。研究的數(shù)據(jù)基礎(chǔ)是100多種印歐語言詞匯的同源集合,它們是通過各種比較語言學(xué)的研究文獻(xiàn)收集而來的。此外,在印歐比較語言研究中,針對(duì)比較詞匯的選擇已有一個(gè)標(biāo)準(zhǔn)詞表。此項(xiàng)研究圍繞這一詞表展開。不同研究者在一個(gè)研究鏈上形成了合力。目前,這項(xiàng)研究的數(shù)據(jù)已經(jīng)向公眾開放,有興趣的人一方面可以展開其他相關(guān)的研究,另一方面可以驗(yàn)證研究者的結(jié)論。其次,這項(xiàng)研究在語言學(xué)研究成果的基礎(chǔ)上,通過相關(guān)信息技術(shù)對(duì)這些內(nèi)容作深化處理和宏觀綜合,以計(jì)算和量化的方式來探索傳統(tǒng)語言學(xué)長期存在的爭論。為解決這類問題尋找到有效途徑。因此,一些學(xué)者認(rèn)為該項(xiàng)研究取得了革命性的突破。

人文計(jì)算對(duì)承載中華文化的啟示和展望

從印歐語系起源研究的案例可以看出,在人文計(jì)算中,語言計(jì)算扮演著非常重要的角色。語言是一種特殊的信息載體,曾有專家對(duì)語言的信息表達(dá)作這樣的論述:按物理學(xué)的觀念,信息只不過是被一定方式排列起來的信號(hào)序列。在社會(huì)交際活動(dòng)中,這個(gè)定義還不夠,中國語言學(xué)家、出版家陳原認(rèn)為信息還必須有一定的意義,或者說信息必須是“意義的載體”。因此,語言本身既具有客觀性,也具有主觀性;既具有藝術(shù)性,也具有科學(xué)性;既具有民族性,也具有世界性;甚至還具有強(qiáng)烈的政治性和無階級(jí)性。

語言承載了民族的文化,漢語的使用者目前已經(jīng)超過了10億。漢語除了普通話外還包括眾多方言,僅頂層劃分就有七大方言體系,有北方方言、吳方言、湘方言、贛方言、客家方言、閩方言和粵方言等。眾多的使用者是語言資源的活載體,不斷對(duì)語言進(jìn)行創(chuàng)新,而種類繁多的方言,又進(jìn)一步豐富了語言資源的類別。同時(shí),我國是一個(gè)多民族國家,在我國境內(nèi)除了使用漢語外,還有眾多的少數(shù)民族同胞使用本民族的語言。據(jù)統(tǒng)計(jì),目前我國境內(nèi)使用的民族語言超過120種,這些民族語言已經(jīng)有了初步的語言數(shù)據(jù)資源。這些豐富的語言資源為展開人文計(jì)算提供了基礎(chǔ)保障。

中華文明源遠(yuǎn)流長,在中華文明形成和發(fā)展的過程中留下了大量表征文明的有形或無形的產(chǎn)物。有形的產(chǎn)物如以文字形式記錄下的歷史文獻(xiàn)資料經(jīng)過悉心保存可以傳世,而那些無形的產(chǎn)物通過人們之間世代傳承,隨著時(shí)間的推移和時(shí)代的變遷,一旦湮滅就很難再重現(xiàn)。

眾所周知,漢語的字形盡管較少變化,但是現(xiàn)代漢語和古漢語的讀音有很大的不同。雖在傳統(tǒng)音韻學(xué)中對(duì)此有比較系統(tǒng)的理論分析。但有關(guān)研究已日漸式微。目前已經(jīng)無法清晰地了解到這些不同是如何以及何時(shí)發(fā)生的?,F(xiàn)有的一些探討只是零星出現(xiàn)在有關(guān)詩詞、方言的研究中。這為人文計(jì)算提出迫切要求——運(yùn)用信息技術(shù)發(fā)掘搶救這一中華文化的重要載體,它將為中華文化的歷史無形遺產(chǎn)在信息時(shí)代的傳承和延續(xù)做出貢獻(xiàn),因而以人文計(jì)算的視角展開語言計(jì)算具有緊迫性。

抓住信息時(shí)代機(jī)遇,促進(jìn)人文計(jì)算發(fā)展,是信息時(shí)代對(duì)人文研究人員發(fā)出的召喚。中國作為走向世界的大國離不開人文底蘊(yùn),人文計(jì)算有望發(fā)揮其研究和傳承中華文化的重要作用,再現(xiàn)中華文化的輝煌。

關(guān)鍵詞:人文計(jì)算 數(shù)字人文 語言計(jì)算 計(jì)算社會(huì)學(xué) 云計(jì)算 大數(shù)據(jù)

猜你喜歡
數(shù)字人文云計(jì)算大數(shù)據(jù)
數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書館新生態(tài)
跨界與融合:全球視野下的數(shù)字人文
跨界與融合:全球視野下的數(shù)字人文
大規(guī)模古籍文本在中國史定量研究中的應(yīng)用探索
基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)的設(shè)計(jì)
實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
云計(jì)算中的存儲(chǔ)虛擬化技術(shù)應(yīng)用
科技視界(2016年20期)2016-09-29 13:34:06
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
滨海县| 湖北省| 萨迦县| 台南市| 克拉玛依市| 奉化市| 朝阳县| 遂川县| 抚顺县| 佛坪县| 象山县| 上饶县| 尖扎县| 阜康市| 新民市| 淮滨县| 札达县| 新竹县| 香港| 东山县| 六安市| 孝昌县| 鄱阳县| 嘉兴市| 长白| 惠州市| 茌平县| 阿巴嘎旗| 海城市| 嘉黎县| 利津县| 焉耆| 房产| 宜君县| 平湖市| 芦溪县| 兴业县| 勐海县| 安多县| 施秉县| 祁东县|