国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文化組學(xué): 大數(shù)據(jù)時(shí)代的人類文化研究

2018-02-11 13:34:27浙江財(cái)經(jīng)大學(xué)北京外國(guó)語(yǔ)大學(xué)王文斌
關(guān)鍵詞:語(yǔ)料庫(kù)詞語(yǔ)圖書(shū)

浙江財(cái)經(jīng)大學(xué) 邵 斌 北京外國(guó)語(yǔ)大學(xué) 王文斌

提 要: “文化組學(xué)”是通過(guò)對(duì)海量數(shù)據(jù)的定量分析來(lái)揭示人類文化及其演變趨勢(shì)的研究,它被視為是大數(shù)據(jù)背景下進(jìn)行人文計(jì)算的有效方法,推進(jìn)了“數(shù)字人文”的發(fā)展。本文首先對(duì)起始于《科學(xué)》和《自然》雜志上的“文化組學(xué)”研究進(jìn)行了詳細(xì)的述介,之后對(duì)其主要應(yīng)用領(lǐng)域,如語(yǔ)言演變、文化研究、情感分析、未來(lái)預(yù)測(cè)等方面進(jìn)行了綜述,以期引起國(guó)內(nèi)學(xué)界對(duì)該領(lǐng)域的關(guān)注,從而有助于把握大數(shù)據(jù)時(shí)代人文科學(xué)研究的新趨勢(shì)。

一、 引言

2011年初,哈佛大學(xué)J. B. Michel 博士和E. L. Aiden博士的研究組在自然科學(xué)頂級(jí)雜志《科學(xué)》(Science)上發(fā)表的《基于數(shù)以百萬(wàn)計(jì)數(shù)字化圖書(shū)的文化定量分析》一文,其影響是革命性的。它帶來(lái)了一個(gè)全新的研究領(lǐng)域:“文化組學(xué)”(Culturomics),并進(jìn)一步促使人文科學(xué)范式轉(zhuǎn)型為“數(shù)字人文”(Digital Humanities)。

Culturomics一詞為culture(文化)和genomics(基因組學(xué))的縮合。顯然,“文化組學(xué)”是通過(guò)與“基因組學(xué)”類比而來(lái)的: 正如大規(guī)?;蚪M的DNA序列能夠揭示生命信息一樣,大規(guī)模的語(yǔ)言數(shù)據(jù)也能揭示人類思想和文化及其演變趨勢(shì)。Michel等(2011)將“文化組學(xué)”定義為“通過(guò)對(duì)海量數(shù)據(jù)的定量分析來(lái)揭示人類文化及其演變趨勢(shì)的研究”,該研究以“谷歌圖書(shū)語(yǔ)料庫(kù)”為基礎(chǔ),它收錄的是自1500年以來(lái)出版的,包含英、法、德、西、俄、漢和希伯來(lái)語(yǔ)7種語(yǔ)言的3 000萬(wàn)冊(cè)電子圖書(shū)文本,總計(jì)達(dá)5千億詞。因此,谷歌圖書(shū)語(yǔ)料庫(kù)不僅是“大數(shù)據(jù)”(Big Data),更是“長(zhǎng)數(shù)據(jù)”(Long Data),即在大數(shù)據(jù)中加入了時(shí)間維度。需指出的是,由于受圖書(shū)版權(quán)所限,人們無(wú)法直接基于谷歌圖書(shū)的內(nèi)容進(jìn)行研究,為此Michel等人開(kāi)發(fā)了“谷歌圖書(shū)N-gram*N-gram為計(jì)算語(yǔ)言學(xué)領(lǐng)域的術(shù)語(yǔ),指的是從語(yǔ)料庫(kù)中提取出的一詞或多詞序列。在谷歌圖書(shū)詞頻查看器中,N的范圍被限定為1—5,即包含1-gram至5-gram,如“America”、“United States”或“the United States of America”等。谷歌圖書(shū)的N-gram可在以下網(wǎng)站檢索并下載: https: //books.google. com/ngrams/。詞頻查看器”(Google books N-gram Viewer),可將語(yǔ)料庫(kù)中的單詞或詞組每年的使用頻率變化以曲線圖形式進(jìn)行呈現(xiàn)。Aiden(2010)曾談及基于詞頻查看器進(jìn)行文化研究的合理性,“如果詞語(yǔ)被視作是一個(gè)文化單元,那么這種方法即有意義: 基因組里包含了可繼承的生命信息,世代相傳;與之類似,人類書(shū)本中所使用的詞語(yǔ)也同樣繼承了文化信息”(見(jiàn)Ornes, 2010)。

文化組學(xué)研究使得人文社會(huì)科學(xué)的歷時(shí)計(jì)算成為可能,它迅速成為學(xué)界關(guān)注的焦點(diǎn)。國(guó)外已有數(shù)以百計(jì)的著述探索其理論及應(yīng)用。國(guó)內(nèi)一開(kāi)始只有少數(shù)研究對(duì)此有所介紹,如邵培仁和林群(2012)、黃鳴奮(2013)等。此后,陳云松(2015)、陳云松等(2015a,2015b)通過(guò)文化組學(xué)視角對(duì)社會(huì)學(xué)的發(fā)展、近500年來(lái)中國(guó)世界文化遺產(chǎn)的國(guó)際知名度、近三百年中國(guó)城市的國(guó)際知名度進(jìn)行了系列研究,并進(jìn)而提出“社會(huì)組學(xué)”(societalimics)的概念。龔為綱和羅教講(2015)基于文化組學(xué)視角對(duì)19世紀(jì)“海上絲綢之路”上的絲綢、瓷器和茶葉的文化影響力進(jìn)行了定量分析。邵斌(2017)基于文化組學(xué)視角對(duì)浙江文化關(guān)鍵詞在英語(yǔ)世界的影響力進(jìn)行了分析。但相比于大量的國(guó)外研究,國(guó)內(nèi)研究在數(shù)量和質(zhì)量方面都有待拓展和提升。有鑒于此,本文擬對(duì)國(guó)外的文化組學(xué)研究做一綜述,本文先從《科學(xué)》和《自然》(Nature)雜志上的文化組學(xué)早期研究著手,之后概述其在各個(gè)領(lǐng)域的應(yīng)用,以期有助于學(xué)界把握大數(shù)據(jù)時(shí)代人文科學(xué)研究的新趨勢(shì)。

二、 《科學(xué)》和《自然》雜志上的“文化組學(xué)”研究

Michel等(2011)運(yùn)用詞頻查看器主要開(kāi)展了以下5個(gè)方面的研究: 一是對(duì)英語(yǔ)詞匯總量的預(yù)測(cè)。據(jù)其測(cè)算,英語(yǔ)詞匯在1900年時(shí)有近55萬(wàn),在1950年時(shí)近60萬(wàn),至2000年則增至100萬(wàn)詞,現(xiàn)今每年遞增8 400詞。研究發(fā)現(xiàn),63%的詞匯都是低頻詞*頻率界限設(shè)定為谷歌圖書(shū)中每10億詞中出現(xiàn)1次,即10-9,低于該值即為低頻詞。,52%的詞匯未被《牛津英語(yǔ)詞典》所收錄。二是對(duì)語(yǔ)法演變的探索。該文以英語(yǔ)不規(guī)則動(dòng)詞為例來(lái)論證使用頻率與語(yǔ)法演變之間的關(guān)系。研究發(fā)現(xiàn),高頻的不規(guī)則動(dòng)詞發(fā)生規(guī)則化的概率較小,而低頻動(dòng)詞則容易規(guī)則化*規(guī)則化是指動(dòng)詞的過(guò)去式和過(guò)去分詞加規(guī)則的屈折后綴-ed的現(xiàn)象。。三是測(cè)算人的名氣。如果將名氣視作是人名在語(yǔ)料庫(kù)中的出現(xiàn)頻率,那么名氣可加以計(jì)算。研究以1800年和1950年作為考察的先后時(shí)間點(diǎn),結(jié)果發(fā)現(xiàn)人們初次成名的年齡從43歲降至29歲,名氣翻倍所需時(shí)間從8.1年減至3.3年,名氣的“半衰期”(指名氣減半所需的時(shí)間)從120年跌至71年。簡(jiǎn)言之,當(dāng)代人出名更早,成名更快,但被人遺忘也更快了。四是追蹤出版審查制度。歷史上對(duì)某個(gè)人或某種思想的壓制會(huì)留下可以計(jì)量的痕跡。比如英語(yǔ)和德語(yǔ)的谷歌圖書(shū)中都顯示猶太畫(huà)家馬克·夏加爾在1910年前后開(kāi)始成名,但在英語(yǔ)世界里,其名氣一直持續(xù)上升,而在1936年至1944年的德語(yǔ)世界里,其名氣卻跌至谷底,顯然這是因納粹德國(guó)對(duì)猶太人的迫害而導(dǎo)致該畫(huà)家“銷聲匿跡”。五是拓展“文化組學(xué)”研究范圍。報(bào)紙、手稿、電話錄音、電子郵件、地圖等也都可成為文化組學(xué)的數(shù)據(jù)來(lái)源。

事實(shí)上,Aiden和Michel 等人基于大數(shù)據(jù)對(duì)語(yǔ)言演變進(jìn)行研究的成果《語(yǔ)言演化動(dòng)態(tài)的定量研究》一文*Aiden在該文中署名為Erez Lieberman,未加上其姓Aiden。,早在2007年就發(fā)表于《自然》雜志。在該論文中,Aiden等詳細(xì)論述了過(guò)去1200年間,英語(yǔ)不規(guī)則動(dòng)詞的規(guī)則化演變趨勢(shì)這一語(yǔ)言發(fā)展規(guī)律。他們發(fā)現(xiàn),所選取的177個(gè)古英語(yǔ)不規(guī)則動(dòng)詞到了中古英語(yǔ)時(shí)期仍保留不規(guī)則性的有145個(gè),到現(xiàn)代英語(yǔ)時(shí)期只剩下98個(gè)。此外還發(fā)現(xiàn),不規(guī)則動(dòng)詞的規(guī)則化速度與其使用頻率的平方根成反比: 如果動(dòng)詞A的頻率是動(dòng)詞B的1/100,則其規(guī)則化速度是后者的10倍。Aiden等(2007)的重要性在于通過(guò)量化方法揭示語(yǔ)言演變的規(guī)律,進(jìn)而預(yù)測(cè)其未來(lái)的變化趨勢(shì)。

之后,Aiden和Michel(2013)的研究成果又以專著形式呈現(xiàn),即Uncharted:BigDataasaLensonHumanCulture一書(shū),邵斌和陳晶晶(2015)對(duì)該書(shū)做了評(píng)介。此外,該書(shū)的中譯本《可視化未來(lái): 數(shù)據(jù)透視下的人文大趨勢(shì)》也已出版。限于篇幅,此處不贅。

三、 “文化組學(xué)”研究的發(fā)展及應(yīng)用

“文化組學(xué)”概念一經(jīng)提出便引起了國(guó)外學(xué)界的廣泛關(guān)注。下文主要針對(duì)“文化組學(xué)”在語(yǔ)言演變、文化研究、情感分析和未來(lái)預(yù)測(cè)等方面的應(yīng)用做一綜述。

1. 語(yǔ)言演變

基于詞頻查看器的語(yǔ)言演變研究主要聚焦于英語(yǔ)詞匯的整體變化,探索詞匯演變的一般規(guī)律。比如,Petersen等(2012a)考察了過(guò)去200多年間(1800-2008),英語(yǔ)、西班牙語(yǔ)和希伯來(lái)語(yǔ)的圖書(shū)語(yǔ)料庫(kù)中1 000萬(wàn)詞的動(dòng)態(tài)變化特征。研究發(fā)現(xiàn): 詞的“死亡率”呈遞增性,近50年有加劇趨勢(shì)。詞語(yǔ)消亡的主因是近義詞之間的零和競(jìng)爭(zhēng)關(guān)系。比如X-ray 一詞的頻繁使用導(dǎo)致與其近義的Radiogram和Roentgenogram兩詞的消亡。與此同時(shí),新詞的“出生率”則呈現(xiàn)減緩趨勢(shì),這體現(xiàn)了人們對(duì)新詞的“遞減邊際需求”(decreasing marginal need)。數(shù)據(jù)還表明,一個(gè)新詞由“出生”到“成年”需要30至50年時(shí)間,即新詞需經(jīng)過(guò)三五十年的使用才可能被詞典所收錄。Petersen等(2012b)借助“異速標(biāo)度分析”(allometric scaling analysis)的統(tǒng)計(jì)方法對(duì)過(guò)去200年間谷歌圖書(shū)7種語(yǔ)言中的1500萬(wàn)詞進(jìn)行考察。研究發(fā)現(xiàn): 當(dāng)語(yǔ)料庫(kù)容量很大時(shí),詞匯的年增長(zhǎng)率呈下降趨勢(shì)。這說(shuō)明到一定總量時(shí),新詞的產(chǎn)生速度會(huì)有所減緩,即詞庫(kù)擴(kuò)張到某一數(shù)量時(shí)會(huì)有所“收斂”。Hills和Adelman(2015)采取文化組學(xué)視角,使用包含谷歌圖書(shū)在內(nèi)的總計(jì)超過(guò)3500億詞的語(yǔ)料庫(kù),選擇4萬(wàn)個(gè)表達(dá)具體性的英語(yǔ)詞匯,考察過(guò)去兩百年間美國(guó)英語(yǔ)在可學(xué)性(learnability)方面的變化。研究發(fā)現(xiàn),美國(guó)英語(yǔ)的具體性在不斷加強(qiáng),即其可學(xué)性在增加。此外,也有研究基于大數(shù)據(jù)對(duì)詞匯語(yǔ)義演變進(jìn)行考察。譬如,Wijaya 和 Yeniterzi(2011)提取谷歌圖書(shū)中的5-gram,觀察節(jié)點(diǎn)詞與周圍詞語(yǔ)的共現(xiàn)變化,自動(dòng)檢測(cè)節(jié)點(diǎn)詞的詞匯語(yǔ)義演變的時(shí)間及趨勢(shì)。

2. 文化研究

基于詞頻查看器的文化研究主要考察文化相關(guān)詞的使用頻率,以此探究文化演變的趨勢(shì)。Twenge等(2012a)選用谷歌圖書(shū)中的當(dāng)代美國(guó)圖書(shū)部分(1960-2008),窺探美國(guó)人對(duì)“個(gè)體化語(yǔ)詞”(individualistic words and phrases)的使用變化。結(jié)果發(fā)現(xiàn): 語(yǔ)料庫(kù)中的個(gè)體化詞語(yǔ)(如 identity、personalize、self、standout、unique等)以及個(gè)體化短語(yǔ)(如all about me、focus on the self等)的頻率顯著增加,可見(jiàn)過(guò)去半個(gè)世紀(jì)美國(guó)社會(huì)的個(gè)體化傾向愈加明顯,集體主義思潮日趨式微。Twenge(2012b)還用類似方法研究了同一時(shí)期76萬(wàn)冊(cè)美國(guó)圖書(shū)中的代詞使用。結(jié)果發(fā)現(xiàn): 第一人稱復(fù)數(shù)代詞(如we、us)的使用數(shù)量下降了10%,第一人稱單數(shù)代詞(如I、me)增加了42%,而第二人稱代詞(如you、your)則增加了3倍。這一研究同樣表明美國(guó)文化中的個(gè)體主義傾向。Greenfield(2013)使用詞頻查看器探索美國(guó)文化演變與生態(tài)演變之間的關(guān)系。研究發(fā)現(xiàn),在過(guò)去200年間(1800-2000),與鄉(xiāng)村生態(tài)有關(guān)的、表示鄉(xiāng)村、義務(wù)、責(zé)任、服從權(quán)威、社會(huì)歸屬、給予、宗教和行動(dòng)等語(yǔ)義的詞語(yǔ)都呈下降趨勢(shì)(如rural、obliged、give、act、obedience、authority、belong、pray等詞),而表示都市、選擇、擁有、內(nèi)心感受、個(gè)體、自我、獨(dú)特、以孩子為中心等語(yǔ)義的、適應(yīng)城市生態(tài)的詞語(yǔ)都呈上升趨勢(shì)(如urban、choose、get、feel、individual、self、unique、child等詞)。研究表明美國(guó)社會(huì)從鄉(xiāng)村生態(tài)轉(zhuǎn)向城市生態(tài)的過(guò)程中,文化也隨之發(fā)生類似轉(zhuǎn)向。Kesebir 和 Kesebir(2012)追蹤了20世紀(jì)美國(guó)圖書(shū)中與“道德和美德”相關(guān)的詞語(yǔ)。結(jié)果發(fā)現(xiàn),這些詞語(yǔ)呈現(xiàn)大幅減少趨勢(shì),說(shuō)明美國(guó)公共話語(yǔ)中的道德和美德話題在縮減。具體而言,涉及一般道德特征的詞(如 character、conscience、decency、dignity、rectitude、righteousness、uprightness、virtue),其頻率在減少,涉及某種具體美德的詞語(yǔ),例如謙虛(如humility、modesty)、感激(如gratitude、thankfulness)、勇氣(如courage、bravery)、關(guān)懷(如kindness、generosity)等下降顯著。他們認(rèn)為,“道德和美德”詞語(yǔ)使用頻率下降是美國(guó)提倡個(gè)體意識(shí)所致,即鼓勵(lì)人們考慮自身的利益,而相對(duì)忽視他人的需求。Xu 和 Hamamura(2014)使用漢語(yǔ)圖書(shū)的詞頻查看器與問(wèn)卷調(diào)查相對(duì)照的方法,考察了自20世紀(jì)80年代以來(lái)中國(guó)的民間信仰變化。研究發(fā)現(xiàn)了中國(guó)現(xiàn)代化進(jìn)程中所出現(xiàn)的物質(zhì)主義、個(gè)體主義以及西方化等傾向,比如“物質(zhì)化”“財(cái)富”“個(gè)體化”“自由”等詞語(yǔ)的頻率有所增加。此外,谷歌圖書(shū)的數(shù)據(jù)與問(wèn)卷調(diào)查的結(jié)果呈現(xiàn)某些不一致性。比如,問(wèn)卷調(diào)查中不再流行的話題,如“中庸”“內(nèi)斂”“傳統(tǒng)道德”等,在谷歌圖書(shū)中仍呈上升趨勢(shì),這說(shuō)明谷歌圖書(shū)所代表的知識(shí)分子作者群與問(wèn)卷所代表的一般民眾對(duì)儒家思想的認(rèn)知存在差異。Caruana-Galizia(2016)使用德語(yǔ)圖書(shū)語(yǔ)料庫(kù)對(duì)Demokratie(民主)、Freiheit(自由)、Frieden(和平)、Herrlichkeit (榮耀), Gerechtigkeit(正義)和 Heldentumd(英雄主義)6個(gè)德語(yǔ)詞進(jìn)行了歷時(shí)研究后發(fā)現(xiàn),在納粹統(tǒng)治期間,這些詞與納粹詞語(yǔ)(Nazi words)高度正相關(guān)。這說(shuō)明這些詞被納粹分子歪曲語(yǔ)義以粉飾太平,煽動(dòng)民眾。這一發(fā)現(xiàn)印證了Orwell在1946年的預(yù)言: 在極權(quán)統(tǒng)治下,語(yǔ)言也會(huì)墮落(Orwell,2009: 371)。Juola(2013)則從谷歌圖書(shū)中提取2-gram來(lái)測(cè)算文化復(fù)雜性,其理論基礎(chǔ)是“信息論”(Information Theory),即開(kāi)放性的語(yǔ)料庫(kù)代表文化體驗(yàn)的廣度,語(yǔ)料庫(kù)中的信息程度越高,則其體現(xiàn)的文化就越復(fù)雜。結(jié)果發(fā)現(xiàn),在20世紀(jì)的美國(guó)圖書(shū)中,2-gram的頻數(shù)從1900年的1 777萬(wàn)個(gè)增加到2000年的4165萬(wàn)個(gè),由此可見(jiàn)文化復(fù)雜程度的遞增。同時(shí)表征詞語(yǔ)分布的“熵值”(entropy)也同步增加,說(shuō)明分布信息復(fù)雜度的增加,即文化隨著時(shí)間推移會(huì)日漸復(fù)雜化。

3. 情感分析

基于大數(shù)據(jù)的情感分析多用定量方法考察情感詞語(yǔ)的頻率,進(jìn)而分析人類情感的歷時(shí)變化。文化組學(xué)的發(fā)展使得此類研究呈現(xiàn)出大數(shù)據(jù)的特點(diǎn),有學(xué)者甚至通過(guò)對(duì)“推特”(Twitter)的情感詞語(yǔ)分析成功預(yù)測(cè)股市變化(Bollenetal., 2011)。Acerbi等(2013)通過(guò)詞頻查看器研究了20世紀(jì)的英語(yǔ)谷歌圖書(shū)中的情感表達(dá)。結(jié)果發(fā)現(xiàn),在20世紀(jì),情感詞語(yǔ)的整體使用頻率在降低。就具體情感而言,“厭惡類”情感詞語(yǔ)的使用減少最多,而“恐懼類”情感詞語(yǔ)的使用在1970年以來(lái)則有所增加。研究還發(fā)現(xiàn),情感詞語(yǔ)的變化與重大社會(huì)事件(如二戰(zhàn)、經(jīng)濟(jì)大蕭條以及嬰兒潮等)具有高度相關(guān)性。比如,二戰(zhàn)期間“悲傷類”情感詞語(yǔ)的頻率達(dá)到頂峰。Bentley等(2014)還考察了“文學(xué)悲觀指數(shù)”(literary misery index)和“經(jīng)濟(jì)悲觀指數(shù)”(economic misery index)之間的聯(lián)系?!拔膶W(xué)悲觀指數(shù)”以“不幸詞”與“幸福詞”的數(shù)量之差來(lái)計(jì)算,“經(jīng)濟(jì)悲觀指數(shù)”則是通貨膨脹率和失業(yè)率之和。他們從20世紀(jì)的英語(yǔ)谷歌圖書(shū)中提取情感詞語(yǔ)的頻率,發(fā)現(xiàn)某一年份的“文學(xué)悲觀指數(shù)”與此前十年內(nèi)“經(jīng)濟(jì)悲觀指數(shù)”的平均值成正相關(guān),比如1975年前后爆發(fā)的能源危機(jī)導(dǎo)致了70年代末“文學(xué)悲觀指數(shù)”的增加。Oishi(2013)則對(duì)不同時(shí)代的“幸?!备拍钭髁思?xì)致研究。該文通過(guò)對(duì)1800至2008年期間美國(guó)谷歌圖書(shū)中的“happy nation”和“happy person”兩個(gè)短語(yǔ)的考察發(fā)現(xiàn),happy nation的使用日益減少,而happy person頻率則在增加,1920年是其轉(zhuǎn)折點(diǎn),兩者頻率之比從初始的2.82減少至0.18。由此大體可見(jiàn),在美國(guó)英語(yǔ)中,happiness的語(yǔ)義在1920年前后發(fā)生了改變,從一種集體情感轉(zhuǎn)變?yōu)閭€(gè)體情感,從“偶然降臨的幸運(yùn)”變?yōu)椤巴ㄟ^(guò)追求可獲得的幸?!薄ohammad(2012)則對(duì)電子郵件和圖書(shū)中的情感詞語(yǔ)進(jìn)行了定量分析。論文首先通過(guò)“眾包”(crowdsourcing)形式獲取“‘詞—情感’關(guān)聯(lián)詞表”,這14200個(gè)詞涵蓋喜、哀、怒、懼、信、惡、驚、待八種人類情感,之后他再考察5-gram中情感詞語(yǔ)的共現(xiàn)詞。結(jié)果發(fā)現(xiàn),一戰(zhàn)期間,德國(guó)、美國(guó)和中國(guó)圖書(shū)中的“恐懼類”詞語(yǔ)都有所增加,類似變化在1900年前后的中國(guó)圖書(shū)中也有體現(xiàn),這可能與當(dāng)時(shí)“義和團(tuán)運(yùn)動(dòng)”有關(guān)。研究還發(fā)現(xiàn),情感詞語(yǔ)的搭配竟體現(xiàn)出性別差異,“喜悅類”詞語(yǔ)多和女性共現(xiàn),而“憤怒類”詞語(yǔ)多和男性共現(xiàn)。

4. 未來(lái)預(yù)測(cè)

Leetaru(2011)的《“文化組學(xué)”2.0》一文可以說(shuō)是文化組學(xué)研究另一標(biāo)志性成果。此前的文化組學(xué)研究多著眼于考察過(guò)去的文化演變,但Leetaru卻通過(guò)收集當(dāng)下數(shù)據(jù)來(lái)預(yù)測(cè)大規(guī)模的人類未來(lái)行為。Leetaru(2011)沒(méi)有采用谷歌圖書(shū)的數(shù)據(jù),他收集的是過(guò)去30年間的新聞數(shù)據(jù),因?yàn)楹笳吒邥r(shí)效性。該新聞數(shù)據(jù)庫(kù)包含1億篇文章,對(duì)它進(jìn)行“情緒和地理分析”(tone and geographic analysis),可以預(yù)測(cè)人類行為。Leetaru探索了三個(gè)個(gè)案,一是預(yù)測(cè)社會(huì)動(dòng)蕩。比如,數(shù)據(jù)庫(kù)的數(shù)據(jù)顯示在2011年1月份,全球媒體對(duì)埃及政府的正面情緒已降至過(guò)去30年來(lái)的最低點(diǎn),而當(dāng)年2月穆巴拉克政權(quán)就被推翻。二是預(yù)測(cè)事件發(fā)生的地點(diǎn)。新聞事件具有空間維度,故可將事件發(fā)生的地點(diǎn)進(jìn)行可視化地理分析。通過(guò)數(shù)據(jù)分析發(fā)現(xiàn),當(dāng)年本·拉登的藏身之處指向巴基斯坦北部的Islamabad和Peshawar兩個(gè)城市之間,后來(lái)本·拉登果真在距離上述兩地不到200公里的地方找到。三是將全球“文明”*此處的“文明”被定義為擁有共同文化和政治基礎(chǔ)的國(guó)家集合。地圖化。通過(guò)對(duì)新聞的“地理聚類”(geographic clustering)以及各地區(qū)城市之間的“情緒關(guān)聯(lián)”分析,可發(fā)現(xiàn)世界被分為六大文明。各種文明之間的關(guān)系也能呈現(xiàn),比如亞洲和大洋洲文明與其他文明都有正面關(guān)聯(lián),且是唯一與中東文明具有正面關(guān)聯(lián)的文明。與Leetaru(2011)類似,Chadefaux(2014)基于谷歌新聞數(shù)據(jù)庫(kù)對(duì)戰(zhàn)爭(zhēng)的早期警示信號(hào)進(jìn)行研究,該數(shù)據(jù)庫(kù)包含6 000萬(wàn)個(gè)網(wǎng)頁(yè),搜索詞包括與戰(zhàn)爭(zhēng)及沖突相關(guān)的23個(gè)詞語(yǔ),如tension、crisis、 conflict、antagonism、clash、contention、discord等。統(tǒng)計(jì)顯示,這些數(shù)據(jù)的確是沖突或戰(zhàn)爭(zhēng)的預(yù)言者。Leetaru(2011)和Chadefaux(2014)等研究是文化組學(xué)的重要拓展內(nèi)容。首先,他們使用的數(shù)據(jù)突破了谷歌圖書(shū)的限制,而采用更具有及時(shí)性的數(shù)據(jù),如新聞和網(wǎng)頁(yè);其次,他們通過(guò)定量分析預(yù)測(cè)未來(lái),大大推動(dòng)了文化組學(xué)研究的發(fā)展。

文化組學(xué)研究在最近六七年獲得如火如荼的發(fā)展,對(duì)人文社科研究已產(chǎn)生革命性影響,但也不乏質(zhì)疑之聲,如Morse-gagné(2011)質(zhì)疑谷歌圖書(shū)語(yǔ)料庫(kù)的平衡性問(wèn)題,即其年均詞數(shù)并不一致,這對(duì)歷時(shí)語(yǔ)料庫(kù)而言是個(gè)瑕疵。Schwartz(2011)認(rèn)為Michel 等(2011)的研究存在缺陷,一是谷歌圖書(shū)并未包含所有圖書(shū),而僅是部分電子化的圖書(shū),研究結(jié)論難免以偏概全;二是圖書(shū)與期刊和報(bào)紙相比,并不緊扣時(shí)代脈搏,很難反映當(dāng)下文化。Liu(2012)則認(rèn)為文化批判的缺席將阻礙“數(shù)字人文”成為人文學(xué)科的真正伴侶,Porsdam(2011)也認(rèn)為,“數(shù)字人文”研究中“數(shù)字太多,人文太少”。然而,質(zhì)疑之聲雖偶有出現(xiàn),但“文化組學(xué)”對(duì)于文化及其演變研究的沖擊仍是空前的。事實(shí)上,從本文綜述可知,早期存在的問(wèn)題后來(lái)已經(jīng)有所改進(jìn),比如數(shù)據(jù)來(lái)源不再局限于谷歌圖書(shū)。最近兩年,更多的研究著力于進(jìn)一步完善“文化組學(xué)”研究,比如Tahmasebi等(2015)提出的“基于知識(shí)的文化組學(xué)”(Knowledge-based Culturomics)以及Suchanek 和 Preda(2015)提出的“語(yǔ)義文化組學(xué)”(Semantic Culturomics)都是試圖對(duì)大數(shù)據(jù)進(jìn)行語(yǔ)義挖掘,從而改善原本單純基于頻率統(tǒng)計(jì)的研究。

四、 結(jié)語(yǔ)

Aiden 和 Michel(2013: 8)指出大數(shù)據(jù)會(huì)改變?nèi)宋目茖W(xué)和社會(huì)科學(xué)的研究范式。 文化組學(xué)概念提出雖只有短短六七年,但它對(duì)人文社科研究已產(chǎn)生了廣泛的影響??梢韵胍?jiàn),隨著海量數(shù)據(jù)的激增,今后人們會(huì)進(jìn)一步優(yōu)化其檢索方法,拓展其應(yīng)用領(lǐng)域,建構(gòu)其理論框架,深化其解釋力度。正如美國(guó)語(yǔ)言學(xué)家Mark Liberman(2010)所言:“2010年與1610年相仿佛。數(shù)字文本和話語(yǔ)的激增和存檔,以及分析工具的更新和計(jì)算方法的便捷,使得21世紀(jì)成為發(fā)明望遠(yuǎn)鏡和顯微鏡的17世紀(jì)初的時(shí)代翻版。如今所能觀察到的不同時(shí)空及文化語(yǔ)境中的型式,其規(guī)模不啻為以往的數(shù)百萬(wàn)倍。無(wú)論身在何處,借助此類新工具,即可發(fā)現(xiàn)有趣的新興型式?!?可以說(shuō),文化組學(xué)視角是大數(shù)據(jù)時(shí)代用來(lái)觀察人類文化的透視鏡。

本文對(duì)《科學(xué)》和《自然》雜志上的“文化組學(xué)”研究進(jìn)行了較為詳細(xì)的介紹,并對(duì)“文化組學(xué)”的主要應(yīng)用領(lǐng)域,如語(yǔ)言演變、文化研究、情感分析、未來(lái)預(yù)測(cè)等方面進(jìn)行了綜述?!拔幕M學(xué)”的影響力巨大,被學(xué)者們視為大數(shù)據(jù)時(shí)代人文社科研究的特色所在,是加強(qiáng)人文與社會(huì)科學(xué)計(jì)算性的重要方法。本文對(duì)之進(jìn)行綜述,以期引起國(guó)內(nèi)學(xué)界的關(guān)注,從而有助于把握大數(shù)據(jù)時(shí)代人文與社會(huì)科學(xué)研究的發(fā)展趨勢(shì)。

猜你喜歡
語(yǔ)料庫(kù)詞語(yǔ)圖書(shū)
容易混淆的詞語(yǔ)
找詞語(yǔ)
圖書(shū)推薦
南風(fēng)(2020年22期)2020-09-15 07:47:08
《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
歡迎來(lái)到圖書(shū)借閱角
班里有個(gè)圖書(shū)角
把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
詞語(yǔ)欣賞
基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
一枚詞語(yǔ)一門靜
垣曲县| 桂林市| 松潘县| 阜宁县| 南和县| 梁平县| 土默特右旗| 宜川县| 封丘县| 临猗县| 河南省| 红原县| 木里| 扎鲁特旗| 内乡县| 韶关市| 新宁县| 绥江县| 南丹县| 织金县| 新化县| 长宁区| 澳门| 玛曲县| 贞丰县| 涡阳县| 平武县| 浮山县| 齐河县| 阜新| 利川市| 延川县| 陵水| 宿州市| 永顺县| 恭城| 哈尔滨市| 南昌市| 昆山市| 沧源| 绥德县|