秦曉惠
“眾源方式”(crowdsourcing,一般譯作“眾包技術(shù)”)是由“crowd”和“outsourcing”組成的合并詞,最早由杰夫·豪(Howe 2006)提出,最初指企業(yè)(the crowdsourcer)通過公開呼吁調(diào)動(dòng)和利用大眾(the crowd)的創(chuàng)意和能力,是勞動(dòng)力組織的一種全新模式?!氨娫捶绞健痹缙谥饕獞?yīng)用于商業(yè)領(lǐng)域,如軟件業(yè)、服務(wù)業(yè)等,現(xiàn)已廣泛應(yīng)用于文化、地理、教育、醫(yī)學(xué)、語(yǔ)言等社會(huì)各個(gè)領(lǐng)域。在“眾源方式”項(xiàng)目中,廣大志愿者和業(yè)余人員,愿意利用空余時(shí)間工作,滿足于獲得小額報(bào)酬,或者暫無(wú)報(bào)酬,僅僅獲得精神滿足。從更廣泛的意義上來(lái)說(shuō),利用群體智慧完成某項(xiàng)任務(wù)或某個(gè)項(xiàng)目,都可以稱作“眾源方式”。
約翰霍普金斯大學(xué)的語(yǔ)言技術(shù)中心及言語(yǔ)處理中心(Human Language Technology Center of Excellence&Center for Language and Speech Processing)是“眾源方式”在語(yǔ)言學(xué)中應(yīng)用的最前沿研究中心。該中心致力于以“眾源方式”為技術(shù)核心的亞馬遜土耳其機(jī)器人(Amazon Mechanical Turk)的研究,主要探討其在大規(guī)模自然語(yǔ)言處理和機(jī)器翻譯中的應(yīng)用,重點(diǎn)強(qiáng)調(diào)了其在高效、低價(jià)收集海量數(shù)據(jù),建立大型語(yǔ)料庫(kù)等方面的優(yōu)勢(shì)(Callison-Burch&Dredze 2010)。本文擬探討“眾源方式”在語(yǔ)言學(xué),尤其是在詞典學(xué)上的應(yīng)用?!氨娫捶绞健钡母拍铍m說(shuō)近年才被提出,但其核心理念在詞典學(xué)上卻可以追溯到19世紀(jì)。1838年由格林兄弟(Brothers Grimm)著手編纂的《德語(yǔ)大詞典》[1](Deutsches Wrterbuch)可以看作“眾源方式”在詞典編纂中最早的應(yīng)用。作為歐洲大陸第一部真正意義上的歷史主義詞典,該詞典招募了83位志愿者,承擔(dān)閱讀文獻(xiàn)、收集詞條引語(yǔ)的任務(wù)。
受《德語(yǔ)大詞典》的激勵(lì)和啟發(fā),基于民族自豪感和自尊心的驅(qū)動(dòng)[2],《牛津英語(yǔ)詞典》第一版(Oxford English Dictionary1stEdition,1857—1928)于1857年由英國(guó)語(yǔ)文學(xué)會(huì)(Philological Society)的理查德·特倫奇(Richard Trench)正式發(fā)起。在宣讀題為“關(guān)于我們英語(yǔ)詞典中的若干缺陷”(“Some Deficiencies in Our English Dictionaries”)的報(bào)告時(shí)[3],特倫奇提出編纂一部呈現(xiàn)英語(yǔ)詞匯全貌的《新英語(yǔ)詞典》[4]的設(shè)想——即展現(xiàn)英語(yǔ)文獻(xiàn)中出現(xiàn)的每個(gè)英語(yǔ)詞來(lái)源、發(fā)展和現(xiàn)狀的完整歷史[5]。西方語(yǔ)文學(xué)及英語(yǔ)詞典史上的登峰造極之作《牛津英語(yǔ)詞典》由此緣起。這部基于歷史主義原則的鴻篇巨制,經(jīng)歷了70余年的編纂歷程。期間雖歷經(jīng)坎坷,主編幾易,但無(wú)數(shù)默默無(wú)聞的志愿者出于對(duì)英語(yǔ)的熱愛,貢獻(xiàn)了數(shù)百萬(wàn)個(gè)詞條信息,成為《牛津英語(yǔ)詞典》最堅(jiān)固的基石[6]。
1857年,特倫奇在提出《新英語(yǔ)詞典》編纂設(shè)想時(shí)指出:“通過一大批人攜手加入到這項(xiàng)事業(yè)中來(lái),拉開一面大網(wǎng),把無(wú)數(shù)隱匿于英語(yǔ)文獻(xiàn)中的詞匯收羅其中?!?轉(zhuǎn)引自Murray 1979:136)同年,在特倫奇的號(hào)召下,語(yǔ)言學(xué)會(huì)正式啟動(dòng)了“閱讀計(jì)劃”(Reading Program),號(hào)召義務(wù)讀者(Volunteer Reader)通過閱讀已有英文文獻(xiàn)來(lái)記錄“非同尋?!钡脑~匯。大眾的反應(yīng)很熱烈,到年底時(shí),已有76位志愿者完成了121本著作的閱讀和引語(yǔ)摘錄。特倫奇宣讀報(bào)告兩年后,語(yǔ)文學(xué)會(huì)正式通過了《語(yǔ)文學(xué)會(huì)對(duì)出版〈新英語(yǔ)詞典〉的建議》(Proposal for the Publication of a New English Dictionary by the Philological Society),將文獻(xiàn)閱讀范圍限定于18、19世紀(jì)主要作家以及更早期所有作家的作品。
1860年,時(shí)任威斯敏斯特教堂(Westminster Abbey)教長(zhǎng)的特倫奇由于教區(qū)事務(wù)繁忙,無(wú)法分身,便將編纂工作托付給了赫爾伯特·柯爾律治(大詩(shī)人塞繆爾·泰勒·柯爾律治的孫子),這位實(shí)際意義上的大詞典首任主編(盡管一些正式出版物中這一身份很少被明確)。他年輕有為但卻體弱多病。盡管他只主持了詞典項(xiàng)目一年多便因受風(fēng)寒病故,但是對(duì)未來(lái)編纂工作的影響卻是深遠(yuǎn)的。他起草了《編纂語(yǔ)文學(xué)會(huì)的新英語(yǔ)詞典時(shí)應(yīng)遵循的規(guī)則》(Canones Lexicograhici;or,Rules To Be Observed in Editing the New English Dictionary of the Philological Society),奠定了大詞典的編纂基礎(chǔ)。他將“閱讀計(jì)劃”中所涉及的書籍分為三部分:(1)1250年到1526年第一本英譯《新約全書》問世期間出版的書籍[7];(2)1526年到1647年彌爾頓去世期間出版的書籍;(3)1647年到1858年該詞典項(xiàng)目正式啟動(dòng)之前出版的書籍。這三個(gè)時(shí)期在他看來(lái)分別代表中古英語(yǔ)(Middle English)、早期現(xiàn)代英語(yǔ)(Early Modern English)和現(xiàn)代英語(yǔ)(Modern English)(Berg 1993:101,164)。
柯爾律治制訂了最早的詞目表,列出了所有他認(rèn)為應(yīng)該收錄的語(yǔ)詞。他還規(guī)范了引文卡片的格式:紙張為書寫紙的一半大小,詞目詞須寫在卡片左上方,引語(yǔ)須寫在其下方,后接引文出處和出版信息,且每張卡片只限抄錄一條引文。這種基本格式除后來(lái)有部分細(xì)微調(diào)整外,一直沿用于大詞典整個(gè)編纂過程。他還為后人留下了自己獨(dú)創(chuàng)的有形資產(chǎn)——54格橡木鴿籠式分類資料架(pigeonholes),豎排6格,橫排9格,用來(lái)按字母順序存放義務(wù)讀者的引文資料卡。整個(gè)資料架長(zhǎng)260英尺,可容納10萬(wàn)張引文卡[8]。這項(xiàng)寶貴的遺產(chǎn)被第三任主編、也是整個(gè)詞典項(xiàng)目的核心人物詹姆斯·默里(James Murray)繼承發(fā)揚(yáng),當(dāng)然規(guī)模擴(kuò)大了幾十倍。
1861年,柯爾律治去世后不久,語(yǔ)文協(xié)會(huì)秘書長(zhǎng)弗雷德里克·弗尼瓦爾接任主編。弗尼瓦爾愛好廣泛,精力充沛,卻缺乏條理。盡管由于他的反復(fù)無(wú)常和判斷失誤,大詞典工程幾乎擱淺,但整個(gè)項(xiàng)目能夠幸存和完成卻在很大程度上歸功于他的執(zhí)著和熱情。他的貢獻(xiàn)之一在于將“閱讀計(jì)劃”的范圍擴(kuò)展,認(rèn)為“不光是有價(jià)值的詞,所有的成員包括那些弱勢(shì)詞和小詞”都應(yīng)被囊括到在建的詞庫(kù)中:“將我們的門大大敞開!所有的書證,不是一條兩條,而是所有的都要進(jìn)來(lái)!”(轉(zhuǎn)引自Murray 1979:137)他排除了只重古典作家的偏見,將報(bào)刊出版物納入“閱讀計(jì)劃”的書目,認(rèn)為報(bào)刊同樣是有價(jià)值的語(yǔ)料來(lái)源。他留下的寶貴財(cái)產(chǎn)之一是1864年建立的早期英語(yǔ)文稿學(xué)會(huì)(Early English Text Society),旨在為大詞典提供早期和中古英語(yǔ)的文獻(xiàn)作品。他本人也不斷為大詞典提供引文例證,到1888年,他本人貢獻(xiàn)的引文卡數(shù)量達(dá)到了3萬(wàn)張(Gilliver 2000:238)。他還擴(kuò)展了編輯隊(duì)伍,建立了一個(gè)新級(jí)別的編輯人員隊(duì)伍——他稱之為“義務(wù)分編”(subeditor),主要承擔(dān)引文卡分類整理等基礎(chǔ)性編纂工作。巨大的工作熱情不代表高效的工作成果。由于弗尼瓦爾興趣多變、無(wú)組織才能,大批的義務(wù)讀者和義務(wù)分編開始失去信心,并撤出了詞典項(xiàng)目。大詞典命運(yùn)未卜,直到詹姆斯·默里出現(xiàn),才將它從瀕臨破產(chǎn)的邊緣挽救回來(lái)并將其推向最終的勝利。
1879年,詹姆斯·默里正式成為第三任主編。直到1915年去世,他的大半生都奉獻(xiàn)給了大詞典項(xiàng)目。他自學(xué)成才,學(xué)識(shí)淵博,沉穩(wěn)勤奮,是大詞典主編最理想的人選。在他的管理和監(jiān)督下,“閱讀計(jì)劃”和志愿者的參與得以系統(tǒng)化和科學(xué)化。默里接手后的第一項(xiàng)任務(wù)是整理前兩任主編收集的海量引文例證卡。經(jīng)過20年的積累,這些卡片陳舊不堪,殘缺不全,雜亂無(wú)章,其混亂的狀況令人震驚[9]。默里在住所的后花園建了一個(gè)鐵制的活動(dòng)房,用來(lái)收納從各地運(yùn)來(lái)的卡片,這就是著名的“繕寫室”(Scriptorium)[10]。他將鴿籠式分類資料架擴(kuò)展到了1029只。在對(duì)卡片分類整理的過程中,默里發(fā)現(xiàn),義務(wù)讀者更熱衷于罕見語(yǔ)詞引文的收集,而忽略了普通英語(yǔ)詞匯的收集[11]。同時(shí),一大批重要作品有待被分配選讀。為挽救局勢(shì),默里起草了對(duì)整個(gè)“閱讀計(jì)劃”具有里程碑意義的《請(qǐng)求廣大英語(yǔ)使用者為語(yǔ)文學(xué)會(huì)的新詞典閱讀書籍和選取摘錄的呼吁書》(Appeal to the English-Speaking and English-Reading Public to Read Books and Make Extracts for the Philological Society's New Dictionary,以下簡(jiǎn)稱《呼吁書》)。《呼吁書》附上了須查閱書目的清單,統(tǒng)一了選詞標(biāo)準(zhǔn),規(guī)范了卡片的體例和引證的格式,使得資料收集工作有了質(zhì)的改變。《呼吁書》被分發(fā)到所有英語(yǔ)國(guó)家的書店和圖書館中,激發(fā)了無(wú)數(shù)讀者對(duì)英語(yǔ)的熱愛,他們貢獻(xiàn)的數(shù)百萬(wàn)詞條引文信息為大詞典編纂提供了最重要的材料基礎(chǔ)。
有功于大詞典的志愿者有來(lái)自大學(xué)、研究院、協(xié)會(huì)的教授、學(xué)者,有各個(gè)學(xué)科領(lǐng)域的頂尖專家、功成名就的知名人士,更多的則是來(lái)自各行各業(yè)的普通從業(yè)人員。他們不僅擔(dān)任義務(wù)讀者的角色,還承擔(dān)了分編、次分編(re-subeditor)及清樣校對(duì)等工作,無(wú)私地貢獻(xiàn)時(shí)間和精力。默里對(duì)分編者和次分編者的責(zé)任做了明確規(guī)定:前者主要負(fù)責(zé)將引文卡按字母順序排列,將同一詞條按不同詞性分類,對(duì)引語(yǔ)例證進(jìn)行初步的語(yǔ)義分類;由于新的卡片源源不斷地輸送進(jìn)來(lái),分編分類安排好引文卡片后,次分編負(fù)責(zé)評(píng)估新卡片信息并對(duì)原有的安排進(jìn)行適度調(diào)整。很多默里的好友、知識(shí)界的權(quán)威人士都承擔(dān)了清樣校對(duì)的工作,其中最出色的代表當(dāng)屬菲茨愛德華·霍爾(Fitzedward Hall),一位來(lái)自美國(guó)、隱居于英國(guó)的隱士[12]。自1881年起,他二十年如一日,每天至少花四個(gè)小時(shí)認(rèn)真檢查和校對(duì)大詞典的清樣,其他時(shí)間則用來(lái)閱讀文獻(xiàn)和收集例證。1901年霍爾故去后,默里在第六卷的序言中寫道:“我們不能不對(duì)他的辭世懷有最深的遺憾……他為這部大詞典迄今為止所出版的所有分冊(cè)的編寫工作都提供了非常有價(jià)值的幫助。”另一位來(lái)自美國(guó)的具有傳奇色彩的義務(wù)讀者威廉·切斯特·邁納(William Chester Minor),是大詞典最多產(chǎn)的義務(wù)讀者之一,他也是位犯有殺人罪的精神病罪犯[13]。與霍爾不同的是,他的主要貢獻(xiàn)是文獻(xiàn)閱讀和摘錄引文例證。默里曾這樣熱情洋溢地稱贊邁納:
這個(gè)最高的榮譽(yù)……無(wú)疑非布羅德莫的邁納醫(yī)生莫屬。在過去的兩年中,他送來(lái)了不下1.2萬(wàn)條例證。這些幾乎都是我和布拉德先生正在編寫的詞條所需的例證……邁納醫(yī)生在過去的十七八年中所做的貢獻(xiàn)是如此巨大,單從他的例證,我們便可描述過去四百年的語(yǔ)詞使用情況。(Winchester 1999:182)
由特倫奇發(fā)起,經(jīng)柯爾律治和弗尼瓦爾推行,默里規(guī)范完善的“閱讀計(jì)劃”和大眾參與方式得到了充分的沿續(xù)和發(fā)展[14]。1928年,歷經(jīng)71年艱苦卓絕的勞動(dòng),這部卷帙浩繁的十卷大詞典的最后一卷終于編訂完成。1933年由克雷吉和奧尼恩斯主編,根據(jù)默里的編寫思路和方法編纂的一卷大詞典補(bǔ)編(OED First Supplement)問世。之后,由于戰(zhàn)爭(zhēng)等各種原因,“閱讀計(jì)劃”一度擱淺,所有的引文例證也被封存。1957年,羅伯特·伯奇菲爾德(Robert Burchfield)主持大詞典的補(bǔ)編本編纂工作,重新啟用了“閱讀計(jì)劃”。大詞典補(bǔ)編四卷(OED Second Supplement)分別于1972年、1976年、1982年及1986年陸續(xù)出版。1989年,二十卷本《牛津英語(yǔ)詞典》第二版正式出版。該詞典借助現(xiàn)代計(jì)算機(jī)技術(shù),對(duì)上述三個(gè)版本的詞典文本進(jìn)行了電子化整合,并加入了5000條新詞新義。目前,應(yīng)用互聯(lián)網(wǎng)技術(shù)的大詞典第三版(也稱OED Online)的編纂工作正在進(jìn)行。歷經(jīng)不同的編纂時(shí)期,“眾源方式”的技術(shù)和手段也不斷發(fā)展,日趨成熟。如果說(shuō)在第一版中大眾主要通過“信件”郵寄“引文卡片”,儲(chǔ)存在“鴿籠式分類資料架”的方式參與編輯,今天,在第三版中,“眾源方式”已經(jīng)發(fā)展為通過“電子郵件”發(fā)送“電子文檔”,儲(chǔ)存在“引文數(shù)據(jù)庫(kù)系統(tǒng)”。而通過這種方式,世界各地的義務(wù)讀者每年為該項(xiàng)目提供約60萬(wàn)條引文例證(Berg 1993:164,165)?!氨娫捶绞健痹谶@部英語(yǔ)詞典編纂史上最偉大的作品中得到了完美的沿續(xù)和發(fā)展。
附 注
[1]19世紀(jì),比較語(yǔ)文學(xué)在歐洲大陸興起。德國(guó)格林兄弟的《德語(yǔ)大詞典》和法國(guó) mile Littré的《法語(yǔ)大詞典》(Dictionnaire de la langue franaise)是語(yǔ)文學(xué)在詞典學(xué)領(lǐng)域的代表性成就?!杜=蛴⒄Z(yǔ)詞典》號(hào)召志愿者參與的設(shè)想就是借鑒《德語(yǔ)大詞典》的做法,因此筆者認(rèn)為該詞典是“眾源方式”在詞典編纂中的最早應(yīng)用。
[2]事實(shí)上,《牛津英語(yǔ)詞典》項(xiàng)目的提出在很大程度上是為了趕超歐洲大陸在比較語(yǔ)文學(xué)上的成就,重新恢復(fù)英國(guó)的國(guó)家榮譽(yù)。
[3]特倫奇分別于1857年11月5日和19日向語(yǔ)文學(xué)會(huì)宣讀了該文。1860年由倫敦John W.Parker&Sons再版。
[4]《牛津英語(yǔ)詞典》最初以“根據(jù)歷史原則并主要基于語(yǔ)言學(xué)會(huì)所收集的資料而編纂的新英語(yǔ)詞典”(“A New English Dictionary on Historical Principles,F(xiàn)ounded Mainly on Materials Collected by the Philological Society”)之名出版(1884—1928),1933年再版時(shí)正式更名為Oxford English Dictionary。
[5]在后來(lái)的編纂過程中,由于語(yǔ)言的無(wú)界性、新詞的不斷涌現(xiàn)、版面的限制、時(shí)間的壓力等一系列因素,無(wú)法實(shí)現(xiàn)這一理想的目標(biāo)。也可以說(shuō),《牛津英語(yǔ)詞典》的編纂過程是理想與現(xiàn)實(shí)不斷磨合的過程。
[6]義務(wù)讀者前后一共為大詞典項(xiàng)目貢獻(xiàn)了500多萬(wàn)條引語(yǔ)例證,其中180多萬(wàn)條被大詞典收錄。
[7]將引文例證的年限定在1250年后的做法后來(lái)被摒棄,大詞典選用的例證最早是公元9世紀(jì)的。
[8]柯爾律治對(duì)大詞典的規(guī)模顯然估計(jì)不夠,這個(gè)數(shù)字跟后來(lái)實(shí)際引用的180萬(wàn)條例證相比少得可憐。
[9]默里曾在裝引文卡的麻袋里發(fā)現(xiàn)了幾只老鼠。很多麻袋因?yàn)槌睗穸l(fā)霉,很多資料因?yàn)榱x務(wù)讀者的離世而丟失。
[10]盡管其他人傾向于把這個(gè)潮濕的小房子稱為“工棚”,默里仍決定將其命名為“繕寫室”,用古代僧侶整理神圣手稿的屋子名稱來(lái)美化它。
[11]默里曾提到:“這樣一來(lái),abusion一詞,我們?cè)谝目ㄙY料中就找到了約50條例證,而(很常用的)abuse一詞的例證還不到5個(gè)”(轉(zhuǎn)引自Murray 1979:178)。
[12]霍爾曾在倫敦國(guó)王學(xué)院出任梵文和印度法學(xué)教授職務(wù)。1869年因卷入一場(chǎng)嚴(yán)重的學(xué)術(shù)紛爭(zhēng)而被趕出語(yǔ)文學(xué)會(huì),并被指責(zé)為學(xué)術(shù)騙子?;魻柵c家人逃到了東英吉利一個(gè)名叫威克漢姆集市的村子落腳。一年后,家人離開了他。他的余生就過起了隱士的生活,以后的32年中幾乎足不出戶。
[13]邁納曾是美國(guó)軍醫(yī),參加過內(nèi)戰(zhàn),后因精神分裂被送到倫敦療養(yǎng)。1872年因病情發(fā)作開槍打死一名無(wú)辜的工人,之后由布羅德莫精神病院監(jiān)管。在囚室的20余年間,堅(jiān)持不懈地為大詞典工作。
[14]為了加快詞典編纂進(jìn)度,牛津大學(xué)出版社分別于1888年、1901年和1914年指定亨利·布拉德(Henry Bradley)、威廉·克雷吉(William Craigie)和查爾斯·奧尼恩斯(Charles Onions)三位主編。
1.Berg D L.A Guide to the Oxford English Dictionary.Oxford:Oxford University Press,1993.
2.Callison-Burch C,Dredze M.Creating Speech and Language Data with Amazon's Mechanical Turk.Paper Presented at the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk,2010.
3.Gilliver P.OED Personalia.∥Mugglestone L.(Ed.)Lexicography and the Oxford English Dictionary:Pioneers in the Untrodden Forest.Oxford:Oxford University Press,2000:232—252.
4.Howe J.The Rise of Crowdsourcing.Wired Magazine,2006(6):1—5.
5.Murray K M E.Caught in the Web of Words:James A.H.Murray and the Oxford Engish Dictionary.Oxford:Oxford University Press,1979.
6.Winchester S.The Professor and the Madman:A Tale of Murder,Insanity,and the Making of the Oxford English Dictionary.New York:Harper Perennial,1999.