徐彤陽,王霞
隨著信息技術(shù)發(fā)展,數(shù)字人文領(lǐng)域不斷汲取其他學(xué)科的技術(shù)和方法。數(shù)字人文起源于人文計算,而人文計算發(fā)端于文學(xué)和語言學(xué)領(lǐng)域[1],數(shù)字人文在語言學(xué)方面的研究趨勢是基于大型語料庫的語料庫語言學(xué)[2]。數(shù)字人文是數(shù)字技術(shù)與人文學(xué)科的跨界融合產(chǎn)物[3],語料庫語言學(xué)是語言學(xué)在計算機(jī)技術(shù)發(fā)展過程中產(chǎn)生的新興學(xué)科,與數(shù)字人文學(xué)科的誕生有異曲同工之妙,二者在諸多方面有交融之處。Oberhelman[4]認(rèn)為數(shù)字人文和語料庫語言學(xué)均實現(xiàn)從元學(xué)科領(lǐng)域的“近讀”到“遠(yuǎn)讀”模式;Brooke等[5]認(rèn)為在文學(xué)計算分析的語境中,數(shù)字人文學(xué)者和計算語言學(xué)家是天然的共生關(guān)系,兩個領(lǐng)域重疊度的升高為彼此發(fā)展產(chǎn)生強(qiáng)大的驅(qū)動力;Pastuch等[6]認(rèn)為數(shù)字人文學(xué)科的發(fā)展對語言歷史學(xué)家的需求,以及在與數(shù)字人文學(xué)科不直接相關(guān)的語言學(xué)家中傳播數(shù)字人文學(xué)科發(fā)展成果的前景,使更廣泛的受眾能夠充分有效地利用數(shù)字人文成果。綜上,語料庫語言學(xué)無論被認(rèn)為是一門學(xué)科還是一種研究方法,作為極具包容性的數(shù)字人文學(xué)科來講,運用其方法或研究范式進(jìn)行數(shù)字人文研究無論是對于數(shù)字人文方法體系的進(jìn)一步完善還是學(xué)科的方向探索都是大有裨益的。
對語料庫語言學(xué)這一跨界與融合的產(chǎn)物,學(xué)界對于其學(xué)科論和方法論的歸屬存在爭議。本文既將它視作一門學(xué)科也視為一種方法,一種通過構(gòu)建語料庫以揭示語言現(xiàn)象的學(xué)科和方法。從方法論講,語料庫語言學(xué)方法主要是采用專門的計算機(jī)軟件來分析被稱為語料庫的計算文本中產(chǎn)生的語言[7],是一種基于頻率分析和索引分析的量化的實證性研究方法[8]。從學(xué)科講,其主要應(yīng)用于教學(xué)、翻譯、詞匯、詞義、詞典和語法等領(lǐng)域[9],除有專屬的研究范式和研究步驟外,主要關(guān)注宏觀(整個語料庫語言特征與文體類型)和微觀(具體的詞匯和語法等語言現(xiàn)象)兩個方面,對應(yīng)兩種研究范式分別為基于語料庫方法和語料庫驅(qū)動[10]。基于數(shù)據(jù)驅(qū)動的研究范式與這二者之間的區(qū)別在于事先不對研究做任何假設(shè),也不試圖推翻既定的理論和定理,讓數(shù)據(jù)指引研究者從語言中挖掘新的現(xiàn)象并作為下一階段研究依據(jù)。在將語料庫語言學(xué)引入數(shù)字人文的研究之前,需要厘清兩個領(lǐng)域的相關(guān)交叉概念:計算機(jī)語言學(xué)、文本挖掘、自然語言處理,通過剖析相關(guān)概念來為文章提供深層次的理論依據(jù)。
語料庫語言學(xué)和計算機(jī)語言學(xué)兩者存在交叉關(guān)系。計算機(jī)語言學(xué)則是語言學(xué)的研究方法之一。Morante等[11]將計算機(jī)語言學(xué)定義為:使用計算機(jī)系統(tǒng)來理解和生成自然語言的方法,主要關(guān)注將計算機(jī)作為工具來對感興趣的語言論及其分支進(jìn)行建模,應(yīng)用領(lǐng)域為機(jī)器翻譯、信息檢索和人機(jī)交互。語料庫語言學(xué)是采用計算機(jī)處理和發(fā)現(xiàn)語言學(xué)的特定研究現(xiàn)象。計算機(jī)語言學(xué)的研究和應(yīng)用范圍較語料庫語言學(xué)廣泛。
文本挖掘(Text Mining,TM)指使用計算工具和技術(shù)從機(jī)器可讀文本或數(shù)據(jù)的聚合體中自動發(fā)現(xiàn)新信息和意外信息。文本挖掘需要準(zhǔn)備源于研究問題的數(shù)據(jù),包括數(shù)據(jù)或文本語料庫的整理、數(shù)據(jù)熟悉和清理、數(shù)據(jù)格式化以及分析方法的選擇。文本挖掘是一個通用術(shù)語,用于對大量文本進(jìn)行計算分析,涉及不同研究領(lǐng)域和程度的分析技術(shù),可以說語料庫語言學(xué)是語言學(xué)領(lǐng)域基于語料庫的文本挖掘,重點關(guān)注語言學(xué)的某種特定現(xiàn)象。
自然語言處理(Natural Language Processing,NLP)是通過開發(fā)計算機(jī)系統(tǒng)來模仿人類語言行為,主要分為開發(fā)計算機(jī)程序來進(jìn)行現(xiàn)實生活的仿真模擬交流和在更嚴(yán)格的層面(詞法、句法和語義)進(jìn)行較大范圍的語篇分析兩個階段[12]。其中第二階段和語料庫語言學(xué)研究內(nèi)容存在交叉關(guān)系,且自然語言處理技術(shù)如SGLM和XML標(biāo)記系統(tǒng)為語料庫處理中的注釋階段提供了技術(shù)支撐。語料庫語言學(xué)可看作是自然語言處理的一個應(yīng)用領(lǐng)域,同時也是數(shù)字人文學(xué)科在處理計算機(jī)可讀文本時的處理技術(shù)和手段。
在厘清兩個領(lǐng)域交叉概念基礎(chǔ)上,對數(shù)字人文和語料庫語言學(xué)之間關(guān)系的剖析、二者跨領(lǐng)域結(jié)合的可行性探討很有必要。Brooke等[5]認(rèn)為數(shù)字人文和語料庫語言學(xué)的關(guān)系是互惠互利、互動共生的,從數(shù)據(jù)和方法兩個維度來對數(shù)字人文和語料庫語言學(xué)進(jìn)行對比[13]。首先,二者都是依賴數(shù)字技術(shù)解決領(lǐng)域傳統(tǒng)研究技術(shù)落后的新興學(xué)科,均實現(xiàn)了“定性-定量”二者結(jié)合的方法轉(zhuǎn)變。其次,語料庫語言學(xué)的研究對象——語料庫既可為語言學(xué)領(lǐng)域的研究提供數(shù)據(jù)基礎(chǔ),又可利用語料庫提供的數(shù)字圖像和文本之間的關(guān)聯(lián)來支持自動語言處理和增強(qiáng)數(shù)字人文學(xué)科的資源[14];反之,數(shù)字人文研究成果可以為語料庫語言學(xué)提供研究數(shù)據(jù)的支撐??傮w講,無論是數(shù)字人文還是語料庫語言學(xué)的發(fā)展不僅對傳統(tǒng)人文學(xué)科進(jìn)入數(shù)字時代的發(fā)展困境,而且還為人類特有語言文本和其他形式的精神成果的數(shù)字化存儲、轉(zhuǎn)譯、處理、分析和檢索提供了新的思路。因此,恰當(dāng)處理大數(shù)據(jù)時代數(shù)據(jù)和人文的平衡關(guān)系是數(shù)字人文學(xué)者需要重點關(guān)注的問題[15]。數(shù)字人文和語料庫語言學(xué)對比,詳見表1。
表1 數(shù)字人文和語料庫語言學(xué)對比
文章以《數(shù)字人文季刊》(Digital Humanities Quarterly,DHQ)作為語料庫構(gòu)建的數(shù)據(jù)來源。從DHQ官方網(wǎng)站下載2007年和2019年數(shù)據(jù),以基于數(shù)據(jù)—驅(qū)動的研究范式進(jìn)行數(shù)字人文語料庫研究,采用同類型語料庫對比的研究方法[16]。需要說明的是,對比語料庫需要滿足代表性、同質(zhì)性和可比較性3個原則[17]。
(1)代表性。代表性作為一種重要的屬性和指標(biāo),衡量樣本語料庫是否能作為該領(lǐng)域語言整體來與一般語料庫進(jìn)行比較[17]。代表性可以應(yīng)用到專業(yè)領(lǐng)域的語料庫構(gòu)建中,以揭示在特定領(lǐng)域中真實語料庫所反映的語言現(xiàn)象。文章采用DHQ作為數(shù)字人文領(lǐng)域的數(shù)據(jù)來源,因為該刊自2007年建刊以來在同行期刊中具有權(quán)威性,且以數(shù)字人文為專題建刊,對數(shù)字人文領(lǐng)域的文章收錄范圍廣、形式多樣,具有數(shù)字人文領(lǐng)域的代表性特征[18]。
(2)同質(zhì)性。同質(zhì)性主要針對兩個語料庫(非常規(guī)語料庫)間的對比,同質(zhì)性重要之處在于能夠反映一個語料庫在某些特征與另一個語料庫的差異[19]。文章語料庫對比均來自DHQ,同屬數(shù)字人文領(lǐng)域的語料庫,因此具備同質(zhì)性要求。
(3)可比較性。可比較性體現(xiàn)在兩個語料庫進(jìn)行比較時,對于語料庫的選擇采用同樣的抽取方法[20]。文章采用DHQ語料庫中不同年份的子語料庫間的對比,通過分析語料庫的語言特征來揭示數(shù)字人文發(fā)展路徑和未來趨勢。
(1)處理工具。采用英國蘭卡斯特(Lancaster)大學(xué)語料庫研究中心Paul Rayson等開發(fā)的基于網(wǎng)絡(luò)的語料分析工具Wmatrix,第四版本[21]。該工具在實現(xiàn)關(guān)鍵詞表、索引行、搭配功能基礎(chǔ)上,由關(guān)鍵詞分析向詞性、語義分析擴(kuò)展[22]。詞性分析時采用CLAWS進(jìn)行標(biāo)記和注釋,在關(guān)鍵詞列表的生成過程中綜合考慮詞在句中語法重要性、詞的范圍和分布對關(guān)鍵詞表的影響。由內(nèi)嵌的工具USAS對文本進(jìn)行語義賦碼,將沒有成為關(guān)鍵詞但具有重要語法功能的低頻詞結(jié)合起來,實現(xiàn)語料庫整體的詞匯定量分析。
(2)2019年語料庫和2007年語料庫對比。2019年語料庫共32篇文章,純文本格式占1.2MB;2007年語料庫共12篇文章,純文本格式占520kb。參照語料庫選自BNC Sampler Written(968,267詞)[23]。
3.3.1 關(guān)鍵詞分析
對兩個語料庫的比較先從詞的維度進(jìn)行。由于不同語料庫中詞頻排序不同,所以不能直接比較詞的頻數(shù),且語料庫大小不同,因此需要根據(jù)語料庫大小將頻數(shù)轉(zhuǎn)換為頻數(shù)占比進(jìn)行標(biāo)準(zhǔn)化處理。另外,采用的LL值是對數(shù)似然比,Rayson[24]通過對不同顯著性差異指標(biāo)對比,認(rèn)為LL值更適合語料庫對比研究的統(tǒng)計分析。當(dāng)自由度為1,(LL值計算采用2*2列聯(lián)表)在99%水平上,臨界值為6.63(p<0.0.1)時,兩個語料庫有1,145個過度使用或為充分使用的具有顯著差異的詞,但將臨界值調(diào)整為99.99%(p<0.0001)水平上臨界值為15.13時,具有顯著差異的詞僅有446個。去除“our”“we”“and”“if”等不做重點研究的詞外,排名前20的關(guān)鍵詞見表2。
居于第一位的詞是“projects”。“項目”一詞在2019年語料庫中出現(xiàn)462次而在2007年語料庫中出現(xiàn)13次,LL值為247.57>15.13。通過進(jìn)一步查看該詞在索引行中的位置,如圖1所示,發(fā)現(xiàn)搭配的詞為“數(shù)字人文”“很多”“一些”等,用來修飾“項目”這個名詞??梢酝茢啵瑪?shù)字人文領(lǐng)域目前以項目制為主要研究形式。出現(xiàn)在第二位的“humanities”和第19位的“digital”在2019年語料庫中出現(xiàn)頻率分別為0.37%和0.63%遠(yuǎn)大于2007年語料庫的0.08%和0.39%。除掉“人文”與“數(shù)字”共現(xiàn)外,人文都是獨立存在的,說明數(shù)字人文領(lǐng)域相關(guān)學(xué)者和研究人員對人文性的關(guān)注愈發(fā)凸顯。需要注意的是,“digital”一詞雖然在兩個語料庫中出現(xiàn)頻次都較多,但出現(xiàn)在表2的倒數(shù)位置,歸結(jié)為兩個原因:一是表2為2019年與2007年語料庫對比情況,旨在分析二者語言現(xiàn)象的差異,反過來會出現(xiàn)不同的結(jié)果;二是Wmatrix中關(guān)于詞維度的分析兼顧詞頻和詞在句子中的語法重要性程度,“數(shù)字”的出現(xiàn)頻率和在句子中的語法成分導(dǎo)致這種情況的出現(xiàn)。
表2 2019年和2007年語料庫前20關(guān)鍵詞對比
圖1 “projects”一詞出現(xiàn)在對應(yīng)句子中呈現(xiàn)的索引行列表
由于語料庫選擇的領(lǐng)域為數(shù)字人文,故“DH”出現(xiàn)頻率高不足為奇?!癲ata”“manuscript”“document”“archive”4個詞都是對數(shù)字人文處理對象的描述。從檔案-文件-手寫稿-數(shù)據(jù)這樣一個數(shù)據(jù)形式過渡鏈,可以看出,數(shù)字人文研究對數(shù)據(jù)集的要求從結(jié)構(gòu)化向非結(jié)構(gòu)化過渡:從數(shù)字人文發(fā)展伊始以圖博檔機(jī)構(gòu)的結(jié)構(gòu)化程度較高的資源為研究基礎(chǔ),至今以數(shù)據(jù)來統(tǒng)稱一切可作為數(shù)字人文的研究對象。這種轉(zhuǎn)變對大數(shù)據(jù)技術(shù)的發(fā)展應(yīng)用提出了挑戰(zhàn),也表明數(shù)字人文發(fā)展中研究范式逐漸傾向基于數(shù)據(jù)驅(qū)動的研究范式。
“visualization”“OCR”是兩種不同數(shù)據(jù)處理階段的技術(shù)??梢暬夹g(shù)一般出現(xiàn)在對數(shù)據(jù)的分析和處理階段,以直觀方式展示數(shù)據(jù)中包含的信息及發(fā)現(xiàn)新知識的過程。OCR(光學(xué)字符識別)技術(shù)是采用光學(xué)的方式將紙質(zhì)的字符和圖片中的文字轉(zhuǎn)化為文本格式,供文字處理技術(shù)進(jìn)一步編輯和加工處理。數(shù)字人文在發(fā)展進(jìn)程中,不斷吸收前沿技術(shù)帶來的新鮮養(yǎng)分,幫助研究人員提高處理數(shù)據(jù)的效率,加深對數(shù)字人文研究的洞見。
“research”“researchers”兩個條目雖然詞根相同,但考慮其詞性在句中承擔(dān)的成分不同,故分別進(jìn)行關(guān)鍵值計算,二詞均表達(dá)學(xué)科領(lǐng)域從事研究工作的參與者。很多語料庫工具在詞頻統(tǒng)計時,將這類詞作為一個詞來統(tǒng)計,忽略了部分詞的詞性不同其含義也不同的可能?!皊pring”一詞作為名詞譯為“春天”,作動詞時當(dāng)“活躍、涌現(xiàn)”講,可見詞的隱喻性分析對于語言表達(dá)中隱喻含義的表征意義重大。
值得關(guān)注的是“l(fā)ibrivox”“crowdsourcing”“volunteers”3個詞在2007年語料庫中沒有出現(xiàn),說明與2007年相比,“有聲讀物數(shù)字圖書館”“眾包”“志愿者”已經(jīng)成為2007年之后數(shù)字人文新的發(fā)展模式和趨勢?!氨姲币讶怀蔀閿?shù)字人文項目發(fā)展模式,“志愿者”出現(xiàn)說明了傳統(tǒng)數(shù)字人文項目隊伍建設(shè)向眾包項目制數(shù)字人文研究隊伍建設(shè)的重整,“有聲讀物數(shù)字圖書館”網(wǎng)站提供了一個全球性的志愿者社區(qū),致力于記錄所有作為免費有聲讀物的公共領(lǐng)域文本,是典型的眾包模式實踐。
“support”“l(fā)abor”為2019年語料庫中具有顯著性意義的詞,可見數(shù)字人文研究和項目運行中需要跨學(xué)科、多領(lǐng)域展開廣泛的合作,不僅需要政策和資金的支持來保障數(shù)字人文研究項目順利進(jìn)行,還要求大量科研機(jī)構(gòu)和人員參與。查看“training”這一關(guān)鍵詞的索引行,發(fā)現(xiàn)“訓(xùn)練”大多與數(shù)據(jù)和數(shù)據(jù)集搭配出現(xiàn),表明數(shù)字人文研究對數(shù)據(jù)的處理基于訓(xùn)練數(shù)據(jù)集,進(jìn)而構(gòu)建模型來實現(xiàn)大量數(shù)據(jù)的處理。利用機(jī)器學(xué)習(xí)等計算方法來對語料庫分析屢見不鮮,如Schl?r等[25]研究采用支持向量機(jī)和深度學(xué)習(xí)的方法對,對句子進(jìn)行自動判斷與識別。盡管如此,句子、語言、古籍等人為產(chǎn)物是人的意識和思維的外顯,是有溫度的,如何平衡技術(shù)冰冷和人文性溫暖是未來在給人文研究插上數(shù)字翅膀時需要思考的問題。
3.3.2 詞性分析
Wmatrix的優(yōu)勢之一在將關(guān)鍵詞分析擴(kuò)展到詞性分析。多角度提供對語料庫數(shù)據(jù)語言現(xiàn)象和整體文本信息的挖掘。當(dāng)自由度為1,p<0.01臨界值為6.63時在2019年和2007年語料庫中出現(xiàn)97個過度使用或未充分使用的具有顯著意義的詞性標(biāo)記,在99.99%水平(p<0.0001)有31個顯著的詞性標(biāo)記。前20標(biāo)記對比見表3。最顯著的詞性標(biāo)記PPIS2代表第一人稱復(fù)數(shù)主觀人稱代詞(we)。2019年語料庫對“we”的使用頻率相當(dāng)于2007年的3倍。對于“we”的使用受到英語語言使用習(xí)慣的影響,在此不做深入分析。需要特別注意的是,ND1代表方向名詞的單數(shù)形式,檢索索引行發(fā)現(xiàn),2007年“西方”這一方位詞的使用最多,2019年則以“南部”最為顯著,進(jìn)一步分析索引行內(nèi)容,發(fā)現(xiàn)DH2018年會首次在南半球舉行。FO代表公式、符號,索引行均為數(shù)字或者簡單數(shù)學(xué)公式、百分比等,可看出數(shù)字人文研究越來越多地融入數(shù)學(xué)、統(tǒng)計學(xué)學(xué)科理論,為數(shù)字技術(shù)環(huán)境下人文現(xiàn)象的發(fā)現(xiàn)和解釋提供客觀依據(jù),其余詞性標(biāo)記如名詞、動詞、形容詞等反映的語詞性質(zhì),需要依附在一定的關(guān)鍵詞才具有更豐富的研究價值。
表3 2019年和2007年語料庫前20詞性標(biāo)記對比
3.3.3 語義域分析
使用USAS標(biāo)記為2019年和2007年語料庫分配語義域標(biāo)簽。在自由度為1(P<0.1)臨界值為6.63時有140個有顯著差異的過度使用和未充分使用語義域標(biāo)簽。在(P<0.0001)臨界值為15.13時有88個顯著差異的語義域標(biāo)簽,表4列出前20語義域標(biāo)簽。
表4 2019年和2007年語料庫前20語義域標(biāo)記對比
K6最具顯著性差異的LL值為519.35,但要關(guān)注排名第二的K5.1語義域中包含“game”“goal”。雖然在對照語料庫中兩個詞用來描述體育領(lǐng)域,但結(jié)合關(guān)鍵詞所在語境分析,“game”指游戲,“goal”指目標(biāo)。將“game”與第一語義域中“player”等描述游戲詞匯匯總,得到語義域頻率:2019年頻率為137,2007年頻率為709,“-”代表“游戲”語義域在2007年語料庫中使用較多。P1代表“一般教育”,“+”說明教育在2019年語料庫中使用較多。H2語義域中以2007年語料庫中使用顯著,相關(guān)索引行顯示的“room”“departments”“threshold”“walls”“doors”等詞,并非使用詞本義,在語境中分析采用詞的引申含義,代表空間、阻擋和壁壘等含義。O1.1語義域中除去“Woods”作為人名的頻率,其余“stone”“cave”“steel”“mud”等詞在語境中以本意出現(xiàn)。W3語義域在2007年語料庫中使用較多,相關(guān)詞語為“hill”“valley”。S1.1.3+語義域代表“參與”的相關(guān)語義域詞匯,如圖2所示。
圖2 “參與”語義域的相關(guān)詞匯列表
S9代表“宗教與超自然”語義域,該領(lǐng)域在2007年語料庫中出現(xiàn)的背后原因在于宗教學(xué)科也是數(shù)字人文應(yīng)用領(lǐng)域。Q1.2語義域以文本、列表、記錄和檔案等詞匯構(gòu)成。A5.2-語義域以“虛假”“誤導(dǎo)”等詞為主,在2007年語料庫中使用較多,其中需要提出“fiction”一詞,該詞在相關(guān)語境中譯作“小說”,說明在2007年數(shù)字人文研究關(guān)注小說這一文學(xué)形式。X8+語義域的關(guān)鍵詞為“努力”“盡力”“斗爭”“試圖”等。I3.1語義域在2019年使用多于2007年,“團(tuán)隊協(xié)作”“志愿者”“招聘”等詞反映了數(shù)字人文團(tuán)隊構(gòu)建和招聘等相關(guān)工作。X2.2、I1.1、S2.1、S5+等4個語義域在2019年語料庫中的頻率分別為0.28、0.15、0.14、0.84,其中X2.2代表知識,反映了數(shù)字人文研究以數(shù)據(jù)為基礎(chǔ)進(jìn)行的知識挖掘;I1.1語義域突出了數(shù)字人文研究項目的資金支持與來源;S2.1語義域代表女性話題,映射出無論是女性數(shù)字人文研究者還是女權(quán)主義的發(fā)展研究者逐漸成為數(shù)字人文領(lǐng)域研究群體;S5+語義域以“組織”“機(jī)構(gòu)”“團(tuán)隊”等為主要關(guān)鍵詞,表明數(shù)字人文研究的隊伍建設(shè)情況。
T3--語義域在2007年語料庫中使用最多的詞匯是“avant-garde”,譯為前衛(wèi)派思想或先鋒。Z7語義域——“假設(shè)”以“if(假如)”為關(guān)鍵詞。O2語義域雖然在2019年語料庫中頻率較高,但是頻率占比低于2007年,以“object(對象)”“model(模型)”為主要關(guān)鍵詞。H5語義域中包含歧義詞“table”,根據(jù)語境譯為“表格”,這里不做進(jìn)一步研究。
綜上,去除有歧義詞語義域歸屬不恰當(dāng)?shù)臉?biāo)記后可知,“游戲”“阻礙”“地理術(shù)語”“宗教”“努力”“前衛(wèi)思想”“假如”“對象”等關(guān)鍵詞為2019年與2007年語料庫對比中具有顯著性差異的語義域典型關(guān)鍵詞。其中,“游戲”和“宗教”作為數(shù)字人文的主要應(yīng)用領(lǐng)域;“努力”和“假如”從語言學(xué)角度體現(xiàn)了學(xué)者對數(shù)字人文未來發(fā)展的憧憬和信心。2019年語料庫中使用較多的語義域中關(guān)鍵詞有“教育”,從側(cè)面揭示了數(shù)字人文在發(fā)展十余年來對教育開始重視并開展數(shù)字人文素質(zhì)教育;“參與”“團(tuán)隊”“組織”體現(xiàn)了數(shù)字人文團(tuán)隊組織的要件,與第一部分詞分析結(jié)果中的眾包對組織構(gòu)建的內(nèi)涵屬同一范疇;“數(shù)據(jù)”一詞強(qiáng)調(diào)數(shù)據(jù)是數(shù)字人文研究的基礎(chǔ);“機(jī)構(gòu)”“資助”表明數(shù)字人文項目的開展需要政府機(jī)構(gòu)和相關(guān)組織予以大力支持;“女性”表明了女性問題在數(shù)字人文研究中的關(guān)注度越來越高,無論是作為研究成員還是歷史上關(guān)于女性問題的研究。
3.3.4 進(jìn)行可視化分析并對比Wmatrix分析結(jié)果
為了更直觀地觀察構(gòu)建的DHQ語料庫文本中出現(xiàn)頻率較高的關(guān)鍵詞,選用可視化工具Voyant來對Wmatrix工具處理數(shù)據(jù)結(jié)果進(jìn)行簡單驗證。
運用Stéfan Sinclair等開發(fā)的Voyant文本挖掘工具[26],對兩個語料庫進(jìn)行可視化分析,作為Wmatrix工具分析結(jié)果的對比,見圖3-4。可以看到,兩個語料庫中關(guān)鍵詞的可視化分析與Wmatrix的分析結(jié)果基本吻合,關(guān)于頻數(shù)差異在于工具對多詞組合和詞的單復(fù)數(shù)形式統(tǒng)計標(biāo)準(zhǔn)不同導(dǎo)致。在2019年語料庫中出現(xiàn)的“work”在Wmatrix中沒有顯示,原因在于Wmatrix并不是單純基于統(tǒng)計和計量學(xué)角度進(jìn)行詞頻統(tǒng)計,還結(jié)合語言學(xué)領(lǐng)域中詞在句中成分的重要性,讓更多頻率不高但處于語言學(xué)關(guān)鍵位置的詞析出,為關(guān)鍵詞分析提供不同的統(tǒng)計標(biāo)準(zhǔn),有利于實現(xiàn)文本中不同詞匯現(xiàn)象和信息的深度挖掘。通過分析發(fā)現(xiàn),不同的處理工具對于詞頻的統(tǒng)計方式、核心算法和研究側(cè)重點存在差異,導(dǎo)致全面把握領(lǐng)域研究內(nèi)容有一定的誤差,但對于整體語料的解釋性方面是一致的。因此,構(gòu)建領(lǐng)域語料庫、優(yōu)化準(zhǔn)確率較高的算法、改進(jìn)語料庫處理準(zhǔn)確性是未來重要的突破口。
圖3 Voyant工具中2007年語料庫關(guān)鍵詞
圖4 Voyant工具中2019年語料庫關(guān)鍵詞
傳統(tǒng)的數(shù)字人文熱點與發(fā)展趨勢研究基于關(guān)鍵詞、共詞、上下文、項目信息、作者合著等,這樣的模式可看作“遠(yuǎn)讀”模式[27]。遠(yuǎn)讀雖然可以從宏觀角度來俯視整個學(xué)科的發(fā)展脈絡(luò),但是一些細(xì)微、具體的語言現(xiàn)象不被重視和發(fā)覺,語料庫語言學(xué)分析彌補(bǔ)了這樣的不足,兼顧“遠(yuǎn)讀”和“近讀”模式,將具有重要語法意義的詞匯析出,彌補(bǔ)作為數(shù)字人文發(fā)展熱點分析的微觀體現(xiàn),只有遠(yuǎn)讀和近讀結(jié)合才能全面考量學(xué)科領(lǐng)域的整體發(fā)展?fàn)顩r。本文對DHQ語料庫關(guān)鍵詞、詞性、語義域進(jìn)行文本及可視化分析,下文進(jìn)行結(jié)果討論。
夏翠娟提出數(shù)字人文“數(shù)據(jù)基礎(chǔ)設(shè)施”為數(shù)字人文研究基礎(chǔ)設(shè)施的一部分[28],這一概念彰顯數(shù)據(jù)在數(shù)字人文研究中的重要地位,尤其是基于數(shù)據(jù)驅(qū)動的數(shù)字人文研究。這里是以數(shù)據(jù)本意來談基礎(chǔ)設(shè)施的,而筆者現(xiàn)在要研究的是數(shù)據(jù)的結(jié)構(gòu)化形式。從文中的關(guān)鍵詞分析不難看出,數(shù)字人文實現(xiàn)了從最初的圖檔博館藏結(jié)構(gòu)化資源到手寫稿再到數(shù)據(jù)的非結(jié)構(gòu)化過渡,研究數(shù)據(jù)的細(xì)粒度化和包容性不斷提高,同時也揭示了數(shù)字人文的實踐和服務(wù)半徑在不斷擴(kuò)展和延伸。
本文的語料庫關(guān)鍵詞分析表明,出版公司和志愿者等詞匯頻繁出現(xiàn),實現(xiàn)傳統(tǒng)數(shù)字人文以項目制研究模式到眾包模式的過渡和升級,是數(shù)字人文學(xué)科壯大發(fā)展的新成果。眾包模式從商業(yè)環(huán)境過渡到科研領(lǐng)域,核心在于創(chuàng)新協(xié)作模式。首先,數(shù)字人文為跨學(xué)科研究領(lǐng)域,需要人文學(xué)科、計算機(jī)領(lǐng)域等學(xué)者通力合作才能實現(xiàn)研究和實踐目標(biāo),因此眾包應(yīng)運而生。其次,數(shù)字人文項目源于人文資源和人文課題,項目實施過程中不能完全依賴機(jī)器語言和思維來處理的資料和工作,往往需要公眾和志愿者參與貢獻(xiàn)時間、精力和智力。因此,眾包的出現(xiàn)是合乎數(shù)字人文學(xué)科本質(zhì)和發(fā)展路徑的。
數(shù)字人文概念提出后,不少學(xué)者關(guān)注數(shù)字人文的技術(shù)路徑并提出相應(yīng)的技術(shù)體系。文中從語料庫中析出較為突出的自然語言處理,在應(yīng)用中對數(shù)字人文處理數(shù)據(jù)的結(jié)構(gòu)化要求降低,意味著對自然語言處理技術(shù)要求的提高。自然語言處理技術(shù)的廣泛應(yīng)用可實現(xiàn)人類思維和計算機(jī)思維的有效通信,將大量紙質(zhì)信息數(shù)字化是數(shù)字人文研究的基礎(chǔ),基于此,進(jìn)行形態(tài)學(xué)、詞匯、OCR識別、情感分析和命名實體識別等多層面的分析。另外,可視化技術(shù)可直觀地對數(shù)據(jù)采集、關(guān)聯(lián)和成果進(jìn)行展示,并在此基礎(chǔ)上通過視覺特征引申出新的研究課題。最后,數(shù)字人文研究成果可視化有助于提高公眾的人文理解和激發(fā)公眾參與數(shù)字人文研究的積極性。
數(shù)字和人文兩個詞匯的頻率變化使對人文性重視的語言現(xiàn)象昭然若揭。從2007年到2019年“人文”一詞出現(xiàn)頻率大幅提高,說明數(shù)字人文學(xué)者在采用數(shù)字技術(shù)進(jìn)行研究和實踐過程中,逐漸從數(shù)字技術(shù)為主的研究導(dǎo)向轉(zhuǎn)向以人文性為主、技術(shù)為輔的研究導(dǎo)向,讓以數(shù)字技術(shù)解決人文課題變得有溫度。對于人文性的關(guān)注,有學(xué)者提出,我國關(guān)于數(shù)字人文的討論最早來自傳播領(lǐng)域?qū)τ跀?shù)字時代人文精神缺失的批判;而Spence等[29]認(rèn)為數(shù)字人文不只是以軟件模型來代表人文學(xué)科的理論框架,數(shù)字人文的核心是人文學(xué)科,人文學(xué)科講究人文性??梢妵鴥?nèi)外數(shù)字人文發(fā)展的不同階段均對數(shù)字人文研究實踐的人文性予以重視,利用數(shù)字技術(shù)解決人文課題的同時最大限度保留人文性是人文學(xué)者的初衷。
女性一詞的首次出現(xiàn)值得關(guān)注,無論是女性人員參與數(shù)字人文研究和實踐活動,還是以某個時期女性的研究目標(biāo),均體現(xiàn)了女性參與職業(yè)準(zhǔn)入的自由性和開放性,以及女性在漫長的歷史長河中實現(xiàn)角色獨立的努力和變革,也是數(shù)字人文對人文性重視的外顯。將女性作為研究對象,數(shù)字人文研究成果可為其他學(xué)科提供新的研究課題,女性參與此類數(shù)字人文項目和研究,對于研究的人文性關(guān)注是最大的體現(xiàn)。如我國有學(xué)者以慰安婦為研究起點,將增強(qiáng)現(xiàn)實技術(shù)引入南京地區(qū)侵華日軍慰安所研究[30]。
對于數(shù)字人文學(xué)科發(fā)展和熱點趨勢的研究,很多學(xué)者從關(guān)鍵詞、作者合著、引用與被引等角度進(jìn)行分析。但是在大數(shù)據(jù)視域下,數(shù)字人文學(xué)科的發(fā)展和實踐方向要走“大科學(xué)”的理論和思想路線,將眾多大規(guī)模、歷時性的信息碎片糅合,構(gòu)造數(shù)字人文大局面,因此,挖掘新方法、采用新模式、融合新技術(shù)是數(shù)字人文發(fā)展的必然趨勢。文章以數(shù)字人文領(lǐng)域中具有同行代表性的期刊DHQ作為語料庫的數(shù)據(jù)來源,對其進(jìn)行語料庫語言學(xué)分析,以反映數(shù)字人文領(lǐng)域的歷時性語言現(xiàn)象。數(shù)據(jù)的形式化要求、眾包新模式的探索、自然語言和可視化技術(shù)的應(yīng)用、人文性的重視和對女性參與者及女性群體的關(guān)注,是本文從語料庫語言學(xué)視角對DHQ進(jìn)行歷時語料庫整體分析的五個維度的發(fā)現(xiàn),為數(shù)字人文未來與語言學(xué)的融合發(fā)展起到拋磚引玉的作用。
李慧楠等[31]對2019年數(shù)字人文年會各種形式的信息整理,基于“語料庫”一詞的頻率很高,提出語料庫建設(shè)一直是數(shù)字人文的核心工作之一。但是,目前數(shù)字人文領(lǐng)域還未構(gòu)建專門語料庫,對于語義域賦碼很難做到專業(yè)的標(biāo)記,而包含隱喻現(xiàn)象的詞匯處理準(zhǔn)確率問題仍亟待解決,這也是本文的不足之處。