華中科技大學(xué)外國語學(xué)院 潘 璠
多維度分析法(multi-dimensional analysis, MDA)是一種自下而上的基于語料庫和多元統(tǒng)計技術(shù)對多種語域進行定量對比分析的研究方法。該方法早期被稱為多維度多特征分析法(multi-dimension/multi-feature analysis, MD/MF),由北亞利桑那大學(xué)的Douglas Biber教授首創(chuàng),最初應(yīng)用于英語口筆語的語域變異(register variation)研究。
多維度分析法改變了以往語域變異研究多基于單項語言特征的局面,能基于大量語言特征對多種語域進行系統(tǒng)的描寫和解釋,為精確分析復(fù)雜的英語語域變異提供了有力工具,因而在語言學(xué)研究中得到了廣泛應(yīng)用,如學(xué)術(shù)語篇、方言和性別語言變異、歷時語域變異和跨語言變異等,為語言學(xué)研究提供了新的研究思路和方法。然而,多維度分析法在國內(nèi)尚未得到廣泛應(yīng)用,主要原因在于該方法的理論和實際操作方法非常復(fù)雜,能掌握該方法的國內(nèi)外學(xué)者暫為數(shù)不多,而國內(nèi)外文獻中尚無對該方法整個操作流程的完整詳細的介紹。鑒于此,筆者基于多年的多維度研究經(jīng)驗和大量國外研究文獻,梳理出多維度分析法的理論基礎(chǔ)、研究現(xiàn)狀、發(fā)展趨勢和具體操作方法,以供國內(nèi)學(xué)界參考。
早在二十世紀(jì)七十年代,研究者們就開始認識到語言特征的共現(xiàn)型式在語域?qū)Ρ妊芯恐械闹匾?。Brown & Fraser(1979)認為,語域研究不應(yīng)只聚焦單個孤立的語言特征,而應(yīng)考慮一組語言特征的系統(tǒng)共現(xiàn)。Chafe(1982)則提出基于語言變量的兩對參數(shù)(緊密性vs.松散性、分離性vs.交互性)對比口語和書面語,每對參數(shù)由一組相關(guān)語言特征組成。Chafe的研究已清晰體現(xiàn)了語言特征共現(xiàn)的概念,在綜合考慮大量語言特征分析口筆語差異方面邁出了重要一步。之后,Halliday(1988: 162)將語域定義為“有共現(xiàn)趨勢的一組相關(guān)特征”。這些早期研究者的思想和研究發(fā)現(xiàn)為多維度分析法的誕生提供了重要的理論基礎(chǔ)。Carroll(1960)的研究則提供了方法論基礎(chǔ)。Carroll采用因子分析統(tǒng)計了150篇文本中39個語言特征的共現(xiàn)型式,識別出六個主要的文體風(fēng)格矢量,每個矢量包含若干個語言特征。這些矢量從概念和方法論上都與多維度分析法中的維度非常相似。
基于前人的理論研究以及Carroll(1960)的研究方法,Biber將編程技術(shù)和多變量統(tǒng)計用于識別語言共現(xiàn)型式,并將不同共現(xiàn)型式作為潛在的變異維度進行分析,從而使語言共現(xiàn)的概念通過多維度分析得到了證實和廣泛認可。1983年Biber開發(fā)出詞匯語法賦碼軟件,對LOB和London-Lund語料庫中41項詞匯語法特征進行了賦碼,并通過因子分析識別出這些特征的共現(xiàn)型式。這實質(zhì)上是Biber最早的多維度研究。隨后Biber改進了研究方法,從LOB和London-Lund語料庫中選取了23個口筆語語域,并將41項語言特征拓展為67項語言特征,通過因子分析識別出能區(qū)分口語和書面語語域差異的七個功能性維度,其中五個主要維度為“交互性vs. 信息性”、“敘述性vs.非敘述性”、“指代明確vs.指代依賴情景”、“公開說服性”和“抽象vs.非抽象性”。Biber再基于這些維度對23個語域進行描述,全面系統(tǒng)地揭示了各類口筆語語域的差異。該研究表明,英語的口筆語變異非常復(fù)雜,不同語域間差異在五個維度上均有體現(xiàn),不可能用單一維度進行全面準(zhǔn)確的描述??诠P語之間并不存在簡單的一分為二的對立,而是在不同維度上顯示出不同程度異同。例如,私人信件雖是書面語,卻具有較強交互性、情境依賴性和非抽象性等口語語域特征。該研究為后續(xù)多維度研究奠定了重要的理論和方法論基礎(chǔ),誕生了Biber(1988)具有開創(chuàng)意義的專著《口語和書面語的變異》(Variation across Speech and Writing),該書被廣泛視為Biber的首次多維度研究。
多維度分析法的理論基礎(chǔ)在于: 語域差異源于一組核心詞匯和語法特征在不同語域中出現(xiàn)的相對頻率差異(Biber, 2009),只有綜合考察一組共現(xiàn)的語言特征,才能揭示語域間重要差異,而某一項語言特征的相對頻率差異無法作為區(qū)分語域的可靠憑證。因此,語言特征的共現(xiàn)型式成為多維度分析法的基石。所謂語言特征的共現(xiàn),是指一組語言特征在特定語域中呈現(xiàn)出相似的頻率分布,即共同頻繁出現(xiàn)于某些語域,而較少出現(xiàn)在另一些語域中(Biber, 1988)。例如,被動形式和名詞化在學(xué)術(shù)語篇中均高頻出現(xiàn),而在口語中均低頻出現(xiàn),反映出這兩種語言特征具有共現(xiàn)性。語言特征不會在語域中任意共現(xiàn),如果一組語言特征確實經(jīng)常共現(xiàn),意味著這組特征受到潛在的共同功能制約而聚類。例如,被動形式和名詞化的高頻共現(xiàn)是為了滿足學(xué)術(shù)語篇中信息傳遞的交際需求。由此可見,語言特征與語篇功能之間存在著密切關(guān)系。當(dāng)一組特征在文本中持續(xù)共現(xiàn),這些特征就表達了一種功能維度。這就是多維度分析中隱含的假設(shè): 語言特征的強共現(xiàn)模式標(biāo)志著潛在功能維度,所以多維度分析的核心思想是強調(diào)語言形式與功能之間的對應(yīng)關(guān)系,這種對應(yīng)關(guān)系不是一對一的關(guān)系,而是一種多對多的關(guān)系。語篇中某一功能對應(yīng)的不是單個語言特征,而是一組相關(guān)的具有共現(xiàn)關(guān)系的語言特征,這組共現(xiàn)的語言特征對應(yīng)的也不只是單個功能,而可能是多個功能。同時,這種語言形式與功能之間的對應(yīng)關(guān)系反映了語境、社會認知等功能,例如,省略與縮略形式的共現(xiàn)反映出口語語域因其實時產(chǎn)出性而受制于時間無暇打磨詞語的特點。語言特征都具有功能屬性,它們出現(xiàn)在特定語域是由該語域的目的及情境所致(Biber & Conrad, 2009)。
多維度分析法在理論上有三項重要創(chuàng)新。第一,語域變異是復(fù)雜和多維度的。早期研究主要基于單一參數(shù)比較口語和書面語,而多維度分析法將單一參數(shù)拓展為多維參數(shù),識別出多個維度的差異,描述出任何單一參數(shù)無法描述的語域整體變異,徹底改變了語言學(xué)界看待語言變異的觀念和視角。第二,多維度分析法顯示出口筆語之間語言差異是個連續(xù)體而不是兩分法的兩端,語域間差異表現(xiàn)在多種功能(維度)上,不同語域可以定位于各功能(維度)連續(xù)體上的不同點,語域間差異只在于程度不同,而不是絕對相反(Biber, 1995)。例如,電子郵件是“口語化的書面語”,而有準(zhǔn)備的演講是“書面語化的口語”,兩者之間語言學(xué)差異表現(xiàn)在多個功能維度上,且與兩者在交際目的、語境特征、認知處理等情景因素上的差異有密切關(guān)聯(lián)。第三,大多數(shù)研究是憑借主觀直覺預(yù)先選擇與研究相關(guān)的語言特征,而多維度分析法改變了主觀選擇少量語言特征的做法,根據(jù)目標(biāo)語域特點選擇大量語言特征,再通過因子分析等實證方法篩選出該語域中高頻共現(xiàn)的語言特征(即少數(shù)重要的語言特征),大幅提高了語域分析的全面性、客觀性和準(zhǔn)確性。
多維度分析法在誕生后的三十年間,以標(biāo)志性的代表性著作劃分,經(jīng)歷了四個主要的發(fā)展階段。第一個階段主要是社會語言學(xué)領(lǐng)域的英語文本的口筆語變異研究,以Biber(1988)專著《口語和書面語的變異》為代表。第二個階段從早期以英語文本為主拓展為多語種(如,韓語和索馬里語)的非英語文本研究,代表性著作為Biber(1995)的《語域變異的維度: 跨語言比較》(Dimensions of register variation: A cross-linguistic comparison)。第三個階段的代表性著作為Conrad 和 Biber(2001)的多維度研究論文集《英語中的變異》(Variation in English)。在該階段,多維度分析法的應(yīng)用范圍從社會語言學(xué)領(lǐng)域擴展到應(yīng)用語言學(xué)領(lǐng)域的學(xué)術(shù)語篇研究、專門用途英語、學(xué)習(xí)者語言發(fā)展、歷時語域變異、地域方言及性別語言變異等多個領(lǐng)域。語域研究的時間跨度也從早期的共時研究拓展到歷時研究。第四個階段的代表性著作為Sardinha和Pinto(2014)的《多維度分析: 25年》(Multi-Dimensional Analysis, 25 years on)。這個階段的多維度研究呈現(xiàn)出四個特點: (1) 語域研究范圍進一步拓展與細化,拓展到人口學(xué)變異、歷史演變、語言發(fā)展等一些新的語域;(2) 更多研究開展了新多維度分析,以識別專門語域特有的維度(而非使用以前的維度框架,如Biber 1988年創(chuàng)建的框架);(3) 部分研究在多維度分析的基礎(chǔ)上,補充了多種輔助性統(tǒng)計方法,增強了多維度分析法解決具體問題的能力,如,發(fā)現(xiàn)隱藏的地域分布模式、評估維度解釋的強度以及識別能解釋變異的顯著變量;(4) 一些研究將更多影響語域變異的情景變量整合進多維度分析框架,增強了多維度分析法的解釋功能,拓展了多維度研究的范疇,對未來多維度方法的發(fā)展具有重要意義。
三十年來,多維度分析法因其獨特的宏觀研究視角,在語言學(xué)界得到越來越廣泛的應(yīng)用,從口筆語語域拓展到越來越細化的其它語域。
1) 語域變異研究
多維度分析法誕生于Biber(1988)的英語口筆語語域研究。此后,Biber等人(2004)基于TOEFL學(xué)術(shù)口筆語語料庫(T2K-SWAL),對美國大學(xué)不同學(xué)科不同水平的口筆語語域進行了多維度對比。研究顯示,美國大學(xué)生使用的口語和書面語之間存在明顯差異。所有口語語域都具有交互性較強、所指更依賴情境等特性,而所有筆語語域都具有高信息密度、低敘述性、所指明確和非個人化等特性。
近年來,多維度研究開始轉(zhuǎn)向網(wǎng)絡(luò)語言和電影等非傳統(tǒng)語域。Grieve et al(2011)對兩百萬詞的博客語料庫進行了多維度分析,識別出四個主要維度,并將這些維度通過聚類分析對博客進行了分類,識別出兩種主要博客(個人博客和主題博客)。之后,多維度分析法不斷拓展到更多新的語域。Pinto(2014)分析了1930年到2010年間美國電影的話語演變,識別出七個維度,展示了如何應(yīng)用ANOVA識別顯著的情景變量(如,電影體裁、發(fā)布年度),以及如何借助ANOVA數(shù)據(jù)解釋維度變異。Bertoli-Dutra(2014)調(diào)查了1940年到2009年間流行歌曲的語言變異,對詞匯語法特征和語義特征進行了兩次多維度分析,分別識別出三個變異維度。該研究的特點在于,將多元結(jié)構(gòu)納入多維度分析框架,分析了自動識別的語義場和人工標(biāo)注的語義范疇。
2) 學(xué)術(shù)語篇的內(nèi)部變異研究
繼英語口筆語變異研究之后,多維度分析法也被廣泛應(yīng)用于學(xué)術(shù)英語語篇的各類研究中,如描述不同學(xué)科特性(Conrad, 2001)、比較同一學(xué)科內(nèi)部兩個子語域(Conrad, 1996)、對比六個學(xué)科內(nèi)三類研究論文(理論性、定量和定性論文)(Gray, 2015)、比較不同時期同一類醫(yī)學(xué)研究論文的歷史發(fā)展(Atkinson, 2001)、比較醫(yī)學(xué)論文內(nèi)部不同部分(引言、方法論、結(jié)論和討論)的語言變異(Biber & Finegan, 2001b)。近年,Thompson等人(2017) 對比了十一本環(huán)境學(xué)術(shù)期刊在六個維度上的差別。與以往研究不同的是,他們根據(jù)文本的維度特性識別出跨學(xué)科期刊中具有相似特征的文本聚類。此外,不少研究采用多維度分析法對英語本族語者和非本族語者學(xué)術(shù)語篇的系統(tǒng)差異進行了對比調(diào)查(Gardner et al., 2019)。這些研究均揭示出不同層次語域之間異同,并證明多維度方法能成功識別出細分語域的獨特維度。
3) 方言和性別語言的變異研究
多維度分析法也被應(yīng)用到方言的變異研究中。Biber(1987)考察了英式和美式英語的九個筆語語域,發(fā)現(xiàn)英式英語比美式英語口語化程度更高且更具交互性,而美式英語使用名詞和專業(yè)性表達更多。Grieve(2014)將美國各地讀者寫給報紙編輯的信收集建庫,通過多維度分析識別出該庫中地區(qū)性語言變異。不同于標(biāo)準(zhǔn)多維度方法的是,他采用了輔助性統(tǒng)計技術(shù)“局部空間自相關(guān)分析”,在未見清晰分布模式的情況下識別出三個區(qū)域性維度。
在性別語言研究方面,Rey(2001)對系列美劇對話語料的多維度分析識別出該劇中1966—1993年間男女語言風(fēng)格的變化,發(fā)現(xiàn)女性語言從高度交互性發(fā)展為更具信息性的話語,而男性語言則表現(xiàn)出相反發(fā)展趨勢。Biber和Burges(2001)研究了ARCHER語料庫中男女作者和說話者在1650—1990年間語言的歷時變異,發(fā)現(xiàn)男性和女性對話方式各異,但兩者均傾向于朝更具交互性的話語風(fēng)格發(fā)展,尤其是女性。
4) 歷時語域變異研究
有些研究將多維度分析法應(yīng)用于歷時語域變異研究。Biber & Finegan(2001a)對ARCHER語料庫中口筆語語域的多維度分析發(fā)現(xiàn),在過去四百年間,日記、小說、書信、新聞報道等通俗語域呈現(xiàn)出向口語化風(fēng)格發(fā)展的趨勢,而醫(yī)學(xué)、科學(xué)和法律論文等專業(yè)性書面語域則變得更為抽象、信息密度更高。Westin & Geisler(2002)對《衛(wèi)報》、《每日快報》和《泰晤士報》1900—1993年間的新聞社論進行了歷時考察,發(fā)現(xiàn)新聞社論的說服性和辯論性逐漸增強,而敘述性、抽象度和所指情景依賴性均呈現(xiàn)下降趨勢。Souza(2014)通過結(jié)合Biber(1988)維度與新多維度分析,考察了《時代》雜志的語言和情景特性的歷時變化。值得一提的是,Souza創(chuàng)造性地將維度一的維度值按年代分解,揭示出該雜志從高信息度到高交互性的演變過程。
5) 跨語言變異研究
除英語外多維度分析法還被用于分析非英語語域。Biber(1995)采用Biber(1988)的維度框架,對英語、韓語、圖瓦魯語和索馬里語的語域變異進行了共時和歷時比較,發(fā)現(xiàn)這四種語言的語域變異雖然存在明顯差異,但也表現(xiàn)出驚人相似性,首次揭示了語域變異的跨語言普遍性。Sardinha,Kauffmann和Acunzo(2014)使用了ANOVA統(tǒng)計方法識別出巴西葡萄牙語特有的六個維度,將23個網(wǎng)絡(luò)語域與Biber(1988)框架中的語域?qū)Ρ?,發(fā)現(xiàn)該框架能成功捕捉新語域的變異。這些研究不僅揭示了非英語語言獨特的語域變異特點,也顯示出不同語言中可能存在普遍性變異維度。
6) 小結(jié): 多維度研究中的獨特維度和普遍性維度
在這些研究中有不少研究針對新語域開展了新多維度研究,揭示了特定語言或特定語域中的獨特維度。如,Sardinha,Kauffmann和Acunzo(2014)識別出巴西葡萄牙語獨特的“評價性語篇”維度,將政治語篇和其他語域區(qū)分開來。Gray(2015)識別出“人際焦點 vs. 非人際焦點”維度,根據(jù)研究主題是否聚焦人類認知活動,區(qū)分了不同學(xué)科的研究論文。這些針對特定語域的新多維度分析識別出的獨特維度,反映了該語域中特有的交際優(yōu)先級,解釋了特定交際目的和目標(biāo)語域中的情景特征。
盡管這些研究分析的語域范圍和語言特征集各不相同,但幾乎所有后續(xù)多維度研究均識別出Biber(1988)中的“交互性vs.信息性”維度和“敘述性vs.非敘述性”維度。其中,前者本被認為是區(qū)分口語和書面語的典型維度。然而,一些只調(diào)查口語或書面語的研究也識別出該維度(且多為第一維度),表明該維度不僅僅區(qū)分口語和書面語。從語言學(xué)特征看,該維度區(qū)分了依賴代詞、動詞、副詞和從句的口語類語篇以及依賴名詞和名詞修飾語的書面語語篇(Friginal, 2013)。從交際目的看,該維度區(qū)分了關(guān)注人際交互和立場表達且無修改機會的交互性口語語域與有修改機會的信息性書面語語域,這表明不同程度的交互性或信息性是區(qū)分不同語域的重要標(biāo)記。同樣,“敘述性vs.非敘述性”維度也出現(xiàn)在大部分多維度研究中,顯示出不同程度的敘述性也是區(qū)分不同語域的重要標(biāo)記。在跨語言多維度研究中也識別出該維度,反映出不同語言和文化都需要描述過去時間和現(xiàn)在時間的語篇。Biber認為,這兩個維度在跨語言和跨語域多維度研究中出現(xiàn)的穩(wěn)定性表明,無論在口語還是在書面語中,這類修辭方式都是人類交際的基礎(chǔ)(轉(zhuǎn)引自Friginal, 2013)。當(dāng)然,這些基本維度的普遍性和通用性還有待未來更多跨語言和跨語域研究的進一步確認。
如上所述,國外研究者已將多維度分析法廣泛應(yīng)用于多個領(lǐng)域的研究,取得了豐碩的研究成果,但囿于該方法操作的復(fù)雜性,國內(nèi)的多維度研究還為數(shù)不多。其中,部分研究(如,江進林 許家金,2015;張綿,2016)采用了Nini在2014年開發(fā)的多維度分析賦碼軟件Multi-dimensional Analysis Tagger(MAT)開展研究。該軟件可以自動完成語言特征賦碼、賦碼頻數(shù)統(tǒng)計、生成維度值等操作步驟,即下面的步驟3(不含抽樣復(fù)查),4和5,但不足之處在于該軟件完全基于Biber(1988)的維度框架開發(fā),因而只能提供Biber(1988)中語言特征集的頻率數(shù)據(jù)。下面將詳細描述標(biāo)準(zhǔn)多維度分析的操作步驟、原理和部分釋例,旨在幫助感興趣的研究者理解每一個步驟中蘊含的語言學(xué)或統(tǒng)計學(xué)原理。
1) 建庫和語料選取
要進行多維度分析,首先要設(shè)計和建立適合研究目的且代表多個語域的大型機讀語料庫。根據(jù)Biber(1985)的建議,建庫需要確定目標(biāo)語域的不同交際功能和交際目的,識別該語域情景變量的參數(shù),明確參與交際雙方之間的不同關(guān)系,收集代表該語域變異范圍的文本,注明每個口語和書面語文本的情景特性(如,語域目的和產(chǎn)出環(huán)境等)。
2) 確定要分析的語言特征集
在多維度研究中,語言特征的選擇非常關(guān)鍵(Biber, 1985),直接影響到是否能夠成功提取出具有語域區(qū)分度的維度。確定語言特征集時,應(yīng)盡可能識別出所有與目標(biāo)語域交際功能關(guān)聯(lián)的特定詞類、語法范疇和句法結(jié)構(gòu),即對該領(lǐng)域變異至關(guān)重要的語言特征,并將盡可能多的語言特征納入研究范圍。例如,Gray(2015)在分析期刊論文的語言學(xué)變異時,納入分析的語言特征達130個,涉及到英語中16 類主要詞匯語法和功能范疇,特別是期刊論文中高頻出現(xiàn)的語言特征。Friginal(2008)在研究電話通話時,則把相關(guān)口語特征(如,話語標(biāo)記語、反饋語)加入了特征集,以充分反映電話通話的語言特點。在確定語言特征集時,可參考相關(guān)多維度研究文獻或語法書,如《朗曼口語和書面語英語語法》,該書提供了大量詞匯語法特征在口語、學(xué)術(shù)英語、新聞和小說等語域中的分布數(shù)據(jù)。此外,還需保持語言特征總數(shù)和文本數(shù)之間的合理比例,通常要求語料庫的“文本數(shù)達到語言特征總數(shù)的五倍”(Gorsuch, 1983: 332),以確保這些語域中有足夠變異以及多維度分析的可靠性。
3) 賦碼和統(tǒng)計頻率
在確定特征集后,應(yīng)用賦碼軟件對語料庫中的大量語言特征進行詞性和語法賦碼,然后對賦碼后的文本進行抽樣復(fù)查,特別是與語法范疇相關(guān)的賦碼(如,動詞的第三人稱單數(shù)形式,帶-ing的后置修飾形式),對有規(guī)律的系統(tǒng)性錯誤進行批量處理。隨后,應(yīng)用軟件統(tǒng)計每個文本中所有語言特征的出現(xiàn)頻率,并以千詞為單位標(biāo)準(zhǔn)化,得到用于因子分析的頻率數(shù)據(jù)集,為后續(xù)因子分析提供基礎(chǔ)。其中,部分語言特征的頻率能高達每千詞200次(如,名詞),或低至每千詞0.001次(如,wh-從句)。
4) 因子分析
得到用于分析的數(shù)據(jù)集后,首先需要對這些頻率數(shù)據(jù)進行描述性統(tǒng)計,檢驗這些數(shù)據(jù)集之間是否存在足夠的相關(guān)性以及是否適合因子分析(Tabachnick & Fidell, 2007)。通常需計算Kaiser-Meyer-Olkin Measure(KMO),以觀察變量間的關(guān)系強度是否達到因子分析的要求,以及觀察Barlett’s Test for Sphericity(卡方檢驗的一種)是否達到顯著水平。符合要求的數(shù)據(jù)集可使用SPSS或其他統(tǒng)計程序進行一系列因子分析,識別出重要的特征組合,為最終因子分析做準(zhǔn)備。在多輪實驗性因子分析中,不斷刪除頻率過低、與其他特征重疊度較高或?qū)ο嚓P(guān)性貢獻太小的特征,保留共同度大于0.25和至少在一個因子上負荷大于0.30的語言特征,以進行最終因子分析。
然后,對篩選出的語言特征進行最終因子分析,基于碎石圖或結(jié)構(gòu)矩陣顯示的特征值,確定最佳因子的數(shù)量(通常選擇3—6個因子方案)。最后,根據(jù)研究目的、數(shù)據(jù)集性質(zhì)及因子間相關(guān)系數(shù),選擇適當(dāng)?shù)男D(zhuǎn)方式(如,Promax, Varimax),以確保每個特征變量落在盡可能少的因子上。這樣,每個因子就能得到少數(shù)最具代表性的高負荷語言特征,從而使最終得到的因子結(jié)構(gòu)反映出語言特征的多種共現(xiàn)模式。以這種方式,因子分析將大量語言特征變量減少為幾組因子,每個因子代表高頻共現(xiàn)的一組語言特征。其中,因子負荷為正的語言特征之間為高頻共現(xiàn)關(guān)系,而因子負荷為負的特征與正值特征之間多為互補關(guān)系。
5) 因子(維度)值計算
因子分析識別出的幾組因子,被看作區(qū)分語域間語言變異的功能維度。確定最終因子結(jié)構(gòu)(即維度框架)后,即可計算因子(維度)值。首先,基于各語言特征的標(biāo)準(zhǔn)頻數(shù)計算其Z值。如步驟3)所述,語言特征的頻率差異很大,而高頻特征對因子值的影響比低頻特征要高得多,所以需將所有頻率變量以0.0的均值和1.0的標(biāo)準(zhǔn)偏差進行標(biāo)準(zhǔn)化,將語言特征的頻率值轉(zhuǎn)化為標(biāo)準(zhǔn)方差單元,從而使高頻特征和低頻特征在因子值上影響相同,即在計算維度值時具有相等權(quán)重。然后,基于Z值計算出每個文本在各維度上的維度值。根據(jù)Biber(1988)的做法,只有在各因子上負荷大于0.30的語言特征才用于計算維度值,且每個特征只在其負荷最大的因子上納入計算(部分多維度研究計算多次,即不限于負荷最大的因子)。最后,計算出每個庫的維度值,也就是每個語域的維度均值,這些維度均值反映出該語域的語言學(xué)特性。
6) 維度的解釋
因子分析識別出多組在文本中高頻共現(xiàn)的語言特征,其前提假設(shè)是: 這些高頻共現(xiàn)的特征至少共有一個功能(Biber, 1985)。換言之,因為這些語言特征共有特定的交際功能(潛在維度),它們才一起頻繁出現(xiàn)。這些特征之間的相關(guān)性使得構(gòu)建潛在維度成為可能。因此,維度的建立與解釋以分析語言特征的共現(xiàn)型式為基礎(chǔ),這些共現(xiàn)型式可以從這些語言特征所共有的情景、社會和認知功能等方面進行解讀。確定特定維度的功能意義主要有四種方法: 一是根據(jù)該維度上大多數(shù)語言特征的功能共性;二是根據(jù)各語域在該維度上的分布特點和語域特性;三是通過對特定文本中的共現(xiàn)特征進行定性分析以解讀其潛在功能;四是通過面談幫助解讀定量方法識別出的共現(xiàn)模式。每一組共現(xiàn)語言特征(包括互補分布的共現(xiàn)特征)均根據(jù)該因子上該組特征通常共有的話語功能進行解釋,同時考慮不同語域如何與那些變異維度相關(guān)聯(lián)(Conrad & Biber, 2001: 24)。
以Biber(1988)的研究為例,該研究得到的第一維度由兩組共現(xiàn)特征組成,正值特征包括第一二人稱代詞、省略、縮略形式、動詞現(xiàn)在時等二十多項特征,負值特征包括名詞、介詞、詞長、被動等特征。觀察發(fā)現(xiàn),正值特征多在以人際功能為主且交互性強的口語語篇中高頻共現(xiàn),而負值特征在信息密度高的正式語篇中高頻共現(xiàn)。因此,Biber將第一維度上的正值特征共現(xiàn)解讀為“交互性產(chǎn)出”,將負值特征共現(xiàn)解讀為“信息性產(chǎn)出”,分別代表人際交流功能與信息傳達功能。
7) 語域比較
在識別和解釋各維度之后,即可在確定的維度框架內(nèi)對目標(biāo)語域進行對比分析,同時進一步確定各維度的功能意義。具體做法是: 根據(jù)因子分析結(jié)果,計算出不同語域在不同維度上的維度值。然后,通過比較各語域在各維度上的維度值差異分析語域之間異同,再按照多個維度的功能屬性對不同語域的語言特性進行描述。在Biber(1988)的語域分析中,23個語域在維度一上的分布再次體現(xiàn)了“交互性產(chǎn)出”和“信息性產(chǎn)出”這兩種功能意義的對比。例如,電話通話的維度值最高(正值),表明其交互性最強,人際功能和口語特征最明顯。政府文件的維度值最低(負值),表明其信息性最強,信息密度最大,表達最為具體準(zhǔn)確。不同口筆語語域在維度一上呈現(xiàn)的不同分布特點體現(xiàn)了這些語域的功能特性,從而進一步證實了維度一的功能意義。此外,在語域?qū)Ρ葧r,還可應(yīng)用單因素或雙因素方差分析和獨立T檢驗等統(tǒng)計方法進行顯著性檢驗,以確定兩個語域的維度值差別是否具有統(tǒng)計性顯著差異。
本文闡述了多維度分析法的理論基礎(chǔ)和方法論優(yōu)勢,梳理了多維度分析法在語域變異、學(xué)術(shù)英語研究、歷時語域變異、地域方言及性別語言變異等多個領(lǐng)域的研究和發(fā)展趨勢??梢钥吹剑诙嗑S度分析法誕生后的三十年間,該方法應(yīng)用的語域廣度和深度不斷拓展,研究方法日益多樣化,其在跨語言研究領(lǐng)域的可適用性也得到有力證明,展示了多維度分析法強大的生命力和廣闊的應(yīng)用前景。任何語言產(chǎn)出都可歸結(jié)為不同階層、種族、性別或年齡的社會群體在不同交際情景下為實現(xiàn)不同交際目的而使用的語言特征組合(包括語言、語調(diào)、詞匯和句法等),而多維度分析法提供了從全新視角對這些語言產(chǎn)出進行多維度宏觀描寫和分類比較的可能性。正因如此,多維度分析法未來還將發(fā)揮更為積極和重要的作用。