徐 鵬
(安徽工程大學 外國語學院,安徽 蕪湖 241000)
“語域”是不同情境之下各種語言變體的總稱.某一特定的情境會對應著某些特定語言項目的高頻或者低頻的共現,因而構成了某一特定的語域[1].近幾十年,語域變異已然成為了語言學領域的一個重要研究部分.研究者通過描述小撮語言特征來確立語域特點,或通過比較視角分析語言變異模式.然而因技術限制,大部分研究均采用微觀的方法考察有限的核心詞匯或語法特征,鮮有全面綜合的方法來考察語域變異.隨著語料庫語言學的興起和計算機技術的發(fā)展,給話語研究開辟了新的可能和發(fā)展方向.
語料庫技術的發(fā)展使得語言數據可以被大規(guī)模地收集起來進行自動、系統(tǒng)的統(tǒng)計分析.為了彌補傳統(tǒng)語域變異研究僅著眼于少數語言特征在方法上的不足,Douglas Biber借助計算機通過對文本進行多變量統(tǒng)計,創(chuàng)立了多維度分析法(Multi-dimensional Analysis).該方法的核心思想在于利用自動識別技術采集標準語料庫中的語言特征(詞匯及語法特征)的出現頻率,再通過因子分析的方法確立這些特征之間的共現模式,進而揭露藏身背后的功能維度.再依賴這些維度及其讀值對語域進行全方位的描述.具體操作分為八個步驟:①基于前人研究,搜集文本,建立目標語料庫;②確立所要考察的語言特征及功能;③開發(fā)相關軟件進行自動語法附碼標注;④檢查語料庫文本標注情況;⑤用軟件統(tǒng)計相關語言特征頻數;⑥用因子分析共現特征;⑦對因子進行功能性解釋;⑧計算各文本的維度分值以及各語域的平均維度分值,進而比較分析[1].
多維度分析法憑借自身技術上的優(yōu)勢,自誕生以來被廣泛應用到文體學、社會語言學、語言習得等眾多領域.具體而言,主要在口筆語體分析、文本類型研究、跨語言比較、歷時語言變異、特殊語域變異,方言變異、中介語研究七個方面有著顯著的表現.
多維度分析法為Douglas Biber1984年在其博士畢業(yè)論文中首創(chuàng),1988年通過出版《口語與書面語語體變異》正式確立了模型框架.該方法起源于對英語書面語和口語的變異研究.口語和筆語分屬不同的體系,且子語域眾多,難以一刀切地用某單一維度來劃分.歷史上為了衡量口語和筆語各語域的區(qū)分度,研究者也創(chuàng)建了不同的衡量標準(維度),比如正式/非正式,互動性/非互動,普通/專業(yè),即興/非即興等.由于標尺(維度)的設立具有隨意性,因而導致了口筆語差異研究結論較為混亂,難以達成一致.為了彌補這些維度描述不足的缺陷,Biber從語言特征共現入手,采用自下而上的文本驅動的方法,通過從LOB和London-Lund Corpus兩個語料庫中選取了涵蓋23種口筆語的481個文本,提取了67個語言特征,通過對這些特征進行因子分析,根據不同特征的因子載荷,歸納出六個維度,分別為:交互性/信息性,敘述性/非敘述性,所指明確/所指依賴場景,勸誘性/非勸誘性,抽象性/非抽象性,即席信息詳述.通過比較每個子語域的分值,驗證了口筆語沒有單一絕對的分割界限[2].例如,同為口語體裁,交談和演講在交互性上有很大的差異;私人信件是筆語,卻如口語體裁般地顯示出很大的交互性和場景依賴性.因此,Biber的口筆語研究具有里程碑的意義,第一次全面揭示了口筆語對立的全貌.這次建立的維度也被稱為1988年模型.
多維度分析法因口筆語語域分析而建立,并取得了成功.這項研究為其他多維度應用奠定了基礎.多維度分析法另一個應用在于社會語言學上的文本類型研究.文本類型研究和語域研究一個重要的區(qū)別在于,語域(Register)是一個根據文本外部特征(如情境,目的等)而劃分歸類的概念,而文本類型(Text Type)是根據語言相似度為基礎劃分歸類的概念.同類型的文本未必來源于同樣的情境.Biber使用自己1988年的維度模型,測量數據庫中各文本在維度坐標上的分值,再通過聚類分析(Cluster Analysis)將文本分為八大類型:親密人際互動類、信息互動類、科學說明類、知識說明類、想象記敘類、通用記敘說明類、情境報道類、參與型說服類[3].Biber認為這樣的基于統(tǒng)計模型的劃分更加精確,補充了傳統(tǒng)功能劃分的記敘、議論、描寫、說明四大分類法,以及常規(guī)體裁分類法的不足.
除了文本類型研究外,多維度分析法還被應用于更廣范圍的跨語言研究.用該方法分析索馬里語、朝鮮語、圖瓦盧語、西班牙語時[4-9],亦生成了類似英語中的信息性、交互性、敘事性、態(tài)度場各功能方面的對立維度.尤其是關乎到口/筆語對立和敘事性/非敘事性對立,在各種語言中都有類似的存在.其他維度側重點稍有不同,比如在圖魯語中,交際性的維度最突出,而態(tài)度場的維度略顯次要[7];在朝鮮語中態(tài)度場和信息核的維度同等重要[6].研究支撐了這樣的一個猜測:不同語言是有共性的,英語中創(chuàng)立的維度也可以在其他語言中同樣存在.
歷時語言變異研究最大的貢獻在于揭示語言變化的規(guī)律.Biber和Finegan選用了1988年模型中與口筆語相關的三個維度分析了四百年來小說、散文、私信三個體裁的文本,揭示了隨著時間的推移各體裁在文體風格上的歷史演變,即從早期17-18世紀的書面語化逐漸變得越來越口語化,交互性、場景依賴程度更強[10].之后在2001年,二人更深度全面地挖掘了ARCHER語料庫中跨域四百年10個語域1 037個文本,進一步指出諸如書信、小說、日記等部分筆語語域發(fā)生了口語化的演變,而科學、醫(yī)學、法律等專業(yè)的語言卻變得越來越抽象化和專門化,顯示出與通用英語不同的變化走向[11].除此之外,Atkinson對《倫敦皇家學院哲學學報》三百年的科學文章的分析[12],以及Westin和Geisler對《泰晤士報》《衛(wèi)報》等英國媒體中評論的追蹤考察,都是較為成功的多維度模型歷時考察運用的典范[13].
多維度分析法運用最廣泛的當屬特殊語言變異研究.一系列特殊語域變異研究表明了即便在某一具體語域的內部,也同樣存在著強烈的變異.Biber專門建立了T2K-SWAL語料庫,先后對大學校園語言進行了詳細的考察.用1988年模型,Biber分析了大學里口語(師生會面、課堂管理、學生團體、教學語言等)和書面語(課本、校園寫作、課程包等)的語體特征,發(fā)現大學語言中內部各子語域的口筆語差異較為顯著,且呈罕見極化趨勢[14].為了驗證是否背后隱藏有新的維度,Biber升級了模型,提取了包含立場標記詞和詞束在內的129個語言特征,重新進行因子分析,用新的維度模型更精確地比較了大學校園語言跨學科、跨語域的差異[15].Biber[16]等研究比較了醫(yī)學論文導論、方法、結果、討論四個不同話語目的的結構之間的語言差異,揭示醫(yī)學論文內部語言變異機制,指出語域的概念應當是一個連續(xù)統(tǒng)的構建,在不同的層面可以無限細分,語域劃分越細,話語目的等非語言因素的變化對語域內部的變異影響就越小.Gray[17]從理論、質性、量性角度給學術文本做了分類,用多維度方法描繪了此三大類研究在六門學科中的文本變異情況.此外Susan Conrad[18]對生物和歷史兩個學科的語言特征的比較也是早期學術英語多維度研究的代表之一.雷秀云[19]等探討了學術英語和其他書面英語的不同;桂詩春[20]專門對英語語言學語體進行了詳細的詞匯分析和語法分析.姜武生[21]對學術交流電子郵件語言特征進行了研究.而江進林、許家金對商務英語語域特征的分析表明,多維度分析法能有效區(qū)分商務英語和通用英語,且能較客觀地描摹商務英語的宏觀、微觀語言特征[22].
語域變異拋開說話人籍貫、年齡、性別、地位等外部變量,以文本為研究對象,側重分析情境因素對語言特征的影響,通過語言特征來鑒別語域.舉例來說,任何一個兩千詞左右的對話文本都可以體現對話語域的特征,而不必考慮說話者是誰.因為考察的是情景決定的語域特征,而非某說話人群體的語言特征[23].而方言變異研究和語域變異研究的一個重要區(qū)別在于,方言變異引入了說話者的變量,強調了情境功能之外說話主體的影響.雖然多維度模型的初衷對象是語域變異,但在方言變異研究的應用上也同樣取得了成功.Rey[24]用多維度模型通過考察電視科幻片三十年來男女對話風格,揭示了傳統(tǒng)的語言性別化特征越來越模糊.除性別外,在地理分布上,Helt[25]考證美語口語與英語口語相比,具有更高的互動性,隨意性和抽象性,符合人們的常規(guī)認知.Friginal[26]在考察電話中心的語料上,除了傳統(tǒng)的跨語域對比,亦按照說話人身份、性別、工作年限、語言熟練度等多變量進行分組比較,比較結果表明,方言變異的程度竟然超越了語域變異,為傳統(tǒng)社會語言學的研究提供了有力的支撐.這些成功的研究打破了傳統(tǒng)社會語言學者在“方言變異”研究方法上依然試圖通過局限的幾個語言特征和語料來描寫整個變異規(guī)則的限制,正如之前部分學者Erwin-Tripp,Hymes也發(fā)現語言特征之間存在著共現關系,能夠構建某語域的鮮明特征[27-28],但苦于技術短板無法驗證.至此,以大型語料庫技術為基礎的多維度文本變異研究大大地充實、增強了傳統(tǒng)社會語言學的研究能力,豐富了學術內容和成果.
國內學者更加熱衷于中國學習者書面語的中介語研究,包含了中介語對比研究[29-31]及寫作發(fā)展性研究[32-33],普遍揭示了中國英語學習者語體意識薄弱,書面語口語化傾向明顯,且隨著年齡和英語水平的提高,語體意識逐漸增強,書面語口語化風格逐漸改善.國外的研究包括Van Rooy先后采用1988年模型和新建模型考察了南非黑人英語和英語母語書面語的細微差異[34-35],以及Aguado-Jimenez[36]等人利用多維度模型評價學生的寫作任務,通過反饋改進學生的語言特征使用,進而增進學生的語域意識.口語中介語的多維度變異研究因語料的采集、轉寫難度較大,目前相對缺少.值得一提的是Connor-Linton[37]等巧妙利用多維度模型作為語言任務的效度檢測工具,來檢驗不同語境因素和不同誘發(fā)任務狀態(tài)對口語表現的影響.
總結來看,多維度模型的實證研究根據模型采用可分為兩大類:①重建維度的完全型多維度研究.此類型多用于全新的具體的語域變異研究,當懷疑存在新維度,需要補充新的語言特征時,即重新進行因子分析,構建新的維度[15,38-39];②借用已有維度的非完全型多維度研究.此類多借用Biber1988年的維度模型去考察分析目標話語的口筆語變異,構建目標語域在已有維度中的位置,如Biber[14],雷秀云[19]等,潘璠[31]等.
如上所見,多維度研究從創(chuàng)立之初至今三十余年,以其廣泛的應用擴大了變異研究的視角,補充了傳統(tǒng)語域研究的短板.其模型也并非毫無瑕疵,由于部分設計缺乏有力的理據支撐而飽受爭議.盡管Biber不停地修改、辯護,但批評仍不絕于耳.結合前人研究以及筆者自己使用該方法分析政治文獻語域的反饋來看,思考主要有以下幾個方面:
對于多維度分析法的批判多為設計層面的,其中最大的詬病莫過于語言特征遴選.不同多維度應用研究中,選取的特征數不盡相同.Biber選取67個詞性、語法特征,構建的六個維度正式確立的多維度理論體系借用廣泛,影響最深.盡管Biber強調語言特征遴選并非隨意:一則基于前人的研究[2];二則盡可能地囊括所有的語言特征[40].但批評者認為還有許多額外的語言特征沒有入選,故MDA有效性不高,并期望語言特征的遴選能夠有規(guī)則且無窮盡,指出從最初的設計上,語言特征只局限于POS附碼標注,而沒有句法分析標注.且更大的問題在于某些特征會承擔多樣功能性,僅靠MDA無法識別,諸如介詞短語既可以充當名詞后置定語,也可以作為狀語修飾動詞,甚至還可擔當議論話語標記.這種情況在跨語言研究中顯得尤為嚴重,因為非英語的語言特征和英語無論在形式和功能上均不是對等的,以英語語言特征為基礎來提取非英語中“所對應”的特征,會造成有效特征的遺漏[41].
語言特征的選擇關鍵在于:一是加大語言特征的提取范圍,避免遺漏有價值的特征;Biber也同意語言特征額遴選旨在追求盡可能的綜合性,且語言特征庫是開放性的,維度也不是靜態(tài)不變的.針對不同的研究會選擇不同的特征集,從而也會產生不同的維度.且其本人已在開發(fā)更高級的標注和句法分析軟件來包容更加全面的詞匯語法和句法特征[40].多數完全型多維度研究根據自身需要,將特征選擇范圍擴大至語義、詞束、句法范疇.如肖忠華在研究世界英語時,用包括語義類在內的109個語言特征生成九個維度,建立了增強型多維度模型,被證明同樣有效可行[38].
二要保證特征的“代表性”和“有效性”.正如Biber反復強調特征選擇是基于前人的研究,每一個特征務必對應著相應的交際功能,因此才能在不同的語域中出現,從而確保其代表性,且之后的因子分析篩查,也會將一些不能被共同因子解釋的變量(語言特征)排除在外.若原始變量之間的相關性很弱,也無法抽取出共同因子,從而保證了其有效性,如Biber關于大學語言的研究中初選的129個特征中只有90個可作為有效特征入選[15].
當因子分析方法固定,語言特征固定,影響維度生成的就是文本的選擇.1988年的模型中最大化地覆蓋了所有的情境,Biber從Brown和LOB語料庫中選擇了481篇文本,跨越23個體裁,共計約96萬詞次.盡管如此,批評者依舊認為樣本選擇規(guī)模不夠大,質疑樣本是否具有代表性[42].該批評對于Biber來說有點冤枉.對于所有的語料庫研究,樣本選擇的代表性都是必須直面的首選問題.如何選樣才能全方位地代表真實的語言,考慮到不同的語域構成,每種語域是否選擇同樣多的規(guī)模,語域可以無限細分,是否每種細分的語域種類都要涵蓋進去等是語料庫學界共同面對的問題.Biber通過實證實驗,在更小規(guī)模子語域庫上重新運行因子分析,生成相似的維度,驗證了原始樣本的代表性[43-45].
不論是特征的選擇,亦或樣本的代表性,其背后實質指向的是維度的通用性.在所有的完全型多維度研究中,新因子分析生成的維度,盡管部分(多為第一、二維度)與1988年模型相似,但并未發(fā)現全維度吻合的情況,證明維度的生成與其對應的研究樣本息息相關.對此Biber自己也承認多維度分析法實際上是一種沒有先驗的自下而上推導出來的方法,一切為數據驅動,得出的維度確實真真切切地反映了特征的共現.“嚴格意義上說,維度只對提取它的語料庫有效”[40],從這一句話可以看出Biber承認了多維度生成的不一致性.
實驗的可復制性包含著兩層所指:一是上文提到的維度模型的通用性;二是多維度分析法技術上的壁壘.誠然多維度的應用研究廣泛,但大多數的多維度研究多為Biber及師承淵源團隊所做,其他研究者因難以獲取其相關標注統(tǒng)計軟件和數據庫,而受到工具上的制約未能復制實驗.且該方法較為繁瑣,不易操作.反觀國內發(fā)表的相關研究文章不過十來篇.Biber強調自己的標注工具并非唯一,若能保證標注的準確性,任何標注工具均可以.長久以來,未有研究認真檢驗替代軟件與Biber Tagger的復制準確度.直至2014年,Nini開發(fā)了多維度標注與分析工具Multidimensional Analysis Tagger 1.1,直接將Biber的文本標注、特征提取、數據統(tǒng)計全部復制實現且完成操作自動化,且內嵌斯坦福詞性附碼器(Stanford POS Tagger),有效復制Biber1988提出的多維度分析全過程,對MDA方法的普及產生了巨大的推動.另外值得一提的是肖忠華和McEnery曾比較通過Wordsmith的關鍵詞分析法和MDA對同樣體裁文本分析的結果,認為關鍵詞法雖不能完全替代MDA,但也能大體上反映各體裁的重要特征,且操作相對簡單,不失為文本分析的又一利器[46].
多維度分析法作為一種以統(tǒng)計為基礎的文本特征分析方法,采用代表性良好的大數據語料樣本作為研究對象,用基于計算機技術的研究手段自動、快速、高效地處理文本,考察語體變異的整體模式,使得研究結論更具有概括性和說服性.三十年以來,其文本類型研究、語言變異研究、二語習得中介語等方面的廣泛運用顯示出其全面、高效、客觀的強大優(yōu)勢.多維度分析法強調語言特征,重視語言特征之間的關系,對大量的語言特征進行多維度描寫,這恰恰是傳統(tǒng)變異研究所缺乏的.多維度分析法彌補了傳統(tǒng)社會語言學變異研究方法上的不足,為社會語言學的研究開辟了新的視野,也將推動社會語言學的發(fā)展.
未來,多維度分析法可以更進一步加強語言特征的提取.更全面的特征提取有利于語域特征更真實地展現.隨著計算機軟件技術的發(fā)展,語言特征提取的范疇應不斷擴大,考察的特征應該囊括詞性、語法、句法、語義、修辭,甚至延伸至語篇特征和語音特征.標注、統(tǒng)計軟件則應該簡化,早日完善共享機制,以便惠及更多的外語研究者.