陳 衡
關于語言特性,有這樣一組對立的觀點:一種觀點是把語言看作是判定性的規(guī)則,另一種觀點是把語言看作有意義的趨勢[1-3]。前者認為語言特性可以用邏輯或規(guī)則加以描述,后者認為語言特性是一種概率性或蓋然性[4-6]。
認為語言特性是判定性的規(guī)則的以喬姆斯基為主要代表。喬姆斯基把索緒爾對語言與言語的區(qū)分重新解釋為語言能力和語言行為,認為語言學家應該研究的是語言能力而非語言行為,而且其對語言能力研究的判定標準就是看是否符合這一語言母語者的語感,而非真實的語言文本。
與語言是判定性相對的觀點是認為語言是概率性的。德·波格蘭德(De Beaugrande)統(tǒng)計出喬姆斯基在《句法結構》和《句法理論要略》兩書中分別分析了28個和24個人造句子,這種只靠研究者內省的方式是不能夠令人信服的[7]。對語言是判定性的提出批評最多的是功能語言學家,尤其是系統(tǒng)功能語言學家,如Halliday認為喬姆斯基的舉例不是來自真實語篇,因此它無法如實概括語言的實質[1]。
對于語言學中的這兩種觀點,到目前為止仍各有人堅持,仍是討論的熱點之一[8]。
2001年美國語言學會在華盛頓召開,并舉行了第一次“語言學中的概率理論”專題討論會,討論結果一是認為概率理論的應用讓語言學家們在探究語言理論以及具體問題時有了可以測量語言特性梯度 (gradience)的方法;二是Rens Bob,Jennifer Hays,Stefanie Jannedy等人主編的《概率語言學》出版。這本書介紹了概率理論的基本知識,以及其在語言學各個分支中的應用研究。在前言中,編者這樣說道:“眾多的證據表明語言是概率性的。在語言理解及生成過程中,概率在讀?。╝ccess)、歧義消解以及語言生成方面起著重要作用。在學習方面,概率在切分和總結方面發(fā)揮作用。在音系和形態(tài)方面,概率在可接受度判斷和交替(alternation)方面發(fā)揮作用。在句法和語義方面,概率在范疇梯度、句法合法性判斷以及翻譯方面發(fā)揮作用。而更重要的是,概率在模擬語言演變和變異方面發(fā)揮關鍵作用。”[7]vii
其實,早在這次會議之前,就有運用概率研究語言的傳統(tǒng)。在英國,馬琳諾夫斯基最早對數量統(tǒng)計和概率做過間接陳述,將語言看作是說話人腦子中的思想轉移到聽話人的腦子中的方法是錯誤的,我們需要因經驗和情境而論[9]。即在不同的情境下每個句子出現(xiàn)的概率是不一樣的,這個思想就是語境論的思想。弗斯非常強調意義的語境理論,他認為真實的語言在作為語篇的語言中出現(xiàn),因此記錄下來的真實語篇才是語言學家要關注的主要內容[10]。Halliday和Sinclair繼承了弗斯的思想。
在歐洲,自1930年以來,布拉格學派的語言學家們就一直從事某些語法過程中頻率作用的定量研究,如音節(jié)類型和結構的概率分布,句子中信息位置的概率分布,言語不同部分出現(xiàn)的相對頻率等[11]。
而在美國,語文學家Zipf也非常關心語言的定量研究。他研究了詞頻與語篇長度的關系,文本中詞頻與秩次的關系等。Zipf發(fā)現(xiàn),如果把一個文本中的詞語(該次運用的英文文本)進行頻次統(tǒng)計,并把頻次按從大到小的次序排列,即排在第一的秩次為1,頻次為f1,排在第二的秩次為2,頻次為f2,以此類推,那么秩次r與其對應的頻次f滿足下列關系[12]:
這個定律表明,在英語中,只有少數高頻單詞被使用,大部分單詞很少被使用。Zipf將其解釋為“最小努力原則”,即為語言學中最常用、最具解釋性的“經濟性原則”:人們總是習慣用少量的詞語來表達較多的內容。Halliday曾評論說這個詞語頻率作為語言的一個特性是可以接受的,如英語的“gd”比“walk”出現(xiàn)頻率高,比“stroll”更高,因此,沒有必要將語法的定量范式拒之門外[13]。
Zipf定律是一種簡單的冪函數,它描述的這種詞語分布又被稱為冪率分布,其實,不止詞語,其他很多自然、社會現(xiàn)象都符合冪率分布定律,像人均收入的分布、姓氏的分布、網頁點擊次數分布等都是一種冪率分布,因此Zipf定律也被借鑒到其他類型的統(tǒng)計中去,它是一個具有社會學意義的普適規(guī)律。這是運用概率研究語言對其他學科的一大貢獻。
音系學研究人類語言傳達意義的語音結構知識。人們在利用語音造詞時會經常利用已有的語音元素和結構,因此它具有很強的能產性。語音結構的能產性是生成音系學的基礎,而這種帶有變量形式語法的概念常常被認為與音系學是概率的這一觀點相對。實際上,這是一種偏見,因為概率理論就是要把概率賦給這些變量;如果沒有變量,也就不會有統(tǒng)計學習模型了。一旦我們從語音結構中抽象出了一些變量,原則上,我們就可以根據我們的研究需求而給某個變量賦上概率值,以獲取科學的結果。
概率音系學理論既包括抽象的變量部分,也包括概率分布部分。在概率分布部分,它是分層次的,包括:(1)參數語音學;(2)語音編碼;(3)詞典中的詞型;(4)音系語法;(5)形態(tài)音位對應。概率音系學要研究的就是什么樣的分布對應什么樣的變量,以及各個層次分布之間的關系等。這樣的研究對于我們理解人類語言的本質有重要意義,而這是非概率類研究所不能達到的。
研究概率句法學的學者主要集中在計算語言學或統(tǒng)計語言學方面,如Daniel Jurafsky、Christopher D.Manning、Michael Collins等。概率句法包括n元模型、概率上下文無關語法(PCFG),詞匯化的概率上下文無關語法(LPCFG)、概率依存語法(PDG)。
n元模型是一種統(tǒng)計語言模型,嚴格說它不是語言學本體中的句法理論,它主要利用的是詞的共現(xiàn)頻數信息,因此更多的是基于信息論的理論。n元模型最初用來識別語音,取得了較好的效果。n元模型的提出者賈里尼克,是一位自然語言處理的大師,他曾聽過信息論鼻祖香農,以及語言學大師雅各布森和喬姆斯基的課,博士畢業(yè)后任教于康奈爾大學,后到IBM,領導華生實驗室,在自然語言處理尤其是語音識別方面做出重要貢獻。
PCFG是在喬姆斯基概率上下文無關語法的基礎上在每個生成過程中增加概率因素,用以判斷不同句法樹的合法性程度,但它有其局限性:一是概率估計基于純粹的結構因素,沒有考慮詞匯的共現(xiàn)因素,即沒有考慮局部詞匯上下文;二是相對較長的句子,較短的句子的概率值要偏大。因此,在實際的語言描述能力上,它比n元語言模型的描述能力要更差些。
LPCFG是在PCFG的基礎上發(fā)展完善而來,針對PDFG的兩個問題提出解決辦法。針對問題一,在派生過程中加入中心詞這一特征;針對問題二,規(guī)范派生?;贚PCFG的句法分析的正確率能達到91.4%,遠遠超過 PDFG[14]。
PDG是建立在依存語法的基礎之上的,各種類型的依存語法與對應的短語結構語法實質是同構的。Macdonald等認為,基于PDG的句法分析的正確率與基于LPCFG差不多,但在效率上要遠遠超過后者[15]。
社會語言學探究的是人類各個層次上的語言學現(xiàn)象與社會的關聯(lián)模式,包括語音、句法、語義及話語等。但社會語言學有其不同于其他分支的特點。其他語言計量研究的分支是與基于直覺和范疇思考的流派相競爭,而社會語言學從產生開始就是基于經驗前提的。過去社會語言學研究的內容包括尋找統(tǒng)一的統(tǒng)計模型和工具,連接社會結構與語言形式的相關系數的解讀等。而隨著社會學理論的發(fā)展以及對社會語言學理解的加深,研究者們面臨著社會語言學觀點的極大改變:從靜態(tài)社會范疇分析轉變?yōu)橄扔跀祿治龅暮唵螞Q策分析。而范式理論這一基于頻率的模型在語言學的各個分支中的出現(xiàn),融合了社會理論對社團實踐中的參與人所起作用的理解。在范式理論中,范疇并不是預先存在的,而是動態(tài)的,是通過對大量數據的概括總結而來。這樣,社會語言學又與概率重新結合。概率社會語言學研究的中心問題包括:是什么因素影響說話者選擇使用這一個而不是另一個語言變體的決定?怎樣最好地對這一決定發(fā)生時的語言與社會同步影響過程進行建模?某一語言變體是怎樣反映社會成員關系的?某些語言形式在社會景觀中的交替出現(xiàn)反映了語言結構內部什么樣的共時與歷時工作機制?
20世紀50年代有許多基于統(tǒng)計和概率的心理語言學的研究,但這種研究在60到80年代停滯了,直到90年代才開始復蘇。盡管概率理論不是很好的描述模型,但卻是很好的規(guī)范模型(normative model)。概率理論起源于人們在面對不確定性時進行推理的認知建模。
概率在語言理解的過程中有三個已被證明的作用。第一,從心理詞匯或語法中獲取語言結構任務。一般地,概率大的語言結構獲取的速度更快,所需時間更短。第二,歧義消解。歧義在語言理解的過程中無處不在:分詞、詞性標注、詞義標注、句法語義理解等。概率在此發(fā)揮的作用是,一個釋義的概率越大,那么它被選擇的概率也就越大。第三,概率還可能在解釋語言處理的復雜性上發(fā)揮作用。在語言處理模型中,那些復雜性比較高的往往是由于一些低概率釋義情形的存在,或者是釋義的突然轉換。概率的計算往往必須依賴于語言單位在實際使用中的出現(xiàn)頻率。
從概率出發(fā)研究語言是正確的,但從目前的研究成果來看,如果去掉自然語言工程方向的一些成果[8],其在語言學本體研究中并沒有引發(fā)重大的改革或發(fā)現(xiàn)。正如Munro在評論Probabilistic Linguistics一書時所作的批評:這本書主要關注的是概率,而非語言的層級性[1];Jurafsky在書中所聲稱的在2000年的計算語言學大會上77%的文章都在一定形式上使用了概率模型,其實際情況是沒有一篇探究語言的層級性或漸變性作為主要目標,他們非常樂意將概率知識加進他們的模型中,卻使用基于范疇(理性主義方法)準確性的方法去評測結果。這就完全顛倒了將概率理論引入語言學中的目的,因此Munro發(fā)出了這是否會阻礙概率語言學發(fā)展的強烈疑問。
從概率出發(fā)研究語言的還有從功能語言學中分化出的語料庫語言學,以及繼承了Zipf定量研究方法并發(fā)展起來的計量語言學。
Michael Halliday和John Sinclair都是Firth的直接學術繼承人,前者開創(chuàng)了系統(tǒng)功能語言學,后者開創(chuàng)了語料庫語言學,并都保留了Firth的語言學思想精髓。從對概率的直接運用程度上,語料庫語言學要更貼近概率語言學,而系統(tǒng)功能語言學在語境論和社會論的方向上走得太遠,逐漸剝離了語言事實。語料庫語言學在概率的運用上也不是沒有問題,基于語料庫的研究所遇到的問題與前面Munro所批評的基本類似,即其研究似乎只是對基于范疇方法的一種驗證,盡管也有所拓展,但本質還是如此。不過隨著語料庫語言學的發(fā)展,以及新的統(tǒng)計手段的不斷創(chuàng)造與運用,語料庫驅動的方法逐漸推廣開來,這將對從根本上改變語料庫語言學只是對理性方法的一種驗證這一偏見發(fā)揮重要作用。
計量語言學繼承了Zipf的語言定量研究方法,而且更加注重在概率的基礎上構建語言學的理論[16-18]。關于計量語言學的產生,一個有趣的現(xiàn)象是,美國語言學家Zifp所運用并倡導的語言定量研究方法沒有在美國散開,卻在歐洲開花結果?!澳壳斑@一領域的主要代表人物大多來自德國、奧地利及東歐國家,其中最著名的是德國波鴻大學的Altmann教授。他在計量語言學的諸多領域均有重要貢獻,是Zipf之后最重要的計量語言學家,被譽為現(xiàn)代計量語言學的奠基人之一?!保?9]計量語言學有自己的國際學會,以及會刊《計量語言學學刊》,其主編特里爾大學的科勒教授是一位計量語言學的重量級人物。
計量語言學相較于語料庫語言學以及統(tǒng)計語言學來說,更加注重語言學理論的建設,這就是為Munro所詬病的后兩者所缺乏的東西。經過幾十年的努力,各國計量語言學學者已經發(fā)現(xiàn)了不少的具有普適性的計量語言學定律,主要有:以Zipf定律為代表的分布定律、以Menzerath-Alttman定律為代表的函數定律和和以Piotrowski-Alttman定律為代表的演化定律。除了這些單個的定律外,協(xié)同語言學理論作為一個完整理論發(fā)展起來,并從詞匯層向句法層拓展。另外,值得一提的是,目前,中國的計量語言學蓬勃發(fā)展,取得了一些成果[20],計量語言學會會長K?hler教授甚至說,國際計量語言學的研究中心正在從歐洲轉移至中國。
概率性是語言的一個主要特性,運用概率來研究語言是符合客觀規(guī)律的,也是符合語言事實的。當然,概率語言學在發(fā)展過程中也遇到一些問題,解決問題的辦法一是真正地用概率的思想來研究語言,而不是基于范疇方法的一種驗證,要在概率研究的基礎上發(fā)現(xiàn)規(guī)律,加強理論構建,形成系統(tǒng)。二是把握當前多學科交叉研究的潮流[21],積極吸收其他相關學科如數學、計算機科學、認知科學、心理學、物理學等值得借鑒的地方,以促進自身快速發(fā)展。其中尤其值得一提的是,當前大數據研究成為潮流[22],而語言研究所需的語料在互聯(lián)網上取之不盡、用之不竭,這是概率語言學發(fā)展的一大機遇。