国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語言學的交叉學科研究:語言普遍性、人類認知、大數(shù)據(jù)

2016-06-06 14:11:28梁君英劉海濤
關鍵詞:劉老師語言學語法

梁君英 劉海濤

(浙江大學 外國語言文化與國際交流學院,浙江 杭州 310058)

主題欄目:語言與認知研究(學術訪談)

語言學的交叉學科研究:語言普遍性、人類認知、大數(shù)據(jù)

梁君英 劉海濤

(浙江大學 外國語言文化與國際交流學院,浙江 杭州 310058)

麻省理工學院學者近期發(fā)表在國際頂尖期刊《美國科學院院報》上的一項語言學交叉研究利用已經(jīng)公開發(fā)布的依存樹庫,對37種語言進行了統(tǒng)計分析,指出人類語言存在依存距離最小化這一傾向。此研究被媒體熱議,但卻存在一些缺陷。依存距離是兩個句法相關詞之間的線性距離,受工作記憶機制的約束,與句法處理的復雜度密切相關。因此,人類語言具有依存距離最小化的傾向?;诰浞俗⒄Z料庫的依存距離最小化研究表明,大數(shù)據(jù)研究方法在語言認知研究中具有重要作用?,F(xiàn)代語言學具有鮮明的交叉學科色彩,語言研究中不同學科的相互借鑒與融合有助于深入揭示語言系統(tǒng)的運作規(guī)律以及語言與認知之間的關系。

依存距離最小化;語言普遍性;認知科學;大數(shù)據(jù)

訪談時間:2015年9月22日 訪談地點:浙江大學紫金港校區(qū)青荷悅空間

訪談主持人:梁君英教授(以下簡稱為梁) 訪談嘉賓:劉海濤教授(以下簡稱為劉)

梁:今天我們在這里舉行一個有關國家社科基金重大課題“現(xiàn)代漢語的計量語言學研究”的訪談,我想先從一個目前非常熱門的話題開始。最近我們聽說麻省理工學院(MIT)的大腦與認知科學系有一個重大成果:他們發(fā)現(xiàn)人類語言中可能存在依存長度最小化(Dependency Length Minimization,DLM)這樣一個普遍規(guī)律。這項研究發(fā)表在PNAS也就是《美國科學院院報》上[1],八月初剛剛在線優(yōu)先發(fā)表(early edition)就在學界引起廣泛關注,隨后美國的許多媒體都對此進行了長篇報道,我想問一下劉老師,您對這個問題是怎么看的?

劉:語言研究很少能夠引起主流媒體的關注。MIT的這項研究在美國《科學》雜志、MIT新聞網(wǎng)站以及許多其他媒體的主要位置進行了報道,這種情況是不多見的。我們知道,盡管語言學家一再強調(diào)他們的研究很重要,認為語言學是一門領先科學(pilot science),但在科學家面前說語言學是領先科學是比較尷尬的一件事。但這次MIT的研究確實得到了大家的廣泛關注,這是因為他們的研究迎合了我們當今時代一些主要的熱點:第一,語言研究之所以重要,是因為通過語言研究我們可以了解人的認知。研究認知的方法多種多樣,但從人的外在特性來看,人與其他動物的區(qū)別在于人有一個比較復雜的語言系統(tǒng)。與其他研究路徑相比,語言是人每天都用得到的,研究材料極易獲得,因此,通過研究語言來研究人的認知是認知科學里較為熱點的內(nèi)容。MIT這次研究的主題恰好可以把語言和人的認知聯(lián)系在一起。第二,這幾年有個熱詞叫“大數(shù)據(jù)”,在這項研究里也使用了來自多種語言的大量數(shù)據(jù)。第三,MIT認為這項研究發(fā)現(xiàn)了人類語言的一個普遍特征。這三點加起來剛好符合這個時代科學研究的特征,所以引起關注也并不是特別奇怪的事情。

梁:劉老師提到了我們今天訪談的三個關鍵詞:語言、人類認知、大數(shù)據(jù)。我也聽說在心理學科里有一個共識,認為語言是人類的平均認知規(guī)律,現(xiàn)在MIT實驗室采取了大數(shù)據(jù)的手段對此進行了研究。劉老師可不可以先為我們介紹下這篇文章的主要內(nèi)容?

劉:這篇文章的標題是《用37種語言來驗證依存長度最小化》。首先,在一項研究中出現(xiàn)37種語言不是一件容易的事情,這里關鍵還有一個依存長度最小化,這是這篇文章的一個核心概念。依存長度是什么呢?我們平時說的句子是一個線性的詞串,句子里的每個詞之間是有聯(lián)系的。如果對這個線性詞串進行句法分析,把句中有句法關系的詞連起來,就能形成一個句子的結(jié)構樹或結(jié)構圖。這是人類理解語言的第一步。那么問題就來了,如果句法分析是要把線性的詞串變成結(jié)構樹或圖的話,兩個相聯(lián)系的詞之間就存在線性的距離。比如圖1為“我吃一個大蘋果”的依存分析,“我”和“吃”之間有聯(lián)系,“吃”和“蘋果”之間有聯(lián)系,“大”和“蘋果”之間有聯(lián)系,“個”和“蘋果”之間有聯(lián)系,“一”和“個”之間有聯(lián)系,這樣每個詞在句中都被兩兩的詞間關系聯(lián)系起來?!拔摇焙汀俺浴笔前ぶ?。但“吃”和“蘋果”之間有三個詞,分別是“一”、“個”、“大”。

圖1 “我吃一個大蘋果”的依存分析

也就是說,形成依存句法關系的詞與詞之間的距離有遠有近,這篇文章稱這個距離為長度,長度是美國的叫法。在依存句法的發(fā)源地歐洲,一般稱之為距離。依存距離或者依存長度是依存語法框架下的一個概念,因為依存句法分析方法關注詞與詞之間的關系。但在生成句法框架里,詞與詞之間的關系并不重要,更關注部分與整體的關系。

依存距離我們理解了,那最小化是什么呢?大概早在20世紀初的時候,人們就注意到自然語句中,有依存關系的詞在一個句子中靠得比較近[2]。說得理論點,就是一個句子中詞的順序一般傾向于使這個句子的依存距離盡可能小。但過去人們沒有計算機,單純靠手數(shù),數(shù)了十幾個、幾百個句子就覺得有這樣一種傾向,但都沒能取得突破性的進展。隨著計算機以及語料庫的普及,特別是在1990年左右有句法標注的語料庫(樹庫)的出現(xiàn),為我們真正地采用大規(guī)模真實語料研究依存距離最小化提供了可能。2004年,西班牙學者Ramon Ferrer-i-Cancho在《物理評論E》上發(fā)表了一篇文章,題為《存在句法聯(lián)系的詞之間的歐幾里得距離研究》[3],實際就是依存距離研究。他考察了一個羅馬尼亞語的樹庫,發(fā)現(xiàn)在大規(guī)模的真實語料中,依存距離趨向于一個比較小的值。這兩年,捷克布拉格大學等機構推出了一些樹庫項目,加起來涵蓋了三四十種語言。這次MIT的研究就是利用這些已經(jīng)公開發(fā)布的依存樹庫,對37種語言進行了統(tǒng)計分析,發(fā)現(xiàn)人類語言確實存在依存距離最小化的傾向。他們在文章中也承認這個想法早就有了,但強調(diào)指出過去的研究總共只做過7種語言的依存距離最小化研究,因此,他們的研究是世界上第一個用大規(guī)模、跨語言的語料驗證依存距離最小化的。這是他們的一個主要觀點。有關新聞報道也都強調(diào)MIT是第一個用多種語言來進行依存距離最小化研究的,我認為這也是這篇文章能夠被PNAS錄用并發(fā)表的主要原因。語料是別人的,計算依存距離最小化的方法是別人的,這個想法也是別人的。MIT只是說,過去只有7種語言,但現(xiàn)在他們的研究用了37種,當然7和37還是很不一樣的。他們的研究大概就是這樣一個情況。

梁:現(xiàn)在國內(nèi)語言學在宣傳報道方面跟進得非常快。前段時間,國內(nèi)語言學界的各種網(wǎng)絡媒體與微信平臺都推送了這一研究,并宣稱這是對喬姆斯基研究的進一步推進。劉老師,您剛才提到的這些,是不是說MIT的研究跟喬姆斯基尤其是他的普遍語法(UG)之間并沒有太大關系呢?

劉:將兩者聯(lián)系起來的實際上是國外的一個新聞報道[4]。喬姆斯基說人類語言有一個普遍語法,這種普遍語法隱含于語言表面的多樣性。有人便將喬姆斯基與此項研究聯(lián)系起來。但實際上兩者之間可能沒什么關系。喬姆斯基認為人的大腦里有一個專門主管語言的東西,是天生的,具有普遍性[5]。至于它到底是什么,目前人們還確定不了。但Gibson實驗室的這項研究似乎為喬姆斯基的普遍語法帶來了新的曙光。實際上兩者關系可能并不大,依存距離最小化與人的工作記憶有關。依存語法中,依存關系存在于從屬詞和支配詞之間。一個詞只有找到它的支配詞或者從屬詞,才能形成一個更復雜或者更明晰的概念。在“我吃一個大蘋果”這個句子中,我們聽到“吃”的時候,由于不知道后面跟的是什么,就要把這個詞記住,同樣,我們要把后面出現(xiàn)的“一”、“個”、“大”等都記住,這樣,在聽到“蘋果”的時候,我們才能把這些詞語從記憶中移開。具有依存關系的兩個詞之間的詞越多,短時間內(nèi)我們需要記住的內(nèi)容也就越多。因此,依存距離最小化實際上是認知特別是工作記憶容量對語言結(jié)構的一種約束。工作記憶并非僅僅用于語言處理,而是人的普遍認知機制的一部分。也就是說,依存距離最小化是人類普遍認知機制對語言線性排列約束的結(jié)果。換句話說,依存距離最小化實際上和喬姆斯基所說的普遍語法(或者說大腦中專門的語言模塊)沒有什么直接聯(lián)系。

梁:我記得不久前看您的微信,您轉(zhuǎn)發(fā)了“語言學午餐”微信平臺推送的這個報道后,同時貼上了你們團隊大約在七八年前就發(fā)表的一個類似的研究。如果我的理解是正確的,其實你們的研究遠遠地走在MIT之前,您能不能分享一下你們團隊研究的主要內(nèi)容,或者說你們的研究跟他們的有什么區(qū)別呢?

劉:我們團隊研究依存語法大概開始于1987年前后,那是很久之前的事了。我們當時對依存語法進行研究的一個主要原因就是如果要研究語言,首先要尋找一種普適的語言分析方法,先不管后面的機制是什么,至少這種方法應該能夠分析盡可能多的語言。像短語結(jié)構語法,分析英語這樣語序相對固定的語言還比較容易對付;但如果分析像斯拉夫語族的語言,比如捷克語和俄語,就會遇到很大的困難。這時我們發(fā)現(xiàn),還有一種來自歐洲的語法體系叫依存語法(Dependency Grammar)[67],我們就開始對它進行系統(tǒng)的了解。從1987年到現(xiàn)在,我們對依存語法的研究持續(xù)了很長時間。在這個延續(xù)的研究中,我們自然而然地遇到了這個依存距離的問題。大約在1995年前后,英國Hudson教授寫過一篇文章,第一次在現(xiàn)代依存句法框架下提出了依存距離的計算方法[8]。當時Hudson和他的幾個博士研究生對英語、德語和日語的依存距離進行了分析。因為條件限制,他們在20世紀90年代的研究中基本沒有使用語料庫。到了2003年、2004年前后,我們采用依存語法試著建立了一個漢語的樹庫,即采用依存句法標注的語料庫,我們發(fā)現(xiàn)漢語的依存距離要比英語大很多[9]。這一結(jié)果非常有意思,因為Hudson和他的學生發(fā)現(xiàn)日語、英語、德語的依存距離都差不多。Hudson認為我們這個發(fā)現(xiàn)非常重要[10],因為依存距離和人類認知密切相關,而一般認為,無論說哪一種語言,人的工作記憶容量是相似的,但我們的結(jié)果顯示中文的依存距離顯著地大于其他語言。在語言與認知領域有一個著名的假說,叫薩丕爾-沃爾夫假說[11]。這個假說認為語言會影響思維模式等與認知密切相關的東西,但一直沒有找到直接的例證來說明。而漢語的依存距離大也許從另一個角度為這個假說提供了一個佐證。

我們也覺得搞清楚這個問題是非常有趣的,我就讓我的幾個碩士和博士生來專門研究這個問題。也就是說,實際上我們對依存距離的研究始于12年以前,是自然地通過研究依存語法發(fā)現(xiàn)的。既然已經(jīng)發(fā)現(xiàn)漢語的依存距離比其他幾種語言要大,我們當然就會想到擴大樣本庫。在2004年左右,我們就開始在世界各地尋找依存樹庫。大概到了2005年底、2006年初的時候,我們大約收集到了20種語言的樣本,包括我們自己標注的樣本。我們發(fā)現(xiàn)在這20種語言里,漢語的依存距離仍然是最大的。此外也發(fā)現(xiàn)其中大概有十四五種語言基本上是一樣的,表明大部分語言的依存距離都是差不多的,符合依存距離與人類工作記憶密切相關的想法。此外,我們也生成了兩種隨機語言,與這20種真實自然語言的依存距離進行比較。所謂隨機,就是說這不是人類真正的語言,是不符合語法的。所以不管你采用怎樣的隨機策略,都只是計算效率的問題,沒有語言學意義,因為已經(jīng)不符合語法了。我們就做了兩種隨機語言,一是完全隨機,只要符合依存句法的普遍規(guī)律,不控制句法樹的交叉結(jié)構;第二就是保證不交叉。這樣就得到了兩種隨機語言。計算它們的依存距離并與上述20種語言的依存距離相比較,我們發(fā)現(xiàn)真實語言的依存距離更小。這實際上是在人類歷史上第一次用大量真實語料揭示自然語言中的依存距離最小化傾向。在十年前,這是很新的東西,很多人不太理解。這些研究成果寫成文章后,幾經(jīng)周折,于2008年發(fā)表在國際認知科學協(xié)會的會刊《認知科學學報》上[12]。這篇文章提出了明確的假設:人類語言的句法分析器偏好于依存距離最小化的句子,實際上就是說距離最小化是人類語言普遍的特征,這一點我們在該文的摘要里也明確提到了。此外,和MIT的研究相比,我們做得更加全面:我們關注的點比他們多,我們和認知的聯(lián)系也更緊密一些,我們和依存句法的聯(lián)系是水到渠成的。但后來我們沒有過多地宣傳這個。因為計算依存距離用的是文本,其結(jié)果可能受諸多因素影響,比如,不同語言的影響,文本大小的影響,文本主題的影響,同樣,標注方式也會影響這個結(jié)果。在沒有弄清這些可能的變量之前,不能簡單地得出結(jié)論,因為對科學家而言這是不夠嚴謹?shù)?。所?008年以后,我們還在不斷地完善對依存距離最小化的理解,繼續(xù)研究有哪些因素在影響依存距離最小化。

梁:這顯然是很長的一段歷史了。從1987年開始,劉老師團隊就已經(jīng)關注歐洲的依存語法體系;在過去的28年里,這個團隊一直做著孜孜不倦的努力。比較有代表性的成果之一就是剛才提到的2008年的那篇文章。通過對20種語言進行的大規(guī)??缯Z言比較研究,并得到一個結(jié)論:依存距離最小化傾向可能是人類語言的一個普遍規(guī)律。這對之后的研究起到了重要的推動作用。聽到這里大家可能會跟我一樣感到驚訝,因為剛剛說到MIT的這個研究出來之后,許多媒體都不斷地推送,有一句話特別引人注目:“這是人類歷史上第一次大規(guī)模的跨語言的研究發(fā)現(xiàn)的普遍規(guī)律”,而且還特別強調(diào)說前期研究加起來都不超過7種語言,很明顯這里存在一個錯誤。我很想知道,劉老師您這個團隊針對這個問題有沒有做出什么回應?

劉:首先還是要說技術上的一些細節(jié)。因為依存距離的算法有兩類,第一類是 Hudson提出的,從歐洲的依存句法發(fā)展來的算法,其語言學的實用意義和價值較大[8]。依存距離可以判別一個句子的理解難度。就是說一個句子的依存距離越大,理解難度越大,這樣就會存在不同句子長度之間的比較。比如,有5個詞的句子,6個詞的句子,還有的句子是13個詞的。有時13個詞的句子并不一定比5個詞的難。你要計算依存距離的指標,不同句子之間的難度應該是可以比較的。如果需要進行比較,你就要把句子長度的因素去掉。否則只是簡單地把句子里面的依存距離相加,長的句子永遠是難的,但實際上它并不一定難。而采用平均值就可以消除句子長度帶來的影響,也就是說,依存距離加起來再除以句長。句子中的根詞是沒有詞支配它的,要把這個詞減掉。這樣一來,不同長度的句子的難度就可以進行比較了,這是歐洲學者和我們采用的算法。第二類是兩位美國學者在2007年左右提出的一套算法[13-14],MIT的研究用的就是這一套算法。他們只是把句子中的依存長度加起來。就剛才說的那個句子“我吃一個大蘋果”,按照我們的算法這個句子的平均依存距離是9÷5=1.8,而MIT得到的該句的依存距離為9。顯然,他們這種計算會導致不同長度的句子之間很難比較。在我們2008年的文章里,不同語言可以比較平均依存距離[12]。而MIT的研究沒有辦法做這樣的比較,于是就把37種語言中的每種語言都畫了圖表[1]。也就是說,它的最小化實際上只是一個圖示化的說明。

MIT的這篇文章說“這是人類歷史上第一次大規(guī)模的跨語言的研究發(fā)現(xiàn)的普遍規(guī)律”,強調(diào)先前研究所涵蓋的語言不超過7種[1]。正如你所說,這些表述不太準確。我們在七八年前就做過了針對20種語言的依存距離最小化研究,取得了類似的研究成果[12]。因此,MIT文章說他們是第一次大規(guī)模的跨語言研究,這是有失偏頗的。此外,依存距離可能受到很多因素的影響,這些因素在該文中都沒有提到過,這也是一個問題。另一個問題是,他們在做隨機語言時考慮了太多語言學的因素,沒有做到完全的隨機,這也削弱了該研究的說服力。還有一點,他們說支配詞在后面的語言和支配詞在前面的語言與依存距離是有相關性的,這個說法也是比較隨意的。前人的很多研究表明,說這兩者之間有相關性還為時尚早。

針對MIT文章中的上述問題,我們寫了一篇文章進行了質(zhì)疑,并把這篇文章放在了arXiv預印網(wǎng)站上[15]。麻省理工學院的三位作者看到后,對我們這篇文章做了回應[16]。在他們看來,我們的質(zhì)疑是有道理的,并分別對這些質(zhì)疑進行了解釋與說明。特別是對文章中“以往的研究沒有超過7種語言”等表述問題向我們致歉,承認忽視了我們之前的工作是一個錯誤,并表示將在PNAS上對這一點進行說明與更正。在PNAS隨后刊登的更正中,MIT論文的作者認為我們2008年的研究是一項從更普遍的角度驗證依存距離最小化的研究,而他們自己則更關注語序變化對依存距離最小化的影響。MIT的作者認為他們的工作是對我們2008年的文章等前人研究的一個補充與精細化,并強烈建議閱讀他們文章的研究者同時也應該了解我們2008年的研究。

梁:這樣說來,劉老師您的團隊和MIT實驗室的交鋒是卓有成效的。一方面,充分說明了我們浙江大學計量語言學的研究團隊已經(jīng)真正走到了世界前列;另一方面,也許我們的研究團隊與MIT團隊會有很大的合作空間,當然如果您愿意的話。

劉:你用“交鋒”這個詞,顯得火藥味太濃了。應該說,這是一個比較正常的學術討論。我們也不能通過這一個事情就說我們已經(jīng)在世界前列了,即使我們在采用依存句法樹庫的語言研究方面確實比國外的學者早了幾年,但仍然需要進一步努力。一時走在前面不難,難的是一直走在前面。MIT的Gibson團隊在語言認知方面的研究目前處于世界前列,而我們在采用標注語料庫以及語言復雜網(wǎng)絡方面的研究要更勝一籌,如果我們兩家可以合作的話,相信會取得一些有意義的研究成果。MIT這三位作者在他們的郵件和書面回應中,也表達了想與我們合作的愿望。

梁:回顧過去,我們可以發(fā)現(xiàn)從1987年開始,劉老師已經(jīng)付出二十多年孜孜不倦的努力,成果頗豐,有一系列專著和論文。您可以向大家分享一下過去二十年內(nèi)您對依存距離研究做出的貢獻嗎?

劉:至今為止,依存距離這個領域可供參考的資料都非常少,也很難找得到。為了滿足大家的需求,我們從1987年開始收集資料,于2009年在科學出版社出版了《依存語法的理論與實踐》一書[17]。這本書包含了該領域涉及的主要問題,對參考文獻和前人所做的研究都有詳盡的介紹,覆蓋范圍很廣。2007年,我們在Glottometrics上發(fā)表了一篇《依存距離的分布》的文章[18]。這篇文章的一個主要發(fā)現(xiàn)是,一個句子偏好依存距離最小的排序,主要是因為依存距離的分布是有規(guī)律的。MIT的這幾位作者在他們?nèi)ツ甑囊粋€poster論文里也引用了這篇文章。有趣的是,我們在2007年的這篇文章里也研究了依存距離最小化。當時,我們發(fā)現(xiàn)真實語言文本的依存距離基本成一條直線,而且明顯小于幾種隨機語言。這明確表示自然語言中存在依存距離最小化的傾向。

2007年,我們還利用依存樹庫研究依存距離和依存關系,在MTT(意義文本理論)的國際會議上發(fā)表過一篇文章,提出了依存距離最小化以及不同類型的依存關系優(yōu)選的依存方向也不同[19]。2009年發(fā)表在《語料庫和語言學理論》雜志的文章中,我們不但提出了依存距離(MDD)的計算公式,也明確指出漢語的依存距離是最大的[9]。2009年我們還利用多個樹庫研究了語言的依存距離相關計量特征,結(jié)果發(fā)現(xiàn)語料的規(guī)模、語體、標注方式、句長等因素都可能對依存距離及依存方向產(chǎn)生影響[20]。2010年,我們用依存方向作為指標,從類型學角度研究了語言分類。該成果發(fā)表在Lingua上,這是第一個大規(guī)模真實語言數(shù)據(jù)支持的依存方向或語言類型研究[21]。2012年,我們發(fā)表了一篇關于羅曼語族語言特征的文章,主要解決兩個問題:第一,從共時的角度,是否可以找到區(qū)分羅曼語言和其他語言的客觀指標?第二,從歷時的角度看,如果存在羅曼語族,那個指標是否可以區(qū)分現(xiàn)代羅曼語和拉丁語呢[22]?我們用了15種語言的依存樹庫,包括古希臘語、拉丁語以及現(xiàn)代羅曼語族等六種主要語言。這個研究明確顯示依存方向(支配詞置后或置前)和依存距離關系不大,這可以從一個側(cè)面說明MIT文章的最后一個觀點有問題。2013年,我們對語碼轉(zhuǎn)換句子中的依存距離進行了研究,成果發(fā)表在Lingua上[23]。2015年年初,我們采用雙語平行依存樹庫對句子長度與依存距離及方向的關系以及相鄰依存關系數(shù)量等進行了研究,成果發(fā)表在Language Sciences上[24]。在羅曼語言的研究中我們還發(fā)現(xiàn):現(xiàn)代語言依存距離較短,因為現(xiàn)代語言考慮到人們當面交流的需要;而以書面語為主的古典文本,比如拉丁語及古希臘語,依存距離偏大[22]。我們后來從世界語的文本中也發(fā)現(xiàn)這樣的特點[25]。這是我們在依存距離方面做的一些主要研究,還有一些其他的相關成果,這里就不一一介紹了。

梁:從劉老師的介紹中我們不難發(fā)現(xiàn)三個貫穿始終的關鍵詞:語言的普遍性、人類認知規(guī)律和大數(shù)據(jù)。在這樣一個研究背景下,您是如何把這三個熱點融合在一起,構建出非常系統(tǒng)的研究框架的?

劉:這可能因為我初涉語言學領域的經(jīng)歷和別人不同。我最早是學自動化的工科生,對系統(tǒng)的概念理解比較深刻。不過之前研究的是工業(yè)控制系統(tǒng)的運行規(guī)律,現(xiàn)在研究的是語言系統(tǒng)的運作規(guī)律。語言的規(guī)律蘊藏在每天的聽說讀寫中,我們的研究就是從實際發(fā)生的自然文本中找規(guī)律。為了發(fā)掘具有普遍性的語言規(guī)律,需要收集大量的語言數(shù)據(jù)。相比傳統(tǒng)的語言學研究方法,這就算是大數(shù)據(jù)或數(shù)據(jù)密集型語言研究了,這是我們從十幾年前就開始使用的方法。我們大部分人都將語言的普遍性理解成多種語言的普遍規(guī)律,所以我們需要用大量的數(shù)據(jù)來挖掘多種語言存在的規(guī)律。語言研究的價值和意義就是發(fā)現(xiàn)人類認知機制、社會及文化對語言系統(tǒng)的形成與運作的影響。語言作為由人驅(qū)動的符號系統(tǒng),受到大腦的約束和限制,所以語言學家希望通過自然語言挖掘到認知規(guī)律,通過認知規(guī)律來解釋語言規(guī)律。就一個很長的詞而言,如果其使用頻率突然增加,這個詞就會變得很短。這就是語言受認知約束的一個明顯例子。如果我們從這個角度來理解語言的話,就不難意識到語言研究的框架中包括了語言的普遍性、人類認知規(guī)律以及大數(shù)據(jù)等內(nèi)容。

梁:謝謝劉老師。剛才劉老師通過交叉學科的視角分析了語言作為一個系統(tǒng)的概念。英國的《自然》雜志最近一期的封面有一句話很醒目:Why scientists have to work together to save the world,指出了交叉學科的重要性。請問您對語言學的交叉學科發(fā)展有什么建議呢?

劉:學科的劃分本身就是人類因為能力所限而做出的一種不合理的做法。人類對人本身、人所處的社會以及大自然的運行規(guī)律感興趣,卻又受能力所限,且每人特長不同,所以才將學科區(qū)分開來,如同盲人摸象的過程。隨著科學的發(fā)展和技術的進步,人類通過輔助工具擴大自己能力的可能性大大提高,原來只有精力與能力研究大象腿為什么動的人現(xiàn)在也可以聯(lián)系其他部位來做出解釋。但從研究本身而言,不存在交叉的問題,因為本身就是一個系統(tǒng)。既然語言研究也是研究系統(tǒng)的規(guī)律,為何我們不與時俱進,借鑒進步迅速、成果豐碩的研究系統(tǒng)的其他方法和工具促進語言學的學科發(fā)展呢?

梁:最近五年,劉老師的團隊在學科交叉上做出了顯著成績,為浙江大學的語言學學科發(fā)展做出了重要貢獻。2011年,該團隊獲得了國家社科基金首批跨學科重大課題,這是浙江大學第一個交叉學科的重大課題。2014年,劉老師團隊的論文發(fā)表在Physics of Life Reviews[26],一個影響因子高達9.478的高端學術期刊。在浙江大學積極推進世界一流大學和一流學科建設的大環(huán)境下,浙江大學外語學院也在制定一流基礎骨干學科的建設方案。那么,我很想知道,您對人文學科發(fā)展有什么期待和建議呢?

劉:前幾天教育部公示的第七屆社科獎,我們發(fā)表在《科學通報》的采用平行語言網(wǎng)絡進行語言分類研究的文章在交叉學科類獲得三等獎[27]。從第四屆到第七屆教育部社科獎的 12年內(nèi),這可能是第一個獲得交叉學科獎的語言學文章。我們也有另外兩項語言學的交叉學科研究雙雙獲得了2015年浙江省第十八屆哲學社會科學優(yōu)秀成果二等獎[23,28]。2015年初,我們有兩篇文章入選ESI的全球百分之一的高被引文章,一個是剛才提到的發(fā)表在Physics of Life Reviews的文章[26],另外一個關于語言層級網(wǎng)絡的文章,發(fā)表在Journal of Chinese Linguistics上[28]。這意味著我們學院或者浙大人文學科有兩門學科(社會科學類、生物學與生物化學類)進入ESI。能做出這樣的成績,是因為我們借鑒了其他學科較為成熟的方法來研究人類語言的問題,也就是大家說的交叉學科或跨學科。過去我們常認為,人文學科主要靠人類自己的聰明才智思考人類的過去與未來。而在這個到處都是數(shù)據(jù)的信息時代,可能應該借鑒一些其他學科的方法與范式來研究人文。我認識的一位荷蘭人Rens Bod寫過一本書叫《人文新史》,他綜述了世界幾大文明傳統(tǒng)人文領域的發(fā)展。這本書的副標題是《從古到今對原則與模式的探索》[29],這意味著人文本身也是探索人類模式和規(guī)律的。所以語言學可能應該借鑒探索模式和規(guī)律的研究方法。如果你使用古人不曾有的工具和方法,你對人本身的認識、對社會的認識、對自然的認識可能就會更深入一些。

梁:在訪談結(jié)束之前,劉老師可不可以分享一下在學術研究過程中有什么樣的愿景或信念?

劉:我理解的語言學是探索語言結(jié)構和演化規(guī)律的科學。在我來浙江大學的五年里,著重在兩個方向進行了努力:一是中國語言學的國際化,二是語言學研究的科學化。我希望在退休之前還能為這“兩化”做一點力所能及的事情。

梁:我非常期待在場的各位老師和同學們牢記我們的理念,為實現(xiàn)語言學研究的“國際化與科學化”做出堅持不懈的努力。感謝劉老師的分享!感謝各位老師和同學們的參與!

(感謝徐春山博士參與訪談題目的討論、訪談內(nèi)容的確定、訪談文本的后期整理工作;感謝敬應奇、方圓圓、牛若晨等研究生為本文所做的文字轉(zhuǎn)寫工作!)

[1]R.Futrell,K.Mahowald&E.Gibson,″Large-scale Evidence of Dependency Length Minimization in 37 Languages,″Proceedings of the National Academy of Sciences,Vol.112,No.33(2015),pp.10336-10341.

[2]O.Bhhaghel,″BeziehungenZwischenUmfangundReihenfolgevonSatzgliedern,″ Indogermanische Forschungen,Vol.25(1909),pp.110-142.[O.Behaghel,″Relations between the Scope and Order of Sentence Elements,″Indo-European Research,Vol.25(1909),pp.110-142.]

[3]F.I.C.Ramon,″Euclidean Distance between Syntactically Linked Words,″Physical Review E,Vol.70,No.5 (2004),pp.148-168.

[4]C.O’Grady,″MIT Claims to Have Found a′Language Universa′lThat Ties All Languages Together:A Language Universal Would Bring Evidence to Chomsky’s Controversial Theories,″2015-08-06,http://arstechnica.co.uk/ science/2015/08/mit-claims-to-have-found-a-language-universa-ltha-tties-al-llanguages-together/,2015-08-16.

[5]N.Chomsky,Language and Thought,Wakefield:Moyer Bell,1983.

[6]L.Tesn iè re,E lé ments de La Syntaxe Structural,Paris:Klincksieck,1959.[L.Tesn iè re,Elements of Structural Syntax,Paris:Klincksieck,1959.]

[7]R.Hudson,An Introduction to Word Grammar,Cambridge:Cambridge University Press,2010.

[8]R.Hudson,″Measuring Syntactic Difficulty,″http://www.phon.ucl.ac.uk/home/dick/dif culty.htm,2008-07-06.

[9]H.T.Liu,R.Hudson&Z.W.Feng,″Using a Chinese Treebank to Measure Dependency Distance,″Corpus Linguistics and Linguistic Theory,Vol.5,No.2(2009),pp.161-174.

[10]R.Hudson,″Foreword,″in H.T.Liu(ed.),Dependency Grammar:From Theory to Practice,Beijing: Science Press,2009,pp.52-59.

[11]J.B.Carroll(ed.),Language,Thought and Reality,Cambridge:MIT Press,1956.

[12]H.T.Liu,″Dependency Distance as a Metric of Language Comprehension Difficulty,″Journal of Cognitive Science,Vol.9,No.2(2008),pp.159-191.

[13]D.Temperley,″Minimization of Dependency Length in Written English,″Cognition,Vol.105,No.2(2007), pp.300-333.

[14]D.Gildea&D.Temperley,″Do Grammars Minimize Dependency Length?″Cognitive Sciences,Vol.34,No.2 (2010),pp.286-310.

[15]H.T.Liu,C.S.Xu&J.Y.Liang,″Dependency Length Minimization:Puzzles and Promises,″2015-09-15, http://arxiv.org/abs/1509.04393,2015-09-16.

[16]R.Futrell,K.Mahowald&E.Gibson,″Response to Liu,Xu,and Liang(2015)and Ferrer--iCancho and G ó mez-Rod rí guez(2015)on Dependency Length Minimization,″2015-10-01,http://arxiv.org/abs/ 1510.00436,2015-10-03.

[17]劉海濤:《依存語法的理論與實踐》,北京:科學出版社,2009年。[Liu Haitao,Dependency Grammar: Theory and Practice,Beijing:Science Press,2009.]

[18]H.T.Liu,″Probability Distribution of Dependency Distance,″Glottometrics,Vol.15(2007),pp.1-12.

[19]H.T.Liu,″Dependency Relations and Dependency Distance:A Statistical View Based on Treebank,″in K. Gerdes,T.Reuther&L.Wanner(eds.),Meaning-Text Theory2007:Proceedings of the3rd International Conference on Meaning-Text Theory,Klagenfurt,May20-24,2007,M ü nchen:Verlag Otto Sagner, 2007,pp.269-278.

[20]H.T.Liu,Y.Y.Zhao&W.W.Li,″Chinese Syntactic and Typological Properties Based on Dependency Syntactic Treebanks,″PoznańStudies in Contemporary Linguistics,Vol.45,No.4(2009),pp.509-523.

[21]H.T.Liu,″Dependency Direction as a Means of Word-order Typology:A Method Based on Dependency Treebanks,″Lingua,Vol.120,No.6(2010),pp.1567-1578.

[22]H.T.Liu&C.S.Xu,″Quantitative Typological Analysis of Romance Languages,″Poznań Studies in Contemporary Linguistics,Vol.48,No.4(2012),pp.597-625.

[23]L.Wang&H.T.Liu,″Syntactic Variation in Chinese-English Code-switching,″Lingua,No.1(2013), pp.58-73.

[24]J.Y.Jiang&H.T.Liu,″The Effects of Sentence Length on Dependency Distance,Dependency Direction and the Implications:Based on a Parallel English-Chinese Dependency Treebank,″Language Sciences,Vol.50 (2015),pp.93-104.

[25]H.T.Liu,″Quantitative Analysis of Zamenhof’s Esenco Kaj Estonteco,″Language Problems&Language Planning,Vol.35,No.1(2011),pp.57-81.

[26]J.Cong&H.T.Liu,″Approaching Human Language with Complex Networks,″Physics of Life Reviews, Vol.4(2014),pp.598-618.

[27]H.T.Liu&J.Cong,″Language Clustering with Word Co-occurrence Networks Based on Parallel Texts,″Chinese Science Bulletin,No.10(2013),pp.1139-1144.

[28]H.T.Liu&J.Cong,″Empirical Characterization of Modern Chinese as a Mult-ilevel System from the Complex Network Approach,″Journal of Chinese Linguistics,No.1(2014), pp.1-38.

[29]R.Bod,A New History of the Humanities:The Search for Principles and Patterns from Antiquity to the Present,Oxford:Oxford University Press,2013.

Interdisciplinary Studies of Linguistics:Language Universals,Human Cognition and Big-data Analysis

Liang Junying Liu Haitao
(School of International Studies,Zhejiang University,Hangzhou310058)

This interview examines a recent study on Dependency Distance(length)Minimization, introduces earlier works on and the significance of this topic.

Dependency distance,or,dependency length,is taken as an insightful metric of syntactic complexity in the framework of dependency grammar(DG).According to dependency grammar, the syntactic structure of a sentence consists of nothing but dependencies between individual words— an assumption that is widely accepted not only in computational linguistics but also in theoretical linguistics.A dependency relation has the following core properties:it is a binary relation between two linguistic units;it is usually asymmetrical,with one of the two units actingas the governor and the other as dependent;it is classified in terms of a range of general grammatical relations,as shown conventionally by a label on top of the arc linking the two units.

Sentences are linearly unfolded,and as a result,the governor and the dependent may or may not be adjacent.That is,there may be different linear distances between governors and dependents.This linear distance is termed as dependency distance(length),usually measured by the number of the intervening words between them,which is believed to have much to do with parsing(processing)difficulty.

In terms of dependency grammar(DG),the syntactic parsing of a sentence is based on successive input of individual words,committed to establishing,at each parsing state,syntactic relation between the presently processed word and a previous one.As a cognitive activity, syntactic parsing is complemented via working memory,on which different burdens may be imposed by different dependency distances:the intervening words may either strain the capacity the WM or result in,owing to time-decay of memory,difficult retrieval of a previous word. Hence,longer dependency distance,or more intervening words,probably means more syntactic complexity and higher cognitive cost in processing.

Given the cognitive possibility that dependency distance positively correlates with syntactic complexity and processing difficulty,it may be assumed that human languages,which are definitely constrained by general cognitive mechanisms,should prefer structures with short dependency distances for the sake of less demand on working memory resources.This tendency is termed as Dependency Distance Minimization(DDM):in natural languages,a sentence should be structured in such a way so as to minimize its overall dependency distance syntactically related words in this sentence.The DDM hypothesis is presumed as one possible linguistic universal motivated by general human cognition.

Obviously,the hypothesis of DDM is deduced from the cognitive assumption that working memory is limited in capacity and subject to time-invoked forgetting.Thus the validity of this hypothesis should be empirically tested.Evidences in support of the preference for short dependency distance were first found in comprehension experiments on different types of relative clauses(RC).However,due to the high cost and laboriously careful design,the experiments are usually conducted upon a small number of subjects and a limited range of artificially composed linguistic material.Therefore,when it comes to language universals like DDM,large corpusbased quantitative study may serve as a significant supplement to psychological experiments, especially in this big data era.Verbal communication is by nature a type of human behavior which is regulated,to a considerable degree,by human cognition.That is,there might well be some cognition-shaped patterns or universals in language.With the development of computer science, big-data-based statistical analysis has become one important means to detect patterns in various human behaviors.In this sense,large-scale corpus,which gives researchers easy access to big data of verbal behaviors,may contribute much to scientific linguistic researches that aim to detect linguistic patterns and to trace their cognitive motivations.In other words,if DDM is a general cognition-shaped tendency in language,corpus-based big-data analysis should be able to detect this tendency.What is noticeable is that investigation into DDM demands a dependency treebank, that is,corpus annotated with syntactic relations between words,because DD is concerned withthe linear length of the syntactic relations between words.

This interview briefly reviews the cognitive DDM researches based on corpus-data and comments on some existent problems and future directions in this field.In the past,linguistic universals were rarely considered in terms of cognitive constraints and seldom pursued through corpus-based big-data analysis.However,as expounded in this interview,researches into DDM in human languages reveal that it is valuable to cognitively investigate linguistic universals through statistical analysis of big-language-data,which strongly suggests that,to obtain truly scientific discoveries,it may well be essential for linguistic studies to integrate efforts from multiple disciplines— cognitive science,mathematics,physics and biology,to name just a few.

Dependency Distance Minimization;language universals;cognitive science;big-data

2015-10-23[本刊網(wǎng)址·在線雜志]http://www.journals.zju.edu.cn/soc

[在線優(yōu)先出版日期]2016-01-06[網(wǎng)絡連續(xù)型出版物號]CN33-6000/C

國家社會科學基金重大項目(11&ZD188)

1.梁君英(http://orcid.org/0000-0002-3603-294X),女,浙江大學外國語言文化與國際交流學院教授,博士生導師,心理學博士,主要從事心理語言學、構式語法與依存語法、雙語加工等方面的研究;2.劉海濤(http://orcid.org/0000-0003-1724-4418),男,浙江大學外國語言文化與國際交流學院求是特聘教授,博士生導師,文學博士,主要從事計量語言學、語言復雜網(wǎng)絡、配價理論與依存語法等方面的研究。

10.3785/j.issn.1008-942X.CN33-6000/C.2015.10.231

猜你喜歡
劉老師語言學語法
“咕咚”因何加引號?
借助連環(huán)畫講故事
跟蹤導練(二)4
KEYS
劉老師想開小車
文苑(2018年22期)2018-11-19 02:54:18
幽默的劉老師
Keys
Book 5 Unit 1~Unit 3語法鞏固練習
認知語言學與對外漢語教學
語言學與修辭學:關聯(lián)與互動
當代修辭學(2011年2期)2011-01-23 06:39:12
娄烦县| 南靖县| 黑水县| 那曲县| 防城港市| 普格县| 岳阳县| 凤阳县| 怀柔区| 博罗县| 磐石市| 富宁县| 多伦县| 阳山县| 饶阳县| 肇源县| 鄢陵县| 刚察县| 临武县| 平安县| 浪卡子县| 阿坝| 海兴县| 朝阳市| 隆林| 黔西县| 宜章县| 漯河市| 达拉特旗| 泽州县| 工布江达县| 城步| 富源县| 新乡县| 青海省| 南岸区| 循化| 登封市| 宁陕县| 滦南县| 和田市|