国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

下一站在哪里?

2011-02-17 04:20董振東郝長伶
中文信息學報 2011年6期
關(guān)鍵詞:句法語料語義

董振東,董 強,郝長伶

(1. 中科院計算機與語言工程中心, 北京 100091; 2. Canada Keentime Inc., 蒙特利爾)

1 引言

2011年是一個有著許多周年紀念日的年份。與我們更密切相關(guān)的應(yīng)是中國中文信息學會成立30周年。此時此刻,我們還應(yīng)記得今年也是我們中國中文信息學會前理事長陳力為院士逝世10周年。我們特別要紀念陳力為院士,因為他最后的20年曾全身心地投入了中文信息處理事業(yè)。20世紀80年代初,他主持制定出用以統(tǒng)一漢字代碼的《GB 2312漢字編碼字符集——基本集》,作為國家標準頒布,于1985年獲得國家科技進步一等獎。隨之國內(nèi)外出現(xiàn)了“萬碼奔騰”的輸入方案,他不辭辛苦地參加評測和審定,同時他提議必須開發(fā)能為普通人方便地使用的輸入方法,在他的直接指導(dǎo)下,中國第一個智能型拼音輸入于20世紀80年代末終于研制成功了。自此可以說中文已經(jīng)順利地進入計算機了。于是陳力為又帶領(lǐng)我們開始了難度更高的研究,這就是“詞”這個中文信息處理的“攔路虎”。在“七五”期間他組織并主持了《信息處理用漢語分詞規(guī)范》的研究與制訂工作。專家們曾經(jīng)開過幾十次大小研討會,陳力為都是每次必到,來與大家一起討論。同時他親自指導(dǎo)根據(jù)該規(guī)范在大規(guī)模語料的基礎(chǔ)上提取和編制中文詞表。“八五”期間,陳力為組織領(lǐng)導(dǎo)了全國幾十位計算機和語言學等方面的專家,著手建立中文信息處理技術(shù)的應(yīng)用開發(fā)平臺。這個課題的重點放在漢語語料庫、語法詞典、語義詞典、句法規(guī)則庫等語言知識的獲取和句法分析系統(tǒng)的研究開發(fā)上。簡要回顧這段歷史,一則是為了在我們學會成立30周年之際,緬懷紀念我們的前任理事長, 一則是讓我們看到陳力為是如何從“字”到“詞”,從“詞語”到“文本”,思索和規(guī)劃中國的中文信息處理研究的,是如何牢牢把握研究要“面向應(yīng)用,服務(wù)于用戶”的方針的。今天的中文信息處理研究如何呢?今后的道路要不要我們自己探索呢?我們應(yīng)該期望我們下一代的學者成為什么樣的人?我們是否有必要進行一番回顧與反思,有必要展望未來,預(yù)見到新的挑戰(zhàn),預(yù)見下一站應(yīng)該在哪里。這就是本文想要說的,希望或是拋磚引玉,或是當個靶子,激發(fā)同行們討論和批評。

2 回顧

回顧中文信息處理發(fā)展30年,我們應(yīng)該引以自豪的是我國的中文信息處理研究成果曾經(jīng)被認定與“兩彈一星”并列的對國家具有深刻意義的成就。30年見證了王選的激光照排,漢王在OCR技術(shù)基礎(chǔ)上發(fā)展起來的系列產(chǎn)品,中軟總公司推出的中國第一個商品化機器翻譯系統(tǒng)“譯星”,華建在“863”基礎(chǔ)上發(fā)展起來的多語言翻譯產(chǎn)品,TRS在全文檢索研究基礎(chǔ)上發(fā)展起來的信息處理系統(tǒng),格微軟件在以知識管理為特色的人機交互協(xié)同翻譯平臺,以及源于亞偉速記技術(shù)的現(xiàn)已成為產(chǎn)業(yè)的亞偉速錄機的發(fā)明與應(yīng)用。此外,漢字字處理、少數(shù)民族語言研究目前也相當活躍。本文的重點想放在計算語言學的研究方面。計算語言學是自然語言處理之本,亦即人類語言技術(shù)之本,它包括了: 機器翻譯、自然語言處理、數(shù)據(jù)資源、信息檢索、語音理解、字符識別等諸多領(lǐng)域。

3 談落后

我們很長時間來一直有一個百思不得其解的疑問: 當我們自己說起來時,總是認定與國外相比較,特別是計算語言學研究領(lǐng)域是落后的。近20年來,我們的計算語言學研究,應(yīng)該說是最與國外同領(lǐng)域接軌的,我們在國外的所謂的“套路轉(zhuǎn)變(Paradigm shift)”后面一直是緊跟不舍的。我們在20世紀90年代初期便不失時機地建立了大規(guī)模語料庫,隨之進行了對大規(guī)模語料的詞性標注。我們很快采用了國外流行的各種機器學習算法和語言模型。在機器翻譯研發(fā)上我們研究的主流是數(shù)據(jù)搜索統(tǒng)計方法。我們不僅建立與海外相同的數(shù)據(jù)資源,如樹庫等,我們也直接利用海外的數(shù)據(jù)資源,我們參加了海外舉行的包括從中文分詞到問答系統(tǒng)等的幾乎所有各類評測。據(jù)報道我們的研究在各個領(lǐng)域與海外比較都有一定差距,例如在依存關(guān)系分析的評測中中文與英文相差10多個百分點[1]。我一直在想,這究竟是我們的中文天生不適應(yīng)當今這種類型計算機處理呢?還是中文不適應(yīng)海外的那種研究套路呢?還是我們自己是歪嘴和尚沒有念好外來的真經(jīng)呢?簡言之,究竟應(yīng)該是怪語言,還是怪方法,還是怪人呢?中文加工處理要分詞,印歐語系不需要,這樣一開始我們就輸在起跑線上,于是一步趕不上,就步步落后,就沒有翻身的機會??墒菫槭裁磸纳鲜鰧χ形男畔⑻幚硌芯扛黝悜?yīng)用看,它成績斐然,令人贊許,并不見得落后,有的還處于領(lǐng)先的地位?那么是明明已是落伍了而我們還自我陶醉,還是不應(yīng)該籠統(tǒng)地斷言落后,而是應(yīng)該具體問題具體分析呢?與這個落后問題相關(guān)的是: 如果是語言自身的問題,就是說中文面對計算機處理時就先天不適應(yīng),但是它為什么面對人的時候,中國人并不會感到處處都是歧義,一步一個坎兒呢?人際交流中沒有絲毫別扭呢?下面我談?wù)勎覀円恢币詠淼囊恍┛捶ā?/p>

4 跟風與創(chuàng)新

“跟”是一種學習和引進,是必要的。但下一步應(yīng)該是消化、吸收,再下一步,也是最關(guān)鍵的一步,就是創(chuàng)新。只是“跟”,而沒有創(chuàng)新,那是“學藝”或“臨摹”,而不是研究。我認為跟隨別人的技術(shù),并不是最重要的,最重要的倒是應(yīng)該學習別人的那種活躍、敏捷的思路和那種創(chuàng)新的意識。試以機器翻譯為例,1999年約翰·霍普金斯大學夏季討論班研究人員開發(fā)了Giza軟件包,實現(xiàn)了IBM Model 1到IBM Model 5。F.J. Och隨后對Giza進行了優(yōu)化,加快了訓練速度,特別是IBM Model 3到5的訓練。Och發(fā)布的軟件包被命名為Giza++,直到現(xiàn)在,該軟件包仍是絕大部分機器翻譯系統(tǒng)的基石。在基于短語的統(tǒng)計翻譯模型逐漸走到了盡頭的時候,越來越多的研究人員開始考慮在模型中引入句法知識。2005年的評測中,馬里蘭大學的系統(tǒng)就采用了一種引入了句法知識的統(tǒng)計翻譯模型——“層次短語模型”。這是由一位叫蔣偉(David Chiang)的華人研究人員提出的。蔣偉還在使用BLEU時發(fā)現(xiàn)缺陷后做了改進,提出了BLEU-SBP方法。有報道稱我們平時使用時也曾發(fā)現(xiàn)BLEU的缺陷,但是卻沒有進一步去思考為什么。這可能就是我們與蔣偉等的差距!可喜的是,近年來有更多的學者已經(jīng)意識到了,開始注意和學會創(chuàng)新。 例如據(jù)稱計算所的Silenus系統(tǒng)已經(jīng)具有了國際領(lǐng)先的水平,目前許多國際同行都在跟蹤他們的這項技術(shù)。

近20年來,在計算語言學的諸多領(lǐng)域,我們基本上采取“跟”的辦法。我們很少人懷疑這樣的做法。緊接著我們再次跟進,開始了以詞性為句子基本單位基礎(chǔ)上的樹庫建設(shè),其實樹庫本身也是可以質(zhì)疑的。參與賓州樹庫工作的以色列海法大學學者Shuly Wintner 曾這樣寫道: “考察一下面向數(shù)據(jù)的革命以來在自然語言工程領(lǐng)域的重大成果吧。比如賓州樹庫,1992年第一個版本問世以來,它的標注體系被用來對眾多的詞類和分析器進行訓練。這套標注體系的背后是什么理論?在什么意義上這個標注體系是“正確的”?會不會有其他某個標注體系也是同樣好的?我們憑借什么準則對這樣一套資源的質(zhì)量進行評估?”[2]在賓州中文樹庫的規(guī)范中有這樣的例子:

(IP (NP-SBJ (NN 經(jīng)濟))

(VP (ADVP (AD 年平均))

(VV 增長)

(QP-EXT (CD 百分之十七))))

(PU ,)

(IP (NP-SBJ *pro*)

(VP (VV 高于)

(NP-OBJ (NP (DP (DT 全))

(NP (NN 國)))

(ADJP (JJ 年平均))

(NP (NN 增長)

(NN 速度))))))

(PU 。)))

此例中“增長”與“年平均”出現(xiàn)兩次,根據(jù)其所謂的句法功能不同,標注的詞性不同。下面的例子中的“細心”,是否也應(yīng)該標注不同的詞性?

(c) 這孩子很細心

(c-1) the kid is verycareful

(d) 請細心檢查牙齦

(d-1) please examine his gumcarefully

(e) 細心對外科醫(yī)生更加重要

(e-1)carefulnessis more important for a surgeon

中文真的是這樣的嗎?我們普通中國人頭腦中真有這么一部語法嗎?我們的語法究竟是普通人的語法還是語法學家的語法?再者,我們的詞典里“增長”、“年平均”、“細心”都像英語詞典那樣列出了不同的詞類及其相應(yīng)的詞法和句法信息了嗎?沒有。這不就天生落后了嗎?我們的句法分析與詞典是不配套的,是不同的語法系統(tǒng)。而這些是人為的,并不是我們的語言自身的問題。正如我在2006年寫道: “讓中文歸于中文。千萬不要把中文硬是塞進那種非中文的語法框架中,猶如常言所稱的,削足適履”[3]。

5 共性與個性

現(xiàn)在流行一種說法,就是不應(yīng)該太強調(diào)漢語的特點。還有一種說法就是既然有“universal grammar(普遍語法)”,說明不同的語言都是有大體一致的文法的。進一步得出能解決好英文的語言技術(shù),就能夠同樣解決好中文。這樣就在理論上找到了現(xiàn)在種種接軌的做法的依據(jù)了。然而,共性寓于個性之中。其實喬姆斯基提出的“普遍語法”,說的是一種人類所特有的機制。不是說不同類的語言都有著一部一致的語法,比如都得有名動形副等詞類,句法成分都得有主謂賓等,都得遵循X階標理論(這是喬姆斯基早年提出過的,而今自己已經(jīng)放棄的理論)等等。

中文就是中文。中文有自己的特點。中文的特點是客觀存在。我們做中文處理時,是不能不認真對待的。中文缺乏形態(tài)變化。中文靠意合。中文的句法手段主要是詞序和虛詞。這些是中文語言學家早就取得的共識。然而由于在理論上過分強調(diào)所謂的“共性”,在語言技術(shù)上又過分地依賴于現(xiàn)成的方法或者不敢改變,或者懶于改變,因此如何真正使對于中文句法手段的共識體現(xiàn)并融合于語言技術(shù)并不多見。

試看下面的機譯例子,說明中文里很普通的語言現(xiàn)象——重疊,在我們的機譯系統(tǒng)中,并沒有專門的技術(shù)去處理。

(f) 我希望兩家人能從今以后和和平平地融洽相處。

(g) 大家都快快樂樂的該多好!

(h) 一張張小課桌,一把把小椅子,讓我想起了自己的小學一年級。

(f-1) I hope that two people from now on the ground and the peace and harmony.

(g-1) We almost happy music time!

(h-1) Zhang a desk, a chair to a small, reminds me of their first grade.

再看下面的機譯例子,說明中文的所謂的“OOV”與英文是不同的,中文更多見的是一種“偽生詞”,中文語言處理是必須有專門的技術(shù)來對待這類的偽生詞的,因為它們是能產(chǎn)的。

(i) 其實早在三個月前總經(jīng)理已萌生去意。

(j) 看來他去意已決,不好挽留了。

(k) 他們未向我表明他們的來意。

(l) 成都青羊區(qū)職改辦流出職稱假證供企業(yè)出售牟利。

(i-1) In fact, as early as three months ago, has been general manager think of killing

themselves.

(j-1) It seems he went to Italy has decided, to retain the good.

(k-1) They have not told me that they had come.

(l-1) Chengdu Qingyang District Office Office of outflow Title false testimony enterprises sell at a profit.

再看看下面的實例,有三個機譯系統(tǒng)給出同一句中文的機器譯文:

(m) 鄰居家大嫂又生了個小子,小臉胖乎乎的,眼睛大大的,一笑還兩個小酒窩,可討人喜歡了。

(m-1) Neighbor’s sister and gave birth to a boy, chubby little face, big eyes, smile has two small dimples can be likable a.

(m-2) Neighbour‘s’ sister-in-law gave birth to a boy, fat face, big eyes, smile has two small dimples, be like.

(m-3) Neighbour‘s’ sister-in-law has given birth to a boy, the small face is plump, the eyes are big, smile and return two small dimples, very lovely.

這里三個不同的機譯系統(tǒng)的譯文,粗看好像還過得去,這就是有些研究者說漢英的機譯結(jié)果比英漢的要好一些的假象。其實這三句譯文都是不合英語文法的。中文這樣的句子語法學家稱之為省略句,也有學者稱之為標點句。這樣的句子還是不是棵樹呢?它的句法體現(xiàn)在哪里?實際上它的語法,即真正的成句的約束在于語義。如果第一個逗點后出現(xiàn)“部件”,應(yīng)與該逗點前的緊鄰的“整體”對應(yīng)。這里的“緊鄰”,則體現(xiàn)了中文語法在詞序上的約束。

說到省略,我們再舉一個例子:

(n)昨天在校園里遇到了李老師的夫人,她說李老師前天胃疼,住院做了檢查,醫(yī)生說可能是胃炎,吃點中藥調(diào)理調(diào)理就會好的。

此例中,是誰“吃點中藥”?人理解是沒有一點困難的,人靠的是什么?如果把此例譯成英文,“吃”前面的主語也可以省略嗎?我們要處理中文,就不能不應(yīng)付這樣難題。現(xiàn)下流行的做法是逃避,逃到“淺層”去,還說“淺”的都解決不好,哪能去碰“深”的。其實,中文是給了我們一個走向深層的機會,一個有所發(fā)現(xiàn),有所創(chuàng)新的機會。為什么要過分地強調(diào)語言的共性呢?

6 詞性標注

文本標注是當下流行的語言技術(shù)手段。針對不同的需求,進行不同類型的標注。我們可以為一個文本中的每個詞語標注它們的發(fā)音,也可以標注它們字數(shù),或為滿足句子分析的需要,我們流行的是標注每個詞語的詞性。英語這樣做了,我們漢語也這樣做了。我們直到近兩年才有學者對于中文語料的詞性標注提出質(zhì)疑[4-5]。核心是: 中文句子也與英文句子一樣是動詞(V)、名詞(N)、形容詞(A)等那樣的詞性的序列嗎?我們注意到,在中文里,所謂的V、N、A的任意順序、任意個數(shù)的排列都是有歧義的。例如:

(a) 守軍 作戰(zhàn) 勇猛(defending troops fought bravely)

(b) 沙漠 作戰(zhàn) 艱苦(the desert battle is arduous)

也許有人會說,在(b)中的“作戰(zhàn)”,我們標注的是Vn。但是這對于句法而言是一種偽命題,你們憑什么呢?顯然根據(jù)的不是句法,而是語義。這是為什么呢?正如沈家煊指出的,由于漢語的詞語從詞庫取出后入句時沒有“熔解”的過程,漢語詞語沒有形態(tài)變化。因此如果用V、N、A標注語料,這樣的做法不會比英文來得有效[6]。中文有沒有詞類的問題從50年代初就開始爭論,即便是暫時壓下去了,還總是不時就會冒頭。如果我們徹底忘記了《馬氏文通》,我們這些普羅大眾還會不會有名動形這種語法概念了呢?我本以為語言工程界會對這個問題有些沖擊的??上]有。

我們最近做過這樣的觀察,我們隨機挑選中英文各3個“名動兼類”的詞語,中文是: “影響”、“計劃”和“通知”;英文是“search”、“influence”和“record”,我們?yōu)槊恳粋€詞語隨機挑選50個句子。然后我們選定以該詞語為中心的三元組,為三元組中的每個詞語標注現(xiàn)在最流行的詞性,結(jié)果是:

英文——語境總數(shù): 51,其中歧義語境數(shù): 1對

例子1: Your Dolphin Disc record voucher is in the post—if you don’t want to spend it, you could always read it.NXnN

The De Obsessione says that Malcolm assaulted Durham and was driven off by Uhtred during ?thelred’s reign, and the Irish Annals of Ulster record fighting between Scots and English in 1005 (recte 1006).NXvN

中文——語境總數(shù): 78,其中歧義語境數(shù): 9對

例子1: 天氣 變化 將 不致 嚴重 影響 發(fā)射

AdjXvV

菅直人 就 福島核電站 事故 造成 的 嚴重 影響 表示 歉意,

AdjXnV

例子2: 全市 計劃 招生 9 620人 ,其中 普通高中 5 400 人

NXvV

在 上述 十 年 計劃 頒布 后,

NXnV

英文的詞性序列都比較整齊,目標詞周圍詞的詞性對目標詞詞性有很好的約束作用,而漢語詞性序列則顯得松散,目標詞周圍詞的詞性對目標詞詞性缺乏嚴格的約束作用。

邢富坤做過這樣的實驗: 都是以中英文詞性標注語料為基礎(chǔ),用同樣的隱馬爾科夫模型,兩種語言的兼類詞標注準確率的判別結(jié)果中英文分別為 88.12% 和94.63%。

7 樹庫建設(shè)

前面曾經(jīng)引述過以色列學者Shuly Wintner對于賓州樹庫的質(zhì)疑。我也曾經(jīng)多次對于中文樹庫提出過質(zhì)疑。當時提出質(zhì)疑時,只是憑推想。我想第一,漢語與英語不同,如果說英語句子是一棵樹的話,那漢語是不是呢?例如上面舉出過的例句(m),是一棵怎樣的樹呢?嚴格地說,漢語是圖。第二,既然我們的普遍的共識是: 漢語的“詞性”與句法功能是不像英語那樣嚴格對應(yīng)的,那么一個以“詞性”為基礎(chǔ)、以主謂賓等句法功能為架構(gòu)的中文樹庫,真的能夠全面而準確地反映漢語的語言現(xiàn)實嗎?近期有人在參與樹庫建設(shè)中,產(chǎn)生了許多疑問,于是做了詳細的考察。有一點是可以肯定的,那就是漢語中任意的名動形的序列,無論是二元的、三元的,都是歧義結(jié)構(gòu)。例如樹庫中有:

[vp-PO [vp-PO 告訴/vSB [np-AD 孩子/n 們/k ] ] [vp-LW [vp-PO [vp-SB 洗/v 干凈/a ] 手/n ] [vp-ZZ 再/d [vp-LW 來/v [vp-PO 看/v 書/n ] ] ] ] ]

[vp-JY 讓/vJY 國人/n 大夢初醒/iV ] ] ,/, [dj-ZZ 一時間/d ,/, [dj-ZW 信息/n [vp-PO 成為/v [np-DZ 熱門/a 話題/n ] ][7]

這樣的樹庫標注,是否就能使計算機從中學會區(qū)別: “洗 干凈 手”和“成為 熱門 話題”這個“V+A+N”的結(jié)構(gòu)歧義了呢?有人說它靠更大的上下文來消歧。從上面的例句看,它們還為我們提供了怎樣的上下文呢?

最后,也是由于漢語的詞性與句法功能的不對應(yīng),造成我們的標注規(guī)范非常復(fù)雜。這樣標注的一致性就較難保證。這點從所謂的“動名(Vn)”上表現(xiàn)得尤為突出,從評測的成績反映,這個環(huán)節(jié)也是表現(xiàn)較差的。

8 下一站在哪里?

Kenneth Church在2007年發(fā)表一篇題為“A Pendulum Swung Too Far”的長文[8],很值得一讀。在文章的開始作者簡單回顧了20世紀90年代當初創(chuàng)建SIGDAT的情形。他說“當時我們背叛我們自己老師的立場是出于實用主義的考慮的。如今數(shù)據(jù)可以容易的得到了,我們何不拿來利用一下呢?我們認為與其高不成低不就,不如做點簡單易行的。讓我們來摘取低枝的果子吧。”開始的時候SIGDAT的學術(shù)會與當時的ACL的主流是很不一樣的,(很另類吧)。當時SIGDAT只是想在那里有自己的一席之地(他的原話是“At the time, all we wanted was a seat at the table”)但是沒過幾年,一切都變了,經(jīng)驗主義不僅復(fù)蘇了而且是太成功了,以至于除此之外的其他東西卻不再有什么地盤了。順便說一點,如果當年的Church們也只是老師走一步就跟一步,老師走到哪里就跟到哪里,絲毫不敢越雷池一步的話,那么還會有后來的輝煌的技術(shù)路線轉(zhuǎn)變了嗎?如今20年過去了,當時離經(jīng)叛道的學生已經(jīng)是老師了,他們該如何對待自己的學生呢?這應(yīng)該就是Church這篇文章的主旨。他認為“鐘擺擺得太遠了”。他在思考那些低枝的果實都被摘得差不多時,誰去摘那些高枝的呢?又怎樣去摘呢?他的學生們將如何面臨和準備迎接未來的新挑戰(zhàn)呢?在他的文章中他提出要教授學生語言學知識。2006~2007年,美國政府機構(gòu)曾組織過一個有關(guān)自然語言處理或稱人類語言技術(shù)問題的研討會,可以簡稱為MINDS研討會。這應(yīng)該是美國有關(guān)語言技術(shù)的戰(zhàn)略研討會。我們從這里可以領(lǐng)悟到他們怎樣關(guān)心戰(zhàn)略,他們?nèi)绾慰偨Y(jié)過去和展望和規(guī)劃未來??偠灾?,他們在思考未來。我曾多次呼吁,不要別人走一步我們才跟一步,讓我們先行一步,去到下一站等著,不行嗎?

下一站在哪里?下一站是個什么站?在我們準備走向下一站時,首先應(yīng)清醒地認識到: 任何的技術(shù)路線和方法,在語言信息處理面前都會有它的局限性。不要走極端,也不要走回頭路??偲饋碚f,充分發(fā)揮超大計算能力的優(yōu)勢,充分利用超大規(guī)模的數(shù)據(jù),注意利用移動通訊的能力,另外,任務(wù)牽引,而不是技術(shù)牽引,這些都是首先要把握的前提。下一站究竟是怎樣的?我們可以做如下的設(shè)想。

8.1 走向深層

與10年前不同了,現(xiàn)如今聲稱自然語言處理只會添亂的聲音消失了;如今說語義抓不著摸不到的聲音也不很響了。從淺層走向深層,從表象走向內(nèi)容。過去的研究和技術(shù),我們常聽到的是“淺層分析”、“基本名詞短語”等。這些就是所謂的低枝果實?!吧睢卑瑑蓪右馑迹?一是數(shù)據(jù)的加工要深,語義是一個必須提到議程上來的問題;二是用以計算的工具要有處理意義和內(nèi)容的能力。這里不得不在語義的問題上多說一些。說到語義,首先要破除一些誤區(qū)。最大的誤區(qū)是: “語法還沒有解決好呢,語義就更談不上了”。這樣的說法對于英語,還說得過去,但對于漢語就完全是一個誤區(qū)了。對于英語,語法可以是進入語義和內(nèi)容的“拐棍”;但對于漢語,所謂的語法,特別是那種強加給漢語的“語法”就不是“助力”了。試看以下例子:

桌腿、河口、房檐、人腦、槐樹葉,飛機座艙、學??倓?wù)處、眾議院外交委員會

說它們是漢語語法里規(guī)定的“定中結(jié)構(gòu)”,這對于人或計算機有意義嗎?或者在標注語料時把它們標注為N+N有意義嗎?中國人說漢語是要遵守NN的語法呢還是要考慮這是“定中結(jié)構(gòu)”呢?如果我們這樣表述: 當漢語要描述事物的部件,并描述的是它是何物(作為它的整體)的部件時,應(yīng)該遵循這樣的規(guī)定: 這些中文詞語或短語的語序是固定,必須是“整體”+“部件”。如果標注語料,是不是標注“整體”的語義描述+“部件”的語義描述更有意義呢?例如: 在《知網(wǎng)》中“桌腿”的標注是:

{part|部件:PartPosition={leg|腿},whole={furniture|家具:{put|放置:LocationFin={~}}}}

當我們教外國人學習漢語時,是教他應(yīng)該用“整體+部件”的順序好呢還是教他“N+N”順序或一個“定中結(jié)構(gòu)”好呢?當我們做語言信息處理時,要計算“桌腿”的相關(guān)詞語時,上面的標注將會為我們提供諸如“餐桌”、“辦公桌”、“茶幾”、“寫字臺”等等,反之如若僅標注“N+N”,意義的相關(guān)性計算也就沒有可能了。我們相信在揭示詞語意義的深度上,《知網(wǎng)》代表著未來。在詞語內(nèi)在意義以及內(nèi)部義原之間的關(guān)系上,《知網(wǎng)》的深度是可以滿足中文語言處理的要求的?!吨W(wǎng)》開始于80年代末,應(yīng)用于2000年初。我們可以自信地說《知網(wǎng)》是“在下一站等著”的一個典型。

8.2 標注的學問

前面提到的MINDS報告里出現(xiàn)了一個新的概念,“annotation science”。標注對于語言處理的作用是不容置疑的。標注什么?怎么標注?由什么樣的人來標注?確實值得很好的研究,真的將成為一種學問。這里我們介紹一下我們長期以來對于漢語語料標注的一些設(shè)想。對于漢語語料我們希望嘗試新的標注策略和技術(shù)路線。它具有如下特點。

a.漢語語料不做“詞性”標注,不建立以詞性為基礎(chǔ)的樹庫。標注的著眼點是意義,一步到位標注語料的意義和內(nèi)容。從要標注的知識,到標注工具的設(shè)計和功能,都應(yīng)服務(wù)于意義求解的目的。

b.除了全文逐詞標注外,采取定點、難點的專題標注,即針對漢語的問題進行專題分解的標注。例如,對于漢語的介詞的管轄詞語的標注;對于“削蘋果的皮”/“削蘋果的刀”類型的歧義結(jié)構(gòu)的標注;對于語義歧義的詞語如“把握”、“材料”、“初二”、“發(fā)展”等在給定語境中意義的標注等等。

c.采用類似于維基百科建庫的群體性方式,資源共建、共享。標注人員非專家化,歡迎任何普通人來參與。這就要求我們確定好專題,編制好不同的軟件工具,采用問答方式。

d.所謂的“問答式”,如前面曾舉出過的諸如“增長”那種所謂的“動名詞”(還是叫名物化)的,在新體系中是不應(yīng)有的。我們設(shè)計的問答式標注工具,是不會出現(xiàn)類似如下的提問的: “這個詞是動詞還是名詞,是動詞按1,是名詞按2”。類似a項中的例子,標注工具應(yīng)問: “這里‘削’的是‘皮’呢還是‘蘋果’呢?”當在標注工具中選中其中的實詞時,標注工具可以自動給出該詞語在當前語境中的漢語解釋。當選中“皮”時,標注工具應(yīng)能給出“皮是蘋果的部件”。當選中“刀”時,應(yīng)能給出“刀是切削蘋果的工具”。如果標注后的結(jié)果都能給出這樣的釋義,那就意味著標注結(jié)果是可計算的、可直接利用的。

標注工具應(yīng)該具備自動學習的功能,即: 當人工標注一種實例后,該工具可以在大量語料當中找出和搜集相同或相似的實例,并把它們保存在待查數(shù)據(jù)庫中,人工確認后將其放入正式語料庫中。

對于語義歧義的標注,應(yīng)該給出例子,然后提問,試以“材料”為例:

例1家里衛(wèi)生免不了的清潔一通,里里外外全都搞了個遍,好像天生就是干活的材料,沒事總是閑不住,非要找出個什么事情來做做才心安。

標注工具將給出《知網(wǎng)》中“材料”這個詞語的各個義項的例子:

① 收集~,鮮活的~,熟悉~,調(diào)查~,整理~,給~分類編目,手頭的~,掌握~,考研~,又發(fā)給我們一堆學習~,參考~,第一手~,上報的~中有記載的,一本~,黑~,

② 唱歌的~,跳舞的~,不是干這的~,上大學的~,不是塊讀書的~,是塊干力氣活的~

③ 建筑~,裝修~,買~,家裝~,航天飛機外殼是用什么~做的,房屋~,合成~,防水~,防火~,高分子~,納米~,~科學,

然后來提問,受試人只回答①或②或③。應(yīng)注意的是,標注工具在接到答案后,標注上去的不是①或②或③,而是它們所對應(yīng)的《知網(wǎng)》中的概念定義。在受試人回答后,就接著再提問如:

例2作為一個領(lǐng)導(dǎo)干部,不能只坐在辦公室,靠電話做工作,要深入群眾、抓第一手材料,才能當好及時給縣委提供情況,并提出建議的好‘參謀’。

我們將集中比如說100個含“材料”的例子,都照此辦理。對于這種類型的歧義判別,與其依靠所謂的詞性或句法,不如依靠詞例或大語境。我們也許可以為每一個多義詞語建立某種語言模型,來進行“定點清除”式的排歧。

綜上所述,建設(shè)這樣的問答式標注工具本身就是一個頗具挑戰(zhàn)意義的研究與發(fā)展。它要求深入研究漢語的難點、歧義等。

e.除上述而外,語料標注的一個大工程是全文的依存關(guān)系。這項標注采用群體性問答式的方式,可能不容易,還是要靠專人,且有一定的規(guī)范。規(guī)范起碼會規(guī)定標注什么樣關(guān)系,是所謂的句法成分呢,還是語義角色呢?說到此,也不得不展開一點。這里有兩個誤區(qū)。其一,標注句法成分比語義角色簡單,容易取得好的一致性。其實對于漢語而言,語義反而容易,比那個人造的“語法”容易。試看下例:

朋友家我住很長時間了

按如今漢語語法學界流行的語法規(guī)定,這里“朋友家”和“很長時間”都是什么成分?都是賓語?如果按語義,前者為“處所”,后者為時段,這是憑人的直覺可以感悟的,不是更簡單嗎?英語與漢語不同,如: I stayed in my friend’s house for a long time,英語可以規(guī)定介詞短語修飾動詞,為“狀語”,先不必管語義上是什么,等到了語義分析這一步,再說它們的論旨意義。其二,認為無論是句法成分或是語義角色,越少越好,越容易取得好的一致性。根據(jù)我們多年的經(jīng)驗,實際情形并非如此。當然,在確保語義關(guān)系描述準確的前提下應(yīng)該力求簡單。試比較:

(o) 手術(shù)進行了將近8個小時

(p) 他父親死了快10年了。

上述例子中的“時段”,可以細分為“進程時段”,即動作延續(xù)的時間,以及“事后時段”,即動作發(fā)生后起算的時間。這里在標注規(guī)范中可以有所取舍,可細可粗。但我們在知網(wǎng)的體系里還是從“細”。因為如果把上述兩個句子譯成正確的英文,它們的差異就會在英文句法結(jié)構(gòu)上反映出來了。

(o-1)The operation lasts about 8 hours.

(p-1)It is nearly 10 years since his father died. (*His father died for nearly 10 years)

f.標注語料的規(guī)模不是越大越好,不是越多越好。未來我們應(yīng)該善于從較少的語料中學到更多的知識。無論標注的語料或生語料,都要強調(diào)質(zhì)量。這不僅是考慮成本,更是為了排除語料中噪聲對于信息處理的干擾。

8.3 技術(shù)融合

我們說的融合不是簡單的加工結(jié)果的融合,而是系統(tǒng)內(nèi)部的技術(shù)的融合。其所以要融合而要摒棄單打一、走極端,是因為任何一種方法都是有它的局限性的,另外,語言處理是極其復(fù)雜的,就應(yīng)該根據(jù)不同的任務(wù)采取不同的策略。我們所說的融合,是任務(wù)需求牽引下的融合。在同一個系統(tǒng)里融合各種方法,而不是非此即彼,互不兼容。學會和善于融合各種不同質(zhì)的資源、不同技術(shù)路線的方法,正是我們創(chuàng)新的廣闊天地。如今的“基于句法的統(tǒng)計機器翻譯”是技術(shù)融合的一個很好的例子。我們相信未來的語言處理系統(tǒng)將納入大規(guī)模的意義計算所需的知識資源和推理機制。這里我們還以機譯為例,試看下面英文句子:

(q) When I came to the bank again, I found the river had gone dry. We could not go fishing any-more.

句中的“bank”對于翻譯人員而言,是毫無疑問的。但是我們讓5個流行的機譯系統(tǒng)來翻譯,卻沒有一個翻對的。它們有的是基于統(tǒng)計的也有的是基于規(guī)則的,試看譯文:

(q-1) 當我再次來到銀行,我發(fā)現(xiàn)河水已經(jīng)干燥。我們不能去釣魚了。

(q-2) 當我再次來到銀行時,我發(fā)現(xiàn)這條河干枯了。我們可以不去釣魚了。

(q-3) 當我來到銀行,我發(fā)現(xiàn)河水干枯了。我們可以不去釣魚了。

(q-4) 當我再次來到銀行時,我發(fā)現(xiàn)河已經(jīng)變干。我們不能再去釣魚。

(q-5) 當我再來了到這家銀行,我發(fā)現(xiàn)這條河干燥。 我們不可能去再釣魚。

(HowNet EC MT)當我再來岸邊時,我找到了河變得干。我們未能再釣魚。

《知網(wǎng)》的英中機譯系統(tǒng)會正確判別“bank”的意義,是因為它融合了一個被稱之為《意義群落測定》的功能。該功能可以在概念相關(guān)性基礎(chǔ)上進行推理。在本例句中,“river”和“go fishing”均會給“bank”作為“河岸”的義項投票加分,以至于使該義項的測定值高于其他義項。

8.4 人本計算

前瞻下一站,人本計算應(yīng)該是一個必要的關(guān)注點?!叭吮居嬎恪庇⑽氖莌uman-centered computing(HCC),近年來與之相關(guān)的流行的術(shù)語有“human-centered artifacts”、“human-centered design”、“computer-supported cooperative work”等。人本計算屬于新興的多學科的研究領(lǐng)域。它與人機交互、信息科學有著密切的關(guān)系。我們認為格微軟件公司開發(fā)的《格微協(xié)同翻譯平臺》是典型的人本機器翻譯系統(tǒng)。人本機器翻譯是以人為本的,以人為主體的。它不同于全自動的機譯系統(tǒng),翻譯人員處于被動的地位,只能被動地去修改那質(zhì)量不高的,或有錯誤的機器譯文;它也有別于機助翻譯系統(tǒng),一般的機助翻譯主要仍會依賴機器提供的全自動的和翻譯記憶的譯文,它功能單一,適應(yīng)性差?!皡f(xié)同翻譯平臺通過創(chuàng)建用戶模型,實現(xiàn)了人(用戶)機(系統(tǒng))的一體化設(shè)計,使用戶、系統(tǒng)和知識處于一個和諧統(tǒng)一的管理平臺中。用戶模型作為用戶在系統(tǒng)中的一種映射,為系統(tǒng)在翻譯過程中的決策優(yōu)化提供了支持和保障,也進一步提高了翻譯知識積累和應(yīng)用的有效性”[9]。人本協(xié)同翻譯平臺的優(yōu)點是: 第一,它為用戶提供了極其豐富的知識,它們包括: 翻譯模板、術(shù)語、翻譯對象的本體知識、網(wǎng)站在線翻譯的結(jié)果、譯員的同事的翻譯結(jié)果及其頻次、該同事的翻譯能力檔案記載、校對記錄等等。每個譯員的行為模型將成為翻譯平臺的知識的一部分。翻譯平臺不僅會現(xiàn)場地幫助譯員翻譯,而且能夠為他們提供培訓。它可以在短短的幾個月內(nèi)把一個從未從事過任何翻譯工作的大學畢業(yè)生培養(yǎng)成能夠較熟練地翻譯專利文獻或?qū)iT領(lǐng)域資料的翻譯人員。除了譯文質(zhì)量難滿足用戶要求外,全自動機器翻譯的另一個缺陷就是它的“喧賓奪主”。在與機器交互時,人的主動參與是永恒的主題。博客的興起也可以說明這一點。人本計算還會包括一個重要特色: 普適計算,這也是我們特別要關(guān)注的。

9 結(jié)語

30年對一項事業(yè)是太短了,中文信息處理走過的這30年是輝煌的,是令人驕傲的。我們期望今后我們各自的研究更加突出自己的特色,有自己的創(chuàng)新,豎起自己的旗幟。我們期望我們大家更早地去到人類語言技術(shù)研發(fā)的下一站。但愿在意義和內(nèi)容的深層計算技術(shù)中,我們有更多的創(chuàng)新。

[1] 馮志偉.論語言學研究的戰(zhàn)略轉(zhuǎn)移[J].現(xiàn)代外語,2001,(1):1-11.

[2] Shuly Wintner, What Science Underlies Natural Language Engineering?[J].Computational Linguistics Volume 35, Number 4, 2009 Association for Computational Linguistics.

[3] Dong Zhendong, Dong Qiang. HowNet and the Computation of Meaning[M]. World Scientific Publishng Company, Singapore, 2006.

[4] 邢富坤,宋柔. 自動詞性標注中語法因素和詞匯因素對英漢語的不同影響[C]//CCL—2011論文集,清華大學出版社,2011.

[5] 宋柔. 從語言工程看漢語詞類[M]//語言學論叢(第40輯),商務(wù)印書館,2009.

[6] 沈家煊. 我只是接著向前跨了半步——再談漢語的名詞和動詞[M]//語言學論叢(第40輯),商務(wù)印書館,2009.

[7] 李艷嬌,楊爾弘. 樹庫中歧義組合考察[C]//CCL—2011論文集,清華大學出版社,2011.

[8] Kenneth Church, A pendulum Swung Too Far[J].Linguistic Issues in Language Technology—LiLT, Volume 2, Issue 4 May 2007.

[9] 張桂平,蔡東風. 基于知識管理和智能控制的協(xié)同翻譯平臺[J].中文信息學報,2008,22(5): 3-11.

猜你喜歡
句法語料語義
基于歸一化點向互信息的低資源平行語料過濾方法*
述謂結(jié)構(gòu)與英語句法配置
語言與語義
句法二題
詩詞聯(lián)句句法梳理
批評話語分析中態(tài)度意向的鄰近化語義構(gòu)建
“社會”一詞的語義流動與新陳代謝
“吃+NP”的語義生成機制研究
《苗防備覽》中的湘西語料
國內(nèi)外語用學實證研究比較:語料類型與收集方法
玛曲县| 舞阳县| 临澧县| 通城县| 陈巴尔虎旗| 资溪县| 临沭县| 页游| 金山区| 赤水市| 青龙| 诏安县| 大姚县| 武山县| 北京市| 桐城市| 新泰市| 扶沟县| 恩施市| 伊春市| 迁西县| 顺义区| 张掖市| 嘉鱼县| 仙游县| 亚东县| 盘山县| 罗田县| 靖远县| 元阳县| 阿拉善右旗| 施甸县| 安徽省| 阿克陶县| 永城市| 石棉县| 芷江| 鄱阳县| 吉安市| 鄂伦春自治旗| 新蔡县|