陶縣俊,鄔曉鈞,王曉東,鄭方
(1.河南師范大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,河南新鄉(xiāng)453007;2.清華信息科學(xué)技術(shù)國家實(shí)驗(yàn)室技術(shù)創(chuàng)新與開發(fā)部語音和語言技術(shù)中心,北京100084)
隨著計(jì)算機(jī)和Internet的推廣和應(yīng)用,對自然語言的處理由數(shù)據(jù)處理、信息處理發(fā)展到知識(shí)處理,同時(shí)對于分析算法的性能和效率的要求也越來越高。分析器在自然語言文本信息處理領(lǐng)域占有十分重要的地位。因?yàn)閼?yīng)用環(huán)境的影響和自然語言表達(dá)的隨意性、縮略性,特別是在對口語文本、網(wǎng)絡(luò)文本的處理中,待分析的文本經(jīng)常會(huì)包含字詞和句式上的錯(cuò)誤,自然語言分析器的魯棒性顯得尤為重要[1]。一個(gè)魯棒性較高的分析器意味著能夠在自然語言處理的過程中對出現(xiàn)的錯(cuò)誤進(jìn)行更為有效地處理[2]。
目前國內(nèi)外開展了很多針對于魯棒性文本分析器的研究,不少魯棒性文本分析方法已在實(shí)踐中取得了良好的效果。這些方法在魯棒性激發(fā)機(jī)制上有較大的共同點(diǎn):首先用分析器分析語句,當(dāng)遇到錯(cuò)誤導(dǎo)致分析中斷時(shí),調(diào)用相應(yīng)的出錯(cuò)處理機(jī)制,使得分析能夠正常進(jìn)行下去。出錯(cuò)處理機(jī)制的優(yōu)劣直接影響了整個(gè)分析方法的魯棒性。出錯(cuò)處理機(jī)制一般從兩個(gè)方面解決問題:第一是針對錯(cuò)誤類型采用高效的算法進(jìn)行糾錯(cuò),例如部分分析方法、基于編輯距離的最小糾錯(cuò)方法以及短語檢出方法等等;第二是從文法規(guī)則方面,手工構(gòu)建容錯(cuò)文法。
部分分析方法是現(xiàn)存的使用較為普遍的魯棒性文本分析方法,它在解決自發(fā)語音中的口語現(xiàn)象和識(shí)別錯(cuò)誤等方面有較大優(yōu)勢[3]。因?yàn)橛⑽恼Z法結(jié)構(gòu)的特點(diǎn),在英文的處理中有較為普遍的應(yīng)用。燕鵬舉提出了一種新的部分分析方法[4](以下簡稱燕方法),與一般的部分分析方法不同的是,該方法可以跳躍待分析文本中的一些文字進(jìn)行成分的歸約,具有較強(qiáng)的靈活性和魯棒性。但是燕方法對所分析的文法有較強(qiáng)的依賴性。在部分分析方法的基礎(chǔ)上,Boros et al提出了短語檢出(Phrases Spotting)的概念[5]。短語檢出的分析方法能夠解決對話系統(tǒng)中口語表達(dá)的隨意性、縮略性的問題,但在分析的過程中考慮上下文語義的因素較少。針對短語檢出分析方法的不足,Ye-Yi Wang在經(jīng)典線圖分析方法的基礎(chǔ)上提出了一種針對分析過程中所產(chǎn)生的成分進(jìn)行打分的方法[5],然后根據(jù)打分對這些成分剪枝。這種方法不但較好地解決了分析歧義的問題,而且能夠通過剪枝提高分析器的分析效率。在容錯(cuò)文法規(guī)則的構(gòu)建上,Jennifer Foster和Carl Vogel從各種類型的文檔里面抽取錯(cuò)誤語料[6],并構(gòu)建了錯(cuò)誤語料庫和并行的正確語料庫,然后手工總結(jié)語料庫里面的錯(cuò)誤特征,針對相應(yīng)的錯(cuò)誤特征手工構(gòu)建容錯(cuò)文法。在分析器中錯(cuò)誤文法的使用雖然提高了分析器的魯棒性,但是在實(shí)際的應(yīng)用中,文法規(guī)則的產(chǎn)生以及手工構(gòu)建容錯(cuò)文法是一個(gè)很復(fù)雜的過程[7]。
與前述各種魯棒性文本分析方法不同,本文在燕方法的基礎(chǔ)上提出了一種新的基于線圖分析方法的魯棒性文本分析算法。該算法利用當(dāng)前活動(dòng)弧和規(guī)則庫中的終結(jié)符信息對待分析文本中未識(shí)別語句串(在基于領(lǐng)域詞表的分詞過程中無法識(shí)別出來語句部分)進(jìn)行錯(cuò)誤推測與糾錯(cuò)處理,以提高分析器的性能與效率。
本文后面的章節(jié)依次介紹論文的相關(guān)工作、算法原理以及實(shí)驗(yàn)情況,最后對算法相關(guān)問題進(jìn)行總結(jié)和討論,提出今后研究的方向。
線圖(Chart)分析算法是一種簡單常用的句法分析算法,是一個(gè)由議程表(Agenda)驅(qū)動(dòng)的不斷循環(huán)的過程(具體算法可參考文獻(xiàn)[9])。算法按照初始化策略對議程表進(jìn)行初始化處理,如果議程表為空,那么分析失敗,否則每次按照議程表組織策略,從議程表中取出一個(gè)成分。如果取出的成分覆蓋整個(gè)句子,那么返回成功,否則將取出的成分加入到線圖中,執(zhí)行規(guī)則調(diào)用策略和活動(dòng)弧遞進(jìn)、歸約策略將產(chǎn)生的新成分又加入到議程表中。在這個(gè)算法流程中,各項(xiàng)策略均可調(diào)整,通過調(diào)整這些策略可以得到改進(jìn)的線圖分析算法。
燕方法是基于線圖分析方法的一種改進(jìn)算法,本論文所做的相關(guān)工作是在燕方法的基礎(chǔ)上進(jìn)行的。燕方法所涉及的文法包含五種不同類型的規(guī)則,分別是苛刻型(up-tying,即傳統(tǒng)規(guī)則)、跳躍型(by-passing)、長程型(long-spanning)、無序型(upmessing)以及交叉型(over-crossing)。其中跳躍型規(guī)則允許在規(guī)則右部各符號(hào)之間插入少量的其他符號(hào),處理口語中的停頓和無意義詞現(xiàn)象;無序型規(guī)則在跳躍型規(guī)則的基礎(chǔ)上還允許規(guī)則右部符號(hào)組合的出現(xiàn)順序任意,解決漢語口語語序隨意的問題。燕方法有以下特點(diǎn):
1)部分分析的特點(diǎn):對句子不作接受或拒絕的簡單判斷,而是保留分析過程中得到的所有部分結(jié)果,提供最大信息以便后續(xù)處理。
2)跨成分歸約的特點(diǎn):不拘泥于傳統(tǒng)算法中成分間位置關(guān)系的緊密相連性與嚴(yán)格偏序性,而是根據(jù)不同的規(guī)則類型采取更為靈活的活動(dòng)弧遞進(jìn)、歸約策略,容許更為自由的口語通過分析器。
雖然線圖分析方法通過調(diào)整規(guī)則調(diào)用策略和活動(dòng)弧遞進(jìn)、歸約策略能使句子的語法分析具有一定魯棒性,但如果不能分析出完整的句子語法樹的原因是分詞過程無法識(shí)別某些語句串,就不能較好地處理。例如下面的實(shí)例:
輸入句子:有房子在上地出租嗎?
分詞結(jié)果:有、出租—VP;上地、房子—NP;在 —Prep;嗎 —Aux
規(guī)則庫:S→VPNP;NP→R Prep NP|VPAux|R;VP→NP VP
進(jìn)行語法分析后,得到的語法樹如圖1。
當(dāng)輸入語句中“上地”由于輸入時(shí)發(fā)生同音拼寫錯(cuò)誤,整句變?yōu)椋河蟹孔釉谏系鄢鲎鈫?。因?yàn)轭I(lǐng)域詞表中不存在“上帝”這個(gè)詞匯,在基于領(lǐng)域詞表進(jìn)行分詞時(shí)無法識(shí)別出這個(gè)詞匯。在運(yùn)用線圖分析方法時(shí),因?yàn)檩斎胝Z句句法成分地缺失,無法分析該語句,分析過程中斷。
圖1 正確的語法分析樹
盡管燕方法能較好地解決口語分析中常見的問題,但它仍然不能解決由于輸入錯(cuò)誤改變了輸入語句的情況。在上例中如果用燕方法進(jìn)行分析,“上帝”會(huì)被當(dāng)作垃圾串進(jìn)行處理,得到兩個(gè)分析不完整的語法樹,如圖2所示。
圖2 缺少分析成分的語法樹
在上面的例子中線圖分析方法和燕方法均不能解決輸入錯(cuò)誤問題,即使輸入語句只是犯了一個(gè)很小的同音拼寫錯(cuò)誤(這在網(wǎng)絡(luò)應(yīng)用背景下是常見的錯(cuò)誤)。本論文的研究工作基于針對錯(cuò)誤類型采用高效的算法進(jìn)行糾錯(cuò)的思想,利用文法規(guī)則和當(dāng)前活動(dòng)弧中的終結(jié)符信息對分詞過程中的未識(shí)別語句串進(jìn)行錯(cuò)誤推測,從而將未識(shí)別語句串修正為可能的正確輸入,并相應(yīng)修改分詞結(jié)果和分析器的狀態(tài),以使分析能夠正常進(jìn)行。算法的基本原理如圖3所示。
圖3 算法基本原理流程圖
為了在下面的核心算法流程中描述方便,對相關(guān)術(shù)語做以下定義:
定義1 待分析語句:一個(gè)輸入語句串經(jīng)分詞之后可看作由詞類(未被識(shí)別的語句串屬于特殊的詞類)組成的一個(gè)串,寫成句子sent=(K0,K 1,…,K n-1),其中n表示句子中的詞的個(gè)數(shù),Ki(0≤i 定義2 未識(shí)別語句串:在句子中會(huì)出現(xiàn)單個(gè)或者多個(gè)連續(xù)的無法被分詞過程識(shí)別的輸入文字。在分詞的過程中暫時(shí)把連續(xù)的未識(shí)別文字(即未識(shí)別語句串)當(dāng)成一個(gè)詞,并且將這個(gè)詞歸為一個(gè)暫時(shí)詞類R。 定義3 分析狀態(tài):分析狀態(tài)指當(dāng)前分析過程中議程表中的成分和線圖中當(dāng)前活動(dòng)弧所對應(yīng)的分析位置以及所包含的具體內(nèi)容,可以寫為 Ti=(Ai,Ci)其中T i表示分析器在第i個(gè)時(shí)間點(diǎn)的狀態(tài),Ai表示分析器的議程表在第i個(gè)時(shí)間點(diǎn)的狀態(tài),Ci表示分析器的線圖在第i個(gè)時(shí)間點(diǎn)的狀態(tài)。當(dāng)前的分析狀態(tài)決定了下一個(gè)分析狀態(tài)的走向,若干個(gè)Ti就組成了整個(gè)句子的分析流程。 定義4 規(guī)則庫推測終結(jié)符集:依據(jù)線圖分析方法的原理,分析器從當(dāng)前狀態(tài)Ti過渡到下一個(gè)狀態(tài)Ti+1需要從規(guī)則庫中尋找合適的產(chǎn)生新的活動(dòng)弧的規(guī)則。當(dāng)分析器面臨一個(gè)暫時(shí)詞類R時(shí),規(guī)則庫中右項(xiàng)第一個(gè)為終結(jié)符的規(guī)則所包含的第一個(gè)終結(jié)符對這個(gè)未識(shí)別語句串有推測作用。把規(guī)則庫中所有這樣的終結(jié)符集合在一起即為規(guī)則庫推測終結(jié)符集合,表示為Rule_T。 定義5 當(dāng)前活動(dòng)弧推測終結(jié)符集:當(dāng)分析器處于某一個(gè)分析狀態(tài)Ti時(shí),所對應(yīng)的線圖中包含一定數(shù)量的活動(dòng)弧,其中一些活動(dòng)弧在當(dāng)前活動(dòng)位置之后待歸約的成分為終結(jié)符,這個(gè)終結(jié)符對R所代表的當(dāng)前未識(shí)別語句串有推測作用。把當(dāng)前活動(dòng)弧中所有這樣的終結(jié)符集合在一起即為當(dāng)前活動(dòng)弧推測終結(jié)符集合,表示為Activate_T。 從圖3中可以看出,我們所提出的基于線圖分析方法改進(jìn)的魯棒性文本分析算法的核心處理流程主要包含兩個(gè)部分:收集推測未識(shí)別語句串終結(jié)符集和重新調(diào)整分析器的當(dāng)前分析狀態(tài)。推測未識(shí)別語句串終結(jié)符集主要用來對待分析語句中未識(shí)別語句串進(jìn)行錯(cuò)誤推測,以便根據(jù)未識(shí)別語句串尋找到可能的正確語句串。當(dāng)通過這樣的推測尋找到對下一步的語法分析有利的分析成分時(shí),重新調(diào)整分析器的當(dāng)前分析狀態(tài),主要調(diào)整的數(shù)據(jù)結(jié)構(gòu)包括當(dāng)前分析狀態(tài)Ti下的議程表(例如添加、刪除新的成分,或者重新計(jì)算當(dāng)前成分和后續(xù)成分的分析位置)和線圖(主要是向線圖中添加新的對應(yīng)當(dāng)前分析狀態(tài)Ti的活動(dòng)弧)的內(nèi)容。具體算法如下所示。句串進(jìn)行錯(cuò)誤推測,以便根據(jù)未識(shí)別語句串尋找到可能的正確語句串。當(dāng)通過這樣的推測尋找到對下一步的語法分析有利的分析成分時(shí),重新調(diào)整分析器的當(dāng)前分析狀態(tài),主要調(diào)整的數(shù)據(jù)結(jié)構(gòu)包括當(dāng)前分析狀態(tài)Ti下的議程表(例如添加、刪除新的成分,或者重新計(jì)算當(dāng)前成分和后續(xù)成分的分析位置)和線圖(主要是向線圖中添加新的對應(yīng)當(dāng)前分析狀態(tài)Ti的活動(dòng)弧)的內(nèi)容。具體算法如下所示。 輸入:包含未識(shí)別語句串的待分析語句。 輸出:所有的部分分析結(jié)果。 執(zhí)行下列過程直到輸入為空: 步驟一: a)如果議程表為空,查找下一個(gè)輸入詞語的詞類,并將它們都加入到議程表中。 b)從議程表中選擇一個(gè)成分(假定該成分為C,其跨度從位置P1到P2)。如果該成分為代表未識(shí)別語句串的R,則執(zhí)行步驟二,否則執(zhí)行步驟三。步驟二: a)在當(dāng)前分析狀態(tài)Ti下從規(guī)則庫中收集規(guī)則庫推測終結(jié)符集Ru le_T與當(dāng)前活動(dòng)弧推測終結(jié)符集A ctivate_T。 b)根據(jù)集合Rule_T與A ctivate_T,對未識(shí)別語句串進(jìn)行錯(cuò)誤推測,確定未識(shí)別語句串對應(yīng)的可能的正確語句串以及相應(yīng)的詞類Ri。 c)對于每一個(gè)Ri,創(chuàng)建新的在當(dāng)前分析狀態(tài)Ti下的成分C_Ri,其跨度與Ri在輸入句子中所對應(yīng)的跨度一致。 d)對于文法規(guī)則中每條形式為X→C_RiX1...X n的規(guī)則,增加一條活動(dòng)邊X→。C_RiX1...Xn,其跨度與Ri在輸入句子中所對應(yīng)的跨度一致。 e)對于Chart中每條形式為X→X1..。C_Ri..Xn的活動(dòng)弧(假設(shè)其跨度從位置P0到P1),增加一條活動(dòng)邊X→X1..C_Ri。..Xn,其跨度從位置P0到P2。 f)對于Chart中每條形式為X→X1....Xn。C_Ri的活動(dòng)弧(假設(shè)其跨度從位置P0到P1),增加一條新的成分X到Agenda中,其跨度從位置P0到P2。返回步驟一。步驟三: a)對于文法規(guī)則中每條形式為X→CX1...Xn的規(guī)則,增加一條活動(dòng)邊X→。CX1...Xn,其跨度從位置P1到位置P2。 b)對于Chart中每條形式為X→X1..。C..Xn的活動(dòng)弧(假設(shè)其跨度從位置P0到P1),增加一條活動(dòng)邊X→X1..C。..Xn,其跨度從位置P0到P2。 c)對于Chart中每條形式為X→X1....Xn。C的活動(dòng)弧(假設(shè)其跨度從位置P0到P1),增加一條新的成分X到Agenda中,其跨度從位置P0到P2。返回步驟一。 在圖4所示的算法步驟二b)中,可以根據(jù)實(shí)際應(yīng)用中輸入語句包含的不同錯(cuò)誤類型選擇合適的算法推測未識(shí)別語句串。在對漢語網(wǎng)絡(luò)文本的分析中,因?yàn)槠匆糨斎敕椒☉?yīng)用的普遍性,文本錯(cuò)誤往往是因?yàn)槠匆糨斎氲倪x詞錯(cuò)誤所導(dǎo)致。針對這類錯(cuò)誤,我們可以基于集合Rule_T與Activate_T所包含的終結(jié)符所對應(yīng)的拼音與未識(shí)別語句串的拼音做漢字文本的錯(cuò)誤推測,可以采用基于拼音或者基于拼音字符串最小編輯距離的方法尋找可能的正確文本。 為了測試所提出算法的有效性和算法效率,我們在燕方法的基礎(chǔ)上實(shí)現(xiàn)了本文所提出的算法,其中錯(cuò)誤推測與糾正部分采用拼音的同音匹配方法,即試圖將錯(cuò)誤文字糾正為拼音相同的正確文字,然后在特定領(lǐng)域下與燕方法進(jìn)行實(shí)際文本的分析對比。 [6-8]中所使用的評測方法,我們從分析器的“平均分析循環(huán)次數(shù)”和“分析度”兩個(gè)角度展開評測: 1)平均分析循環(huán)次數(shù)[6-7]:分析循環(huán)(a parse cycle)是專用于衡量線圖分析器的一個(gè)指標(biāo)。一次分析循環(huán)指的是一個(gè)成分從議程表中取出到線圖中用來增加新活動(dòng)弧或者遞進(jìn)、歸約出新的成分的過程。輸入語句的平均分析循環(huán)次數(shù),體現(xiàn)了分析器的效率。在實(shí)驗(yàn)中因?yàn)榛谕粼~匯拼音糾錯(cuò)情況地存在,平均分析循環(huán)次數(shù)會(huì)有所增加。 2)分析度[8]:分析度的計(jì)算公式如下: 當(dāng)輸入的待分析句子都是應(yīng)接受的領(lǐng)域內(nèi)文本時(shí),分析度越高說明分析器的魯棒性越好。 為了測試所提出算法的有效性和算法效率,我們在燕方法的基礎(chǔ)上實(shí)現(xiàn)了本文所提出的算法,其中錯(cuò)誤推測與糾正部分采用拼音的同音匹配方法,即試圖將錯(cuò)誤文字糾正為拼音相同的正確文字,然后在特定領(lǐng)域下與燕方法進(jìn)行實(shí)際文本的分析對比。 參考文獻(xiàn)[6-8]中所使用的評測方法,我們從分析器的“平均分析循環(huán)次數(shù)”和“分析度”兩個(gè)角度展開評測: 1)平均分析循環(huán)次數(shù)[6-7]:分析循環(huán)(a parse cycle)是專用于衡量線圖分析器的一個(gè)指標(biāo)。一次分析循環(huán)指的是一個(gè)成分從議程表中取出到線圖中用來增加新活動(dòng)弧或者遞進(jìn)、歸約出新的成分的過程。輸入語句的平均分析循環(huán)次數(shù),體現(xiàn)了分析器的效率。在實(shí)驗(yàn)中因?yàn)榛谕粼~匯拼音糾錯(cuò)情況地存在,平均分析循環(huán)次數(shù)會(huì)有所增加。 2)分析度[8]:分析度的計(jì)算公式如下: 當(dāng)輸入的待分析句子都是應(yīng)接受的領(lǐng)域內(nèi)文本時(shí),分析度越高說明分析器的魯棒性越好。 實(shí)驗(yàn)使用了北京得意音通技術(shù)有限公司提供的1000條租房領(lǐng)域句子作為評測數(shù)據(jù),其中正確語句和錯(cuò)誤語句各一半,錯(cuò)誤語句中同音拼寫錯(cuò)誤所占比例約為80%。我們分別用燕方法和本文方法進(jìn)行分析,并計(jì)算上述兩個(gè)評測指標(biāo)。 從評測集中隨機(jī)抽取360條正確語句和240條錯(cuò)誤語句進(jìn)行分析,作為一次實(shí)驗(yàn),重復(fù)三次,計(jì)算總的分析循環(huán)次數(shù)和被分析器接受的語句,計(jì)算平均分析循環(huán)次數(shù)和分析度,評測結(jié)果如表1所示。 表1 平均分析循環(huán)次數(shù)和分析度 從表1的實(shí)驗(yàn)結(jié)果可知,與燕方法比較,本文所設(shè)計(jì)的魯棒性文本分析算法以增加一定比例的平均分析循環(huán)次數(shù)為代價(jià),換取了分析度的更多提升,實(shí)際上將不被分析器接受的領(lǐng)域內(nèi)句子數(shù)相對減少了46.54%。 本文算法只對輸入句子由于錯(cuò)誤導(dǎo)致分詞過程無法識(shí)別部分文字的情況進(jìn)行處理,如果錯(cuò)誤結(jié)果能夠被分詞過程識(shí)別為其他詞類(例如采用領(lǐng)域無關(guān)的分詞算法,可識(shí)別所有漢字單字),則算法無法啟動(dòng)錯(cuò)誤推測和糾正的處理過程。在面向領(lǐng)域的應(yīng)用中,如果基于領(lǐng)域詞表進(jìn)行分詞和句法分析,則輸入錯(cuò)誤導(dǎo)致正確的詞變?yōu)榱硪粋€(gè)合法領(lǐng)域詞的可能性較小,算法能比較有效的推測輸入錯(cuò)誤并糾正為正確的領(lǐng)域詞。 另外,2.2節(jié)所示算法流程主要針對處理漢語的情況進(jìn)行描述。對于類似英語這樣的字母語言,輸入包含一個(gè)字母的錯(cuò)誤,經(jīng)常會(huì)導(dǎo)致原單詞變?yōu)橐粋€(gè)錯(cuò)誤的單詞,應(yīng)用上述算法的效果是基于當(dāng)前分析狀態(tài)Ti下的推測終結(jié)符集合,試圖將錯(cuò)誤的單詞糾正為具有某些詞性的單詞,這樣要比盲目的基于編輯距離糾正可能會(huì)好一些。 本文算法是在基于線圖的分析算法基礎(chǔ)上附加錯(cuò)誤推測與糾正的處理,以提高實(shí)際應(yīng)用時(shí)句子分析的魯棒性,對于分析過程所應(yīng)用的文法規(guī)則和活動(dòng)弧的遞進(jìn)歸約策略并沒有限制。 未來的工作是在本文的算法框架基礎(chǔ)上,研究更好的錯(cuò)誤推測方法,包括嘗試?yán)闷匆粢艄?jié)的最小編輯距離來推測正確的輸入語句;探索魯棒性分析算法中可能的剪枝策略,以提高算法的分析效率。 5 參考文獻(xiàn) [1] 馮志偉.自然語言處理中的概率語法[J].當(dāng)代語言學(xué),2005,7(2):166-178. [2] 劉智博,M ichael Brasser,鄭方,徐明星.一個(gè)基于文本輸入的口語對話系統(tǒng)的新的實(shí)現(xiàn)策略[J].計(jì)算機(jī)科學(xué),2006,22(11):205-209. [3] Pengju Yan,Fang Zheng,H ui Sun,and M ingxing Xu.Spontaneous speech parsing in travel information inquiring and booking system[J].Journal o f Computer Science and Technology,2002,17(6):924-932. [4] 燕鵬舉.對話系統(tǒng)中自然語言理解研究[D].北京:清華大學(xué),2002. [5] Ye-Yi Wang.A Robust Parser For Spoken Language Understanding[C]//Eurospeech,1999,5:2055-2058. [6] Jennifer Foster and Carl Vogel.Parsing Ill-Formed Text Using an Error Grammar[J].A rtificial Intelligence Review,2004,21:269-291. [7] M ellish.Some Chart-based Techniques for Parsing Illformed Input[C]// Proceedings of the 27th ACL,1989. [8] Gertjan van Noord.Error M ining for Wide-Coverage Grammar Engineering[C]//Proceedings of the 42th ACL,2004. [9] Kay,M.A lgorithm schemata and data structures in syntactic processing[R].Technical Report CSL.Xerox PARC,1980.2.2 核心處理流程
3 實(shí)驗(yàn)
3.1 評測指標(biāo)
3 實(shí)驗(yàn)
3.1 評測指標(biāo)
3.2 評測集組織與評測結(jié)果
4 結(jié)論與討論