米熱吉古麗·熱扎克,阿里甫·庫爾班
(新疆大學信息科學與工程學院,新疆烏魯木齊830046)
框架語義知識庫(簡稱框架網(wǎng))是繼信息檢索和機器翻譯之后在信息處理領域新興的一項在線詞庫工程,具有語言研究及語言處理的多種用途.“框架”(Frame)作為一個語言學術語,是指人們理解語言時激活大腦已有的認知結構,這種認知結構是通過詞語反映的[1].維吾爾語框架語義知識庫(Uyghur FrameNet,簡稱UFN)是將Fillmore的框架語義學作為理論基矗 以伯克利FrameNet和漢語CFN工程設計體系思路為參照,結合維吾爾語源語言的框架語義描述體系,以配價作為基本描寫法,依真實語料為事實依據(jù)的詞一級的維吾爾語語義詞匯資源.構建UFN中,需要從真實語料庫中抽取包含將要描述詞元的例句,為例句標注以及這些例句的配價模式進行深入研究,UFN課題組面臨了符合基于阿拉伯字符的UFN相應的計算機輔助軟件工具開發(fā).軟件工具將要從標注語料庫中自動地生成兩個報告:一個報告是“詞元標注報告”(Annotation by LexUnit Report),另一個報告是“詞條報告”(Lexical Entry Report).這兩個自動生成的報告有助于維吾爾語自然語言處理研究人員和語言學家進一步深入研究.鑒于這種認識,本文圍繞獲取這兩個報告設計問題進行了前期研究.
目前UFN中例句標注與英語FrameNet、漢語CFN的例句標注工作原理一樣,針對給定的例句、目標詞及其框架,對目標詞的各個直接從屬成分所承擔的框架元素、短語類型和句法功能這三個層次進行標注.短語類型標注就是標注框架元素所在的整個短語的句法性質(zhì).句法功能標注是只有做目標詞的框架元素成分才標注.我們圍繞下面例句來討論例句標注對象和任務.
(今天對應屆畢業(yè)生進行了兩個小時的培訓.)
從上述分析可知,例句標注對象為目標詞、框架元素、短語類型、句法功能和零碎成分.
目標詞是例句中能夠激起框架的詞或短語[2],UFN中名詞,形容詞,動詞和副詞都可以承擔目標詞.一般用tgt(target)標記來標注.
框架元素是框架的參與者和支撐者,是帶有某種語義角色的論元.框架元素根據(jù)它們與框架關系的緊密程度分為兩種:核心(core)框架元素和非核心(noncore)框架元素.核心框架元素是一個框架在概念理解上的必有成分,它們在不同的框架中數(shù)量和類型不同,顯示出框架的屬性.非核心框架元素并不顯示框架的個性,可以出現(xiàn)在多數(shù)框架中.
構建UFN語料庫中發(fā)現(xiàn)與英語框架語料庫一樣,在UFN語料庫中有些核心框架元素不是謂詞的依存成分,這種框架元素稱為零形式框架元素(Null Inatantiation,簡記為NI),也稱為零形式.零形式由核心框架元素缺失引起的[3,4].核心框架元素缺失的現(xiàn)象可分為兩類情況,即允許缺失的語義實體類型和對所缺失論元的解釋類型[5].前者是由特定的詞項或句法結構缺失引起的零形式,即結構零形式(Constructional Null Instantiation,簡記為CNI),后者是由例句中論元的解釋缺失引起的零形式,分為有定零形式(Definite Null Inatantiation,簡記為DNI)和不定零形式(Indefinite Null Inatantiation,簡記為INI)兩種.下面分別探討上述的三種零形式.
1.2.1 結構零形式(CNI)
結構零形式(CNI)適用于任何有著合適的能用于被動語態(tài)語義信息的謂詞[5].UFN中,結構零形式包括以下幾種情況,被動句中施動者的缺失,祈使句中主語的缺失,獨立動名詞和動詞不定式中主題的缺失
1.2.2 有定零形式(DNI)
UFN中有定零形式(DNI)是指缺失的框架元素一定在語篇的上下文語境中或理解維吾爾語例句中可
1.2.3 不定零形式(INI)
UFN中,不定零形式(INI)允許缺失的是潛在的不及物動詞,如喝)等.這樣動詞缺失對象的語義類型是通過不及物動詞的最基本的解釋來理解.如例句:(她已經(jīng)三天沒吃)中動詞缺失的對象很可能是一頓飯.如,例句(他已經(jīng)停止喝)中動詞“喝”的缺失對象可能是一種酒精飲料,也可能是某種藥液.從上述標注例句中的目標動詞的基本解釋中可以得出,缺失的對象很可能是某種技能或思想方面的教育或培訓.
維吾爾語中兩個以上的詞按照一定的語法關系和語義關系組成的單位叫短語.UFN標注中“短語”是廣義的概念.UFN中短語標注時對框架元素所在的整個短語的句法性質(zhì)進行標注.本文有關維吾爾語短語類型劃分和使用的標注標記集以參考文獻[6]為依據(jù).上述例句成分擔任時間短語、形容詞短語、名詞短語、名量詞短語等.
UFN中句法功能是指在框架元素與目標詞所構成的句法關系中,該框架元素所起到的句法功能.句法功能的標注是只有框架元素才能被劃入標注范圍,例句中不能充當框架元素的成分,一般不標注該成分的句法功能[6].上述例句中例句成分由擔任目標詞的狀語擔任定語.
語義角色標注中除了框架元素以外還有其他成分的標記,包括支撐詞(supp)和透明成分(null).這種成分在例句中雖然沒有承擔任何框架語義角色也沒有具體的意義,但是在句法上(不是語義上)與目標詞有隱含的語法關系.在例句中支撐詞或透明成分用supp或null標記來標注.
構建UFN中對每個詞語的每個義項都要描述,獲取其語義和句法結合的可能性,也就是它的配價,需要以框架語義學為理論基礎以帶有語義標注信息的語料庫的支持.從語料庫中抽取帶有語義標注信息的例句,需要利用計算機輔助標注例句中語義信息.例句中語義信息通過人機交互式的手工標注以及自動地對標注結果加以組織,排列和整理而得到.人機交互式的標注工具是抽取帶有語義標注信息例句的有效手段,從一定程度上可以減輕標注人員的負擔并且還可以輔助檢查標注結果的一致性等問題.
UFN中例句標注參考英語FrameNet和漢語CFN的例句標注,設計了與UFN自身特點相適合的人機交互式例句輔助標注系統(tǒng).UFN例句輔助標注系統(tǒng)的功能結構如圖1所示.
圖1 維吾爾語框架語義例句輔助標注系統(tǒng)的功能結構圖
UFN例句輔助標注模塊主要完成針對一個例句,確定一個詞元和該詞元所屬框架,根據(jù)預定的標注標記集合,交互地標注目標詞的各個直接從屬成分所承擔的元素類型,并標注該元素的短語(或詞)的短語類型和句法功能等三種信息.這三類信息對詞元庫自動生成及其框架元素的句法實現(xiàn)方式和詞元的配價模式的統(tǒng)計提供數(shù)據(jù).UFN例句標注過程如圖2所示.
UFN例句輔助標注,首先從UFN語料庫中抽取包含將要標注詞元的例句并從中挑選能夠例示我們所要分析的具有某種給定意義的詞元的例子.維吾爾文字符隸屬拼音字母,對所選的例句進行按字母字符切分,字符切分目的是確定標注成分的邊界.其次,采用人機交互的方式通過鼠標拖動操作進行詞性標注,確定將要標注例句的目標詞之后,選擇目標詞的開始和結束點,并用Target標記來進行標注,然后對例句中選擇目標詞的直接從屬成分的開始和結束點,根據(jù)預定的標注標記集[7,8]對其進行框架元素、短語類型和句法功能的標注.標注中有些例句成分沒有短語類型和句法功能,只與目標詞有隱含的句法關系,這種成分用supp或null標記來標注.有些例句中會出現(xiàn)核心框架元素缺失的現(xiàn)象,這時在例句接尾處用相應框架元素左邊的下拉列表中選擇DNI或CNI等標記來進行標注.最終,例句的所有標注信息以HTML格式儲存到數(shù)據(jù)庫中.例句的標注規(guī)范如下:
{
其中“w”為待標注的詞(或短語),tgt(target)為目標詞,F(xiàn)E為框架元素,PT為短語類型,GF為句法功能,OTHER為零碎標記,即不充當框架中所定義的語義成分,如支撐詞、透明成分等.
圖2 例句標注工作流程
通過上述的維吾爾語框架語義例句標注的設計,UFN的詞元庫自動生成.詞元庫主要針對每一個詞元,描述詞元的每一個詞義以及該詞元的例句標注報告.詞元詞義的描述根據(jù)該詞元隸屬的框架范疇內(nèi)描述和定義,因為維吾爾語中的詞匯歧義現(xiàn)象分布很廣,涉及到各主要的詞類,而且,不同的歧義都有很強的特異性,不易發(fā)現(xiàn)一般性的規(guī)律.隸屬于某一特定框架的詞元在詞義上保持唯一性,詞元所支配的框架元素的短語類型及句法功能句法特點,以及目標詞的語義搭配模式的不同,因此UFN詞元庫生成模塊主要完成詞元標注報告和詞條標注報告.詞元標注報告針對每一個詞元,記錄詞元所在義項的具體含義以及該詞元的例句標注報告.例句標注報告包括各個框架元素的句法功能抽取以及目標詞的語義搭配模式的統(tǒng)計和演示.
圖3 句法功能抽取工作流程
圖4 配價模式抽取流程
2.2.1 句法功能標注信息的抽取設計
框架元素的句法功能是框架元素相對于已給定的目標詞所起到的句法功能.框架元素的句法功能標注設計信息已給定框架的一個框架元素在某一個詞元的已標注好的例句中出現(xiàn)的次數(shù),以及該框架元素作為某種短語類型和句法功能出現(xiàn)的次數(shù).具體處理過程如圖3所示:
2.2.2 配價模式信息的抽取設計
配價模式對于自然語言處理是非常有價值的研究內(nèi)容,因為配價模式反映詞元的句法語義特性.UFN構建過程中對每個詞元(lexeme)的各個涵義都要詳盡地描述之外,還要詞元與框架元素(包括核心元素、非核心元素和同用非核心)的組合方式進行統(tǒng)計分析,也就是它的配價.配價反映了該詞元的語義和句法的各種結合能力[9].配價不僅能夠為UFN單詞的釋義,標注例句、多種索引方式以及各個框架元素的句法、語義特征的說明,最能體現(xiàn)UFN的整體結構和核心內(nèi)容等.具體處理過程如圖4所示:
UFN例句標注器的開發(fā)工具是Microsoft Visual Studio2005 C#,Microsoft SQL Server 2005.標注器的標注界面如圖5所示,標注界面分為四個工作區(qū):工作區(qū)①是詞元列表顯示區(qū),涵蓋框架名稱列表和其框架元素列表;工作區(qū)②是顯示包含詞元“”的例句;工作區(qū)③是標注所選的例句和標注層次;工作區(qū)④是為標注層次提供字符切分,框架元素、短語類型、句法功能、其他標注標記集的標注功能的區(qū).
圖5 標注界面
標注人員從工作區(qū)①中選擇將要標注的詞元,在工作區(qū)②中顯示包含該詞元的例句列表,標注人員從例句列表中選擇語義搭配模式和句法實現(xiàn)方式盡量多樣的例句.被選中的例句按字符流形式顯示在工作區(qū)③中,工作區(qū)③包含目標詞層、框架元素層、短語型層、句法功能層、零碎成分層、例句層和詞性層7個層次.標注界面的具體操作過程為:通過鼠標拖動選擇例句中目標詞的直接從屬成分,然后在工作區(qū)④中選擇框架元素、句法功能、短語類型、其他和詞性相應的標簽來填充工作區(qū)③中的各個層次.
UFN課題組定義的短語類型及標注功能界面如圖6所示.上述框架中框架元素大多數(shù)情況下表現(xiàn)為主語或賓語,擔任框架元素的例句成分大多數(shù)情況下承擔狀語或定語.
圖6 短語類型
圖7 句法功能
我們通過訪問詞元報告和詞條報告來檢查例句標注的結果以及不同配價模式.每個詞元報告中主要顯示了框架元素表和包含該詞元的所有例句.詞元的詞元報告如圖8所示,圖中工作區(qū)①是詞元所屬框架的框架元素,這稱為框架元素表,工作區(qū)②中展示了詞元的標注的例句列表.
圖9所示的是詞元的配價模式統(tǒng)計報告.該報告包含兩部分內(nèi)容,工作區(qū)①中顯示每個框架元素在標注例句中出現(xiàn)的次數(shù)及其句法實現(xiàn)方式的統(tǒng)計內(nèi)容.比如,包含框架元素的例句有12個,其中在6個例句中此框架元素擔任名詞短語(當賓語),在6個例句中擔任代詞短語(當主語).通過鼠標點擊鏈接顯示的示例個數(shù)會顯示有關標注例句.從這些標注的例句中可以看出框架元素的句法實現(xiàn)方式.
圖9工作區(qū)②是詞元的語義配價的可能性.在給定例句中通過配價的可能性我們表示了框架元素的語義和句法實現(xiàn)方式.比如,有兩個例句中框架元素擔任名詞短語,DNI任名詞短語,擔任時間短語、名詞短語.通過鼠標點擊鏈接的數(shù)量演示相關標注例句的句法和語義的詳細信息.
圖8 詞元標注報告
圖9 詞條報告
本系統(tǒng)是針對構建UFN例句標注而設計,為獲取詞元的語義搭配模式和框架元素的句法實現(xiàn)方式,對現(xiàn)有的例句標注體系做進一步的精化的一種嘗試.在維吾爾語語義框架網(wǎng)絡的自動構造中起到很好的促進作用.設計中仍然存在一些不足,這些將在以后的使用過程中逐步得到改善.