多杰卓瑪
(西北民族大學(xué) 中國民族信息技術(shù)研究院, 甘肅 蘭州 730030)
藏語言文字是藏族人民交流思想和信息傳輸?shù)墓ぞ?。既然交流的是思?那么思想本身在計算機里的組織結(jié)構(gòu)便顯得格外重要。如何將這些思想用結(jié)構(gòu)化的形式去描述或表示便成為藏文自然語言處理中最為關(guān)鍵的一步。這在人工智能里稱為“知識表示”的問題。藏文自然語言處理若能在“知識表示”問題上有一點突破, 將會對它的發(fā)展起重要的影響。因此,本文根據(jù)框架知識的構(gòu)成、框架知識的結(jié)構(gòu)描述、框架知識的內(nèi)部組織、框架知識的內(nèi)部表示等,研究藏文框架知識的表示問題。特別對藏文字框架知識進行描述、構(gòu)建了藏文字框架知識系統(tǒng)。
在人們?nèi)粘5乃季S和理解活動中,當(dāng)分析和解釋某一新情況時,要用到過去經(jīng)驗中積累的一些知識。這些知識是人們認識事物并理解的過程中存儲在人腦中的一種組織形式。這種組織形式稱為框架(Frame)??蚣苁且酝慕?jīng)驗在人們腦海中的一個通用的數(shù)據(jù)結(jié)構(gòu)形式??蚣芴峁┝艘粋€結(jié)構(gòu),一種組織[1]??蚣?Frame) 也是一種描述所論對象屬性的數(shù)據(jù)結(jié)構(gòu)[2]。這種結(jié)構(gòu)或組織中,新的資料可以用過去的經(jīng)驗中的知識來加以分析、解釋和預(yù)測。它是借助于以往經(jīng)驗對特定場合下的對象或事件序列作出估計的一種知識表示方式。
框架的基本單元不是單一的藏文詞語(詞匯),而是與這個詞語有關(guān)的背景信息和語義功能信息構(gòu)成的結(jié)構(gòu),這些詞語將會出現(xiàn)在特定的句子或某一類句子中, 給人們提供了概念在語言中的使用的場景和動因,從而形成一個以概念為中心的語義場。這個語義場是指意義上跟框架有關(guān)聯(lián)的詞或者場景共同構(gòu)成的一個集合,也就是各個詞語憑借相互關(guān)系共同作用、相互維系的一個集合,它介于詞語和世界知識之間。文獻[3]指出:按照人類智能的類型,可將語義場劃分為聚合場和聯(lián)想場。有關(guān)文獻構(gòu)造的聚合場,由概念之間的類聚關(guān)系形成。對某一概念以及與這個相關(guān)的概念用特定的關(guān)系描述出來。聯(lián)想場即是從意義和形態(tài)上類似的或意義和形態(tài)上相近的概念間進行聯(lián)想。
例2中,雖然提供了因某種行為而產(chǎn)生的結(jié)果(火),但是這種結(jié)果可能引出隱藏在背景中的其他的消息。比如,作為實體的點火人、點火所用的工具和燃物等。除外,還透露了產(chǎn)生 “火在燃燒”這種結(jié)果的可能性有兩種:燃物的自發(fā)性燃燒和在他人的某種行為之下使得燃物燃燒。
以上的例句中看出,理解者理解詞語的基本過程如圖1,一個框架知識的組織過程如圖2。
圖1和圖2說明:詞語在理解者的大腦中激活了一個完整的認知過程,使理解者帶著這個預(yù)期的抽象結(jié)構(gòu),填入慣例性的內(nèi)容,得以完整理解句子表達的事件,從而形成了以某個詞語為核心的框架知識。
圖1 理解者理解詞語的認知過程
圖2 “點火”這一框架的組織過程
一般情況下,一個框架知識的結(jié)構(gòu)是由一組跟框架有關(guān)的信息組成,即實體及概念的各個側(cè)面(face) 的槽(slot) 組成。每個槽可以有 value、default、if-needed、if-added、if-removed 等側(cè)面。這些側(cè)面中可以嵌入屬性值 (value,default),還可以是另一框架名,以表示框架之間的關(guān)系。一般,框架知識的結(jié)構(gòu)形式如下:
框架名:()
(< slot - name -1)
(< Face-name >, < Face -1>)
…
(< slot-name- n > …))
例4下面以“藏文字”為例,描述其框架知識。
字丁數(shù)x1:
缺?。簒1=1 條件:0 上下加字數(shù)x2: 缺?。簒2=1 條件:x2≥0 基字數(shù)x3: 缺?。簒3=1? 藏文音節(jié)的下一級框架: 框架名:<前加字> 2.6 989名孕婦中戶口屬地和文化程度對口腔知識的了解及口腔健康行為情況 城市戶口和高學(xué)歷孕婦對口腔知識的了解及口腔健康行為優(yōu)于農(nóng)村戶口和低學(xué)歷孕婦,差異有統(tǒng)計學(xué)意義(P<0.05)。見表5、表6。 字母數(shù)z1: 條件:0 框架名:< 基字 > 字母及字符數(shù)z2: 條件:0 框架名:<后加字> 后加字數(shù)z3: 條件:0 框架名:<又后加字> 又后加字數(shù)z4: 條件:0 框架名:<字丁> 字丁數(shù)x1: 條件:z1+z2+z3+z4=x1 類型:(<藏文正楷烏金字>,<藏文烏梅字>,<藏文拉丁轉(zhuǎn)寫字>…) 為了用框架知識的表示方法明確地描述出某領(lǐng)域的共有特性,我們將引進類 (class)或域(domain)的概念,使各種不同實體及概念隸屬于各自不同的類別框架,并且它們之間的聯(lián)系用is-a 鏈緊緊相連??蚣苤R及類別間的內(nèi)部組織結(jié)構(gòu)分為三個層面:類框架層、框架層、子框架層。每一個下層框架都包含在它的上層框架之中,通過綁定方式,將下層框架捆綁到上層框架上,并用框架間的關(guān)系鏈is-a把上層框架的特征及屬性傳遞到下層框架。從結(jié)構(gòu)上看:“框架的最頂層是固定的一類事物,基于概念的抽象程度表現(xiàn)出自上而下的分層結(jié)構(gòu)。有效地實現(xiàn)了框架之間的繼承關(guān)系”[4],如圖3所示。 圖3 框架內(nèi)部的組織結(jié)構(gòu)圖 由框架知識的結(jié)構(gòu)及內(nèi)部組織情況看出,框架知識特別適合表達結(jié)構(gòu)性的實體或概念。所以,與概念和對象有關(guān)的知識最適于用框架來表示。框架的槽就是對象的屬性或狀態(tài),槽值就是屬性值或狀態(tài)值。不僅如此,框架還可以表示行為(動作),一般用if-needed、if-added、if-removed 等表示過程性知識的側(cè)面,這樣數(shù)據(jù)匹配和操作時可以自動觸發(fā)相應(yīng)的過程,便于實現(xiàn)框架系統(tǒng)的智能化。 框架的內(nèi)部結(jié)構(gòu)我們采用鏈表的方式把概念以及知識一一表示出來,即用指針連接來實現(xiàn)。如圖 4 所示。鏈表結(jié)構(gòu)方式有利于數(shù)據(jù)的動態(tài)管理,使得框架的各個槽及其側(cè)面值隨時都可以按照需求進行增減和刪除,從而使知識的添加和刪除操作簡便易行。 圖4 框架知識的內(nèi)部結(jié)構(gòu)表示圖 在框架知識的組織分析中,我們將藏文字表示成一個框架知識體系,其組成是具有層次關(guān)系的一個個語言單位。這個框架知識系統(tǒng)如圖5所示。圖5也說明在框架知識內(nèi)部可以使用框架的嵌套;另一方面,某個特定框架的最底層是組成框架的元素而非框架。以“藏文字”類框架知識中的“藏文音節(jié)”為例,“藏文音節(jié)”這個框架的槽(Slot)為“前加字”、“基字”、“后加字”和“又后加字”。其實 ,“前加字”、“基字”、“后加字”和“又后加字”已分到框架元素,如:前加字的框架元素為5個字母;基字框架元素為30個字母及445個字符;后加字的框架元素為10個字母;又后加字框架元素為2個字母。 圖5 藏文字框架知識系統(tǒng)的組成圖 從“音節(jié)”框架來看,它與下一級框架和上一級框架間的關(guān)系有兩點:第一,它與下級框架“前加字”、“基字”、“后加字”和“又后加字”(簡稱下級框架)間的關(guān)系是整體與局部之間的關(guān)系。其實,這里所有的下級框架組成了“音節(jié)”框架,并且每一個下級框架是組成“音節(jié)”框架這個整體的一部分。第二,它與上級 “藏文字”框架間的關(guān)系是繼承關(guān)系。 “藏文字”框架所具有的首要特性是用藏文字母拼寫出來的拼音文字(包括單個輔音字母),并且它是輔音文字型。輔音文字型分為輔音字母、元音符號和標(biāo)點符號3個部分。其中有30個輔音字母,4個元音符號,以及標(biāo)點符號(藏用的有音節(jié)符、單垂線、雙垂線等)。 可“音節(jié)”框架就繼承了“藏文字”框架的這一特點。同樣,在藏文字框架知識系統(tǒng)中,“前加字”和“后加字”等框架也繼承了“音節(jié)”框架的特點,即就是用藏文字母拼寫出來的拼音文字。因此,每一個上層框架包含了下層框架的某一特性或共性,這點正是體現(xiàn)了框架結(jié)構(gòu)的上下層框架間具有繼承性的特點。這里假設(shè)我們把每一個框架看成一個節(jié)點的話,正如文獻[5]所說,通過繼承關(guān)系可以將框架與框架相互聯(lián)系,使得該系統(tǒng)成為具有層級性的網(wǎng)絡(luò),在這個網(wǎng)絡(luò)中,特征可以從一個節(jié)點傳遞到它的下一級節(jié)點。 藏語自然語言的處理中,對藏語的詞、短語、句子和篇章等基于語義內(nèi)容的理解及翻譯的研究離不開“知識的表示”這種基礎(chǔ)工程技術(shù)的支撐,而“知識表示實際上就是對知識的一種描述,或者說是一種約定,一種計算機可以接受的用于描述知識的數(shù)據(jù)結(jié)構(gòu)。對知識表示的過程就是把知識編碼成某種數(shù)據(jù)結(jié)構(gòu)的過程”[6]。雖然,用框架形式表示知識更能體現(xiàn)出框架知識間的繼承性。但是,這種方法也有它的不足之處,一般不善于表示過程性的知識。本文僅僅從框架知識的構(gòu)成、結(jié)構(gòu)描述、內(nèi)部組織、內(nèi)部表示等,對藏文框架知識的表示、藏文字框架知識系統(tǒng)的組成作了初步的研究。而更加深入的研究和這樣一個系統(tǒng)的實現(xiàn)將是我們進一步的工作。 [1] http://www.fjtu.com.cn/fjnu/courseware/0330/course/_source/web/lesson/char2/j5.htm#j1. [2006-9-24 /2009-5-8(12:05).] [2] 朱光菊,夏幼明.框架知識表示及推理的研究與實踐[J].云南大學(xué)學(xué)報(自然科學(xué)版),2006,28(S1):154-157. [3] 張德政,莊洪波.基于領(lǐng)域本體網(wǎng)絡(luò)模型的知識獲取技術(shù)[J].計算機工程, 2007, 33(7):190-191,200. [4] 付煒.基于框架網(wǎng)絡(luò)結(jié)構(gòu)的專家知識表示方法研究[J].計算機應(yīng)用,2002,(1) :3-6. [5] 俞士汶,黃居仁.計算語言學(xué)前瞻[M].北京:商務(wù)出版社,2005. [6] 曹承志,王楠.智能技術(shù)[M].北京:清華大學(xué)出版社,2004.3.2 框架知識的內(nèi)部組織
3.3 框架知識的內(nèi)部表示
4 藏文字框架知識系統(tǒng)的組成
5 結(jié)束語