国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

維吾爾語(yǔ)框架語(yǔ)義知識(shí)庫(kù)的概念設(shè)計(jì)

2010-07-18 03:12:04阿里甫庫(kù)爾班吾買爾江庫(kù)爾班尼加提阿不都肉蘇力
中文信息學(xué)報(bào) 2010年4期
關(guān)鍵詞:維吾爾語(yǔ)知識(shí)庫(kù)語(yǔ)義

阿里甫?庫(kù)爾班,吾買爾江?庫(kù)爾班,尼加提?阿不都肉蘇力

(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046;2.新疆大學(xué)人文學(xué)院,新疆烏魯木齊830046)

0 引言

框架語(yǔ)義學(xué)(Frame Semantics)建立在Fillmore和他的同事們?cè)谶^去三十余年的工作的基礎(chǔ)之上,是詞匯語(yǔ)義研究的一種方法,中心思想是詞的意義的描述必須與語(yǔ)義框架相聯(lián)系??蚣?Frame)是信仰、實(shí)踐、制度、想象等概念結(jié)構(gòu)和模式的圖解表征,它為一定言語(yǔ)社團(tuán)中意義的互動(dòng)提供基礎(chǔ)[1]。“框架”作為一個(gè)語(yǔ)言學(xué)術(shù)語(yǔ),是指人們理解語(yǔ)言時(shí)激活的大腦已有的認(rèn)知結(jié)構(gòu),這種認(rèn)知結(jié)構(gòu)是通過詞語(yǔ)反映[2]。

FrameNet是美國(guó)加州大學(xué)伯克利分校1997年開始進(jìn)行的一項(xiàng)以Fillmore的框架語(yǔ)義學(xué)為理論基礎(chǔ)、以語(yǔ)料庫(kù)為事實(shí)依據(jù),其資源將用語(yǔ)義Web標(biāo)記語(yǔ)言描述的,一部計(jì)算機(jī)可讀、可理解的計(jì)算詞典編纂工程。該項(xiàng)目截至 2008年3月,共收錄10 000詞元,構(gòu)建了825個(gè)框架,其中6 100個(gè)詞元完成了例句標(biāo)注,共標(biāo)注了13.5萬(wàn)例句的框架語(yǔ)義信息。許多國(guó)家的學(xué)者嘗試建立了與FrameNet并行的詞典,包括德語(yǔ)、日語(yǔ)、西班牙語(yǔ)、希伯萊語(yǔ)等[3]。

隨著國(guó)際上的FrameNet工程的發(fā)展,國(guó)內(nèi)山西大學(xué)選擇了引進(jìn)、消化框架語(yǔ)義學(xué)理論和FrameNet數(shù)據(jù)庫(kù),將Fram eNet的理論原則和體系思想吸收,以Fram eNet為參照,以漢語(yǔ)語(yǔ)料事實(shí)為依據(jù),構(gòu)建了有限詞語(yǔ)集合為描述對(duì)象的漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)(Chinese FrameNet,簡(jiǎn)稱CFN)[3],為基于認(rèn)知的漢語(yǔ)語(yǔ)義知識(shí)庫(kù)建設(shè)探索出一條可行的技術(shù)路線。

隨著國(guó)內(nèi)外框架語(yǔ)義知識(shí)庫(kù)構(gòu)建技術(shù)的興起和發(fā)展趨勢(shì),少數(shù)民族自然語(yǔ)言處理領(lǐng)域面臨著向智能化邁進(jìn)。FrameNet描述的是詞語(yǔ)背后的認(rèn)知框架,許多國(guó)家的學(xué)者通過研究都承認(rèn)其數(shù)據(jù)可以跨語(yǔ)言使用,有通用價(jià)值。根據(jù)框架語(yǔ)義學(xué)理論,參考英語(yǔ)FrameNet工程和CFN工程的體系設(shè)計(jì)思路,結(jié)合維吾爾語(yǔ)的框架語(yǔ)義描述體系,我們探索了詞一級(jí)的維吾爾語(yǔ)框架語(yǔ)義知識(shí)庫(kù)(Uyghur FrameNet,簡(jiǎn)稱UFN)構(gòu)建技術(shù),并確定了 UFN工程的整體研制技術(shù)路線。

目前,UFN課題組已就維吾爾語(yǔ)名詞、形容詞、動(dòng)詞、量詞和副詞等4 252個(gè)詞元構(gòu)建了402個(gè)框架,其中2 700個(gè)詞元完成了例句標(biāo)注,共標(biāo)注了1.85萬(wàn)例句的框架語(yǔ)義信息。

1 維吾爾語(yǔ)框架語(yǔ)義知識(shí)庫(kù)(UFN)描述體系

框架語(yǔ)義學(xué)認(rèn)為,為了理解語(yǔ)言中詞的意義,首先要有一個(gè)概念框架結(jié)構(gòu),它由一組框架元素組成,框架中的任何概念,它的理解必須依賴于整個(gè)框架的概念關(guān)系??蚣苷Z(yǔ)義知識(shí)庫(kù)的語(yǔ)義描述涉及多方面內(nèi)容:詞語(yǔ)分類關(guān)系,詞義組合性質(zhì),場(chǎng)景知識(shí),概念與概念之間的多種聯(lián)系[2]。

UFN工程基于框架語(yǔ)義學(xué)理論,參考和應(yīng)用FrameNet工程和CFN工程的技術(shù)線路,確定的任務(wù)是:1)描述給定詞元所隸屬的概念結(jié)構(gòu)或者框架;2)從語(yǔ)料庫(kù)中抽取包含某個(gè)詞的句子,并從中挑選能夠例示具有某種給定意義的詞元的例子;3)通過把與框架相關(guān)的標(biāo)記(“框架元素”)指派到包含詞元的句子中的短語(yǔ)上,使挑選出來的句子得到標(biāo)注;4)準(zhǔn)備最終的標(biāo)注總結(jié)報(bào)告,簡(jiǎn)明顯示每個(gè)詞元在組合上的可能性;這些被稱做“配價(jià)描述”[1]。

框架是為詞在語(yǔ)言中的存在及話語(yǔ)的使用提供了背景和動(dòng)力,將我們的經(jīng)驗(yàn)知識(shí)和語(yǔ)言結(jié)構(gòu)結(jié)合起來,形成一系列的圖式推理結(jié)構(gòu)。

UFN工程由框架庫(kù)、句子庫(kù)和詞元庫(kù)等三部分組成[4]。UFN框架庫(kù)中描述每個(gè)框架定義,參與和支撐此框架的一組框架元素,框架和其他框架之間的概念關(guān)系及維吾爾語(yǔ)中具有共同背景框架和意義基礎(chǔ)的一組詞元列表等內(nèi)容;句子庫(kù)中描述按照框架庫(kù)所提供的框架和框架元素類型,標(biāo)注句子的框架語(yǔ)義信息和句法信息;詞元庫(kù)中描述詞元的語(yǔ)義搭配模式和框架元素的句法實(shí)現(xiàn)方式。

1.1 UFN框架庫(kù)

UFN工程的框架庫(kù)以大規(guī)模維吾爾語(yǔ)文本語(yǔ)料為依據(jù),能夠客觀地反映維吾爾語(yǔ)語(yǔ)言現(xiàn)象的真實(shí)面貌,避免語(yǔ)言學(xué)家對(duì)語(yǔ)言有主觀性和片面性。它以框架為單位對(duì)詞語(yǔ)進(jìn)行分類描述,是由詞匯專家和語(yǔ)言學(xué)家對(duì)各種詞語(yǔ)的語(yǔ)義特征進(jìn)行系統(tǒng)的分析而創(chuàng)建的一系列的圖式推理結(jié)構(gòu)的庫(kù)。

UFN框架庫(kù)中描述如下的四個(gè)內(nèi)容[4]:①框架定義中把框架視為抽象概念及根據(jù)其與框架元素之間的語(yǔ)義關(guān)系對(duì)之加以說明。②框架元素是一個(gè)框架的參與者和支撐者,是呈現(xiàn)圖式化情景的概念角色??蚣茉貙?duì)某一事件結(jié)構(gòu)的事件參與和支撐作用可分為核心框架元素(即核心論元)和非核心框架元素(即非核心或外圍論元)??蚣茉刂忻枋隹蚣茉?即論元)的語(yǔ)義和句法特征,并帶有相應(yīng)的示例。對(duì)每一個(gè)參與元素(論元)進(jìn)行簡(jiǎn)明的描述,使句子的語(yǔ)義能夠理解,并且對(duì)其句法表現(xiàn)加以提示,為文本標(biāo)注提供規(guī)則信息。③框架和框架之間存在總分關(guān)系(框架源與繼承框架),繼承關(guān)系(父框架、子框架、上框架、下框架),框架應(yīng)用關(guān)系(框架應(yīng)用域、被應(yīng)用框架、參照)。④詞元列表中列出維吾爾語(yǔ)中具有共同背景框架和意義基礎(chǔ)的一組詞元。

英語(yǔ)FrameNet工程中一個(gè)詞項(xiàng)首先識(shí)別出突出其中一個(gè)詞義的框架,然后再說明框架元素的分類(核心框架元素和非核心框架元素)和框架元素(即論元)的組合是如何圍繞該詞項(xiàng)所組成的結(jié)構(gòu)中得以實(shí)現(xiàn)的。每個(gè)框架元素通過詞與語(yǔ)義框架的聯(lián)系,表示詞的語(yǔ)義及句法特征。FrameNet中值得一提的是Fram eNet的框架結(jié)構(gòu)體系中,框架元素的任意性較大,而且不同框架的框架元素也千差萬(wàn)別。因此根據(jù)框架結(jié)構(gòu)體系并不能預(yù)測(cè)框架元素的語(yǔ)義類型,需借助于專門的語(yǔ)義類型定義將框架元素之間的關(guān)系建立對(duì)應(yīng)。

我們參考Framenet的框架結(jié)構(gòu)體系,框架元素及框架元素的組合特點(diǎn),UFN的框架結(jié)構(gòu)體系與FrameNet的框架結(jié)構(gòu)體系保持了一致,但是描述體系內(nèi)容完全針對(duì)維吾爾語(yǔ)自身特點(diǎn)出發(fā)。針對(duì)框架元素而言,到目前為止UFN構(gòu)建的框架中出現(xiàn)的所有核心和非核心元素總計(jì)5 225個(gè),考慮到框架元素的基本語(yǔ)義類型應(yīng)該在各種使用中都保持一致,如果不一致,就成為不同的框架元素,即使出現(xiàn)在同樣的句法位置,也會(huì)根據(jù)所指不同,框架元素類型不同。因此根據(jù)各框架元素在UFN中語(yǔ)義功能的不同,我們對(duì)5 225個(gè)框架元素按語(yǔ)義功能進(jìn)行分類,分為14個(gè)大類,46個(gè)子類,每個(gè)框架元素?zé)o論出現(xiàn)在何種框架中語(yǔ)義功能保持一致。為文本標(biāo)注提供語(yǔ)義標(biāo)注規(guī)則信息,隸屬于46個(gè)子類的所有框架元素的語(yǔ)義功能用46中顏色標(biāo)注。

根據(jù)框架庫(kù)描述內(nèi)容,我們描寫了如表1所示的維吾爾語(yǔ)框架語(yǔ)義庫(kù)。

1.2 維吾爾語(yǔ)框架語(yǔ)義文檔的結(jié)構(gòu)

眾所周知,框架是以框架理論為基礎(chǔ)發(fā)展起來的一種結(jié)構(gòu)化的知識(shí)表示方法[4],框架比較符合人對(duì)事物的認(rèn)知習(xí)慣,已經(jīng)在很多知識(shí)系統(tǒng)中得到了應(yīng)用。一個(gè)框架由框架名(框架定義名)和若干個(gè)槽組成,槽對(duì)應(yīng)著框架所表示實(shí)體的各種屬性(框架定義,框架元素,框架鏈接,詞元)。每個(gè)槽有由多個(gè)側(cè)面組成(框架定義描述,核心元素描述,非核心元素描述,例句,框架關(guān)系,詞元列表),每個(gè)側(cè)面從不同方面描述了槽的特性。

維吾爾語(yǔ)框架語(yǔ)義與其他語(yǔ)言一樣,在語(yǔ)義知識(shí)表示上所采取的是框架式表示法??蚣苁且环N結(jié)構(gòu)化的知識(shí)表示方法,框架之間存在著復(fù)雜的關(guān)系。根據(jù)框架庫(kù)描述內(nèi)容和如表1所示的維吾爾語(yǔ)框架語(yǔ)義描述結(jié)構(gòu),建立如圖1所示的樹型文檔結(jié)構(gòu)。

表1 維吾爾語(yǔ)框架語(yǔ)義描述結(jié)構(gòu)表

維吾爾文是基于阿拉伯字符的文本,文本書寫形式是從右到左,根據(jù)書寫規(guī)則,閱讀樹型文檔結(jié)構(gòu)時(shí)應(yīng)從右到左順序閱讀。

圖1 維吾爾語(yǔ)框架語(yǔ)義文檔的樹型結(jié)構(gòu)

1.3 UFN句子庫(kù)

UFN句子庫(kù)是既為UFN框架和詞元注釋提供參考,同時(shí)也為維吾爾語(yǔ)自然語(yǔ)言信息處理和理解研究提供具體實(shí)例的庫(kù)。維吾爾語(yǔ)是一個(gè)黏著性語(yǔ)言,有豐富的詞性變化體系,詞語(yǔ)按其意義和語(yǔ)法特征聚合成若干類別,而且每一類詞都有自己的形態(tài)特征和句法特點(diǎn)。因此UFN詞語(yǔ)標(biāo)注,是以詞語(yǔ)的語(yǔ)法特征和形態(tài)變化為基礎(chǔ),兼顧詞語(yǔ)在句中的語(yǔ)義功能。

UFN句子標(biāo)注,是以框架庫(kù)為基礎(chǔ),針對(duì)一個(gè)句子,給定一個(gè)詞元和該詞元所屬框架,給框架元素所在的成分標(biāo)記框架元素、利用固定詞組的詞性標(biāo)記信息和形態(tài)變化形式,標(biāo)注短語(yǔ)類型并指出其句法功能。

1.4 UFN詞元庫(kù)

對(duì)任何一個(gè)語(yǔ)義知識(shí)庫(kù)而言,確定一個(gè)詞的“詞義”無(wú)疑都是一項(xiàng)基本的任務(wù)。在維吾爾語(yǔ)框架語(yǔ)義知識(shí)庫(kù)構(gòu)建過程中對(duì)每個(gè)詞元(lexeme)各個(gè)涵義都要詳盡地描述并給定其所隸屬的概念結(jié)構(gòu)或者框架描述;從語(yǔ)料庫(kù)中抽取包含每個(gè)詞元的句子,并從中挑選能夠例示我們所要分析的具有給定意義的詞元的例子;與框架相關(guān)的標(biāo)簽指派到包含詞元的句子中的短語(yǔ)上,獲得詞元的語(yǔ)義和句法的各種結(jié)合形式,這些被稱作“配價(jià)描述”[2]。

2 維吾爾語(yǔ)框架語(yǔ)義知識(shí)庫(kù)概念模型的設(shè)計(jì)

UFN是供維吾爾語(yǔ)自然語(yǔ)言處理使用的語(yǔ)義知識(shí)庫(kù),而知識(shí)庫(kù)設(shè)計(jì)中數(shù)據(jù)模型是核心和基礎(chǔ)。為了把框架語(yǔ)義模型轉(zhuǎn)換為數(shù)據(jù)模型,首先建立概念模型。概念模型是對(duì)信息世界的建模,其具有較強(qiáng)的語(yǔ)義表達(dá)能力,能夠方便、準(zhǔn)確、易于理解和直接地表達(dá)語(yǔ)義知識(shí)。數(shù)據(jù)庫(kù)中概念設(shè)計(jì)通常采用E-R方法(Entity-Relationship approach)來表示數(shù)據(jù)庫(kù)的概念結(jié)構(gòu)。E-R方法用E-R圖來描述,E-R圖將現(xiàn)實(shí)世界的信息結(jié)構(gòu)統(tǒng)一用屬性、實(shí)體以及它們之間的聯(lián)系來描述。

參照FrameNet工程和CFN工程的數(shù)據(jù)庫(kù)結(jié)構(gòu)并根據(jù)維吾爾語(yǔ)框架語(yǔ)義知識(shí)庫(kù)的描述內(nèi)容,結(jié)合維吾爾語(yǔ)框架語(yǔ)義網(wǎng)絡(luò)自身的特點(diǎn),UFN數(shù)據(jù)庫(kù)中以維吾爾語(yǔ)語(yǔ)義框架為核心進(jìn)行信息存儲(chǔ),確定了UFN數(shù)據(jù)庫(kù)的每個(gè)實(shí)體、實(shí)體的屬性以及它們之間的聯(lián)系,在邏輯上形成了框架庫(kù)、詞元庫(kù)和句子庫(kù)。維吾爾語(yǔ)框架語(yǔ)義知識(shí)庫(kù)的實(shí)體—聯(lián)系如圖2所示。

圖2 維吾爾語(yǔ)框架語(yǔ)義知識(shí)庫(kù)的實(shí)體—聯(lián)系

3 結(jié)論

本文對(duì)維吾爾語(yǔ)的框架語(yǔ)義描述體系及內(nèi)容進(jìn)行了初步探討和嘗試,為創(chuàng)建基于認(rèn)知的維吾爾語(yǔ)框架語(yǔ)義知識(shí)庫(kù)探索了一條可行的技術(shù)路線。今后將進(jìn)一步研究維吾爾語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注技術(shù),開展以維吾爾語(yǔ)框架語(yǔ)義角色為基礎(chǔ)的句義理解計(jì)算模型研究,研發(fā)基于句義理解的信息檢索,問答系統(tǒng)、信息抽取,并為實(shí)現(xiàn)語(yǔ)義Web中的語(yǔ)義知識(shí)共享以及智能化、個(gè)性化的Web服務(wù)提供基礎(chǔ)資源。

[1] 馮志偉.從格語(yǔ)法到框架網(wǎng)絡(luò)[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2006,29(3):1-8.

[2] 吾買爾江?庫(kù)爾班,阿里甫?庫(kù)爾班.基于配價(jià)的維吾爾語(yǔ)框架語(yǔ)義知識(shí)庫(kù)的構(gòu)建[J].中文信息學(xué)報(bào),2007,21(6):36-41.

[3] 劉開瑛,由麗萍.漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)構(gòu)建工程介紹名[C]//中文信息處理前沿進(jìn)展—中文信息處理二十五周年學(xué)術(shù)會(huì)議,北京:清華大學(xué)出版社,2006:64-71.

[4] 郝曉燕,劉偉,李茹,等.漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)及軟件描述體系[J].中文信息學(xué)報(bào),2007,21(5):96-100.

[5] http://www.icsi.berkeley.edu/ ~ framenet/.

[6] Baker,Collin F,.Charles F,Fillmore u Beau Cronon.The structure of the FrameNet Database[J].International Joutnal o f Lexicography,2003,erscheint.

[7] 郝曉燕,李濟(jì)洪,由麗萍,劉開瑛.中文閱讀理解語(yǔ)料庫(kù)構(gòu)建技術(shù)研究[J].中文信息學(xué)報(bào),2007,21(6):29-35.

猜你喜歡
維吾爾語(yǔ)知識(shí)庫(kù)語(yǔ)義
語(yǔ)言與語(yǔ)義
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語(yǔ)人名識(shí)別方法
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
維吾爾語(yǔ)話題的韻律表現(xiàn)
維吾爾語(yǔ)詞重音的形式判斷
認(rèn)知范疇模糊與語(yǔ)義模糊
現(xiàn)代維吾爾語(yǔ)中“-0wat-”的進(jìn)行體特征
和龙市| 兴海县| 濮阳市| 永川市| 永城市| 叶城县| 嘉禾县| 墨江| 乳山市| 德化县| 苏尼特左旗| 余庆县| 临汾市| 南川市| 武隆县| 麟游县| 新疆| 霍州市| 永福县| 肇庆市| 商水县| 云霄县| 丹东市| 临安市| 南靖县| 英山县| 乌兰浩特市| 衡水市| 景洪市| 施秉县| 瑞安市| 罗甸县| 长宁区| 若尔盖县| 柘荣县| 曲麻莱县| 伊川县| 西林县| 柘城县| 新宁县| 常德市|