国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向認知概念的漢語語義關(guān)系庫的構(gòu)建和應用

2020-11-30 07:04唐忠劉珊珊劉華陽李大舟
電子技術(shù)與軟件工程 2020年10期
關(guān)鍵詞:語法結(jié)構(gòu)知識庫語義

唐忠 劉珊珊 劉華陽 李大舟

(沈陽化工大學計算機科學與技術(shù)學院 遼寧省沈陽市 110142)

1 引言

語義分析是自然語言理解的一個重要研究內(nèi)容,目的是將自然語言轉(zhuǎn)換為計算機能夠處理的邏輯形式,并使計算機能夠理解自然語言的意義。

初期的語義分析,利用GeoQuery 等數(shù)據(jù)庫中預定義的謂詞或本體等作為邏輯表示,通過手工標記的數(shù)據(jù)來訓練,實現(xiàn)語句到邏輯形式的轉(zhuǎn)換[1]。針對轉(zhuǎn)換過程中過少的謂詞和繁重手工標記,近年來通過半監(jiān)督、遠程監(jiān)督等方法將語義分析擴展到如Freebase、Yago2 和Wikipedia 等更大的知識庫和Web 文本中[2],并采用本體匹配[3]、Schema 匹配[4]、中間結(jié)構(gòu)[5]、語句結(jié)構(gòu)重寫[6]和雙重學習[7]等方法將語句匹配到謂詞公式,提高分析的準確度。由于這些研究中預先定義的謂詞數(shù)量有限,而且注重的是語句到謂詞公式的轉(zhuǎn)換,沒有深入到語義的層面,所以并沒有真正地理解句子的語義。

句子的語義是由組成句子詞語的意義及其相互關(guān)系體現(xiàn)的。由于漢語詞語通常有多個釋義,詞類和語法成分之間也沒有一一對應關(guān)系,僅憑語法結(jié)判定句子的語義會產(chǎn)生歧義。

語義是現(xiàn)實世界中的事物在頭腦中所產(chǎn)生的概念。人在理解自然語言語句的語義時,除了分析句子中的字詞和語法結(jié)構(gòu),還會利用頭腦中有關(guān)事物的常識和知識。目前雖然已經(jīng)建立了若干類型的知識庫,但它們在處理語義聯(lián)系方面還都存在一定的局限。本文將根據(jù)自然語言語義的本質(zhì),依據(jù)人的認知概念建立語義關(guān)系知識庫,指導語義分析,使計算機更好地理解自然語言。

2 相關(guān)研究

知識庫是表達認知內(nèi)容和進行語義分析的重要工具,目前的語義分析研究中大都采用以百科知識為主的在線語義知識庫。其中,F(xiàn)reebase 知識庫采用結(jié)構(gòu)化數(shù)據(jù)的形式,分為Domain、Type 和Topic 三層,以詞條的形式描述本體的主要特征,包括實體、關(guān)系和性質(zhì)等[8]。YAGO 從Wikipedia 的類別體系和信息框中抽取事實,然后和WordNet 的語義關(guān)系對應串聯(lián)在一起,構(gòu)成了大量的實體和關(guān)系[9]。DBpedia 也從維基百科頁面的信息框中抽取事實,并使用信息框里面的詞匯作為語義關(guān)系名。

此外,還有基于詞典的知識庫。WordNet 使用同義詞集合來描述詞匯,每個同義詞集合代表一個基本的語義概念。同義詞集在語義上的聯(lián)系還包括:上下位、整體部分、反義和蘊涵關(guān)系等[10]。Verbnet 是以動詞為中心的詞匯知識庫,它定義動詞的句法框架、論旨角色和選擇限制,體現(xiàn)了動詞句法和語義的互動關(guān)系,具有相同句法行為的動詞往往屬于同一個語義類。FrameNet 是一種基于框架語義學的詞匯知識庫,適合描述情景型知識??蚣苡煽蚣苊?、框架描述、框架元素和所包含的詞組成。語義關(guān)系通過框架與詞之間、框架元素之間和框架之間的關(guān)系來體現(xiàn)[11]。ConceptNet 是一個大型的常識性語義網(wǎng)絡(luò),用不同類型的鏈接描述物體、事件以及人物之間的關(guān)系。語義知識網(wǎng)絡(luò)通過大量的有向線段將節(jié)點連接在一起,從而構(gòu)成了語義關(guān)系的本體知識系統(tǒng)[12]。知網(wǎng)(How Net)是一種中文語義知識庫,用于描述漢語詞語所代表的概念,以及概念與概念之間、概念與其自身所具有的屬性之間的關(guān)系。概念之間以及概念和屬性之間的關(guān)系組成一個復雜的網(wǎng)狀結(jié)構(gòu)。

基于百科的知識庫,以實體、本體等作為主體,通過預定義的屬性和關(guān)系作為特定的謂詞。這類知識庫雖然將事物相關(guān)的內(nèi)容組織在一起,但其預定義的謂詞有限,覆蓋程度不夠,因此不能支持更廣泛的語義分析?;谠~典的知識庫,以詞條的形式來組織詞匯,并通過同義、反義、上下位等關(guān)系來聯(lián)系詞語,但詞條間缺乏語義聯(lián)系,事物間的關(guān)聯(lián)難以在知識庫中體現(xiàn),也無法進行全面的語義分析。

3 認知概念

3.1 認知世界

現(xiàn)實世界由各種事物構(gòu)成,包括主觀和客觀的事物。每個事物具有各自不同的性質(zhì)、特征、狀態(tài)、行為等屬性。事物間是相互聯(lián)系、相互影響的。每個事物在一個特定的環(huán)境中都保持某種狀態(tài)。在受到自身和外界某些因素的影響后,事物狀態(tài)會發(fā)生變化,再影響其他事物,從而形成了世界的變化和發(fā)展。

3.2 認知概念模型

認知概念就是現(xiàn)實世界中的事物在人頭腦中的反映。我們在此建立模型(T, P, R, M, L)來表示認知概念。其中,T 為事物,P 為事物的屬性狀態(tài)等,R 為事物間的聯(lián)系,M 為事物屬性狀態(tài)和聯(lián)系的修飾,L 為事物變化發(fā)展的邏輯關(guān)系。認知模型用規(guī)范的關(guān)系結(jié)構(gòu)表示認知世界,以下為認知模型中的主要關(guān)系類型:

性狀關(guān)系: ∈ T ×P,即<事物—性狀>,表示事物的屬性或所處的狀態(tài)。例如:<小麥,綠油油的>、<冬天,冷>。

聯(lián)系關(guān)系: ∈T × R ×T,即<事物—聯(lián)系—事物>,表示事物間的聯(lián)系和相互作用。如:<我,喜歡,絢麗的秋色>。

邏輯關(guān)系:表示事物的發(fā)展變化及其因果關(guān)系和相互影響,由各種命題演算的聯(lián)結(jié)詞將性狀和聯(lián)系關(guān)系連接在一起,如。

還有一種在主體關(guān)系之外,對性狀和聯(lián)系修飾的修飾關(guān)系: ∈M ×P。

4 漢語句子的語義

自然語言的語義就是詞語、句子中所表達的實際意義。從語義學角度來看,語義是現(xiàn)實世界中的事物在頭腦中所產(chǎn)生的概念,反映的是客觀事物及其屬性、狀態(tài)、聯(lián)系和規(guī)律,以及心理、情感、思維和推理等主觀活動,與所描述的世界具有一致性,即傳統(tǒng)語義學所認為的“文字符號與世界的統(tǒng)一”,也即認知語言學所認為的“意義以特定的結(jié)構(gòu)形式存在,與客觀世界之間存在著映射關(guān)系”。

4.1 詞語的語義

詞是漢語中最小的最小語義單位。事物及其性質(zhì)、狀態(tài)、行為等屬性是世界在人們頭腦中形成的最基本概念,詞的作用就是符號化這些基本的認知概念。任一個事物以及每個事物各種屬性的概念在自然語言中都有對應的詞語表示,不同類型的概念用不同的詞類來表示。

4.2 句子的語義

句子是由詞或短語構(gòu)成的語言的基本運用單位,表達一個完整的意思,可以分為單句和復句。句子表達的語義是認知概念中的事實、判斷和過程等,還描述事物之間相互影響、聯(lián)系和事物的發(fā)展、變化及其因果關(guān)系和過程。

句子的語義通過其中詞語、短語的語義和它們之間的語法關(guān)系來體現(xiàn)。句子主語表示陳述的對象。謂語是用來陳述主語的,說明主語的性狀、行為等。賓語是動詞性成分所涉及的人或事物。定語是用來修飾、限定、說明人或事物的性狀、數(shù)量、領(lǐng)屬等。狀語用來修飾、限制動詞或形容詞,表示狀態(tài)、方式、時間、處所、條件、對象、肯定、否定、范圍、程度或語氣等。補語是動詞或形容詞后起補充說明作用的成分,補充說明情況、結(jié)果、程度、趨向、情態(tài)、時間、處所、數(shù)量、性狀等。漢語復句有多種,其中假設(shè)、因果、條件、目的復句反映了句子間的邏輯關(guān)系。

語句也可以通過相應的模型來表示其結(jié)構(gòu)。如最基本主謂單句的語義模型可以表示為:

主謂結(jié)構(gòu):< s, p >∈S × P,

主謂賓結(jié)構(gòu):< s, p, o >∈S × P ×O

其中,S、P、O 分別為能做主語、謂語和賓語的詞或詞組類型。

4.3 語義分析時的問題

自然語言與認知概念存在著構(gòu)成元素和組織結(jié)構(gòu)上的對應和一致,因此可以描述和表達對現(xiàn)實世界的認知。然而,由于自然語言中的一些詞語具有多種詞性和釋義,句子的語法也有很多靈活的特性,同一個詞可以充當不同的語法成分,同一語法成分可以由不同詞性的詞語和詞組充當,因此在根據(jù)詞語詞性和語法規(guī)則分析句子語義的時候,就常常會出現(xiàn)歧義。例如,“打傘”、“打水”、“打墻”,“打”在不同的賓語搭配中,具有不同的釋義;“他身體好”和“他明天來”,這兩句話都是“代詞+名詞+形容詞”構(gòu)成的句子,但最終的語法結(jié)構(gòu)卻不同,表達語義的關(guān)系也不同。

根據(jù)漢語詞語和語法結(jié)構(gòu)來確定句子的語義常常會出歧義,這也會影響自然語言處理的語義分析效果。人在理解句子語義的時候,除了分析句子的組成詞語和語法結(jié)構(gòu)外,還會根據(jù)詞語間的語義關(guān)系來理解句子的實際含義。因此,我們基于認知概念,根據(jù)事物與其行為、性狀、屬性以及其他事物間的固有聯(lián)系,建立結(jié)構(gòu)化的語義關(guān)系庫,并由此確定詞語間的語義聯(lián)系,解決語義分析過程中詞語和句子結(jié)構(gòu)的歧義問題。

5 語義關(guān)系庫

語義關(guān)系庫存儲著人的認知概念,反映現(xiàn)實世界中的所有事物,以及事物的各種性質(zhì)、特征、狀態(tài)、行為等屬性和事物間的相互聯(lián)系、相互影響和發(fā)展變化。語義關(guān)系庫的結(jié)構(gòu)也來源于認知概念模型。語義關(guān)系庫由語義元素組成,語義元素之間有相應的語義關(guān)系。語義元素和語義關(guān)系對應著詞語和詞語之間的語義聯(lián)系,可以用來指導語句的語義分析。

5.1 語義元素

(1)語義元素是語義關(guān)系庫中最基本的語義單位。在認知概念的中,它對應著一個事物或其屬性、行為;在自然語言中它就是一個有明確語義的詞語。

語義元素一般由漢語中的實詞充當,即名詞、動詞、形容詞等。數(shù)詞、量詞和代詞可以轉(zhuǎn)換為所指代的名詞。副詞有一定的實詞特性,修飾事物的性狀和行為,也可以作為語義元素。介詞雖然是虛詞,但它組成的介詞短語表達具體的意義,也可以構(gòu)成語義元素。

(2)語義集由相同類型或共同屬性的語義元素構(gòu)成,最頂層的語義集與認知模型的組成是一致的,包括:事物集T、屬性狀態(tài)集P、事物間聯(lián)系集R、事物屬性狀態(tài)和聯(lián)系的修飾集M 等。各種語義集下還可以包含不同層次的子集和實例。

(3)語義元素有唯一的詞性和釋義。如果一個詞具有多個釋義,分別把它們看作是不同的語義元素。語義元素的釋義由詞典給出,有如下方式:①同義釋義,語義由同義詞解釋,如“學”作為的動詞釋義之一為“學習”;②近義釋義,語義由幾個近義詞組合解釋,如“歡暢”的釋義為“高興,痛快”; ③細化釋義:對語義進行詳細的描述,如“學舌”的釋義為“模仿別人說話”;④說明釋義:給詞語以屬性、能力、類屬組成等方面的描述,如“馬”的釋義為“哺乳動物,頭小,面部長……”。

5.2 語義關(guān)系

語義關(guān)系,就是語義元素按一定順序關(guān)聯(lián)在一起,表達認知概念中一個正確的語義。如“鳥—飛翔”表達鳥的動作,是一個語義關(guān)系。從認知的角度看,語義關(guān)系表示了事物及其性狀行為、發(fā)展變化和相互聯(lián)系,是對現(xiàn)實世界的描述。從語言的角度看,語義關(guān)系是詞語的搭配組合,形成短語或簡單語句,表達一定的意義?;镜恼Z義關(guān)系主要有:

(1)性狀關(guān)系:對應認知模型中的性狀關(guān)系或漢語中的主謂結(jié)構(gòu),語義上表示事物的性質(zhì)、狀態(tài)、行為等。表示為Rp={∈ T ×P },如<人,睡覺>、<天氣,好>。

(2)聯(lián)系關(guān)系:對應認知模型中的聯(lián)系關(guān)系或漢語中的主謂賓結(jié)構(gòu),表示事物的動作和涉及的對象。表示為Rr= { ∈T× R ×T },如<人,學習,知識>。

(3)修飾關(guān)系:對應認知模型中的修飾關(guān)系,漢語中的狀謂和謂補結(jié)構(gòu),是對謂語成分的修飾和補充說明;表示為Rm= { ∈M ×P },如<經(jīng)常,來>、<跑,過來>。

5.3 復合語義元素

復合語義元素,即語義元素本身就是一個基本語義關(guān)系。復合語義元素及其構(gòu)成的語義關(guān)系與漢語的復雜語法結(jié)構(gòu)對應,例如:

(1)復合事物元素:即事物語義元素本身是一個語義關(guān)系,它對應的性狀語義關(guān)系的形式為{<, p2>∈ T ×P },如“他做這件事很好”;

(2)復合性狀或聯(lián)系元素,即性狀或聯(lián)系語義元素是一個修飾語義關(guān)系,它對應的聯(lián)系語義關(guān)系的形式為Rr= {, t2>∈T × R ×T }。

5.4 語義元素的層次

(1)層次構(gòu)成。語義元素通過語義關(guān)系相互關(guān)聯(lián),形成一種有層次的網(wǎng)狀結(jié)構(gòu)。聯(lián)系語義元素“是”和“一種XX”構(gòu)成事物間的類屬關(guān)系,用B A 表示?!笆恰焙汀耙粋€XX”構(gòu)成事物間實例關(guān)系,即a∈A。聯(lián)系語義元素“有”等構(gòu)成事物間的領(lǐng)屬關(guān)系,表示事物組成。

動詞性聯(lián)系元素也有類似的特性,通過細化和說明性釋義構(gòu)成層次關(guān)系,如“走”的釋義是“人或鳥獸的腳交互向前移動”,表示“走”是一種具有特定屬性的“移動”。

修飾元素可以根據(jù)其詞語的語義,可以將它們歸入時間、范圍、程度、方式、頻率以及肯定或者否定等類別。介詞結(jié)構(gòu)根據(jù)所關(guān)聯(lián)詞語的語義,可以確定它所表示的處所、時間、狀態(tài)、方式、原因、目的、比較對象等類別。這些元素通過所屬的類別構(gòu)成相應的層次。

(2)語義繼承。具有層次關(guān)系的語義元素,對應的語義關(guān)系有一定的關(guān)聯(lián)性:下層元素繼承上層的一些語義關(guān)系,同時可以修改上層原有的語義關(guān)系并增加新的語義關(guān)系。從認知概念的角度,就是下層事物繼承上層的一些通用屬性和行為等。類屬關(guān)系的語義繼承表示如下:

∈ T ×P ∧B A ? ∈ T ×P

∈T × R ×T ∧B A ? ∈T × R ×T

5.5 邏輯關(guān)系

語義關(guān)系之間具有認知概念中的邏輯關(guān)系,表示事物發(fā)展變化的因果關(guān)系和相互影響:

()∈L,或

∈L

如:<天氣,涼了> → <我,換上,棉衣> → <我,暖和了>,<孩子們,回來了> → <屋里,又熱鬧了>。

在具有繼承關(guān)系的語義元素間,上層元素的邏輯關(guān)系同樣可以被下層所繼承。

6 基于語義關(guān)系的語義分析

語義關(guān)系來源于對現(xiàn)實世界的認知概念,反映了事物的性狀、行為、屬性和相互聯(lián)系,可以用來指導對語句語義的分析。

6.1 語義關(guān)系庫的建立

(1)語義元素主要來自于詞典,詞典中任何一個詞條的不同釋義都對應一個語義元素。語義元素還來自于詞典以外的常識、百科或?qū)I(yè)知識等各種文字材料,任何一個有語義的詞語,都有語義元素和它對應。

(2)語義關(guān)系的來源與語義元素相同,在任何文字材料中獲取的詞語間的關(guān)聯(lián),如果具有符合認知概念的意義,都可以建立對應的語義關(guān)系。建立語義關(guān)系首先要分析語句的語法結(jié)構(gòu),然后根據(jù)認知概念模型建立,以保證語義關(guān)系的規(guī)范。特別復雜和有問題的語句,語義關(guān)系需要手工和有監(jiān)督地建立。

6.2 語義分析過程和步驟

(1)對漢語句子進行分詞,得出組成句子的詞語及其可能的詞性和釋義;

(2)根據(jù)分詞結(jié)果,對句子進行詞法和語法分析,得出可能的語法結(jié)構(gòu);

(3)對句子進行語法變換,按語義替換代詞、補充省略成分、轉(zhuǎn)換特殊的語法結(jié)構(gòu);

(4)在語義關(guān)系庫中查詢得到句子中詞語對應的語義元素;(5)匹配和確定語義元素間的語義關(guān)系,并根據(jù)語義關(guān)系得出句子結(jié)構(gòu)。

6.3 直接語義關(guān)系匹配

詞語所對應的語義元素在語義關(guān)系庫中有直接的語義關(guān)系。例如,“人”和“呼吸”是兩個語義元素,它們在語義關(guān)系庫中有語義關(guān)系。如果有“人呼吸”這樣的句子或詞組,“人”和“呼吸”可以匹配到直接的語義關(guān)系。

6.4 間接語義關(guān)系匹配

兩個語義元素沒有直接的語義關(guān)系,而是通過其他語義元素或語義關(guān)系間接地關(guān)聯(lián)。

一種方式是通過語義元素間縱向的繼承關(guān)系關(guān)聯(lián)。如 <人,吃,食物>是基本的語義關(guān)系;“他吃西瓜”中“他”是人的實例,西瓜是食物的一種;通過實例和類屬之間的繼承,可以獲取間接語義關(guān)系<他,吃,西瓜>。

再有一種是通過隱含的屬性元素獲得語義關(guān)系。例如,“今天星期一”,在語義關(guān)系庫中,“今天”和“星期一”分別是“天”和“星期”的實例,而“星期”是“天”的屬性,所以“今天”和“星期一”是事物和屬性值的關(guān)系,由判斷聯(lián)系關(guān)系連接,句子的語義是“今天的星期是星期一”。又如,“我們北京見”中,“我們”和“見”是一個行為語義關(guān)系;“北京”按照其類屬關(guān)系是一個地點,可以作為動詞的屬性,與“見”構(gòu)成修飾關(guān)系。

6.5 擴展語義關(guān)系匹配

一些通過語法結(jié)構(gòu)關(guān)聯(lián)的詞語間并沒有語義關(guān)系,而是特定的語法形式和使用習慣。其語義人們可以理解,但依此進行語義分析就會出錯。這些語義元素間的實際語義關(guān)系要根據(jù)潛在的語義擴展獲得,并且可能會改變句子原有的語法結(jié)構(gòu)。例如,“我們吃食堂”,“吃”和“食堂”間不是動賓語義關(guān)系,“食堂”是“機關(guān)、團體中供應本單位成員吃飯的地方”,所以句子的語義為“我們吃在食堂”。再如,“寫”的語義是“用筆在紙上或其他東西上做字”,那么“他寫字”自然包含了“用筆”的語義。還有,“玻璃擦了”,根據(jù)“玻璃”和“擦”的語義關(guān)系,句子結(jié)構(gòu)應該是“人擦玻璃了”。

7 驗證與評價

7.1 實驗過程

我們利用詞典、中小學教材和百科常識知識建立了一些小型、限定領(lǐng)域的語義關(guān)系庫,定義語義元素和語義關(guān)系,并對相關(guān)漢語語句中的各種語法結(jié)構(gòu)進行分析,以驗證基于語義關(guān)系的語言分析和理解能力。我們建立的語義關(guān)系庫包括“醫(yī)生”、“學生”等領(lǐng)域的小型語義關(guān)系庫和小學語文、初中幾何等學科中的基本語義關(guān)系庫。在這些知識庫中,我們共建立了300 多個語義元素,500 多條語義關(guān)系,200 多條邏輯關(guān)系。下面是語義關(guān)系庫中的一些實例:

語義元素的簡要示例:

醫(yī)生:名詞,掌握醫(yī)藥知識、以治病為業(yè)的人

病人:名詞,生病的人

三角形:由不在同一條直線上的三條線段首尾順次相接所構(gòu)成的圖形

語義關(guān)系的簡要示例:

<醫(yī)生,是一種,人>、<醫(yī)生,掌握,醫(yī)藥知識>、<醫(yī)生,治療,疾病>

<病人,是一種,人)、<病人,發(fā)生,疾病>

<△ABC 的邊,是,{線段AB,BC,CA}>

邏輯關(guān)系的簡要示例

<病人,發(fā)生,疾病>→<病人,去,醫(yī)院>→<醫(yī)生,治療,疾病>→<病人,痊愈>

<兩個三角形三邊,對應相等>→<兩個三角形,全等>

根據(jù)語義關(guān)系庫中的定義,可以進行語句結(jié)構(gòu)和語義的分析。比如根據(jù)語義關(guān)系“<醫(yī)生,治療,疾病>”,得出“治療”分別和“醫(yī)生”和“疾病”關(guān)聯(lián),因此在分析語句“李明治療濕疹”時,除了匹配出句子的結(jié)構(gòu)和語義外,我們還可以得出:“李明是醫(yī)生”、“濕疹是疾病”這樣的語義。而語句“李明治療有效”則不符合這樣的語義關(guān)系,“有效”不是“疾病”,該句子是另一種語法結(jié)構(gòu)。

7.2 表達分析能力

(1)漢語的詞語及其對應的語法成分可以通過語義元素表示出來:構(gòu)成主語和賓語的詞語和詞組表示句子所陳述的事物和事件,是語義關(guān)系庫中的事物語義元素。動詞和形容詞等作為謂語,在語義關(guān)系庫中作為表示性質(zhì)、狀態(tài)、行為、動作等的語義元素。定語限定事物的數(shù)量、時間、處所、領(lǐng)屬等屬性,或描寫性質(zhì)、狀態(tài)、特征、用途、質(zhì)料、職業(yè)等方面,可以作為表示事物性狀的語義元素。狀語和補語成分作為謂語成分的修飾語義元素。

(2)不同的語義元素根據(jù)語義可以聯(lián)結(jié)成相應的語義關(guān)系,語義關(guān)系與漢語詞語間的語法結(jié)構(gòu)對應,因而可以根據(jù)語義關(guān)系確定句子的語法結(jié)構(gòu)。

(3)在進行語義分析時,利用這種對應關(guān)系也可以方便地獲取謂詞和客體,從而將句子轉(zhuǎn)換成謂詞公式。這樣可以將語義分析擴展到更大更全面的領(lǐng)域當中。

(4)一些特殊的漢語句式和語法結(jié)構(gòu),還可以通過語義關(guān)系分析、確定它的真實語義。例如,賓語包括受事、施事、結(jié)果、工具、處所、目的原因、存現(xiàn)和說明等類型,可以通過和謂語部分的語義關(guān)系得出實際的語義。又如,名詞性謂語、主謂謂語與主語的語義元素間沒有直接的語義關(guān)系,可以在語義關(guān)系庫中搜索匹配,分別得到它們的間接語義關(guān)系和領(lǐng)屬、支配語義關(guān)系。再如,一般動詞、形容詞、一般名詞和動賓、主謂、謂補等詞組作狀語時,與謂語間沒有直接甚至間接的語義關(guān)系,可以根據(jù)狀語所表示的狀態(tài)、方式、時間、處所、條件、對象、肯定、否定、范圍、程度或語氣等方面的語義,補充缺失的成分,然后再確定其語義關(guān)系。如“發(fā)展地看”實際語義為“用發(fā)展的方式看”,即動詞作方式狀語。

7.3 實驗結(jié)果

我們利用所建立的小型語義關(guān)系庫,共計對上述的領(lǐng)域范圍內(nèi)的800 多條語句進行了語義分析。我們用轉(zhuǎn)換率來評價謂詞轉(zhuǎn)換結(jié)果,即:

轉(zhuǎn)換率=正確轉(zhuǎn)換的語法成分個數(shù)/句子中的語法成分總數(shù)。

直接通過語義關(guān)系來分析確定漢語句子的語法結(jié)構(gòu)時,轉(zhuǎn)換率為80%左右。而與語法規(guī)則結(jié)合,句子的轉(zhuǎn)換率可以達到95%以上。

不同領(lǐng)域語義關(guān)系庫的分析結(jié)果也不盡相同。小學語文非詩詞類課文語句的轉(zhuǎn)換率在70%左右。這是因為課文的語言生動形象,有大量擬人童話、比喻等修辭,還有隱含的知識、寓意以及個人感受等,語義知識庫中缺少對應的語義關(guān)系。初中幾何語句的轉(zhuǎn)換率接近90%,這是因為幾何語言規(guī)范、清楚,語法結(jié)構(gòu)完整,問題是缺少常識知識。而“醫(yī)生”等特定領(lǐng)域中語句的轉(zhuǎn)換率也比較高,在90%以上,但需要有預先定義好的語義元素和語義關(guān)系,否則轉(zhuǎn)換率就會明顯下降。

實例分析結(jié)果表明,使用基于認知概念的語義關(guān)系,可以比較有效地獲得有歧義句子的語法結(jié)構(gòu)和語法成分、理解句子語義。

7.4 與其他知識庫比較

與現(xiàn)有的知識庫相比,語義關(guān)系庫基于認知概念建立了一種更為規(guī)范和結(jié)構(gòu)化的語義和知識體系。語義關(guān)系庫中既包括了靜態(tài)概念和屬性等不同類型的語義元素,也包括了動作、聯(lián)系、過程、事件等動態(tài)和情景式的語義關(guān)系,具有更完善的表達能力,同時又更貼近語法結(jié)構(gòu),便于計算機處理。另外,語義關(guān)系庫中的語義元素通過釋義和繼承關(guān)系,建立和縱向的層次結(jié)構(gòu)和橫向的關(guān)聯(lián)結(jié)構(gòu),構(gòu)建起一個與認知概念對應的知識體系。

7.5 存在的問題

(1)漢語中有大量的省略用法,有的是為了避免語言表達的冗余,有的則是語言的特點,必須通過上下文和語境來確定語義元素。

(2)有的語法成分間的語義關(guān)系比較特殊,比如動詞和名詞做狀語和定語,這樣的語義關(guān)系需要從更深度的語義角度來建立,甚至需要利用語用學的知識進行指導。

(3)語義關(guān)系庫覆蓋的知識不夠全面。語義元素難以包括現(xiàn)實世界中無窮盡事物、事件的實例,需要根據(jù)相關(guān)知識和信息補入;語義元素對應語義關(guān)系也難以完善和全面,建立完整的語義關(guān)系需要大量的知識,并且是一個龐大的工程。

(4)語義關(guān)系庫中,過程、活動、事件等只作為一種特殊的語義元素,雖然可以表示其相關(guān)屬性和語義聯(lián)系,但其具體過程、細節(jié)和組織還需要有完善的表示和支持。語義關(guān)系庫中存儲的只是認知世界的抽象概念性語義,對于具體事實、過程和事件的表示能力還不夠。

8 結(jié)束語

語義關(guān)系庫基于認知概念,以一種結(jié)構(gòu)化和規(guī)范的方式表示現(xiàn)實世界的事物及其屬性、行為、相互聯(lián)系和影響,從認知角度建立了詞語間的語義關(guān)聯(lián),能解決語義分析過程中的歧義問題,得到更準確的句子結(jié)構(gòu)。這也是自然語言理解和語義分析的一個新思路。

然而漢語語法極為靈活,有些詞語的搭配組合具有非常復雜的語義關(guān)系,修辭、成語、典故等語義以及人的主觀思想的表示也非常困難。另外,如何將現(xiàn)實世界中對應的事物、事件都加入到語義庫當中,如何有效地管理、查詢這樣一個龐大的知識庫,都還需要進一步深入的研究。

猜你喜歡
語法結(jié)構(gòu)知識庫語義
語言與語義
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應用
長沙方言中的特色詞尾
淺析古代漢語的名詞動用
高速公路信息系統(tǒng)維護知識庫的建立和應用
培養(yǎng)閱讀技巧,提高閱讀能力
“上”與“下”語義的不對稱性及其認知闡釋
基于Drupal發(fā)布學者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
認知范疇模糊與語義模糊
語義分析與漢俄副名組合