摘要:語(yǔ)義分析是自然語(yǔ)言領(lǐng)域研究的重要課題,其目的是讓計(jì)算機(jī)能理解與處理句子中的語(yǔ)義信息。本文以認(rèn)知概念為基礎(chǔ)指導(dǎo),使用現(xiàn)實(shí)世界中的事物及其性質(zhì)、狀態(tài)、行為等知識(shí),對(duì)句子進(jìn)行處理以得到包含語(yǔ)義信息的語(yǔ)義特征,用于指導(dǎo)對(duì)句子的后續(xù)語(yǔ)義分析工作。驗(yàn)證和分析顯示,構(gòu)造的語(yǔ)義特征提高了對(duì)漢語(yǔ)句子語(yǔ)義表達(dá)的完整和準(zhǔn)確性,可以避免歧義,得出句子正確的語(yǔ)法結(jié)構(gòu),為更廣泛有效的語(yǔ)義分析奠定了基礎(chǔ)。
關(guān)鍵詞:認(rèn)知概念;語(yǔ)法結(jié)構(gòu);語(yǔ)義分析;自然語(yǔ)言理解;語(yǔ)義特征
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)22-0011-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
近年來,以信息時(shí)代的發(fā)展浪潮為背景,網(wǎng)絡(luò)上文本信息量迅速膨脹。為了幫助人們應(yīng)對(duì)海量信息,自然語(yǔ)言處理(NLP) 在信息技術(shù)領(lǐng)域的地位越來越重要,已經(jīng)是人工智能最重要的研究方向之一。它運(yùn)用計(jì)算機(jī)對(duì)自然語(yǔ)言進(jìn)行正確的語(yǔ)義分析,以實(shí)現(xiàn)人與計(jì)算機(jī)之間的無障礙溝通為最終目的。而對(duì)句子進(jìn)行正確的語(yǔ)義分析,就是根據(jù)句子的句法結(jié)構(gòu)和句中每個(gè)實(shí)詞的詞義,推導(dǎo)出能夠反映這個(gè)句子意義的某種形式化表示[1]。
在2016年中文信息學(xué)會(huì)正式發(fā)布的中文信息處理發(fā)展報(bào)告中,關(guān)于語(yǔ)義分析的部分[2],將其進(jìn)一步劃分為三個(gè)層次:詞匯級(jí),句子級(jí)和篇章級(jí)。其中,句子級(jí)的語(yǔ)義分析是指某種可以反映句子含義的形式化表示方法,通??梢愿鶕?jù)句法結(jié)構(gòu)或者句中詞義信息推導(dǎo)而來,一般分為深層語(yǔ)義分析和淺層語(yǔ)義分析。深層語(yǔ)義分析需要深入理解句子中所包含的多層次的語(yǔ)義信息,過于復(fù)雜,經(jīng)過幾十年的發(fā)展,取得的效果并不理想。淺層語(yǔ)義分析是對(duì)深層語(yǔ)義分析的一種簡(jiǎn)化,不對(duì)整個(gè)句子進(jìn)行詳細(xì)的語(yǔ)義分析,而是通過提取特征,即計(jì)算機(jī)能夠處理的邏輯形式,以特征進(jìn)行語(yǔ)義分析。在語(yǔ)義分析中,Luke最早采取使用數(shù)據(jù)庫(kù)中預(yù)定義的謂詞論元和附屬論元,通過人工標(biāo)記數(shù)據(jù)的方法進(jìn)行特征訓(xùn)練[3]?,F(xiàn)有的這些數(shù)據(jù)庫(kù)如GeoQuery[4]、Wikipedia[5]、Yago[6]、WebQestion[7]等。由于這些數(shù)據(jù)庫(kù)中預(yù)先定義的謂詞數(shù)量有限,而且此類方法側(cè)重的特征表示方法是從語(yǔ)句到謂詞論元結(jié)構(gòu)上的轉(zhuǎn)換,沒有深入到語(yǔ)義層面真正地理解句子的語(yǔ)義,所以后續(xù)對(duì)句子語(yǔ)義的分析并不理想。Xue等人[8-9]在其研究工作中使用句法樹信息進(jìn)行特征表示,例如句子中附屬論元相對(duì)于謂詞論元的位置前后等,有效地構(gòu)成了包含更多信息的特征,擴(kuò)大了特征空間。然而,一些語(yǔ)法結(jié)構(gòu)復(fù)雜的句子使用句子結(jié)構(gòu)信息的特征不能準(zhǔn)確完整地表達(dá)句子語(yǔ)義,使得其應(yīng)用領(lǐng)域受限,只能應(yīng)用于簡(jiǎn)單結(jié)構(gòu)的語(yǔ)句中。
漢語(yǔ)自然語(yǔ)言復(fù)雜靈活,語(yǔ)言知識(shí)難以規(guī)則化。但語(yǔ)義是現(xiàn)實(shí)世界中的物質(zhì)在人頭腦中的影射,人不僅通過句子的字詞、語(yǔ)法結(jié)構(gòu),還會(huì)結(jié)合人腦中的認(rèn)知與知識(shí)來完成對(duì)句子語(yǔ)義的理解。這類技術(shù)的實(shí)現(xiàn)非常困難,對(duì)其的研究目前還處在實(shí)驗(yàn)階段,但這也是未來語(yǔ)義分析方法的一個(gè)重要發(fā)展方向。本文將沿著這個(gè)方向,依據(jù)人的認(rèn)知與知識(shí)概念,針對(duì)語(yǔ)義分析中,句子語(yǔ)義的特征構(gòu)建與表示進(jìn)行改進(jìn)與擴(kuò)展,以指導(dǎo)語(yǔ)義分析,使計(jì)算機(jī)更好地理解自然語(yǔ)言。
1 相關(guān)研究
1.1 認(rèn)知概念
認(rèn)知概念是現(xiàn)實(shí)世界中的物質(zhì)在人頭腦中的影射,是人的常識(shí)與知識(shí)復(fù)合形成。認(rèn)知概念對(duì)應(yīng)現(xiàn)實(shí)世界各種事物,包括主觀和客觀的事物,這些事物分別有其不同屬性,如性質(zhì)、狀態(tài)、動(dòng)作、類屬、組成等。語(yǔ)言學(xué)家研究認(rèn)為:在認(rèn)知發(fā)育的過程中,人類在大腦中建立對(duì)世界的基本看法,即概念樹結(jié)構(gòu),并通過語(yǔ)言來表達(dá)這種概念樹結(jié)構(gòu)[10]。因此,構(gòu)建語(yǔ)義特征需要抓住語(yǔ)言表達(dá)的語(yǔ)義本質(zhì),才能同樣準(zhǔn)確地反映在現(xiàn)實(shí)世界對(duì)應(yīng)的認(rèn)知概念。
1.2 知識(shí)庫(kù)
知識(shí)庫(kù)是進(jìn)行語(yǔ)義分析的重要工具,主要分為基于詞典的知識(shí)庫(kù)和基于百科的知識(shí)庫(kù)。
基于詞典的知識(shí)庫(kù)有 WordNet、FrameNet、知網(wǎng)(HowNet) 等。WordNet是一種大規(guī)模的英語(yǔ)詞典,具有復(fù)雜的網(wǎng)絡(luò)狀結(jié)構(gòu),并不像傳統(tǒng)詞典那樣僅提供單詞定義和同義詞,而是將英語(yǔ)詞匯組織成一個(gè)“同義詞集”的網(wǎng)絡(luò),其中的詞匯不僅以同義詞集的形式組織,還通過不同類型的語(yǔ)義關(guān)系連接,如反義詞、上位詞(hypernyms) /下位詞(hyponyms) 、整體詞(holonyms) /部分詞(meronyms) 等。FrameNet是一個(gè)基于框架語(yǔ)義學(xué)的在線詞典和相關(guān)的語(yǔ)料庫(kù),其核心理念是語(yǔ)言中的詞匯和語(yǔ)法現(xiàn)象是通過關(guān)聯(lián)到特定的“框架”(frames) ,這些框架代表了一系列相關(guān)事件、情境、對(duì)象或動(dòng)作的概念化,每一個(gè)概念化都與一系列詞條關(guān)聯(lián),這些詞條是詞匯條目和它們各自的意義的組合。知網(wǎng)(HowNet) 是最為著名的中文語(yǔ)義知識(shí)庫(kù),以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念作為對(duì)象,用以描述概念與概念之間、概念與其自身所具有的屬性之間的關(guān)系。在知網(wǎng)中,各種或簡(jiǎn)單或復(fù)雜的概念用義原組合起來表示,每個(gè)詞的詞義都用義原的組合來解釋。
基于百科的知識(shí)庫(kù)往往是在線的,以獲得更快的知識(shí)更新速度。Freebase集成了多源信息以構(gòu)建一個(gè)全球范圍的語(yǔ)義網(wǎng)絡(luò),其中的數(shù)據(jù)圍繞“實(shí)體”(如人物、地點(diǎn)、事物)和它們之間的“關(guān)系”組織。每個(gè)實(shí)體有唯一標(biāo)識(shí)符,并分類到一種或多種類型中。這些類型定義了實(shí)體的屬性和與其他實(shí)體的潛在關(guān)系,使得數(shù)據(jù)不僅是文本,還具有明確的語(yǔ)義。YAGO(Yet Another Great Ontology) 從Wikipedia等數(shù)據(jù)源抽取和整合知識(shí),并利用精細(xì)算法最小化錯(cuò)誤,形成一個(gè)精確、多語(yǔ)言且廣泛的本體庫(kù)。它還能提供跨語(yǔ)言的知識(shí)表示,支持多語(yǔ)言查詢和應(yīng)用。利用知識(shí)庫(kù)構(gòu)建語(yǔ)義特征,需將事物相關(guān)內(nèi)容組織在一起,并體現(xiàn)事物間關(guān)聯(lián),才能進(jìn)行全面的語(yǔ)義分析。
2 漢語(yǔ)句子語(yǔ)義分析
漢語(yǔ)自然語(yǔ)言的最小單位是詞,由詞按照一定的語(yǔ)法規(guī)則排列成句。詞、句所表達(dá)的實(shí)際意義就是自然語(yǔ)言的語(yǔ)義,表達(dá)了人對(duì)現(xiàn)實(shí)世界的認(rèn)知。
2.1 詞的語(yǔ)義
在漢語(yǔ)的語(yǔ)義學(xué)領(lǐng)域,詞被視為最微觀的語(yǔ)義承載體。實(shí)體及其固有的特征、狀態(tài)和行為這些現(xiàn)實(shí)世界的基本要素,在人類認(rèn)知結(jié)構(gòu)中形成的核心思維概念,都有其符號(hào)化的詞匯。每一實(shí)體以及其眾多屬性的認(rèn)知表示,在自然語(yǔ)言的體系中均能找到相應(yīng)的詞匯符號(hào),且這些概念根據(jù)其性質(zhì)被不同的詞類所劃分和表示。
2.2 句子的語(yǔ)義
句子由詞或短語(yǔ)按一定的語(yǔ)法和規(guī)則構(gòu)建而成,表達(dá)一個(gè)完整的意思。句子表達(dá)其描述的主語(yǔ)所具有的性質(zhì)、狀態(tài)等屬性,并表達(dá)其主語(yǔ)與其他事物之間的聯(lián)系、變化、相互作用和因果發(fā)展等。句子表達(dá)的內(nèi)容和語(yǔ)義是認(rèn)知概念中的事實(shí)、判斷和過程等。
2.3 語(yǔ)義分析的難點(diǎn)
自然語(yǔ)言是現(xiàn)實(shí)世界的映照。但漢語(yǔ)是語(yǔ)義型語(yǔ)言,重意合而輕形式,其語(yǔ)法靈活,句子結(jié)構(gòu)與次序存在省略但仍不影響含義等現(xiàn)象。并且由于存在多義詞、同義詞,同一個(gè)詞語(yǔ)在不同句子中可成為不同的語(yǔ)法成分,從而產(chǎn)生歧義。例如,“吃飯”和“吃驚”,同一個(gè)詞語(yǔ)在不同的搭配中,表達(dá)不同的語(yǔ)義。歧義會(huì)影響自然語(yǔ)言處理的語(yǔ)義分析效果。人們能夠正確理解自然語(yǔ)言所包含的語(yǔ)義是因?yàn)槌死斫饨M成句子的字詞和語(yǔ)法結(jié)構(gòu)以外,還可以使用自己的知識(shí)與認(rèn)知加以分析,從而排除不符合語(yǔ)境的那個(gè)語(yǔ)義。因此,我們基于認(rèn)知概念,利用事物與其行為、性狀、屬性以及其他事物間的固有聯(lián)系,構(gòu)建語(yǔ)義特征,來指導(dǎo)解決語(yǔ)義分析問題。
3 語(yǔ)義特征分析法
3.1 語(yǔ)義特征
語(yǔ)義特征來源于語(yǔ)義學(xué)中的語(yǔ)義成分分析法。語(yǔ)義特征數(shù)量眾多,性質(zhì)復(fù)雜,理論上講也許可以窮盡,但實(shí)踐中無法做到。對(duì)于語(yǔ)義特征,從不同的角度有不同的分類方法[11]。
1) 自然性語(yǔ)義特征是從基本的意義、概念和邏輯中分解出來的語(yǔ)義特征,是語(yǔ)義特征的主體部分,數(shù)量最多、最豐富、最復(fù)雜。盡管詞語(yǔ)的固有語(yǔ)義特性源自其相對(duì)穩(wěn)定的詞匯含義,這一點(diǎn)歸屬于語(yǔ)法分析的領(lǐng)域。它依賴于句法結(jié)構(gòu),并具有語(yǔ)法上的價(jià)值。因此,從性質(zhì)和數(shù)量的角度考慮,這不與詞語(yǔ)的理論意義相等同。
2) 聚合性語(yǔ)義特征是從聚合的角度劃分出來的語(yǔ)義特征。聚合性語(yǔ)義特征脫離于句子,是從詞語(yǔ)與詞語(yǔ)之間的關(guān)聯(lián)性中分離而出的一類。
3) 附屬性語(yǔ)義特征指語(yǔ)義中那些非自然性的、主觀的部分。包括語(yǔ)義的感情色彩、詞語(yǔ)的語(yǔ)體色彩和形象色彩。
4) 組合性語(yǔ)義特征根據(jù)詞匯與其他句中詞匯的搭配關(guān)系而界定的一種語(yǔ)義特征,它對(duì)詞匯與其他相聯(lián)系詞匯之間的語(yǔ)義匹配產(chǎn)生影響。雖然自然性語(yǔ)義特征可以獨(dú)立于句子存在,組合性語(yǔ)義特征卻是在與其他詞匯結(jié)合時(shí)才顯現(xiàn)其特點(diǎn)。這種語(yǔ)義特征建立在詞匯的自然含義之上,卻必須與其他詞匯發(fā)生聯(lián)系后才展現(xiàn),故此得名“組合性語(yǔ)義屬性”。
3.2 語(yǔ)義分析過程
語(yǔ)義特征是詞的一種屬性,不論實(shí)詞與虛詞。它的獨(dú)特作用在于解釋詞在同一句法格式的不同句子中,各自具有的某種特點(diǎn),這種特點(diǎn)能夠?qū)⑵渑c同形的句法格式區(qū)分開來。例如:“綠”“綠油油的”,兩者表達(dá)同樣的基本詞匯意象,但在語(yǔ)義特征中有所區(qū)別。我們基于認(rèn)知概念建立語(yǔ)義特征模型(S,P,M) ,S表示事物主體,P表示事物的屬性狀態(tài),M表示事物屬性狀態(tài)的聯(lián)系發(fā)展。對(duì)于“綠”和“綠油油的”,構(gòu)建語(yǔ)義特征模型 <s1,p,m1>、<s2,p,m2>??梢园l(fā)現(xiàn)兩者的區(qū)別不在于表達(dá)的屬性p:“綠色”上,而是在于m1:“性質(zhì)”與m2:“性質(zhì)的狀況或情態(tài)”,這種與其他客體聯(lián)系狀態(tài)的區(qū)別可以完整地反映在兩個(gè)主題的語(yǔ)法功能上。
傳統(tǒng)語(yǔ)義特征在處理句子“李華借小明一支筆”時(shí),借這個(gè)詞具有歧義,影響后續(xù)語(yǔ)義分析效果。我們基于認(rèn)知概念,為“借”字的語(yǔ)義特征增加維度M,即m1:“給予”,m2:“獲取”,從而解決歧義問題。通過分析詞匯的語(yǔ)義屬性,我們可以準(zhǔn)確地辨識(shí)出如何圍繞一個(gè)主義素的相關(guān)義素構(gòu)建起的語(yǔ)義領(lǐng)域,無論大小,并且觀察到在這些領(lǐng)域內(nèi)詞匯系統(tǒng)如何持續(xù)地發(fā)生動(dòng)態(tài)變化:主義素定位于中心,而其他義素在其周圍形成有序的修飾層級(jí),扮演輔助性角色;然而,在特定的語(yǔ)義領(lǐng)域中,這些非主義素便轉(zhuǎn)化為區(qū)分不同詞語(yǔ)的關(guān)鍵性質(zhì)。
4 特征表示實(shí)驗(yàn)與評(píng)價(jià)
本文使用字典、詞典和常識(shí)百科知識(shí)為基礎(chǔ),針對(duì)相關(guān)小型、限定領(lǐng)域的多種語(yǔ)法結(jié)構(gòu)進(jìn)行分析,以驗(yàn)證基于認(rèn)知常識(shí)的語(yǔ)義特征分析表示能力。使用構(gòu)造率來評(píng)價(jià)特征分析結(jié)果,構(gòu)造率=正確有效的特征數(shù)量/句子中的語(yǔ)法成分?jǐn)?shù)量。例如:句子“他吃飯”的語(yǔ)法成分?jǐn)?shù)量為兩個(gè),分別是主語(yǔ)和謂語(yǔ),構(gòu)造語(yǔ)義特征為S(p) ,詞語(yǔ)和語(yǔ)法成分信息沒有損失,語(yǔ)義表達(dá)完整,即構(gòu)造率為100%。而句子“他在食堂吃飯”,對(duì)于傳統(tǒng)表達(dá)S(p) 無法表達(dá)出狀語(yǔ)信息,構(gòu)造率為2/3=67%。而利用語(yǔ)義特征分析構(gòu)造特征可以得到m(s) S(p) ,充分表達(dá)了三個(gè)語(yǔ)法成分,完整保留了原句子的語(yǔ)義信息。通過實(shí)驗(yàn)驗(yàn)證,直接通過語(yǔ)法結(jié)構(gòu)來分析表示漢語(yǔ)句子的語(yǔ)義特征時(shí),構(gòu)造率為75%左右。而與語(yǔ)義知識(shí)結(jié)合,句子的語(yǔ)義特征構(gòu)造率可以達(dá)到95%以上。實(shí)例分析結(jié)果表明,基于認(rèn)知概念進(jìn)行語(yǔ)義分析,可以比較有效地獲得有歧義句子的語(yǔ)法結(jié)構(gòu)和語(yǔ)法成分、理解句子語(yǔ)義,從而指導(dǎo)后續(xù)語(yǔ)義分析工作。
5 結(jié)束語(yǔ)
基于認(rèn)知概念對(duì)句子進(jìn)行分析得到的語(yǔ)義特征,能更規(guī)范、結(jié)構(gòu)化地表示現(xiàn)實(shí)世界的事物及其屬性、行為、相互聯(lián)系和影響。由于包含更多的語(yǔ)義信息,這種方法有助于解決語(yǔ)義分析中的歧義問題,因此成為自然語(yǔ)言理解和語(yǔ)義分析的未來研究方向之一。
然而,漢語(yǔ)語(yǔ)言具有超出其他語(yǔ)言的靈活性,因此在保證語(yǔ)義特征的準(zhǔn)確性和充足性方面面臨挑戰(zhàn)。為了進(jìn)行跨領(lǐng)域的句子語(yǔ)義分析,需要整合不同領(lǐng)域的知識(shí)。如何有效地管理、查詢相應(yīng)的知識(shí),并運(yùn)用于特征表示,是下一步需要繼續(xù)研究的重要方向。
參考文獻(xiàn):
[1] 劉懷軍, 車萬翔, 劉挺. 中文語(yǔ)義角色標(biāo)注的特征工程[C]//中國(guó)中文信息學(xué)會(huì). 第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集. 哈爾濱: 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院, 2006: 79-84.
[2] 中國(guó)中文信息學(xué)會(huì). 中文信息處理發(fā)展報(bào)告[EB/OL]. (2016-12-10)[2022-02-20].https://max.book118.com/html/2018/0304/ 155824031.shtm.
[3] ZETTLEMOYER L S, COLLINS M. Learning to map sentences to logical form: Structured classification with probabilistic categorial grammars[C]//Proceedings of the Twenty-First Conference on Uncertainty in Artificial Intelligence. Edinburgh, Scotland: UAI, 2005: 658-666.
[4] SAPAROV A,SARASWAT V,MITCHELL T.A probabilistic generative grammar for semantic parsing[C]//Proceedings of the 21st Conference on Computational Natural Language Learning (CoNLL 2017).Vancouver,Canada.Stroudsburg,PA,USA:Association for Computational Linguistics,2017:248 - 259.
[5] DU X Y,CARDIE C.Harvesting paragraph-level question-answer pairs from wikipedia[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Melbourne,Australia.Stroudsburg,PA,USA:Association for Computational Linguistics,2018:1907-1917.
[6] REBELE T,SUCHANEK F,HOFFART J,et al.YAGO:A multilingual knowledge base from wikipedia,wordnet,and geonames[C]//International Semantic Web Conference.Cham:Springer,2016:177-185.
[7] ZHANG Y C,PASUPAT P,LIANG P.Macro grammars and holistic triggering for efficient semantic parsing[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.Copenhagen,Denmark.Stroudsburg,PA,USA:Association for Computational Linguistics,2017:1214-1223.
[8] XUE N, PALMER M. Calibrating features for semantic role labeling[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona, Spain: EMNLP, 2004.
[9] XUE N, PALMER M. Automatic semantic role labeling for Chinese verbs[C]//Proceedings of the 19th International Joint Conference on Artificial Intelligence. Edinburgh, Scotland: IJCAI, 2005.
[10] 程工.讀喬姆斯基《語(yǔ)言與思維研究中的進(jìn)展》[J].外語(yǔ)教學(xué)與研究,2001,33(3):233-236.
[11] 邵敬敏,周芍.語(yǔ)義特征的界定與提取方法[J].外語(yǔ)教學(xué)與研究,2005,37(1):21-28.
【通聯(lián)編輯:唐一東】