于建平 付繼林 白塔娜
摘 要:英語情態(tài)動詞的一詞多義給自然語言處理帶來了很大困難。情態(tài)動詞語義對語境很敏感,發(fā)現(xiàn)影響情態(tài)動詞語義的主要語境因素對情態(tài)動詞特征選擇、機器翻譯等都十分重要。因此,采用神經(jīng)網(wǎng)絡(luò)技術(shù)對英語情態(tài)動詞進行語義排歧,并確定不同語境特征對語義排歧結(jié)果的影響?;谝粋€100萬字的語料庫,以英語情態(tài)動詞must為例,從語境中提取影響must語義的語義特征和句法特征,計算并確定這些特征向量值,建立可區(qū)分根情態(tài)與認識情態(tài)語義的BP神經(jīng)網(wǎng)絡(luò),排歧正確率達到94%。在此基礎(chǔ)上,通過實驗研究確定不同語境特征對情態(tài)動詞must語義排歧的影響程度等級。該研究結(jié)果為情態(tài)動詞語義排歧及情態(tài)動詞語義人工識別提供了重要依據(jù)。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);英語情態(tài)動詞;語義排歧;語境特征
DOI:10. 11907/rjdk. 191918 開放科學(xué)(資源服務(wù))標識碼(OSID):
中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)005-0033-04
0 引言
多數(shù)英語情態(tài)動詞都具有一詞多義、內(nèi)涵與外延模糊、語義不確定等特性,所以英語情態(tài)動詞語義排歧無論在人機語言交流還是自然語言處理中都是一個重要且棘手的問題。以往關(guān)于情態(tài)動詞的研究主要側(cè)重于對情態(tài)動詞語義與句法特征及其功能的描述[1-3]。自然語言處理主要側(cè)重于實義動詞、名詞語義理解與排歧技術(shù)及方法研究[4-10]。由于情態(tài)動詞語義的復(fù)雜性,目前針對情態(tài)動詞語義排歧的研究很少,針對不同語境特征對情態(tài)動詞語義及其排歧影響的研究更少。然而,這些研究無論對語言學(xué)還是自然語言處理都具有十分重要的意義。神經(jīng)網(wǎng)絡(luò)是由大量簡單處理單元廣泛地相互連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng),其反映了人腦功能的許多基本特征,是一個高度復(fù)雜的非線性動力學(xué)系統(tǒng)。神經(jīng)網(wǎng)絡(luò)具有大規(guī)模并行、分布式存儲與處理等特點,以及自組織、自適應(yīng)與自學(xué)習(xí)能力,特別適合處理需要同時考慮許多因素和條件、不精確與模糊的信息處理問題[11],已應(yīng)用于模式識別、文本分類和知識發(fā)現(xiàn)等多個領(lǐng)域[12-19]。神經(jīng)網(wǎng)絡(luò)也很適合于研究情態(tài)動詞的語義排歧問題。
本文以情態(tài)動詞must為例,基于100萬詞的語料庫建立情態(tài)動詞語義排歧神經(jīng)網(wǎng)絡(luò)模型,并在此基礎(chǔ)上研究不同語境特征對排歧效果的影響,旨在確定情態(tài)動詞在具有不同語義時的語境特征結(jié)構(gòu),揭示不同語境特征對英語情態(tài)動詞語義的影響程度,為情態(tài)動詞語義排歧神經(jīng)網(wǎng)絡(luò)設(shè)計提供重要的特征選擇依據(jù),從而提高語義排歧正確率,并為英語情態(tài)動詞語義識別提供依據(jù)。
1 英語情態(tài)動詞must語義劃分
著名情態(tài)語義學(xué)家Coates[3]把情態(tài)動詞must的語義劃分為:根情態(tài)語義(root meaning)和認識情態(tài)語義(epistemic meaning)。根情態(tài)語義包括表達責任(obligation)的語義和表達義務(wù)(necessity)的語義,Coates對must情態(tài)語義劃分見圖1。
本文采用以上語義劃分方法,開展針對must根情態(tài)語義和認識情態(tài)語義的語義排歧與知識發(fā)現(xiàn)研究。
2 must語義排歧
2.1 語境特征提取
基于一個100萬字的英語語料庫,采用神經(jīng)網(wǎng)絡(luò)對must進行語義排歧。首先將語料庫平均分為兩個,一個作為訓(xùn)練語料庫,另一個作為檢驗語料庫;然后,按照以上語義劃分對兩個語料庫中的must進行標注,分別從兩個語料庫中提取50個樣本例句,構(gòu)成訓(xùn)練集與檢驗集;之后確定樣本例句的語境特征,包括語義特征和句法特征。語義特征由主語與must的互信息以及must與其后動詞的互信息構(gòu)成,句法特征由與must共現(xiàn)頻率較高的句法形式構(gòu)成。提取的語境特征包括:
(1)語義特征:①主語與根情態(tài)must1的互信息;②主語與認識情態(tài)must2的互信息;③根情態(tài)must1與謂語動詞的互信息;④認識情態(tài)must2與謂語動詞的互信息。
(2)句法特征:①否定式;②被動語態(tài);③謂語動詞為施事動詞;④主語有生命性;⑤must+完成體;⑥must+靜態(tài)動詞。
2.2 語境特征向量化處理
為了使提取的10個語境特征能夠在神經(jīng)網(wǎng)絡(luò)中運行,需要將語境特征變成矢量。首先,對①-④的語義特征計算互信息,計算公式如下[9]:
2.3 BP神經(jīng)網(wǎng)絡(luò)設(shè)計
由于訓(xùn)練集與檢驗集樣本均為50個,輸入向量為10維,vi (i = 1,2,…10),所以網(wǎng)絡(luò)輸入為一個50×10維的矩陣。對于隱層神經(jīng)元個數(shù),經(jīng)過反復(fù)實驗發(fā)現(xiàn),隱層為9個神經(jīng)元時,網(wǎng)絡(luò)實現(xiàn)的精度和正確率最高,分別為1.760 95×10-8和94%,因此確定隱層神經(jīng)元數(shù)量為9個。傳遞函數(shù)為tansig,輸出層是單個神經(jīng)元o,傳遞函數(shù)是線性的purelin,訓(xùn)練函數(shù)選取trainlm,訓(xùn)練精度設(shè)為le-006。該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)見圖2。
將表1中訓(xùn)練集和檢驗集的向量輸入神經(jīng)網(wǎng)絡(luò)。同時,對網(wǎng)絡(luò)輸出結(jié)果進行歸一化處理,即輸出結(jié)果在(-0.5,0.5)之間時,取0代表認識情態(tài)must;輸出結(jié)果在(0.5,1.5)之間時,取1代表根情態(tài)must。在Matlab 7.0環(huán)境下運行所建立的BP神經(jīng)網(wǎng)絡(luò),對其進行訓(xùn)練與檢驗,結(jié)果如圖3-圖4所示。其中,“*”為目標值,“+”為輸出結(jié)果,二者重合為正確排歧,否則為錯誤排歧。由圖3可以看出,在訓(xùn)練17步以后,神經(jīng)網(wǎng)絡(luò)達到設(shè)定精度10-6。由圖4可以看出,該網(wǎng)絡(luò)排歧只出現(xiàn)了3個錯誤,排歧正確率達到94%。
3 不同語境特征對情態(tài)動詞must語義排歧的影響
3.1 實驗
為了解不同語境特征對must語義排歧的影響程度,采用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進行實驗。每次從神經(jīng)網(wǎng)絡(luò)訓(xùn)練集矩陣與檢驗集矩陣中分別刪除同一個特征向量,然后在Matlab7.0環(huán)境下運行BP神經(jīng)網(wǎng)絡(luò),觀察排歧結(jié)果變化程度,從而得知該特征對must語義排歧的影響程度。依次進行10次實驗,實驗結(jié)果見表2。
3.2 實驗結(jié)果分析
從表3實驗結(jié)果可以看出,當忽略認識情態(tài)must與謂語動詞的互信息時,排歧正確率最低,說明“認識情態(tài)must與謂語動詞的互信息”特征對must語義排歧影響最大。其次是“must +靜態(tài)動詞”,再次是“否定式”和“被動語態(tài)”特征。雖然忽略“否定式”和“被動語態(tài)”特征時都出現(xiàn)了8個錯誤,網(wǎng)絡(luò)精度都為10-7,但忽略“被動語態(tài)”因素時,訓(xùn)練神經(jīng)網(wǎng)絡(luò)使用了更多步數(shù),所以“被動語態(tài)”相比“否定式”對must的情態(tài)語義影響更大。以同樣方法可以確定不同語境特征對must情態(tài)語義的影響由大到小排序為:認識情態(tài)must與謂語動詞的互信息>must+靜態(tài)動詞>被動語態(tài)>否定式>根情態(tài)must與謂語動詞的互信息>主語有生命性>主語與根情態(tài)must的互信息>施事謂語動詞>主語與認識情態(tài)must的互信息>must+完成體。
比較表3中的數(shù)據(jù)可以發(fā)現(xiàn),認識情態(tài)must與謂語動詞的互信息、must+靜態(tài)動詞、主語有生命性主要影響must的根情態(tài)語義,其它特征主要影響must的認識情態(tài)語義。
下面從整體上研究不同語境特征對must情態(tài)語義排歧的影響。本文進行如下實驗:①把主語與根情態(tài)must互信息以及主語與認識情態(tài)must互信息看作主語與must互的信息。在神經(jīng)網(wǎng)絡(luò)輸入矢量中同時刪除這兩個矢量,然后運行神經(jīng)網(wǎng)絡(luò),觀察主語對must語義排歧的影響;②把根情態(tài)must與謂語動詞的互信息和認識情態(tài)must與謂語動詞的互信息看作must與謂語動詞的互信息,同時刪除這兩個矢量,再運行神經(jīng)網(wǎng)絡(luò),觀察謂語動詞對must語義排歧的影響;③同時刪除6個句法特征,然后運行神經(jīng)網(wǎng)絡(luò),觀察全體句法特征對語義排歧的影響;④同時刪除4個語義互信息特征,然后運行神經(jīng)網(wǎng)絡(luò),觀察全體語義特征對語義排歧的影響。實驗結(jié)果見表3。
從表3可以看出,忽略must與謂語的互信息后,網(wǎng)絡(luò)精度僅為10-2,無法達到設(shè)定精度(10-6),而且排歧正確率明顯下降(58%),說明must與謂語動詞的互信息對must的情態(tài)語義排歧影響很大。原因主要在于認識情態(tài)must與謂語動詞的互信息對must語義排歧影響較大。相比之下,忽略主語與must的互信息對must語義排歧影響較小。從總體上看,謂語動詞對must語義排歧的影響遠大于主語對其的影響。從表3還可以看出,忽略所有句法特征后,排歧正確率有所下降,但下降幅度不大。但忽略所有語義互信息特征后,網(wǎng)絡(luò)無法達到所要求的精度,僅為10-2,說明對其影響很大。該結(jié)果說明語義特征相比句法特征對must語義排歧的影響大得多,所以在情態(tài)動詞語義排歧中,既要考慮語義特征,又要考慮句法特征,以語義特征為主,句法特征為輔。
4 結(jié)語
本文所建立的用于英語情態(tài)動詞must語義排歧的神經(jīng)網(wǎng)絡(luò)達到了94%的理想排歧正確率?;谠撋窠?jīng)網(wǎng)絡(luò)進行的實驗結(jié)果表明,就單項語言特征而言,“認識情態(tài)must與謂語動詞的互信息”對must情態(tài)語義排歧影響最大,其次是“must +靜態(tài)動詞”?!氨粍诱Z態(tài)”和“否定式”對must的情態(tài)語義影響也較大?!癿ust+完成體”對must的語義排歧影響最小。就不同類別的語境特征而言,語義特征相比句法特征對must語義排歧的影響大得多。本文研究結(jié)果揭示了不同語境特征對must語義排歧的影響及影響程度,并對不同屬性特征的影響程度進行排序,為情態(tài)動詞語義排歧的特征選擇與神經(jīng)網(wǎng)絡(luò)設(shè)計提供了重要依據(jù),為自然語言處理中的情態(tài)動詞語義排歧研究和情態(tài)語義學(xué)研究提供了重要的理論與實踐依據(jù)。該方法也可應(yīng)用于其它情態(tài)動詞的語義排歧研究。
參考文獻:
[1] PALMER F R. Mood and modality[M]. ?Cambridge: Cambridge University Press, 2001.
[2] SWEETSER E. From etymology to pragmatics: metaphorical and cultural aspects of semantic structure[M]. ?Cambridge: Cambridge University Press, 1990.
[3] COATES J. The semantics of the modal auxiliaries[M]. ?London: Routledge Press,1983.
[4] IDE N,VERONIS J. Word sense disambiguation: the state of the art[J]. ?Computational Linguistics, 1998,24 (1): 1-41.
[5] SEIFOLLAHI S, SHAJARI M. Word sense disambiguation application in sentiment analysis of news headlines: an applied approach to FOREX market prediction[J]. ?Journal of Intelligent Information System, 2019, 52(1):57-83.
[6] KRAWCZYK B, MCINNES B T. Local ensemble learning from imbalanced and noisy data for word sense disambiguation[J]. ?Pattern Recognition, 2018,78: 103-119.
[7] CORREA E A, LOPES A A, AMANCIO D R. Word sense disambiguation: a complex network approach[J]. ?Information Sciences, 2018,442: 103-113.