国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

WantWords:基于神經(jīng)網(wǎng)絡(luò)技術(shù)的反向詞典

2022-07-20 01:54豈凡超劉知遠孫茂松
辭書研究 2022年4期
關(guān)鍵詞:目標語言失語癥舌尖

豈凡超 張 磊 劉知遠 孫茂松

一、反向詞典及其價值

所謂“反向詞典”,顧名思義,是和一般詞典功能恰好相反的一種“詞典”。(Sierra 2000)一般詞典是幫助使用者了解一個詞語的信息及用法,即以某個詞語作為輸入,以該詞語的定義等信息作為輸出。例如,輸入“高峻”給一個漢語詞典,該詞典會告訴我們它表達的意思是“(山勢、地勢等)高而陡”。而反向詞典則恰好相反,它以表達某種意思的語義描述作為輸入,輸出符合輸入描述的詞語。例如,輸入“山非常高”,反向詞典就會輸出“高峻”“巍然”“嵯峨”等詞語(詳見圖1)。

圖1 反向詞典示意圖

反向詞典有重要的實用價值,具體使用場景包括:

(1) 解決暫時性忘詞的問題。詞窮也被稱為“舌尖現(xiàn)象”(tip-of-the-tongue phenomenon)(Brown & McNeill 1966),經(jīng)歷舌尖現(xiàn)象的人知道目標詞語的意思,甚至能回憶起目標詞語的某些特征,例如其中的一個字或一個音節(jié),但是無法完整地想起目標詞語。根據(jù)心理學(xué)相關(guān)研究,舌尖現(xiàn)象是一種十分普遍的語言產(chǎn)生失敗現(xiàn)象,不同年齡、不同性別、不同受教育程度的人群在使用不同語言時均會遇到該問題。(郭桃梅,彭聃齡 2005)494-496而且舌尖現(xiàn)象的出現(xiàn)頻率也較高,日記研究表明舌尖現(xiàn)象在年輕人中至少每星期發(fā)生一次,而老年人則增加到大概每天一次,對于需要頻繁進行文字表達的人,例如作家、研究人員、學(xué)生,舌尖現(xiàn)象的發(fā)生頻率則會增加若干倍。(姜敏敏,李虎 2011)反向詞典是解決舌尖現(xiàn)象的最有效工具,使用者在忘詞時只需輸入對目標詞語的描述,再利用若干篩選器(如字數(shù)、詞性等),就可以迅速找到目標詞語,免除久久不能想起詞語的 煩惱。

(2) 緩解“網(wǎng)絡(luò)失語癥”問題。目前各種網(wǎng)絡(luò)流行語充斥著人們——尤其是年輕人——的交流和表達,越來越多的人逐漸喪失了基本的語言表達能力,這種現(xiàn)象被稱為“網(wǎng)絡(luò)失語癥”。2019年中國青年報社會調(diào)查中心對2002名受訪者進行的一項調(diào)查顯示,76.5%的受訪者感覺自己的語言越來越貧乏。(常澤昱,任霧 2021)在社交媒體“豆瓣”上有一個名為“文字失語者互助聯(lián)盟”的興趣小組,[1]目前已有超過30萬人在其中尋求包括網(wǎng)絡(luò)流行語的替代用詞在內(nèi)的合適的文字表達方式。反向詞典也可以有效地緩解“網(wǎng)絡(luò)失語癥”的問題,幫助用戶找到符合想表達意思的合適的 詞語。

(3) 幫助語言學(xué)習(xí)者學(xué)習(xí)、回憶、鞏固詞匯。首先,某種語言的初學(xué)者(無論是母語初學(xué)者還是第二語言初學(xué)者)對于詞語的記憶往往并不牢固,出現(xiàn)“舌尖現(xiàn)象”的頻率也大大增加,(Kreiner & Degani 2015;戎玲等 2018)273-274反向詞典可以幫助他們回憶、鞏固學(xué)過的詞語。其次,反向詞典可以輸出大量符合輸入描述的詞語,幫忙語言初學(xué)者了解、學(xué)習(xí)一些新的詞匯,尤其是在寫作時提供幫助。支持跨語言查詢的反向詞典對于第二語言學(xué)習(xí)者的輔助作用更加巨大,他們可以使用自己更為熟悉的母語來檢索遺忘的第二語言的詞語。

(4) 幫助選詞性失語癥(word selection anomia,又稱“選詞性命名不能”)患者。這種癥狀由腦部損傷引起,患者可以識別并描述某個物體但是無法記起該物體的名稱。(Benson 1979)據(jù)統(tǒng)計,每100萬人中至少有一人罹患選詞性失語癥。(Rohreret al. 2008)該癥患者的生活質(zhì)量以及人際溝通受到嚴重影響,而反向詞典可以在很大程度上幫助這些患者,提升他們的生活質(zhì)量。

二、現(xiàn)有的反向詞典及實現(xiàn)方法

反向詞典可以看作一種特殊的搜索引擎,目前國外有一些支持英語詞語檢索的反向詞典,例如OneLook[2]、ReverseDictionary[3]。但是除了本文介紹的WantWords之外,還沒有支持中文詞語檢索的反向詞典。

反向詞典背后的技術(shù)屬于自然語言處理(Natural Language Processing)的范疇,這是一門讓計算機能夠理解并說出人類語言的學(xué)科,也被稱作“計算語言學(xué)”。

自然語言處理相關(guān)研究中,反向詞典的算法主要有兩類。第一類方法基于句子匹配,(Zock & Bilac 2004;Méndezet al.2013;Shawet al. 2013),該方法的主要思想是在數(shù)據(jù)庫中檢索與輸入查詢文本最相似的詞語定義并且返回對應(yīng)的詞。盡管這種方法在一些情況下比較有效,但是實際情況中用戶的輸入描述往往非常多變,而且和詞典編纂者撰寫的詞語定義有較大差別,因此在很多情況下這種方法效果不佳。

第二類方法是使用一個神經(jīng)網(wǎng)絡(luò)語言模型(一種深度學(xué)習(xí)模型)對輸入的描述編碼成一個向量,然后將其映射到詞語的向量(詞向量,word embedding)表示空間之中,最后返回向量空間中與輸入描述距離最近的詞語。(Hillet al. 2016;Morinaga & Yamaguchi 2018;Kartsakliset al. 2018;Hedderichet al. 2019;Pilehvar 2019)這類方法的效果很大程度上依賴于詞向量的質(zhì)量,然而,由于大部分詞語都是低頻詞,其詞向量質(zhì)量較差。因此,這類方法對于低頻詞的反向查詞效果較差。

為了解決上述問題,我們此前提出了一種名為“多通道反向詞典”的方法。(Zhenget al. 2020)這一方法受到人根據(jù)描述猜測詞語過程的啟發(fā),會首先根據(jù)語義描述預(yù)測詞語的特征,具體包括詞性、詞素、詞語類別和義原。[4]通過預(yù)測這些特征,模型就能更好地排除低質(zhì)量詞向量的干擾,更準確地找到正確的詞語。例如,“平凡”和“凡人”的意思有很大的相關(guān)性,詞向量通常比較接近,但是它們的詞性不同,前者為形容詞,后者為名詞,當(dāng)輸入的描述為“平常人”時,模型能夠猜到目標詞語是名詞,進而將“平凡”排除在外,將“凡人”“ 凡夫”等正確的詞語保留。

根據(jù)多個評測數(shù)據(jù)集上的實驗結(jié)果,我們提出的“多通道反向詞典”方法是當(dāng)前效果最好的反向詞典方法。

三、WantWords反向詞典

(一) WantWords介紹

基于上述“多通道反向詞典”方法,我們研發(fā)了WantWords反向詞典,(Qiet al. 2020)目前有網(wǎng)頁版(訪問地址為https://wantwords.net)和微信小程序兩個版本。

該詞典主要功能包括漢語和英語單語的反向查詞,以及漢英和英漢跨語言反向查 詞。

圖2為反向詞典系統(tǒng)的查詢結(jié)果界面示例(以漢語單語查詢?yōu)槔S脩粼谳斎肟蜉斎雽δ繕嗽~語的描述(圖中示例為“山非常高”)后點擊按鈕,即會在輸入框下方顯示工具欄以及100個最可能符合輸入描述的詞語。

工具欄由4個篩選器構(gòu)成。篩選器具體包括:(1) 詞性篩選器,包含名詞、動詞、形容詞、副詞等;(2) 字數(shù)篩選器;(3) 韻腳篩選器,基于《中華通韻》的韻腳集合;(4) 詞形篩選器,如輸入“高”可以匹配所有包含“高”字的詞。

根據(jù)候選詞語語言的不同,篩選器也略有不同,例如對于英語候選詞就沒有字數(shù)和韻腳篩選器。

這些篩選器可以幫助用戶更快地找到目標詞語,例如圖2中如果用戶想找的是形容“山非常高”的詞語,可以利用詞性篩選器去除形容詞之外其他詞性的詞語,進而更快地找到滿足需求的詞語。

圖2 反向詞典系統(tǒng)查詞結(jié)果界面

對于所有展示出的候選詞,系統(tǒng)為相關(guān)性較高的詞語添加了深淺不同的背景色,相關(guān)性越高顏色越深。此外,用戶點擊某個候選詞,系統(tǒng)會彈出一個浮動窗口,該窗口會顯示該候選詞的拼音、詞典定義等基本信息,以幫助不熟悉該詞的用戶學(xué)習(xí)、了解該詞,同時判斷該詞是否為自己所需。浮動窗口中還提供了該詞在百度漢語或維基詞典等其他在線詞典中的鏈接,方便用戶跳轉(zhuǎn)到相應(yīng)的查詢結(jié)果頁面以進一步了解該詞語。

本系統(tǒng)還設(shè)計了一套完善的用戶反饋系統(tǒng)。在每個詞語的浮動窗口中,用戶可以通過點擊或來向系統(tǒng)反饋該詞是否符合輸入的描述。在頁面的最下方,用戶還可以直接反饋自己認為的符合輸入描述的詞語,或者提出其他的意見和建議。這些反饋將會保存在數(shù)據(jù)庫中,幫助后續(xù)提升系統(tǒng)的性能。

(二) WantWords基本工作流程

圖3展示了WantWords反向詞典的系統(tǒng)運行流程。

圖3 WantWords的運行流程

在用戶輸入詞語的描述后,首先從“漢語、英語、英漢、漢英”四種模式中選擇一種。在前兩種模式(單語模式)中,如果用戶的輸入不是一個詞,那么該輸入會被送到多通道反向詞典模型中,然后為詞表中的每個候選詞計算出一個相關(guān)性分數(shù);如果用戶的輸入是一個詞,那么候選詞的相關(guān)性分數(shù)主要由輸入描述詞和候選詞的詞向量的相似度計算得到。

在后兩種模式(跨語言模式)中,我們定義輸入描述的語言為源語言,想查找的詞語的語言為目標語言。如果輸入描述的不是一個詞,我們會調(diào)用翻譯引擎將其翻譯成目標語言,然后進入目標語言單語模式的處理流程;如果輸入的是一個詞,我們會借助跨語言詞典獲得輸入詞語的目標語言定義,然后再進入目標語言的單語模式處理流程。

在獲得相關(guān)性分數(shù)后,所有的候選詞將會根據(jù)相關(guān)性分數(shù)從高到低排列,作為輸出結(jié)果。不同的篩選器可以對輸出結(jié)果進行調(diào)整。

(三) WantWords的主要創(chuàng)新點

WantWords反向詞典的創(chuàng)新點主要有以下三點。

1. WantWords是世界首個漢語反向詞典,填補了沒有漢語反向詞典的空白。這一系統(tǒng)將幫助廣大漢語學(xué)習(xí)者和使用者緩解“舌尖現(xiàn)象”“網(wǎng)絡(luò)失語癥”等問題,同時也將對提高中國的選詞性失語癥患者的生活質(zhì)量做出貢獻。

2. WantWords也是世界上首個支持跨語言查詢的反向詞典,能夠大大提高第二語言學(xué)習(xí)者的學(xué)習(xí)效率,幫忙他們回憶、鞏固初學(xué)的詞匯,學(xué)習(xí)、了解新的詞匯,同時在他們寫作時也能起到重要的輔助作用。

3. 依賴于我們提出的多通道反向詞典模型,WantWords反向詞典的英語反向查詞性能也超過了現(xiàn)有的其他英語反向詞典。

四、WantWords反向詞典的現(xiàn)狀及未來

目前WantWords的累計查詢量已經(jīng)超過1400萬次,每天的查詢量超過20萬次,受到了眾多文字表達者的喜愛。

WantWords的第二版正在研發(fā)過程中,將有以下幾點主要更新:

1. 支持更多類型詞語的查詢,包括古漢語詞、專業(yè)術(shù)語、網(wǎng)絡(luò)流行語等;

2. 支持更多的篩選器,包括褒貶性、書面語/口語、常用度;

3. 支持更豐富的查詞模式,包括根據(jù)詞語的字形、音調(diào)特征來查詞,以及更強大的近反義詞查詢功能。

此外,我們也在研發(fā)WantWords的姐妹產(chǎn)品,可以根據(jù)用戶的現(xiàn)代漢語描述來查找表達相同意思的古詩文、名言名句、歇后語等。

附注

[1] https://www.douban.com/group/715666/。

[2] https://onelook.com/thesaurus/。

[3] https://reversedictionary.org/。

[4] 義原在語言學(xué)中被定義為最小的語義單位,(Bloomfield 1926)一個詞語的語義可以由其被標注的義原所表示。

猜你喜歡
目標語言失語癥舌尖
失語癥
現(xiàn)當(dāng)代文學(xué)不承認古體詩詞與文化失語癥之關(guān)系
教材插圖在英語課堂閱讀教學(xué)中的運用及實例探討
中醫(yī)藥院校大學(xué)英語教學(xué)中“中醫(yī)文化失語癥”現(xiàn)象及應(yīng)對策略
概念任務(wù)下中英雙語者非目標語言的詞匯通達
多媒體英語學(xué)習(xí)法
失語癥