楊 暑 東
(大連理工大學(xué) 遼寧 大連 116024)
與表情有關(guān)的數(shù)字符號(hào)包含但不限于表情包(sticker)、顏文字(emoticon)和繪文字(emoji),本文研究的對(duì)象是emoji。
1982年前后日本用戶(hù)通過(guò)普通文字字符的組合將表情融合進(jìn)枯燥的文本中,至此誕生了顏文字,kaomoji是日文“顔文字”的英文假名,英文意譯為emoticon,是emotion icon的縮寫(xiě),顏文字至今還在廣泛使用,如:對(duì)不起“orz”,大長(zhǎng)腿的人說(shuō)對(duì)不起“or2”,大頭的人說(shuō)對(duì)不起“Orz”。
20世紀(jì)各大科技公司emoji編碼和視覺(jué)渲染的差異,導(dǎo)致了亂碼或emoji信息孤島[3]。為解決這一問(wèn)題,Unicode在2010年6.0版本中首次引入了emoji,即對(duì)emoji的編碼進(jìn)行了標(biāo)準(zhǔn)化,開(kāi)啟了emoji世界語(yǔ)的大門(mén)。在2020年Unicode emoji 13.0版本中共有3 304個(gè)emoji,這樣無(wú)論用戶(hù)在哪使用任何設(shè)備都可以快速輸入emoji,同時(shí)傳達(dá)思想和情緒。emoji作為網(wǎng)絡(luò)時(shí)代的交流符號(hào),豐富了網(wǎng)絡(luò)交流語(yǔ)言。
Lu等[4]認(rèn)為emoji與詞典中定義的自然語(yǔ)言相比,emoji本質(zhì)上是符號(hào)的自由組合,沒(méi)有固定的詞法和語(yǔ)法,因此emoji的自由理解和自由使用給數(shù)據(jù)分析和數(shù)據(jù)挖掘帶來(lái)了相當(dāng)大的挑戰(zhàn)。該文獻(xiàn)認(rèn)為視覺(jué)化的emoji沒(méi)有語(yǔ)言障礙,因此可在不同國(guó)家用戶(hù)之間進(jìn)行交流。受文化和年齡代際影響等,不同用戶(hù)對(duì)同一emoji可能會(huì)出現(xiàn)不同的理解與使用行為。emoji的流行程度通常遵循冪律分布,驗(yàn)證了9.3%的emoji占總使用量的90%。Coman等[5]認(rèn)為emoji的使用高度依賴(lài)于人類(lèi)用戶(hù)對(duì)emoji視覺(jué)渲染的理解。Unicode emoji在不同平臺(tái)的視覺(jué)渲染不一致[6];即使單個(gè)emoji渲染一致,但對(duì)零寬連接符的處理不一致的話(huà),所綜合出來(lái)的emoji組合也是不一致的;用戶(hù)或平臺(tái)對(duì)顏色、膚色等變換符的處理可能不一致[7],因此綜上等原因會(huì)導(dǎo)致廣泛存在的跨平臺(tái)溝通偏差問(wèn)題。
Emoji的廣泛采用是普適計(jì)算的一種有趣實(shí)踐。Evans[8]認(rèn)為非語(yǔ)言暗示是一種情感表達(dá),但是在傳統(tǒng)數(shù)字通信中,這些提示丟失了,這可能導(dǎo)致通信偏差,而emoji恰恰履行了這個(gè)功能。emoji甚至可以反映作者真正的情感極性,如果丟棄emoji,那么情感極性可能會(huì)判斷出錯(cuò),例如:“受疫情影響,我不能返校了”,根據(jù)emoji綜合判斷作者其實(shí)是正面情緒,但如果丟棄emoji則可能判斷是中性或負(fù)面情緒。emoji可以作為自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù)的補(bǔ)充,通過(guò)將emoji用法與其他上下文信息進(jìn)行綜合,更加準(zhǔn)確地了解用戶(hù)的偏好,提高網(wǎng)絡(luò)信息處理的準(zhǔn)確性。Pavalanathan等[9]研究表明,在微博領(lǐng)域,后起之秀emoji有逐漸取代顏文字之勢(shì)。
Emoji自然語(yǔ)言處理在很多領(lǐng)域都有了實(shí)際應(yīng)用,用于提高網(wǎng)絡(luò)信息處理的準(zhǔn)確性[10]和互聯(lián)網(wǎng)用戶(hù)體驗(yàn)[5]。
情緒識(shí)別。Lu等[10]對(duì)GitHub網(wǎng)絡(luò)社區(qū)的語(yǔ)料庫(kù)使用詞嵌入、SentiStrength-SE等工具來(lái)計(jì)算emoji的情感得分與情感分布,進(jìn)行情緒識(shí)別,與不使用emoji自然語(yǔ)言處理相比更有助于優(yōu)化網(wǎng)絡(luò)社區(qū)的迭代過(guò)程,以及提高Github上的協(xié)作效率。
攻擊性言語(yǔ)檢測(cè)。Hettiarachchi等[11]將emoji信息集成到膠囊網(wǎng)絡(luò)中,用于檢測(cè)攻擊性?xún)?nèi)容,與純文本自然語(yǔ)言處理相比,結(jié)合emoji的處理在識(shí)別目標(biāo)侮辱、非針對(duì)性侮辱等攻擊類(lèi)型,以及識(shí)別個(gè)人、組織等攻擊目標(biāo)的應(yīng)用上性能更佳。
Emoji預(yù)測(cè)。Coman等[5]橫向?qū)Ρ戎С窒蛄繖C(jī)、fastText、長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)四種emoji模型,根據(jù)推文來(lái)預(yù)測(cè)最相關(guān)的emoji,有助于軟鍵盤(pán)輸入法的優(yōu)化。Zhang等[12]使用遷移學(xué)習(xí)模型預(yù)測(cè)推文最有可能的emoji。
輿情監(jiān)控。Zhao等[13]將95個(gè)emoji對(duì)應(yīng)到生氣、厭惡、喜悅和悲傷4個(gè)類(lèi)標(biāo)簽,利用快速樸素貝葉斯分類(lèi)器對(duì)包含350萬(wàn)個(gè)標(biāo)記的微博語(yǔ)料進(jìn)行訓(xùn)練,并且用增量學(xué)習(xí)法來(lái)處理情感轉(zhuǎn)移和新詞問(wèn)題,進(jìn)而實(shí)現(xiàn)更精準(zhǔn)的微博實(shí)時(shí)輿情監(jiān)控。
反諷檢測(cè)。反語(yǔ)(Irony)、諷刺(Sarcasm)的修辭方式給NLP帶來(lái)了極大的復(fù)雜性,傳統(tǒng)情緒識(shí)別難以識(shí)別反諷語(yǔ)料中的實(shí)際情感,Singh等[14]利用emoji2vec將emoji的官方釋義來(lái)替換emoji,對(duì)推文進(jìn)行反諷分析。Gupta等[15]將人工神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器來(lái)訓(xùn)練emoji反諷檢測(cè)模型。
Emoji生成。在生成模型(Generative Model)大家族中,有兩個(gè)家族特別著名,分別是變分自編碼器(Variational Auto Encoder,VAE)和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)。Yamaguchi等[16]采用條件VAE基于文本輸入來(lái)自動(dòng)生成emoji。Radpour等[17]對(duì)82種常用面部emoji進(jìn)行詞嵌入,用深度卷積GAN生成emoji組合。
協(xié)同過(guò)濾的預(yù)處理。Seyednezhad等[18]通過(guò)emoji與詞匯的雙模網(wǎng)絡(luò)方法來(lái)識(shí)別emoji的潛在模式,從emoji使用習(xí)慣識(shí)別用戶(hù),用于改善后端的協(xié)同過(guò)濾推薦算法。
人機(jī)對(duì)話(huà)系統(tǒng)的用戶(hù)體驗(yàn)優(yōu)化。傳統(tǒng)的智能問(wèn)答等人機(jī)對(duì)話(huà)系統(tǒng)的訓(xùn)練用語(yǔ)料集一般是普通字符文本[19],這在判斷帶有emoji的對(duì)話(huà)時(shí)可能產(chǎn)生問(wèn)題。引入emoji處理機(jī)制可以?xún)?yōu)化智能客服系統(tǒng)[20]、聊天機(jī)器人[21]等的用戶(hù)體驗(yàn)。
含有emoji的數(shù)據(jù)集正在逐漸涌現(xiàn),以下是一些常用的emoji數(shù)據(jù)集或語(yǔ)料庫(kù)。
(1) Unicode emoji標(biāo)準(zhǔn)庫(kù),目前最新版本是2020年的Unicode emoji 13.0版,共有3 304個(gè)emoji。
(2) EmojiNet Datasets是最大的機(jī)器可讀的emoji語(yǔ)義庫(kù)[22]。在沒(méi)有附加嚴(yán)格語(yǔ)義的情況下,emoji可根據(jù)其上下文具有不同的含義。類(lèi)似于自然語(yǔ)言處理中的詞義消歧任務(wù),機(jī)器也需要對(duì)emoji進(jìn)行消歧。該數(shù)據(jù)庫(kù)的目標(biāo)是構(gòu)建工具和算法以提高emoji在機(jī)器中的可識(shí)別性。
(3) EmojifyData-EN語(yǔ)料庫(kù),包含1 800萬(wàn)條帶有emoji的推文,并對(duì)@、#Hashtag和URL等隱私數(shù)據(jù)進(jìn)行了脫敏預(yù)處理。
(4) COMP90049 2018SM1 Project 2語(yǔ)料庫(kù)是內(nèi)嵌在Kaggle競(jìng)賽中的一個(gè)小型emoji語(yǔ)料庫(kù),包含12 159條帶有emoji的推文,含有作者ID、emoji和推文文本等信息。
常用數(shù)據(jù)集信息如表1所示。
表1 常用emoji數(shù)據(jù)集
從emoji誕生、發(fā)展到成熟的進(jìn)程中,NLP在處理emoji的手法上也在逐漸發(fā)展和成熟。最原始的處理方法是將emoji視為停用詞然后舍棄;之后出現(xiàn)了文本替代法,就是將emoji的Unicode官方解釋替代emoji本身,即語(yǔ)料經(jīng)過(guò)替代的預(yù)處理之后,均是普通的文字;Wijeratne等[22]認(rèn)為同一個(gè)emoji在不同上下文中用于表達(dá)不同感覺(jué)的事實(shí)以及全世界所有語(yǔ)言都使用了emoji的事實(shí)使得將傳統(tǒng)的NLP技術(shù)應(yīng)用于它們尤其困難,于是出現(xiàn)了emoji詞嵌入、emoji神經(jīng)網(wǎng)絡(luò)模型和emoji社會(huì)網(wǎng)絡(luò)模型等處理方法。
人工智能的愿景之一是構(gòu)筑一個(gè)沒(méi)有偏差的理想世界,然而Caliskan等[23]通過(guò)實(shí)證研究發(fā)現(xiàn)機(jī)器學(xué)習(xí)能從語(yǔ)料中習(xí)得類(lèi)似人類(lèi)的偏見(jiàn),所以意識(shí)到偏差的普遍存在才能對(duì)其進(jìn)行有效的補(bǔ)償。emoji自然語(yǔ)言處理技術(shù)的發(fā)展史其實(shí)也是減弱emoji偏差的歷史,與Web偏差類(lèi)似[24],emoji偏差也存在著級(jí)聯(lián)循環(huán),抽象出emoji的偏差結(jié)構(gòu)是解決偏差問(wèn)題面臨的首要挑戰(zhàn),圖1展現(xiàn)了不同類(lèi)型的偏差如何影響emoji的使用。用戶(hù)行為偏差源自不同時(shí)代不同地域用戶(hù)的上網(wǎng)行為所產(chǎn)生的隱形偏差,導(dǎo)致用戶(hù)在Web上、不同操作系統(tǒng)上、不同軟件上行為的細(xì)微差異;不同操作系統(tǒng)、不同軟件的emoji視覺(jué)渲染會(huì)導(dǎo)致emoji渲染偏差[25];這些有偏的數(shù)據(jù)以及對(duì)數(shù)據(jù)的有偏采樣會(huì)導(dǎo)致采樣偏差;對(duì)emoji預(yù)處理的差異會(huì)導(dǎo)致預(yù)處理偏差;不同的分類(lèi)模型會(huì)產(chǎn)生不同的算法偏差;動(dòng)態(tài)的軟鍵盤(pán)設(shè)計(jì)差異和人機(jī)界面設(shè)計(jì)的差異會(huì)導(dǎo)致人機(jī)交互偏差;信息“繭房效應(yīng)”會(huì)導(dǎo)致自選擇偏差;這些積累后的偏差會(huì)產(chǎn)生新內(nèi)容或使用記錄,進(jìn)而級(jí)聯(lián)反饋到Web,再產(chǎn)生不同類(lèi)型的二階偏差。
圖1 emoji偏差模型
系統(tǒng)設(shè)計(jì)者只能解決系統(tǒng)后端和系統(tǒng)前端的一系列偏差,而如何減弱包含自選擇偏差和行為偏差在內(nèi)的用戶(hù)層面的偏差不在本研究范圍之內(nèi)。與系統(tǒng)后端偏差相比,前端偏差更加宏觀(guān),因?yàn)橐话愣?,硬件、操作系統(tǒng)等對(duì)于系統(tǒng)設(shè)計(jì)者而言屬于不可控因素,所以前端偏差的可觀(guān)可控性不如后端偏差。綜上原因,學(xué)界的研究熱點(diǎn)主要集中在如何弱化系統(tǒng)后端的偏差,包括采樣偏差、預(yù)處理偏差和算法偏差。目前主流的門(mén)類(lèi)包括簡(jiǎn)單粗暴的文本替代法、機(jī)器學(xué)習(xí)、端到端的深度學(xué)習(xí),以及另辟蹊徑的社會(huì)網(wǎng)絡(luò)分析法。
Emoji自然語(yǔ)言處理流程大致分為采樣、預(yù)處理、和分類(lèi)三個(gè)階段,各階段與emoji偏差鏈路的映射關(guān)系如圖2所示。
圖2 emoji NLP流程與偏差鏈路映射關(guān)系
采樣階段的emoji自然語(yǔ)言處理一般包括語(yǔ)料庫(kù)選擇、網(wǎng)絡(luò)爬蟲(chóng)和數(shù)據(jù)存儲(chǔ)等。語(yǔ)料庫(kù)選擇的恰當(dāng)與否直接關(guān)系著數(shù)據(jù)是否有偏。
在以下因素的共同作用下,不同采樣策略會(huì)從源頭產(chǎn)生不同采樣偏差,進(jìn)而影響語(yǔ)料處理的最終結(jié)果,比如:互聯(lián)網(wǎng)用戶(hù)能力水平不一致;互聯(lián)網(wǎng)上語(yǔ)料質(zhì)量參差不齊;互聯(lián)網(wǎng)存在大量的虛假和冗余內(nèi)容;時(shí)間序列會(huì)影響語(yǔ)料特征等。
當(dāng)沒(méi)有適合的開(kāi)源emoji語(yǔ)料庫(kù)時(shí),一般需要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工具進(jìn)行爬取才能取得[26]。受網(wǎng)站反爬取機(jī)制的影響[27],網(wǎng)絡(luò)爬蟲(chóng)所爬取的內(nèi)容已經(jīng)是有偏采樣的語(yǔ)料。采樣策略與語(yǔ)料獲取對(duì)應(yīng)于偏差鏈路的采樣偏差。
數(shù)據(jù)存儲(chǔ)涉及編碼、數(shù)據(jù)庫(kù)等問(wèn)題。Unicode于2010年發(fā)布了emoji,同年MySQL數(shù)據(jù)庫(kù)在5.5版本追加了utf8mb4編碼。utf8mb4是對(duì)utf8的一個(gè)擴(kuò)展,全面支持emoji。所以為了讓爬取出的語(yǔ)料完整地存入數(shù)據(jù)庫(kù),應(yīng)當(dāng)更換字符集為utf8mb4。當(dāng)數(shù)據(jù)庫(kù)配置不當(dāng)時(shí),有可能導(dǎo)致emoji的有偏存儲(chǔ)。
預(yù)處理階段的emoji自然語(yǔ)言處理一般包括對(duì)語(yǔ)料進(jìn)行語(yǔ)料清洗、分詞、特征提取和向量化等,此階段產(chǎn)生的偏差對(duì)應(yīng)于emoji偏差模型的預(yù)處理偏差。
語(yǔ)料清洗。原始語(yǔ)料中可能存在不一致、不完整等異常數(shù)據(jù)或敏感的、對(duì)結(jié)論無(wú)影響的隱私數(shù)據(jù)、重復(fù)出現(xiàn)的冗余數(shù)據(jù)。異常數(shù)據(jù)和冗余數(shù)據(jù)會(huì)影響后續(xù)處理的執(zhí)行效率和效果,甚至對(duì)結(jié)果產(chǎn)生偏差,而隱私信息會(huì)引起不必要的麻煩,所以預(yù)處理階段首先要進(jìn)行語(yǔ)料清洗。常見(jiàn)的清洗手段是通過(guò)正則表達(dá)式匹配,編寫(xiě)腳本按規(guī)則整理內(nèi)容,具體包括去重、對(duì)齊、刪除和標(biāo)注等。
分詞。由于emoji沒(méi)有固定的詞法和句法,比如:詞性可根據(jù)上下文變換;emoji出現(xiàn)的位置不固定;多emoji連用或單一emoji重復(fù)使用等。以上導(dǎo)致分詞變得復(fù)雜,詞典維護(hù)難。因此包括正向最大匹配法、逆向最大匹配法、雙向最大匹配法等在內(nèi)的依賴(lài)于詞典的規(guī)則分詞方法不適用于emoji分詞。隨著大規(guī)模語(yǔ)料庫(kù)的建立,基于統(tǒng)計(jì)的分詞方法逐漸成為主流,與規(guī)則分詞方法相比,統(tǒng)計(jì)分詞無(wú)須人工維護(hù)詞典,能處理歧義和未登錄詞,但分詞效果依賴(lài)于訓(xùn)練語(yǔ)料的數(shù)量和質(zhì)量,且對(duì)算力要求較大。
特征提取與向量化。對(duì)于采用非深度學(xué)習(xí)的模型,特征工程決定了后續(xù)模型性能的上限,而后續(xù)模型的優(yōu)化只是在逼近這個(gè)上限而已。去停用詞的策略根據(jù)分析目的不同而有所不同,比如感嘆號(hào)、語(yǔ)氣詞一般是被當(dāng)作停用詞刪掉的,但在情感分析場(chǎng)景下,emoji、感嘆號(hào)和語(yǔ)氣詞等是應(yīng)當(dāng)被保留的。詞性標(biāo)注(Part of Speech,POS)環(huán)節(jié)對(duì)于某些自然語(yǔ)言處理來(lái)說(shuō)是不必要的,比如文本分類(lèi),但對(duì)于情感分析、推理等應(yīng)用場(chǎng)景,一般還需要進(jìn)行詞性標(biāo)注、命名實(shí)體識(shí)別(Named Entity Recognition,NER)等處理環(huán)節(jié)。emoji位置等詞序特征是有助于分析的,所以實(shí)務(wù)中一般不采用去除詞序關(guān)系的詞袋模型(Bag of Word,BOW),而是采用向量化模型,常見(jiàn)的實(shí)例有獨(dú)熱編碼(One-Hot)、word2vec、emoji2vec、doc2vec等。其中獨(dú)熱編碼原理最簡(jiǎn)單,適合對(duì)微型語(yǔ)料進(jìn)行處理。word2vec主要包含兩個(gè)實(shí)例模型:Skip-Gram和連續(xù)詞袋模型(Continuous Bag of Words,CBOW),以及兩種高效訓(xùn)練方法:負(fù)采樣(Negative Sampling)和層次Softmax(Hierarchical Softmax)。emoji2vec[28]是對(duì)word2vec的一種補(bǔ)充,emoji2vec直接從詞典或官方釋義進(jìn)行詞嵌入,嵌入到與word2vec相同的高維空間。Illendula等[29]認(rèn)為外部知識(shí)的使用可以提高NLP任務(wù)的準(zhǔn)確性,利用外部知識(shí)來(lái)學(xué)習(xí)單詞嵌入,從而在單詞相似性和單詞類(lèi)比任務(wù)方面提供了更好的準(zhǔn)確性,emoji嵌入可以增強(qiáng)emoji預(yù)測(cè)、emoji相似度和emoji語(yǔ)義消歧任務(wù)的性能。Ramaswamy等[30]驗(yàn)證了使用現(xiàn)成的詞嵌入模型進(jìn)行預(yù)訓(xùn)練可以大大加快emoji模型的收斂速度。另外,emoji使用頻率服從長(zhǎng)尾分布,屬于不平衡分類(lèi),Ramaswamy等還驗(yàn)證了聯(lián)邦學(xué)習(xí)計(jì)算范式對(duì)稀疏數(shù)據(jù)和不平衡分類(lèi)數(shù)據(jù)有更好的適應(yīng)性。emoji在不同主題場(chǎng)景下,其含義、詞性可能發(fā)生變化,因此主題提取有助于提高NLP任務(wù)的準(zhǔn)確性,常見(jiàn)的主題模型有采用奇異值分解(Singular Value Decomposition,SVD)來(lái)蠻力破解的LSA算法、基于詞共現(xiàn)分析的LDA算法等。
這一階段的emoji自然語(yǔ)言處理一般包括模型構(gòu)建、模型訓(xùn)練和模型驗(yàn)證,此階段產(chǎn)生的偏差對(duì)應(yīng)于emoji偏差模型的算法偏差。模型訓(xùn)練的目標(biāo)是防止過(guò)擬合、欠擬合和提高泛化能力。
本階段的難點(diǎn)主要有:在主題方面,同一個(gè)句子其語(yǔ)義根據(jù)會(huì)話(huà)的主題而有所不同,Seyednezhad等[18]基于多主題方法探討emoji的情感及其類(lèi)別,其認(rèn)為emoji位置、情緒屬性、頻率、語(yǔ)義四者之間具有相關(guān)關(guān)系。在時(shí)序方面,Barbieri等[31]認(rèn)為時(shí)間序列信息能影響emoji的解釋和預(yù)測(cè),使用時(shí)間信息可以顯著提高某些emoji的準(zhǔn)確性。在隱私保護(hù)方面,Ramaswamy等[30]采用聯(lián)邦學(xué)習(xí)的策略,與服務(wù)器訓(xùn)練的模型相比,聯(lián)邦模型顯示出更好的性能,同時(shí)將用戶(hù)數(shù)據(jù)保留在其設(shè)備上。在反諷處理方面,反諷修辭方式與字面意思無(wú)關(guān),需要捕獲更深層次的語(yǔ)義信息[32],另外權(quán)威的反諷數(shù)據(jù)集較少且規(guī)模不大,所以訓(xùn)練難度較大。在上下文處理方面,由于在線(xiàn)會(huì)話(huà)中以短文本為主,文本的長(zhǎng)度限制了對(duì)上下文重要信息的捕獲。
本階段可能產(chǎn)生的偏差主要有:因模型中層次順序結(jié)構(gòu)構(gòu)建不當(dāng)所導(dǎo)致的模型結(jié)構(gòu)偏差;因梯度下降等優(yōu)化算法配置不當(dāng)所導(dǎo)致的算法偏差;因過(guò)度簡(jiǎn)化模型所導(dǎo)致的欠擬合偏差;因算力不足而影響模型性能的算力偏差;因超參數(shù)過(guò)多不能兼顧所導(dǎo)致的調(diào)參偏差;因模型訓(xùn)練時(shí)間過(guò)長(zhǎng)而不適用于當(dāng)下實(shí)際情景的時(shí)效偏差等。
對(duì)上述流程中各個(gè)環(huán)節(jié)的偏差,從整體考慮有如下偏差補(bǔ)償策略:
策略一,算力提高策略。提高算力會(huì)減弱分類(lèi)階段的算力偏差、調(diào)參偏差、時(shí)效偏差,而且只要提高算力就能起到立竿見(jiàn)影的補(bǔ)償效果。此策略適用于項(xiàng)目時(shí)間緊迫且人力資源投入緊張,但財(cái)務(wù)預(yù)算富余的情景。
策略二,端到端策略。即通過(guò)多層神經(jīng)網(wǎng)絡(luò)規(guī)避人工處理環(huán)節(jié),減少偏差鏈路的長(zhǎng)度。比如采用深度學(xué)習(xí)的方式來(lái)規(guī)避人工特征工程的環(huán)節(jié),巧妙避免人工特征工程偏差。
策略三,外包與眾包策略。比如:基于已有的、成熟的詞嵌入模型進(jìn)行訓(xùn)練會(huì)提高準(zhǔn)確率,減少詞嵌入偏差,同時(shí)會(huì)節(jié)省時(shí)間;聯(lián)邦學(xué)習(xí)可以在不交換數(shù)據(jù)的情況下共同建模[30],避免了有偏采樣。
Kopev等[33]按照應(yīng)用原理將分類(lèi)模型分為四種,分別為線(xiàn)性分類(lèi)器、非線(xiàn)性分類(lèi)器、深度學(xué)習(xí)模型和集成模型。近幾年出現(xiàn)了社會(huì)網(wǎng)絡(luò)模型分類(lèi)器,因此共分為五種類(lèi)型:
線(xiàn)性分類(lèi)器。本類(lèi)模型是參數(shù)的線(xiàn)性函數(shù),因此一般用于處理簡(jiǎn)單分類(lèi)。主要有樸素貝葉斯分類(lèi)器(Naive Bayes)、邏輯回歸模型(Logistic Regression)、線(xiàn)性核的支持向量機(jī)等。本類(lèi)模型在實(shí)務(wù)中已不多見(jiàn),因?yàn)榫€(xiàn)性分類(lèi)器的性能對(duì)特征工程的依賴(lài)程度較大,會(huì)放大特征工程偏差。
非線(xiàn)性分類(lèi)器。本類(lèi)模型是線(xiàn)性分類(lèi)器的升級(jí)版,模型分界面可以是曲面或者是超平面的組合。典型的非線(xiàn)性分類(lèi)器有決策樹(shù)、隨機(jī)森林和非線(xiàn)性核的支持向量機(jī)。
深度學(xué)習(xí)模型。深度學(xué)習(xí)是端到端偏差補(bǔ)償策略的有效實(shí)踐。含有多個(gè)隱層的感知器就是一種深度學(xué)習(xí)結(jié)構(gòu),該結(jié)構(gòu)通過(guò)組合低層特征形成更抽象的高層來(lái)表示特征。神經(jīng)網(wǎng)絡(luò)可以視為能夠擬合任意函數(shù)的黑盒,只要訓(xùn)練數(shù)據(jù)足夠多,當(dāng)給定特定的輸入,就能得到預(yù)期的輸出。Encoder-Decoder框架可以看作是處理由一個(gè)句子生成另外一個(gè)句子的通用處理框架,如圖3所示。句子對(duì)
圖3 Encoder-Decoder框架
社會(huì)網(wǎng)絡(luò)模型。主要分為emoji-詞匯雙模網(wǎng)絡(luò)、emoji共現(xiàn)網(wǎng)絡(luò)和ego network三個(gè)子類(lèi)別。
分類(lèi)器集成。是以上分類(lèi)器的組合,與包含于其中的單個(gè)分類(lèi)器相比,集成后的分類(lèi)器具有更好的泛化性能。主要的集成方式有投票、平均和排名平均等。
(1) 支持向量機(jī)。支持向量機(jī)(Support Vector Machine,SVM)的本質(zhì)是特征空間中最大化間隔的線(xiàn)性分類(lèi)器,一般僅限于線(xiàn)性可分問(wèn)題的二元分類(lèi),比如emoji情感極性判斷。SVM對(duì)缺失數(shù)據(jù)比較敏感,實(shí)務(wù)中對(duì)語(yǔ)料的預(yù)處理要求比較嚴(yán)格。SVM屬于監(jiān)督學(xué)習(xí)模型,語(yǔ)料庫(kù)需要事先進(jìn)行人工標(biāo)注,SVM對(duì)計(jì)算機(jī)算力要求較高,一般僅能處理樣本量較小的語(yǔ)料庫(kù),因此綜上SVM的應(yīng)用場(chǎng)景比較受限。另外,為規(guī)避直接在高維空間進(jìn)行計(jì)算,SVM引入了核函數(shù),擁有高斯核的SVM可以處理非線(xiàn)性可分問(wèn)題;二叉樹(shù)結(jié)構(gòu)的SVM級(jí)聯(lián)可以處理多元分類(lèi)問(wèn)題。
SVM在特定場(chǎng)景下與深度學(xué)習(xí)模型性能相當(dāng),比如??ltekin等[34]證明了在沒(méi)有預(yù)訓(xùn)練詞嵌入,也沒(méi)有訓(xùn)練詞性標(biāo)注和句法分析(Syntax Parsing)的條件下,將bag of n-grams作為特征,根據(jù)推文來(lái)預(yù)測(cè)高頻emoji,在這種場(chǎng)景下SVM比神經(jīng)網(wǎng)絡(luò)更優(yōu)秀。
(2) 邏輯回歸。邏輯回歸(Logistics Regression)的本質(zhì)也是監(jiān)督學(xué)習(xí)線(xiàn)性分類(lèi)器,原理簡(jiǎn)單,但容易出現(xiàn)過(guò)擬合。該模型假設(shè)條件較多,比如因變量為二分類(lèi)的分類(lèi)變量或某事件的發(fā)生率,并且是數(shù)值型變量;殘差和因變量都要服從二項(xiàng)分布;各觀(guān)測(cè)對(duì)象間要相互獨(dú)立;實(shí)務(wù)中樣本數(shù)量如果不到變量數(shù)量的10倍時(shí)預(yù)測(cè)性能不佳。因此綜上原因近年來(lái)邏輯回歸在emoji自然語(yǔ)言處理中應(yīng)用較少。Alhessi等[35]用邏輯回歸模型對(duì)推文進(jìn)行情感極性判斷。
(3) 隨機(jī)森林。隨機(jī)森林(Random Forest)是一種包含多個(gè)決策樹(shù)的分類(lèi)器,隨機(jī)森林中每棵決策樹(shù)都有自己的預(yù)測(cè)結(jié)果,隨機(jī)森林通過(guò)統(tǒng)計(jì)眾數(shù)作為其最終預(yù)測(cè)結(jié)果,因此魯棒性較強(qiáng),可以降低過(guò)擬合的風(fēng)險(xiǎn),但代價(jià)是需要更多的算力來(lái)進(jìn)行訓(xùn)練,即通過(guò)提高算力來(lái)進(jìn)行偏差補(bǔ)償。Guibon等[36]在真實(shí)的私人即時(shí)消息語(yǔ)料庫(kù)上使用多標(biāo)簽隨機(jī)森林模型來(lái)預(yù)測(cè)emoji,其F1分?jǐn)?shù)為84.48%,精度為95.49%。
(4) 卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在傳統(tǒng)的NLP實(shí)踐中已被證明是有效的,并且在句子分類(lèi)中取得了卓越的性能[37]。在emoji NLP領(lǐng)域,Cui等[37]探索了利用CNN訓(xùn)練含有emoji的語(yǔ)料庫(kù)進(jìn)行情感分析,并且驗(yàn)證了CNN的性能要強(qiáng)于SVM。在識(shí)別積極情緒的場(chǎng)景下,當(dāng)召回率小于0.15時(shí),CNN隨機(jī)模型性能最佳,否則SVM的性能最佳。在識(shí)別負(fù)面和中性情緒的場(chǎng)景下,CNN非靜態(tài)模型性能最佳。
(5) 膠囊網(wǎng)絡(luò)。膠囊網(wǎng)絡(luò)(Capsule Network)[38]將CNN的極限推到一個(gè)新的水平,而且比CNN所需要的訓(xùn)練集要小,但由于采用協(xié)議路由算法,訓(xùn)練模型所用的時(shí)間較多,適用于文本結(jié)構(gòu)較復(fù)雜的場(chǎng)景[39]。Hettiarachchi等[11]提出了一種具有emoji信息的膠囊網(wǎng)絡(luò)架構(gòu),用于檢測(cè)社交媒體中的冒犯性?xún)?nèi)容。詞嵌入層的輸入是字符嵌入和emoji嵌入;然后輸出到特征提取層,用于提取文本中的長(zhǎng)期記憶依賴(lài);主膠囊網(wǎng)絡(luò)層主要捕獲詞序以及語(yǔ)義;卷積膠囊層使用動(dòng)態(tài)路由算法,用于忽略文本中的停用詞;之后通過(guò)ReLU活化函數(shù)輸出到全連接層,最后通過(guò)Sigmoid函數(shù)輸出檢測(cè)結(jié)果。該系統(tǒng)具有不依賴(lài)于英語(yǔ)語(yǔ)言的特性,因此可以移植到任何其他語(yǔ)言。
(6) 循環(huán)神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)可以用來(lái)處理上下文不長(zhǎng)的自然語(yǔ)言。但RNN對(duì)時(shí)間步長(zhǎng)敏感,即RNN不具有長(zhǎng)期記憶,會(huì)受到短期記憶的影響。為解決這一問(wèn)題誕生了帶有長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和門(mén)控循環(huán)單元(Gate Recurrent Unit,GRU),它們都是RNN的變種。圖4所示為它們的內(nèi)部結(jié)構(gòu)對(duì)比。
圖4 LSTM與GRU內(nèi)部結(jié)構(gòu)圖
(7) LSTM。LSTM由Sepp Hochreiter和Jurgen Schmidhuber在1997年首次引入,直到目前還被廣泛使用,衍生出很多變種。LSTM與樸素RNN相比,追加了輸入門(mén)和遺忘門(mén)來(lái)解決梯度消失和梯度爆炸的問(wèn)題,從而可以捕捉到遠(yuǎn)程信息,能夠在長(zhǎng)序列文本中有更好的性能表現(xiàn)。
Ramaswamy等[30]在LSTM基礎(chǔ)之上進(jìn)行了改進(jìn),將輸入門(mén)與遺忘門(mén)進(jìn)行耦合,與樸素LSTM相比,這種耦合關(guān)系將每個(gè)單元的參數(shù)數(shù)量減少了25%,并用此LSTM的變種在聯(lián)邦學(xué)習(xí)的計(jì)算范式下進(jìn)行emoji預(yù)測(cè)。Xie等[40]也在LSTM基礎(chǔ)上進(jìn)行了改進(jìn),利用層次化LSTM來(lái)構(gòu)造多回合對(duì)話(huà)表示,可以很好地捕捉多回合對(duì)話(huà)中的上下文信息和情感流,并推薦相應(yīng)的emoji。樸素LSTM將多人多回合對(duì)話(huà)視為長(zhǎng)單詞序列,這種扁平化操作會(huì)破壞多人對(duì)話(huà)的層次結(jié)構(gòu)。如圖5所示,層次化LSTM利用分層的LSTM分別學(xué)習(xí)每個(gè)句子的表示形式。
圖5 LSTM應(yīng)用于多回合對(duì)話(huà)表示的模型
(8) CNN+LSTM和LSTM+CNN。LSTM與CNN神經(jīng)網(wǎng)絡(luò)都可以用來(lái)進(jìn)行文本分類(lèi)。LSTM在文本分類(lèi)中的作用是提取句子的關(guān)鍵語(yǔ)義信息,根據(jù)提取的語(yǔ)義對(duì)文本進(jìn)行分類(lèi);而CNN的作用是提取文本特征,根據(jù)特征進(jìn)行分類(lèi)。LSTM與CNN可以相結(jié)合,CNN+LSTM模型首先進(jìn)行關(guān)鍵特征提取,然后提取文本關(guān)鍵語(yǔ)義信息;LSTM+CNN模型首先提取文本關(guān)鍵語(yǔ)義信息,然后對(duì)語(yǔ)義進(jìn)行關(guān)鍵特征提取。
Sosa等[41]探索了CNN+LSTM、LSTM+CNN兩種模型,CNN-LSTM模型的前端由初始卷積層組成,接收詞嵌入作為其輸入,卷積層提取局部特征,將輸出匯集到一個(gè)較小的維度,然后輸出到LSTM層,LSTM層能夠使用這些特征來(lái)了解輸入的文本排序。經(jīng)驗(yàn)證,該模型不如LSTM-CNN模型性能佳,甚至比樸素的LSTM模型還差,原因是CNN+LSTM模型前端的卷積層丟失了部分文本序列中的重要信息,而后端的LSTM層僅充當(dāng)著全連接層的作用,本偏差屬于偏差鏈路中的模型結(jié)構(gòu)偏差。
Wu等[42]結(jié)合了LSTM和CNN捕獲局部的和遠(yuǎn)程的上下文信息,以進(jìn)行推文表示。LSTM-CNN模型的前端是LSTM層,它將接收推文中每一個(gè)令牌的詞嵌入作為輸入,它輸出的令牌不僅僅存儲(chǔ)初始令牌的信息,還存儲(chǔ)任何先前的令牌。LSTM層為原始輸入生成一個(gè)新的編碼,然后LSTM層輸出到期望可以提取局部特征的卷積層中,卷積層的輸出將被匯集到一個(gè)較小的緯度,最終輸出情感極性標(biāo)簽。
(9) 引入注意力機(jī)制的LSTM。深度學(xué)習(xí)中的注意力機(jī)制借鑒于人類(lèi)視覺(jué)的注意力機(jī)制,是利用有限的注意力資源從大量信息中快速篩選出高價(jià)值信息,并且忽略低價(jià)值信息的機(jī)制,能極大地提高信息處理的效率與準(zhǔn)確性,主要用于文本翻譯、圖像描述、語(yǔ)義蘊(yùn)含、語(yǔ)音識(shí)別和文本摘要等。
前文的Encoder-Decoder框架是沒(méi)有體現(xiàn)注意力機(jī)制的。Target中每個(gè)詞的生成過(guò)程:y1=d(C),y2=d(C,y1),y3=d(C,y1,y2)。d()是Decoder的非線(xiàn)性變換函數(shù),可觀(guān)測(cè)到在生成目標(biāo)句子的詞時(shí),不論生成哪個(gè)詞,它們使用的輸入句子Source的語(yǔ)義編碼C都是一樣的,沒(méi)有任何區(qū)別。沒(méi)有注意力機(jī)制的模型對(duì)短句影響不大,但在長(zhǎng)句的情境下會(huì)丟失很多關(guān)鍵詞信息。Attention模型將固定的中間語(yǔ)義編碼C替換為根據(jù)當(dāng)前輸出詞來(lái)調(diào)整成加入注意力機(jī)制的變化的Ci。增加了注意力機(jī)制的Encoder-Decoder框架如圖6所示。
圖6 引入注意力機(jī)制的Encoder-Decoder框架
對(duì)于采用RNN及其變種的Decoder來(lái)說(shuō),通過(guò)函數(shù)F(hj,Hi-1)來(lái)獲得目標(biāo)單詞Yi和每個(gè)輸入單詞對(duì)應(yīng)的對(duì)齊概率,這個(gè)F函數(shù)在不同模型里采取不同的方法,然后函數(shù)F的輸出經(jīng)過(guò)Softmax進(jìn)行歸一化就得到了符合概率分布取值區(qū)間的注意力分配概率分布,原理如圖7所示。
圖7 注意力分配概率分布原理圖
Barbieri等[31]研究了時(shí)間序列是否以及如何影響emoji的解釋和預(yù)測(cè)。其結(jié)論是使用時(shí)間信息可以顯著提高某些emoji的準(zhǔn)確性,時(shí)序信息處理的位置越靠前,數(shù)據(jù)越完美。Barbieri等[43]使用標(biāo)簽機(jī)制來(lái)分析分類(lèi)器的行為,利用注意力權(quán)重來(lái)發(fā)現(xiàn)和解釋emoji的用法,通過(guò)實(shí)驗(yàn)比較標(biāo)簽機(jī)制對(duì)emoji分類(lèi)器性能的影響。研究發(fā)現(xiàn)線(xiàn)性分類(lèi)器、非線(xiàn)性分類(lèi)器能夠預(yù)測(cè)常用的emoji,但對(duì)于不常見(jiàn)的emoji預(yù)測(cè)準(zhǔn)確性偏低。實(shí)踐證明標(biāo)簽式注意力機(jī)制可改善低頻emoji預(yù)測(cè)。
(10) Bi-GRU。GRU的輸入輸出結(jié)構(gòu)與樸素RNN相似,但其內(nèi)部結(jié)構(gòu)與LSTM相似。GRU使用一個(gè)門(mén)控就可以進(jìn)行遺忘和選擇記憶,參數(shù)也較少,而LSTM則要使用更多的門(mén)控和更多的參數(shù)才能完成同樣的任務(wù),因此GRU比LSTM更容易進(jìn)行訓(xùn)練,而且GRU在較小數(shù)據(jù)集上比LSTM表現(xiàn)出更好的性能[11]。在實(shí)務(wù)中,考慮到算力和計(jì)算時(shí)間成本,越來(lái)越多的研究者選擇更實(shí)用的GRU。
GRU無(wú)法對(duì)從后向前的信息進(jìn)行編碼。在分類(lèi)粒度更細(xì)的場(chǎng)景下,比如對(duì)于強(qiáng)褒義、弱褒義、中性、弱貶義和強(qiáng)貶義的五分類(lèi)任務(wù)需要注意程度詞、情感詞、否定詞之間的交互。雙向門(mén)控循環(huán)單元(Bi-directional Gate Recurrent Unit,Bi-GRU)解決了這個(gè)問(wèn)題,Bi-GRU由前向與后向GRU疊加組合而成,可更好地捕捉雙向語(yǔ)義依賴(lài)。Bi-GRU可以在每個(gè)時(shí)間步長(zhǎng)向前和向后連接句子矩陣向量,以獲得更完整的句子信息[44],因此Bi-GRU通常比GRU效果更好,但代價(jià)是訓(xùn)練更費(fèi)時(shí)。
Wang等[45]利用具有注意機(jī)制的Bi-GRU來(lái)構(gòu)建emoji預(yù)測(cè)基礎(chǔ)模型,如圖8所示。然后采用融合集成的方法進(jìn)行模型強(qiáng)化,即使用重新加權(quán)的方法迭代訓(xùn)練基礎(chǔ)模型,每個(gè)回合的權(quán)重分布取決于前一輪模型預(yù)測(cè)結(jié)果。最后,為獲得最佳性能,系統(tǒng)中還對(duì)比了軟投票和硬投票的性能。軟投票是每個(gè)預(yù)測(cè)模型輸出所有類(lèi)別的概率向量,并且對(duì)投票模型進(jìn)行平均加權(quán)以便對(duì)最終的概率向量進(jìn)行分類(lèi)。硬投票是每個(gè)模型輸出其認(rèn)為最可能的類(lèi)別,投票模型從中選擇投票模型數(shù)量最多的類(lèi)別作為最終分類(lèi)。從最常用的20個(gè)emoji中選擇1個(gè)作為預(yù)測(cè)結(jié)果,這種場(chǎng)景下emoji類(lèi)標(biāo)簽不屬于長(zhǎng)尾分布,Wang等驗(yàn)證了在該場(chǎng)景下軟投票的效果要優(yōu)于硬投票。如果類(lèi)標(biāo)簽服從長(zhǎng)尾分布,即類(lèi)不平衡(Class Imbalance)的場(chǎng)景下不能使用強(qiáng)化算法。
圖8 Bi-GRU分類(lèi)器系統(tǒng)架構(gòu)圖
(11) 社會(huì)網(wǎng)絡(luò)分析。社會(huì)網(wǎng)絡(luò)分析(Social Network Analysis,SNA)是基于圖論、社會(huì)學(xué)和管理學(xué)等多學(xué)科融合的理論和方法,為理解復(fù)雜網(wǎng)絡(luò)的形成、行為模式等提供了一種可計(jì)算的分析工具[46]。SNA在emoji自然語(yǔ)義分析中屬于冷門(mén)領(lǐng)域,另辟蹊徑地開(kāi)創(chuàng)了新的研究范式,因?yàn)樾枰獦?gòu)筑詞網(wǎng),一般適合于社交平臺(tái)的語(yǔ)料分析。目前有三種主流模型:emoji-詞匯雙模網(wǎng)絡(luò)模型、emoji共現(xiàn)網(wǎng)絡(luò)模型、ego network模型,其中前兩種屬于整體網(wǎng),后一種屬于自我中心網(wǎng)(ego network),屬于整體網(wǎng)的一部分,側(cè)重于研究單個(gè)節(jié)點(diǎn)的性質(zhì)[47]。Unicode聯(lián)盟為每個(gè)emoji提供了官方文本描述,然而用戶(hù)并不會(huì)參考官方手冊(cè),所以基于emoji Unicode官方文本描述的研究方法在采樣階段都或多或少地引入偏差,而SNA研究范式不依賴(lài)于emoji Unicode官方文本描述,巧妙地規(guī)避了這部分采樣偏差。
Emoji-詞匯雙模網(wǎng)絡(luò)。雙模網(wǎng)絡(luò)是指在同一網(wǎng)絡(luò)下存在兩種不同類(lèi)型節(jié)點(diǎn)的復(fù)雜網(wǎng)絡(luò),多模網(wǎng)絡(luò)研究屬于網(wǎng)絡(luò)科學(xué)的前沿領(lǐng)域,emoji-詞匯雙模網(wǎng)絡(luò)將emoji與其他普通詞匯視為兩種不同的節(jié)點(diǎn),是研究emoji與詞匯關(guān)系的有力工具之一。Seyednezhad等[18]認(rèn)為同一個(gè)句子其語(yǔ)義根據(jù)會(huì)話(huà)的主題而有所不同,并基于多主題方法探討emoji的情感及其類(lèi)別。其認(rèn)為emoji位置、情緒屬性、頻率和語(yǔ)義四者之間具有相關(guān)關(guān)系,通過(guò)emoji-詞匯的雙模網(wǎng)絡(luò)方法來(lái)識(shí)別emoji的潛在模式。首先從至少包含一個(gè)emoji的推文中提取emoji和詞匯,再構(gòu)建一個(gè)emoji和詞匯的雙模網(wǎng)絡(luò),最后使用SNA來(lái)分析emoji的語(yǔ)義和情感極性。emoji的語(yǔ)義由與該emoji關(guān)聯(lián)詞匯的詞頻決定,這種方法巧妙地規(guī)避了詞典訓(xùn)練環(huán)節(jié),因此避免了中間環(huán)節(jié)可能會(huì)產(chǎn)生的偏差。
Emoji共現(xiàn)網(wǎng)絡(luò)。共現(xiàn)指對(duì)語(yǔ)料信息中特征項(xiàng)描述的信息共同出現(xiàn)的現(xiàn)象,而共現(xiàn)分析是對(duì)共現(xiàn)現(xiàn)象的定量研究,以揭示語(yǔ)料信息的內(nèi)容關(guān)聯(lián)和特征項(xiàng)所隱含的知識(shí),其中一種工具就是共現(xiàn)網(wǎng)絡(luò),屬于SNA的研究范疇。共現(xiàn)分析包含文獻(xiàn)耦合、共詞分析、共鏈分析等子領(lǐng)域,其中共詞分析的研究對(duì)象是同一語(yǔ)料中同時(shí)出現(xiàn)的詞匯對(duì)[48],emoji共現(xiàn)網(wǎng)絡(luò)是供詞分析的一個(gè)比較前沿的研究方向。NLP系統(tǒng)主要使用從word2vec或GloVe或fastText獲得預(yù)訓(xùn)練的詞嵌入,Illendula等[29]認(rèn)為外部知識(shí)的使用可以提高NLP任務(wù)的準(zhǔn)確性,利用emoji共現(xiàn)網(wǎng)絡(luò)用作訓(xùn)練emoji嵌入,可以增強(qiáng)emoji預(yù)測(cè)、emoji相似度和emoji語(yǔ)義消歧任務(wù)的性能。Illendula等采用圖嵌入模型,有助于縮放來(lái)自大規(guī)模信息網(wǎng)絡(luò)的信息,并將其嵌入到有限維向量空間中。
Ego network。ego network網(wǎng)絡(luò)節(jié)點(diǎn)由唯一的一個(gè)中心節(jié)點(diǎn)(ego),以及該節(jié)點(diǎn)的鄰居(alter)組成,ego network中的邊包含ego與alter之間的邊,還有alter與alter之間的邊。在emoji語(yǔ)義分析領(lǐng)域,將某一emoji視為ego,從語(yǔ)料庫(kù)構(gòu)建emoji與單詞的ego network,用上下文的特征來(lái)表征emoji的語(yǔ)義。
Zimmermann等[49]認(rèn)為基于ego network可以提取與emoji語(yǔ)義相關(guān)的網(wǎng)絡(luò)屬性特征,包括但不限于Size、Ties、Pairs和Density等屬性。
Ai等[50]使用LINE詞嵌入模型來(lái)訓(xùn)練單詞和emoji嵌入,構(gòu)建共現(xiàn)網(wǎng)絡(luò)來(lái)表示語(yǔ)義結(jié)構(gòu),通過(guò)計(jì)算嵌入空間中令牌間的歐氏距離來(lái)度量語(yǔ)義相似度,所以L(fǎng)INE嵌入可以在語(yǔ)義上找到相似的令牌,最近鄰居關(guān)系可以表示為kNN圖,借助kNN圖和ego network的結(jié)構(gòu)特性來(lái)刻畫(huà)emoji和單詞之間的語(yǔ)義關(guān)系。
沒(méi)有最好的分類(lèi)模型,只有根據(jù)使用場(chǎng)景選擇最適合的分類(lèi)模型[51],表2是對(duì)上文模型的整理。
表2 各分類(lèi)器橫向比較
綜上,結(jié)合emoji語(yǔ)義和情感的機(jī)器學(xué)習(xí)應(yīng)用,可以提高網(wǎng)絡(luò)信息處理的準(zhǔn)確性。emoji作為網(wǎng)絡(luò)時(shí)代的交流符號(hào),豐富了網(wǎng)絡(luò)交流語(yǔ)言,也豐富了人類(lèi)用戶(hù)的表達(dá)和溝通能力,能夠表達(dá)自己的情緒并引起同理心,使用戶(hù)成為更好的溝通者[8],但與此同時(shí)emoji也為自然語(yǔ)言處理帶來(lái)了復(fù)雜性。為了最大限度地發(fā)揮emoji對(duì)社會(huì)的潛在價(jià)值,需要考慮很多因素,未來(lái)的挑戰(zhàn)也是多方面的。
第一,emoji自然語(yǔ)言處理需要與更多的學(xué)科緊密結(jié)合。emoji是一個(gè)誕生時(shí)間不長(zhǎng),卻在全球都有普遍使用的新文字,眾口難調(diào)是必然的,emoji將與用戶(hù)一起不斷進(jìn)化,互為因果,僅靠NLP技術(shù)不足以應(yīng)對(duì)這種復(fù)雜性,因此研究領(lǐng)域?qū)U(kuò)大到多學(xué)科交叉領(lǐng)域,尤其是非技術(shù)領(lǐng)域,比如傳播學(xué)、社會(huì)學(xué)、符號(hào)學(xué)、行為設(shè)計(jì)學(xué)等。大學(xué)、互聯(lián)網(wǎng)巨頭和資助機(jī)構(gòu)可以在跨學(xué)科研究中起到重要作用。
第二,emoji與其他文字有著本質(zhì)不同。在書(shū)寫(xiě)方面,emoji是不能被廣泛書(shū)寫(xiě)的文字,因此常規(guī)的語(yǔ)言處理方法可能因emoji失效。在數(shù)量方面,Unicode emoji存量眾多,每年還會(huì)產(chǎn)生一定的增量,并占據(jù)Unicode新的編碼點(diǎn),所以要避免過(guò)度引入新的emoji。在外部性方面,作為全球共用的emoji,可能會(huì)關(guān)系到某些國(guó)家和地區(qū)敏感的道德、法律、宗教和文化等因素[52],這可能會(huì)給本類(lèi)研究人員帶來(lái)法律或道德問(wèn)題,甚至阻礙這一類(lèi)研究。
第三,emoji呈現(xiàn)標(biāo)準(zhǔn)化趨勢(shì)。emoji是自下而上的設(shè)計(jì),在細(xì)節(jié)之處難免存在著缺陷和為彌補(bǔ)此缺陷而顛簸的設(shè)計(jì),又因路徑依賴(lài)不容易回滾,因此帶來(lái)的固有偏差可能將長(zhǎng)期存在。但縱觀(guān)歷史,從20世紀(jì)90年代的emoji信息孤島,到2010年統(tǒng)一碼聯(lián)盟將emoji統(tǒng)一編碼,再到2015年出現(xiàn)了emoji國(guó)際標(biāo)準(zhǔn)第一版,一旦emoji的視覺(jué)渲染被標(biāo)準(zhǔn)化,即圖標(biāo)標(biāo)準(zhǔn)化,那么emoji自然語(yǔ)言處理的難度將大幅下降。
第四,emoji隱私計(jì)算生態(tài)逐漸形成。隨著公眾隱私保護(hù)意識(shí)的養(yǎng)成、相關(guān)法律法規(guī)的逐步完善,在不泄露用戶(hù)隱私且符合數(shù)據(jù)安全保護(hù)的原則下進(jìn)行emoji自然語(yǔ)言處理已成為必然,聯(lián)邦學(xué)習(xí)范式提供了可行的解決方案[53],在企業(yè)各自數(shù)據(jù)不出本地的前提下,通過(guò)加密實(shí)現(xiàn)參數(shù)交換與優(yōu)化,建立虛擬的共有學(xué)習(xí)模型。