趙威 林煜明 黃濤貽 李優(yōu)
摘 要:用戶評(píng)論包含了豐富的用戶觀點(diǎn)信息,對(duì)潛在的顧客和商家具有重要的參考價(jià)值。觀點(diǎn)目標(biāo)和觀點(diǎn)詞作為用戶評(píng)論中的核心對(duì)象,它們的自動(dòng)抽取是用戶評(píng)論智能化應(yīng)用的一項(xiàng)核心工作。目前主要采用有監(jiān)督的抽取方法解決該問(wèn)題,這些方法依賴于利用高質(zhì)量的標(biāo)注樣本進(jìn)行模型訓(xùn)練,而傳統(tǒng)人工標(biāo)注樣本的方法不僅耗時(shí)費(fèi)力,且標(biāo)注成本高。眾包計(jì)算為構(gòu)建高質(zhì)量訓(xùn)練樣本集提供了一種有效途徑,然而,眾包工作者由于知識(shí)背景等因素使得標(biāo)注結(jié)果的質(zhì)量參差不齊。為了在有限的成本下獲取高質(zhì)量的標(biāo)注樣本,提出一種基于工作者專業(yè)水平評(píng)估的自適應(yīng)眾包標(biāo)注方法,構(gòu)建可靠的觀點(diǎn)目標(biāo)觀點(diǎn)詞數(shù)據(jù)集。首先,通過(guò)小成本挖掘出高專業(yè)水平的工作者;然后,設(shè)計(jì)一種基于工作者可靠性的任務(wù)分發(fā)機(jī)制;最后,利用觀點(diǎn)目標(biāo)和觀點(diǎn)詞間的依賴關(guān)系設(shè)計(jì)了一種有效的標(biāo)注結(jié)果融合算法,通過(guò)整合不同工作者的標(biāo)注結(jié)果生成最終可靠的結(jié)果。在真實(shí)數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗(yàn)表明,與GLAD模型和多數(shù)投票(MV)算法方法相比,所提方法能夠在成本預(yù)算較小的情況下將構(gòu)建出的高質(zhì)量觀點(diǎn)目標(biāo)觀點(diǎn)詞數(shù)據(jù)集的可靠性提高10%左右。
關(guān)鍵詞:觀點(diǎn)挖掘;眾包計(jì)算;成本約束; 工作者檢測(cè);數(shù)據(jù)整合
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
Abstract: User reviews contain a wealth of user opinion information which has great reference value to potential customers and merchants. Opinion targets and opinion words are core objects of user reviews, so the automatic extraction of them is a key work for user review intelligent applications. At present, the problem is solved mainly by supervised extraction method, which depends on high quality labeled samples to train the model. And traditional manual labeling method is timeconsuming, laborious and costly. Crowdsourcing calculation provides an effective way to build a highquality training sample set. However, the quality of the labeling results is uneven due to some factors such as knowledge background of the workers. To obtain highquality labeling samples at a limited cost, an adaptive crowdsourcing labeling method based on professional level evaluation of workers was proposed to construct a reliable dataset of opinion targetopinion words. Firstly, high professional level workers were digged out with small cost. And then, a task distribution mechanism based on worker reliability was designed. Finally, an effective fusion algorithm for labeling results was designed by using the dependency relationship between opinion targets and opinion words, and the final reliable results were generated by integrating the labeling results of different workers. A series of experiments on real datasets show that the reliability of high quality opinion targetopinion word dataset built by the proposed method can be improved by about 10%, compared with GLAD (Generative model of Labels, Abilities, and Difficulties) model and MV (Majority Vote) method when the cost budget is low.
英文關(guān)鍵詞Key words: opinion mining; crowdsourcing calculation; cost constraint; worker measurement; data integration
0 引言
在線評(píng)論由于包含了豐富的用戶觀點(diǎn)信息,因此對(duì)于潛在的用戶、生產(chǎn)廠商和服務(wù)商具有重要的參考價(jià)值; 然而,隨著評(píng)論的數(shù)據(jù)量急劇增長(zhǎng),人工分析評(píng)論已經(jīng)變得不現(xiàn)實(shí)。觀點(diǎn)挖掘(Opinion Mining),又稱為情感分析,其目標(biāo)是自動(dòng)分析用戶在各種媒介中表達(dá)的觀點(diǎn)。相對(duì)于粗粒度的觀點(diǎn)挖掘(如文檔級(jí)別的),細(xì)粒度的觀點(diǎn)挖掘技術(shù)能夠更深入和細(xì)致地識(shí)別用戶的觀點(diǎn),在近幾年受到越來(lái)越多的關(guān)注。
觀點(diǎn)目標(biāo)和觀點(diǎn)詞是用戶觀點(diǎn)表達(dá)的核心對(duì)象。圖1中給出了一個(gè)關(guān)于手機(jī)的評(píng)論句子,實(shí)線框描述了觀點(diǎn)目標(biāo),虛線框?yàn)橛^點(diǎn)詞,箭頭觀點(diǎn)的依賴關(guān)系。由此可見(jiàn),觀點(diǎn)目標(biāo)和觀點(diǎn)詞承載了這句話中絕大部分用戶的觀點(diǎn)信息,因此,觀點(diǎn)詞對(duì)的自動(dòng)識(shí)別是細(xì)粒度觀點(diǎn)挖掘的關(guān)鍵任務(wù)之一。本文將觀點(diǎn)目標(biāo)和觀點(diǎn)詞簡(jiǎn)稱為觀點(diǎn)詞對(duì),并用二元組(觀點(diǎn)目標(biāo),觀點(diǎn)詞)表示。圖1的例子包含了兩個(gè)觀點(diǎn)詞對(duì):(運(yùn)行速度, 棒)和(音質(zhì),差)。
在已有的工作中,有監(jiān)督的觀點(diǎn)詞對(duì)抽取方法展現(xiàn)出了較好的效果[1-3],然而,這些方法需要大量高質(zhì)量標(biāo)注的樣本訓(xùn)練抽取模型。人工標(biāo)注樣本是一個(gè)費(fèi)力、易錯(cuò)和耗時(shí)的過(guò)程。眾包利用在線集體智慧解決計(jì)算機(jī)不能勝任的任務(wù),它為機(jī)器學(xué)習(xí)技術(shù)構(gòu)建訓(xùn)練集提供了一種有效的途徑[4-7]。之前利用眾包計(jì)算構(gòu)建訓(xùn)練集的工作大部分采用一次性標(biāo)注的方式收集不同工作者的標(biāo)注結(jié)果,然后通過(guò)一些復(fù)雜的模型生成最后的結(jié)果,例如EM(ExpectationMaximization)算法模型[8]、貝葉斯方法模型[9]、馬爾可夫決策過(guò)程[10]等。這類方法主要是考慮到在公共開(kāi)放的過(guò)程中每個(gè)工作者的機(jī)會(huì)均等,本文認(rèn)為這種采用冗余標(biāo)注來(lái)提高最終標(biāo)注結(jié)果質(zhì)量的方式會(huì)增加額外的標(biāo)注成本。
目前,一些眾包平臺(tái)提供了指定工作者的任務(wù)發(fā)布機(jī)制,如Crowdsprint(http://crowdspring.com/)、CrowdFlower(http://make.crowdower.com/)和mircoWorkers(http://microworkers.com/)。在這種情況下,如果能夠預(yù)先評(píng)估工作者的標(biāo)注質(zhì)量,將有效地降低標(biāo)注成本,為此本文提出了一種自適應(yīng)的眾包標(biāo)注方法來(lái)構(gòu)建觀點(diǎn)詞對(duì)標(biāo)注樣本集。首先,評(píng)估工作者的專業(yè)水平;然后,將剩余的標(biāo)注任務(wù)少量重復(fù)分發(fā)給高專業(yè)水平的工作者;最后,基于工作者的專業(yè)水平程度和觀點(diǎn)目標(biāo)和觀點(diǎn)詞間的依賴關(guān)系融合不同的標(biāo)注結(jié)果產(chǎn)生最終的標(biāo)注結(jié)果。總體而言,本文的主要貢獻(xiàn)如下:
1)提出了一種基于工作者專業(yè)水平評(píng)估的眾包任務(wù)分配策略,通過(guò)小成本挖掘出高質(zhì)量的眾包工作者;
2)提出了一種面向用戶評(píng)論觀點(diǎn)詞對(duì)標(biāo)注的眾包任務(wù)分發(fā)機(jī)制,并設(shè)計(jì)了一種基于觀點(diǎn)目標(biāo)和觀點(diǎn)詞依賴關(guān)系的標(biāo)注結(jié)果融合算法,生成可靠的標(biāo)注結(jié)果;
3)在真實(shí)數(shù)據(jù)集上通過(guò)一系列的實(shí)驗(yàn)驗(yàn)證了文中提出方法的有效性。與傳統(tǒng)眾包標(biāo)記方法相比,本文方法能夠在有限成本下收集到更高質(zhì)量的標(biāo)注結(jié)果。
1 相關(guān)工作
對(duì)于眾包的研究工作主要集中在兩個(gè)方面,分別是任務(wù)的設(shè)計(jì)與發(fā)放和任務(wù)數(shù)據(jù)整合。任務(wù)的設(shè)計(jì)與發(fā)放的主要內(nèi)容是形成眾包任務(wù)的框架,便于對(duì)之后的任務(wù)數(shù)據(jù)整合和成本進(jìn)行控制,并在一定程度上提高工作者的工作質(zhì)量。眾包模式更適合于解決微觀任務(wù),因此為了利用眾包解決復(fù)雜任務(wù),需要將復(fù)雜的任務(wù)分解成微觀任務(wù),這是由于眾包工作者更喜歡完成一些粒度較小的任務(wù),因?yàn)檫@種任務(wù)可以在很短時(shí)間內(nèi)完成,同時(shí)單個(gè)微觀任務(wù)的成本也是比較低的[11]。
相對(duì)于傳統(tǒng)的實(shí)時(shí)眾包模式,Chang等[6]對(duì)其進(jìn)行了一些改進(jìn),不再將雇傭者放入到單一的共享工作環(huán)境當(dāng)中,而是將眾包任務(wù)分成不同的階段,動(dòng)態(tài)地將這些工作者分配到合適的任務(wù)階段當(dāng)中,不同階段中工作者的結(jié)果相互影響,以便更好地對(duì)工作進(jìn)行調(diào)控。毛鶯池等[12]在任務(wù)分配過(guò)程中,結(jié)合空間眾包中多類型任務(wù)和用戶的特點(diǎn),對(duì)貪婪分配算法改進(jìn)后,將任務(wù)分配給附近的用戶,以提高任務(wù)完成質(zhì)量。施戰(zhàn)等[13]設(shè)計(jì)了一種基于歷史信息的用戶可靠性更新機(jī)制,用戶可靠性的更新由用戶歷史可靠性和當(dāng)前完成任務(wù)的質(zhì)量?jī)刹糠譀Q定,并將支付給用戶的最終報(bào)酬與用戶的可靠性掛鉤,以激勵(lì)用戶持續(xù)高質(zhì)量地完成任務(wù)。
眾包任務(wù)數(shù)據(jù)整合面臨的最大挑戰(zhàn)是如何處理工作者提供的質(zhì)量參差不齊的眾包結(jié)果,最直接的方法是先把一個(gè)任務(wù)分配給多個(gè)工作者,工作者完成之后利用多數(shù)投票的原則來(lái)獲取到最終結(jié)果,但這種方式?jīng)]有考慮到工作者工作質(zhì)量的多樣性特點(diǎn)。針對(duì)這一問(wèn)題,一些研究作了相關(guān)改進(jìn),將工作者的專業(yè)性加入到結(jié)果的估計(jì)之中,使得最終的結(jié)果質(zhì)量得到了很大的提升[11]。
Liu等 [14]通過(guò)增加測(cè)試題目得到工作者的專業(yè)性,并利用貝葉斯理論將工作者的專業(yè)水平和工作者給出的任務(wù)答案結(jié)合起來(lái)得到最終的結(jié)果;Chang等[6]在得到工作者的反饋結(jié)果后,利用TFIDF(Term FrequencyInverse Document Frequency)的思想對(duì)反饋結(jié)果進(jìn)行向量化,每個(gè)維度代表了對(duì)于工作結(jié)果具有相同解釋內(nèi)容的數(shù)量,并利用余弦相似度將向量化后的反饋結(jié)果進(jìn)行聚類,最終得到幾組不同類別的工作結(jié)果;Omar等[15]將眾包應(yīng)用到了翻譯領(lǐng)域,將一些翻譯領(lǐng)域的基礎(chǔ)知識(shí)、特定句子翻譯特點(diǎn)和一些常用于判斷句子翻譯的計(jì)算特征相結(jié)合進(jìn)行向量化,并使用一些機(jī)器學(xué)習(xí)的評(píng)估手段來(lái)評(píng)估工作者的翻譯結(jié)果,最終找出與原句子最佳的翻譯結(jié)果;Jacob等[16]在數(shù)據(jù)整合方面考慮了工作者的專業(yè)水平和任務(wù)復(fù)雜度對(duì)任務(wù)結(jié)果的影響,并利用EM算法對(duì)評(píng)估模型進(jìn)行訓(xùn)練直到找到一組能夠達(dá)到最大似然估計(jì)的任務(wù)結(jié)果;Raykar等[8]設(shè)計(jì)了一種最大似然分類評(píng)估器,該分類器的基本分類器由邏輯回歸分類器組成,通過(guò)結(jié)合真實(shí)的標(biāo)注結(jié)果來(lái)提高標(biāo)注的精度,該方法可以找出該領(lǐng)域工作質(zhì)量最高的工作者并分配給他們更高的權(quán)重值,最后通過(guò)EM算法不停地迭代形成一個(gè)用來(lái)評(píng)估工作者專業(yè)水平的最佳邊界值。
上述工作都是將任務(wù)發(fā)放的過(guò)程和數(shù)據(jù)整合分開(kāi)進(jìn)行,還有一些典型的研究工作將這兩部分的過(guò)程整合在一起交叉進(jìn)行。Snow等[17]將任務(wù)數(shù)據(jù)的整合過(guò)程結(jié)合到了任務(wù)的設(shè)計(jì)與發(fā)放當(dāng)中,即在任務(wù)設(shè)計(jì)時(shí)就考慮到利用測(cè)試集來(lái)對(duì)工作者的專業(yè)水平進(jìn)行評(píng)估,然后利用眾包平臺(tái)過(guò)濾掉低專業(yè)水平工作者的工作結(jié)果;Xi等[10]提出可以根據(jù)MDP(Markov Decision Process)模型與動(dòng)態(tài)規(guī)劃的思想,將KG(KnowledgeGradient)相似策略和條件風(fēng)險(xiǎn)價(jià)值度量相結(jié)合,在避免了低專業(yè)水平工作者帶來(lái)影響的同時(shí)尋找出最佳的眾包任務(wù)設(shè)計(jì)與結(jié)果篩選策略。在多分類任務(wù)上,大量的任務(wù)可能會(huì)產(chǎn)生海量的任務(wù)結(jié)果,Sarma等[18]為解決這種模式下產(chǎn)生的指數(shù)爆炸式的影響,提出了一種對(duì)任務(wù)結(jié)果進(jìn)行類別化映射的方法,將相同的任務(wù)結(jié)果映射為同一類別,并對(duì)同一類別中的一些影響因子進(jìn)行分析;Feng等[19]提出了一種新的工作者模型,利用工作者每次返回的新答案,結(jié)合工作者專業(yè)水平設(shè)計(jì)了兩種增量式的策略來(lái)推斷最終的任務(wù)結(jié)果,進(jìn)而高效準(zhǔn)確地得到任務(wù)結(jié)果。由于不同任務(wù)有著不同的影響因子,Demartini等[20]提出了一種概率模型,該模型基于因子圖,通過(guò)綜合考慮工作者所有任務(wù)結(jié)果特點(diǎn),再結(jié)合工作者專業(yè)水平等因素來(lái)對(duì)高質(zhì)量的任務(wù)結(jié)果進(jìn)行提取。
6 結(jié)語(yǔ)
從在線用戶評(píng)論中獲取觀點(diǎn)目標(biāo)和觀點(diǎn)詞詞對(duì)對(duì)于用戶觀點(diǎn)挖掘來(lái)說(shuō)是一項(xiàng)很重要的任務(wù),本文的工作不同于以往采用構(gòu)建模型的方式對(duì)特征和觀點(diǎn)詞詞對(duì)進(jìn)行提取,而是采用眾包通過(guò)人工的方式直接在評(píng)論句子中標(biāo)注出來(lái),這種方式較于以往的方法省略了復(fù)雜模型的構(gòu)建過(guò)程,更加高效和便捷。但是這種方式存在的一個(gè)很重要問(wèn)題是如何在有限成本的情況下對(duì)眾包任務(wù)進(jìn)行分配并從工作者的工作結(jié)果中精確提取出高質(zhì)量的工作結(jié)果。本文采用了兩段式的任務(wù)分配和結(jié)果評(píng)估方法,第一步就是通過(guò)測(cè)試集來(lái)篩選出高專業(yè)水平的工作者,然后將任務(wù)只分發(fā)給高專業(yè)水平工作者,這種方法在降低成本的同時(shí)也提高了最終任務(wù)的質(zhì)量;第二步是對(duì)第一步得到的任務(wù)結(jié)果進(jìn)行數(shù)據(jù)整合,最終會(huì)在較低成本的情況下得到一組高質(zhì)量的標(biāo)注結(jié)果。
參考文獻(xiàn) (References)
[1] WANG H, WANG H, YIN H Z, et al. A unified framework for finegrained opinion mining from online reviews[C]// Proceedings of the 2016 49th Hawaii International Conference on System Sciences. Piscataway, NJ: IEEE, 2016:1134-1143.
[2] TANG D Y, QIN B, FENG X C, et al. Effective LSTMs for targetdependent sentiment classification[J/OL]. arXiv Preprint, 2015, 2015: arXiv:1512.01100 (2015-12-03) [2016-09-26]. https://arxiv.org/abs/1512.01100.
[3] LIN Y M, JIANG X X, LI Y, et al. Collective extraction for opinion targets and opinion words from online reviews[C]// Proceedings of the 2016 7th International Conference on Cloud Computing and Big Data. Washington, DC: IEEE Computer Society, 2017: 3949-3958.
[4] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. New York: Curran Associates, 2012:1097-1105.
[5] LEASE M, ALONSO O. Crowdsourcing for search evaluation and socialalgorithmic search[C]// Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2012:1180.
[6] CHANG J C, AMERSHI S, KAMAR E. Revolt: collaborative crowdsourcing for labeling machine learning datasets[C]// Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2017:2334-2346.
[7] MITRA T, HUTTO C J, GILBERT E. Comparing personand processcentric strategies for obtaining quality data on Amazon mechanical turk[C]// Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems. New York: ACM, 2015:1345-1354.
[8] RAYKAR V C, VIKAS C. Supervised learning from multiple experts: whom to trust when everyone lies a bit[C]// Proceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009:889-896.
[9] DONMEZ, PINAR, CARBONELL J G, et al. Efficiently learning the accuracy of labeling sources for selective sampling[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2009:259-268.
[10] XI C, LIN Q H, ZHOU D Y. Optimistic knowledge gradient policy for optimal budget allocation in crowdsourcing[C]// Proceedings of the 2013 International Conference on Machine Learning. Cambridge: MIT Press, 2013:64-72.
[11] 馮劍紅, 李國(guó)良, 馮建華. 眾包技術(shù)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2015, 38(9):1713-1726.(FENG J H, LI G L, FENG J H. A survey on crowdsourcing[J]. Chinese Journal of Computers, 2015, 38(9):1713-1726.)
[12] 毛鶯池, 穆超, 包威. 空間眾包中多類型任務(wù)的分配與調(diào)度方法[J]. 計(jì)算機(jī)應(yīng)用, 2018,38(1):6-12.(MAO Y C,MU C,BAO W. Multitype task assignment and scheduling oriented to spatial crowdsourcing[J]. Journal of Computer Applications,2018, 38(1):6-12.)
[13] 施戰(zhàn), 辛煜, 孫玉娥. 基于用戶可靠性的眾包系統(tǒng)任務(wù)分配機(jī)制[J]. 計(jì)算機(jī)應(yīng)用, 2017, 37(9):2449-2453.(SHI Z, XIN Y, SUN Y E. Task allocation mechanism for crowdsourcing system based on reliability of users[J]. Journal of Computer Applications, 2017, 37(9):2449-2453.)
[14] LIU X, LU M Y, OOI B C, et al. CDAS: a crowdsourcing data analytics system[J]. Proceedings of the VLDB Endowment, 2012, 5(10):1040-1051.
[15] OMAR F Z, CHRIS C B. Crowdsourcing translation: professional quality from nonprofessionals[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011:1220-1229.
[16] JACOB W, PAUL R, WU T F, et al. Whose vote should count more: Optimal integration of labels from labelers of unknown expertise[C]// Proceedings of the 22nd International Conference on Neural Information Processing Systems. New York: Curran Associates, 2009: 2035-2043.
[17] SNOW R, CONNOR B O, JURAFSKY D, et al. Cheap and fast — but is it good? evaluating nonexpert annotations for natural language tasks[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2008: 254-263.
[18] SARMA A D, PARAMESWARAN A, WIDOM J. Towards globally optimal crowdsourcing quality management: the uniform worker setting[C]// Proceedings of the 2016 International Conference on Management of Data. New York: ACM, 2016:47-62.
[19] FENG J, LI G, WANG H, et al. Incremental quality inference in crowdsourcing[C]// DASFAA 2014: International Conference on Database Systems for Advanced Applications. Berlin: Springer, 2014:453-467.
[20] DEMARTINI G, DIFALLAH D E, MAUROUX P C. ZenCrowd: leveraging probabilistic reasoning and crowdsourcing techniques for largescale entity linking[C]// Proceedings of the 21st International Conference on World Wide Web. New York: ACM, 2012: 469-478.
[21] McCALLUM D R, PETERSON J L. Computerbased readability indexes[C]// Proceedings of the ACM82 Conference. New York: ACM, 1982: 44-48.
[22] HU M, LIU B. Mining opinion features in customer reviews[C]// Proceedings of the 19th National Conference on Artifical Intelligence. Menlo Park: AAAI Press, 2004:755-760.