石玉鑫 楊澤青 趙志濱 姚蘭
摘? 要:通過(guò)挖掘商品評(píng)論中的評(píng)價(jià)對(duì)象,可以得知用戶(hù)更關(guān)心商品哪些方面的屬性,從而幫助企業(yè)改進(jìn)商品,幫助用戶(hù)選擇商品。因此,商品評(píng)價(jià)對(duì)象的挖掘具有重要的意義。本文提出了一種用于商品評(píng)價(jià)對(duì)象挖掘的領(lǐng)域詞典構(gòu)建方法:首先基于LDA模型,提出了一種領(lǐng)域基礎(chǔ)詞典的構(gòu)建方法;然后,分別提出了基于詞匯之間的PMI值和基于依存句法分析的領(lǐng)域詞典擴(kuò)充方法。本文基于京東商城的洗衣液產(chǎn)品真實(shí)評(píng)論數(shù)據(jù)集,使用構(gòu)建的詞典分別進(jìn)行了一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象挖掘和二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象挖掘的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在進(jìn)行評(píng)價(jià)對(duì)象挖掘時(shí)具有良好的性能;相比一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象,擴(kuò)充后的詞典對(duì)二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象挖掘的效果有更好的提升。
關(guān)鍵詞:領(lǐng)域詞典;對(duì)象挖掘;商品評(píng)論;LDA;PMI
中圖分類(lèi)號(hào):TP391? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
A Method on Domain Dictionary Construction for Object
Mining on Commodity Comments
SHI Yuxin,YANG Zeqing,ZHAO Zhibin,YAO Lan
(School of Computer Science and Engineering,Northeastern University,Shenyang 110819,China)
Abstract:Enterprises hope to be aided by object mining on comments of their products,which reveals the clients' concerns,to improve their manufacturing.This object mining also makes sense to subsequent consumers while they are making their choice.Therefore,it is significant to mine objects of a comment.This paper proposes a method on domain dictionary construction for object mining on comments of commodity:Firstly,a method based on the LDA model,a basic domain dictionary is proposed;then,the domain dictionary expansion methods based on the PMI value of words and dependency parsing are proposed respectively.Data applied for experiments in this paper is from detergent sale data of JD.COM.The dictionaries are applied on this data set for the first-level and second-level label object mining.The experimental results prove the proposed methods great potential in object mining.Compared with the first-level label object mining,the extensive dictionary has improved the second-level label object mining.
Keywords:domain dictionary;object mining;commodity comment;LDA;PMI
1? ?引言(Introduction)
在互聯(lián)網(wǎng)中,有海量的商品評(píng)論文本。這些評(píng)論可能來(lái)自于不同的電商平臺(tái)和不同的商品品類(lèi),是一種重要的資源,具有很高的研究?jī)r(jià)值。通過(guò)分析電商平臺(tái)的商品評(píng)論,市場(chǎng)調(diào)查工作人員可以得知用戶(hù)更關(guān)心商品哪些方面的屬性,以及用戶(hù)對(duì)這些屬性持有消極的觀點(diǎn)還是積極的觀點(diǎn),從而幫助公司更好地改進(jìn)產(chǎn)品;消費(fèi)者也可以通過(guò)查看這些商品評(píng)論來(lái)了解其他人的真實(shí)購(gòu)物體驗(yàn),有助于快速找到口碑良好的商品,做出更好的購(gòu)物選擇。
電商平臺(tái)的商品評(píng)論是中文短文本,面向商品評(píng)論的口碑分析的基礎(chǔ)工作是挖掘出評(píng)論所描述的商品屬性,即短文本的評(píng)價(jià)對(duì)象挖掘。正因?yàn)楹A康脑u(píng)論數(shù)據(jù)中蘊(yùn)藏著非常有價(jià)值的商業(yè)信息,因此面向商品評(píng)論的評(píng)價(jià)對(duì)象挖掘備受關(guān)注。目前為止,基于領(lǐng)域詞典的規(guī)則匹配方法是評(píng)價(jià)對(duì)象挖掘的最有效手段之一,業(yè)界普遍采用,構(gòu)建領(lǐng)域詞典是其中的關(guān)鍵工作內(nèi)容。但是,人工構(gòu)建詞典的方法工作量巨大,并且難以保證詞典的覆蓋性,因此亟需一種有效的方法來(lái)自動(dòng)構(gòu)建領(lǐng)域詞典。
針對(duì)這一問(wèn)題,本文提出了一種基于隱狄利克雷分布(Latent Dirichlet Allocation,簡(jiǎn)稱(chēng)LDA)模型、點(diǎn)互信息(Pointwise Mutual Information,簡(jiǎn)稱(chēng)PMI)和依存句法分析的面向商品評(píng)價(jià)對(duì)象挖掘的領(lǐng)域詞典構(gòu)建方法,目標(biāo)是針對(duì)某個(gè)品類(lèi)的商品評(píng)論,構(gòu)建領(lǐng)域詞典,并利用領(lǐng)域詞典實(shí)現(xiàn)對(duì)該品類(lèi)文本的評(píng)價(jià)對(duì)象挖掘。本文構(gòu)建的領(lǐng)域詞典包括兩部分,一部分是領(lǐng)域基礎(chǔ)詞典,由單個(gè)的詞匯構(gòu)成;另一部分是領(lǐng)域詞典的擴(kuò)充,由詞匯的搭配組合構(gòu)成。本文的主要貢獻(xiàn)包括:
(1)提出了構(gòu)建領(lǐng)域基礎(chǔ)詞典的方法。將已標(biāo)注的訓(xùn)練集按標(biāo)簽分為若干個(gè)文檔,使用LDA模型得到每個(gè)文檔中主題的概率分布,以及每個(gè)主題中詞匯的概率分布,提取出主題詞,從而得到該標(biāo)簽下的詞典。對(duì)每個(gè)標(biāo)簽對(duì)應(yīng)的文檔重復(fù)上述過(guò)程,就得到了領(lǐng)域基礎(chǔ)詞典。
(2)基于PMI擴(kuò)充領(lǐng)域詞典。通過(guò)計(jì)算點(diǎn)互信息(PMI)來(lái)衡量每個(gè)文檔中詞匯之間的相關(guān)性,將相關(guān)性高的詞匯作為詞組加入每個(gè)標(biāo)簽對(duì)應(yīng)的詞組集合,得到所有標(biāo)簽對(duì)應(yīng)的詞組集合。用詞組集合對(duì)領(lǐng)域基礎(chǔ)詞典中每個(gè)標(biāo)簽下的詞典進(jìn)行擴(kuò)充,構(gòu)建擴(kuò)充后的領(lǐng)域詞典。
(3)基于依存句法分析擴(kuò)充領(lǐng)域詞典。本文定義了一種新形式的詞典:句法詞典。通過(guò)對(duì)已標(biāo)注的語(yǔ)料進(jìn)行句法分析,可以得到一個(gè)由詞組構(gòu)成的句法詞典;利用該詞典可以對(duì)領(lǐng)域詞典進(jìn)行進(jìn)一步的擴(kuò)充。
本文按照如下方式組織全文。第二部分總結(jié)了近些年的評(píng)價(jià)對(duì)象挖掘、詞典構(gòu)建的研究成果和相關(guān)技術(shù);第三部分明確了本文要解決的問(wèn)題,并且定義了相關(guān)符號(hào);第四部分介紹了基于LDA模型構(gòu)建領(lǐng)域基礎(chǔ)詞典和基于PMI、依存句法分析擴(kuò)充詞典的具體過(guò)程;第五部分通過(guò)評(píng)價(jià)對(duì)象挖掘?qū)嶒?yàn),對(duì)本文所提出方法的性能進(jìn)行了評(píng)估。第六部分總結(jié)了本文的工作,并提出未來(lái)可繼續(xù)改進(jìn)的地方。
2? ?相關(guān)工作(Related work)
本文工作的核心是構(gòu)建面向商品評(píng)價(jià)對(duì)象挖掘的領(lǐng)域詞典,需要用到文本挖掘的相關(guān)技術(shù)來(lái)構(gòu)建詞典?,F(xiàn)在就文本挖掘技術(shù)的最新應(yīng)用,以及有關(guān)詞典構(gòu)建工作的最新研究成果進(jìn)行總結(jié)。
文本挖掘是一個(gè)從大規(guī)模的文本數(shù)據(jù)集合中挖掘出潛在且有價(jià)值的信息的過(guò)程[1]。隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)文本數(shù)據(jù)大量涌現(xiàn),這使得文本信息挖掘成為多個(gè)領(lǐng)域的重點(diǎn)研究課題。文本挖掘的主要方法有基于主題模型的方法、基于機(jī)器學(xué)習(xí)的方法、基于句法分析的方法和基于詞典的方法等。Pavlinek[2]等人提出了一種基于半監(jiān)督學(xué)習(xí)和LDA主題模型的文本分類(lèi)方法,對(duì)文本進(jìn)行分類(lèi)。He[3]等人提出了一種基于依存句法分析的評(píng)論觀點(diǎn)挖掘方法,可以有效地從評(píng)論中挖掘觀點(diǎn)。Tomas[4]等人在Spark中實(shí)現(xiàn)了樸素貝葉斯、隨機(jī)森林、決策樹(shù)、支持向量機(jī)和Logistic回歸分類(lèi)器等五種分類(lèi)器,并對(duì)每種分類(lèi)器的分類(lèi)準(zhǔn)確度進(jìn)行了評(píng)估。Mandal[5]提出了一種基于詞典進(jìn)行意見(jiàn)挖掘并計(jì)算情感極性水平的算法。在這幾種文本挖掘方法中,基于詞典的規(guī)則匹配方法是最有效的手段之一,并且可維護(hù)性較好,在工程上普遍采用。因此,本文要構(gòu)建面向商品評(píng)價(jià)對(duì)象挖掘的領(lǐng)域詞典。
關(guān)于領(lǐng)域詞典的構(gòu)建,有很多可行的方法,相關(guān)研究也有很多。尹文科[6]等人基于維基百科鏈接結(jié)構(gòu)圖,結(jié)合LSI算法和CPMw算法,提出了一種構(gòu)建領(lǐng)域詞典的方法,實(shí)現(xiàn)了領(lǐng)域詞典的自動(dòng)構(gòu)建?;诖罅康纳唐吩u(píng)論文本,李偉卿[7]等人提出了一種構(gòu)建產(chǎn)品特征詞典的方法。該方法在大量已標(biāo)注文本數(shù)據(jù)的基礎(chǔ)上,基于同義詞詞林?jǐn)U展版和Word2Vec工具進(jìn)行詞向量訓(xùn)練,計(jì)算詞匯的語(yǔ)義相似程度,對(duì)特征詞匯進(jìn)行總結(jié),從而構(gòu)建產(chǎn)品的特征詞典。與其他方法相比,該方法有良好的召回率。Chen[8]等人提出了一種新穎的詞典構(gòu)建方法,這種方法能夠使詞典包含更多的長(zhǎng)尾關(guān)鍵詞,從而提高詞典的質(zhì)量。文獻(xiàn)[9]介紹了4種構(gòu)建領(lǐng)域情感詞典的方法,并評(píng)估了每種方法所構(gòu)建詞典的性能。Wu[10]等人基于已標(biāo)注的文本數(shù)據(jù),利用TF-IDF算法和Word2Vec工具,構(gòu)建了足球領(lǐng)域的情感詞典。Alqasemi[11]等人基于KNN查詢(xún)算法構(gòu)建了觀點(diǎn)詞庫(kù),并取得了較好的實(shí)驗(yàn)結(jié)果。Ju[12]等人提出了一種基于條件隨機(jī)場(chǎng)的迭代機(jī)器學(xué)習(xí)算法,目標(biāo)是自動(dòng)構(gòu)建中文臨床語(yǔ)料庫(kù)中的癥狀詞典。文獻(xiàn)[13]研究了國(guó)內(nèi)外幾種詞典系統(tǒng)的功能,建立了一個(gè)領(lǐng)域詞典構(gòu)建系統(tǒng),并設(shè)計(jì)了總體框架和組件模塊。Zhang[14]等人通過(guò)提取和構(gòu)建程度副詞詞典、網(wǎng)絡(luò)詞典、負(fù)面詞典和其他相關(guān)詞典來(lái)擴(kuò)展情感詞典。Song[15]等人提出了一個(gè)命名實(shí)體詞典半自動(dòng)構(gòu)建系統(tǒng),該系統(tǒng)基于維基百科,使用主動(dòng)學(xué)習(xí)技術(shù)和BM25算法,在命名實(shí)體識(shí)別實(shí)驗(yàn)中表現(xiàn)出良好的性能。文獻(xiàn)[16]中設(shè)計(jì)了一種關(guān)系詞詞典的新結(jié)構(gòu),采用弱監(jiān)督方法找到詞典項(xiàng),并填充到關(guān)系詞詞典中。該詞典用于提取生物醫(yī)學(xué)文獻(xiàn)中有關(guān)蛋白質(zhì)的詞匯。文獻(xiàn)[17]提出了一種自動(dòng)構(gòu)建情感詞典的方法,構(gòu)建的詞典用于處理特定領(lǐng)域的情感分析任務(wù)。文章中還比較了來(lái)自不同領(lǐng)域的情感詞典的效率。Wu[18]等人提出了一種基于數(shù)據(jù)驅(qū)動(dòng)的方法,來(lái)為微博情緒分析系統(tǒng)構(gòu)建高質(zhì)量的情感詞典。針對(duì)現(xiàn)有中文情感詞匯覆蓋率較低的問(wèn)題,Liu[19]等人通過(guò)整合當(dāng)前情感詞匯,構(gòu)建了一個(gè)微博情感詞典。
3? ?問(wèn)題描述(Problem description)
商品評(píng)論的評(píng)價(jià)對(duì)象挖掘是一個(gè)多標(biāo)簽分類(lèi)問(wèn)題。表1是京東商城洗衣液產(chǎn)品評(píng)論中的兩條評(píng)論,以及它們的評(píng)價(jià)對(duì)象。評(píng)論t1的評(píng)價(jià)對(duì)象是這款洗衣液的氣味和物流/送貨速度,評(píng)論t2的評(píng)價(jià)對(duì)象是洗衣液的清潔效果,濃度和物流/送貨速度。從這兩條評(píng)論可以看出,“氣味”“清潔效果”“濃度”和“物流/送貨速度”等屬性都有可能成為洗衣液產(chǎn)品評(píng)論中所包含的評(píng)價(jià)對(duì)象,而類(lèi)似于“口感”等屬性不大可能成為正常的洗衣液評(píng)論中所提及的評(píng)價(jià)對(duì)象。因此,單個(gè)領(lǐng)域是具有封閉性的,評(píng)論中可能涉及的評(píng)價(jià)對(duì)象數(shù)量是有限的,這些評(píng)價(jià)對(duì)象可以窮舉出來(lái)。因此,基于詞典的多標(biāo)簽分類(lèi)方法能夠在商品評(píng)論的評(píng)價(jià)對(duì)象挖掘工作中取得較好的效果。本文要解決的問(wèn)題是,生成一個(gè)用于挖掘商品評(píng)價(jià)對(duì)象的領(lǐng)域詞典。
本文使用集合來(lái)表示商品品類(lèi)的一組中文短文本集合,用集合來(lái)表示集合中可能涉及的種評(píng)價(jià)對(duì)象。若商品品類(lèi)是洗衣液產(chǎn)品,則集合就是洗衣液產(chǎn)品本身,以及外延性質(zhì)的總集。
通過(guò)對(duì)關(guān)鍵詞或詞組的匹配,可以確定評(píng)論中包含了哪些評(píng)價(jià)對(duì)象。例如,關(guān)鍵詞“清香”對(duì)應(yīng)的評(píng)價(jià)對(duì)象是“氣味”,關(guān)鍵詞“洗衣效果”對(duì)應(yīng)的評(píng)價(jià)對(duì)象是“清潔效果”。因此,挖掘商品評(píng)價(jià)對(duì)象的領(lǐng)域詞典中需要包含每個(gè)評(píng)價(jià)對(duì)象所對(duì)應(yīng)的關(guān)鍵詞集合。領(lǐng)域詞典可形式化表示為式(1)。
(1)
其中,是評(píng)價(jià)對(duì)象所對(duì)應(yīng)的關(guān)鍵詞集合,其中的元素有可能是單個(gè)詞匯,也有可能是多個(gè)詞匯組成的詞組。
因此,本文的目標(biāo)是,找到領(lǐng)域詞典構(gòu)建函數(shù),基于商品品類(lèi)的文本集合,構(gòu)建領(lǐng)域詞典??梢孕问交枋鰹椋?。
4? ?算法描述(Algorithm description)
4.1? ?構(gòu)建領(lǐng)域基礎(chǔ)詞典
首先需要對(duì)商品評(píng)論集合進(jìn)行人工標(biāo)注。每條評(píng)論需要標(biāo)注出其包含的評(píng)價(jià)對(duì)象,以及描述這些評(píng)價(jià)對(duì)象的文本;標(biāo)注出的評(píng)價(jià)對(duì)象可能是一個(gè),也可能是多個(gè)。標(biāo)注后的任一文本 都對(duì)應(yīng)一個(gè)標(biāo)簽集合。標(biāo)注的示例如表2所示,該文本標(biāo)注了四個(gè)標(biāo)簽,分別是“品牌忠誠(chéng)度”“洗滌效果”“價(jià)格”“物流/送貨速度”等四個(gè)評(píng)價(jià)對(duì)象,以及描述它們的文本。
標(biāo)注完成之后,需要對(duì)標(biāo)注的文本進(jìn)行分詞,去除停用詞,并將文本分為等個(gè)集合,分別是包含評(píng)價(jià)對(duì)象的文本集合,任意兩個(gè)集合之間都可能有交集。
本文基于LDA模型來(lái)構(gòu)建領(lǐng)域基礎(chǔ)詞典。LDA模型是一種文檔主題生成模型。在LDA模型中,一個(gè)文檔以一定概率選擇了一個(gè)主題,一個(gè)主題又以一定的概率選擇了一個(gè)詞匯,形式化表示為式(2):
(2)
首先,要給出LDA模型的主題數(shù)。之后,將描述評(píng)價(jià)對(duì)象的文本集合作為一個(gè)文檔,通過(guò)LDA模型對(duì)該文檔的學(xué)習(xí),可以得到該文檔的文檔-主題分布和主題-詞匯分布,從而可以得到評(píng)價(jià)對(duì)象的主題詞語(yǔ),這些主題詞語(yǔ)的集合記作。通過(guò)對(duì)所有文檔重復(fù)上述過(guò)程,就可以得到集合。這些集合就構(gòu)成了領(lǐng)域的領(lǐng)域基礎(chǔ)詞典。
4.2? ?基于PMI擴(kuò)充詞典
基于LDA模型構(gòu)建的領(lǐng)域基礎(chǔ)詞典只包含單個(gè)的詞匯,且詞匯之間都是相互獨(dú)立的,不存在搭配關(guān)系。然而,如果要挖掘細(xì)粒度的評(píng)價(jià)對(duì)象,有時(shí)兩個(gè)單獨(dú)的詞匯并不能挖掘出某個(gè)評(píng)價(jià)對(duì)象,但是它們作為詞組時(shí)卻可以挖掘出這個(gè)評(píng)價(jià)對(duì)象。例如,在洗衣液評(píng)論中,我們可以將“氣味”這一評(píng)價(jià)對(duì)象拆分為“打開(kāi)時(shí)的氣味”“洗衣時(shí)的氣味”“晾衣時(shí)的氣味”等若干個(gè)更細(xì)粒度的評(píng)價(jià)對(duì)象。評(píng)論“打開(kāi)蓋子時(shí)很香,很好聞”顯然包含了“打開(kāi)時(shí)的氣味”這一評(píng)價(jià)對(duì)象,而無(wú)論是詞匯“打開(kāi)”,還是詞匯“香”,單獨(dú)拿出來(lái)都無(wú)法挖掘出“打開(kāi)時(shí)的氣味”這一評(píng)價(jià)對(duì)象,而它們搭配起來(lái)卻可以挖掘出這個(gè)評(píng)價(jià)對(duì)象。因此,我們需要對(duì)上一小節(jié)中得到的領(lǐng)域基礎(chǔ)詞典進(jìn)行擴(kuò)充,在詞典中加入詞組做關(guān)鍵詞。
本文通過(guò)計(jì)算點(diǎn)互信息(PMI)來(lái)衡量?jī)蓚€(gè)詞語(yǔ)之間的關(guān)聯(lián)程度,從而抽取出關(guān)聯(lián)程度較高的詞匯組合,用這些詞組對(duì)領(lǐng)域基礎(chǔ)詞典進(jìn)行擴(kuò)充。PMI從統(tǒng)計(jì)學(xué)的角度來(lái)衡量詞語(yǔ)之間的語(yǔ)義關(guān)聯(lián)程度。針對(duì)某文本集合中的詞匯和,若這兩個(gè)詞匯出現(xiàn)在同一條商品評(píng)論中,則稱(chēng)詞匯和共現(xiàn)。和在中的共現(xiàn)概率可表示為式(3)。
(3)
其中,是和共現(xiàn)的評(píng)論數(shù)量。和在中的PMI值可由式(4)計(jì)算出來(lái),其中和分別是和在中的頻率。
(4)
當(dāng)大于一定閾值時(shí),可以認(rèn)為集合中的詞匯和具有搭配關(guān)系,并且該搭配關(guān)系可以描述評(píng)價(jià)對(duì)象。將符合上述條件的詞組構(gòu)成集合,其中任一元素都是由一對(duì)詞匯構(gòu)成的具有搭配關(guān)系的詞組。集合就是描述評(píng)價(jià)對(duì)象的詞組集合。對(duì)所有評(píng)價(jià)對(duì)象重復(fù)上述過(guò)程,最終得到集合。集合可以對(duì)領(lǐng)域基礎(chǔ)詞典進(jìn)行擴(kuò)充,從而得到新的領(lǐng)域詞典。
4.3? ?基于依存句法分析擴(kuò)充詞典
除了基于PMI對(duì)領(lǐng)域詞典進(jìn)行擴(kuò)充之外,還可以基于依存句法分析對(duì)領(lǐng)域詞典進(jìn)行擴(kuò)充。依存句法分析是通過(guò)分析某個(gè)句子來(lái)構(gòu)建該句子的依存句法樹(shù),從而描述句子之間的依存關(guān)系。利用哈工大“語(yǔ)言技術(shù)平臺(tái)(LTP)”得到的依存句法分析實(shí)例如圖1所示。
圖1中的有向弧被稱(chēng)為依存弧,表示兩個(gè)詞之間存在從屬關(guān)系。每個(gè)依存弧上都有一個(gè)標(biāo)注,表示兩個(gè)詞之間的依存關(guān)系類(lèi)型,每個(gè)詞匯下方標(biāo)注了它的詞性。例如,“很”與“一般”之間存在依存關(guān)系A(chǔ)DV(狀中結(jié)構(gòu)),“很”是程度副詞,修飾形容詞“一般”?!耙话恪笔沁@對(duì)關(guān)系中的核心詞,也叫支配詞;“很”是用來(lái)修飾支配詞的詞語(yǔ),也叫從屬詞。類(lèi)似于“很”和“好”這樣的詞對(duì),本文將其稱(chēng)為“依存詞對(duì)”,其形式化定義如下:
定義1(依存詞對(duì)):存在依存關(guān)系的兩個(gè)詞語(yǔ)稱(chēng)為依存詞對(duì),形式化表示為式(5):
(5)
其中,是從屬詞的詞號(hào),即該從屬詞在句子中的位置;是的詞性;而和分別是支配詞的詞號(hào)和詞性;relation是詞匯和的依存關(guān)系類(lèi)型。例如,圖2中的“很”和“一般”就可以稱(chēng)為一個(gè)依存詞對(duì),可以形式化表示為:WordPair(很,一般)=(5,很,d,6,一般,a,ADV)。
在文本集合中,某種詞性組合的依存詞對(duì)可能較為頻繁的出現(xiàn)。以洗衣液產(chǎn)品的評(píng)論為例,評(píng)論中出現(xiàn)了“潔凈衣領(lǐng)”“祛除異味”等關(guān)于產(chǎn)品功效的描述,均為“動(dòng)詞+名詞”形式的依存詞對(duì)。同時(shí),多個(gè)依存詞對(duì)的組合可能也會(huì)頻繁出現(xiàn),例如,短語(yǔ)“祛除頑固污漬”為“動(dòng)詞+形容詞+名詞”的形式,其中也包含“動(dòng)詞+名詞”形式的依存詞對(duì)和“形容詞+名詞”形式的依存詞對(duì)。對(duì)于某個(gè)文本集合中類(lèi)似于“動(dòng)詞+名詞”“動(dòng)詞+形容詞+名詞”等包含一個(gè)或多個(gè)依存詞對(duì)的頻繁出現(xiàn)的詞匯集合,本文稱(chēng)為“句法模板”,形式化定義如下:
定義2(句法模板):在文本集合中,存在文本,包含詞性為的詞匯集合,且對(duì)于集合中的任意詞匯,至少存在一個(gè)詞匯,與其存在依存關(guān)系,構(gòu)成依存詞對(duì)或。
假設(shè)與具有上述相同性質(zhì)的文本集合為,中文本數(shù)量占中文本數(shù)量的比例大于一個(gè)給定的閾值,則稱(chēng)元組為文本集合的一個(gè)句法模板,每個(gè)符合該句法模板的詞組都是句法模板的一個(gè)實(shí)例。
根據(jù)句法模板的定義,本文又給出了一種新形式詞典的定義——句法詞典,其形式化定義如下。
定義3(句法詞典):在文本集合中,有句法模板集合,其中任意一個(gè)句法模板均存在描述評(píng)價(jià)對(duì)象的詞組集合,則這些集合可以構(gòu)成一個(gè)新的集合。集合就是文本集合的一個(gè)句法詞典
如果對(duì)每個(gè)文本集合都構(gòu)建句法詞典,就可以得到文本集合的一個(gè)句法詞典。為了提高詞典的質(zhì)量,在構(gòu)建句法詞典之前,需要計(jì)算文本集合中每個(gè)詞匯的TF-IDF值。TF-IDF是用來(lái)評(píng)估一個(gè)詞匯對(duì)于一個(gè)文檔重要程度的指標(biāo),TF指的是某一個(gè)給定的詞語(yǔ)在該文檔中出現(xiàn)的頻率;IDF是逆向文檔頻率,是一個(gè)詞語(yǔ)普遍重要性的度量。
將看作一個(gè)文檔,從微博上抓取一定數(shù)量的文本,將每條微博看作一個(gè)文檔,與組成文本集合。對(duì)于詞匯,它對(duì)于的TF值和IDF值計(jì)算方式分別如式(6)和式(7)所示。
其中,是詞匯在本文集合中出現(xiàn)的次數(shù),是包含詞匯的微博文本集合。詞匯對(duì)于文本的TF-IDF值計(jì)算方法如式(8)所示。
(8)
根據(jù)詞匯的TF-IDF值,可以構(gòu)建一個(gè)重要詞匯詞典,其中是一個(gè)閾值,TF-IDF值大于的詞匯均可看作商品品類(lèi)的重要詞匯。
根據(jù)上述定義,構(gòu)造的句法詞典。從中抽取出句法模板集合。針對(duì)任一句子中符合句法模板的詞組,若詞組滿(mǎn)足以下兩個(gè)條件之一的,即可加入詞組集合:
(1)存在詞匯,有,且對(duì)于中標(biāo)注出的描述評(píng)價(jià)對(duì)象的文本,有。
(2)中包含描述評(píng)價(jià)對(duì)象的文本,對(duì)于中的任一詞匯,均有。
對(duì)中所有句法模板的所有實(shí)例重復(fù)上述步驟,即可得到集合。用同樣的方法也可以得到集合,從而得到最終的句法詞典。句法詞典可以對(duì)領(lǐng)域詞典進(jìn)行擴(kuò)充,從而得到新的領(lǐng)域詞典。
5? ?實(shí)驗(yàn)(Experiment)
5.1? 實(shí)驗(yàn)數(shù)據(jù)集
本文的實(shí)驗(yàn)數(shù)據(jù)集是京東商城洗衣液評(píng)論數(shù)據(jù)集。根據(jù)從領(lǐng)域?qū)<姨幍玫降南匆乱寒a(chǎn)品的特征碼表,本文首先列出了“方便性”“品牌”“包裝”“產(chǎn)品”“價(jià)格”“香味”“快遞”“購(gòu)物渠道”“產(chǎn)品功效”等9種評(píng)價(jià)對(duì)象,本文稱(chēng)這9種評(píng)價(jià)對(duì)象為一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象;并將每個(gè)一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象再細(xì)分為更加細(xì)粒度的評(píng)價(jià)對(duì)象,例如“快遞”可以細(xì)分為“快遞(籠統(tǒng))”“快遞速度”“快遞人員服務(wù)態(tài)度”“快遞包裝”等,細(xì)分完成后共有69種細(xì)粒度的評(píng)價(jià)對(duì)象,本文稱(chēng)這69個(gè)評(píng)價(jià)對(duì)象為二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象。
由于實(shí)際獲取到的商品評(píng)論隨意性較大,會(huì)出現(xiàn)少量無(wú)效的評(píng)論,例如只出現(xiàn)標(biāo)點(diǎn)符號(hào)的評(píng)論,或類(lèi)似于“呵呵哈哈哈”這樣無(wú)意義的評(píng)論,所以在進(jìn)行數(shù)據(jù)預(yù)處理前需要剔除這些無(wú)效評(píng)論。剔除無(wú)效評(píng)論后,剩余的用戶(hù)評(píng)論共計(jì)32400條。之后對(duì)所有有效的數(shù)據(jù)進(jìn)行標(biāo)注,標(biāo)注內(nèi)容包括每個(gè)評(píng)論所包含的一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象、二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象,以及每個(gè)評(píng)價(jià)對(duì)象所對(duì)應(yīng)的文本。評(píng)價(jià)對(duì)象的標(biāo)注是多標(biāo)簽標(biāo)注,即一條短文本可以包含多個(gè)評(píng)價(jià)對(duì)象。由于人工標(biāo)注難免有疏漏,所以對(duì)標(biāo)注結(jié)果進(jìn)行了細(xì)致的檢查,并對(duì)百分之一的數(shù)據(jù)進(jìn)行了重復(fù)標(biāo)注。標(biāo)注完成后,將每條評(píng)論進(jìn)行分詞,并剔除相應(yīng)的停用詞。
本文工作均采用Python 3.5語(yǔ)言實(shí)現(xiàn),使用PyCharm開(kāi)發(fā)工具,操作系統(tǒng)為Windows 7。洗衣液評(píng)論數(shù)據(jù)采用MongoDB數(shù)據(jù)庫(kù)存儲(chǔ)。
5.2? ?實(shí)驗(yàn)結(jié)果
本文提出了一種面向商品評(píng)價(jià)對(duì)象挖掘的領(lǐng)域詞典構(gòu)建方法,該方法可分為三部分:基于LDA模型構(gòu)建領(lǐng)域基礎(chǔ)詞典的方法;基于PMI擴(kuò)充領(lǐng)域詞典的方法;基于依存句法分析擴(kuò)充領(lǐng)域詞典的方法。首先,使用29160條已標(biāo)注的數(shù)據(jù)構(gòu)建領(lǐng)域詞典;之后,用剩余的3240條數(shù)據(jù)進(jìn)行商品評(píng)價(jià)對(duì)象挖掘?qū)嶒?yàn),來(lái)驗(yàn)證所構(gòu)建領(lǐng)域詞典的性能。
由于評(píng)價(jià)對(duì)象挖掘是一個(gè)多標(biāo)簽分類(lèi)的過(guò)程,所以本文使用Macro-averaging評(píng)價(jià)指標(biāo)來(lái)對(duì)評(píng)價(jià)對(duì)象挖掘?qū)嶒?yàn)的結(jié)果進(jìn)行評(píng)估。Macro-averaging指標(biāo)首先對(duì)各類(lèi)的分類(lèi)結(jié)果進(jìn)行評(píng)估,然后再取所有類(lèi)評(píng)估結(jié)果的均值作為整體的評(píng)估結(jié)果。Macro-averaging由三個(gè)具體指標(biāo)構(gòu)成:Macro_P,Macro_R和Macro_F,計(jì)算方法如式(9)、式(10)和式(11)所示,是實(shí)際包含評(píng)價(jià)對(duì)象,預(yù)測(cè)結(jié)果也包含的評(píng)論數(shù);是實(shí)際不包含評(píng)價(jià)對(duì)象,但預(yù)測(cè)結(jié)果卻包含的評(píng)論數(shù);是實(shí)際包含評(píng)價(jià)對(duì)象,預(yù)測(cè)結(jié)果卻不包含的評(píng)論數(shù)。
本文將分別使用領(lǐng)域基礎(chǔ)詞典、僅基于PMI擴(kuò)充后的領(lǐng)域詞典(LDA+PMI)、僅基于依存句法分析擴(kuò)充后的領(lǐng)域詞典(LDA+DP)、基于PMI和依存句法分析方法擴(kuò)充后的領(lǐng)域詞典(LDA+PMI+DP)等四種進(jìn)行評(píng)價(jià)對(duì)象挖掘?qū)嶒?yàn),并對(duì)比實(shí)驗(yàn)結(jié)果。本文的實(shí)驗(yàn)數(shù)據(jù)可挖掘到的評(píng)價(jià)對(duì)象可以分為兩種,一種是一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象,一種是二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象,因此本文將分別對(duì)這兩種評(píng)價(jià)對(duì)象進(jìn)行挖掘?qū)嶒?yàn)。
一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象有九種,分別是“方便性”“品牌”“包裝”“產(chǎn)品”“價(jià)格”“香味”“快遞”“購(gòu)物渠道”“產(chǎn)品功效”。 基于PMI和依存句法分析等兩種方法擴(kuò)充后(LDA+PMI+DP)的一級(jí)標(biāo)簽領(lǐng)域詞典的一部分如表3所示,僅列出了“香味”和“快遞”等兩種評(píng)價(jià)對(duì)象的部分詞匯和詞組。
一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象挖掘?qū)嶒?yàn)結(jié)果如表4所示。從表4中的結(jié)果可以看出,與領(lǐng)域基礎(chǔ)詞典相比,基于PMI方法和依存句法分析方法擴(kuò)充后的詞典的Macro_P指標(biāo)有所降低,Macro_R指標(biāo)有所提升,衡量整體性能的Macro_F指標(biāo)有所提升,這說(shuō)明本文提出的詞典擴(kuò)充方法對(duì)一級(jí)標(biāo)簽領(lǐng)域詞典的整體性能是有所提升的,但是由于詞典規(guī)模的擴(kuò)大,隨之也會(huì)出現(xiàn)更多的誤判,導(dǎo)致精確率降低。同時(shí)可以看出,在只使用一種詞典擴(kuò)充方法的情況下,基于依存句法分析的詞典擴(kuò)充方法要優(yōu)于基于PMI的詞典擴(kuò)充方法;兩種擴(kuò)充方法都使用時(shí)Macro_F指標(biāo)可以達(dá)到最高,相較于只使用領(lǐng)域基礎(chǔ)詞典時(shí)提升了1.9個(gè)百分點(diǎn)。雖然擴(kuò)充后的詞典可以提升一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象挖掘的性能,但是提升十分有限。
二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象有69種,由一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象細(xì)分而得。其中“香味”被分為了“香味(籠統(tǒng))”“打開(kāi)包裝時(shí)的香味”“浸泡時(shí)的香味”“洗衣時(shí)的香味”“晾衣時(shí)的香味”“快遞”被分為了“快遞(籠統(tǒng))”“物流/送貨速度”“快遞包裝”“快遞費(fèi)用”“快遞人員”。使用兩種方法擴(kuò)充后的二級(jí)標(biāo)簽領(lǐng)域詞典的一部分如表5所示,僅列出了“香味”和“快遞”等兩種評(píng)價(jià)對(duì)象細(xì)分后的11個(gè)評(píng)價(jià)對(duì)象的部分詞匯和詞組。
將表5和表3對(duì)比可以看出,表3中很多對(duì)應(yīng)同一評(píng)價(jià)對(duì)象的詞匯在表5中被對(duì)應(yīng)到不同的評(píng)價(jià)對(duì)象。同時(shí),很多二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象的關(guān)鍵詞集合中詞組較多,單個(gè)詞匯較少。
二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象挖掘?qū)嶒?yàn)結(jié)果如表6所示。表6中的各項(xiàng)指標(biāo)變化趨勢(shì)與表4中各項(xiàng)指標(biāo)變化趨勢(shì)相似。與一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象挖掘的實(shí)驗(yàn)結(jié)果相比,二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象挖掘的實(shí)驗(yàn)結(jié)果各項(xiàng)指標(biāo)均有所下降。將表4和表6的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比可以看出,相較于一級(jí)標(biāo)簽評(píng)價(jià)對(duì)象挖掘?qū)嶒?yàn),擴(kuò)充后的詞典對(duì)二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象挖掘?qū)嶒?yàn)的Macro_F指標(biāo)有更大的提升,相較于只使用領(lǐng)域基礎(chǔ)詞典時(shí)提升了4.2%,這意味著本文提出的詞典擴(kuò)充方法對(duì)二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象的挖掘有更重要的意義。由于很多二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象的關(guān)鍵詞集合中詞組較多,單個(gè)詞匯較少,因此用詞組擴(kuò)充領(lǐng)域詞典對(duì)于這些標(biāo)簽的挖掘是非常有效的。
6? ?結(jié)論(Conclusion)
本文提出了一種面向商品評(píng)價(jià)對(duì)象挖掘的詞典構(gòu)建方法,并使用京東商城洗衣液評(píng)論數(shù)據(jù)集進(jìn)行了評(píng)價(jià)對(duì)象挖掘?qū)嶒?yàn),以評(píng)估詞典的性能。本文的詞典分為兩部分,一部分是領(lǐng)域基礎(chǔ)詞典,由單個(gè)的詞匯構(gòu)成;另一部分是領(lǐng)域詞典的擴(kuò)充,由詞組構(gòu)成。本文基于LDA模型從文本中提取主題詞,提出了構(gòu)建基礎(chǔ)詞典的方法;通過(guò)計(jì)算詞匯之間的PMI值,提出了一種擴(kuò)充領(lǐng)域詞典的方法;基于依存句法分析和TF-IDF,提出了另一種擴(kuò)充領(lǐng)域詞典的方法。實(shí)驗(yàn)證明,擴(kuò)充后的領(lǐng)域詞典的挖掘效果好于領(lǐng)域基礎(chǔ)詞典單獨(dú)使用的效果;用詞組擴(kuò)充領(lǐng)域詞典對(duì)二級(jí)標(biāo)簽評(píng)價(jià)對(duì)象的挖掘意義更大。
本文的方法在針對(duì)洗衣液產(chǎn)品評(píng)論的評(píng)價(jià)對(duì)象挖掘?qū)嶒?yàn)中取得了良好的表現(xiàn),將來(lái)可以使用本文方法對(duì)其他領(lǐng)域的短文本進(jìn)行實(shí)驗(yàn);同時(shí),由于本文的方法需要大量的標(biāo)注,屬于有監(jiān)督學(xué)習(xí),需要耗費(fèi)大量的人力物力,因此接下來(lái)將會(huì)考慮是否可以基于無(wú)監(jiān)督學(xué)習(xí)的方法構(gòu)建詞典;本文所提出的方法只能針對(duì)特定的領(lǐng)域來(lái)構(gòu)建詞典,無(wú)法構(gòu)建一個(gè)開(kāi)放領(lǐng)域的詞典,下一步將嘗試是否可以得到一個(gè)跨領(lǐng)域的詞典構(gòu)建框架,來(lái)構(gòu)建跨領(lǐng)域的詞典。
參考文獻(xiàn)(References)
[1] Mashechkin I V,Petrovskiy M I,Popov D S,et al.Applying text mining methods for data loss prevention[J].Programming & Computing Software,2015,41(1):23-30.
[2] Pavlinek M,Podgorelec V.Text classification method based on self-training and LDA topic models[J].Expert Systems with Applications,2017,80:83-93.
[3] He T,Hao R,Qi H,et al.Mining Feature-Opinion from Reviews Based on Dependency Parsing[J].International Journal of Software Engineering & Knowledge Engineering,2017,26(9n10):1581-1591.
[4] Tomas P,Virginijus M.Comparison of Na?ve Bayes,Random Forest,Decision Tree,Support Vector Machines,and Logistic Regression Classifiers for Text Reviews Classification[J].Baltic Journal of Modern Computing,2013.
[5] Mandal S,Gupta S.A novel dictionary-based classification algorithm for opinion mining[C].Second International Conference on Research in Computational Intelligence and Communication Networks.IEEE,2017:175-180.
[6] 尹文科,朱明,陳天昊.基于Wiki鏈接結(jié)構(gòu)圖聚類(lèi)的領(lǐng)域詞典構(gòu)建方法[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(6):1286-1292.
[7] 李偉卿,王偉軍.基于大規(guī)模評(píng)論數(shù)據(jù)的產(chǎn)品特征詞典構(gòu)建方法研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(1):41-50.
[8] Chen Z,Cafarella M,Jagadish H V.Long-tail Vocabulary Dictionary Extraction from the Web[C].Proceedings of the Ninth ACM International Conference on Web Search and Data Mining,2016:625-634.
[9] Kim M,Kim J,Cui J.Performance Evaluation of Domain-Specific Sentiment Dictionary Construction Methods for Opinion Mining[J].International Journal of Database Theory and Application,2016,9:257-268.
[10] Wu J,Li Y.Research on construction of semantic dictionary in the football field[C].IEEE,International Conference on Software Engineering Research,Management and Applications.IEEE,2017:303-306.
[11] Alqasemi F,Abdelwahab A,Abdelkader H,et al.Opinion Lexicon Automatic Construction on Arabic language[C].International Conference on Advanced Technology and Applied Sciences,2017.
[12] Ju M,Duan H,Li H.A CRF-based Method for Automatic Construction of Chinese Symptom Lexicon[C].International Conference on Information Technology in Medicine and Education.IEEE,2016:5-8.
[13] Cheng Y,Huang Y.Research and Development of Domain Dictionary Construction System[C].IEEE/WIC/ACM International Conference on Web Intelligence,2017:1162-1165.
[14] Zhang S,Wei Z,Wang Y,et al.Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary[J].Future Generation Computer Systems-The International Journal of eScience,2018(81):395-403.
[15] Song Y,Jeong S,Kim H.A Semi-automatic Construction method of a Named Entity Dictionary Based on Wikipedia[J].Journal of KIISE,2015,42(11):1397-1403.
[16] Guo X,He T,Xing Y.Construction of relational word dictionary and learning of relational rules in PPI extraction from biomedical literatures[J].International Journal of Data Mining and Bioinformatics,2016,15(2):125-144.
[17] Hangya V.Automatic Construction of Domain Specific Sentiment Lexicons for Hungarian[C].18th International Conference on Text,Speech and Dialogue,2015:183-190.
[18] Wu F,Huang Y,Song Y,et al.Towards building a high-quality microblog-specific Chinese sentiment lexicon[J].Decision Support Systems,2016,87:39-49.
[19] Liu J,Yan M,Luo J.Research on the Construction of Sentiment Lexicon Based on Chinese Microblog[C].8th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC),2016:56-59.