国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于觀點信息的電商文本評價單元識別

2022-04-14 06:30:00孫家媛張艷榮謝云熙王加迎張麗霞
關(guān)鍵詞:觀點語義對象

孫家媛,張艷榮,謝云熙,王加迎,張麗霞

(1.哈爾濱商業(yè)大學 計算機與信息工程學院,哈爾濱 150028;2.哈爾濱商業(yè)大學 黑龍江省電子商務(wù)與信息處理重點實驗室,哈爾濱150028)

隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的行業(yè)從線下轉(zhuǎn)向線上,如京東、淘寶等購物網(wǎng)站,攜程、途牛等旅游網(wǎng)站,餓了么、美團外賣等外賣網(wǎng)站.數(shù)據(jù)顯示,人們的生活與互聯(lián)網(wǎng)緊密相連,為人們帶來了一種新的消費方式.由于電子商務(wù)在線銷售的特點,各種網(wǎng)站和電子商務(wù)平臺都有專門的評論區(qū),用戶不僅可以從中獲取信息,還可以方便地評價網(wǎng)絡(luò)上的商品、業(yè)務(wù)和服務(wù).人們通過參考其他消費者對購物體驗的反饋,表達他們對商品的意見和看法,為其他客戶提供參考,幫助企業(yè)提高產(chǎn)品質(zhì)量和售后服務(wù),幫助電商平臺完善推薦系統(tǒng),制定更準確的營銷策略.

雖然電子商務(wù)文本評論可以直接表達人們的真實想法,但它們具有數(shù)據(jù)量大、口語化明顯、非規(guī)范性強的特點.商家如果僅僅通過手工提取有用的信息,這將會花費大量人力和物力,而人們通過自己閱讀來獲取必要的信息,也將導致片面的理解.通過基于規(guī)則的觀點信息單元識別,充分考慮了句子中詞與詞之間的詞性關(guān)系、依存句法關(guān)系和語義關(guān)系,并對評價單元識別過程中進行隱式評價單元識別和過濾冗余文本,以提高評價單元的識別效果.

1 相關(guān)研究

1.1 觀點信息識別方法研究

在觀點信息識別方面的研究上,文獻[1]基于依存句法分析技術(shù),于在線評論中構(gòu)建Word2vec詞向量技術(shù)的特征庫提取用戶評論.通過引入依存詞對的詞性特征,依存關(guān)系的組合特征和依存距離約束,提高了觀點提取的準確性和質(zhì)量.所以,對文本進行依存句法分析和語義依存分析,可以影響到觀點信息提取的質(zhì)量,提高觀點信息識別的準確率.

本文是基于規(guī)則的觀點信息單元識別,在規(guī)則模板的研究上文獻[2]針對短文本內(nèi)容少,語義豐富且新詞和錯誤詞多的特征,提出了一種基于規(guī)則的短文本識別算法.通過基于詞典的方法,對觀點句的識別和情感傾向進行分析,但是該方法存在一定的局限性,導致召回率不高.

文獻[3]提出了一種基于組合句法規(guī)則的多語言無監(jiān)督情感分析方法,與大多數(shù)監(jiān)督模型相比,輸出具有可解釋性,在不同語料庫和領(lǐng)域中的魯棒性.通過引入復合操作的概念并以普遍依賴的形式利用語法信息,解決了對根據(jù)相關(guān)語言不同結(jié)構(gòu)不同的數(shù)據(jù)的剛性.文獻[4]提出了一種無監(jiān)督的方法來提取觀點和產(chǎn)品功能,為了獲得產(chǎn)品方面和觀點之間的依賴關(guān)系,使用了StanfordCoreNLP依賴解析器.從這些關(guān)系中,通過規(guī)則來抽取產(chǎn)品和意見.這種方法的主要優(yōu)點是不需要人工標注數(shù)據(jù),并且具有域獨立性.

近些年,在觀點信息識別的研究中,無監(jiān)督方法往往是基于規(guī)則規(guī)則模板的方法.此方法針對文本領(lǐng)域移植性差的問題,利用觀點信息之間的句法或語法關(guān)系來制定對應的規(guī)則,并且不需要進行大量的人工標注.

1.2 評價單元識別方法研究

有監(jiān)督學習方法是通過訓練后的模型對目標數(shù)據(jù)集進行識別,如最大熵模型[5]、主題模型[6]和條件隨機場模型[7]等,由于這類方法準確率較高,所以在評價單元識別方法研究中受到學者們的青睞.文獻[8]通過將三個不同的分類器,即支持向量機(SVM),最大熵(MaxEnt)和條件隨機場(CRF)組合到一個分類系統(tǒng)中,并對評估單元的候選集進行分類,利用少量標記的樣本和大量未標記的樣本用于提高識別性能.該方法與單分類器方法進行比較,可以有效地識別主觀句子中的評估單元.而文獻[9]也是使用有監(jiān)督學習方法,根據(jù)商品評論語料,使用條件隨機場進行評價單元識別,組合詞特征,依存句法特征和語義特征,達到充分利用上下文信息,提高評價對象的識別準確性的目的.

固然,有監(jiān)督學習方法確實獲得了較高的準確率,但是往往是需要大規(guī)模的語料標注,并且很少有考慮到隱式評價單元的識別.文獻[10]首先對帶注釋的文本通過句法和語義關(guān)系進行處理.然后使用TF-IDF算法對預處理后的數(shù)據(jù)集進行統(tǒng)計分析,以確定用戶的注意力.最后,用條件隨機場模型來識別評估單元.依靠句法分析和語義分析的結(jié)果,只能提取顯式評估單元,無法識別隱形的評估特征.文獻[11]比較并分析了兩種主要的隱性特征提取方法,即共現(xiàn)推斷法和分類法.通過構(gòu)造領(lǐng)域詞向量將語義關(guān)系引入句子模型,并通過增強句子的表達能力來優(yōu)化算法.討論了數(shù)據(jù)集均衡對算法的影響.可惜的是局限于均衡數(shù)據(jù)集下,算法才表現(xiàn)明顯.

由此可見,在評價單元的識別上,雖然有監(jiān)督學習方法能獲得較高的準確率,但是往往需要大規(guī)模標注語料,并且在現(xiàn)有的研究中對隱式評價單元的識別方法并不多.

2 基于觀點信息的電商文本評價單元識別方法研究

2.1 基于規(guī)則的觀點信息單元識別

觀點信息識別又可以稱之為情感信息要素識別,其目的是獲取文本評論中具備情感傾向的數(shù)據(jù)的信息單元,如觀點持有者、評價對象、評價詞等關(guān)鍵情感因素.一般來說,目前的方法主要包括無監(jiān)督方法和有監(jiān)督方法.有監(jiān)督學習方法使用經(jīng)過訓練的模型來識別目標數(shù)據(jù)集,如最大熵模型、主題模型和條件隨機場模型等[12],這些方法雖然精度高,但需要標注大量語料,標注成本高,領(lǐng)域可移植性差;大多數(shù)無監(jiān)督方法都基于規(guī)則模型.該方法指出,評價對象通常是名詞或名詞短語,而評價詞通常是形容詞,評價對象與評價詞彼此之間兼具評價關(guān)系,此方法不采用大批次的人工標注,它利用觀點信息之間的句法或語法關(guān)系來制定出相關(guān)規(guī)則.針對領(lǐng)域可移植性差的問題,本文選擇基于規(guī)則的方法從觀點角度來識別信息,其中從觀點識別的信息單元主要是評價對象、觀點詞、情感詞和程度詞.明確的思路是,在對觀點信息單元進行詞性分析的基礎(chǔ)上,通過制定基于依存句法分析以及語義依存分析結(jié)果的相關(guān)規(guī)則進行識別[13-14].觀點信息單元識別流程如圖1所示.

圖1 觀點信息單元識別流程

2.2 觀點信息單元描述及其詞性分析

而對于電商文本評論的內(nèi)容,觀點信息單元主要包括評價對象和評價詞語,本文又將評價詞語依照詞性和功能分為觀點詞、情感詞和程度詞.根據(jù)詞性的分析結(jié)果可知,完整的觀點表述以下幾種形式:①名詞+形容詞或名詞+副詞+形容詞;②名詞+動詞或名詞+副詞+動詞;③動詞+形容詞或動詞+副詞+形容詞;④名詞+副詞或動詞+副詞;⑤名詞+成語[15].部分中文詞性如表1所示.

表1 部分中文詞性

由于評論的規(guī)范性弱,單使用詞性難以提取出準確的觀點信息,而依存句法和語義依存關(guān)系可以反映句子中詞語間的相互修飾關(guān)系,現(xiàn)在詞性的基礎(chǔ)上加入依存句法和語義依存關(guān)系的約束來識別句子中的觀點信息.

本文采用了哈爾濱工業(yè)大學社會計算與信息檢索研究中心提供的語言技術(shù)平臺(Language Technology Platform,LTP)[16],以分句為單位進行觀點信息抽取,這里用標點符號作為劃分處理的基礎(chǔ),其中包括:逗號、句號和分號等.首先對分句進行依存句法分析和語義依存分析,然后根據(jù)解析結(jié)果,分析句中觀點特征的關(guān)系,最后,制定規(guī)則進行觀點信息識別.

2.2.1 依存句法分析規(guī)則制定

依存句法分析(dependency parsing)是對輸入的文本進行分析得到語言單位內(nèi)成分之間的依存關(guān)系從而揭示其句法結(jié)構(gòu)處理過程.部分依存句法標注關(guān)系如表2所示.

表2 部分依存句法分析標注關(guān)系

除此之外,還有ATT(定中關(guān)系)和CMP(動補關(guān)系)結(jié)構(gòu)可以識別觀點特征間的修飾關(guān)系.本文基于詞性標注融合依存句法分析提出的規(guī)則如表 3 所示.

表3 基于依存句法分析的觀點信息抽取規(guī)則

最后通過LTP工具獲得句子中詞語之間的依存關(guān)系,部分評論的依存句法關(guān)系示如圖2所示.

圖2 部分評論的依存句法關(guān)系示例

2.2.2 語義依存分析規(guī)則制定

語義依存分析(Semantic Dependency Parsing)是對輸入的文本進行分析得到語言單位內(nèi)成分之間的語義關(guān)聯(lián),跨越句子表層句法結(jié)構(gòu)的束縛直接獲取句子深層的語義信息[17].由于語義依存分析和依存句法分析是從不同層面對語句進行分析,語義依存關(guān)系可以分析句子間詞語的語義關(guān)系,對于語義復雜的句子可以更好地提取出觀點信息.因此,使用語義依存關(guān)系對提取觀點信息進行補充.部分的語義依存標注關(guān)系如表4所示.

表4 語義依存分析標注關(guān)系

2.2.3 規(guī)則運行過程

根據(jù)上節(jié)所述的設(shè)計思路,本節(jié)給出具體的基于詞性融合依存句法分析和語義依存分析規(guī)則的運行過程如下:

1)輸入分句.

2)通過依存句法分析和語義依存分析分別得到核心詞,判斷核心詞是否相同,如不同則選擇語義依存分析得結(jié)果.

3)判斷核心詞的詞性,按照表3的規(guī)則進行觀點特征提取.

4)按照表3的匹配規(guī)則進行核心詞后移,并在運行過程中,判斷是否有匹配的否定標記或程度標記.如核心詞詞性為v,匹配規(guī)則為VOB→n,則將核心詞進行后移,現(xiàn)核心詞為該名詞.

5)判斷核心詞是否有并列關(guān)系COO,如存在則把其作為核心詞,重復步驟3.

6)循環(huán)至結(jié)束.

按照表3中制定的規(guī)則對預處理后的語料庫進行信息單元識別,部分評論的信息單元識別結(jié)果示例如圖3所示.

圖3 信息單元識別結(jié)果示例

2.3 基于關(guān)鍵句的評價單元識別

評價單元抽取是指將評論對象、評價詞及其程度詞作為一個單元進行抽取[18].通常一條評論文本中存在無關(guān)評論主體的評論,并且在表達時會包含隱式評論對象導致的隱式評價單元的情況.由于隱式評價對象識別的研究主要是基于評價對象和評價詞之間的關(guān)系為隱式評論中的情感詞匹配特征詞[19].因此,本文首先根據(jù)評論分句中評價單元是否完整作為依據(jù)將其分為關(guān)鍵句和非關(guān)鍵句,然后分別對關(guān)鍵句和非關(guān)鍵句進行噪音過濾,最后以關(guān)鍵句為基礎(chǔ)對隱式評價對象的不同表現(xiàn)形式采取不同的方法對其進行識別,進而得到部分隱式評價單元.隱式評價對象識別過程如圖4所示.

圖4 隱式評價對象識別過程

2.3.1 完整評論對象識別

若僅通過觀點信息識別規(guī)則,將不能獲得完整的評論對象,例如“服務(wù)質(zhì)量”,在規(guī)則的識別下僅為該完整評論對象的最后一個單詞“質(zhì)量”,而在語料庫中又包括“早餐質(zhì)量”,“床單質(zhì)量”等,從而導致不能區(qū)分此評論對象為本體的哪個屬性.不完整評論對象通常表現(xiàn)為兩種形式:①連續(xù)的幾個單詞組成,如:房間設(shè)施,其詞性通常為名詞和動詞組成;②由“的”相連的詞語:洗手間的水龍頭,“的”之前的詞通常為名詞,并且未識別的部分在語料庫中被單獨識別為評論對象.因此, 本文通過詞性規(guī)則對已識別出的評論對象進行完整識別并抽取,并通過ROST Content Mining軟件對獲得的完整評論對象生成可視化的關(guān)系網(wǎng)絡(luò),部分關(guān)系網(wǎng)絡(luò)如圖5所示.

圖5 酒店領(lǐng)域部分評價對象關(guān)系網(wǎng)絡(luò)

本文識別完整評論對象的過程如下:

1) 獲取標記為“評價對象”的詞,并判斷該詞是否不在句首;

2) 如果滿足條件1),獲取該詞的前一個詞;

3)判斷該詞標記是否為“其他”,且該詞為“的”或該詞在語料中的其他語句中被標記為“評價對象”;

4) 如果滿足條件3),將其標記為“評價對象”,否則,退出;

5)重復步驟1),直至結(jié)束.

2.3.2 關(guān)鍵句識別

1)假設(shè)性語句過濾

評價單元的抽取過程中存在未發(fā)生的假設(shè)性語句,通過匹配特定詞語過濾評論中具有假設(shè)性傾向的句子,如建議、希望、如果等.部分假設(shè)性語句示例如表5所示.

表5 假設(shè)性語句示例

2)陳述性語句過濾

如果只是通過以上規(guī)則來識別不具有情感傾向的陳述性語句,那么評價單元識別會存在一定的噪音.根據(jù)觀點的表達習慣,可以看出,當評價詞僅為觀點詞時,評價單元的表達形式為“評論對象-觀點詞”.當出現(xiàn)“觀點詞-評論對象”的形式時,不會判斷評論對象,而將更多注意力放在動作的發(fā)出上.在此基礎(chǔ)上,本文從觀點信息的角度總結(jié)并過濾了陳述式語句的表達形式.

針對相對簡潔的陳述性語句,如評論“出差入住的酒店,定了三人間”,其不具有情感傾向,但如果識別為觀點詞的動詞為“有、無、沒有、沒”,如評論“無電梯”,此類句子又具有了情感傾向,因此,過濾評價詞僅為觀點詞且不是“有、無、沒有、沒”、評論對象唯一且在評價詞之后的句子.

針對相對復雜的陳述性語句,如評論“這家酒店跟旅游網(wǎng)站上看到的樣子不一致”,其評價對象不唯一,本文針對這種情況提出了一種評論對象影響因子,此方法通過改進的TF-IDF算法進行計算.TF-IDF是一種衡量特征項權(quán)值的有效方法,TF表示特征項詞頻, IDF 表示逆文檔頻率,tf-idf值表示某詞詞頻越大,且包含該詞的文檔數(shù)越多,則該詞重要程度越高[20].而評論對象影響因子隨著該詞作為評論對象的詞頻和包含其作為評論對象的文檔數(shù)均正比,其改進后的tf-idf算法如式(1)~(3)所示:

(1)

(2)

TF-IDF=TF×(IDF)-1

(3)

其中:|D|為文檔總數(shù);|{d∈D:i∈d}|為該詞作為評論對象的文檔數(shù).為避免并列評論對象情況,僅考慮當評價詞為觀點詞、評論對象不唯一且觀點詞的位置在評論對象中間的語句,計算兩個評論對象的影響因子,當后者評論對象的影響因子大于前者時,可以看出評論側(cè)重于后者,因此,過濾此類句子.

部分評價對象的tf-idf值如表6所示.

表6 部分評價對象的tf-idf值

2.3.3 基于結(jié)構(gòu)化主體的隱式評論單元識別

因為中文的言語特質(zhì),在上下文語境的提示下,使得語言中含有較多隱含內(nèi)容[21].在對評價單元的抽取過程中,只關(guān)注了直接包含在句子中的評論單元,而忽略了隱含的評論單元,隱式評價單元的識別主要通過識別隱式評價對象來完成,其中隱式評論對象主要包含三種情況,缺省評價對象:如評論“吃的很飽”,省略了評論對象為“份量”;泛指評價對象:如評論“酒店很實惠”,使用了更大范圍的評論對象“酒店”,而非精準的評論對象“性價比”;虛指評論對象:如評論“吃飯購物都很方便”,其中“吃飯購物”指評論對象“位置”.識別隱式評論單元可以更全面捕捉用戶關(guān)注商品的某一方面或某一屬性,又可以提升方面級情感分析的精度.現(xiàn)有研究中的隱式評論單元的識別方法多數(shù)通過某種算法生成顯式的評價單元,再尋找包含隱式評論對象的評論句中的意見以確定相應的屬性.在此基礎(chǔ)上,本文所使用的方法與現(xiàn)有方法相比主要有以下不同:

1)對評論對象之間的相關(guān)性、相似性進行了人工的整理,并將評論對象結(jié)構(gòu)化,從而對主體更深入的了解,進而對隱式評論對象的識別大大的提高.

2)在考慮情感詞與評論對象之間關(guān)系的同時,還將觀點詞與評論對象之間的關(guān)系考慮在內(nèi).

2.3.4 隱式評價單元識別

在電商文本評論中,會通過多種不同的方式對主體進行評價,但存在一些專屬的評價詞修飾某一特定的評論對象,如“貴”修飾唯一評價對象“價格”,也存在一些特殊的評價詞修飾一部分評論對象,如“方便”修飾評價對象“交通”或“位置”,而通用評價詞可以修飾所有評論對象,如“好”.基于此,本文構(gòu)建4張表來進行隱式評論對象的識別.第一張表為1v1評價單元-其中為唯一修飾關(guān)系的評價搭配;第二張表為1v多評價單元-其中為特殊但不唯一修飾關(guān)系的評價搭配;第三張表為通用情感詞;第四張表為上下文語義關(guān)聯(lián)評價單元-其中為前一句中出現(xiàn)的評價搭配.其表的優(yōu)先級為1v1評價單元表>1v多評價單元表>上下文語義關(guān)聯(lián)評價單元表>通用情感詞表.部分評價搭配如表7所示.

表7 部分評價搭配

隱式評論對象識別的過程:

1) 判斷該評價詞是否出現(xiàn)在1v1評價搭配表中,若出現(xiàn)則確定為該評價對象.

2)當該評價對象沒出現(xiàn)在1v1評價搭配表,判斷是否出現(xiàn)在1v多評價搭配表中,若出現(xiàn),則查看上下文語義關(guān)聯(lián)評價搭配表的評價對象是否相同,或通過評論對象結(jié)構(gòu)圖判斷其評價對象關(guān)系是否相似.

3)當該評價詞為通用情感詞,查看上下文語義關(guān)聯(lián)評價搭配表,若不存在,表明該評價詞在句首,自動賦予評價對象“酒店”.

3 實驗數(shù)據(jù)及結(jié)果

3.1 實驗數(shù)據(jù)

本文實驗評論語料是譚松波老師收集整理的攜程網(wǎng)上的中文酒店評論(ChnSenti Corp),其中包含3個不同數(shù)據(jù)量的數(shù)據(jù)集,分別是10 000條的不平衡數(shù)據(jù)集、6 000條的平衡數(shù)據(jù)集和2 000條的平衡數(shù)據(jù)集,接下來的實驗將采用不同數(shù)據(jù)量的酒店評論數(shù)據(jù)進行.

3.2 評價單元識別結(jié)果及分析

1)評價指標

本章實驗采用了召回率(recall)、準確率(precision)和F1值(F1-Score)作為評價單元識別的評價指標,如公式(4)~(6)所示:

(4)

(5)

(6)

其中:a為正確識別的評價單元的數(shù)目;b為實際存在的評價單元的數(shù)目;c為程序識別的評價單元的數(shù)目.

2)基于上述方法獲得評價單元,部分評價單元識別結(jié)果如表8所示.

表8 部分評價單元識別結(jié)果

3)評價單元識別結(jié)果及分析

為證明本文方法的有效性,本文對數(shù)據(jù)集進行了三組對比實驗,具體如下.

第一組實驗分別對原始語料和過濾后的語料進行評價單元的識別;

第二組實驗為基于最大熵模型的評價單元識別;

第三組實驗為進行隱式對象識別和不進行隱式對象識別的評價單元識別實驗.

實驗結(jié)果分別如表9~11所示.

表9 第一組實驗結(jié)果對比

從表9的實驗結(jié)果可以看出,抽取關(guān)鍵句可以提升評價單元的識別效果.由于原始數(shù)據(jù)中存在大量不具情感情感的假設(shè)性語句和陳述性語句,僅僅使用依存句法分析想得到理想的結(jié)果比較困難,而對消除原始語句的冗余后,可以改善這個問題,進而提高識別的結(jié)果.從表10的實驗結(jié)果可以看出,本文方法與文獻[15]最大熵模型的結(jié)果進行對比,其在各個指標上都得到了提高,由此證明了本文方法的的有效性.隱式評價單元多以隱式評價對象的方式表達,從表11的實驗結(jié)果可以看出,本文針對隱式評價對象的情況對隱式評價單元進行了識別,進而提高了整體評價單元的識別效果.

表10 第二組實驗結(jié)果對比

表11 第三組實驗結(jié)果對比

4 結(jié) 語

隨著互聯(lián)網(wǎng)的快速發(fā)展與普及,人們在互聯(lián)網(wǎng)上自由發(fā)表言論、表達情感.同時,各種電商平臺的出現(xiàn),導致互聯(lián)網(wǎng)上產(chǎn)生了對不同商品的評論文本,此類文本不僅可以表達購買者的情感傾向,而且可以成為潛在購買者決定是否購買的重要憑證之一,如何有效利用這類文本,并從中挖掘出其有用的信息已經(jīng)成為大量學者的研究熱點.本文雖然能識別隱式評價單元,但是識別效果仍有待提高,后續(xù)的研究重點會放在如何更好提升文本的準確率,召回率以及識別性能上.

猜你喜歡
觀點語義對象
神秘來電
睿士(2023年2期)2023-03-02 02:01:09
語言與語義
觀點
攻略對象的心思好難猜
意林(2018年3期)2018-03-02 15:17:24
基于熵的快速掃描法的FNEA初始對象的生成方法
“上”與“下”語義的不對稱性及其認知闡釋
區(qū)間對象族的可鎮(zhèn)定性分析
業(yè)內(nèi)觀點
營銷界(2015年22期)2015-02-28 22:05:04
認知范疇模糊與語義模糊
新銳觀點
清風(2014年10期)2014-09-08 13:11:04
云南省| 正镶白旗| 渑池县| 舟曲县| 西昌市| 措勤县| 许昌县| 正蓝旗| 清原| 儋州市| 兴和县| 兴山县| 油尖旺区| 德保县| 巴林右旗| 竹北市| 容城县| 永吉县| 永兴县| 合阳县| 桃园市| 忻州市| 宜兰市| 景泰县| 阿图什市| 潞西市| 五莲县| 东乌珠穆沁旗| 博兴县| 余姚市| 尼木县| 武冈市| 延庆县| 惠来县| 南丰县| 定兴县| 东明县| 从化市| 轮台县| 凤台县| 原阳县|