劉 臣,吉 莉,唐 莉
(上海理工大學(xué) 管理學(xué)院,上海 200093)
近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,催生了電子商務(wù)這種購(gòu)物模式.消費(fèi)者購(gòu)買(mǎi)和使用產(chǎn)品之后會(huì)在網(wǎng)上發(fā)表對(duì)產(chǎn)品的評(píng)論,因此電商平臺(tái)上產(chǎn)生了大量的商品評(píng)論文本數(shù)據(jù).這些評(píng)論中的觀點(diǎn)詞是把握消費(fèi)者情感傾向的關(guān)鍵,而觀點(diǎn)詞所修飾的特征詞則反映了消費(fèi)者對(duì)于產(chǎn)品關(guān)注的焦點(diǎn).這些特征觀點(diǎn)詞不僅影響著消費(fèi)者的購(gòu)買(mǎi)意向,同時(shí)也可以作為商家了解競(jìng)爭(zhēng)對(duì)手的一個(gè)窗口,從而提高產(chǎn)品質(zhì)量,更好地為消費(fèi)者服務(wù).如何從這些海量評(píng)論文本中有效地提取商品特征詞和觀點(diǎn)詞,更好為消費(fèi)者跟商家服務(wù),是意見(jiàn)挖掘領(lǐng)域中的熱點(diǎn)問(wèn)題.在這些特征詞觀點(diǎn)詞中又有高頻詞和低頻詞之分,高頻詞更能準(zhǔn)確地反應(yīng)消費(fèi)者關(guān)注產(chǎn)品的焦點(diǎn),所以本文重點(diǎn)挖掘出產(chǎn)品評(píng)論中高頻特征觀點(diǎn)詞.
近些年有很多學(xué)者針對(duì)產(chǎn)品特征詞觀點(diǎn)詞提取進(jìn)行了研究.Zhao等人[1]提出MaxEnt-LDA為產(chǎn)品特征詞和觀點(diǎn)詞聯(lián)合建模,并利用句法特征使兩者分離.但在實(shí)際數(shù)據(jù)中,卻很難識(shí)別出評(píng)論文本中出現(xiàn)的高頻特征詞.Hu等人[2]利用關(guān)聯(lián)規(guī)則算法,將名詞中的頻繁項(xiàng)集提取出來(lái)作為候選特征詞,再將產(chǎn)品特征詞所在句子中的形容詞提取出來(lái)作為觀點(diǎn)詞.這種單純的將名詞作為候選特征詞的方法,會(huì)產(chǎn)生許多不相關(guān)的特征詞,降低結(jié)果的準(zhǔn)確率.Popescu等人[3]將Hu等人的方法做了改進(jìn),首先用PMI算法將停用詞過(guò)濾,再通過(guò)句法依存關(guān)系和特征詞來(lái)提取觀點(diǎn)詞.李實(shí)等人[4]基于對(duì)關(guān)聯(lián)規(guī)則算法的改進(jìn)對(duì)產(chǎn)品評(píng)論的特征信息進(jìn)行挖掘.馬柏樟等人[5]提出基于潛在狄利特雷分布模型的產(chǎn)品特征提取方法.Qiu等人[6]、Hai等人[7]基于雙向傳播算法,利用特征觀點(diǎn)詞之間的修飾關(guān)系或依存關(guān)系,觀點(diǎn)詞提取特征詞、特征詞提取觀點(diǎn)詞的雙向傳播模式.實(shí)驗(yàn)結(jié)果表明,利用雙向傳播算法提取特征詞和觀點(diǎn)詞的召回率較高,但隨著迭代的深入開(kāi)始出現(xiàn)較多的無(wú)關(guān)詞,導(dǎo)致準(zhǔn)確率較低.
孫曉等人[8]提出了基于條件隨機(jī)場(chǎng)模型和支持向量機(jī)的層疊模型,提取產(chǎn)品評(píng)論中的特征詞和觀點(diǎn)詞.劉臣等人[9]則是將評(píng)論中的名詞組塊作為產(chǎn)品特征,動(dòng)詞組塊作為觀點(diǎn)詞來(lái)提取特征觀點(diǎn)詞.劉通等人[10]依據(jù)N-Gram的邊界平均信息熵的指標(biāo)和子串依賴關(guān)系對(duì)候選項(xiàng)進(jìn)行過(guò)濾并提取特征.Jin等人[11]采用HMMs模型識(shí)別特征觀點(diǎn)詞.李志義等人[12]在條件隨機(jī)場(chǎng)模型(CRFs)的基礎(chǔ)上,通過(guò)分析特征詞和觀點(diǎn)詞之間存在的依存關(guān)系抽取特征觀點(diǎn)詞.Titov等人[13]利用多粒度主題模型,提取出按主題自動(dòng)聚類的特征詞和觀點(diǎn)詞.彭云等人[14]提出語(yǔ)義關(guān)系約束的主題模型SRC-LDA (Semantic Relation Constrained LDA),用來(lái)提取細(xì)粒度特征和情感詞.Kamal等人[15]對(duì)評(píng)論文本進(jìn)行語(yǔ)言學(xué)和語(yǔ)義分析,利用相關(guān)規(guī)則實(shí)現(xiàn)評(píng)論文本的產(chǎn)品特征觀點(diǎn)詞對(duì)的提取.
其他一些學(xué)者基于節(jié)點(diǎn)排序算法,將特征詞和觀點(diǎn)詞進(jìn)行重要性排序.例如郝亞輝[16]將評(píng)論中的特征詞和觀點(diǎn)詞間的句法依存關(guān)系模式作為HUB節(jié)點(diǎn),再利用HITS算法對(duì)候選特征詞和觀點(diǎn)詞進(jìn)行排序,提高了特征詞和情感詞的準(zhǔn)確率.Liu等人[17]提出了一種協(xié)同排序算法來(lái)估計(jì)每個(gè)候選詞的可信度,并提取出具有較高可信度的候選詞作為候選目標(biāo)詞.Zhang等人[18]對(duì)特征候選進(jìn)行特征重要性排序,由特征相關(guān)性和特征頻率兩個(gè)因素決定,利用HITS算法查找重要特征并將其排序.但這些研究中,都是以等權(quán)重的方式處理候選特征詞和觀點(diǎn)詞節(jié)點(diǎn),沒(méi)有考慮到節(jié)點(diǎn)權(quán)重的大小對(duì)節(jié)點(diǎn)重要性排序的影響.
本文將從二分網(wǎng)絡(luò)的節(jié)點(diǎn)重要性排序角度來(lái)識(shí)別特征觀點(diǎn)詞,建立特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò).針對(duì)網(wǎng)絡(luò)是否加權(quán),分為無(wú)權(quán)網(wǎng)絡(luò)和加權(quán)網(wǎng)絡(luò).首先在無(wú)權(quán)網(wǎng)絡(luò)中提出了B-核分解算法,B-核分解算法是將兩類節(jié)點(diǎn)的度值作為度量值對(duì)節(jié)點(diǎn)的重要性進(jìn)行排序.后針對(duì)無(wú)權(quán)網(wǎng)絡(luò)的缺陷改進(jìn)算法,提出了BW-核分解算法.BW-核分解算法則是將節(jié)點(diǎn)的權(quán)值作為度量值對(duì)節(jié)點(diǎn)進(jìn)行重要性的排序.本文從京東上選取了四種產(chǎn)品的評(píng)論數(shù)據(jù)集作為研究對(duì)象,評(píng)價(jià)指標(biāo)采用目前廣泛接受的準(zhǔn)確率(Precision)和召回率(Recall)、F值(F-measure)來(lái)衡量算法的有效性.
本文從二分網(wǎng)絡(luò)的角度來(lái)識(shí)別高頻特征觀點(diǎn)詞,因此首先構(gòu)建特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò).二分網(wǎng)絡(luò)是由兩種類型的節(jié)點(diǎn)構(gòu)成,不同類型的節(jié)點(diǎn)之間才有連邊.在復(fù)雜網(wǎng)絡(luò)研究中,對(duì)于給定的網(wǎng)絡(luò)如果節(jié)點(diǎn)集可以分為兩個(gè)互不相交的非空子集X和Y,使得中的每一條邊的兩個(gè)端點(diǎn)中必定有一個(gè)屬于X,另一個(gè)屬于Y.則將稱為二分網(wǎng)絡(luò)其中在特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)中,包括特征詞和觀點(diǎn)詞兩類節(jié)點(diǎn).X中的元素表示特征詞節(jié)點(diǎn),Y中的元素表示觀點(diǎn)詞節(jié)點(diǎn),E表示連邊即特征詞和觀點(diǎn)詞的修飾關(guān)系.典型的特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)如圖1所示.
圖1 特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)圖
節(jié)點(diǎn)的度是單頂點(diǎn)網(wǎng)絡(luò)中常見(jiàn)的基本性質(zhì),通常是指與該節(jié)點(diǎn)連接的邊的數(shù)量.在二分網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)的度同樣也是指與該節(jié)點(diǎn)連接的邊的數(shù)量,且兩類節(jié)點(diǎn)的度之和相等[19].在特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)中,一個(gè)特征詞的度即為與其相連的觀點(diǎn)詞的的個(gè)數(shù),一個(gè)觀點(diǎn)詞的度即為與其相連的特征詞的個(gè)數(shù).所有特征詞節(jié)點(diǎn)的度之和等于所有觀點(diǎn)詞節(jié)點(diǎn)的度之和.用公式表示即為:
本文在無(wú)權(quán)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)中,首先提出了將兩類節(jié)點(diǎn)的度值作為度量值來(lái)評(píng)價(jià)節(jié)點(diǎn)重要性的算法,我們將之稱為B-核分解算法.一般來(lái)說(shuō),如果僅用節(jié)點(diǎn)的度值作為度量值來(lái)評(píng)價(jià)節(jié)點(diǎn)重要性是不夠精確的.這是由于現(xiàn)實(shí)生活中,許多網(wǎng)絡(luò)都是加權(quán)網(wǎng)絡(luò),權(quán)重及其分布會(huì)對(duì)網(wǎng)絡(luò)的屬性和功能產(chǎn)生重要影響.權(quán)重的大小,代表了兩個(gè)節(jié)點(diǎn)之間聯(lián)系的緊密程度.即當(dāng)兩個(gè)節(jié)點(diǎn)同時(shí)出現(xiàn)的次數(shù)越多時(shí),兩者之間存在某種關(guān)聯(lián)的可能性越大.例如當(dāng)候選特征觀點(diǎn)詞對(duì)總是共同出現(xiàn)時(shí),說(shuō)明兩者是固定搭配的可能性越大,就越有可能是真正的特征觀點(diǎn)詞.而度只能用來(lái)表示兩類節(jié)點(diǎn)共同出現(xiàn)過(guò),但共同出現(xiàn)的詞對(duì)不一定就是真正的特征觀點(diǎn)詞對(duì).因?yàn)樵诤蜻x特征觀點(diǎn)詞集中,錯(cuò)誤的特征觀點(diǎn)詞對(duì)也會(huì)共同出現(xiàn).相對(duì)于度值來(lái)說(shuō),將權(quán)重作為度量值可以更有效地詮釋節(jié)點(diǎn)的重要性.所以本文對(duì)B-核分解算法進(jìn)行了調(diào)整,提出將權(quán)值大小作為評(píng)價(jià)節(jié)點(diǎn)重要性排序的度量值,我們稱為BW-核分解算法.上述兩種算法的目的是對(duì)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行重要性排序,從而識(shí)別出中心節(jié)點(diǎn),找出特征觀點(diǎn)詞.
首先計(jì)算網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的度值,確定網(wǎng)絡(luò)中所有節(jié)點(diǎn)的最小度值.通過(guò)遞歸地移除網(wǎng)絡(luò)中所有度值小于或等于的節(jié)點(diǎn),從而將網(wǎng)絡(luò)分成若干層.被去除的節(jié)點(diǎn)的集合,稱為網(wǎng)絡(luò)的B-shell(B-殼),簡(jiǎn)稱.B-shell同時(shí)作為節(jié)點(diǎn)重要性排序指標(biāo),值越大,節(jié)點(diǎn)重要性越大.剩下的節(jié)點(diǎn)的集合稱為網(wǎng)絡(luò)的B-核.以下是B-核算法.
算法1.B-核算法CFO: 候選特征觀點(diǎn)詞集.B: 無(wú)權(quán)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò).表示網(wǎng)絡(luò)中的節(jié)點(diǎn).Ranking set: 新特征觀點(diǎn)詞排序集.i Step 1: Input: CFO Step 2: 構(gòu)建網(wǎng)絡(luò)B Step 3: Fori inB:E is empty set bmin=min_degree(B)If is feature:i.degree≤bmin i If :i If is opinion:i.degree≤bmin is inserted intoE i is inserted intoE E is inserted into Ranking set E is deleted UpdateB Every node are recalculated Step 4: Output: Ranking set If :i
通過(guò)B-核分解算法能夠確定所有節(jié)點(diǎn)在網(wǎng)絡(luò)中所處的層級(jí),并給出節(jié)點(diǎn)的重要性排序,識(shí)別出二分網(wǎng)絡(luò)中的中心節(jié)點(diǎn).下面我們用實(shí)例對(duì)B-核算法進(jìn)行更加直觀地解釋.首先構(gòu)建一個(gè)無(wú)權(quán)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò),如圖2所示.該網(wǎng)絡(luò)包含特征詞和觀點(diǎn)詞兩類節(jié)點(diǎn),連邊表示它們之間的修飾關(guān)系.例如節(jié)點(diǎn)A表示的特征詞是“質(zhì)量”,那么與它有連邊的節(jié)點(diǎn)H、I、J可以分別表示為觀點(diǎn)詞“好”、“差”和“不錯(cuò)”.每個(gè)節(jié)點(diǎn)連邊的個(gè)數(shù)表示此節(jié)點(diǎn)的度,例如節(jié)點(diǎn)A的度值為b=3,節(jié)點(diǎn)L的度值為b=2.
圖2 無(wú)權(quán)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)圖
再根據(jù)B-核分解算法對(duì)節(jié)點(diǎn)重要性進(jìn)行排序,排序結(jié)果如圖3所示.該網(wǎng)絡(luò)被劃分成3個(gè)不同的層,每一層節(jié)點(diǎn)的值相等.通過(guò)B-核分解算法確定網(wǎng)絡(luò)中的核心節(jié)點(diǎn),即值最大的節(jié)點(diǎn)是最具有影響力的節(jié)點(diǎn).在此實(shí)例中,網(wǎng)絡(luò)中的核心節(jié)點(diǎn)分別是特征詞節(jié)點(diǎn)A、B、D和觀點(diǎn)詞節(jié)點(diǎn)H、I、J.這六個(gè)節(jié)點(diǎn)是該網(wǎng)絡(luò)中的中心節(jié)點(diǎn),同時(shí)也最有可能是我們要找的特征觀點(diǎn)詞.如圖2所示,特征詞節(jié)點(diǎn)A和B分別與觀點(diǎn)詞節(jié)點(diǎn)H、I、J一同出現(xiàn)過(guò),特征詞節(jié)點(diǎn)D分別與觀點(diǎn)詞節(jié)點(diǎn)H、I、L一同出現(xiàn)過(guò).當(dāng)某個(gè)候選觀點(diǎn)詞同時(shí)跟幾個(gè)候選特征詞共同出現(xiàn)時(shí),說(shuō)明候選觀點(diǎn)詞H、I、J有可能是真正的觀點(diǎn)詞.同理,當(dāng)某個(gè)候選特征詞同時(shí)跟幾個(gè)候選觀點(diǎn)詞同時(shí)出現(xiàn)時(shí),候選特征詞A、B、D也可能是真正的特征詞.例如,節(jié)點(diǎn)A為候選特征詞“質(zhì)量”,那么節(jié)點(diǎn)H、I、J就有可能是候選觀點(diǎn)詞“好”、“不錯(cuò)”、“差”.通過(guò)人工分析我們知道“質(zhì)量”、“好”、“不錯(cuò)”、“差”都是真正的特征觀點(diǎn)詞.同理得出特征詞節(jié)點(diǎn)B、D和觀點(diǎn)詞節(jié)點(diǎn)H、I、J也有可能是真正的特征詞和觀點(diǎn)詞.
圖3 節(jié)點(diǎn)重要性排序圖
首先計(jì)算網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的權(quán)值,確定網(wǎng)絡(luò)中最小的權(quán)值bwmin.通過(guò)遞歸地去除網(wǎng)絡(luò)中所有權(quán)值小于或等于bwmin的節(jié)點(diǎn),從而將網(wǎng)絡(luò)分成若干層.被刪除的節(jié)點(diǎn)集合稱為Bw-shell(Bw-殼),簡(jiǎn)稱Bws.Bw-shell同時(shí)作為節(jié)點(diǎn)重要性排序指標(biāo),Bws值越大,節(jié)點(diǎn)的重要性也就越大.剩余的節(jié)點(diǎn)集合稱為BW-核.
在本文的加權(quán)網(wǎng)絡(luò)中,我們將權(quán)值的大小設(shè)置為整數(shù),即bwmin的起始值為整數(shù)1.然而在實(shí)際生活中,權(quán)值的大小并不全是整數(shù),更多的是隨機(jī)數(shù).即一個(gè)加權(quán)網(wǎng)絡(luò)中權(quán)值有可能是整數(shù),也有可能是小數(shù).所以在本文算法中,我們將參數(shù)值設(shè)為a≥bwmin.即當(dāng)參數(shù)值a大于或等于網(wǎng)絡(luò)中最小權(quán)值時(shí),BW-核算法才會(huì)以權(quán)值為整數(shù)進(jìn)行分解.以下是BW-核算法.
算法2.BW-核算法CFO: 候選特征觀點(diǎn)詞集.B: 加權(quán)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò).表示網(wǎng)絡(luò)中的節(jié)點(diǎn).Ranking set: 新特征觀點(diǎn)詞排序集.i Step 1: Input: CFO Step 2: 構(gòu)建網(wǎng)絡(luò)B Step 3: Fori inB:E is empty set bwmin=min_weight(B)a≥bwmin If is feature:i.weight≤bwmin i If :i If is opinion:i.weight≤bwmin is inserted intoE i is inserted intoE E is inserted into Ranking set E is deleted UpdateB Every node weights are recalculated Step 4: Output: Ranking set If :i
通過(guò)BW-核分解算法能夠確定所有節(jié)點(diǎn)在網(wǎng)絡(luò)中所處的層級(jí),并給出節(jié)點(diǎn)的重要性排序,識(shí)別出此網(wǎng)絡(luò)的中心節(jié)點(diǎn).下面我們同樣用實(shí)例來(lái)闡述BW-核分解算法.首先構(gòu)建一個(gè)加權(quán)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò),如圖4所示.在該網(wǎng)絡(luò)中,節(jié)點(diǎn)的權(quán)值是指與該節(jié)點(diǎn)相連邊的權(quán)重之和.其中邊的權(quán)重定義為特征-觀點(diǎn)對(duì)在數(shù)據(jù)集中出現(xiàn)的次數(shù),簡(jiǎn)稱邊權(quán).例如節(jié)點(diǎn)A的權(quán)值等于A-I和A-J的邊權(quán)之和.假設(shè)A-I的邊權(quán)A-J的邊權(quán)那么節(jié)點(diǎn)A的權(quán)值
圖4 加權(quán)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)圖
再根據(jù)BW-核算法對(duì)加權(quán)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行重要性排序,排序結(jié)果如圖5所示.該網(wǎng)絡(luò)被分成6層,其中處于第6層的節(jié)點(diǎn)屬于該網(wǎng)絡(luò)的核心節(jié)點(diǎn),也就是影響力最大的節(jié)點(diǎn).通過(guò)該分解圖我們還可以發(fā)現(xiàn)權(quán)值大的節(jié)點(diǎn),并不一定就越接近核心層.例如特征詞節(jié)點(diǎn)G,它的權(quán)值bw=4,但卻和bw=2的特征詞節(jié)點(diǎn)C和H在同一層級(jí).這是由于該候選特征詞很可能是大多數(shù)用戶在評(píng)論時(shí)的習(xí)慣用語(yǔ),雖然出現(xiàn)的次數(shù)較多,但并不是真正的特征詞.例如“方面”這個(gè)詞語(yǔ),大多數(shù)用戶在評(píng)價(jià)某產(chǎn)品的特征詞時(shí)會(huì)習(xí)慣地帶上“方面”.比如當(dāng)某個(gè)用戶想表達(dá)“質(zhì)量不錯(cuò)”這個(gè)特征觀點(diǎn)時(shí),往往在評(píng)論時(shí)會(huì)寫(xiě)成“質(zhì)量方面不錯(cuò)”.這時(shí),利用SBV關(guān)系不僅能識(shí)別出“質(zhì)量-不錯(cuò)”這一對(duì)正確的特征觀點(diǎn)詞,也會(huì)識(shí)別出“方面-不錯(cuò)”這一對(duì)錯(cuò)誤的特征觀點(diǎn)詞.所以利用BW-核算法可以將此類節(jié)點(diǎn)排在影響力較小的外層.
圖5 節(jié)點(diǎn)重要性排序圖
本文根據(jù)二分網(wǎng)絡(luò)中節(jié)點(diǎn)重要性排序算法即B-核跟BW-核分解算法,對(duì)候選特征觀點(diǎn)詞進(jìn)行排序.為了驗(yàn)證此算法在識(shí)別特征詞和觀點(diǎn)詞方面的有效性,本文將來(lái)自京東商城的四種商品的評(píng)論文
本作為實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行對(duì)比分析.分別是樂(lè)視手機(jī)、洗面奶、華為手機(jī)、羽毛球拍.
本文首先對(duì)評(píng)價(jià)文本進(jìn)行依存句法分析.基于產(chǎn)品評(píng)論特征詞,利用依存關(guān)系提取出與產(chǎn)品特征相關(guān)的觀點(diǎn)詞,構(gòu)成候選特征觀點(diǎn)詞對(duì)集.圖6是以樂(lè)視手機(jī)舉例說(shuō)明,利用哈爾濱工業(yè)大學(xué)語(yǔ)言云的句法解析結(jié)果.圖中n代表名詞,a代表形容詞,d代表副詞.利用 SBV 關(guān)系識(shí)別出[屏幕-不錯(cuò)]、[質(zhì)量-好]、[內(nèi)存-大]這三組候選特征觀點(diǎn)詞對(duì).
根據(jù)基于SBV關(guān)系識(shí)別出的候選特征觀點(diǎn)詞對(duì)構(gòu)建二分網(wǎng)絡(luò),特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)數(shù)據(jù)集如表 1所示.表 1中給出了網(wǎng)絡(luò)的一些詳細(xì)的統(tǒng)計(jì)性質(zhì).I–/I+分別表示為無(wú)權(quán)無(wú)向網(wǎng)絡(luò)跟加權(quán)無(wú)向網(wǎng)絡(luò),中表示特征節(jié)點(diǎn)總數(shù),表示觀點(diǎn)詞節(jié)點(diǎn)總數(shù),表示邊數(shù).
圖6 句法分析結(jié)果
表1 特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)數(shù)據(jù)集
在特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)中,在確定了網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的度值之后,我們可以把網(wǎng)絡(luò)中節(jié)點(diǎn)的度數(shù)按照從小到大排序,從而得到滿足度為的節(jié)點(diǎn)總數(shù).我們將這種排序方法稱為節(jié)點(diǎn)的度分布.特征詞的度分布即與每個(gè)特征詞相連接的觀點(diǎn)詞數(shù)量的分布,結(jié)果如圖7所示; 觀點(diǎn)詞的度分布即與每個(gè)觀點(diǎn)詞相連接的特征詞數(shù)量的分布,結(jié)果如圖8所示.從圖中我們可以看出在特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)中,隨著度數(shù)的增大,兩類節(jié)點(diǎn)數(shù)均不斷減小,這類具有較高的度值且數(shù)量不多的節(jié)點(diǎn)就是我們要找的高頻特征觀點(diǎn)詞.比如特征詞中的“外觀”“質(zhì)量”“價(jià)格”等,他們都是具有高連接的節(jié)點(diǎn),即具有較高的度值.比如觀點(diǎn)詞中的“好”、“不錯(cuò)”、“可以”等也都是具有高連接的節(jié)點(diǎn).這些具有高度值的節(jié)點(diǎn)大多都是高頻特征觀點(diǎn)詞,能準(zhǔn)確地代表消費(fèi)者對(duì)產(chǎn)品的關(guān)注焦點(diǎn).
本文采用目前科學(xué)研究中廣泛使用的準(zhǔn)確率P、召回率R以及F值來(lái)衡量算法的性能,各指標(biāo)越高,說(shuō)明算法的性能越好.它們的計(jì)算公式如下所示:
其中,x、y、z的含義分別為識(shí)別出的真正高頻特征觀點(diǎn)詞數(shù)、識(shí)別出的非真正高頻特征觀點(diǎn)詞數(shù)以及未識(shí)別出的真正高頻觀點(diǎn)詞數(shù).x+z在本文中表示人工手動(dòng)標(biāo)記的數(shù)據(jù).
圖7 特征節(jié)點(diǎn)度分布
圖8 觀點(diǎn)詞節(jié)點(diǎn)度分布
首先根據(jù)B-核分解算法對(duì)無(wú)權(quán)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行排序,即對(duì)特征詞和觀點(diǎn)詞進(jìn)行排序,識(shí)別出高頻特征觀點(diǎn)詞.同樣,在加權(quán)網(wǎng)絡(luò)中,根據(jù)BW-核分解算法對(duì)加權(quán)網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行排序,識(shí)別出高頻特征觀點(diǎn)詞.通過(guò)對(duì)四類產(chǎn)品的數(shù)據(jù)集處理之后我們發(fā)現(xiàn),無(wú)論是在無(wú)權(quán)網(wǎng)絡(luò)還是加權(quán)網(wǎng)絡(luò)中.隨著層級(jí)的增大,特征詞觀點(diǎn)詞的P值是呈上升的趨勢(shì),而R值呈下降趨勢(shì).接下來(lái)我們將以樂(lè)視手機(jī)評(píng)論的特征詞為例,分析出現(xiàn)這種結(jié)果的原因.在無(wú)權(quán)網(wǎng)絡(luò)中的P、R、F值與值的關(guān)系如圖9所示.在加權(quán)網(wǎng)絡(luò)中的P、R、F值與Bws值的關(guān)系圖10所示.
圖9 無(wú)權(quán)二分網(wǎng)絡(luò)P、R、F值分布
圖10 加權(quán)二分網(wǎng)絡(luò)P、R、F值分布
表2 洗面奶數(shù)據(jù)分析結(jié)果
表3 羽毛球拍數(shù)據(jù)分析結(jié)果
通過(guò)對(duì)上述實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析我們發(fā)現(xiàn)在這四組數(shù)據(jù)中,利用B-核算法提取特征詞的準(zhǔn)確率普遍高于BW-核算法.這是由于在候選特征集中,錯(cuò)誤的特征詞出現(xiàn)的頻率也很高,所以就導(dǎo)致利用加權(quán)網(wǎng)絡(luò)提取特征詞的準(zhǔn)確率比無(wú)權(quán)網(wǎng)絡(luò)低.
表4 樂(lè)視手機(jī)數(shù)據(jù)分析結(jié)果
表5 華為手機(jī)數(shù)據(jù)分析結(jié)果
從表2至表5中我們還可以看出利用無(wú)權(quán)網(wǎng)絡(luò)提取特征詞的召回率普遍較低.這是因?yàn)楫?dāng)一個(gè)特征詞被多個(gè)觀點(diǎn)詞修飾時(shí),這個(gè)特征詞是真正特征詞的概率很高,但這并不代表真正的特征詞都會(huì)有多個(gè)觀點(diǎn)詞修飾.例如在華為手機(jī)評(píng)論文本中,真正的特征詞“屏幕”可以被真正的觀點(diǎn)詞“大”、“好”以及“清晰”修飾,但真正的特征詞如“像素”卻只能用觀點(diǎn)詞“高”或“低”修飾.因?yàn)榧訖?quán)網(wǎng)絡(luò)考慮了頻次,出現(xiàn)次數(shù)越多是真正的特征詞的概率越大.所以在加權(quán)網(wǎng)絡(luò)中提取特征詞的召回率高于無(wú)權(quán)網(wǎng)絡(luò).但通過(guò)F值的比較我們發(fā)現(xiàn),無(wú)論是哪一類產(chǎn)品評(píng)論文本的分析結(jié)果,加權(quán)網(wǎng)絡(luò)的F值均高于無(wú)權(quán)的網(wǎng)絡(luò).所以實(shí)驗(yàn)結(jié)果表明,BW-核算法的性能要優(yōu)于B-核算法,即在加權(quán)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)中更有利于高頻特征觀點(diǎn)詞的提取.
本文針對(duì)一個(gè)具體的網(wǎng)絡(luò),即對(duì)特征-觀點(diǎn)對(duì)二分網(wǎng)絡(luò)做了詳細(xì)分析.將二分網(wǎng)絡(luò)節(jié)點(diǎn)重要性排序研究引入進(jìn)高頻特征觀點(diǎn)詞提取研究當(dāng)中.首先提出了B-核算法,即將節(jié)點(diǎn)的度值作為節(jié)點(diǎn)重要性排序的度量值.后針對(duì)無(wú)權(quán)網(wǎng)絡(luò)中算法的缺陷改進(jìn)了算法,提出了BW-核算法,該算法是將節(jié)點(diǎn)的權(quán)值作為節(jié)點(diǎn)重要性排序的度量值.通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),兩種算法在實(shí)際操作中都取得了很好效果.
將復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)重要性排序引入特征觀點(diǎn)詞挖掘研究當(dāng)中,不僅是意見(jiàn)挖掘領(lǐng)域的一大創(chuàng)新,更是擴(kuò)大了復(fù)雜網(wǎng)絡(luò)在實(shí)際中的應(yīng)用.二分網(wǎng)絡(luò)是復(fù)雜網(wǎng)絡(luò)中一種特殊的網(wǎng)絡(luò)模式,二分網(wǎng)絡(luò)中兩類節(jié)點(diǎn)的連邊與單頂點(diǎn)網(wǎng)絡(luò)中節(jié)點(diǎn)的連邊相比,有更多的意義.所以接下來(lái)我們將對(duì)兩類節(jié)點(diǎn)之間的連接邊做進(jìn)一步研究,將復(fù)雜網(wǎng)絡(luò)更好地應(yīng)用于提取特征詞和觀點(diǎn)詞的研究當(dāng)中.