国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于評論挖掘的網(wǎng)絡(luò)購物多目標(biāo)決策系統(tǒng)分析與設(shè)計*

2013-09-26 00:53:37胡正華
圖書情報研究 2013年1期
關(guān)鍵詞:排序購物決策

原 歡 胡正華 楊 召

(1.南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院 南京 211100;2.中國船舶重工集團(tuán)公司第七一六研究所 連云港 222006)

·信息技術(shù)·

基于評論挖掘的網(wǎng)絡(luò)購物多目標(biāo)決策系統(tǒng)分析與設(shè)計*

原 歡1胡正華1楊 召2

(1.南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院 南京 211100;2.中國船舶重工集團(tuán)公司第七一六研究所 連云港 222006)

為減輕網(wǎng)絡(luò)購物消費者權(quán)衡各種指標(biāo)和閱讀評論所耗費的時間和精力,提供更理性的購物決策支持,以評論挖掘為核心算法,對多目標(biāo)決策系統(tǒng)進(jìn)行分析和設(shè)計。采用B/S架構(gòu),集成中文分詞工具ICTCLA和詞法分析工具HowNet所提供的JNI接口,實現(xiàn)基于評論挖掘的多目標(biāo)決策系統(tǒng)。系統(tǒng)試用調(diào)查結(jié)果顯示,被調(diào)查者中有83.75%的認(rèn)為該系統(tǒng)的想法很新穎,85%推薦網(wǎng)購網(wǎng)站添加多目標(biāo)決策值排序。

網(wǎng)絡(luò)購物 評論挖掘 多目標(biāo)決策 信息系統(tǒng)分析與設(shè)計

1 引言

根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)于2012年1月發(fā)布的第29次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告,截至2011年12月31日,中國網(wǎng)民規(guī)模已突破5億人,互聯(lián)網(wǎng)普及率較2010年提升了4個百分點。其中,網(wǎng)購用戶數(shù)量達(dá)到6 465萬,年增長率高達(dá)244.8%,可見中國網(wǎng)民的網(wǎng)購熱情依然高漲。

當(dāng)前,購物網(wǎng)站主要提供如銷量、價格、信用度、上架時間等單一指標(biāo)的商品排序,同時提供具體、詳細(xì)的用戶評論,這將耗費消費者大量的時間和精力進(jìn)行各指標(biāo)的綜合對比,來確定最終購買對象。因此,本文擬構(gòu)建基于評論挖掘的多目標(biāo)決策系統(tǒng),以多目標(biāo)決策分析為內(nèi)核,對購物網(wǎng)站的用戶評論信息進(jìn)行挖掘和分析,從而有效、便捷地支持消費者的理性購買決策。

2 評論挖掘

評論挖掘以購物網(wǎng)站上的產(chǎn)品評論作為挖掘?qū)ο?,采用自然語言處理技術(shù),從大量文本數(shù)據(jù)中發(fā)現(xiàn)用戶對該產(chǎn)品各方面性能的評論[1]。評論挖掘主要包含四個子任務(wù):產(chǎn)品特征抽?。辉u論觀點抽??;評論觀點的極性及強度的判斷;評論挖掘結(jié)果的匯總以及按用戶觀點排序[2]。①產(chǎn)品特征抽取,即抽取用戶評論中涉及的產(chǎn)品特征,主要包括產(chǎn)品的屬性或功能、部件及其屬性或功能等。②評論觀點抽取,即抽取用戶所評論的產(chǎn)品特征的觀點。③ 評論觀點的極性及強度的判斷,即確定用戶的評論觀點的極性,包括褒義、貶義和中性,以及極性的強度。④評論挖掘結(jié)果的匯總以及按用戶觀點排序,即利用統(tǒng)計數(shù)據(jù)、圖表等直觀的形式對挖掘結(jié)果進(jìn)行呈現(xiàn),并可以根據(jù)用戶的評論觀點對產(chǎn)品或產(chǎn)品的特征進(jìn)行排序。對于產(chǎn)品評論挖掘技術(shù),國外較早實現(xiàn)了該技術(shù)的產(chǎn)品化。2003年,Nec公司的Kushal Dave等人研發(fā)了世界上第一個情感分析系統(tǒng)——Review seer系統(tǒng),它可以實現(xiàn)對評論內(nèi)容的情感傾向分析,從而為商品的受歡迎程度進(jìn)行打分,體現(xiàn)出了巨大的商業(yè)價值[3]。2005年,微軟美國研究院Gamon等人研發(fā)的“Pulse”系統(tǒng)實現(xiàn)對網(wǎng)上汽車評論的挖掘[4]。同年,IBM Almaden研究中心也開發(fā)了一款觀點挖掘器——Web Fountain系統(tǒng),主要應(yīng)用于拍照和音樂評論兩個領(lǐng)域[5];Liu B等人針對網(wǎng)絡(luò)購物的產(chǎn)品評論研發(fā)了“Opinion Observer”挖掘系統(tǒng)[6]。

由于中文語言的復(fù)雜性,無法將英文評論挖掘的研究成果直接應(yīng)用在中文領(lǐng)域,導(dǎo)致中文評論挖掘系統(tǒng)起步較晚,已開發(fā)的評論挖掘系統(tǒng)也較少。

具有代表性的中文評論挖掘系統(tǒng)主要有:姚天昉等人研發(fā)的針對中文汽車評論的意見挖掘系統(tǒng),主要從細(xì)粒度上挖掘并概括用戶對汽車的各種不同形成指標(biāo)的觀點[7];黃永文的評論挖掘展示系統(tǒng),首先對評論進(jìn)行分類和精簡,刪除其中與評論無關(guān)的內(nèi)容,然后通過獲取的特征觀點詞對與特征之間的層次關(guān)系,對相同特征的不同表示進(jìn)行合并,對上下位的特征進(jìn)行歸類,最終統(tǒng)計各個特征所獲得的觀點,并以樹狀形式展現(xiàn)整個產(chǎn)品不同層次特征所獲得的評論[8];嚴(yán)孫榮的產(chǎn)品評論意見挖掘系統(tǒng),可以自動抓取指定的評論頁面并抽出評論內(nèi)容,從整體和細(xì)粒度兩個層面實現(xiàn)產(chǎn)品評論的意見分析,最終提供可視化的統(tǒng)計界面[9]。

3 系統(tǒng)分析

3.1 需求分析和可行性分析

3.1.1 需求分析 當(dāng)前熱門購物網(wǎng)站(淘寶網(wǎng)、拍拍網(wǎng)、當(dāng)當(dāng)網(wǎng)、京東商城以及卓越網(wǎng))的排序類別如表1所示。

表1 熱門購物網(wǎng)站的排序類別匯總

各熱門網(wǎng)站的排序類別都集中在單一的數(shù)字化指標(biāo),即使是“最專業(yè)的購物搜索”一淘網(wǎng),也是在這幾個指標(biāo)的基礎(chǔ)上進(jìn)行多網(wǎng)聯(lián)合比較。這就導(dǎo)致消費者需要耗費大量的時間和精力在指標(biāo)之間進(jìn)行權(quán)衡。

此外,產(chǎn)品的用戶評論也逐漸成為消費者了解產(chǎn)品口碑、做出購物決策的重要參考之一。但是,網(wǎng)絡(luò)評論數(shù)量的飛速增長,使其內(nèi)容越來越龐雜,導(dǎo)致核心有用信息難以被獲取[10]。

在此背景下,研究利用先進(jìn)的信息技術(shù)挖掘用戶評論中的產(chǎn)品特征及其情感傾向,并與多種單一的指標(biāo)進(jìn)行綜合計算,實現(xiàn)多目標(biāo)決策支持,滿足消費者理性購物決策的需求,具有相當(dāng)大的需求市場和現(xiàn)實意義。

3.1.2 可行性分析 產(chǎn)品評論挖掘已經(jīng)成為學(xué)術(shù)界的一個熱點問題,近年來受到學(xué)者們的廣泛關(guān)注[11]。尤其是哈爾濱工業(yè)大學(xué)的葉強教授和李一軍教授,他們從研究客戶利潤貢獻(xiàn)度的評論到研究客戶評論中的產(chǎn)品特征挖掘方法,進(jìn)而研究計算客戶評論中產(chǎn)品特征及情感傾向值的方法;此外,復(fù)旦大學(xué)吳立德教授、重慶大學(xué)何中市教授、大連理工大學(xué)林鴻飛教授等多位學(xué)者在產(chǎn)品評論挖掘領(lǐng)域的突出貢獻(xiàn),也為本文擬構(gòu)建的基于評論挖掘的多目標(biāo)決策系統(tǒng)提供了豐富的參考依據(jù)。

在系統(tǒng)開發(fā)方面,本系統(tǒng)擬采用B/S架構(gòu),相較之于C/S架構(gòu),B/S架構(gòu)可以支持更多的用戶訪問量,為用戶提供一致的UI界面;B/S架構(gòu)還具有很強的開放性、系統(tǒng)集成性,且易于維護(hù)和擴展。在開發(fā)平臺方面,B/S架構(gòu)將采用JSP+Servlet技術(shù)進(jìn)行開發(fā)。

因此本文擬研究的問題具有堅實的理論基礎(chǔ)和成熟的技術(shù)支持。

3.2 系統(tǒng)功能分析

基于評論挖掘的多目標(biāo)決策系統(tǒng)總體規(guī)劃為三大功能,分別是商品查詢、商品排序和商品數(shù)據(jù)管理,其用例圖如圖1。

圖1 系統(tǒng)總體用例圖

系統(tǒng)角色的總體規(guī)劃是建立兩類用戶,分別為訪問用戶和系統(tǒng)管理員。各角色可執(zhí)行的功能用例如圖2和圖3所示。

圖2 訪問用戶角色視圖

圖3 系統(tǒng)管理員角色視圖

在服務(wù)器端,該系統(tǒng)的理想運行環(huán)境是基于購物網(wǎng)站的底層產(chǎn)品數(shù)據(jù)庫,但在本文研究期間無法實現(xiàn)與購物網(wǎng)站數(shù)據(jù)庫的實時連接,因此需要在服務(wù)器端建立本地的產(chǎn)品數(shù)據(jù)庫,其最基本的功能是要定期更新產(chǎn)品數(shù)據(jù)庫,最核心的功能是產(chǎn)品評論挖掘。

4 系統(tǒng)設(shè)計

基于評論挖掘的多目標(biāo)決策系統(tǒng)實際上是一種決策支持系統(tǒng)(DSS),它以數(shù)學(xué)模型為基礎(chǔ),對數(shù)據(jù)庫中的大量數(shù)據(jù)進(jìn)行分析、處理,給出決策層次上的輔助信息,為決策者提供決策服務(wù)[12]。因此,在該系統(tǒng)中,既需要數(shù)據(jù)庫的支持,又需要模型庫和方法庫,更需要強有力的用戶接口子系統(tǒng)(或稱為人機交互手段),其結(jié)構(gòu)如圖4所示。

圖4 基于評論挖掘的多目標(biāo)決策系統(tǒng)結(jié)構(gòu)

4.1 數(shù)據(jù)庫子系統(tǒng)

數(shù)據(jù)庫子系統(tǒng)主要存儲產(chǎn)品信息和多目標(biāo)決策參數(shù)值。筆者采用目前應(yīng)用最廣泛的關(guān)系型數(shù)據(jù)庫,它是建立在關(guān)系模型基礎(chǔ)上的數(shù)據(jù)庫,可以清楚地描述現(xiàn)實中各種實體以及實體之間的各種聯(lián)系。在具體的數(shù)據(jù)庫工具選擇上,選擇MySQL小型關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。

實體關(guān)系(E-R)圖是數(shù)據(jù)庫邏輯設(shè)計的基本圖形工具,主要包括實體、屬性和聯(lián)系三種組成部件。本系統(tǒng)規(guī)劃的實體有商品分類目錄、商品屬性分類目錄、商品基本信息、商品屬性和多目標(biāo)決策參數(shù)。各實體的屬性圖和實體之間關(guān)系的E-R圖如圖5-圖10所示。

圖5 商品分類目錄實體屬性圖

圖6 商品屬性分類目錄實體屬性圖

圖7 商品基本信息實體屬性圖

圖8 商品屬性實體屬性圖

圖9 多目標(biāo)決策參數(shù)實體屬性圖

圖10 實體之間關(guān)系E-R圖

4.2 模型庫子系統(tǒng)

模型庫子系統(tǒng),即多目標(biāo)決策子系統(tǒng),是基本或常用的數(shù)學(xué)模型的集合。在此系統(tǒng)中,多目標(biāo)決策子系統(tǒng)一方面要對用戶評論進(jìn)行評論挖掘,得到能夠反應(yīng)用戶對某產(chǎn)品的綜合偏好值;另一方面還要建立以價格、銷量和用戶評論三者為多目標(biāo)的綜合計算數(shù)學(xué)模型,使用戶可以根據(jù)該模型的結(jié)果值排序做出更理性的購物決策。

以某一產(chǎn)品為例,圖11呈現(xiàn)了評論挖掘算法的具體流程。

其中,情感傾向值分為正面傾向值(=1)和負(fù)面傾向值(=0)。系統(tǒng)利用中科院的ICTCLA進(jìn)行中文分詞和詞性標(biāo)注,利用HowNet提供的語義相似度和語義相關(guān)場的計算功能進(jìn)行詞匯褒貶判別,其判斷的準(zhǔn)確率達(dá)到80%以上,具有一定的實用價值[13]。

圖11 基于評論挖掘的多目標(biāo)決策系統(tǒng)評論挖掘算法

以某一產(chǎn)品A為例,根據(jù)圖11所示的算法進(jìn)行評論挖掘,可以得到如表2的計算過程。

表2 以A產(chǎn)品為例評論挖掘結(jié)果

其中,wn表示從產(chǎn)品A的評論中挖掘出的第n個產(chǎn)品特征,awn1、awn2等分別表示修飾該特征的形容詞,Own1表示與該形容詞對應(yīng)的語義傾向值;根據(jù)實驗結(jié)果,我們選擇0作為正面和負(fù)面語義傾向的分界值,即Own1>0,表示該形容詞為正面;Own1<0,表示該形容詞為負(fù)面。Pwn、Nwn表示語義傾向為正面、負(fù)面的形容詞總數(shù),Qwn為二者的和,Pwn與Qwn的比值乘以100(化為百分制的分?jǐn)?shù))為A產(chǎn)品第n個產(chǎn)品特征所對應(yīng)的好評分Awn。

“產(chǎn)品的初始偏好值”的計算過程如公式(1)所示。

(1)

“產(chǎn)品的綜合偏好值”的計算過程如公式(2)所示

(2)

其中,E指的是該從用戶評論中挖掘得到的產(chǎn)品綜合偏好值,J指的是該產(chǎn)品的用戶評論均分,由于該均分一定在0到5之間,因此需要乘上20以換算成與Aw相同的數(shù)量級別。

此外,由于不同產(chǎn)品的價格及銷量的變化浮動較大,且量綱不同。以手機為例,新產(chǎn)品如Iphone 4S手機價格為4 799元,而銷量只有1 368,而諾基亞N1280手機價格僅為138元,而銷量高達(dá)26 805。因此,需要將價格和銷量數(shù)據(jù)進(jìn)行歸一化處理,其計算過程如算式(3)所示。

(3)

其中,X0代表價格或銷量的原值,Xmax代表

某一類產(chǎn)品的價格或銷量的最大值,Xmin代表某一類產(chǎn)品的價格或銷量的最小值,而X就表示價格或銷量歸一化后的值。系統(tǒng)采用P表示歸一化后的價格值,S表示歸一化后的銷量值。

最后,當(dāng)用戶提交了多目標(biāo)決策各參數(shù)的權(quán)值,即價格、銷量和用戶評論三個參數(shù)的權(quán)值,系統(tǒng)將根據(jù)算式(4)計算最終的多目標(biāo)決策值。

(4)

其中,wp代表價格權(quán)值,wq代表銷量權(quán)值,we代表用戶評論權(quán)值,且wp+wq+we=100%,D表示最終的多目標(biāo)決策值。

5 基于評論挖掘的多目標(biāo)決策系統(tǒng)舉例

基于上述理論及決策模型,筆者主要采用Java和JSP語言編寫系統(tǒng)處理邏輯和UI界面。由于產(chǎn)品類別豐富,本文以手機產(chǎn)品為例,展現(xiàn)基于評論挖掘的多目標(biāo)決策系統(tǒng)界面。

圖12為系統(tǒng)首頁。當(dāng)用戶提交所選屬性后,頁面將默認(rèn)按照價格由低到高排序呈現(xiàn)產(chǎn)品信息;同時,用戶也可選擇“按銷量排序”,如圖13所示。

此時,默認(rèn)多目標(biāo)決策值為空。當(dāng)用戶選擇“按多目標(biāo)決策值排序”時,頁面將彈出如圖14所示的提示框。

當(dāng)用戶提交設(shè)定的參數(shù),系統(tǒng)會快速對入選產(chǎn)品進(jìn)行多目標(biāo)決策值的計算,并按由高到低的順序呈現(xiàn)產(chǎn)品,如圖15所示。

圖12 產(chǎn)品屬性篩選

圖13 選擇不同的單一指標(biāo)排序

圖14 多目標(biāo)決策的參數(shù)權(quán)值設(shè)定

圖15 按多目標(biāo)決策值排序

6 總結(jié)與展望

為進(jìn)一步檢驗該系統(tǒng)的實用性,筆者在本校校內(nèi)隨機邀請80位同學(xué)進(jìn)行試用效果調(diào)查。調(diào)查結(jié)果顯示83.75%的同學(xué)認(rèn)為該系統(tǒng)的想法很新穎,85%的同學(xué)推薦購物網(wǎng)站添加“多目標(biāo)決策值”排序。由此可見,本文提出的網(wǎng)絡(luò)購物多目標(biāo)決策思想具有實用價值。

未來,如果能夠?qū)⒋讼到y(tǒng)嵌入到實際運營的購物網(wǎng)站,就可以直接立足于購物網(wǎng)站的底層數(shù)據(jù)庫,而無需定期更新本地數(shù)據(jù)庫,這將大大減輕服務(wù)端的工作量,同時還能集成更多的單一指標(biāo),實現(xiàn)對網(wǎng)購用戶更及時、更全面的多目標(biāo)決策支持。

致謝感謝我的導(dǎo)師胡正華老師,從課題的研究、實驗,到論文的完成,胡老師都給予了我極大的支持和幫助!感謝我的團(tuán)隊,王薇、李雨、倪磊磊、楊萍,與我共同合作完成該項目!感謝我的同學(xué),于學(xué)勇、付昌昌,在系統(tǒng)開發(fā)過程中給予的幫助!

[1] 伍 星,何中市,黃永文. 產(chǎn)品評論挖掘研究綜述[J]. 計算機工程與應(yīng)用, 2008, 44(36): 37-40.

[2] PO PESCU A-M, ETZIONIO. Extracting product features and opinions from review[C]// Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing Stroudsburg, DA: Association for Computational Linguistics, 2005: 339-346.

[3] Dave K, Lawrenee S, Pennoek D. Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews[C]//Proceedings of the 12th International Conference on World Wide Web. 2003: 519-528.

[4] Gamon M, Aue A, Corston-oliver S, et al. Pulse: Mining Customer Opinions from Free Text[C]//Proceedings of the 6th International Symposium on Intelligent Data Analysis. Lecture Notes in Computer Science, Madrid: Springer-Verlag, 2005: 121-132.

[5] Yi J, Niblack W. Sentiment Mining in Web Fountain[C]//Proceedings of the Second International Joint Conference on Natural Language Processing(2005). Computer Society, Tokyo, 2005: 1073-1083.

[6] Kim S M, Hovy E. Automatic detection of opinion bearing words and sentences[C] //Proceedings of the IJCNLP 2005. Morristown: ACL, 2005: 61-66.

[7] 姚天昉,程希文,徐飛玉,等. 文本意見挖掘綜述[J]. 中文信息學(xué)報. 2008, 22(3): 71-79.

[8] 黃永文. 中文產(chǎn)品評論挖掘關(guān)鍵技術(shù)研究[D]. 重慶:重慶大學(xué), 2009.

[9] 嚴(yán)孫榮. 中文產(chǎn)品評論的意見挖掘研究[D]. 北京:北京交通大學(xué), 2010.

[10] 李 實,葉 強,李一軍,等. 挖掘中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征及情感傾向[J]. 計算機應(yīng)用研究, 2010, 27(8): 3016-3019.

[11] 郗亞輝,張 明,袁 方,等. 產(chǎn)品評論挖掘研究綜述[J].山東大學(xué)學(xué)報(理學(xué)版),2011,46(15):16-23,38.

[12] 李志剛. 決策支持系統(tǒng)原理與應(yīng)用[M]. 北京:高等教育出版社, 2005: 89-93.

[13] 朱嫣嵐,閔 錦,周雅倩,等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學(xué)報,2006,20(1):14-20.

(責(zé)任編校 田麗麗)

AnalysisandDesignoftheMulti-objectiveDecisionSystemBasedonReviewsMiningforOnlineShopping

Yuan Huan1, Hu Zhenghua1, Yang Zhao2

1. School of Economics and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 211100, China; 2.The 716th Research Institute of China Shipbuilding Industry Corporation,Lianyungang 222006, China

In order to release consumers’ burden of balancing the variety indicators and reading reviews and help them make more rational shopping decisons, this paper analyses and designs a multi-objective decision system, with the core algorithm of reviews mining. The system is based on the B/S architecture, and integrates the JNI interfaces of ICTCLA and HowNet. A survey of the trial of this system shows that 83.75% of those investigated think that the idea is quite novel and 85% recommend installing this system into the shopping websites.

online shopping; reviews mining; multi-objective decision; analysis and design of the information system

TP181

* 本文系中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目(項目編號:09-35)的研究成果之一

原 歡,女,1988年生,碩士研究生,研究方向為管理信息系統(tǒng)、企業(yè)信息化、電子郵件數(shù)據(jù)處理等,發(fā)表論文1篇;胡正華,男,1965年生,博士,副教授,研究方向為管理信息系統(tǒng)、決策支持系統(tǒng)、物流與供應(yīng)鏈管理、工業(yè)工程,發(fā)表論文34篇;楊 召,男,1987年生,碩士,研究方向為決策支持、物流管理等,發(fā)表論文1篇。

猜你喜歡
排序購物決策
排序不等式
為可持續(xù)決策提供依據(jù)
我們?yōu)槭裁催x擇網(wǎng)上購物?
恐怖排序
決策為什么失誤了
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
圣誕購物季
快樂六一,開心購物!
不可錯過的“購物”APP
Coco薇(2015年5期)2016-03-29 23:34:28
揭东县| 五大连池市| 武邑县| 永福县| 盐源县| 江津市| 辽阳县| 西畴县| 漳浦县| 黔江区| 鞍山市| 中方县| 陇西县| 法库县| 福鼎市| 大邑县| 昆明市| 前郭尔| 达拉特旗| 海安县| 集安市| 呼伦贝尔市| 长垣县| 博兴县| 武清区| 靖远县| 雷波县| 四子王旗| 兴海县| 句容市| 连南| 嵊泗县| 江北区| 紫云| 兰西县| 日土县| 常熟市| 同江市| 承德市| 长治市| 贵港市|