宋曉勇,呂 品,陳年生
(上海電機學(xué)院 電子信息學(xué)院,上海 201306)
PORSC:融合用戶個性化特征的在線評論情感分類模型
宋曉勇,呂 品,陳年生
(上海電機學(xué)院 電子信息學(xué)院,上海 201306)
針對傳統(tǒng)在線評論情感分類忽視了用戶個性化的問題,提出了一種融合用戶個性化特征的在線評論情感分類(PORSC)方法,該方法為每一類型用戶構(gòu)建一個在線評論情感分類器.PORSC模型由2部分構(gòu)成: 一部分是具有學(xué)習(xí)評論中常見情感信息的全局情感分類模型;另一部分是能捕捉每種類型用戶的個性化特征的特定用戶類型分類模型.為解決PORSC模型在訓(xùn)練中的數(shù)據(jù)稀疏問題,引入多任務(wù)學(xué)習(xí)方法,以協(xié)同方式訓(xùn)練分類器,以并行方式解決了PORSC模型中參數(shù)的優(yōu)化問題.通過在2個實際中文產(chǎn)品評論數(shù)據(jù)集和一個公開的英文評論數(shù)據(jù)集上實驗,并與已有基線方法進行比較與綜合分析,結(jié)果表明PORSC模型在一定程度上提高了在線評論情感分類的精度.
用戶個性; 在線評論; 情感分類; 多任務(wù)學(xué)習(xí)
隨著Web技術(shù)的發(fā)展,社會媒體上的主觀性文本急劇增長.分析這些海量信息有廣泛的應(yīng)用,例如: 用戶建模、個性化推薦、風(fēng)險管理以及股票價格預(yù)測等[1-2].因此,主觀性文本的情感分類已成為工業(yè)界和學(xué)術(shù)界研究的熱點.近年來情感分類的研究成果主要從上下文知識、一詞多義、主題間的關(guān)系等角度開展研究.
從上下文知識的角度,主要研究了3個問題: 1) 上下文信息的確定;2) 上下文信息的表示;3) 上下文信息如何與機器學(xué)習(xí)方法融合.例如: Wu等[3]定義微博中的詞與詞的關(guān)聯(lián)、詞與情感的關(guān)聯(lián)為上下文,并將它們形式化為監(jiān)督學(xué)習(xí)算法的一個正則項.Ren等[4]把一個tweet的回復(fù)、作者和該tweet所屬主題作為上下文,以詞嵌入向量的方式表示它們,并用神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)上下文知識.文獻[5]則在文獻[6]的上下文基礎(chǔ)上又增加了長距離的上下文,用二值特征0/1對這些上下文編碼,最后用層次化的長期記憶(Long Short-Term Memory, LSTM)方法對tweet的上下文建模,該方法對長距離上下文建模效果極佳.
在一詞多義方面,研究的主要思路是尋找詞與其所在領(lǐng)域/主題之間的關(guān)系,旨在獲取詞的常見情感與特定情感.Wu等[7]基于多任務(wù)學(xué)習(xí),提出了以一種協(xié)同方式為多個領(lǐng)域訓(xùn)練情感分類器的方法.該方法把每一個領(lǐng)域的情感分類器分解為2個組件: 通用組件和特定領(lǐng)域的組件.通用組件用于捕捉全局情感信息,并對其進行跨領(lǐng)域訓(xùn)練,以獲得更好的歸納能力.特定領(lǐng)域的組件用該領(lǐng)域的標(biāo)簽數(shù)據(jù)訓(xùn)練,以獲取該領(lǐng)域的專門的情感信息.然后,還研究了領(lǐng)域之間的2種不同關(guān)系: 基于上下文內(nèi)容的領(lǐng)域間關(guān)系和基于情感詞分布的領(lǐng)域間關(guān)系.用領(lǐng)域關(guān)系構(gòu)建領(lǐng)域相似圖,用正則項將領(lǐng)域間的相似性編碼到特定領(lǐng)域的情感分類器中.文獻[5]構(gòu)建了2種神經(jīng)網(wǎng)絡(luò)模型: TEWE(Topic-Enriched Word Embeddings)和TSWE(Topic and Sentiment-Enriched Word Embedding),其目的是在情感分類中使用主題信息,以達到解決詞在不同主題下可能具有不同情感極性的問題.高琰等[8]提出利用深度學(xué)習(xí)(Deep Learning, DL)方法自動建立產(chǎn)品評論的情感詞典,實現(xiàn)了產(chǎn)品評論情感特征的自動提取,在一定程度上通過情感特征的語義關(guān)聯(lián)解決了一詞多義問題.
在主題間的關(guān)系方面,研究思路主要是考慮主題間的相對次序?qū)η楦蟹诸愋阅艿挠绊?文獻[9]研究了主題之間的次序關(guān)系對情感分類的影響.首先,訓(xùn)練LDA(Latent Dirichlet Allocation)模型得到主題的概率分布,并對其進行降序排列;然后,用降序排列的主題分布構(gòu)建主題共現(xiàn)矩陣;最后,用上面2個矩陣對測試樣本進行正負情感極性分類.實驗結(jié)果表明主題序列對情感分類有重要的作用.文獻[4,6]在Twitter的情感分類中也研究了詞與主題的關(guān)系,但其焦點是如何利用主題解決一詞多義的問題.李超雄等[10]提出了一種主題情感混合模型,其目的是研究不同時間段內(nèi)主題和情感的變化趨勢.
分析以上已有研究工作可知: 1)它們都忽視了用戶的個性化特征;2)除文獻[8-9]研究對象為在線評論外,其他工作的研究對象都是微博.盡管文獻[11]在情感分類中考慮了用戶的個性化特征,但研究對象仍為微博.微博的鮮明特點是內(nèi)容短、噪音多、主題多樣化.本文的研究工作雖然與其類似,但研究對象為在線評論.在線評論與微博的最大區(qū)別在于在線評論的主題單一,內(nèi)容長短不受限制,每個用戶只需根據(jù)自己的體驗發(fā)表意見,不存在微博中的響應(yīng)現(xiàn)象.因此,只需要對每種類型用戶的個性化特征建模,研究這些特征對情感分類器性能的影響,而不需要考慮每個用戶的社會關(guān)系.
基于以上觀察,本文提出了一種具有用戶個性化特征的情感分類方法——個性化的在線評論情感分類(Personalized Online Reviews Sentiment Classification, PORSC)方法.該方法的核心思想是為每種類型用戶構(gòu)建一個個性化的在線評論情感分類器.該分類器由全局分類器和特定用戶分類器2部分構(gòu)成.其中,利用所有用戶評論信息構(gòu)建全局分類器,以獲得所有用戶共享的全局情感;以協(xié)同方式,利用每個特定類型用戶的評論訓(xùn)練特定類型用戶分類器,捕捉每類用戶的個性化特征.為解決特定類型用戶分類器的數(shù)據(jù)稀疏問題,采用了協(xié)同方式的多任務(wù)學(xué)習(xí)方法,應(yīng)用文獻[11]提出的加速分布式算法,以并行方式解決了PORSC模型中的優(yōu)化問題.
1.1具有用戶個性化特征的情感分類模型
已知不同類型用戶的評論信息和其對應(yīng)的情感標(biāo)簽.構(gòu)建具有用戶個性化特征的情感分類模型的目的是訓(xùn)練一個魯棒的全局情感分類器,捕獲所有類型用戶共享的情感;訓(xùn)練一個針對特定用戶類型的情感分類器捕獲不同類型用戶的個性化特征.因此,根據(jù)以上思想,在所有訓(xùn)練樣本集上的評價決策風(fēng)險函數(shù)R如下式所示:
(1)
(2)
式中: ‖w‖2和‖wi‖2是L2范數(shù)的正則項,引入L2范數(shù)的目的是減少參數(shù)空間,避免過擬合;λ是非負正則項系數(shù),用于控制正則化強度.通過式(2)的分解,w能較好地捕獲全局情感信息,其分類結(jié)果不會受到某類用戶偏見的影響,因而能使整個模型具有更高泛化能力.因此,在對用戶類型沒有任何先驗知識的情況下,w能對未知類型用戶的評論進行分類.此外,wi能更好地捕獲每種類型用戶的個性和喜好,并且不會受到全局情感信息引起的干擾.
1.2模型的等價變換
由于評論信息量大,單臺計算機的計算能力和存儲能力受到限制,因此,本文借鑒文獻[11]的思想,采用他們提出的分布式加速算法讓PORSC模型具有并行執(zhí)行能力.基于此,按用戶類型把評論分成N組,Un表示分組n的評論集,每一組數(shù)據(jù)用一個獨立結(jié)點處理,獨立結(jié)點既可以是一臺計算機,也可以是一個CPU核.本文實驗采用的是多核形式.
為實現(xiàn)PORSC模型的并行執(zhí)行,為每一個分組n保持w的一個備份vn.于是,式(2)的優(yōu)化問題可等價地表示為求式(3)滿足一定約束條件的最小值:
(3)
為了使用文獻[11]的分布式加速算法,可將式(3)轉(zhuǎn)化為如式(4)所示的帶參數(shù)的拉格朗日函數(shù)τ:
(4)
式中:un∈F×1是對偶變量;α為正懲罰系數(shù);θ={w,wi,i=1,2,…,U}.按交替更新乘子法(Alternating Direction Method of Multipliers, ADMM)的思想[12],變量θ,vn和un在每一次迭代中必須按如下方式順序更新:
(5)
(6)
(7)
1.3模型參數(shù)的更新優(yōu)化
對于參數(shù)集θk+1而言,w和wi分別由式(8)和(9)更新.由于w和wi的優(yōu)化都是不平滑的凸問題,所以w的更新采用了近端算法[13].在并行更新wi時采用了文獻[11]的方法:
(8)
(9)
可在不同用戶組上并行更新vn和un.在用戶組Un中的結(jié)點vn可由式(10)更新,un可由式(11)更新:
(10)
(11)
參數(shù)vn的更新也是一個凸問題.實驗中使用平滑的分類損失函數(shù)L時,采用快速迭代的閾值收縮算法(Fast Iterative Shrinkage-Thresholding Algorithm, FISTA)進行優(yōu)化[14].當(dāng)使用不平滑的分類損失函數(shù)L時,采用子梯度下降法優(yōu)化[11].
2.1數(shù)據(jù)集
本文選取了3個在線評論數(shù)據(jù)集作為實驗語料.前2個數(shù)據(jù)集通過淘寶客的應(yīng)用程序編程接口(Application Programming Interface, API),用iPhone 6和華為榮耀8作為查詢爬蟲得到.蘋果iPhone 6的評論數(shù)據(jù)集記為Dataset1,華為榮耀8的評論數(shù)據(jù)集記為Dataset2.每個數(shù)據(jù)集中的用戶類型先按性別分類,再按年齡段分類,共6類: 女性青年、女性中年、女性老年、男性青年、男性中年和男性老年.第3個數(shù)據(jù)集是英文書評數(shù)據(jù)集Book Crossing(http:∥www.informatik.uni-freiburg.de),這是一個推薦系統(tǒng)常用的公開測評數(shù)據(jù)集.使用該數(shù)據(jù)集的目的是觀察PORSC模型在公開數(shù)據(jù)集上是否也具有優(yōu)越性.數(shù)據(jù)集Book Crossing記為Dataset3.
Dataset1數(shù)據(jù)集包含78235條評論,Dataset2數(shù)據(jù)集包含64265條評論,Dataset3數(shù)據(jù)集中包含1048576 條評論.在數(shù)據(jù)集Dataset1和Dataset2的預(yù)處理過程中,先采用Jieba分詞工具包對評論進行分詞,然后用Bigram特征表示每一篇評論,每條評論的情感標(biāo)簽由人工標(biāo)注.由于數(shù)據(jù)集Dataset3是已預(yù)處理好的數(shù)據(jù)集,表示用戶情感的評論不是用文字描述,而是用0~10的整數(shù)表示,數(shù)字越大意味著用戶對該書的評價越高.為了抽取數(shù)據(jù)集Dataset3中用戶的特征,統(tǒng)計分析了與該數(shù)據(jù)集相關(guān)的用戶年齡信息,結(jié)果發(fā)現(xiàn)閱讀書箱的年齡段從高到低分別在18~35歲、35~45歲、45~60歲這3個年齡段,60歲以上的用戶從網(wǎng)上購買書籍并閱讀的人極少,實驗中把大于5的評分作為褒義情感,小于5的評分作為貶義情感.實驗中將這3個年齡段粗略分類為: 青年、中青年、中老年作為用戶類型反映用戶的個性化特征.從每個數(shù)據(jù)集隨機選取10000條評論作為測試樣本.在訓(xùn)練數(shù)據(jù)集上執(zhí)行10-fold交叉驗證,實現(xiàn)分類模型的參數(shù)選擇.評估模型性能的標(biāo)準(zhǔn)采用分類的精確度.分類的精確度等于分類結(jié)果正確的次數(shù)除以測試數(shù)據(jù)的總數(shù).
2.2模型有效性評估
為驗證PORSC模型的有效性,主要觀察: 同時對全局情感信息和特定用戶類型的情感信息建模,PORSC能否改進在線評論情感分類的性能.為此,實現(xiàn)了PORSC模型的3個不同版本.它們分別是只有全局情感分類器的PORSC_Global;只有特定用戶類型的情感分類器PORSC_Personlized;具有上述2種情感分類器的PORSC.分別在3個數(shù)據(jù)集上測試了以上3個版本,實驗結(jié)果如圖1所示.
圖1 3個不同版本PORSC模型的情感分類精確度Fig.1 Accuracies of sentiment classification based on three different versions of PORSC
從圖1可知,PORSC_Global和PORSC_Personlized的情感分類精度在中文評論語料和英文評論語料上都不是很高,而將兩者結(jié)合起來,能顯著改進在線評論的情感分類精度.其中,PORSC模型在數(shù)據(jù)集Dataset3上的分類精確度要高于前2個數(shù)據(jù)集的精確度,這是因為書籍評論數(shù)據(jù)集的情感用數(shù)字表示,表示每條評論的特征數(shù)目只有4個,分別為用戶名、書名和用戶年齡、用戶所在地區(qū)特征;而前2個數(shù)據(jù)集中每條評論首先需要分詞,表示每條評論的特征由數(shù)據(jù)集對應(yīng)的詞典大小決定.由于實驗只考慮了形容詞、副詞或部分動詞表示的情感對分類的貢獻,沒有考慮名詞表示情感的情況,所以導(dǎo)致前2個中文評論數(shù)據(jù)集中對分類有貢獻的特征數(shù)目不固定.如果一篇評論用形容詞或副詞表示情感較少,而名詞體現(xiàn)出來的情感也存在,則該評論被誤判的概率較大;另一方面,針對某一句子,可能會產(chǎn)生不同的分詞.因而,分詞過程本身也會對分類精確度產(chǎn)生一定的影響.
2.3模型性能評估
參與模型性能評估的基線方法有: 支持向量機(Support Vector Machine, SVM)、最大熵(Maximum Entropy, ME)、邏輯回歸(Logistic Regression, LR)、正則化多任務(wù)學(xué)習(xí)[15](Regularization Multi-Task Learning, RMTL)方法、具有l(wèi)2,1范數(shù)正則項的多任務(wù)特征學(xué)習(xí)(Multi-Task Feature Learning withl2,1-norm Regularization, MTFL21R)[16]以及潛在因子模型(Latent Factor Model, LFM)的個性化情感分類[17].前3種參與比較的基線方法與后3種的區(qū)別在于后3種基線方法采用了并行方式.
SVM_Personlized, ME_Personlized和LR_Personlized分別表示在特定用戶類型的數(shù)據(jù)集上訓(xùn)練和測試支持向量機、最大熵和邏輯回歸這3種基線方法.類似地,基線方法SVM_Global, ME_Global和LR_Global分別表示在所有用戶的數(shù)據(jù)集上進行訓(xùn)練和測試.PORSC_SVM, PORSC_ME和PORSC_LR表示本文提出的具有用戶個性化在線評論情感分類器,它們分別使用了平方損失、hinge損失和對數(shù)損失.表1列出了所有方法在3個數(shù)據(jù)集上的實驗執(zhí)行結(jié)果.
表1 不同模型在3個數(shù)據(jù)集上的情感分類精確度
觀察不同模型在數(shù)據(jù)集Dataset1和Dataset2上的實驗結(jié)果可知,PORSC_SVM, PORSC_ME和PORSC_LR都優(yōu)于基線方法.這是因為: 1) 全局分類器不能捕捉每種類型用戶的個性化特征.比如: 評論“iPhone6降價了”,對于青年學(xué)生類型用戶,該評論表達的是一種正面情感,而對于投資者身份的青年類型用戶,該評論在更大程度上表達的是一種負面情感;2) 在Dataset1和Dataset2數(shù)據(jù)集中,特定類型用戶的情感分類器在訓(xùn)練過程有數(shù)據(jù)稀疏性問題.PORSC性能優(yōu)于單個的全局分類器和單個的特定用戶類型的情感分類器,是因為它能捕捉用戶的個性化特征,同時還能利用不同類型用戶共享的常見情感信息處理數(shù)據(jù)稀疏性問題.
觀察不同模型在數(shù)據(jù)集Dataset3上的實驗結(jié)果發(fā)現(xiàn): 1) 模型SVM_Personlized,ME_Personlized和LR_Personlized與模型SVM_Global,ME_Global和LR_Global得到的分類精確度相差并不大.實驗中前3種模型使用的特征分別是用戶名、書名和用戶類型(反映用戶的個性化特征),后3種使用的特征分別是用戶名、書名和用戶所在地區(qū).精確度相差甚微的結(jié)論說明了一個有趣現(xiàn)象: 用戶的個性化特征能反映用戶的居住區(qū)域,而且該結(jié)論與“25歲至35歲的人群在紐約地區(qū)購買圖書較多”的規(guī)律十分吻合.2) 模型PORSC_SVM, PORSC_ME和PORSC_LR的分類精確度明顯高于前面6種模型.這說明綜合考慮用戶個性化特征和用戶所在地區(qū)能進一步提高個性化推薦的精度.
此外,PORSC還稍優(yōu)于LFM、RMTL和MTFL21R.這意味著相比LFM,PORSC更適合于個性化的情感分類;相比已有的多任務(wù)學(xué)習(xí)方法,PORSC中的多任務(wù)學(xué)習(xí)更適合于個性化的在線評論情感分類.
2.4參數(shù)分析
本節(jié)分別在3個數(shù)據(jù)集上執(zhí)行實驗,探討了PORSC模型中參數(shù)λ對PORSC模型性能的影響.參數(shù)λ控制了特定用戶類型的個性化特征在PORSC模型中的相對重要性.圖2給出了在3個數(shù)據(jù)集上的結(jié)果.
圖2 參數(shù)λ的變化對3個不同版本PORSC模型的分類性能影響Fig.2 Performances of classification with respect to different λ values based on three different classifiers of PORSC
從圖2可知,隨著λ的增大,3個不同版本的PROSC模型的分類精確度先升高,后降低.模型在Dataset1和Dataset2數(shù)據(jù)集上的最佳λ值約為0.5,在Dataset3數(shù)據(jù)集上約為0.3.這說明當(dāng)λ較小時,用戶的個性化特征并沒有完全體現(xiàn),PORSC的性能不佳.隨著λ的增大,PORSC的性能逐漸得到改進.另一方面,模型在Dataset1和Dataset2數(shù)據(jù)集上的曲線變化趨勢較陡,當(dāng)λ大約超過0.7時,可能由于過分強調(diào)用戶的個性化特征,許多常見的情感信息丟失,性能又開始下降.對于Dataset3數(shù)據(jù)集,曲線變化趨勢較平緩,在λ大約超過0.5時,分類精確度變化較小,這說明在該數(shù)據(jù)集中用戶的居住區(qū)域在某種程度上也能反映用戶的個性化特征.
2.5模型的時間復(fù)雜度
由于評論的數(shù)量巨大,因此,討論模型PORSC中參數(shù)優(yōu)化的時間復(fù)雜度非常重要.實驗中使用Python實現(xiàn)參數(shù)w,wi,vn和un的加速更新算法,硬件使用Intel core i7和16GB內(nèi)存.實驗過程中,分別在一臺計算機的1個核和5個核上分布各參數(shù)更新算法.實驗結(jié)果取執(zhí)行10-fold驗證的平均值.圖3顯示了在3個數(shù)據(jù)集上,并行結(jié)點個數(shù)對模型訓(xùn)練時間的影響.
圖3 不同的核數(shù)量與3個不同版本PORSC模型的運行時間的關(guān)系Fig.3 Relationships of between number of cores and running time of three different classifiers of PORSC
從圖3可知,相比于1核,當(dāng)同時在5核上并行執(zhí)行參數(shù)更新時,算法運行時間更少.這意味著,整合更多的并行結(jié)點能加速訓(xùn)練過程.通過并行訓(xùn)練大量結(jié)點,分布式算法能有效減少PORSC模型的時間復(fù)雜度.此外,在PORSC模型中使用平方損失函數(shù)和對數(shù)損失函數(shù)的運行時間要少于hing損失函數(shù)的運行時間.這表明基于FISTA的參數(shù)更新算法對加速分布式算法的最耗時的步驟有加速作用.
本文研究了在線評論中不同用戶的個性化特征對情感分類的影響.構(gòu)建了一種個性化的在線評論情感分類(PORSC)模型.它由一個全局情感分類器與一個特定用戶類型的情感分類器2部分構(gòu)成.全局分類器用于學(xué)習(xí)在線評論中常見的情感知識,特定用戶類型分類器用于學(xué)習(xí)不同類型用戶的個性化特征.由于特定用戶類型的數(shù)據(jù)具有稀疏性,提出以協(xié)同方式,同時訓(xùn)練多個不同類型用戶的個性化情感分類器.為了改進PORSC模型的擴展性和有效性,借助于分布式算法實現(xiàn)模型的訓(xùn)練.在3個實際數(shù)據(jù)集上的實驗結(jié)果表明PORSC模型能改進在線評論的情感分類精度.在此基礎(chǔ)上,下一步的研究方向是如何把用戶個性化特征建模結(jié)果應(yīng)用于跨領(lǐng)域的情感分類問題.
[1] 高旸,周莉,張勇,等. 面向股票新聞的情感分類方法 [J].計算機學(xué)報,2010,2(S): 349-362.
[2] 趙傳君,王素格,李德玉,等.基于分組提升集成的跨領(lǐng)域文本情感分類 [J].計算機研究與發(fā)展,2015,52(3): 629-638.
[3] WU F Z, SONG Y Q, HUANG Y F. Microblog sentiment classification with contextual knowledge regularization [C]∥29th AAAI Conference on Artificial Intelligence. Austin, USA: AAAI Press, 2015: 2332-2338.
[4] REN Y F, ZHANG Y, ZHANG M S,etal. Context-sensitive twitter sentiment classification using neural network [C]∥Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Arizona, USA: AAAI Press, 2016: 215-221.
[5] REN Y F, ZHANG Y, ZHANG M S,etal. Improving Twitter sentiment classification using topic-enriched multi-prototype word embeddings [C]∥Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Arizona, USA: AAAI Press, 2016: 3038-3044.
[6] HUANG M L, CAO Y J, DONG C. Modeling rich contexts for sentiment classification with LST [J]. MarXiv, 2016: 1605.01478v1[cs.CL].
[7] WU F Z, HUANG Y F. Collaborative multi-domain sentiment classification [C]∥2015 IEEE International Conference on Data Mining. Atlantic, USA: IEEE Computer Society, 2015: 459-468.
[8] 高琰,陳白帆,晁緒耀,等.基于對比散度-受限玻爾茲曼機深度學(xué)習(xí)的產(chǎn)品評論情感分析 [J].計算機研究與發(fā)展,2016,36(4): 1045-1049.
[9] SONG X L, LIANG J G, HU C C. Sentiment classification: A topic sequence-based approach [J].JournalofComputers, 2016,11(1): 1-9.
[10] 李超雄,黃發(fā)良,溫肖謙,等.基于動態(tài)主題混合情感模型的微博主題情感演化分析方法 [J].計算機研究與發(fā)展,2015,35(10): 2905-2910.
[11] WU F Z, HUANG Y F. Personalized Microblog sentiment classification via multi-task learning [C]∥Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Arizona, USA: AAAI Press, 2016: 3059-3065.
[12] BOYD S, PARIKH N, CHU E,etal. Distributed optimization and statistical learning via the alternating direction method of multipliers [J].FoundationsandTrends?inMachineLearning, 2011,3(1): 1-122.
[13] PARIKH N, BOYD S. Proximal algorithms [J].FoundationsandTrendsinOptimization, 2013,1(3): 123-231.
[14] BECK A, TEBOULLE M. A fast iterative shrinkage-thresholding algorithm for linear inverse problems [J].SIAMJournalonImagingSciences, 2009,2(1): 183-202.
[15] EVGENIOU T, PONTIL M. Regularized multi-task learning [C]∥KDD ′04 Proceedings of the teth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2004: 109-117.
[16] LIU J, JI S W, YE J P. Multi-task feature learning via efficientl2, 1-norm minimization [C]∥UAI ′09 Proceedings of the Twenty-fifth Conference on Uncertainty in Artificial Intelligence. Arlington, Virginia, USA: AUAI Press, 2009: 339-348.
[17] SONG K S, FENG S, GAO W,etal. Personalized sentiment classification based on latent individuality of Microblog users [C]∥Proceedings of the 24th International Joint Conference on Artificial Intelligence.Buenos Aires, Argentina: AAAI Press, 2015: 2277-2283.
Abstract: Focusing on the issue that traditional sentiment classification models of online reviews usually omit the user personality, a model called PORSC was constructed for sentiment classification. The PORSC model contains two components, a global one and a user-specific one. The global classifier was used to learn the common sentiment knowledge shared by all users in online reviews. The user-specific classifier was applied to capture the user personality. To address the data sparseness problem in training for the PORSC model, the personalized sentiment classifiers of different kinds of users were trained in a collaborative way based on multi-task learning so that the parameters of the PORSC model can be optimized in parallel. The experimental results on two datasets from the real-life product online reviews and public English books reviews indicate that the proposed PORSC model can improve the accuracy of sentiment classification for online reviews effectively and efficiently.
Keywords: user personality;online reviews;sentiment classification;multi-task learning
PORSC:ASentimentClassificationModelIntegratingUserPersonalityforOnlineReviews
SONG Xiaoyong, Lü Ping, CHEN Niansheng
(SchoolofElectronicInformation,ShanghaiDianjiUniversity,Shanghai201306,China)
TP311.5
A
0427-7104(2017)03-0359-07
2016-10-10
宋曉勇(1970—),男,實驗師,E-mail: songxy@sdju.edu.cn.