劉興旺
摘 要 隨著智能手機(jī)的迅速發(fā)展,移動應(yīng)用市場的規(guī)模也越來越大,市場上涌現(xiàn)出數(shù)百萬移動應(yīng)用。對于用戶來說,面對海量的應(yīng)用軟件,會糾結(jié)于如何選擇自己想要的應(yīng)用。雖然Google Play市場上提供了移動應(yīng)用的分類,可是對于同樣的功能,每個類別下仍舊包含大量的應(yīng)用,Google Play中雖然對每個應(yīng)用提供評分和下載量供用戶參考,但是僅通過這些信息不足以幫用戶找到自己滿意的應(yīng)用。因此設(shè)計一個相似應(yīng)用比較工具是有意義的。本文先對現(xiàn)有的用戶評論和情感分析的相關(guān)研究做了總結(jié),并在此基礎(chǔ)上,設(shè)計與實現(xiàn)了一個相似應(yīng)用比較的用戶評論挖掘工具。通過挖掘用戶評論,提取了相似應(yīng)用的對比信息,從而能夠為用戶提供更快捷的途徑來找到自己想要的應(yīng)用。工具的實現(xiàn)包括爬取應(yīng)用評論信息、應(yīng)用名稱的簡稱提取、用戶評論的方向分析、用戶評論的情感分析等幾個部分。最終本文通過一些實例測試,驗證了抽取包含應(yīng)用比較信息的評論的有效性。
【關(guān)鍵詞】用戶評論 移動應(yīng)用 情感分析
1 研究背景
隨著信息技術(shù)的迅速發(fā)展,智能手機(jī)很快占據(jù)了手機(jī)市場。智能手機(jī)的功能變得越來越全面,不同功能的移動應(yīng)用也越來越多。甚至在近幾年,功能相似的移動應(yīng)用在應(yīng)用市場上都不計其數(shù)。當(dāng)然,功能相同相似的每個應(yīng)用也有著各自的特點,有些在用戶界面上給用戶更好的體驗,有些更省電給用戶帶來更多的方便,有些在功能上更強(qiáng)大。而不同的用戶可能也有著不同的需求,因此用戶想要某種功能的應(yīng)用的時候,總會面臨不知如何選擇的煩惱。
應(yīng)用下的用戶評論是很有研究價值的數(shù)據(jù)。因此,可以考慮從用戶評論下手,很多手機(jī)應(yīng)用市場如Google Play的應(yīng)用下都有用戶的評論,用戶會把自己的體驗和感受寫下來,如果能夠挖掘出所有這樣的信息,并將他們中包含的相似應(yīng)用之間的關(guān)系提取出來處理并分析,那么可以很好的解決用戶不知如何選擇應(yīng)用的問題。
2 工具的設(shè)計
2.1 應(yīng)用簡稱提取
可以發(fā)現(xiàn)許多應(yīng)用被大家認(rèn)為的名字,可能只是他在應(yīng)用市場上官方全名的一部分,很多名字可能包含free, pro等后綴,例如Calculator Plus Free,而這往往會被用戶在評論時所忽略,可能用戶在提到這個應(yīng)用時就會Calculator Plus來表示。因此,可以認(rèn)為一個應(yīng)用全名的任何一個子串,都是有可能被作為用戶提到的名字出現(xiàn)的。那么可以考慮枚舉每個名字的任何一個字串,例如上述應(yīng)用Calculator Plus Free,那么我們認(rèn)為Calculator、Plus、Free、Calculator Plus、Plus Free、Calculator Plus Free這六種形式都是有可能作為該應(yīng)用的別稱。接下來,需要進(jìn)一步的篩選。因為很明顯,如果將Free、plus這種詞作為一個應(yīng)用的簡稱去在評論庫中匹配,會發(fā)現(xiàn)無數(shù)的無用評論,因為這些詞太過于常見。
本文用的方法是,如果發(fā)現(xiàn)一個有可能的別稱有在不同的應(yīng)用中出現(xiàn)太多,那么把它排除。因為數(shù)據(jù)庫中有Google play應(yīng)用市場的115萬個應(yīng)用,因此像free、plus這種詞語,就能很輕松地排除了。那么剩下的雖然不那么熱門,但是還是有些明顯不會成為該應(yīng)用的簡稱,例如plus free。因此還需要進(jìn)一步進(jìn)行篩選??梢哉J(rèn)為,在自己應(yīng)用下的評論,會有更多的提到自己應(yīng)用名字的可能,因此可以在該應(yīng)用自己的評論中去探索。下一步篩選的方法是,在該應(yīng)用下的評論中去匹配,檢查初步篩選剩下的這些詞組,如果匹配到的詞數(shù)超過一定值,那么認(rèn)為這個詞組是有可能成為該應(yīng)用的別稱或簡稱的。
2.2 用戶評論方向分類
在完成對應(yīng)用名字簡稱的提取后,接下來還需對用戶評論進(jìn)行方向分析,即判斷每條評論是在描述應(yīng)用的哪個方向。將評論方向分成十個大類,那么這一節(jié)將描述如何將評論劃入這些類別中。
先對每個方面找了一些非常具有代表性的詞。例如有bug、fix的詞語的評論肯定是bug report。從這些精確度極高的詞出發(fā),在用這些詞語找到的評論中,再從這些評論中找那些十分近似的詞語,例如在許多錯誤報告評論中出現(xiàn)會出現(xiàn)tap這個詞,因為這個詞出現(xiàn)的地方往往是在描述屏幕沒反應(yīng)后,怎么點擊屏幕都沒反應(yīng)。還有類似slow、wait的看似常見的詞,實際上出現(xiàn)在評論里一般是用來描述應(yīng)用的運(yùn)行性能的詞。這些詞雖然精確度可能沒有百分之百,但是也是很高的,并且加上這些詞,覆蓋的可以判斷出方向的評論就大大提高了。
總結(jié)出代表性的詞語后,已經(jīng)可以分析出很大一部分的評論的方向。不過應(yīng)該注意的是,每個詞都有不同的形式,不同的語境下會有不同的變化,如過去式,第三人稱等等變化。如果直接用完整的詞去匹配,必然有很多詞的變形的情況會導(dǎo)致漏掉。來自猶他州立大學(xué)的Phong等人發(fā)表的一篇文章里,總結(jié)了不同的類型的詞的變形規(guī)則,他用一個很詳細(xì)的表描述了這些規(guī)則,以處理詞的不同形態(tài)。這里可以借用他們的規(guī)則。
有了這樣的一個規(guī)則表后,接下來只需將前面處理出來的詞語,全部對應(yīng)這個規(guī)則來獲得他們在不同情感下的形式。這樣將擴(kuò)展出來的詞也對應(yīng)原來的詞的方向。然后將他們一起去在用戶評論中匹配。
2.3 評論傾向分析
通過前兩節(jié)的工作,已經(jīng)可以找出大量帶有比較信息的評論,并且已經(jīng)可以獲得每條評論的描述方向。接下來則需要對找到的帶比較信息的評論進(jìn)行情感分析,分析出評論作者的觀點,對于比較的兩個應(yīng)用,作者認(rèn)為哪個應(yīng)用在描述的方面有更好的效果。
關(guān)于情感分析這一部分工作從第二章中可以看到在學(xué)術(shù)研究方面已經(jīng)很成熟,本文主要用的SentiWordNet是一個開源的情感分析工具,SentiWordNet給每個同義詞集分配三個情感分?jǐn)?shù):正面性、負(fù)面性以及客觀性,然后圍繞這三個分?jǐn)?shù),完成了對評論的情感分析。
3 實驗結(jié)果分析
3.1 比較性評論抽取結(jié)果分析
首先,先看看比較性評論抽取的精確性。用應(yīng)用數(shù)量比較多的圖片類工具做抽取樣本舉例檢查。在接口處輸入Google Photos,返回的評論數(shù)量有390條。并且可以發(fā)現(xiàn)幾乎所有的匹配出來的評論全都是明確直接與Google Photo相比較的。極少數(shù)的來自一些系統(tǒng)工具的應(yīng)用中的評論是非比較評論,他們評論使用Google Photos時會出現(xiàn)什么樣的狀況,而這樣的顯然不是將應(yīng)用和Google Photos比較的評論。
本文一共找了6個圖片類型的應(yīng)用來分析,并分析了他們的精確度,結(jié)果如圖7所示??梢钥吹?,對于VSCO和Google Photos這種名字簡介并且比較熱門的應(yīng)用,比較評論的精確度十分高;而對于Snapseed和Retrica這樣的應(yīng)用,名字不具有完全的代表性,返回的評論數(shù)量更多,但是精確度卻降低了;Afterlight屬于不那么熱門的應(yīng)用,雖然相關(guān)的評論不太多,但是卻有著較高的精確度;QuickPic Gallery應(yīng)該是三星自帶的圖片應(yīng)用,這樣的應(yīng)用容易與三星其他自帶應(yīng)用相聯(lián)系,因此精確度不那么高。從返回的評論數(shù)量來看,召回率也同樣是非常不錯的。(之前沒有這樣的工作,無法在龐大數(shù)量的評論中驗證召回率)當(dāng)然,對于名字特別普遍的應(yīng)用(如Moments,Battery),則會對返回評論的精確度大大折扣。同樣,對于冷門的應(yīng)用也幾乎找不到比較性的評論。然而,我們認(rèn)為只有熱門的應(yīng)用之間的比較才是真正有價值的,因為冷門的應(yīng)用相對而言比較小眾,用戶極少將它們?nèi)ズ推渌麘?yīng)用比較。
3.2 抽取評論的方向及其情感分析結(jié)果
為了對比更清晰,依然對比較熱門的圖片應(yīng)用進(jìn)行分析,我們分析圖片應(yīng)用Afterlight,這是另一個比較流行的圖片應(yīng)用。在接口輸入后,從返回的結(jié)果看,方向分析的結(jié)果準(zhǔn)確性是比較高的;但是結(jié)合上情感分析的結(jié)果后,準(zhǔn)確性有些下滑。
整體看來,我們抽取了一百條評論做觀察,發(fā)現(xiàn)方向性分析的準(zhǔn)確率在應(yīng)該在百分之七十到八十之間(有些評論方向性太模糊,或者太長太復(fù)雜)。而結(jié)合上情感分析后,完整結(jié)果的準(zhǔn)確率大概在百分之六十到七十之間。
4 總結(jié)與后續(xù)工作
從實驗結(jié)果來看,整體精確度在百分之六十到七十之間。這樣的精確度不算很高,不過鑒于本文所研究的課題是學(xué)術(shù)界比較新的方面,這樣的精確度至少證明了從評論中挖掘相似應(yīng)用關(guān)系是一個可行的研究方向。并且形如“找一類應(yīng)用中的某項功能最好的應(yīng)用”這樣的需求是十分常見的,因此這樣的研究也有著很高的實際價值。
整個實驗中,比較需要改善的地方是評論方向和情感分析的結(jié)合。情感分析部分應(yīng)用的是現(xiàn)有的工具,尋找評論方向的方法是通過匹配代表詞的方法,這時候當(dāng)評論較長的時候,情感分析就容易找不到分析的目標(biāo):是對整個評論進(jìn)行分析,還是針對代表詞所在句子分析,抑或是對代表詞前后的句子一起進(jìn)行分析。這一部分的工作,本文做的實驗和分析還不夠完備,也是精確度不夠高的主要原因。如果這一部分的研究能更加深入,必定能提高一定的精確度。
總而言之,本文提出的研究課題是一個比較新的方向,它以用戶評論為基礎(chǔ)細(xì)粒度地挖掘相似應(yīng)用之間的信息。我們通過應(yīng)用簡稱提取,評論方向分析,評論情感分析三個步驟完成了整個工作,并通過實驗結(jié)果證明了用本文提出的工具確實可以挖掘到很多應(yīng)用比較的信息。
參考文獻(xiàn)
[1]Phong,Tam “Mining User Opining in Mobile App Reviews:A Keyword-based Approach” In proceeding of NASA ADS
[2]M.Hu and B.Liu.“Mining and summarizing customer reviews.” In Proceedings of the tenth ACM SIGKDD international conference on knowledge discovery and data mining, pages 168-177,2004
[3]B.Fu, J.Lin,L.Li,C.Faloutsos, J.Hong,and N.Sadeh. “Why people hate your app:Making sense of user feedback in a mobile app store” In proceedings of the 19th ACM SIGKDD international conference on knowledge discovery and data mining, pages 1276-1284,2013
[4]D.M.Blei,A.Y.Ng,and M.I.Jordan. “Laentdirichlet allocation” the Journal of machine Learning research, 3:993-1022
[5]L.V.GalvisCarreno and K.Winbladh. Analysis of user comments:an approach for software requirements evolution.In proceedings of the 2013 International Conference on Software Engineering,pages 582-591,2013
[6]XiaodongGu,“What parts of your apps are loved by user”In proceeding of Automated Software Engineering, IEEE/ACM International Conference. Pages 760-770.
[7]N.Chen,J.Lin,S.C.Hoi,X.Xiao,and B. Zhang.“Ar-miner:mining informative reviews for developers from mobile app marketplace”.In Proceedings of the 36th International Conference on software Engineerings,pages 767-778, 2014.
作者單位
湖南生物機(jī)電職業(yè)技術(shù)學(xué)院 湖南省長沙市 410127