徐勇 武雅利 李東勤 趙濤 焦夢(mèng)蕾
〔摘要〕用戶生成內(nèi)容是Web20下由網(wǎng)絡(luò)用戶創(chuàng)作的互聯(lián)網(wǎng)信息,分析其相關(guān)理論研究進(jìn)展從而為UGC的進(jìn)一步研究及商業(yè)利用提供思路具有重要的參考意義。本文在界定了UGC產(chǎn)生的背景基礎(chǔ)上,從UGC基本范疇、生成動(dòng)機(jī)、質(zhì)量問(wèn)題和法律問(wèn)題4方面,分析了UGC研究動(dòng)態(tài);探究UGC情感分析中情感詞語(yǔ)和情感量化問(wèn)題,歸納現(xiàn)有情感分析涉及的算法應(yīng)用。在研究現(xiàn)狀分析基礎(chǔ)上,指出下一步應(yīng)重點(diǎn)研究促進(jìn)網(wǎng)絡(luò)用戶生產(chǎn)出高質(zhì)量UGC的激勵(lì)和約束政策,建立更加完善、準(zhǔn)確的推薦模型,設(shè)計(jì)符合不同應(yīng)用領(lǐng)域的情感詞量化方法,構(gòu)建保護(hù)用戶隱私的UGC生產(chǎn)、利用機(jī)制。
〔關(guān)鍵詞〕Web 20;用戶生成內(nèi)容;研究動(dòng)態(tài);情感分析
DOI:10.3969/j.issn.1008-0821.2018.11.022
〔中圖分類(lèi)號(hào)〕G202〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2018)11-0130-06
Survey on Research Trend of User Generated ContentXu Yong1,2Wu Yali1Li Dongqin1Zhao Tao1Jiao Menglei1
(1.School of Management Science and Engineering,Anhui Finance and Economics University,
Bengbu 233000,China;
2.School of Statistics and Applied Mathematics,Anhui Finance and Economics University,
Bengbu 233000,China)
〔Abstract〕User Generation Content is an active topic in recent years under the condition of Web 20.Literatures on User Generation Content were reviewed.The paper introduced the background of UGC,then analyzed its research trends from four views,basic concept,generation motivation,quality and legal problem of UGC.Sentimental words and sentimental quantification in UGCs sentimental analysis were studied,and the application of algorithms used in the existing sentimental analysis was introduced.Finally,interesting works in the future,such as policies which could improve UGCs quality,recommendation models that could get high accuracy of UGC mining,quantitative method how to construct a sufficient sentimental dictionary for different area,privacy preserving of UGC,were proposed.
〔Key words〕Web 20;user generated content;research trends;sentiment analysis
Web 10時(shí)代是以網(wǎng)站編輯為主,用戶往往作為信息接受者而存在,信息的傳遞是單向的。在此基礎(chǔ)上的Web 20時(shí)代,強(qiáng)調(diào)發(fā)揮用戶的能動(dòng)性,賦予用戶更多主動(dòng)權(quán),信息在網(wǎng)站與用戶之間是雙向傳遞的關(guān)系,用戶不再僅僅是信息的消費(fèi)者,還是信息制造者,“以人為本”是其區(qū)別于Web 10的主要特點(diǎn)。2004年,Web 20的概念產(chǎn)生于OReilly和Media Live International的一場(chǎng)頭腦風(fēng)暴中,次年9月,Tim OReilly[1]在“What is Web 20”一文中概括了Web 20的概念,認(rèn)為Web 20是網(wǎng)絡(luò)中利用集體智慧的平臺(tái),數(shù)據(jù)庫(kù)管理是Web 20時(shí)代的核心競(jìng)爭(zhēng)力,并給出Web 20的架構(gòu)圖。
用戶生成內(nèi)容(User Generated Content)正是在Web 20環(huán)境下應(yīng)運(yùn)而生的產(chǎn)物,早期的研究中,用戶生成內(nèi)容還被稱(chēng)作User Created Content(UCC)、Consumer Generated Media(CGM)等。2005年,有“互聯(lián)網(wǎng)女皇”之稱(chēng)的摩根斯坦利首席分析師Mary Meeker首次提出用戶生成內(nèi)圖1Web 20架構(gòu)圖
2018年11月第38卷第11期現(xiàn)代情報(bào)Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期用戶生成內(nèi)容研究進(jìn)展綜述Nov.,2018Vol38No11容(UGC,User-Generated Content)這一術(shù)語(yǔ),并逐漸得到廣泛認(rèn)可。同年4月,BBC率先試水建立一個(gè)UGC小組,在當(dāng)年7月的倫敦地鐵爆炸案中,BBC在新聞播報(bào)中就使用了人們?cè)谔与x現(xiàn)場(chǎng)時(shí)抓拍的照片進(jìn)行剪輯。次年,時(shí)代周刊(TIME)創(chuàng)新性地將“You”評(píng)選為其年度人物。2007年,世界經(jīng)濟(jì)合作與發(fā)展組織(OECD)在“Participative Web and User-Created Content:Web 20 Wikis and Social Networking”報(bào)告中將UGC的3大特點(diǎn)總結(jié)出來(lái):互聯(lián)網(wǎng)上公開(kāi)的內(nèi)容;內(nèi)容具有一定程度的創(chuàng)新性;由非權(quán)威人士及非專(zhuān)業(yè)手段創(chuàng)作發(fā)布。這3大特點(diǎn)也成為后續(xù)UGC研究的基礎(chǔ)。門(mén)亮等[2]認(rèn)為對(duì)于用戶來(lái)說(shuō),用戶生成內(nèi)容可視為其在互聯(lián)網(wǎng)中的DIY(Do It Yourself),利用手機(jī)、電腦等設(shè)備,加入自身思考,制造出屬于自己的UGC,發(fā)布到互聯(lián)網(wǎng)中實(shí)現(xiàn)信息交流。
《紙牌屋》(House of Cards)作為利用大數(shù)據(jù)技術(shù)分析UGC應(yīng)用于影視作品中的一個(gè)里程碑,其制作理念是以用戶需求為主,根據(jù)用戶點(diǎn)擊量、用戶在某網(wǎng)頁(yè)停留時(shí)間等用戶信息,去制作用戶喜愛(ài)的作品?!都埮莆荨返闹谱鞴臼敲绹?guó)最大的在線影片租賃提供商網(wǎng)飛(Netflix)公司,作為美國(guó)三大流媒體公司,Netflix擁有全球最好的個(gè)性化推薦系統(tǒng),以及大量用戶的收視習(xí)慣數(shù)據(jù)。《紙牌屋》的開(kāi)拍不同于傳統(tǒng)影視劇的制作方法,Netflix公司在決定投拍前,充分收集用戶數(shù)據(jù),發(fā)現(xiàn)許多用戶愛(ài)看1990年BBC同名迷你劇《紙牌屋》,與此同時(shí),導(dǎo)演大衛(wèi)·芬奇(David Fincher)和演員凱文·史派西(Kevin Spacey)也深得這些用戶喜愛(ài)。在這些知識(shí)的支持下,Netflix于2013年初推出其首部自制劇集《紙牌屋》。Netflix的用戶數(shù)量在《紙牌屋》正式上線后增加了300萬(wàn),足以說(shuō)明了解用戶的需求對(duì)于影視制作的重要性[3-4]。近些年來(lái),UGC在國(guó)內(nèi)影視作品中的應(yīng)用也愈加明顯,2009年,酷6在創(chuàng)業(yè)初期就提出了UGC模式[5]。作為國(guó)內(nèi)第一家視頻網(wǎng)站,優(yōu)酷所理解的UGC的重點(diǎn)在于“U”,也就是用戶的創(chuàng)意是最珍貴的,優(yōu)酷于2013年推出的“分享計(jì)劃”,目的就在于發(fā)掘并收集草根用戶的創(chuàng)意想法,為有想法的拍客創(chuàng)造舞臺(tái)。隨后國(guó)內(nèi)短視頻分享網(wǎng)站如雨后春筍般出現(xiàn),無(wú)疑也是充分體現(xiàn)UGC價(jià)值的有力佐證。除了在網(wǎng)絡(luò)視頻制作中發(fā)揮作用,越來(lái)越多的企業(yè)也意識(shí)到UGC的重要性,并順勢(shì)提出各種策略以利用UGC為企業(yè)帶來(lái)效益,如戴爾的Idea Storm、星巴克的My Starbucks Idea、網(wǎng)易云每日推薦、淘寶猜你喜歡等等。以星巴克為例,李奕瑩等[6-7]構(gòu)建了企業(yè)開(kāi)放式創(chuàng)新社區(qū)(OIC)中UGC對(duì)其創(chuàng)新的貢獻(xiàn)價(jià)值研究模型,分析OIC中UGC信息質(zhì)量、UGC互動(dòng)質(zhì)量、用戶創(chuàng)新行為和用戶互動(dòng)行為這4個(gè)自變量對(duì)UGC貢獻(xiàn)價(jià)值的影響。并在OIC的條件下,建立創(chuàng)新價(jià)值鏈模型,分析星巴克的My Starbucks Idea策略。
用戶生成內(nèi)容頗有全民參與的含義,并且已經(jīng)影響到生活的很多領(lǐng)域。UGC充分利用Web 20環(huán)境為其提供的技術(shù)便利、更開(kāi)放的社交氛圍,激發(fā)用戶創(chuàng)造UGC的積極性,UGC的作用也漸漸滲入到商業(yè)、新聞?shì)浾?、日常社交等層面?/p>
1UGC相關(guān)概念
基于OECD在2007年給出的UGC 3大特點(diǎn),用戶生成內(nèi)容可理解為普通的非權(quán)威人士在網(wǎng)絡(luò)上發(fā)布的帶有一定創(chuàng)意的內(nèi)容,其形式包括音頻、視頻、文本、圖片等等。若發(fā)布的主體是有一定影響力的權(quán)威人士或團(tuán)隊(duì),用戶生成內(nèi)容就會(huì)轉(zhuǎn)化為專(zhuān)業(yè)生產(chǎn)內(nèi)容(Professionally-generated Content,PGC),相比之下,PGC的影響力、質(zhì)量都遠(yuǎn)遠(yuǎn)高于普通用戶生成的UGC,這也是優(yōu)酷等幾大視頻網(wǎng)站希望發(fā)掘更多PGC的原因。PGC本質(zhì)上仍然是用戶自發(fā)的行為,而職業(yè)生產(chǎn)內(nèi)容(Occupationally-generated Content,OGC)是將內(nèi)容生產(chǎn)行為作為一種職業(yè)活動(dòng),是為獲取報(bào)酬而進(jìn)行內(nèi)容編輯、整理,三者的關(guān)系如圖2所示。
相較于國(guó)外,國(guó)內(nèi)UGC的研究起步較晚,早期人們大多通過(guò)報(bào)紙、新聞等載體意識(shí)到UGC會(huì)對(duì)我們生活產(chǎn)生較大影響,之后就有學(xué)者針對(duì)UGC的概念、特點(diǎn)、內(nèi)容形式等方面進(jìn)行深入研究。藍(lán)勤華[8]認(rèn)為UGC特點(diǎn)主要是個(gè)人化、個(gè)性化、強(qiáng)調(diào)創(chuàng)意和弱利益驅(qū)動(dòng),并將UGC的類(lèi)型劃分為SNS類(lèi)的社交網(wǎng)站、視頻分享網(wǎng)絡(luò)、照片分享網(wǎng)絡(luò)等。胡華[9]認(rèn)為UGC的存在形式可以分為視頻、音頻、圖片、應(yīng)用程序、文本5種,閆婧[10]將UGC分為文字類(lèi)、圖片類(lèi)、音頻/視頻類(lèi)和社交聚合4大類(lèi)。雖然大家對(duì)UGC的特點(diǎn)、形式總結(jié)得不完全相同,但都基于OECD所給出的UGC基本概念與特點(diǎn)。由于UGC可在不同用戶、不同對(duì)象之間形成一種聯(lián)系,張振宇等[11]將UGC視為一種新穎的媒體形態(tài),并從商業(yè)價(jià)值的角度出發(fā),結(jié)合用戶之間、用戶與媒體的強(qiáng)弱關(guān)系,發(fā)現(xiàn)“強(qiáng)關(guān)系”下產(chǎn)生的UGC通常具有較高的商業(yè)價(jià)值,“弱關(guān)系”條件下,商業(yè)價(jià)值不高。
2UGC動(dòng)機(jī)研究
動(dòng)機(jī)是指人在做出某種行為、從事某種活動(dòng)時(shí)的心理狀態(tài)。用戶在創(chuàng)作UGC時(shí)必定是出于某種動(dòng)機(jī),現(xiàn)有研究中對(duì)UGC動(dòng)機(jī)的分類(lèi)已較為完善。2007年,在OECD的報(bào)告中,已對(duì)UGC產(chǎn)生動(dòng)因的相關(guān)因素進(jìn)行了分析,將UGC產(chǎn)生動(dòng)機(jī)分為技術(shù)驅(qū)動(dòng)力、社會(huì)驅(qū)動(dòng)力、經(jīng)濟(jì)驅(qū)動(dòng)力以及制度和法律驅(qū)動(dòng)力4方面。在此后的研究中,學(xué)者們也大多基于這些因素。比如,趙宇翔等[12]將動(dòng)因分成社會(huì)驅(qū)動(dòng)、技術(shù)驅(qū)動(dòng)、個(gè)體驅(qū)動(dòng)3個(gè)維度和人口統(tǒng)計(jì)學(xué)特征1個(gè)調(diào)節(jié)集。柳瑤等[13]將動(dòng)機(jī)分為內(nèi)在需求、社會(huì)誘因和技術(shù)誘因3個(gè)層面。其中,內(nèi)在需求主要源于用戶個(gè)體的自我認(rèn)知與自身需求,比如意見(jiàn)表達(dá)、休閑娛樂(lè)、追求利益等等,是為了滿足自身行為而出現(xiàn)的動(dòng)機(jī);社會(huì)誘因是由于用戶處在社會(huì)的大環(huán)境中,為了得到他人認(rèn)同或換取更高的社會(huì)地位與重視程度,在社會(huì)刺激下產(chǎn)生的動(dòng)機(jī);技術(shù)誘因是指基于技術(shù)接受理論、社會(huì)認(rèn)知理論等理論基礎(chǔ),用戶可預(yù)知到其付出成本,如感知易用性、安全性。除了用戶的主觀動(dòng)機(jī)外,范哲等[14]加入外部環(huán)境的機(jī)會(huì)感知和用戶自身的能力認(rèn)知。通過(guò)實(shí)證分析,他們認(rèn)為影響用戶生成UGC的主要因素是利他與互惠,并且感知易用性與感知有用性是外部環(huán)境機(jī)會(huì)感知中最顯著的變量。此外,用戶也必須具備將其自身知識(shí)儲(chǔ)備轉(zhuǎn)化為UGC的能力。
明確UGC的產(chǎn)生動(dòng)機(jī),了解不同用戶在生產(chǎn)UGC時(shí)的心理活動(dòng),可根據(jù)不同的動(dòng)機(jī)對(duì)用戶進(jìn)行分類(lèi),從而實(shí)施不同的激勵(lì)措施,引導(dǎo)用戶產(chǎn)生數(shù)量更多、質(zhì)量更高的UGC。在現(xiàn)有研究中,已有學(xué)者針對(duì)UGC的激勵(lì)措施展開(kāi)研究。
激勵(lì)理論主要有內(nèi)容型激勵(lì)理論、過(guò)程型激勵(lì)理論、行為改造型激勵(lì)理論和綜合激勵(lì)理論,其中包括馬斯諾的需求層次論、赫茲伯格的雙因素理論、期望理論、歸因理論、公平理論、強(qiáng)化理論、內(nèi)外綜合激勵(lì)理論等。趙宇翔[15]在《社會(huì)化媒體中用戶生成內(nèi)容的動(dòng)因與激勵(lì)設(shè)計(jì)研究》一文中,將目前對(duì)UGC的研究提煉出用戶、內(nèi)容、技術(shù)、組織和社會(huì)五大要素,進(jìn)而從不同的維度分析影響UGC的動(dòng)因,從用戶分類(lèi)、雙因素和時(shí)間3個(gè)維度構(gòu)建了用戶激勵(lì)策略研究的概念框架。研究發(fā)現(xiàn)不同用戶群體對(duì)影響在線用戶生成內(nèi)容行為的激勵(lì)因素和保健因素的感知存在一定的差異。普通參與者將網(wǎng)站的易用性、信息構(gòu)建、個(gè)人隱私和信息安全保障、人—機(jī)交互性等因素作為保健因素,而將外部獎(jiǎng)勵(lì)、人—人交互性、歸屬感、網(wǎng)站的可用性等因素作為激勵(lì)因素。
除了將UGC動(dòng)機(jī)與激勵(lì)措施結(jié)合的研究之外,張世穎[16]認(rèn)為通過(guò)對(duì)UGC動(dòng)機(jī)的確定,還可以對(duì)UGC質(zhì)量做出判斷,UGC的產(chǎn)生動(dòng)機(jī)與其質(zhì)量之間存在著一定的因果邏輯關(guān)系,針對(duì)大量的網(wǎng)絡(luò)用戶,可以針對(duì)不同層次的用戶實(shí)施提高UGC質(zhì)量的激勵(lì)措施,實(shí)現(xiàn)質(zhì)量由“劣”轉(zhuǎn)“優(yōu)”的目的,并且使UGC達(dá)到一種“量”與“質(zhì)”的平衡與統(tǒng)一,促使網(wǎng)絡(luò)用戶創(chuàng)造更多的高質(zhì)量UGC。圖3即表示UGC動(dòng)機(jī)研究與UGC激勵(lì)措施、UGC質(zhì)量評(píng)價(jià)之間的關(guān)聯(lián)。
3UGC質(zhì)量研究
隨著物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。UGC作為數(shù)據(jù)的一種,也滿足大數(shù)據(jù)的5V特點(diǎn)[17]:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值密度)、Veracity(真實(shí)性)。其中Value和Veracity都可理解為UGC質(zhì)量參差不齊,以淘寶評(píng)論為例,針對(duì)某商品的評(píng)論甚至?xí)嘀翑?shù)千條,但其中高質(zhì)量的評(píng)論并不多,例如大量“好評(píng)”、文本極短、答非所問(wèn)等等,這體現(xiàn)了UGC也有價(jià)值密度低的特點(diǎn),這主要是因?yàn)榛ヂ?lián)網(wǎng)中不會(huì)因用戶類(lèi)別而限制其生產(chǎn)UGC。此外,有圖3UGC動(dòng)機(jī)研究與激勵(lì)措施、UGC質(zhì)量的關(guān)聯(lián)圖
些商家雇傭水軍刷好評(píng)、惡意詆毀競(jìng)爭(zhēng)對(duì)手、利用返現(xiàn)誘惑買(mǎi)家給好評(píng)等虛假行為,導(dǎo)致評(píng)論中存在不實(shí)信息,也被稱(chēng)作垃圾信息。因此,對(duì)UGC質(zhì)量分析具有現(xiàn)實(shí)意義。
針對(duì)UGC中存在的質(zhì)量評(píng)價(jià)、質(zhì)量指標(biāo)、質(zhì)量控制等現(xiàn)實(shí)問(wèn)題,金燕[18]總結(jié)后認(rèn)為目前UGC質(zhì)量問(wèn)題主要存在于內(nèi)容錯(cuò)誤、垃圾內(nèi)容、內(nèi)容價(jià)值密度低3方面。在UGC質(zhì)量評(píng)價(jià)方面,目前存在人工檢測(cè)法和自動(dòng)測(cè)量方法兩種方法,但都存在缺陷,如主觀性太強(qiáng)或評(píng)價(jià)指標(biāo)多樣性等因素都會(huì)導(dǎo)致評(píng)價(jià)結(jié)果不統(tǒng)一,故現(xiàn)在急需一套適用性強(qiáng)的UGC質(zhì)量評(píng)價(jià)指標(biāo)體系。從UGC創(chuàng)建過(guò)程角度出發(fā),金燕等[19]構(gòu)建了一個(gè)通用的UGC質(zhì)量實(shí)時(shí)監(jiān)控框架,該框架由數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層和質(zhì)量監(jiān)控層3個(gè)主要模塊構(gòu)成,SPC技術(shù)的利用可以對(duì)UGC創(chuàng)建過(guò)程的每一個(gè)階段進(jìn)行實(shí)時(shí)監(jiān)控。針對(duì)用戶評(píng)論產(chǎn)生的文本UGC,林煜明等[20]圍繞著評(píng)論質(zhì)量評(píng)估、評(píng)論總結(jié)和垃圾評(píng)論檢測(cè)3方面總結(jié)了國(guó)際上評(píng)論質(zhì)量檢測(cè)與控制的研究?jī)?nèi)容、技術(shù)和方法的研究進(jìn)展。從UGC主體生產(chǎn)評(píng)論,到其他用戶在網(wǎng)絡(luò)上接收該評(píng)論,這一過(guò)程中可以通過(guò)用戶輸入約束、UGC評(píng)估、垃圾檢測(cè)、UGC總結(jié)和排序系統(tǒng)進(jìn)行控制。從評(píng)論內(nèi)容的角度看,影響評(píng)論質(zhì)量的因素主要包括評(píng)論的語(yǔ)法特征、語(yǔ)義特征、元特征、文本的統(tǒng)計(jì)特征、可讀性和相似性特征。從UGC主體角度,在考慮UGC質(zhì)量時(shí)應(yīng)考慮到主體的基本屬性,如該用戶是否有不良記錄、注冊(cè)時(shí)間長(zhǎng)短、基本資料完成度、活躍時(shí)間分布情況等。垃圾評(píng)論檢測(cè)也是UGC質(zhì)量控制的一種重要方式,檢測(cè)的主要判斷標(biāo)準(zhǔn)為評(píng)論是否為垃圾內(nèi)容、評(píng)論主體或團(tuán)隊(duì)的質(zhì)量高低。此外,評(píng)論排序?qū)τ脩舾咝Ю肬GC也十分重要,現(xiàn)有應(yīng)用中,淘寶的評(píng)論排序根據(jù)用戶等級(jí)、評(píng)分和推薦,當(dāng)當(dāng)網(wǎng)的評(píng)論排序根據(jù)評(píng)論的回復(fù)數(shù),eBay的評(píng)論排序根據(jù)相關(guān)度。為了更準(zhǔn)確地檢測(cè)虛假評(píng)論,汪建成等[21]依據(jù)評(píng)論UGC的特性建立了基于主題——對(duì)立情感依賴的模型,該模型會(huì)提取正反兩類(lèi)情感詞語(yǔ),在潛在狄利克雷模型(LDA)中加入情感層,即將LDA擴(kuò)展成文檔—主題—情感—詞語(yǔ)結(jié)構(gòu)。在此基礎(chǔ)上提出TOSDM模型,結(jié)合評(píng)論UGC的主題與情感,提取出6位特征對(duì)虛假評(píng)論展開(kāi)檢測(cè)。
如圖4所示,對(duì)UGC質(zhì)量的研究可以劃分為基于內(nèi)容和基于用戶兩方面,其中基于用戶可以通過(guò)UGC質(zhì)量尋找領(lǐng)袖意見(jiàn),以及進(jìn)行虛假主體判別,通常情況下,若UGC質(zhì)量非常低,那么產(chǎn)生該UGC的主體很可能是虛假主體。
由于網(wǎng)絡(luò)中UGC的量之大,普通用戶很難尋找到自身需要的UGC,因此可根據(jù)內(nèi)容創(chuàng)建某領(lǐng)域的推薦系統(tǒng),還可以基于內(nèi)容進(jìn)行垃圾識(shí)別與謠言檢測(cè)等。
4UGC法律問(wèn)題
由于目前用戶在網(wǎng)絡(luò)上發(fā)表言論具有隨機(jī)性、匿名性、數(shù)據(jù)海量性等特點(diǎn),導(dǎo)致用戶對(duì)其發(fā)表UGC的版權(quán)問(wèn)題不夠重視,在不經(jīng)意間會(huì)侵犯他人權(quán)益或者無(wú)法保障自身權(quán)益。在網(wǎng)絡(luò)出現(xiàn)初期,為解決著作權(quán)產(chǎn)生的利益問(wèn)題,美國(guó)政府于1998年通過(guò)了美國(guó)數(shù)字千年版權(quán)法,目前仍應(yīng)用于網(wǎng)絡(luò)法治。此外,UGC規(guī)則雖然已被提出,但許多網(wǎng)絡(luò)龍頭企業(yè)并未簽字認(rèn)同,目前來(lái)說(shuō)并不是理想的網(wǎng)絡(luò)自治規(guī)則。當(dāng)前,我國(guó)的網(wǎng)絡(luò)治理主要根據(jù)2006年國(guó)務(wù)院發(fā)布的《信息網(wǎng)絡(luò)傳播權(quán)條例》。張慧霞[22]指出網(wǎng)絡(luò)治理的發(fā)展將是未來(lái)研究的重點(diǎn)與難點(diǎn)。
目前在UGC版權(quán)問(wèn)題上,李妙玲等[23]認(rèn)為存在著過(guò)濾識(shí)別技術(shù)不到位、網(wǎng)絡(luò)自治不規(guī)范、全民版權(quán)意識(shí)薄弱、產(chǎn)權(quán)意識(shí)教育滯后于技術(shù)的發(fā)展等問(wèn)題。除此之外,用戶的隱私保護(hù)也是學(xué)術(shù)界研究的熱點(diǎn),一方面,實(shí)行實(shí)名制有助于保證UGC的質(zhì)量,在此條件下用戶若發(fā)表言論會(huì)考慮到其言論的影響,以及會(huì)不會(huì)對(duì)自己帶來(lái)麻煩。但實(shí)名制也會(huì)限制用戶創(chuàng)作UGC,有些用戶需要用匿名來(lái)保護(hù)自己,將UGC作為秘密分享出來(lái),比如樹(shù)洞類(lèi)UGC。蔣曉麗等[24]將樹(shù)洞類(lèi)UGC平臺(tái)分為社會(huì)類(lèi)和群體類(lèi)兩種。社會(huì)化樹(shù)洞UGC面向范圍更廣,如微博樹(shù)洞。與之相對(duì),群體化樹(shù)洞UGC是以職業(yè)、興趣等屬性促成的。這兩類(lèi)UGC平臺(tái)都為用戶提供了隱私保護(hù)、言論自由的空間,滿足信息化時(shí)代網(wǎng)民抒發(fā)情緒的需求。樹(shù)洞可以讓用戶更自由地袒露心聲,故引起許多憂郁癥領(lǐng)域?qū)<覍W(xué)者的注意,如何利用樹(shù)洞UGC對(duì)憂郁癥患者改善病情等問(wèn)題不斷被深入探究[25-26]。
目前學(xué)者們普遍認(rèn)為若要解決UGC相關(guān)法律問(wèn)題,作為UGC主體,用戶應(yīng)自覺(jué)地進(jìn)行版權(quán)教育;從社會(huì)角度出發(fā),學(xué)校和社會(huì)也應(yīng)該加強(qiáng)版權(quán)知識(shí)的普及;在UGC網(wǎng)站角度,應(yīng)提高用戶版權(quán)意識(shí),建立適當(dāng)?shù)莫?jiǎng)懲措施。
5情感分析
51UGC情感描述
情感識(shí)別問(wèn)題的提出源于美國(guó)MIT大學(xué)的Minsky教授,其在《The Society of Mind》中第一次提出智能機(jī)器的情感識(shí)別問(wèn)題,引起學(xué)術(shù)界的關(guān)注?!扒楦杏?jì)算”的概念源于1997年P(guān)icard所著的《Affective Computing》一書(shū)中,Picard認(rèn)為情感計(jì)算是源于人類(lèi)情感產(chǎn)生、情感識(shí)別、情感表示以及影響情感因素度量等方面的計(jì)算科學(xué),是利用計(jì)算機(jī)完成信息載體、情感極性傾向和強(qiáng)度度量的過(guò)程。情感是用戶內(nèi)心思想的主觀反映,可以直接反映用戶的喜惡。早期的UGC的研究主要圍繞UGC概念及其商業(yè)應(yīng)用、UGC動(dòng)機(jī)與激勵(lì)措施等方面進(jìn)行。尤其是UGC在視頻類(lèi)軟件中的應(yīng)用,這主要是因?yàn)閁GC剛提出時(shí),youTube率先發(fā)揮其商業(yè)價(jià)值,導(dǎo)致國(guó)內(nèi)的關(guān)注點(diǎn)聚焦于其商業(yè)價(jià)值。隨著研究的深入,越來(lái)越多的學(xué)者開(kāi)始針對(duì)UGC意見(jiàn)挖掘、情感分析等其他領(lǐng)域進(jìn)行研究。比如,針對(duì)微博中的文本進(jìn)行分析,挖掘出群眾的輿論導(dǎo)向與情感變化,可以推測(cè)出微博用戶的關(guān)注信息,從而為用戶提供針對(duì)性服務(wù)。
若要對(duì)文本UGC進(jìn)行情感類(lèi)別劃分,需要一個(gè)較為完善的情感詞典為基礎(chǔ)。現(xiàn)有的情感詞典尤其是中文情感詞典規(guī)模不足是影響情感分析效果的一個(gè)重要因素。除了詞典規(guī)模小這一缺點(diǎn)外,趙妍妍等[27]認(rèn)為現(xiàn)有的情感詞典在情感分析任務(wù)的使用中存在詞典中的詞太過(guò)正式、詞典中僅包括詞語(yǔ)而沒(méi)有詞組等不足。英文詞典方面具有代表性的有General Inquirer和Opinion Lexicon,這兩大詞典都有數(shù)千個(gè)褒義詞和貶義詞,其中依據(jù)詞語(yǔ)的強(qiáng)度、詞性等基本屬性,General Inquirer給每個(gè)詞語(yǔ)貼上標(biāo)簽,以方便人們?cè)谑褂迷~典時(shí)能夠更簡(jiǎn)便地完成任務(wù)。中文情感詞典領(lǐng)域,HowNet在UGC情感傾向分析中的利用較為普遍,近些年,中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制出的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS也逐漸得到認(rèn)可,并逐漸被推廣使用。對(duì)于文本類(lèi)型UGC的信息提取工作,Egger M[28]將其分為信息收集、分析和可視化3階段,并在此基礎(chǔ)上,將步驟細(xì)分為數(shù)據(jù)的收集與清洗、文檔級(jí)信息抽取、句子與短語(yǔ)和詞級(jí)的信息抽取、選擇的挑戰(zhàn)等。基于Ekman的6種基本情緒理論,賴凱聲等[29]通過(guò)人工對(duì)《現(xiàn)代漢語(yǔ)詞典》、《實(shí)用漢語(yǔ)形容詞詞典》和《現(xiàn)代漢語(yǔ)實(shí)詞搭配詞典》進(jìn)行詞語(yǔ)擴(kuò)展,最終收集448個(gè)情緒詞,在此基礎(chǔ)上結(jié)合POMS量表和羅躍嘉詞表等詞庫(kù),通過(guò)新浪微博的搜索功能對(duì)國(guó)內(nèi)網(wǎng)絡(luò)流行詞匯情感詞進(jìn)行驗(yàn)證,以篩除使用頻率較低的生僻詞,最終得到2242個(gè)情緒詞。
情感分析過(guò)程中,除了需要情感詞外,還需對(duì)每個(gè)情感詞進(jìn)行量化,即確定其分值。目前大多研究中,都將情感詞分為積極與消極兩種,潘宇等[30]在研究餐廳評(píng)論極性時(shí),選擇以食品味道、餐廳環(huán)境、服務(wù)態(tài)度和消費(fèi)價(jià)格作為衡量用戶評(píng)論的標(biāo)準(zhǔn),對(duì)UGC進(jìn)行特征標(biāo)注從而對(duì)UGC進(jìn)行極性分析,對(duì)評(píng)論中出現(xiàn)的正向情感詞語(yǔ)量化為+1,負(fù)面情緒的詞語(yǔ)賦值為-1。此外文獻(xiàn)[31]中也提到文本UGC的情感量化問(wèn)題,只是對(duì)于情感傾向的判斷仍限于語(yǔ)義范圍,針對(duì)目前情感詞語(yǔ)量化的深度與廣度都還有待提高。
52情感分析方法
傳統(tǒng)應(yīng)用于情感分類(lèi)的文本分類(lèi)方法有樸素貝葉斯(Naive Bayesian,NB)、k近鄰(k-Nearest Neighbor,kNN)、支持向量機(jī)(Support Vector Machine,SVM)、決策樹(shù)等。對(duì)于目前國(guó)內(nèi)情感分析的研究,饒?jiān)萚32]認(rèn)為主要是情緒的極性化分析計(jì)算與觀點(diǎn)傾向性分析計(jì)算2個(gè)方面。為了分析觀點(diǎn)傾向問(wèn)題,徐琳宏等[33]通過(guò)計(jì)算詞匯與知網(wǎng)中褒貶性之間的相似度,從而對(duì)詞匯的傾向做出判斷,將傾向性明顯的詞語(yǔ)視為特征詞,接著采用SVM對(duì)這些特征詞進(jìn)行分類(lèi)操作,根據(jù)情感詞的傾向就可判斷UGC的整體傾向。同樣是利用SVM分類(lèi)方法,針對(duì)服裝電商評(píng)論情感值問(wèn)題,李宏媛等[34]采用線性回歸模型,通過(guò)對(duì)比平均絕對(duì)誤差、均方差誤差、均方根誤差等發(fā)現(xiàn)商品評(píng)論對(duì)產(chǎn)品銷(xiāo)售量的具體影響。
除了分類(lèi)算法外,還有學(xué)者利用關(guān)聯(lián)算法進(jìn)行UGC情感分析,以豆瓣為例,Yang J等[35]提出了一種改進(jìn)的基于MapReduce的內(nèi)容挖掘Apriori算法,作者認(rèn)為對(duì)UGC進(jìn)行情感分析,可以對(duì)觀眾喜愛(ài)以及用戶接下來(lái)的動(dòng)作進(jìn)行預(yù)測(cè),以豆瓣為例,可發(fā)掘用戶喜愛(ài)的電影以及其他相關(guān)信息,那么行業(yè)利益相關(guān)者,如制片人即可有效地宣傳其內(nèi)容,據(jù)此改善用戶體驗(yàn),更好地幫助觀眾找到與其興趣有關(guān)的電影。通過(guò)UGC深入了解消費(fèi)者可以縮短出版方與觀眾的差距。潛在狄利克雷分布模型(LDA)是一種概率生成模型,考慮到朋友間交互所表現(xiàn)出的情感比非朋友間交互表現(xiàn)出的情感相似度更高,基于此,黃發(fā)良等[36]針對(duì)微博用戶提出微博主題情感傾向分析的SRTSM模型,該模型是在傳統(tǒng)LDA的基礎(chǔ)上加入情感層與微博用戶關(guān)系參數(shù),接著采取吉布斯采樣方法,利用SRTSM模型進(jìn)行微博主題和情感分析。為了對(duì)產(chǎn)品評(píng)論提供一個(gè)全面的評(píng)價(jià),Raghupathi D等[37]提出了一個(gè)較為準(zhǔn)確的整體情感評(píng)級(jí)算法,從單個(gè)文本分析出發(fā),用一個(gè)影響語(yǔ)言字典來(lái)評(píng)價(jià)單詞樹(shù)的葉子。該算法雖然對(duì)評(píng)論UGC的情感傾向足夠重視,卻因?yàn)橹匾曊w而忽視了個(gè)體的作用。根據(jù)情感分析的過(guò)程,文本類(lèi)型UGC的情感分析可細(xì)化成情感信息的抽取、情感信息的分類(lèi)以及情感信息的檢索與歸納[38]。其中分類(lèi)任務(wù)又可分為主、客觀信息的二元分類(lèi)和主觀信息的情感分類(lèi)。對(duì)UGC進(jìn)行的情感分析可以應(yīng)用于用戶評(píng)論分析與決策、輿情監(jiān)控和信息預(yù)測(cè),但由于一些國(guó)外的研究技術(shù)和情感資源無(wú)法直接移植到中文處理中,因此結(jié)合中文的特點(diǎn),尋找適用于中文處理的技術(shù)與手段,仍是接下來(lái)應(yīng)繼續(xù)探索的問(wèn)題。
6下一步的研究趨勢(shì)
通過(guò)對(duì)已有文獻(xiàn)的梳理,文中對(duì)UGC的概念、動(dòng)機(jī)、質(zhì)量和法律方面進(jìn)行概述,接著對(duì)UGC情感分析的情感描述、分析方法展開(kāi)研究。對(duì)于接下來(lái)的研究,可以針對(duì)以下幾方面展開(kāi):
61追求高質(zhì)量
隨著大數(shù)據(jù)時(shí)代的到來(lái),每天都會(huì)產(chǎn)生大量的UGC,數(shù)量爆炸式增長(zhǎng)的同時(shí),并未能保證UGC的高質(zhì)量。UGC的創(chuàng)造越來(lái)越多地依靠手機(jī)、Pad等移動(dòng)電子產(chǎn)品,用戶傾向于利用零碎時(shí)間生產(chǎn)UGC,因此大多數(shù)UGC的質(zhì)量是不高的。此外,由于被利益驅(qū)使的網(wǎng)絡(luò)灌水、刷屏等非正常現(xiàn)象的大量出現(xiàn),容易對(duì)UGC研究樣本造成污染,所以若能有效地改善UGC的質(zhì)量,有助于提高數(shù)據(jù)分析的準(zhǔn)確率和高效性。比如,UGC網(wǎng)站對(duì)于穩(wěn)定產(chǎn)出高質(zhì)量的UGC主體給予一定的激勵(lì)政策,虛擬的積分或游戲幣等。
62提高推薦準(zhǔn)確度
UGC感知易用性的高低因人而異,用戶創(chuàng)作UGC時(shí)帶有強(qiáng)烈的個(gè)性特點(diǎn),如何結(jié)合用戶個(gè)體,理解UGC表達(dá)的真實(shí)含義、判斷UGC質(zhì)量高低是值得研究的問(wèn)題。這其中會(huì)涉及到中文語(yǔ)義復(fù)雜度較高、容易產(chǎn)生歧義等問(wèn)題。還可以結(jié)合UGC特點(diǎn)對(duì)用戶信譽(yù)或用戶活躍度進(jìn)行預(yù)測(cè)與分類(lèi),對(duì)不同層次的用戶進(jìn)行針對(duì)性的廣告投放或推薦方案,進(jìn)一步挖掘UGC的商業(yè)價(jià)值。為了提高商家的服務(wù)質(zhì)量,林煜明等[20]提出綜合考慮用戶的地理信息和用戶對(duì)商品的評(píng)論,兩者的結(jié)合將在很大程度上為商家和用戶帶來(lái)便利。但用戶與UGC的屬性如何準(zhǔn)確分類(lèi),如何建立更加完善、準(zhǔn)確的推薦模型是接下來(lái)值得研究的熱點(diǎn)。
63完善情感詞庫(kù)
英文詞庫(kù)已經(jīng)較為完善,在分詞階段只需將單個(gè)的單詞拆開(kāi)即可。中文因其特殊性與復(fù)雜性,中文分詞比英文分詞困難,針對(duì)UGC情感分析問(wèn)題,可嘗試構(gòu)建更加完善的情感詞庫(kù),更加充分地考慮停用詞、歧義詞等問(wèn)題。由于目前研究中,在情感量化方面沒(méi)有統(tǒng)一標(biāo)準(zhǔn),大多研究在權(quán)值的分配問(wèn)題上研究仍然不夠深入,在實(shí)際應(yīng)用時(shí)不能準(zhǔn)確地表達(dá)用戶的情感傾向,如何將情感詞量化得更符合現(xiàn)實(shí)意義,也是值得探究的方向。此外,不同性格的用戶生產(chǎn)UGC時(shí),在情感表達(dá)方面都有差異。比如,性格外向的用戶可能會(huì)更加善于表達(dá)自己的情感,所用的情感詞會(huì)較為強(qiáng)烈;性格內(nèi)向的用戶產(chǎn)生的UGC可能會(huì)較為平穩(wěn),情感方面波動(dòng)不明顯。因此,在情感分析階段,也可嘗試結(jié)合用戶的個(gè)性特點(diǎn)采取針對(duì)性分析。
64加強(qiáng)用戶隱私保護(hù)
用戶生成內(nèi)容因其網(wǎng)上發(fā)布的特點(diǎn),存在著UGC主體組成復(fù)雜、形式摻雜、質(zhì)量不齊等問(wèn)題,此外,目前國(guó)內(nèi)網(wǎng)絡(luò)自治規(guī)則也并不完善。隨著網(wǎng)絡(luò)直播等第三方視頻網(wǎng)站的興起,網(wǎng)站僅充當(dāng)用戶的UGC展示平臺(tái),因此作為網(wǎng)站營(yíng)運(yùn)者,如何加強(qiáng)監(jiān)管、對(duì)每天產(chǎn)生的海量UGC進(jìn)行審核是個(gè)問(wèn)題。除此之外,今后還應(yīng)注重解決因UGC引發(fā)的相關(guān)法律道德問(wèn)題,充分利用UGC使其發(fā)揮積極作用,加強(qiáng)對(duì)“人肉”等侵犯?jìng)€(gè)人隱私的治理力度。
參考文獻(xiàn)
[1]http://www.oreilly.com/pub/a/web2/archive/what-is-web-20.html?page=1[EB].
[2]門(mén)亮,楊雄勇.UGC平臺(tái)的特征及其信息流的分析[J].設(shè)計(jì),2015,(5):52-54.
[3]李冰,郄婧琳.大數(shù)據(jù)、流媒體與視頻內(nèi)容生產(chǎn)新策略——美劇《紙牌屋》的啟示[J].出版廣角,2015,(3):89-91.
[4]黎孔靜.由Netflix自制劇《紙牌屋》的熱播引發(fā)的思考[J].電視研究,2013,(9):76-77.
[5]劉倩琦.中國(guó)視頻UGC的掘金路[J].投資北京,2014,(1):50-53.
[6]李奕瑩,戚桂杰.企業(yè)開(kāi)放式創(chuàng)新社區(qū)中用戶生成內(nèi)容的創(chuàng)新貢獻(xiàn)[J].中國(guó)科技論壇,2017,(4):95-102.
[7]李奕瑩,戚桂杰.創(chuàng)新價(jià)值鏈視角下企業(yè)開(kāi)放式創(chuàng)新社區(qū)管理的系統(tǒng)動(dòng)力學(xué)研究[J].商業(yè)經(jīng)濟(jì)與管理,2017,(6):60-70.
[8]藍(lán)勤華.UGC(用戶創(chuàng)造內(nèi)容)概念之辨析[J].中國(guó)網(wǎng)絡(luò)傳播研究,2010,(00):279-286.
[9]胡華.基于中文UGC信息源的半自動(dòng)應(yīng)用本體構(gòu)建研究[D].武漢:武漢大學(xué),2014.
[10]閆婧.基于用戶信譽(yù)評(píng)級(jí)的UGC質(zhì)量預(yù)判方法[D].鄭州:鄭州大學(xué),2017.
[11]張振宇,喻發(fā)勝.公共性與商業(yè)性:UGC媒體發(fā)展的兩難境地——以媒介形態(tài)研究的視角[J].湖北社會(huì)科學(xué),2015,(8):192-198.
[12]趙宇翔,朱慶華.Web20環(huán)境下影響用戶生成內(nèi)容的主要?jiǎng)右蜓芯縖J].中國(guó)圖書(shū)館學(xué)報(bào),2009,(5):107-116.
[13]柳瑤,郎宇潔,李凌.微博用戶生成內(nèi)容的動(dòng)機(jī)研究[J].圖書(shū)情報(bào)工作,2013,57(10):51-57.
[14]范哲,張乾.MOA視角下的問(wèn)答網(wǎng)站用戶貢獻(xiàn)行為研究[J].圖書(shū)與情報(bào),2015,(5):123-132.
[15]趙宇翔.社會(huì)化媒體中用戶生成內(nèi)容的動(dòng)因與激勵(lì)設(shè)計(jì)研究[D].南京:南京大學(xué),2011.
[16]張世穎.移動(dòng)互聯(lián)網(wǎng)用戶生成內(nèi)容動(dòng)機(jī)分析與質(zhì)量評(píng)價(jià)研究[D].長(zhǎng)春:吉林大學(xué),2014.
[17]https://baike.so.com/doc/5374131-5610149.html[EB].
[18]金燕.國(guó)內(nèi)外UGC質(zhì)量研究現(xiàn)狀與展望[J].情報(bào)理論與實(shí)踐,2016,39(3):15-19.
[19]金燕,李丹.基于SPC的用戶生成內(nèi)容質(zhì)量監(jiān)控研究[J].情報(bào)科學(xué),2016,34(5):86-90,141.
[20]林煜明,王曉玲,朱濤,等.用戶評(píng)論的質(zhì)量檢測(cè)與控制研究綜述[J].軟件學(xué)報(bào),2014,25(3):506-527.
[21]汪建成,嚴(yán)馨,余正濤,等.基于主題-對(duì)立情感依賴模型的虛假評(píng)論檢測(cè)方法[J].山西大學(xué)學(xué)報(bào):自然科學(xué)版,2015,(1):31-38.
[22]張慧霞.美國(guó)UGC規(guī)則探討——兼論網(wǎng)絡(luò)自治與法治的關(guān)系[J].電子知識(shí)產(chǎn)權(quán),2008,(5):37-39.
[23]李妙玲,岳慶榮.我國(guó)用戶生成內(nèi)容的版權(quán)侵權(quán)問(wèn)題治理模式研究[J].新世紀(jì)圖書(shū)館,2015,(5):54-59.
[24]蔣曉麗,楊珊.虛擬社會(huì)安全閥:樹(shù)洞類(lèi)UGC平臺(tái)的宣泄功能研究[J].新聞界,2017,(6):54-59.
[25]王賽.樹(shù)洞文化在互聯(lián)網(wǎng)中的應(yīng)用與發(fā)展[J].青年記者,2014,(32):69-70.
[26]耿紹寧.試析網(wǎng)絡(luò)“樹(shù)洞”應(yīng)用對(duì)高校和諧穩(wěn)定的影響——以“樹(shù)洞”微博為例[J].思想理論教育,2013,(15):76-78,82.
[27]趙妍妍,秦兵,石秋慧,等.大規(guī)模情感詞典的構(gòu)建及其在情感分類(lèi)中的應(yīng)用[J].中文信息學(xué)報(bào),2017,31(2):187-193.
[28]Egger M.A Brief Tutorial on How to Extract Information from User-Generated Content(UGC)[J].KI - Künstliche Intelligenz,2013,27(1):53-60.
[29]賴凱聲,陳浩,錢(qián)衛(wèi)寧,等.微博情緒與中國(guó)股市:基于協(xié)整分析[J].系統(tǒng)科學(xué)與數(shù)學(xué),2014,34(5):565-575.
[30]潘宇,林鴻飛.基于語(yǔ)義極性分析的餐館評(píng)論挖掘[J].計(jì)算機(jī)工程,2008,17(17):208-210.
[31]王海雷,章彥星,趙海玉,等.基于用戶生成內(nèi)容的產(chǎn)品搜索模型[J].中文信息學(xué)報(bào),2013,27(4):89-95.
[32]饒?jiān)?,吳連偉,王一鳴,等.基于語(yǔ)義分析的情感計(jì)算技術(shù)研究進(jìn)展[J].軟件學(xué)報(bào),2018,29(8):1-25.
[33]徐琳宏,林鴻飛,楊志豪.基于語(yǔ)義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007,21(1):96-100.
[34]李宏媛,陶然.服裝電商評(píng)論情感分析研究[J].智能計(jì)算機(jī)與應(yīng)用.2017,7(1):27-34.
[35]Yang J,Yecies B.Mining Chinese Social Media UGC:A Big Data Framework for Analyzing Douban Movie Reviews[J].Journal of Big Data,2016,3(1):1-23.
[36]黃發(fā)良,于戈,張繼連,等.基于社交關(guān)系的微博主題情感挖掘[J].軟件學(xué)報(bào),2017,28(3):694-707.
[37]Raghupathi D,Yannou B,F(xiàn)arel R,Emilie Poirson.Customer Sentiment Appraisal from User-generated Product Reviews:A Domain Independent Heuristic Algorithm[J].International Journal on Interactive Design and Manufacturing(IJIDeM),2015,9(3):201-211.
[38]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.
(責(zé)任編輯:陳媛)2018年11月第38卷第11期現(xiàn)代情報(bào)Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期理性行為理論及其在信息系統(tǒng)研究中的應(yīng)用與展望Nov.,2018Vol38No11
收稿日期:2018-08-15