李曉穎 趙安娜 周曉靜 楊成偉
摘 ?要:高速發(fā)展的互聯(lián)網(wǎng)時(shí)代使得越來(lái)越多的用戶成為網(wǎng)絡(luò)內(nèi)容的創(chuàng)造者與分銷商,數(shù)據(jù)信息的爆炸式增長(zhǎng)加劇了各類在線內(nèi)容對(duì)于用戶關(guān)注度的競(jìng)爭(zhēng)。用戶的搜索瀏覽與消費(fèi)交易信息反映了其行為習(xí)慣與興趣愛(ài)好,從海量數(shù)據(jù)中挖掘出有效信息并將其轉(zhuǎn)化為商業(yè)價(jià)值將大大增強(qiáng)企業(yè)的核心競(jìng)爭(zhēng)力。本文以網(wǎng)絡(luò)內(nèi)容的重要組成部分——電商平臺(tái)的服裝銷售為例,回顧了網(wǎng)絡(luò)內(nèi)容流行度的預(yù)測(cè)方法及服裝流行趨勢(shì)預(yù)測(cè)的發(fā)展歷程,并就如何利用數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)對(duì)在線服裝流行度進(jìn)行預(yù)測(cè)展開(kāi)了邏輯路徑分析,具有一定的指導(dǎo)意義與應(yīng)用價(jià)值。
關(guān)鍵詞:數(shù)據(jù)驅(qū)動(dòng);網(wǎng)絡(luò)內(nèi)容;流行度
中圖分類號(hào):TP393.092;TP333 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)12-0020-03
Abstract:The rapid development of the internet era has made more and more users become the creators and distributors of network content. The explosive growth of data information has intensified the competition of various online content for usersattention. Userssearch,browse and consumption transaction information reflect their behavior habits and interests. Mining effective information from massive data and transforming it into commercial value will greatly enhance the core competitiveness of enterprises. Taking the clothing sales of e-commerce platform as an example,this paper reviews the development process of forecasting the popularity of network content and the trend of clothing popularity,and carries out a logical path analysis on how to use data-driven method to predict online clothing popularity,which has certain guiding significance and application value.
Keywords:data driven;network content;popularity
0 ?引 ?言
互聯(lián)網(wǎng)上各類社交媒體與消費(fèi)交易平臺(tái)每日產(chǎn)生大量的用戶社交與產(chǎn)品交易信息,這些內(nèi)容是用戶行為習(xí)慣、關(guān)注重點(diǎn)、審美喜好標(biāo)準(zhǔn)最直觀的反映。面對(duì)數(shù)據(jù)信息的爆炸式增長(zhǎng),對(duì)網(wǎng)絡(luò)內(nèi)容流行度進(jìn)行及時(shí)而準(zhǔn)確的預(yù)測(cè),一方面可以幫助用戶快速尋找到所需內(nèi)容,根據(jù)用戶的需求主動(dòng)分配資源;另一方面,可以增強(qiáng)在線內(nèi)容運(yùn)營(yíng)商的市場(chǎng)競(jìng)爭(zhēng)力。其在產(chǎn)品推薦、營(yíng)銷廣告、用戶行為分析及網(wǎng)絡(luò)流量管理等方面均實(shí)現(xiàn)了廣泛的應(yīng)用。
在新零售背景下,服裝銷售渠道逐漸由線下為主轉(zhuǎn)為以線上為主,淘寶、天貓、京東等各類電商平臺(tái)積聚的大量服裝銷售數(shù)據(jù)成為網(wǎng)絡(luò)內(nèi)容的重要組成部分。服裝流行趨勢(shì)作為時(shí)尚的風(fēng)向標(biāo),一直引領(lǐng)著消費(fèi)者的購(gòu)買傾向。在以數(shù)據(jù)驅(qū)動(dòng)為主導(dǎo)的大數(shù)據(jù)時(shí)代,從網(wǎng)絡(luò)內(nèi)容流行度的角度出發(fā),基于數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)預(yù)測(cè)服裝流行度在未來(lái)一段時(shí)間內(nèi)的發(fā)展趨勢(shì)具有重要的研究?jī)r(jià)值。
1 ?網(wǎng)絡(luò)內(nèi)容流行度預(yù)測(cè)研究現(xiàn)狀
預(yù)測(cè)網(wǎng)絡(luò)內(nèi)容在互聯(lián)網(wǎng)上的流行程度如何隨時(shí)間變化,根據(jù)用戶的興趣主動(dòng)分配網(wǎng)絡(luò)流量已成為一個(gè)較為活躍的研究領(lǐng)域。
1.1 ?網(wǎng)絡(luò)內(nèi)容流行度的主要研究類型
網(wǎng)絡(luò)內(nèi)容的流行度,即給定某個(gè)網(wǎng)絡(luò)信息i,預(yù)測(cè)其在第t個(gè)時(shí)刻的流行程度Yi(t)。目前最受歡迎的研究?jī)?nèi)容主要有在線視頻、新聞資訊、社交媒體等,而瀏覽量、評(píng)論量、轉(zhuǎn)發(fā)量等則是預(yù)測(cè)的主要度量標(biāo)準(zhǔn)。
(1)在線視頻。各大視頻分享平臺(tái)吸引了大量網(wǎng)絡(luò)用戶,YouTube每年的全球?yàn)g覽量超萬(wàn)億次,已成為一個(gè)活躍的大型在線社區(qū)平臺(tái)。其流行度以瀏覽量作為主要度量,且隨著時(shí)間的推移變化,可用冪律或指數(shù)分布來(lái)描述[1]。
(2)新聞資訊。在數(shù)字世界中,信息的主要來(lái)源為互聯(lián)網(wǎng)上傳播的大量新聞資訊,其及時(shí)、快速的特點(diǎn)導(dǎo)致人們對(duì)新聞資訊的關(guān)注度在發(fā)布后的幾天內(nèi)很快消減,而在線新聞與資訊的流行度通常由瀏覽量、評(píng)論量等表示,可以用冪律或?qū)?shù)正態(tài)分布來(lái)描述[2]。
(3)社交媒體。社交網(wǎng)絡(luò)服務(wù)在互聯(lián)網(wǎng)平臺(tái)中占據(jù)極高的話題聚集度,基于內(nèi)容共享的方式允許用戶建立和維護(hù)在線社交關(guān)系,Twitter與微博已是當(dāng)下被廣泛運(yùn)用的社交網(wǎng)絡(luò)服務(wù)。不同話題的內(nèi)容可通過(guò)社交網(wǎng)絡(luò)進(jìn)行傳播,拓展內(nèi)容的覆蓋范圍。接收內(nèi)容的用戶數(shù)量與內(nèi)容的轉(zhuǎn)發(fā)數(shù)量通常被用來(lái)衡量流行程度,Tweet的流行度也可用冪律分布來(lái)刻畫[2]。
1.2 ?網(wǎng)絡(luò)內(nèi)容流行度預(yù)測(cè)的研究方法
目前,在網(wǎng)絡(luò)內(nèi)容流行趨勢(shì)預(yù)測(cè)方面的研究中,較為廣泛的研究思路為聚集用戶的關(guān)注度來(lái)推斷某在線內(nèi)容未來(lái)的流行程度。這種研究思路的具體研究方法又可分為基于早期流行度的積聚增長(zhǎng)、基于時(shí)間序列分析和網(wǎng)絡(luò)傳播影響力等的預(yù)測(cè)。
1.2.1 ?基于積聚增長(zhǎng)的流行度預(yù)測(cè)
該方法通過(guò)測(cè)量某一個(gè)時(shí)刻或者某個(gè)時(shí)間點(diǎn)的網(wǎng)絡(luò)內(nèi)容積累數(shù)量作為當(dāng)前時(shí)刻流行度預(yù)測(cè)指標(biāo)。網(wǎng)絡(luò)內(nèi)容在發(fā)布早期的流行程度對(duì)于其后期的流行度具有很大的影響,因此,可以用早期流行度來(lái)預(yù)測(cè)該內(nèi)容在未來(lái)一段時(shí)間內(nèi)的流行度。回歸分析模型經(jīng)常被用于預(yù)測(cè)研究中,且對(duì)早期流行度與未來(lái)流行度進(jìn)行對(duì)數(shù)處理后,二者將表現(xiàn)出非常強(qiáng)的線性相關(guān)性[3,4]。
1.2.2 ?基于時(shí)間分析的流行度預(yù)測(cè)
該方法主要是為了測(cè)量一段時(shí)期內(nèi)的流行度演化趨勢(shì)。對(duì)于那種在較長(zhǎng)一段時(shí)間內(nèi)持續(xù)獲得關(guān)注度的網(wǎng)絡(luò)內(nèi)容,早期不同時(shí)刻的流行度對(duì)于未來(lái)某一時(shí)刻的流行度的影響程度是不同的,一般考慮對(duì)不同歷史時(shí)刻的流行度建立加權(quán)多元線性回歸模型[3]來(lái)預(yù)測(cè)未來(lái)某一時(shí)刻的流行程度。這種模型在網(wǎng)絡(luò)連續(xù)劇的流行趨勢(shì)預(yù)測(cè)中表現(xiàn)出了良好的性能[5]。還有一些研究將時(shí)間序列預(yù)測(cè)模型應(yīng)用于網(wǎng)絡(luò)內(nèi)容在較長(zhǎng)一段時(shí)間內(nèi)的流行趨勢(shì)分析,比如Gursun等人就對(duì)在線視頻的日瀏覽量建立ARMA模型來(lái)預(yù)測(cè)給定的第n天視頻的流行度[6]。在線內(nèi)容往往具有幾種常見(jiàn)的時(shí)間演化模式,通過(guò)聚類方法可以將具有相似流行趨勢(shì)的網(wǎng)絡(luò)內(nèi)容劃分到同一種演化模式的集群中,通過(guò)集群的演化趨勢(shì)來(lái)推斷其未來(lái)某一時(shí)刻的流行度[7,8]。
1.2.3 ?基于網(wǎng)絡(luò)傳播影響力的流行度預(yù)測(cè)
該方法通過(guò)測(cè)量網(wǎng)絡(luò)內(nèi)容在網(wǎng)絡(luò)中傳播的深度、廣度預(yù)測(cè)其流行度。當(dāng)某網(wǎng)絡(luò)內(nèi)容在一個(gè)網(wǎng)站被發(fā)布以后,其相關(guān)信息往往會(huì)在Twitter、微博等多個(gè)社交網(wǎng)絡(luò)平臺(tái)傳播,研究表明,從多個(gè)信息來(lái)源提取特征值可以提高在線內(nèi)容流行度的預(yù)測(cè)精度。在基于內(nèi)容共享的社交網(wǎng)絡(luò)平臺(tái)上,網(wǎng)絡(luò)信息呈爆炸式傳播,大量研究[9,10]將描述信息傳播的傳染病理論應(yīng)用于社交網(wǎng)絡(luò)上內(nèi)容流行度的預(yù)測(cè)。
2 ?服裝流行趨勢(shì)預(yù)測(cè)的發(fā)展歷程及演化分析
服裝流行趨勢(shì)的預(yù)測(cè)貫穿于時(shí)尚產(chǎn)業(yè)的整個(gè)發(fā)展歷程。服裝流行度的預(yù)測(cè)可分為定性預(yù)測(cè)與定量預(yù)測(cè)兩類。
定性預(yù)測(cè)即憑借專業(yè)知識(shí)與行業(yè)經(jīng)驗(yàn),對(duì)未來(lái)服裝流行發(fā)展趨勢(shì)進(jìn)行定性的評(píng)判,其中主要包括直覺(jué)預(yù)測(cè)法和流行專家會(huì)議預(yù)測(cè)法等。其專業(yè)性與主觀性較強(qiáng),這對(duì)于有經(jīng)驗(yàn)的權(quán)威機(jī)構(gòu)來(lái)說(shuō)有獨(dú)特優(yōu)勢(shì),但可操作性較差,不適合大范圍的應(yīng)用。
定量預(yù)測(cè)是采用合適有效的數(shù)理統(tǒng)計(jì)手段和數(shù)學(xué)模型推算出未來(lái)服裝流行的發(fā)展變化。傳統(tǒng)定量預(yù)測(cè)的數(shù)據(jù)來(lái)源大多為政府或權(quán)威機(jī)構(gòu)發(fā)布的統(tǒng)計(jì)報(bào)告,存在著一定的滯后性,且數(shù)據(jù)量有限,往往不能滿足較高預(yù)測(cè)精度的要求。在預(yù)測(cè)方法與模型應(yīng)用上,運(yùn)用回歸分析法、馬爾科夫預(yù)測(cè)法等傳統(tǒng)數(shù)理統(tǒng)計(jì)方法建立預(yù)測(cè)模型[11,12]是最為基本的預(yù)測(cè)方法;隨著預(yù)測(cè)技術(shù)的發(fā)展,又出現(xiàn)較為智能與復(fù)雜化的灰色GM(1,1)模型[13,14]、神經(jīng)網(wǎng)絡(luò)[15,16]等方法。從服裝元素的角度來(lái)講,研究涉及服裝色彩、面料、圖案、廓形款式等各方面,流行色因其較易量化與分析等特征在服裝流行度預(yù)測(cè)研究中一直備受關(guān)注。但是就目前而言,現(xiàn)有的大多數(shù)針對(duì)服裝流行度的預(yù)測(cè)僅僅涉及服裝某單一因素的專業(yè)性研究,且數(shù)據(jù)來(lái)源較為有限,只有少數(shù)研究者試圖通過(guò)利用互聯(lián)網(wǎng)上的大量數(shù)據(jù)信息來(lái)分析預(yù)測(cè)服裝的流行趨勢(shì),但并未達(dá)到理想的研究效果。
3 ?基于數(shù)據(jù)驅(qū)動(dòng)的電商平臺(tái)服裝流行度預(yù)測(cè)邏輯路徑分析
3.1 ?數(shù)據(jù)搜集與預(yù)處理
選取某一類服裝作為研究對(duì)象,在熱門電商銷售平臺(tái)連續(xù)采集一定時(shí)間段內(nèi)的服裝銷售數(shù)據(jù),對(duì)缺失值、重復(fù)值、異常值等進(jìn)行數(shù)據(jù)預(yù)處理,得到基本數(shù)據(jù)集。
3.2 ?變量選擇與流行度定義
電商平臺(tái)中的服裝產(chǎn)品一般包含成交量、收藏量、瀏覽量、好評(píng)率等多個(gè)反映用戶購(gòu)買喜好的產(chǎn)品交易信息,在這里可以將某一交易屬性單獨(dú)定義為流行度,也可選取幾個(gè)典型的交易屬性作為特征屬性并采取加權(quán)等多種表示方式來(lái)綜合定義研究的服裝流行度。
3.3 ?模型建立與優(yōu)化
面對(duì)獲取的電商平臺(tái)的海量服裝銷售數(shù)據(jù),我們可以考慮將以往對(duì)網(wǎng)絡(luò)內(nèi)容流行度的相關(guān)研究模型和方法應(yīng)用于服裝流行度的研究,使傳統(tǒng)的預(yù)測(cè)方法與在線內(nèi)容的預(yù)測(cè)方法相結(jié)合,對(duì)于具體的服裝商品而言,其前后的交易屬性間都存在著較強(qiáng)的相關(guān)性。早期的成交量、瀏覽量、收藏量、好評(píng)率等都會(huì)以一定的概率影響后期的不同交易屬性,可據(jù)此建立基于數(shù)據(jù)驅(qū)動(dòng)的在線服裝流行趨勢(shì)的預(yù)測(cè)模型。
3.4 ?實(shí)驗(yàn)設(shè)計(jì)與效果評(píng)估
在實(shí)驗(yàn)設(shè)計(jì)這部分,針對(duì)建立或優(yōu)化的預(yù)測(cè)模型構(gòu)造執(zhí)行算法,除了將不同的模型進(jìn)行對(duì)比分析外,還可以將同一模型在不同數(shù)據(jù)分析工具上顯示的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。最后,將實(shí)驗(yàn)報(bào)告所得的結(jié)果整理匯總,列出流行度較高的服裝商品,利用關(guān)鍵詞分析等方法提取其服裝元素,通過(guò)社會(huì)調(diào)查與服裝企業(yè)專家評(píng)定等方法驗(yàn)證模型預(yù)測(cè)的應(yīng)用真實(shí)效果與準(zhǔn)確性。
4 ?結(jié) ?論
在大數(shù)據(jù)時(shí)代,服裝流行趨勢(shì)的預(yù)測(cè)更加側(cè)重于對(duì)消費(fèi)者行為的分析與建模,數(shù)據(jù)來(lái)源的多樣化、數(shù)據(jù)結(jié)構(gòu)的復(fù)雜化要求更為精準(zhǔn)的預(yù)測(cè)模型來(lái)指導(dǎo)服裝產(chǎn)品生產(chǎn)與設(shè)計(jì)。雖然近年來(lái)針對(duì)不同領(lǐng)域的網(wǎng)絡(luò)內(nèi)容提出了大量的預(yù)測(cè)方法,其中包括媒體廣告、趨勢(shì)預(yù)測(cè)、流量管理、選舉預(yù)測(cè)等。但由于網(wǎng)絡(luò)內(nèi)容的流行度之間有著復(fù)雜的在線交互和難以預(yù)測(cè)的信息級(jí)聯(lián)等多種因素,網(wǎng)絡(luò)內(nèi)容流行度的預(yù)測(cè)準(zhǔn)確度依舊面臨很大的挑戰(zhàn)。在線服裝具有與其他網(wǎng)絡(luò)內(nèi)容相似的數(shù)據(jù)信息與傳播方式,因此我們可以利用數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)為服裝流行趨勢(shì)的研究提出新的預(yù)測(cè)模型與發(fā)展方向,并可將其推廣應(yīng)用于其他網(wǎng)絡(luò)內(nèi)容流行度的預(yù)測(cè)研究中。
參考文獻(xiàn):
[1] Avramova Z,Wittevrongel S,Bruneel H,etal. Analysis and Modeling of Video Popularity Evolution in Various Online Video Content Systems:Power-Law versus Exponential Decay [C]//1st International Conference on Evolving Internet,INTERNET,2009:95-100.
[2] Tatar A,Amorim M D D,F(xiàn)dida S,etal. A survey on predicting the popularity of web content [J].Journal of Internet Services & Applications,2014,5(1):8.
[3] Szabo G,Huberman B A. Predicting the popularity of online content [J].Communications of the ACM,2010,53(8):80-88.
[4] Kim S D,Kim S H,Cho H G. Predicting the Virtual Temperature of Web-Blog Articles as a Measurement Tool for Online Popularity [C]//IEEE International Conference on Computer & Information Technology. IEEE Computer Society,2011:449-454.
[5] Chang B,Zhu H,Ge Y,etal. Predicting the Popularity of Online Serials with Autoregressive Models [C]//Shanghai:ACM Press the 23rd ACM International Conference,2014:1339-1348.
[6] Gursun G,Crovella M,Matta I. Describing and forecasting video access patterns [C]//INFOCOM,2011 Proceedings IEEE.S.l.:s.n.,2011:16-20.
[7] Pinto H,Almeida J M,Gon?alves,etal. Using early view patterns to predict the popularity of youtube videos [C]//Acm International Conference on Web Search & Data Mining. ACM,2013.
[8] Ahmed M,Spagna S,Huici F,etal. A peek into the future:Predicting the evolution of popularity in user generated content [C]//Rome:Proceedings of the sixth ACM international conference on Web search and data mining,2013:607-616.
[9] Ma Z,Sun A,Cong G. On predicting the popularity of newly emerging hashtags in T witter [J].Journal of the American Society for Information Science and Technology,2013,64(7):1399-1410.
[10] Bao P,Shen H W,Huang J,etal. Popularity Prediction in Microblogging Network:A Case Study on Sina Weibo [C]//Rio de Janeiro:Proceedings of the 22nd International Conference on World Wide Web(WWW),2013:177-178.
[11] 張艷,苗剛,何秀麗.回歸分析法在服裝流行色預(yù)測(cè)中的應(yīng)用 [J].佳木斯教育學(xué)院學(xué)報(bào),2012(6):434-435.
[12] 常麗霞,高衛(wèi)東,張萬(wàn)琴,等.馬爾可夫預(yù)測(cè)法在國(guó)際服裝流行色預(yù)測(cè)中的應(yīng)用 [J].毛紡科技,2012,40(7):44-47.
[13] 常麗霞,高衛(wèi)東,潘如如,等.灰色GM(1,1)模型在國(guó)際春夏女裝流行色色相預(yù)測(cè)中的應(yīng)用 [J].紡織學(xué)報(bào),2015,36(4):128-133.
[14] 周捷,李健.離散GM(1,1)模型在服裝流行色預(yù)測(cè)中的應(yīng)用 [J].西安工程大學(xué)學(xué)報(bào),2019,32(1):23-30.
[15] 許凡,王高媛,趙晶.基于灰色模型和神經(jīng)網(wǎng)絡(luò)的服裝流行色預(yù)測(cè) [J].紡織科技進(jìn)展,2013(6):64-66+70.
[16] 趙黎,楊連賀,黃新.采用多蜂群協(xié)同演化算法的服裝流行色預(yù)測(cè) [J].紡織學(xué)報(bào),2018,39(3):137-142.
作者簡(jiǎn)介:李曉穎(1997.11-),女,漢族,山東威海人,本科在讀,研究方向:數(shù)據(jù)分析與挖掘、推薦系統(tǒng)、網(wǎng)絡(luò)內(nèi)容流行度;趙安娜(1998.08-),女,滿族,河北承德人,本科在讀,研究方向:數(shù)據(jù)分析與挖掘、推薦系統(tǒng)、網(wǎng)絡(luò)內(nèi)容流行度;周曉靜(1997.06-),女,漢族,山東威海人,本科在讀,研究方向:數(shù)據(jù)分析與挖掘、推薦系統(tǒng)、網(wǎng)絡(luò)內(nèi)容流行度;通訊作者:楊成偉(1981.01-),男,漢族,山東濟(jì)寧人,講師,博士,研究方向:數(shù)據(jù)流挖掘、網(wǎng)絡(luò)智能算法等。