◎鄭家錄
(秭歸縣電視臺融媒體中心 湖北 秭歸 443600)
標(biāo)題黨,是指在以互聯(lián)網(wǎng)為代表的論壇或媒體上,通過引人注目的標(biāo)題來吸引受眾注意力,當(dāng)受眾點(diǎn)擊進(jìn)去發(fā)現(xiàn)與標(biāo)題落差很大而又合情合理,以達(dá)到增加點(diǎn)擊量或知名度等各種目的網(wǎng)站編輯、記者、管理者和網(wǎng)民的總稱。
標(biāo)題黨現(xiàn)象的成因,除了商業(yè)模式的驅(qū)動,還有用戶多樣性、不同用戶體驗(yàn)需求對標(biāo)題黨內(nèi)容標(biāo)準(zhǔn)的不一致,標(biāo)題黨現(xiàn)象難以根除。本文從日常實(shí)際中,截取了五大門戶網(wǎng)站上篩選出標(biāo)題黨內(nèi)容,從數(shù)據(jù)上分析標(biāo)題黨的五大特征。
1.驚!一男子喝醉酒竟然和動物……(武松打虎)
2.驚呆了!睡了十二年的戰(zhàn)友,竟然是女兒身?。ɑ咎m)
3.中國學(xué)生數(shù)學(xué)神乎其神的原因,美國人終于破解了……(中國學(xué)生比較能吃苦)
4.膽小別看!醫(yī)鬧患者當(dāng)場砍死醫(yī)生,場面血腥?。ú懿贇⑷A佗)
5.驚悚!38歲李玉剛滿頭白發(fā)老態(tài)龍鐘(化妝)
6.黃曉明暴打楊穎,真正的原因是這樣的,令人驚訝!(澄清媒體造謠)
這一類標(biāo)題黨在信息流中雖然比較少見,但是引起的用戶反感效果最強(qiáng)。其中一類為通過事件某一個(gè)側(cè)面,用引人聯(lián)想型的文字描述,多與低俗擦邊,來吸引點(diǎn)擊。我們以負(fù)面評論作為評判標(biāo)準(zhǔn),這類文章的負(fù)面評論最多,用戶最為反感[1]。
1.中國小將被擊倒后暴走,一拳KO泰拳王。
2.國乒天才打出絕世無解球,對手被嚇懵,解說員瘋狂。
3.楊建平為師弟報(bào)仇,把韓國拳手拎起來揍。
在這一類標(biāo)題中以用戶情緒為出發(fā)點(diǎn),渲染夸大事實(shí),以此來刺激用戶點(diǎn)擊。這些內(nèi)容普遍點(diǎn)擊率較高,時(shí)長及閱讀完成比并不低。
這一類標(biāo)題黨多利用數(shù)字,追隨社會熱點(diǎn),多用“為什么、你、全世界、99%”等敏感詞匯,多引用名人案例來刺激用戶的求知欲,刺激用戶的好奇心。內(nèi)容本質(zhì)上是比較普通的事件[2]。
根據(jù)五大門戶內(nèi)容數(shù)據(jù),將最近一個(gè)月的內(nèi)容按閱讀時(shí)長、CTR、閱讀完成比分段,閱讀時(shí)長(0-20秒,20-60秒,60-120秒,120-180秒,180秒以上),CTR(0-6%,6%-10%,10%-15%,15%-20%,20%+),閱讀完成比(0-30%,30%-50%,50%-80%,80%-100%),最終交叉有80種組合,大致分析了每種組合中的內(nèi)容情況,發(fā)現(xiàn)數(shù)據(jù)規(guī)律性很明顯。
熱血戰(zhàn)狼文、噱頭、部分標(biāo)題黨CTR水平在20%以上,完成比80%以上,博眼球內(nèi)容較多。但閱讀完成率低,另外通過差評的角度對內(nèi)容進(jìn)行區(qū)分,抽查了一部分差評較多的內(nèi)容,發(fā)現(xiàn)差評的類型比較多,差評占比達(dá)到40%以上。
我們調(diào)研了約100名不同年齡、職業(yè)的用戶,通過用戶過去喜歡看哪類內(nèi)容,各類內(nèi)容閱讀深度如何,對標(biāo)題黨內(nèi)容是否敏感,是否喜歡看大眾的獵奇內(nèi)容,還是偏好垂直、深度內(nèi)容,發(fā)現(xiàn)對同一篇文章,這100名用戶對標(biāo)題黨的認(rèn)知不一致,有50%的內(nèi)容偏差。
根據(jù)數(shù)據(jù)特征的差異性,在現(xiàn)在互聯(lián)網(wǎng)數(shù)據(jù)分發(fā)階段,我們可以利用后延數(shù)據(jù)算法模型來對文章進(jìn)行區(qū)分。在召回和排序算法中考慮閱讀時(shí)長、閱讀完成比、分享率、收藏率、評論率等多維度數(shù)據(jù),降低點(diǎn)擊率的影響,通過用戶深度反饋——分享、收藏等指標(biāo),來抑制單純刺激點(diǎn)擊產(chǎn)生的“馬太效應(yīng)”。
在目前各家互聯(lián)網(wǎng)公司的分發(fā)模型中,多采用機(jī)器學(xué)習(xí)常見的FFM模型、FTRL等模型來預(yù)測內(nèi)容點(diǎn)擊率,我們以此為處罰點(diǎn),構(gòu)建分發(fā)模型,例:
后驗(yàn)數(shù)據(jù)特征=點(diǎn)擊×系數(shù)A+分享×系數(shù)A1+收藏×系數(shù)A2+閱讀完成率×系數(shù)A3+正評×系數(shù)A3-負(fù)評×系數(shù)A4
在此公式中我們將A1、A2、A3、A4系數(shù)靈活設(shè)置,將正面系數(shù)調(diào)大,可以抑制單純以點(diǎn)擊驅(qū)動的分發(fā)模式。
對于一般型標(biāo)題黨內(nèi)容略微夸大,但不存在誤導(dǎo)用戶行為的稿件,互聯(lián)網(wǎng)不會將之扼殺,但是為了兼顧用戶體驗(yàn),需要對用戶進(jìn)行分群。存在同一部分內(nèi)容一部分用戶最喜歡,而另一部分用戶最不喜歡,可見通過用戶歷史興趣再結(jié)合人工經(jīng)驗(yàn)梳理來對用戶分群,能對用戶細(xì)分起到一定效果。對于不同水平的用戶所表現(xiàn)出的數(shù)據(jù)特點(diǎn)也會有所差異,時(shí)間緊迫,可以先對高端用戶,標(biāo)題黨敏感,喜歡深度內(nèi)容,不喜歡高點(diǎn)擊率、大眾、獵奇內(nèi)容的用戶,進(jìn)行低質(zhì)量內(nèi)容限制,后續(xù)逐漸優(yōu)化梳理映射規(guī)則,覆蓋全部用戶并做到精準(zhǔn)分發(fā)[3]。
我們發(fā)現(xiàn)有些明顯標(biāo)題黨品質(zhì)很差、平均時(shí)長和閱讀完成比很低的內(nèi)容,還是有一些用戶讀完了,可以認(rèn)為這些人就是對標(biāo)題黨不敏感的用戶。也有一些平均點(diǎn)擊率X%以下、平均時(shí)長和閱讀完成比也不高的內(nèi)容,同樣有一部分用戶認(rèn)真讀完了,仔細(xì)分析發(fā)現(xiàn)這些內(nèi)容都是領(lǐng)域內(nèi)比較垂直、有深度的內(nèi)容,大部分普通用戶是沒有興趣閱讀的,而認(rèn)真讀完的用戶都是在這方面興趣很垂直的用戶。
因?yàn)橛脩粼谀愁I(lǐng)域的知識水平和興趣度是不同的,根據(jù)統(tǒng)計(jì)的平均CTR、時(shí)長、完成比等都是在所有用戶上的表現(xiàn),一些資深人士的行為很容易被大部分的普通用戶的行為掩蓋,導(dǎo)致這些后驗(yàn)數(shù)據(jù)失去個(gè)性化分發(fā)的作用。而這種現(xiàn)象在財(cái)經(jīng)、體育、軍事、軍情、時(shí)政、國際、社會等幾個(gè)專業(yè)性強(qiáng)的類別下表現(xiàn)更加突出[4]。
差評可以識別出一部分低質(zhì)內(nèi)容,去掉大部分用戶不喜歡的內(nèi)容,但對于有爭議內(nèi)容、戰(zhàn)狼文,并不適合一刀切,而是找到對其感興趣的用戶進(jìn)行推薦。其實(shí)我們忽略了一篇內(nèi)容是哪些人貢獻(xiàn)了這些點(diǎn)擊和行為,只需將平均數(shù)據(jù)拆解到用戶群體,便可以將內(nèi)容屬性和用戶屬性劃分開。
除了依靠數(shù)據(jù)和用戶分群之外,還需要人工輔助。需要在人工梳理用戶和內(nèi)容分類的基礎(chǔ)上,對信息流分發(fā)過程中的召回、排序算法進(jìn)行優(yōu)化。對一篇文章,不單單通過所有用戶的后驗(yàn)數(shù)據(jù)進(jìn)行排序,需要細(xì)化到不同用戶群的表現(xiàn),內(nèi)容之間的排序要考慮同類用戶群下的數(shù)據(jù)表現(xiàn)。
互聯(lián)網(wǎng)平臺要加強(qiáng)內(nèi)容審核,依靠編輯的經(jīng)驗(yàn)判斷來提升內(nèi)容品質(zhì)。通過文章審核、媒體評級等手段凈化內(nèi)容生態(tài)。
標(biāo)題黨游走于質(zhì)量“灰色地帶”,給互聯(lián)網(wǎng)公司帶來收益的同時(shí),也在消耗平臺的用戶體驗(yàn),縮小平臺的生命周期。對標(biāo)題黨的治理任重而道遠(yuǎn)。