馮雯璐
摘 要 移動互聯(lián)網(wǎng)的快速發(fā)展,實現(xiàn)了海量原生數(shù)據(jù)的獲取與聚合,為算法與人工智能的不斷完善提供了條件。大眾傳播體系下一對多的內(nèi)容分發(fā)方式逐漸向移動傳播體系下個性化的精準分發(fā)方式轉(zhuǎn)變,以“今日頭條”為代表的內(nèi)容聚合平臺將這種全新的內(nèi)容分發(fā)方式及其背后的算法推向了輿論的風(fēng)口浪尖。
關(guān)鍵詞 內(nèi)容分發(fā);個性化;精準推送;今日頭條;算法
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2017)20-0049-02
為了解決海量信息發(fā)布與用戶個性化信息需求之間的矛盾,個性化的信息推送方式成為必然趨勢,聚合類平臺“今日頭條”既是先行者也是領(lǐng)跑者,始終不斷探索和完善個性化推薦算法,致力于打造超越傳統(tǒng)價值鏈的內(nèi)容生態(tài)平臺。
1 今日頭條變革內(nèi)容分發(fā)方式
今日頭條在實現(xiàn)內(nèi)容的個性化推薦過程中,有四個重要環(huán)節(jié):內(nèi)容聚合,內(nèi)容的排序與分類,搭建標簽體系和推薦系統(tǒng)。
1.1 內(nèi)容聚合
今日頭條創(chuàng)始人張一鳴稱“頭條”為“新聞搬運工”,內(nèi)容聚合類平臺的定位,顛覆了傳統(tǒng)意義上內(nèi)容生產(chǎn)機構(gòu)職能,滿足了移動互聯(lián)網(wǎng)時代,人人都是內(nèi)容生產(chǎn)者的需求和海量信息聚合的特征。移動傳播體系下內(nèi)容分發(fā)方式的轉(zhuǎn)變,首先基于“PGC+UGC+GGC”的內(nèi)容聚合,今日頭條主要通過與媒體合作、網(wǎng)絡(luò)爬蟲抓取內(nèi)容和自媒體賬戶提供內(nèi)容等方式實現(xiàn)了海量內(nèi)容的整合。
媒體合作方面,今日頭條與新華社、光明網(wǎng)、澎湃新聞等上千家中央、省、市各級媒體進行合作,通過聚合專業(yè)化的媒體內(nèi)容,提升內(nèi)容數(shù)據(jù)庫質(zhì)量,滿足用戶對新聞資訊的需求,并在一定程度上規(guī)避了版權(quán)糾紛風(fēng)險。今日頭條工作人員在后臺通過網(wǎng)絡(luò)爬蟲鎖定網(wǎng)站超鏈接,從而實現(xiàn)更大范圍的新聞內(nèi)容的抓取和轉(zhuǎn)載。針對國家機構(gòu)、企業(yè)、媒體和自媒體推出的“頭條號”,是今日頭條內(nèi)容聚合的另一重要來源。通過大力扶持平臺原創(chuàng)內(nèi)容,豐富內(nèi)容類型和表現(xiàn)形式,以滿足用戶多樣化的信息
需求。
1.2 對內(nèi)容進行排序、分類
對于聚合的內(nèi)容,需要按照“優(yōu)先鏈接機制”對信息進行排序。這種排序方式基于傳播學(xué)中“樂隊花車法”的宣傳策略[1],用戶更傾向于關(guān)注排序相對靠前的內(nèi)容。與此同時,通過自然語言處理和圖像識別技術(shù),對整合的內(nèi)容進行消重,并對信息進行分類和標簽化,摘要提取和LDA主題分析等
處理。
1.3 標簽體系的搭建
個性化信息需求與海量數(shù)據(jù)資源的匹配效率取決于標簽技術(shù),標簽的準確度和豐富性,決定了機器對內(nèi)容素材的識別能力。今日頭條標簽體系的搭建,一方面是根據(jù)用戶需求建立標簽,另一方面是由用戶上傳的內(nèi)容,依靠用戶為其貼標簽。依托協(xié)同方法,從用戶角度出發(fā),判斷哪些是具有相同屬性的用戶,繼而根據(jù)屬性去匹配相關(guān)內(nèi)容。
今日頭條通過機器識別、人工編輯和用戶提交等方式建立的標簽體系,將內(nèi)容的profile與用戶的profile作對比,能夠更好地實現(xiàn)內(nèi)容的精準推薦;根據(jù)內(nèi)容標簽關(guān)鍵詞,將有版權(quán)風(fēng)險的內(nèi)容放置專門的版權(quán)體系中,由專業(yè)的審核團隊判斷內(nèi)容是否存在侵權(quán)風(fēng)險,從而實現(xiàn)內(nèi)容版權(quán)的維護;通過“標簽審核+機器識別+人工確認+用戶舉報”的方式,能夠有效監(jiān)控具有“黃反”傾向的內(nèi)容。
1.4 構(gòu)建推薦系統(tǒng)
構(gòu)建推薦系統(tǒng)是實現(xiàn)信息個性化推薦的關(guān)鍵環(huán)節(jié),其中包含建立用戶模型,構(gòu)造相似矩陣,利用算法公式得出推薦內(nèi)容和A/B測試及雙盲交叉驗證機制等。
1.4.1 建立用戶模型
首先,對于新用戶,今日頭條采取“冷啟動”機制,引導(dǎo)用戶完成登陸并建立完整的賬號體系,通過抓取新用戶原有社交賬號的歷史行為數(shù)據(jù)和社交關(guān)系數(shù)據(jù),建立用戶“興趣圖譜”,推斷用戶興趣點,實現(xiàn)對用戶的初級內(nèi)容推薦。伴隨用戶使用時長增加,通過追蹤用戶行為,更全面地獲取用戶數(shù)據(jù),以完善用戶模型。通過用戶對推薦內(nèi)容的“正負反饋”,不斷完善對用戶喜好的把握,結(jié)合用戶關(guān)注的“頭條號”“頻道”和用戶的社交行為及購物數(shù)據(jù),逐步形成完整的用戶畫像。
1.4.2 構(gòu)造相似性矩陣
推薦系統(tǒng)搭建的重要步驟之一是構(gòu)造相似性矩陣,通過算法判斷出內(nèi)容之間的相似度,并找出熱點內(nèi)容,推送給用戶。伴隨用戶畫像完整性的增加,相似矩陣不斷優(yōu)化,從而使推薦的內(nèi)容越來越精準。
1.4.3 邏輯回歸
今日頭條的推薦內(nèi)容可以通過“個性推薦算法公式”得出,稱之為“邏輯回歸”。利用公式“W1*候選1的投票率+W2*候選2的投票率+W3候選3的投票率+……=最高分”得出分數(shù),對內(nèi)容進行排序,再按照“優(yōu)先鏈接機制”,確定推送內(nèi)容的位置與候選。
1.4.4 A/B測試和雙盲交叉驗證
今日頭條在推薦系統(tǒng)中引入了A/B測試和雙盲交叉驗證機制。A/B測試是一種把實驗對象隨機分組,通過對照比較進行測試的方式,能夠獲得更加科學(xué)性的實驗結(jié)果。雙盲交叉驗證是讓算法判斷新聞的分類和推薦對象,讓兩個編輯分別檢驗,結(jié)果一致則通過,不一致則請第三人判斷并匯報程序員,重新調(diào)整算法。這種驗證方法類似于神經(jīng)算法的“刺激-反應(yīng)”模式和人工智能中的“半監(jiān)督式學(xué)習(xí)”。
2 個性化內(nèi)容分發(fā)方式現(xiàn)存問題
盡管以今日頭條為代表的聚合平臺在個性化精準分發(fā)方面走在改革前沿,但隨之出現(xiàn)的內(nèi)容低俗,信息繭房等問題一直備受爭議。2017年9月18日起,人民網(wǎng)連續(xù)三天發(fā)表評論文章,《不能讓算法決定內(nèi)容》《別被算法困在“信息繭房”》《警惕算法走向創(chuàng)新的反面》,指出以今日頭條為代表,單純依靠算法推薦的平臺存在價值觀缺失、制造信息繭房、競爭手段屢破底線三大問題。
2.1 價值判斷缺失
今日頭條基于用戶興趣的信息選擇,使內(nèi)容的熱度判斷更傾向于趣味性,而缺乏其他維度的新聞價值判斷標準。算法的機械化,專業(yè)人員的把關(guān)缺失,迫使用戶需要自行判斷內(nèi)容優(yōu)劣,媒介素養(yǎng)的參差不齊,導(dǎo)致部分用戶容易受到不良信息的侵擾,產(chǎn)生價值趨向偏頗,個人價值與社會主流價值沖突的問題。endprint
2.2 信息繭房
用戶在長期使用今日頭條的過程中,基于用戶興趣的算法推薦,部分用戶數(shù)據(jù)采集可能來自于用戶一時的“獵奇”“窺私”或“錯誤點擊”,不能代表真實興趣。作為社會關(guān)系中的不同角色,用戶有獲知社會重要資訊以及與社會成員身份相匹配的信息需求。基于用戶模型的信息推送方式,長期會導(dǎo)致用戶接收信息結(jié)構(gòu)單一,知識窄化,甚至造成一定階層的知識溝加劇。
2.3 內(nèi)容質(zhì)量較低
由于算法過分基于“趣味性”要素以及大量自媒體內(nèi)容的涌入,使今日頭條內(nèi)容審核的難度加大。盡管采用了“算法+人工”的方式對內(nèi)容進行把關(guān),但由于算法尚不能對優(yōu)質(zhì)內(nèi)容進行判斷,導(dǎo)致內(nèi)容數(shù)據(jù)庫中充斥著越來越多的標題黨、泛娛樂化、低俗和虛假的信息內(nèi)容,呈現(xiàn)出低質(zhì)量內(nèi)容累積,高質(zhì)量內(nèi)容被邊緣化的態(tài)勢。
3 內(nèi)容分發(fā)算法改進探索
首先,算法能否采用更好的策略,一定程度上在于算法對人性的理解,完善算法的過程中,應(yīng)加強非線性思維,將社會主流價值和人的社會屬性納入到算法取值范圍中。
其次,將新聞價值判斷五個維度納入到算法當(dāng)中,并加大新聞重要性的權(quán)重。進一步完善標簽體系,將新聞要素與新聞規(guī)律考慮進標簽體系的制定規(guī)則當(dāng)中,使標簽體系更好地接近平臺工作需求和用戶偏好,并輔助修正現(xiàn)階段內(nèi)容分發(fā)算法的不足。
最后,凈化內(nèi)容數(shù)據(jù)庫,提升分發(fā)內(nèi)容質(zhì)量,不僅要加強與高質(zhì)量原創(chuàng)內(nèi)容創(chuàng)作平臺和媒體機構(gòu)的合作,同時在平臺監(jiān)管方面,應(yīng)致力于在信息發(fā)布之前及傳播過程中,實現(xiàn)虛假、低俗信息的甄別與管控。結(jié)合心理學(xué)建模,對信源信用度評級;研究利用區(qū)塊鏈技術(shù)將多個獨立信源進行對比,實現(xiàn)對已有信息真?zhèn)魏屯暾麍鼍暗恼鐒e;利用人工智能和建構(gòu)知識庫等方法,實現(xiàn)平臺內(nèi)容多層次、多維度的高效核查與管控。
參考文獻
[1]段鵬.傳播效果研究——起源、發(fā)展與應(yīng)用[M].北京:中國傳媒大學(xué)出版社,2008.
[2]宣言.不能讓算法決定內(nèi)容[N].人民日報,2017-10-5(04).
[3]王曉霞.大數(shù)據(jù)技術(shù)驅(qū)動下“今日頭條”的嬗變[J].青年記者,2017(15):85.
[4]方潔,高璐.用戶數(shù)據(jù)分析平臺與計算機驅(qū)動新聞業(yè)——以“今日頭條媒體實驗室”[J].新聞與寫作,2017(1):86.endprint