劉曉丹,李春亮
(1.北京信息科技大學(xué)信息管理學(xué)院,北京 100192;2.中國人民解放軍31010部隊(duì),北京 100088)
近幾年,基于用戶生成內(nèi)容的移動(dòng)視頻平臺呈現(xiàn)出井噴式的發(fā)展,例如抖音、快手、西瓜視頻、嗶哩嗶哩等?;ヂ?lián)網(wǎng)上的用戶生成內(nèi)容正在從單純的文本內(nèi)容向視頻內(nèi)容演變,并且具有更活躍的社交交互特點(diǎn)。在移動(dòng)視頻平臺中,內(nèi)容創(chuàng)作者主要以視頻直播或者短視頻的內(nèi)容形式吸引大量的粉絲,從而形成一定的知名度,其盈利方式逐漸多樣化,例如刷禮物、帶貨、廣告等。在利益的驅(qū)動(dòng)下,移動(dòng)視頻平臺面臨的挑戰(zhàn)是內(nèi)容的安全性以及帶貨和廣告的欺詐性,如何對非法內(nèi)容、欺詐內(nèi)容進(jìn)行管理是亟待解決的問題。建立適合于用戶生成視頻內(nèi)容管理的信用評價(jià)體系是促進(jìn)移動(dòng)視頻平臺內(nèi)容合規(guī)性及平臺長期健康發(fā)展的有效方法之一。
移動(dòng)視頻平臺的用戶生成內(nèi)容主要呈現(xiàn)以下3個(gè)特點(diǎn)。第一,內(nèi)容創(chuàng)作者與瀏覽者之間的交互性增強(qiáng)了,主要體現(xiàn)在用戶評論的交互、新實(shí)時(shí)交互方式彈幕的使用、視頻直播的實(shí)時(shí)性、視頻內(nèi)容更加貼近主播的生活等;第二,信息渠道增加了音視頻以及相關(guān)的描述信息,主要體現(xiàn)在視頻流、音頻流、視頻發(fā)布時(shí)間、視頻播放量等方面,這種多維信息源在內(nèi)容創(chuàng)作者和瀏覽者之間建立了一個(gè)立體化的交互空間;第三,移動(dòng)視頻平臺上的內(nèi)容滲透到人們生活的方方面面,由于是基于互聯(lián)網(wǎng)用戶的自媒體形式,內(nèi)容的質(zhì)量會(huì)參差不齊[1]。由此可見,移動(dòng)視頻平臺在發(fā)展過程中面臨著用戶生成視頻內(nèi)容的安全性和合規(guī)性問題,其強(qiáng)交互、多維信息源的特點(diǎn)也為企業(yè)和主管部門對移動(dòng)視頻內(nèi)容進(jìn)行規(guī)范化管理提出了挑戰(zhàn)。
信用風(fēng)險(xiǎn)評價(jià)管理起源于傳統(tǒng)金融領(lǐng)域的借貸業(yè)務(wù),銀行需要對借方客戶的個(gè)人信用進(jìn)行評估,從而降低銀行貸款業(yè)務(wù)所面臨的資金風(fēng)險(xiǎn)。隨著數(shù)字化經(jīng)濟(jì)的發(fā)展,互聯(lián)網(wǎng)促進(jìn)了個(gè)人與個(gè)人之間鏈接的建立,各種基于個(gè)人對個(gè)人(Peer to Peer,P2P)模式的新形態(tài)如雨后春筍般不斷涌現(xiàn),例如電子商務(wù)、共享經(jīng)濟(jì)、自媒體內(nèi)容(包括博客、小視頻和視頻直播)等。在基于P2P的新數(shù)字化應(yīng)用情景中,由于產(chǎn)品或者服務(wù)的提供者為個(gè)人,他們所提供的產(chǎn)品或服務(wù)可能會(huì)存在質(zhì)量問題。針對個(gè)人供應(yīng)者的信用評價(jià)和風(fēng)險(xiǎn)管理日益重要,信用評價(jià)和風(fēng)險(xiǎn)管理的應(yīng)用領(lǐng)域也從傳統(tǒng)的金融領(lǐng)域擴(kuò)展到數(shù)字化經(jīng)濟(jì)背景下人們生活的方方面面,因此需要建立個(gè)人的社會(huì)化信用評價(jià)體系,從而降低個(gè)人消費(fèi)者或者供應(yīng)者在基于個(gè)人鏈接的新的數(shù)字化情景中所面臨的風(fēng)險(xiǎn)。
劉婷艷等[2]在分析國內(nèi)外視頻網(wǎng)站用戶生成內(nèi)容的相關(guān)文獻(xiàn)后指出,從研究趨勢看,此領(lǐng)域的未來研究主要圍繞視頻網(wǎng)站中用戶生成和專業(yè)生成相結(jié)合的內(nèi)容、視頻網(wǎng)站用戶生成內(nèi)容的生態(tài)治理、視頻網(wǎng)站VLOG(Video Weblog)及彈幕評論。由此可見,在以用戶生成視頻內(nèi)容為主的視頻網(wǎng)站上,基于視頻流的內(nèi)容特征和屬性發(fā)現(xiàn)是未來重要的研究趨勢之一。關(guān)于用戶生成視頻內(nèi)容的研究中,第一類是基于視頻內(nèi)容和數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)視頻內(nèi)容的特征;第二類是關(guān)于用戶生成視頻內(nèi)容的生態(tài)治理,主要涉及用戶生成內(nèi)容的侵權(quán)、個(gè)人隱私保護(hù)、法律等問題的研究[1];第三類是關(guān)于新型即時(shí)評論方式的信息挖掘和研究,彈幕評論是一種新的即時(shí)評論方式,將視頻網(wǎng)站中用戶評論內(nèi)容以實(shí)時(shí)流動(dòng)的方式顯示在同步播放的視頻上,通過挖掘和研究彈幕的文本信息,可發(fā)現(xiàn)用戶的使用行為及發(fā)表彈幕評論的驅(qū)動(dòng)因素、用戶情感、輿情導(dǎo)向等。
信用風(fēng)險(xiǎn)評估主要包括信用風(fēng)險(xiǎn)評估模型的建立和信用風(fēng)險(xiǎn)評估的過程。傳統(tǒng)的信用評估指標(biāo)體系的建立是基于“5C要素評估模型”,包括品質(zhì)、能力、資本、抵押、條件[3-4],它適用于傳統(tǒng)金融領(lǐng)域借貸業(yè)務(wù)中的信用評估,以個(gè)人借貸記錄、信用卡記錄、歷史信用等指標(biāo)進(jìn)行分析評價(jià)。但這種評估方法缺少數(shù)字化經(jīng)濟(jì)中與網(wǎng)絡(luò)空間發(fā)展相關(guān)的社會(huì)資本和社會(huì)關(guān)系因素,例如線上交易行為、社交行為等。王冬一等[5]基于社會(huì)資本視角建立了個(gè)人信用動(dòng)態(tài)評價(jià)指標(biāo)體系,并加入社會(huì)關(guān)系以實(shí)現(xiàn)個(gè)人信用的動(dòng)態(tài)評估。張麗麗和章政[6]提出可以依據(jù)自媒體發(fā)布的內(nèi)容、與行為相關(guān)的數(shù)據(jù)等來建立平臺的信用治理體系。因此,在關(guān)于用戶生成視頻內(nèi)容的信用風(fēng)險(xiǎn)評估中需要考慮數(shù)字化背景下來自多種信息源的與信用相關(guān)的數(shù)據(jù)信息。
文本挖掘是從自然語言文本內(nèi)容中發(fā)現(xiàn)和提煉隱匿知識的過程。文本分析過程包括文本數(shù)據(jù)采集和預(yù)處理、文本分詞和詞性標(biāo)注、文本分類和聚類、情感傾向性分析以及文本摘要和主題抽取。隨著社交網(wǎng)絡(luò)和各類社交平臺的興起,網(wǎng)絡(luò)評論等短文本已經(jīng)成為網(wǎng)絡(luò)中信息傳播的主要方式,文本挖掘技術(shù)在互聯(lián)網(wǎng)輿論信息獲取過程中扮演著重要的角色。在線評論挖掘的目的是從互聯(lián)網(wǎng)中大量的用戶評論數(shù)據(jù)中發(fā)現(xiàn)與研究目的相關(guān)的信息,主要的研究方向包括評論特征挖掘、評論文本情感分析、評論文本主題識別等。在線評論文本的數(shù)據(jù)挖掘主要基于自然語言處理(Natural Language Processing,NLP)技術(shù),隨著該技術(shù)的不斷發(fā)展,在線評論文本情感分析和評論文本主題識別成為近幾年在線評論文本挖掘的研究重點(diǎn)。在線評論文本情感傾向分析方法主要包括基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法。文本主題模型(Topic Modeling)可以發(fā)現(xiàn)蘊(yùn)藏在詞匯表面下的潛在語義,該統(tǒng)計(jì)模型的研究主要包括潛在語義分析、概率潛在語義分析、潛在狄利克雷分布等。
在基于文本數(shù)據(jù)挖掘?qū)τ脩羯梢曨l內(nèi)容的研究中,洪慶等[7]對視頻網(wǎng)站的彈幕信息進(jìn)行情感分析和聚類以研究視頻用戶的群體分類;李輝等[8]研究了在線視頻評論的情感分類技術(shù),分析了不同的特征提取方法、特征選擇方法、分類算法對在線視頻評論情感分類精度的影響;張璐等[9]搜集Bilibili網(wǎng)站200個(gè)在線教育視頻的彈幕與傳統(tǒng)評論數(shù)據(jù),比較用戶彈幕與傳統(tǒng)評論行為的異同。
綜上,對移動(dòng)視頻平臺中的評論、彈幕等文本信息進(jìn)行分析和挖掘,可以為移動(dòng)視頻平臺的自媒體信用體系研究提供有用的情感傾向信息和文本主題信息。
在用戶生成視頻內(nèi)容的情景中,視頻內(nèi)容的摘要和標(biāo)注主要考慮兩種方法:一種是基于視頻內(nèi)容的摘要技術(shù),基于視頻內(nèi)容的自動(dòng)標(biāo)記是根據(jù)視頻內(nèi)容來為視頻生成文本標(biāo)記或者描述,主要包括鏡頭分割、場景提取、關(guān)鍵幀提取、場景標(biāo)注;另一種是基于文本的視頻摘要技術(shù),在用戶生成視頻內(nèi)容場景下可以考慮從特有的彈幕評論中提取與視頻相關(guān)的文本信息。移動(dòng)視頻平臺中的彈幕評論內(nèi)容除了包含用戶發(fā)表的文本信息外,它還提供了與視頻同步的時(shí)序性特征,從而為視頻內(nèi)容的標(biāo)注和摘要提供了一種數(shù)據(jù)源信息的支持。因此有些研究者結(jié)合機(jī)器學(xué)習(xí)算法,嘗試從海量的彈幕評論中挖掘與視頻內(nèi)容相關(guān)的關(guān)鍵詞,以自動(dòng)對視頻進(jìn)行標(biāo)注。Wu等[10]將視頻語義、交互的用戶評論和用戶偏好之間的時(shí)間依賴性作為先驗(yàn)知識進(jìn)行聯(lián)合考慮,對傳統(tǒng)主題模型進(jìn)行擴(kuò)展,并根據(jù)主題模型的關(guān)鍵字抽取來為視頻分段生成文字標(biāo)記。Lv等[11]通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,結(jié)合彈幕評論在時(shí)間上的關(guān)聯(lián)信息,將彈幕評論轉(zhuǎn)換為語義向量,為視頻分段得到主題表示,通過監(jiān)督學(xué)習(xí)的方式為視頻分段生成相應(yīng)的標(biāo)記。綜上,通過視頻內(nèi)容的摘要技術(shù)和彈幕信息的文本挖掘可以獲取到與視頻場景相關(guān)的摘要標(biāo)記。
針對移動(dòng)視頻平臺的內(nèi)容安全性和合規(guī)性問題,結(jié)合生成內(nèi)容和信用風(fēng)險(xiǎn)的特點(diǎn),基于視頻流、音頻流、文本、圖片信息源、基本信息及行為數(shù)據(jù)進(jìn)行智能檢測,從而為移動(dòng)視頻平臺的信用風(fēng)險(xiǎn)管理形成一個(gè)多維度的立體管控和預(yù)測體系。
圖1為基于用戶生成內(nèi)容視頻平臺的信用治理體系,展示了用戶生成視頻檢測內(nèi)容及檢測結(jié)果的應(yīng)用策略。通過對不同形式內(nèi)容的自動(dòng)檢測和信息挖掘,檢測出用戶生成內(nèi)容(視頻、音頻、文本)中的潛藏風(fēng)險(xiǎn)和不合規(guī)問題,從而進(jìn)一步建立針對移動(dòng)視頻平臺內(nèi)容創(chuàng)作者的信用和風(fēng)險(xiǎn)評價(jià)管理體系。通過對文本信息的挖掘,以及使用視頻、音頻、圖像類多媒體信息的檢測和摘要技術(shù),檢測出非法內(nèi)容、信用風(fēng)險(xiǎn)、與用戶行為相關(guān)的信息。對于移動(dòng)視頻平臺,可以針對以上三大類檢測結(jié)果應(yīng)用不同的策略。除了對非法內(nèi)容直接采用黑名單或者下架等操作以及基于用戶行為的運(yùn)營策略外,重要的是可以基于以上三大類內(nèi)容為平臺用戶建立分級的信用評價(jià)指標(biāo)體系和評估模型,為平臺建立長期、立體的信用風(fēng)險(xiǎn)管控和預(yù)測體系。
圖1 基于用戶生成內(nèi)容視頻平臺的信用治理體系
圖2為移動(dòng)視頻平臺立體化信用治理體系的研究路線。一是根據(jù)用戶生成視頻內(nèi)容的特點(diǎn)、可獲取到的數(shù)據(jù)源以及信用風(fēng)險(xiǎn)評價(jià)模型的建立準(zhǔn)則,依據(jù)信用評估5C模型建立在線視頻的信用風(fēng)險(xiǎn)評估模型。但是相比傳統(tǒng)的5C模型,需要考慮增加用戶行為、交互、社會(huì)資本等維度的指標(biāo)。信用評價(jià)指標(biāo)的數(shù)據(jù)主要來源于可獲取到的基礎(chǔ)屬性數(shù)據(jù)、用戶行為數(shù)據(jù)、內(nèi)容特征數(shù)據(jù)等。二是基于文本數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法,對采集到的與視頻相關(guān)的描述性信息、互動(dòng)式評論、彈幕信息、用戶基本信息等進(jìn)行文本數(shù)據(jù)處理和特征提取,選取一種或者幾種機(jī)器學(xué)習(xí)模型完成信用模型的評估以及對比研究。根據(jù)信用評估結(jié)果給出關(guān)于用戶生成視頻內(nèi)容的信用風(fēng)險(xiǎn)管理建議。三是利用移動(dòng)直播視頻流中的內(nèi)容摘要和標(biāo)注技術(shù),提取用戶生成視頻內(nèi)容的特征,完善信用風(fēng)險(xiǎn)評估模型的指標(biāo)體系,并且基于機(jī)器學(xué)習(xí)算法進(jìn)行信用模型評估,進(jìn)一步對單純基于文本信息建立的信用風(fēng)險(xiǎn)評估模型進(jìn)行完善和補(bǔ)充。
圖2 移動(dòng)視頻平臺的立體化信用治理體系的研究路線
為移動(dòng)視頻平臺建立關(guān)于內(nèi)容創(chuàng)作者的信用評價(jià)體系,支持平臺對用戶賬號進(jìn)行分級分類管理,是及時(shí)發(fā)現(xiàn)、防范、管理移動(dòng)視頻平臺信用風(fēng)險(xiǎn)的有效方法。本文提出運(yùn)用和挖掘來自結(jié)構(gòu)化數(shù)據(jù)、文本、視頻流等多信息源的特征信息,建立適合于用戶生成視頻內(nèi)容管理的多維度、立體化的信用風(fēng)險(xiǎn)評級和管理體系。對于移動(dòng)視頻平臺,可以借助該體系規(guī)范和管理平臺上個(gè)人創(chuàng)作者的行為;對于行政執(zhí)法部門,可以借助該體系監(jiān)督和管理移動(dòng)視頻直播平臺的運(yùn)營行為,確保平臺內(nèi)容的合規(guī)性。