利用智能審核平臺對數(shù)字內(nèi)容作品把控的探討

2018-03-28 11:46:47姜波

傳媒論壇 2018年5期

姜波

(中文在線數(shù)字出版集團股份有限公司，北京 100006)

近年來，數(shù)字化迅速發(fā)展的同時，面臨日益復(fù)雜的內(nèi)、外部環(huán)境。網(wǎng)絡(luò)上的數(shù)字內(nèi)容良莠不齊；邪教組織利用網(wǎng)絡(luò)文學、圖片、視頻、音頻等傳播手段，散布歪理邪說，宣揚迷信、色情、暴力、兇殺；分裂主義分子利用互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)媒介，煽動民族分裂、危害國家統(tǒng)一；部分網(wǎng)站傳播大量庸俗、媚俗甚至格調(diào)低下的內(nèi)容而牟取利益。特別是在自媒體時代的網(wǎng)絡(luò)環(huán)境下，內(nèi)容的體量呈爆發(fā)式增長，內(nèi)容類型日益多樣，內(nèi)容生產(chǎn)、傳播方式發(fā)生巨大改變，傳統(tǒng)的內(nèi)容審核、監(jiān)管方式耗費的資源在大幅增長，但效率和效力卻難以提高。

目前各大網(wǎng)站的內(nèi)容審核，往往采用人工審核的形式，審核人員對內(nèi)容信息逐條進行分析判斷，不管是效率還是準確性都難以得到保證。在技術(shù)不斷成熟的今天，自然語言處理、圖像識別、聲紋識別等人工智能技術(shù)已在一些領(lǐng)域得到了運用。人工智能技術(shù)的引入，可以徹底改變傳統(tǒng)的內(nèi)容審核形式，實現(xiàn)對互聯(lián)網(wǎng)內(nèi)容信息的實時審核。無論是審核效率還是審核精度，都將得到極大提升。運用大數(shù)據(jù)分析、人工智能技術(shù)對數(shù)字內(nèi)容審核、過濾方式進行革新，將高科技與傳統(tǒng)編審機制進行融合，將人力密集、腦力密集向創(chuàng)新密集、技術(shù)密集轉(zhuǎn)型升級，是解決數(shù)字出版行業(yè)內(nèi)容過濾困境的有效途徑和必然發(fā)展趨勢。

本文主要介紹對圖文音視等不同內(nèi)容的審核過濾，基于大數(shù)據(jù)分析的內(nèi)容過濾平臺的流程和關(guān)鍵技術(shù)，應(yīng)用于電子書、網(wǎng)絡(luò)文學、有聲讀物、影視、短視頻、直播平臺等數(shù)字出版產(chǎn)品的內(nèi)容審核環(huán)節(jié)，成為人工審核的替代工具和重要輔助手段。

一、各種過濾系統(tǒng)的特點

(一)文本過濾系統(tǒng)

基于海量文本特征庫沉淀，搭配上百種文本識別策略模型，結(jié)合語義分析技術(shù)，通過智能算法和實時更新的樣本庫，可對文本內(nèi)容進行識別以及色情程度量化，建立一個可自學習的系統(tǒng)。用戶使用系統(tǒng)進行文本識別，系統(tǒng)就可以收集數(shù)據(jù)并不斷自我學習，而且用戶使用得越多，系統(tǒng)就會越強大。理論上，經(jīng)過數(shù)據(jù)的積累以及長時間的模型訓練，識別成功率可以接近100%。

智能文本過濾系統(tǒng)會在審核服務(wù)結(jié)束后輸出負面指數(shù)，負面指數(shù)越高，負面程度越大。

(1)關(guān)鍵詞庫建立與比對。關(guān)鍵詞過濾，也稱關(guān)鍵字過濾，指網(wǎng)絡(luò)應(yīng)用中，對傳輸信息進行預(yù)先的程序過濾、嗅探指定的關(guān)鍵字詞，并進行智能識別，檢查網(wǎng)絡(luò)中是否有違反指定策略的行為。

基于智能識別和關(guān)鍵詞庫,實時檢測過濾垃圾信息。建立敏感內(nèi)容數(shù)據(jù)庫系統(tǒng)，建立初期，由人工對敏感數(shù)據(jù)內(nèi)容庫(圖書、音頻、視頻等)進行整理分類，形成初步敏感內(nèi)容數(shù)據(jù)庫，主要包括敏感圖片、敏感音視頻、敏感圖書、敏感詞等，數(shù)據(jù)庫支持數(shù)據(jù)的導入導出，支持人工編輯(增、刪、改、查)，詞庫的建設(shè)與熱點抓取和輿情預(yù)警等分析功能相結(jié)合，敏感內(nèi)容庫可直接對待審核內(nèi)容進行匹配，同時審核過程中發(fā)現(xiàn)的新內(nèi)容可以加入到敏感內(nèi)容庫。

(2)內(nèi)容語義分析。運用自然語言處理(NLP)、數(shù)據(jù)挖掘等技術(shù)，根據(jù)文本內(nèi)容的語境等要素分析和理解文本內(nèi)容的含義，并根據(jù)設(shè)定的過濾標準，對內(nèi)容進行合規(guī)性判斷，從而完成對內(nèi)容的審核過濾。在相同過濾標準的情境下，智能文本審核系統(tǒng)與人工審核結(jié)果高度一致，但在數(shù)據(jù)處理量少遠高于人工，且具備自動學習、穩(wěn)定輸出等特性。

(二)音頻過濾系統(tǒng)

音頻過濾系統(tǒng)運用語音轉(zhuǎn)寫技術(shù)，將音頻內(nèi)容轉(zhuǎn)換成文字信息，利用文本過濾系統(tǒng)進行審核過濾。

主要應(yīng)用場景是針對語音為主的節(jié)目，比如網(wǎng)絡(luò)音視頻資源審核、網(wǎng)絡(luò)直播、談話聊天、脫口秀、在線廣播等。

音頻過濾的關(guān)鍵技術(shù)是以下幾種:①語音識別:準確識別音頻的內(nèi)容、事實并將其轉(zhuǎn)化為文字。②語音預(yù)處理技術(shù):包括音頻編解碼、噪聲消除(軟件處理，硬件解決方案)、語音信號增強。③語義識別:對語音識別后的文本結(jié)果進行分析，結(jié)合上下文，來判斷真實意圖。④語種識別、男女聲識別:識別方言、外語語種、發(fā)音人性別識別。⑤流媒體技術(shù):在實時音頻數(shù)據(jù)處理中，需要用到數(shù)據(jù)切分、數(shù)據(jù)緩存。⑥云平臺技術(shù):云服務(wù)架構(gòu)設(shè)計、服務(wù)模塊化整合、負載均衡等。⑦大數(shù)據(jù)技術(shù):海量數(shù)據(jù)存儲、訓練樣本自動提取、模型訓練等。

(三)圖片過濾系統(tǒng)

圖片過濾系統(tǒng)是基于深度學習算法的智能審核方案，圖像識別引擎根據(jù)圖像的顏色、紋理等特征來對敏感圖像進行過濾，這一過程會檢測肢體輪廓等關(guān)鍵特征信息，然后對檢測圖像特征與特征庫模型里面的特征相似度進行匹配，給予待測圖像不同維度的權(quán)重值，以權(quán)重值最高的作為判定結(jié)果輸出。準確識別圖片和視頻中的涉黃、涉暴、涉恐、政治敏感、微商廣告以及令人惡心等內(nèi)容，也能從美觀和清晰等維度對圖像進行篩選，幫助規(guī)避審查風險的同時極大降低人工成本。并且，通過大數(shù)據(jù)持續(xù)訓練、頻繁迭代，不斷構(gòu)建具有高層次表現(xiàn)力的模型，從而對高復(fù)雜度數(shù)據(jù)形成良好解讀。

主要用于:①色情識別。依托全網(wǎng)海量優(yōu)質(zhì)數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)技術(shù)，智能鑒別色情圖片內(nèi)容，為內(nèi)容產(chǎn)品保駕護航，遠離違規(guī)風險。②暴恐識別。識別暴力、血腥場景及恐怖組織頭目、旗幟等涉嫌違禁的圖片和視頻內(nèi)容，降低應(yīng)用涉暴、涉恐風險。③政治敏感識別。識別政治人物與敏感政治事件場景、旗幟標志等，幫助UGC、IM、BBS類產(chǎn)品在敏感時期規(guī)避相關(guān)風險。④廣告檢測。智能檢測圖像中的文字、水印、二維碼、條形碼，檢測各種微商廣告，凈化應(yīng)用。⑤惡心圖像識別。準確識別惡心、令人不適類的圖像，包含解剖、昆蟲類、生理病變、會引起密集恐懼癥等的圖像。⑥用戶頭像審核。對用戶頭像進行合規(guī)判斷，含人臉檢測，涉黃、涉敏檢測，廣告檢測等?，F(xiàn)已支持自定義設(shè)置審核規(guī)則。⑦圖像質(zhì)量檢測。圖像美觀度與清晰度識別，檢測圖像色彩、構(gòu)圖及是否存在模糊、失焦、噪點、鋸齒、馬賽克等情況。

(四)視頻過濾系統(tǒng)

視頻過濾系統(tǒng)為音頻過濾與圖片過濾系統(tǒng)兩者的結(jié)合，一方面利用自動截屏技術(shù)，抓取視頻關(guān)鍵幀，通過圖片過濾系統(tǒng)實現(xiàn)信息過濾。一方面結(jié)合音頻，綜合分析判斷。

在直播的時候，每個直播間會間隔一秒或幾秒采集一個關(guān)鍵幀，關(guān)鍵幀會發(fā)送到圖像識別引擎，引擎根據(jù)圖像的顏色、紋理等特征來對敏感圖像進行過濾。基于圖像識別的視頻涉黃檢測準確率可以達到99%以上，可以為視頻直播平臺節(jié)省70%以上的工作量。

二、相關(guān)的關(guān)鍵技術(shù)

(一)自然語言處理

該技術(shù)所涵蓋的研究內(nèi)容非常廣泛，從研究成果的表現(xiàn)形式來說，可以分為三個層面:基礎(chǔ)技術(shù)層、應(yīng)用技術(shù)層和產(chǎn)品服務(wù)層。本項目主要運用基礎(chǔ)技術(shù)層的技術(shù)，運用人工智能芯片、機器學習算法技術(shù)，使機器對文字中的負面信息的識別率達到99%以上，在實際應(yīng)用中，可取代90%的人力。

(二)語音轉(zhuǎn)寫

基于深度全序列卷積神經(jīng)網(wǎng)絡(luò)，將長段音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù)，并運用自然語言處理技術(shù)，將音頻的審核文字化，審核效率提高90%以上。

(三)圖像識別

依托海量圖片樣本進行深度識別訓練，基于深度學習技術(shù)，可以高效準確地鑒別色情圖片、性感圖片、涉政圖片、恐暴圖片等，算法識別準確率達到99.9%以上，遠超人工識別水平，實際工作中可以取代90%人力，而且針對圖片自動識別領(lǐng)域最難的擦邊球界定問題，引擎采用了分離圖譜技術(shù)，精準識別。

三、總結(jié)

本文主要介紹了在網(wǎng)站、廣告、新聞、電商、直播、社交、游戲、視頻、微博、微信等領(lǐng)域和傳播渠道，針對圖文音視多種類型的內(nèi)容應(yīng)用技術(shù)手段進行智能審核內(nèi)容把控的安全機制，為人工審讀提供幫助和輔助工作，極大減少了人工的工作，提高了工作效率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡