国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

我國自出版平臺的作品內(nèi)容管理研究

2020-02-24 02:50白廣達(dá)翁子揚(yáng)
數(shù)字圖書館論壇 2020年5期
關(guān)鍵詞:詞庫違規(guī)文本

白廣達(dá) 翁子揚(yáng)

(武漢大學(xué)信息管理學(xué)院,武漢 430072)

1 自出版及自出版平臺

自出版(self-publishing)是指圖書或者其他形式的出版物在沒有出版商按其常規(guī)出版流程進(jìn)行策劃、出版、發(fā)行的情況下,由作者主導(dǎo)推動進(jìn)行的特殊出版業(yè)態(tài)[1]。它強(qiáng)調(diào)網(wǎng)絡(luò)平臺的重要作用,形成了“作者-平臺方-讀者”的傳播路徑[2]。與傳統(tǒng)出版業(yè)態(tài)相比,自出版最突出的特點是作者在出版過程中自主性強(qiáng)、對出版各環(huán)節(jié)的掌控程度高。

早在19世紀(jì),自出版就已經(jīng)在英美等國家出現(xiàn)萌芽,其主要是通過作者自費(fèi)以及包購包銷的形式為被傳統(tǒng)出版機(jī)構(gòu)拒絕的作品爭取出版機(jī)會[3]。進(jìn)入21世紀(jì),隨著互聯(lián)網(wǎng)技術(shù)、數(shù)字出版和社交網(wǎng)絡(luò)的發(fā)展,現(xiàn)代意義上的自出版從美國開始興起,以KDP(Kindle Direct Publishing)、LuLu、Smashwords為代表的自出版平臺為作者提供了更快的出版速度、更高的銷售收入分成和更強(qiáng)的作品控制力,從而吸引了大量作者采用自出版模式[4],2008年美國出版史上第一次出現(xiàn)自出版圖書種數(shù)超過傳統(tǒng)出版圖書的情況,2009年全美76%的新書為自出版圖書[5],自出版已成為美國數(shù)字出版業(yè)的重要分支。

我國的自出版發(fā)展時間尚短,但也出現(xiàn)了一批具有本土化特色、形態(tài)各異的自出版平臺,可分為4類,即網(wǎng)絡(luò)文學(xué)自出版平臺、專業(yè)性自出版平臺、傳統(tǒng)出版企業(yè)自出版平臺和自媒體自出版平臺。

(1)網(wǎng)絡(luò)文學(xué)自出版平臺。以起點中文網(wǎng)為代表的網(wǎng)絡(luò)文學(xué)自出版平臺脫胎于本土的網(wǎng)絡(luò)文學(xué)網(wǎng)站,這些網(wǎng)絡(luò)文學(xué)網(wǎng)站在自出版出現(xiàn)之前已廣為流行,并且在發(fā)展中逐漸形成“初始免費(fèi)+后續(xù)付費(fèi)+紙質(zhì)出版”的自出版模式。網(wǎng)絡(luò)文學(xué)自出版平臺上的作品主要采取連載發(fā)布的形式,讀者與作者的互動密切,使得作品的“讀者本位”色彩非常明顯,是兼具爭議和熱度的一類作品,其中典型代表有南派三叔的《盜墓筆記》以及當(dāng)年明月的《明朝那些事兒》。

(2)專業(yè)性自出版平臺。這一類型的自出版平臺脫胎于以電子書為主要產(chǎn)品的數(shù)字出版平臺,目前發(fā)展態(tài)勢較好的有豆瓣閱讀、網(wǎng)易云閱讀等,它們最初的業(yè)務(wù)是為讀者提供紙質(zhì)出版物的數(shù)字化資源,后來為發(fā)展原生數(shù)字出版物引入了作者認(rèn)證系統(tǒng),直接由平臺方簽約作者,使其作品直接面對讀者并獲取收益。該類自出版平臺和亞馬遜公司的KDP平臺相似,主要流程為作者按照規(guī)定上傳書稿,在數(shù)字編輯審核之后在平臺上進(jìn)行發(fā)布,并且作者在出版物價格上也有比較高的自主權(quán)[6]。

(3)傳統(tǒng)出版企業(yè)自出版平臺。自出版行業(yè)的快速發(fā)展也吸引了一些傳統(tǒng)出版企業(yè)開展自出版的嘗試,這一模式的典型代表是知識產(chǎn)權(quán)出版社推出的“來出書”自出版平臺,由于背靠知識產(chǎn)權(quán)出版社的行業(yè)資源,“來出書”自出版平臺可以為作品提供完整的三審三校環(huán)節(jié)并幫助作品取得書號。相較于其他的自出版模式,傳統(tǒng)出版企業(yè)自出版平臺下作者對作品的主導(dǎo)地位稍弱、出版商參與程度更高。

(4)自媒體自出版平臺。自媒體自出版平臺的內(nèi)容主要來自以博客、微博、微信為代表的社交媒體,目前流行的“博客書”“微博書”“微信書”是其代表產(chǎn)品。以微信書為例,自媒體自出版平臺以微信為入口,在獲得用戶許可授權(quán)之后,抓取用戶的微信朋友圈或指定的微信公眾號內(nèi)容并批量導(dǎo)出,將內(nèi)容套用平臺模板后一鍵成書,可為用戶提供電子版或紙質(zhì)版的成品形式。這類平臺的出版服務(wù)較為單一,具有比較高的可定制性和自發(fā)性。

2 我國自出版平臺在作品內(nèi)容管理中的難點

自出版簡化了出版流程、降低了作品的出版門檻,這一方面使得眾多的新作品得以面世;另一方面也不可避免地帶來作品內(nèi)容良莠不齊的問題[7],自出版作品中含有淫穢色情、封建迷信等違規(guī)內(nèi)容的問題時有發(fā)生[8],這需要自出版平臺對作品內(nèi)容進(jìn)行有效管控,而相較于傳統(tǒng)出版業(yè)態(tài)下出版機(jī)構(gòu)對出版物的審查管理,自出版平臺對于自出版作品內(nèi)容的管控還存在諸多難點。

首先,相較于傳統(tǒng)出版物,自出版平臺上的自出版作品數(shù)量眾多?!?018年新聞出版產(chǎn)業(yè)分析報告》顯示,我國2018年新出版圖書24.7萬種;閱文集團(tuán)發(fā)布的2018年年報顯示,截至2018年平臺擁有作品數(shù)已超過1 120萬部、2018年平臺新增字?jǐn)?shù)多達(dá)443億,體量龐大的待審查內(nèi)容使得自出版平臺的內(nèi)容管理任務(wù)十分艱巨。

其次,隨著文本審核機(jī)制在各平臺的普遍介入,違規(guī)內(nèi)容也開始出現(xiàn)大量變形以期規(guī)避平臺的審核。在自出版平臺中常見的敏感詞變形方式有拼音替換、拼音首字母替換、形近字替換、同音字替換、繁體字替換、調(diào)換順序、插入無意義漢字/符號/數(shù)字/字母等,敏感詞變形的種類繁多、形式多樣,這對關(guān)鍵詞硬匹配的詞庫策略機(jī)器審核提出了挑戰(zhàn)。

最后,微信書等自媒體自出版作品中存在大量以外鏈形式組織的內(nèi)容,對于外鏈的審查是自出版平臺對作品內(nèi)容管理的難點和盲點。外鏈審查不能單純沿用文本內(nèi)容的機(jī)器審核方法,且外鏈的入口鏈接之間可能存在多次跳轉(zhuǎn),這些都給自出版平臺對外鏈的有效審查增加了困難。

需要說明的是,傳統(tǒng)出版企業(yè)自出版平臺的作品數(shù)量少、內(nèi)容形式相對單一,并且有完整的三審三校環(huán)節(jié),這類自出版平臺并沒有面臨上述作品內(nèi)容管理方面的問題和挑戰(zhàn),因此不在本文的討論范圍之列。

3 加強(qiáng)我國自出版平臺作品內(nèi)容管理的對策建議

針對我國自出版平臺在作品內(nèi)容管理中遇到的難點,本文從技術(shù)和管理的層面提出了3點建議,以提升自出版平臺對作品內(nèi)容的管理水平。

3.1 完善平臺內(nèi)容管控流程

自出版平臺應(yīng)完善覆蓋作品全過程的內(nèi)容管控流程,不僅包含作品發(fā)布前的內(nèi)容甄別和審查,也應(yīng)涵蓋作品發(fā)布后的及時阻斷和復(fù)核溯源,進(jìn)而有效控制自出版作品中違規(guī)內(nèi)容的出現(xiàn)和傳播。

平臺方應(yīng)向自出版作者明確作品內(nèi)容規(guī)范,要求自出版作者的作品內(nèi)容遵守平臺服務(wù)協(xié)議,不得出現(xiàn)涉及違反國家法律法規(guī)或相關(guān)規(guī)則的內(nèi)容,同時應(yīng)明確對違規(guī)內(nèi)容的處理機(jī)制,包括且不限于要求內(nèi)容整改、刪除違規(guī)作品、封禁賬號或銷號處理等,確保自出版作品的創(chuàng)作主體對于作品內(nèi)容規(guī)范和處理機(jī)制應(yīng)知盡知。此外,還應(yīng)對自出版作者進(jìn)行實名認(rèn)證,既可以更好地維護(hù)自出版作者的版權(quán)權(quán)利和經(jīng)濟(jì)利益,也可以加強(qiáng)自出版作者的責(zé)任意識和主體意識。

對于自出版作者上傳的作品,先經(jīng)過機(jī)器審核完成系統(tǒng)自動過濾,對于機(jī)器審核識別含有違規(guī)內(nèi)容的作品進(jìn)行刪除等處理,通過機(jī)器審核的作品進(jìn)入人工審核,人工審核甄別通過的作品才可以通過平臺發(fā)布,作品內(nèi)容的風(fēng)險管控務(wù)必要做到先審后發(fā),落實事前預(yù)防和審核。對于瀏覽量高、轉(zhuǎn)發(fā)分享次數(shù)多、享有平臺推薦位或資源位的自出版作品,還應(yīng)進(jìn)行多次人工審查、重點查驗。

對于已發(fā)布的作品,平臺應(yīng)對用戶舉報作出快速反饋、對被舉報作品接入人工復(fù)查,如發(fā)現(xiàn)是發(fā)布前審查漏審的違規(guī)內(nèi)容應(yīng)立即刪除,做到及時阻斷。

此外,平臺對于因漏審導(dǎo)致的違規(guī)內(nèi)容傳播應(yīng)及時復(fù)盤,了解導(dǎo)致漏審、錯審的原因并修正,如針對違規(guī)內(nèi)容變形導(dǎo)致的漏審應(yīng)調(diào)整相應(yīng)的機(jī)器審查過濾規(guī)則和算法組合、因敏感詞更新不及時導(dǎo)致的漏審應(yīng)更新擴(kuò)容敏感詞詞庫等,通過事后復(fù)核溯源提升平臺內(nèi)容管理水平。

3.2 構(gòu)建多層次策略的NLP能力

在對于文本內(nèi)容的審查中,NLP能力是文本機(jī)器審查的關(guān)鍵,目前自出版平臺的機(jī)器審查多停留在關(guān)鍵字硬匹配的階段,屬于泛化能力相對弱的詞庫策略,審查命中效果有限[9],為此自出版平臺方應(yīng)當(dāng)構(gòu)建包含詞庫策略、先驗策略、模型策略在內(nèi)的多層次策略的NLP能力,提高對違規(guī)內(nèi)容機(jī)器審查的識別效率。

(1)詞庫策略。詞庫策略包括預(yù)處理和硬匹配兩部分,引入預(yù)處理是為提升文本審核的泛化能力,硬匹配將待審核文本與敏感詞庫進(jìn)行匹配以識別包含本體敏感詞內(nèi)容的違規(guī)文本,是一種直接而有效的策略。

預(yù)處理一般包括英文大小寫歸一化、繁體轉(zhuǎn)換和特殊符號過濾。預(yù)處理可以過濾容易對先驗策略和模型策略模塊造成干擾的特殊符號,并通過英文大小寫和繁簡體歸一化起到泛化語料、間接擴(kuò)充詞庫的作用[10]。

硬匹配的關(guān)鍵在于根據(jù)語料建立的文本審核基礎(chǔ)詞庫,目前國內(nèi)自出版平臺主要建立并運(yùn)營維護(hù)了包含違規(guī)敏感詞的主詞庫和邊緣敏感詞的人工復(fù)核詞庫,能夠提供基本的文本審核能力,但識別變體違規(guī)內(nèi)容的能力較弱,因此,還應(yīng)在本體詞庫外建立包括拼音庫、首字母庫、缺字詞庫、跳字詞庫等在內(nèi)的變體詞庫。變體詞庫不僅能識別特定變形的違規(guī)內(nèi)容,還可以與先驗策略模塊中的對抗規(guī)則結(jié)合進(jìn)一步覆蓋更廣、更深的變種類型。

(2)先驗策略。先驗策略主要是針對為躲避審核機(jī)制而進(jìn)行的違規(guī)文本變形問題,是一種文本對抗規(guī)則的策略。

目前常見的敏感詞變形策略有拼音替換、拼音首字母替換、形近字替換、同音字替換、繁體字替換、調(diào)換順序、插入無意義漢字/符號/數(shù)字/字母等方式,針對不同類型的文本變形,可以通過分層過濾、跳字匹配、少字識別、拼音識別、首字母識別等對抗規(guī)則的組合使用,提高對敏感詞變形的有效識別率。

跳字匹配、少字識別、拼音識別、首字母識別對抗規(guī)則是以跳字詞庫、缺字詞庫、拼音庫、首字母庫來實現(xiàn)的,可以由包含違規(guī)敏感詞的主詞庫批量轉(zhuǎn)化生成。分層過濾是以算法而非詞庫的形式來實現(xiàn),對待審查文本進(jìn)行符號過濾、符號數(shù)字過濾、符號字母過濾等多層次的過濾,逐漸拓寬干擾項覆蓋范圍,并能夠?qū)⒉煌蓴_項相互剝離以精準(zhǔn)定位變體敏感詞。

先驗策略中的對抗規(guī)則主要是通過詞庫構(gòu)建和算法設(shè)計來實現(xiàn),通過對包含違規(guī)敏感詞的主詞庫進(jìn)行拓展和對不同類型干擾項的多層次過濾,就可以有效提升對違規(guī)內(nèi)容變形的識別能力,相較于詞庫硬匹配策略對抗能力更強(qiáng),且實現(xiàn)的復(fù)雜度并不高,對于自出版平臺而言是提升機(jī)器審查效率的一種高可用性策略。

(3)模型策略。當(dāng)一些違規(guī)文本并不會顯著觸發(fā)敏感詞或者一些邊緣敏感詞需結(jié)合語境來判定是否違規(guī)時,這就需要引入各種NLP深度學(xué)習(xí)模型,運(yùn)用模型策略來捕捉語義層面的違規(guī)內(nèi)容。

適用于NLP領(lǐng)域的常見模型有transformer、BERT、FastText等,目前應(yīng)用較多的是基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)展開的文本分類模型[11],一般過程是先對文本進(jìn)行分布式表示,然后進(jìn)行卷積操作形成張量表示,再通過最大化池操作降維,最后通過感知運(yùn)算層進(jìn)行預(yù)測和分類。利用深度學(xué)習(xí)模型能夠進(jìn)行詞法分析、句法分析和篇章分析,理解文本內(nèi)容的情感傾向、分類和主題,進(jìn)而判斷文本涉及敏感信息的程度[12]。

模型策略的實現(xiàn)復(fù)雜度高,涉及模型選型、訓(xùn)練工作、參數(shù)調(diào)整和模型優(yōu)化,還需要保證訓(xùn)練語料的覆蓋度以實現(xiàn)模型的泛化能力,建議平臺方結(jié)合實際需求自行選用。

3.3 對外鏈內(nèi)容和外鏈域名檢測以實現(xiàn)外鏈審查

作品中出現(xiàn)以外鏈形式組織的內(nèi)容是自出版作品相較于傳統(tǒng)出版作品的一個顯著區(qū)別。以微信書為例,其內(nèi)容主要來自用戶朋友圈或指定的公眾號推文匯總,微信書中常見的外鏈既有指向某一公眾號推文的跳轉(zhuǎn),也可以是指向外部網(wǎng)頁的鏈接,這些外鏈作為自出版作品中出現(xiàn)的超文本信息,體現(xiàn)了自出版作品作為數(shù)字出版物在作品內(nèi)容格式上的豐富性。封禁惡意外鏈、避免給涉黃涉賭站點導(dǎo)流也是自出版平臺的內(nèi)容管理工作之一,但審查外鏈內(nèi)容與純文本的內(nèi)容審核有一定差異,目前國內(nèi)有外鏈審核需求的自媒體自出版平臺并沒有對作品中出現(xiàn)的外鏈進(jìn)行審核,本文試提出了外鏈審查的技術(shù)路徑以供參考。

外鏈審查的技術(shù)路徑設(shè)計主要是針對外鏈內(nèi)容和外鏈域名的檢測。首先應(yīng)細(xì)分鏈接的層級(URL、CGI、PATH、HOST、DOMAIN),拉取網(wǎng)頁源代碼并提取網(wǎng)頁的文檔對象模型結(jié)構(gòu)(DOM)和標(biāo)題內(nèi)容作為特征[13],對于拉取的特征信息以NLP手段進(jìn)行文本內(nèi)容審查[14],對于機(jī)器審查出現(xiàn)違規(guī)內(nèi)容的外鏈直接予以封禁,對于機(jī)器審查結(jié)果為有違規(guī)可能性的邊緣性敏感信息的外鏈接入人工審查進(jìn)行復(fù)核。

為避免對所有外鏈均進(jìn)行抓取及內(nèi)容審查帶來的低效率,可以通過對外鏈域名的檢測來進(jìn)一步優(yōu)化外鏈內(nèi)容審查的技術(shù)路徑??梢詫︽溄訉蛹壖?xì)分中的域名設(shè)置白名單(建議是域名維度,CGI維度太過細(xì)化),將政府門戶網(wǎng)站和知名互聯(lián)網(wǎng)大站等優(yōu)質(zhì)站點列入域名白名單,對于這些入口鏈接信譽(yù)較好的外鏈可以不接入內(nèi)容審查的程序接口,節(jié)省計算資源。

需要注意的是,互聯(lián)網(wǎng)“黑產(chǎn)”也可能會利用XSS漏洞(跨站腳本攻擊)將自己的惡意外鏈隱藏在優(yōu)質(zhì)站點域名中[15],對此需要對列入白名單的站點建立跳轉(zhuǎn)圍墻,因為列入白名單的站點本身較為穩(wěn)定、不大可能會經(jīng)常跳轉(zhuǎn)到業(yè)務(wù)以外的域名,所以可以通過歷史跳轉(zhuǎn)數(shù)據(jù)對優(yōu)質(zhì)站點的跳轉(zhuǎn)建立圍墻,加大力度對這些站點跳出的域名做監(jiān)控打擊以解決XSS漏洞類問題。

猜你喜歡
詞庫違規(guī)文本
文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
違規(guī)借調(diào)的多重“算計”
一“吃”多用
作為“文本鏈”的元電影
輸入法詞庫取證比較研究
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
違規(guī)試放存放 爆炸5死1傷
輸入法詞庫乾坤大挪移
駕照