陳奎良
網絡出版,是指具有合法互聯(lián)網出版資格的出版機構,以互聯(lián)網為載體和流通渠道,出版并銷售數(shù)字出版物的行為。2014年1月,中國互聯(lián)網絡信息中心(CNNIC)發(fā)布的《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示,截至2013年12月,中國網站數(shù)量為320萬個,按出版類網站占5%計算,從事網絡出版的網站就達16萬個。但這其中僅有600多家出版機構獲得網絡出版資質,可以說,絕大多數(shù)網站在被動“非法”從事網絡出版服務,其登載作品良莠不齊,不少非法甚至淫穢色情等不良信息充斥其中,嚴重影響了網民的心理健康。筆者調研發(fā)現(xiàn),大家對監(jiān)管系統(tǒng)建設的重要性都有充分認識,但實際開發(fā)還處于摸索階段,主要存在對系統(tǒng)功能設計標準不一、認識不清等問題。筆者具有多年網絡出版監(jiān)測系統(tǒng)設計經驗,希望在此通過對網絡出版監(jiān)管平臺建設的闡述,給大家提供一點思路,以求拋磚引玉。
網絡出版監(jiān)管平臺的分析與設計
要建設網絡出版監(jiān)管平臺,必須充分研究和分析網絡出版監(jiān)管業(yè)務需求,結合為社會服務、為行業(yè)服務的建設目標,才能真正實現(xiàn)網絡出版監(jiān)管平臺建設的意義。筆者認為,網絡出版監(jiān)管平臺應包括內容監(jiān)管系統(tǒng)、輿情監(jiān)測系統(tǒng)、網站綜合評價系統(tǒng)和網站審核系統(tǒng)四部分,至少包括以下功能:
1.網站發(fā)現(xiàn)。網絡出版網站與監(jiān)管平臺實現(xiàn)對接有兩種途徑:一是網站與平臺自主對接,提供登陸賬號、密碼、網站規(guī)模、主辦單位等網站基本信息,便于平臺實現(xiàn)網站基本信息的著錄和管理,對網站違規(guī)內容進行實時監(jiān)管;二是未對接網站的收集和監(jiān)管,對于未能自主對接的網站,平臺要通過設定搜索規(guī)則,實現(xiàn)自動收集網站的域名和基本情況,并納入網絡監(jiān)管平臺的監(jiān)管范圍,實現(xiàn)全網全業(yè)務監(jiān)管。
2.網站信息著錄。依托監(jiān)管平臺,完善對網絡出版網站基本情況的著錄和整理,建立網絡出版單位基本信息數(shù)據庫,便于行業(yè)主管部門摸清家底,提高公共服務能力。
3.信息采集。信息采集是指利用計算機軟件技術對網站的任意網頁進行目標分析,分析出網頁的各種屬性信息,并根據采集規(guī)則進行分類存儲,除采集網站基本情況信息外,還采集出版物的一些基本信息。
4.文本挖掘。依靠文本挖掘引擎技術實現(xiàn)對文本的深度解析,把需要的信息進行分類細化提取,實現(xiàn)文本自動歸類和自動梳理。
5.全文檢索。監(jiān)測網站出版物是否存在違規(guī)內容是監(jiān)管平臺的主要功能之一,要實現(xiàn)這項功能必須進行全文檢索。一般的檢索系統(tǒng)只是基于標題或關鍵詞的檢索,而全文檢索細化了檢索的顆粒度,讓文本內容全部參與檢索,并且能夠對檢索結果進行排序,極大提高了檢索精確性。
6.違規(guī)內容鑒別。違規(guī)內容鑒別要根據出版物的不同載體有所區(qū)別,對于文本型內容,基于敏感關鍵詞庫,通過預定義的敏感關鍵詞或通過語義規(guī)則模型,實現(xiàn)對文本型正文的自動匹配;而對于音視頻類出版物,則自動檢索已采集的音視頻出版物,通過語音識別、鏡頭劃分、關鍵幀提取等音視頻語義分析手段,實現(xiàn)對全媒體出版物內容違法違規(guī)情況的智能預判。
7.出版物內容審核與處理。該功能是平臺的主要功能之一,對平臺預警出來的涉嫌違規(guī)出版物進行審讀和處理。該功能通過監(jiān)管網站權重、違規(guī)主題、采集時間、發(fā)布時間等指標,實現(xiàn)出版內容違規(guī)信息的分類分級優(yōu)先審讀,導航區(qū)可支持監(jiān)管主題、出版物類型、出版物形態(tài)等分類方式,對預警案件審讀后在平臺中完成撰寫審讀意見報告。
8.網絡出版輿情分析。通過對互聯(lián)網海量信息自動獲取、自動聚類、主題檢測、專題聚焦,實現(xiàn)對互聯(lián)網信息的輿情監(jiān)測、信息監(jiān)控及專題追蹤等功能,形成監(jiān)測簡報、分析報告等結果報告,為用戶全面掌握輿情動態(tài),進而做出正確輿論引導提供分析依據。
9.導航主題分類與管理。監(jiān)管平臺導航主題應實現(xiàn)多維度的管理模式,通過出版物的違規(guī)主題、出版形態(tài)、學科進行分類分級顯示,違規(guī)內容主題可根據《出版管理條例》中的禁載規(guī)定設置監(jiān)管主題。
10.知識庫管理。知識庫管理是對監(jiān)管平臺基礎數(shù)據的管理,包括語料庫、語義規(guī)則庫、敏感詞庫、網站基本信息庫、主題數(shù)據庫、違規(guī)案件庫、輿情信息庫等。
11.取證管理。對于網站違規(guī)內容等電子證據的固化和保全,在監(jiān)管平臺中也是一大亮點。通過自動化取證管理模塊,模擬進行多線程的網頁快照抓取,提高了進行大量網頁快照取證的工作效率,對不同網站、案件進行多級目錄存取,對頁面地址欄、首頁內容、頁面ICP等信息進行標準化取證。
12.網站評價體系。基于監(jiān)管平臺的基礎數(shù)據,以數(shù)據采掘技術和人工整理分析相結合的模式,建立一套可行可用的網站評價體系,評價指標包括:網站規(guī)模、出版物種類、出版物數(shù)量、網站友好性、公益型、贏利型、違規(guī)情況等。
13.查詢、統(tǒng)計分析。對網絡監(jiān)管平臺中的采集數(shù)據、預警數(shù)案件、網站信息等各類監(jiān)管數(shù)據的查詢、綜合統(tǒng)計、分析、報表功能。
14.系統(tǒng)運行管理。運行管理實現(xiàn)對系統(tǒng)業(yè)務參數(shù)和運行參數(shù)的配置和管理,分配用戶權限,監(jiān)控平臺運行網絡、軟硬件等運行狀態(tài),出現(xiàn)異常進行報警。
15.系統(tǒng)安全。為防止網絡用戶攻擊機反向定位,在網絡層將所有訪問互聯(lián)網的終端地址加以隱藏,并在應用層設置訪問黑/白IP地址,保證系統(tǒng)的安全。
監(jiān)管平臺開發(fā)關鍵技術分析
1.海量非結構化數(shù)據庫管理技術
傳統(tǒng)的數(shù)據庫管理系統(tǒng)是針對關系型結構化數(shù)據的管理,對于非結構化數(shù)據沒有有效的管理方式。目前網絡上80%是非結構化數(shù)據,因此,網絡出版監(jiān)管平臺亟需研發(fā)海量非結構化數(shù)據庫管理技術,從而高效管理和利用這些數(shù)據。
2.文本挖掘技術
文本挖掘是從大量文本的集合和語料中抽取事先未知、可理解的、有潛在實用價值的模式和知識,面對海量的互聯(lián)網數(shù)據,要求文本挖掘系統(tǒng)提供智能檢索、自動分類、自動聚類、關鍵詞自動標引、自動文摘、信息過濾、關聯(lián)規(guī)則挖掘等多種實用功能,以其為基礎可方便地開發(fā)應用系統(tǒng),快速實現(xiàn)智能信息挖掘,有效地進行知識管理。
3.互聯(lián)網信息采集技術
互聯(lián)網信息采集技術是指利用計算機軟件技術,針對定制的目標數(shù)據源,實時進行信息采集、抽取、挖掘、處理,將非結構化的信息從大量的網頁中抽取出來保存到結構化的數(shù)據庫中,從而為各種信息服務系統(tǒng)提供數(shù)據輸入的整個過程。
4.多媒體信息的智能識別技術
目前,多媒體信息的智能識別技術可以為圖、音、視等內容分析提供解決方案。比如色情圖像和視頻識別中可通過對膚色檢測,對顏色、形狀、臉部等進行特征標識和特征提取,并實行多維度的索引,對圖像的內容作出識別,達到監(jiān)測不良信息的目的。語音識別系統(tǒng)則通過連續(xù)語音識別,把語音信號轉化成計算機信號進行識別處理。我們同樣可以利用這項技術對網上傳輸?shù)穆曇魯?shù)據進行處理,把其中的語音信息轉化為文字信息以實行內容安全處理。
發(fā)展應與管理相輔相成,有效的管理是保障網絡出版取得健康發(fā)展的基礎和前提條件。而僅通過人工手段進行監(jiān)管顯然已經滿足不了管理的要求,必須通過技術手段實現(xiàn)網絡出版的監(jiān)管。同時,通過立法明確負面清單,監(jiān)督限定網絡出版行為,做到有法可依,有規(guī)定可遵守。在網絡出版內容的管理方面,筆者還建議國家放低對網站網絡出版業(yè)務資質的準入門檻,實行寬進嚴出的原則,實現(xiàn)網絡化在線審核。隨著技術水平的不斷提高和智能語義分析技術的發(fā)展,加上我國政府對網上信息監(jiān)管的重視程度不斷加強,相信在不久的將來,網絡出版必將保持健康有序發(fā)展。
(作者單位系新聞出版總署信息中心)