網絡出版監(jiān)管平臺的設計與實現(xiàn)

2014-08-13 12:01陳奎良

出版參考 2014年12期

陳奎良

網絡出版，是指具有合法互聯(lián)網出版資格的出版機構，以互聯(lián)網為載體和流通渠道，出版并銷售數(shù)字出版物的行為。2014年1月，中國互聯(lián)網絡信息中心（CNNIC）發(fā)布的《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示，截至2013年12月，中國網站數(shù)量為320萬個，按出版類網站占5%計算，從事網絡出版的網站就達16萬個。但這其中僅有600多家出版機構獲得網絡出版資質，可以說，絕大多數(shù)網站在被動“非法”從事網絡出版服務，其登載作品良莠不齊，不少非法甚至淫穢色情等不良信息充斥其中，嚴重影響了網民的心理健康。筆者調研發(fā)現(xiàn)，大家對監(jiān)管系統(tǒng)建設的重要性都有充分認識，但實際開發(fā)還處于摸索階段，主要存在對系統(tǒng)功能設計標準不一、認識不清等問題。筆者具有多年網絡出版監(jiān)測系統(tǒng)設計經驗，希望在此通過對網絡出版監(jiān)管平臺建設的闡述，給大家提供一點思路，以求拋磚引玉。

網絡出版監(jiān)管平臺的分析與設計

要建設網絡出版監(jiān)管平臺，必須充分研究和分析網絡出版監(jiān)管業(yè)務需求，結合為社會服務、為行業(yè)服務的建設目標，才能真正實現(xiàn)網絡出版監(jiān)管平臺建設的意義。筆者認為，網絡出版監(jiān)管平臺應包括內容監(jiān)管系統(tǒng)、輿情監(jiān)測系統(tǒng)、網站綜合評價系統(tǒng)和網站審核系統(tǒng)四部分，至少包括以下功能：

1.網站發(fā)現(xiàn)。網絡出版網站與監(jiān)管平臺實現(xiàn)對接有兩種途徑：一是網站與平臺自主對接，提供登陸賬號、密碼、網站規(guī)模、主辦單位等網站基本信息，便于平臺實現(xiàn)網站基本信息的著錄和管理，對網站違規(guī)內容進行實時監(jiān)管；二是未對接網站的收集和監(jiān)管，對于未能自主對接的網站，平臺要通過設定搜索規(guī)則，實現(xiàn)自動收集網站的域名和基本情況，并納入網絡監(jiān)管平臺的監(jiān)管范圍，實現(xiàn)全網全業(yè)務監(jiān)管。

2.網站信息著錄。依托監(jiān)管平臺，完善對網絡出版網站基本情況的著錄和整理，建立網絡出版單位基本信息數(shù)據庫，便于行業(yè)主管部門摸清家底，提高公共服務能力。

3.信息采集。信息采集是指利用計算機軟件技術對網站的任意網頁進行目標分析，分析出網頁的各種屬性信息，并根據采集規(guī)則進行分類存儲，除采集網站基本情況信息外，還采集出版物的一些基本信息。

4.文本挖掘。依靠文本挖掘引擎技術實現(xiàn)對文本的深度解析，把需要的信息進行分類細化提取，實現(xiàn)文本自動歸類和自動梳理。

5.全文檢索。監(jiān)測網站出版物是否存在違規(guī)內容是監(jiān)管平臺的主要功能之一，要實現(xiàn)這項功能必須進行全文檢索。一般的檢索系統(tǒng)只是基于標題或關鍵詞的檢索，而全文檢索細化了檢索的顆粒度，讓文本內容全部參與檢索，并且能夠對檢索結果進行排序，極大提高了檢索精確性。

6.違規(guī)內容鑒別。違規(guī)內容鑒別要根據出版物的不同載體有所區(qū)別，對于文本型內容，基于敏感關鍵詞庫，通過預定義的敏感關鍵詞或通過語義規(guī)則模型，實現(xiàn)對文本型正文的自動匹配；而對于音視頻類出版物，則自動檢索已采集的音視頻出版物，通過語音識別、鏡頭劃分、關鍵幀提取等音視頻語義分析手段，實現(xiàn)對全媒體出版物內容違法違規(guī)情況的智能預判。

7.出版物內容審核與處理。該功能是平臺的主要功能之一，對平臺預警出來的涉嫌違規(guī)出版物進行審讀和處理。該功能通過監(jiān)管網站權重、違規(guī)主題、采集時間、發(fā)布時間等指標，實現(xiàn)出版內容違規(guī)信息的分類分級優(yōu)先審讀，導航區(qū)可支持監(jiān)管主題、出版物類型、出版物形態(tài)等分類方式，對預警案件審讀后在平臺中完成撰寫審讀意見報告。

8.網絡出版輿情分析。通過對互聯(lián)網海量信息自動獲取、自動聚類、主題檢測、專題聚焦，實現(xiàn)對互聯(lián)網信息的輿情監(jiān)測、信息監(jiān)控及專題追蹤等功能，形成監(jiān)測簡報、分析報告等結果報告，為用戶全面掌握輿情動態(tài)，進而做出正確輿論引導提供分析依據。

9.導航主題分類與管理。監(jiān)管平臺導航主題應實現(xiàn)多維度的管理模式，通過出版物的違規(guī)主題、出版形態(tài)、學科進行分類分級顯示，違規(guī)內容主題可根據《出版管理條例》中的禁載規(guī)定設置監(jiān)管主題。

10.知識庫管理。知識庫管理是對監(jiān)管平臺基礎數(shù)據的管理，包括語料庫、語義規(guī)則庫、敏感詞庫、網站基本信息庫、主題數(shù)據庫、違規(guī)案件庫、輿情信息庫等。

11.取證管理。對于網站違規(guī)內容等電子證據的固化和保全，在監(jiān)管平臺中也是一大亮點。通過自動化取證管理模塊，模擬進行多線程的網頁快照抓取，提高了進行大量網頁快照取證的工作效率，對不同網站、案件進行多級目錄存取，對頁面地址欄、首頁內容、頁面ICP等信息進行標準化取證。

12.網站評價體系。基于監(jiān)管平臺的基礎數(shù)據，以數(shù)據采掘技術和人工整理分析相結合的模式，建立一套可行可用的網站評價體系，評價指標包括：網站規(guī)模、出版物種類、出版物數(shù)量、網站友好性、公益型、贏利型、違規(guī)情況等。

13.查詢、統(tǒng)計分析。對網絡監(jiān)管平臺中的采集數(shù)據、預警數(shù)案件、網站信息等各類監(jiān)管數(shù)據的查詢、綜合統(tǒng)計、分析、報表功能。

14.系統(tǒng)運行管理。運行管理實現(xiàn)對系統(tǒng)業(yè)務參數(shù)和運行參數(shù)的配置和管理，分配用戶權限，監(jiān)控平臺運行網絡、軟硬件等運行狀態(tài)，出現(xiàn)異常進行報警。

15.系統(tǒng)安全。為防止網絡用戶攻擊機反向定位，在網絡層將所有訪問互聯(lián)網的終端地址加以隱藏，并在應用層設置訪問黑/白IP地址，保證系統(tǒng)的安全。

監(jiān)管平臺開發(fā)關鍵技術分析

1.海量非結構化數(shù)據庫管理技術

傳統(tǒng)的數(shù)據庫管理系統(tǒng)是針對關系型結構化數(shù)據的管理，對于非結構化數(shù)據沒有有效的管理方式。目前網絡上80%是非結構化數(shù)據，因此，網絡出版監(jiān)管平臺亟需研發(fā)海量非結構化數(shù)據庫管理技術，從而高效管理和利用這些數(shù)據。

2.文本挖掘技術

文本挖掘是從大量文本的集合和語料中抽取事先未知、可理解的、有潛在實用價值的模式和知識，面對海量的互聯(lián)網數(shù)據，要求文本挖掘系統(tǒng)提供智能檢索、自動分類、自動聚類、關鍵詞自動標引、自動文摘、信息過濾、關聯(lián)規(guī)則挖掘等多種實用功能，以其為基礎可方便地開發(fā)應用系統(tǒng)，快速實現(xiàn)智能信息挖掘，有效地進行知識管理。

3.互聯(lián)網信息采集技術

互聯(lián)網信息采集技術是指利用計算機軟件技術，針對定制的目標數(shù)據源，實時進行信息采集、抽取、挖掘、處理，將非結構化的信息從大量的網頁中抽取出來保存到結構化的數(shù)據庫中，從而為各種信息服務系統(tǒng)提供數(shù)據輸入的整個過程。

4.多媒體信息的智能識別技術

目前，多媒體信息的智能識別技術可以為圖、音、視等內容分析提供解決方案。比如色情圖像和視頻識別中可通過對膚色檢測，對顏色、形狀、臉部等進行特征標識和特征提取，并實行多維度的索引，對圖像的內容作出識別，達到監(jiān)測不良信息的目的。語音識別系統(tǒng)則通過連續(xù)語音識別，把語音信號轉化成計算機信號進行識別處理。我們同樣可以利用這項技術對網上傳輸?shù)穆曇魯?shù)據進行處理，把其中的語音信息轉化為文字信息以實行內容安全處理。

發(fā)展應與管理相輔相成，有效的管理是保障網絡出版取得健康發(fā)展的基礎和前提條件。而僅通過人工手段進行監(jiān)管顯然已經滿足不了管理的要求，必須通過技術手段實現(xiàn)網絡出版的監(jiān)管。同時，通過立法明確負面清單，監(jiān)督限定網絡出版行為，做到有法可依，有規(guī)定可遵守。在網絡出版內容的管理方面，筆者還建議國家放低對網站網絡出版業(yè)務資質的準入門檻，實行寬進嚴出的原則，實現(xiàn)網絡化在線審核。隨著技術水平的不斷提高和智能語義分析技術的發(fā)展，加上我國政府對網上信息監(jiān)管的重視程度不斷加強，相信在不久的將來，網絡出版必將保持健康有序發(fā)展。

（作者單位系新聞出版總署信息中心）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

網絡出版監(jiān)管平臺的設計與實現(xiàn)