蔡禮淵
[摘要]文章通過對網絡文學現(xiàn)狀、輿情控制的必要性;網絡文學輿情特征;網絡文學輿情監(jiān)控系統(tǒng)設計三個方面進行探討,以期人們能夠快速、全面地把握信息內容和發(fā)展趨勢。
[關鍵詞]網絡文學;輿情控制;大數(shù)據環(huán)境
[DOI]10.13939/j.cnki.zgsc.2016.02.206
1網絡文學現(xiàn)狀,輿情控制的必要性
20 世紀 90 年代中后期,信息時代的來臨和網絡的普及,互聯(lián)網、手機、衛(wèi)星等信息傳播工具的出現(xiàn),極大地豐富了小說的發(fā)表和傳播渠道,同時也讓小說的生產、傳播方式發(fā)生了很大的變化。特別是對于互聯(lián)網和手機這樣的新媒體,每個人都可以成為小說的生產者和傳播者。這時一些別有用心的人利用網絡文學傳播虛假信息,散布反動言論,欺騙網民、誤導輿論。還有一些低級庸俗、淫穢色情、虛假欺詐等輿情信息在網上不斷出現(xiàn),危害網絡與信息安全。網絡文學輿論對人們意識形態(tài)的影響已成為極其重要的因素。
2015 年 7 月 23日,中國互聯(lián)網絡信息中心(CNNIC)在京發(fā)布《第 36 次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》。數(shù)據顯示,截至2015年6月,我國網民規(guī)模達6.68億,半年共計新增網民1894萬人?;ヂ?lián)網普及率為48.8%,較2014年年底提升了0.9個百分點。其中將互聯(lián)網使用于觀看網絡文學的有28467萬戶,占總用戶數(shù)量的42.6%。為了更好地了解輿情關注的熱點,讓網絡文學更好的為民眾服務,另外,保護網絡文學用戶遠離輿情信息的侵擾,建設和諧的社會主義國家,政府部門有必要采取有力措施對網絡信息進行必要的監(jiān)控。因此,深入分析研究網絡文學輿情監(jiān)控領域中的信息技術成為一項緊迫而重要的課題。
2網絡文學輿情特征
網絡文學從一開始就呈現(xiàn)了與傳統(tǒng)文學不同的特點。網絡文學有以下特點:
文字信息為主。網絡文學,與網絡新聞、網絡視頻、網絡報紙等不同,網絡文學主要以文字為主,幾乎沒有其他形式的信息表達。傳播途徑相對固定。網絡文學雖然比傳統(tǒng)文學傳播途徑靈活,但是比起其他的網絡信息,網絡文學的傳播相對固定,只有可記錄的一些網站和地址可以發(fā)布。
3網絡文學輿情監(jiān)控系統(tǒng)設計
根據網絡文學輿情監(jiān)控的特征可設計一個多層次結構的監(jiān)控體系??煞譃閿?shù)據接入層、信息預處理層、趨勢分析層、應用層設計、系統(tǒng)管理。
3.1數(shù)據接入層設計
要對網絡文學輿情進行監(jiān)控就要獲取網絡上的信息,而數(shù)據接入層就是完成這項工作的。由于網絡文學的性質,文本為主和發(fā)布點相對固定決定了數(shù)據接入層設計的結構。數(shù)據接入層分為采集、傳輸和儲存三個部分。
3.1.1數(shù)據的采集
由于網絡文學發(fā)布點雖然多但是相對固定,所以不需要不間斷的到網絡各處尋找相關數(shù)據。建立網絡監(jiān)控,監(jiān)控網絡節(jié)點的發(fā)布、更新、修改,一旦發(fā)現(xiàn)情況,就對傳輸程序給以信息。
同時,監(jiān)控點以外也有可能發(fā)布網絡文學??梢詰靡呀洺墒斓呐老x等算法,對全網、搜索引擎進行概率性搜索。以其結果建立新的監(jiān)控節(jié)點,或提出報警。
3.1.2數(shù)據傳輸
當發(fā)現(xiàn)監(jiān)控節(jié)點更新或修改等情況以后,進入數(shù)據傳輸環(huán)節(jié)。數(shù)據傳輸環(huán)節(jié)就是將找到的網絡文學數(shù)據傳回服務器。由于這時在網絡傳輸數(shù)據有可能遇到網絡擁堵、站點暫時無法連接、頁面缺失等不同的狀況。應對這些情況需要建立循環(huán)隊列下載、斷點續(xù)傳、設置有效時效等手段來保證下載數(shù)據的準確性和有效性。
3.1.3數(shù)據存儲
當數(shù)據采集來了以后就需要將數(shù)據進行存儲了。
首先要選擇存儲介質,由于數(shù)據量大、難以采集,所以要選擇容量大穩(wěn)定可靠的存儲介質。磁盤陣列是個比較好的選擇。
其次儲存格式,由于幾乎所有數(shù)據都是文本,所以建立比較簡單的儲存結構就行了。一般由文件頭(Head)和數(shù)據(Data)組成。文件頭包含網絡文學的出處、地址、路徑、采集時間等必要信息。數(shù)據為網絡文學采集下來的原始信息,主要有一個或多個原始網頁。
3.2信息預處理
信息采集來了以后就要進行信息處理了。對于一篇是什么意思計算機是不知道的。要讓計算機找出那些不合適的文學作品就要教會計算機找到一些敏感的詞匯并進行分析和判斷。于是信息預處理又分為分詞、去噪、加權等操作。
3.2.1分詞
當計算機發(fā)現(xiàn)“ISIS(The Islamic State of Iraq and Greater Syria)”這個詞很容易和恐怖分子聯(lián)系起來,但是當計算機看見“恐怖分子”時,完全可能理解成“看起來好恐怖,分子真多”, 所以如果面對中文信息不采用分詞技術,那么會導致信息數(shù)據的無法使用?,F(xiàn)在比較成熟的分詞方法有不少,這里選取基于特征掃描的字符串匹配的分詞方法。字符串匹配的分詞方法又叫作機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。這類方法簡單、分詞效率較高,但漢語語言現(xiàn)象復雜豐富,詞典的完備性、規(guī)則的一致性等問題使其難以適應開放的大規(guī)模文本的分詞處理。識別出一個詞,根據掃描方向的不同分為正向匹配和逆向匹配。根據不同長度優(yōu)先匹配的情況,分為最大(最長)匹配和最小(最短)匹配。
3.2.2去噪
網頁中的“噪音”是影響基于網頁內容的工作的質量的一個重要因素,快速準確的清除網頁中的噪音內容是提高這些工作質量的關鍵技術之一。這里使用了一種網頁凈化的方法,該方法以一組啟發(fā)式規(guī)則為基礎,利用信息檢索的技術以及網頁的特征,提取網頁的主題以及和主題相關的內容,從而達到網頁凈化的目的。
3.2.3加權
同樣的一個詞放在不同的環(huán)境下,對整篇文章內容的影響是不一樣的,對于上面劃詞確定下來的關鍵詞、敏感詞要進行加權才能表現(xiàn)出它的性質。
3.3分析和結論
有了以上的工作以后,我們就可以對數(shù)據進行分析并得出結論了。
對數(shù)據的分析手段有很多,這里我們采用相似性統(tǒng)計分析的統(tǒng)計學手段對其進行分析。相似性統(tǒng)計分析是在相似性檢索的基礎上再對檢索出來的結果進行的一系列的統(tǒng)計分析操作。相似性檢索的算法主要是基于特征詞提取和倒排索引技術,具體描述如下:
(1)對資料庫中的每篇文檔進行自動分詞和提取特征詞。
(2)對資料庫中的文檔按特征詞建立倒排索引庫,建立索引的相關屬性,包括詞頻、位置以及文本長度等。
(3)根據每篇文檔中包含特征詞的多少、位置、詞頻、文檔的長度等信息來計算庫中文檔與待檢索文檔的相關度,相關度超過一定閾值的文檔即可作為相關文檔處理,并給出相關系數(shù)。
4結論
本文論述了大數(shù)據環(huán)境下的網絡文學輿情監(jiān)控系統(tǒng)的研究與實現(xiàn)。文章首先分析了網絡文學輿情監(jiān)控的必要性,以及目前現(xiàn)狀。針對網絡文學輿情監(jiān)控系統(tǒng)的體系結構和主要功能模塊進行了設計,為系統(tǒng)各模塊的功能、性能及技術實現(xiàn)設計了詳細的解決方案。并且,對網絡文學輿情監(jiān)控系統(tǒng)的技術主體技術進行了深入研究。將多種技術有效結合,對復雜的網絡文學信息進行多屬性、多角度的分析,分別給出直觀的分析結果,以便人們能夠快速、全面地把握信息內容和發(fā)展趨勢。
參考文獻:
[1]索紅光,王玉偉.一種用于文本聚類的改進 k-means 算法[J].山東大學學報:理學版,2008(1):61-64.
[2]唐籍濤.網絡輿情監(jiān)控中新詞識別問題的研究[J].計算機技術與發(fā)展,2012,22(1).
[3]萬小軍,等.一種自動分析互聯(lián)網上熱點主題傳播過程的方法及系統(tǒng)[P].中國專利:CN101231641A,2008-07-30.