黃艷艷 朱英浩 邱冬冬 張石麗
摘要:自2020年3月1日起,《網(wǎng)絡信息內(nèi)容生態(tài)治理規(guī)定》明確禁止網(wǎng)絡信息內(nèi)容服務使用者和生產(chǎn)者、平臺開展網(wǎng)絡暴力、人肉搜索,在學界中,已經(jīng)有大量對網(wǎng)絡暴力的定義、分析和治理建議,基于這些背景和基礎,本文通過對網(wǎng)絡語言暴力這一范圍中進行詳細的研究,來設計出核心程序,以此更加科學、有效的識別網(wǎng)絡語言暴力,并規(guī)劃了如何使用的流程,希望以此起到凈化網(wǎng)絡的目的。
關鍵詞:網(wǎng)絡暴力;程序設計;機器學習
中圖分類號:TP311? 文獻標識碼:A? ? ? ?文章編號:1007-9416(2020)04-0000-00
1研究背景
學界有關網(wǎng)絡暴力較為嚴謹?shù)亩x是:網(wǎng)絡暴力指由個人或團體通過電子或數(shù)字媒體反復實施的,傳播表達敵意或侵襲性的信息,意圖摧殘、折磨他人精神,足以壓制受害人反抗的行為[1]。
2020年3月1日,《網(wǎng)絡信息內(nèi)容生態(tài)治理規(guī)定》發(fā)布,其中已經(jīng)明確禁止網(wǎng)絡暴力、人肉搜索等行為,各大主流社交媒體平臺紛紛積極響應了政策,將部分大型群體性網(wǎng)絡暴力事件的相關話題和評論進行了一些關閉和刪除等操作,然而,對于小型的、個體性的網(wǎng)絡暴力事件暫時還沒有體現(xiàn)有效管理。
近幾年里,網(wǎng)絡暴力的話題被大家高度關注,盡管網(wǎng)民們已經(jīng)充分地認識到了網(wǎng)絡暴力的威力和危害,但是網(wǎng)絡暴力依然活躍在各大熱門網(wǎng)絡話題中,因此,整頓、治理網(wǎng)絡暴力的工作仍舊非常艱難[2]。
大多學者主要提出了完善法律、實名制、提高網(wǎng)民素養(yǎng)、加強媒體把關人的職能、主流媒體的積極引導以及加強平臺管理等治理辦法。
2設計與應用
2.1設計流程
基于對網(wǎng)絡暴力的背景研究并結(jié)合了實踐過程中對網(wǎng)絡語言暴力的新發(fā)現(xiàn),本文從以下方面來設計對網(wǎng)絡暴力語言的判斷和屏蔽操作。
程序首先將對一個評論區(qū)的用戶評論進行情感分析,評論較為積極則可以正常發(fā)布,若評論的情緒較為負面,則進入第二輪機器判斷。第二輪判斷將得出評論是不是針對該評論區(qū)的個人,如果是并且還包含了網(wǎng)絡暴力語言敏感詞,則確定該評論屬于網(wǎng)絡暴力。對于網(wǎng)絡暴力語言,將進行三步處理法:第一步,對暴力語言進行屏蔽;第二步,同時對發(fā)表該評論的用戶進行警告提醒,當警告累計達到五次則進行封號處理;第三步,則是對接下來的用戶評論進行會話框提示:“請慎重考慮您的發(fā)言,避免出現(xiàn)網(wǎng)絡語言暴力”,如圖1所示:
2.2程序相關過程及運行結(jié)果準確率
該設計主要運用到了Word2vec模型,將爬取到的偏向積極正面的發(fā)言數(shù)據(jù)和負面發(fā)言數(shù)據(jù)進行了詞向量的訓練,然后用到SVM分類器對語料進行分類,使得機器學會智能判斷評論的情感趨勢。
首先在各大平臺中爬取與網(wǎng)絡暴力相關的數(shù)據(jù),做好標記,然后進行jieba分詞、對數(shù)據(jù)隨機切分,生成訓練集和測試集,再用Word2vec模型計算每段話的向量,訓練SVM模型,最后對單個句子進行分類,完成情感判斷。
在實驗運行過程中,情感分析和對判斷言論是針對個人還是平臺的訓練集預測準確率分別達到了82.84%和87.35%,測試集預測準確率較低,在59%和57.32%。過擬合是造成測試集準確率下降的主要原因[3]。
2.3應用環(huán)境
由于各類評論環(huán)境的不同、相關推送、大數(shù)據(jù)個性化定制用戶喜好等機制,以及對網(wǎng)絡暴力語言具有流動性、用戶實名信息、平臺是否對用戶進行強制封號等因素的考慮,該設計的部分功能在實際應用中將會受到一定的限制。
根據(jù)抽樣調(diào)查的數(shù)據(jù)顯示,僅有23.55%的人有非常強烈的意愿來使用這樣一個可以屏蔽網(wǎng)絡語言暴力的程序,大多數(shù)人認為這種方法治標不治本,沒有較強的使用意愿。
從平臺和用戶兩方面評估后,本文認為該程序可行性高,能做成平臺的相關插件,根據(jù)用戶的個人意愿自主選擇,讓那些已經(jīng)受到、害怕受到網(wǎng)絡暴力的個人用戶有一個較為優(yōu)質(zhì)的網(wǎng)絡語言環(huán)境。
3結(jié)語
2017年Google開發(fā)出了一款“Perspective”的工具,利用機器學習的方法來檢測網(wǎng)絡上侮辱、騷擾等語言,[2]但在誹謗及譏諷性質(zhì)的言論的識別上還有難度。2018年知乎瓦力升級,可以判斷出陰陽怪氣的評論并進行折疊,但是用戶對于這個把正常評論一起折疊的功能不太認同。
作者意在采集暴力語言數(shù)據(jù),再用人工智能技術進行主動學習,設計智能檢測網(wǎng)絡暴力語言的程序,并將之作為社交平臺的附屬插件,起到凈化網(wǎng)絡用語環(huán)境的目的。相較于Google和知乎這種大平臺對“語言”識別的直接開發(fā),作者換了一個思路,從判斷語言情感的方向入手,結(jié)合了網(wǎng)絡語言暴力中一些特定的詞匯庫,判斷出該語言是不是針對個人的,由此來進行判斷,在隨機測試環(huán)節(jié)達到了非常好的效果。
但是在數(shù)據(jù)判斷的準確度上還有待提升,對未來,作者提出了新的數(shù)據(jù)模型訓練,尋找大量有關帶有隱喻性、諷刺性、指代性網(wǎng)絡暴力語言分別通過機器專門訓練其背后的情感模型,還可以專門訓練機器來識別語言中是否含有隱喻、夸張、諷刺等手法,來進行更好、更精確的識別。
參考文獻
[1] 徐穎.論“網(wǎng)絡暴力”致人自殺死亡的刑事責任[J].政法論壇,2020,38(1):132-142
[2] 韓蒙如.網(wǎng)絡暴力背后的心理和語言機制[N].社會科學報,2019-11-28.
[3] 任仝.網(wǎng)絡語言暴力現(xiàn)象分析[D].長春:吉林大學,2019.
收稿日期2020-03-07
基金項目:河南省大學生創(chuàng)新性實驗訓練計劃項目資助(201910475144);河南大學大學生創(chuàng)新性實驗訓練計劃項目資助(201910475144)
作者簡介:黃艷艷,女,上海人,本科,研究方向:網(wǎng)絡與新媒體。
Combining Research on Cyber Violence and Designing Programs and Applications that Intelligently Identify Cyber Language Violence
HUANG Yan-yan,ZHU Ying-hao,QIU Dong-dong,ZHANG Shi-li
(Henan University, Kaifeng? Henan 475000)
Abstract:Since March 1, 2020, the "Regulations on the Ecological Governance of Network Information Contents" explicitly prohibit users and producers of network information content services, platforms from carrying out cyber violence and human flesh search. In the academic community, there have been a lot of definitions, analysis and governance suggestions on cyber violence. Based on these backgrounds and foundations, this paper studies the scope of cyber language violence in detail. To design the core program, in order to identify the cyber language violence more scientifically and effectively, and to plan how to use the process, hoping to purify the network.
Keyword:cyber violence;programming;machine learning