大數(shù)據(jù)背景下文本語料預處理技術(shù)項目探析

2021-01-02 22:22黃思緣吳佳怡

科海故事博覽 2021年16期

許越黃思緣吳佳怡顧秦王絡(luò)

（上海立信會計金融學院，上海 201209）

1 項目價值和意義

隨著人們生活水平的不斷提高，智能設(shè)備已經(jīng)逐漸成為了人們生活中的必需品，越來越多的人使用智能設(shè)備在網(wǎng)絡(luò)上通過各種軟件進行線上社交活動，而在這個過程中，不可避免地會產(chǎn)生網(wǎng)絡(luò)不文明用語現(xiàn)象。軟件上的發(fā)布動態(tài)、評論、轉(zhuǎn)發(fā)、聊天等功能給人們提供了一個更方便地進行思想交流的平臺。但與此同時，網(wǎng)絡(luò)的匿名性也導致了各類網(wǎng)絡(luò)不文明現(xiàn)象的頻發(fā)。言語上口無遮攔的攻擊謾罵對網(wǎng)絡(luò)環(huán)境和被攻擊者的心理都造成了極其惡劣的影響，對于攻擊者本人正確的思想道德培養(yǎng)也有一定的阻礙。[1]

如今，國內(nèi)人工+機器的不文明用語審核方式雖已在一定程度上提升了識別效率，但仍無法趕上用戶創(chuàng)造網(wǎng)絡(luò)用語的速度，識別的準確度難以得到提升。且目前的機器識別方式仍較死板，只能通過簡單的文本比對機械地識別出某個字或某個詞，不能聯(lián)系前后文本完整地識別出語句的準確含義，因此有時會導致原本不存在不文明用語的文本被錯誤地識別、屏蔽，給用戶的線上交流帶來一定困擾，也降低了用戶的軟件使用體驗。而真正使用了不文明語言的文本也可能因為使用了替代詞而沒有被及時識別屏蔽，破壞了良好的網(wǎng)絡(luò)語言環(huán)境。本項目將通過文本預處理、建立語料庫、不文明用語庫等方式，使用相似性比較，聚類分析等文本挖掘技術(shù)，實現(xiàn)對不文明用語更高速、更準確的識別處理。

本項目的意義可以體現(xiàn)在用戶、網(wǎng)絡(luò)平臺、社會及人工智能發(fā)展四個方面：首先，對用戶而言，本項目將通過對于不文明用語的及時識別和屏蔽，降低用戶在網(wǎng)絡(luò)上與其他用戶起沖突的可能性，也在一定程度上減輕了網(wǎng)絡(luò)不文明現(xiàn)象可能給被攻擊用戶造成的負面心理影響，同時能有效避免為防止踩中屏蔽詞只能使用替代詞進行交流的情況，增強用戶的溝通效率，提升用戶的軟件使用體驗，為交流雙方提供一個更加健康的網(wǎng)絡(luò)環(huán)境；其次，對有用戶留言、評論、轉(zhuǎn)發(fā)等各類功能的網(wǎng)絡(luò)平臺而言，本項目能為其提供更高效的用戶留言管理方法和策略，創(chuàng)建良好的網(wǎng)絡(luò)語言環(huán)境，減少人工審核不文明用語的成本。同時也能為用戶創(chuàng)造一個更優(yōu)秀、更文明的線上交流平臺，提升用戶的使用體驗，使得用戶愿意更頻繁地使用該平臺進行線上交流，為平臺增加收益。本項目也能幫助平臺通過某一詞匯的提及度了解用戶對于某一話題的關(guān)注度，為網(wǎng)絡(luò)平臺業(yè)務(wù)開展和話題建設(shè)打下良好的基礎(chǔ)。增強平臺對網(wǎng)絡(luò)話題趨勢的掌握度，更清晰地了解用戶喜好，為軟件的功能提升提供方向，吸引更多用戶，最終達成良性循環(huán)；再次，對社會而言，網(wǎng)絡(luò)肩負著引導輿論、成風化人的職責，使用文明規(guī)范的語言文字是傳承文明、傳播文化的基本要求。本項目能夠減少網(wǎng)絡(luò)上不文明用語的出現(xiàn)頻率，從而減少不文明用語對社會風氣產(chǎn)生的不良影響。同時，對于網(wǎng)絡(luò)上數(shù)量龐大的未成年用戶而言，一個文明和諧的網(wǎng)絡(luò)語言環(huán)境會對他們的身心健康發(fā)展起到良性引導的作用。也在一定程度上降低了線上的語言暴力給用戶的身心所帶來的危害；最后，對人工智能的發(fā)展而言，人工智能本就是在不斷學習中成長，通過對互聯(lián)網(wǎng)上大量的語言識別樣本進行學習意味著能夠使人工智能更精確地識別出當前文本的真實語義，甚至識別出帶有更強烈的情感色彩的調(diào)侃、諷刺等語氣的文本含義，避免錯誤的識別屏蔽，達到優(yōu)化用戶體驗的目的。提升人工智能在語言識別方面的成長進度，為未來人工智能的發(fā)展打下基礎(chǔ)。

2 項目設(shè)計

2.1 研究對象與研究方法

項目靈感來源于大一上學期我們在思想政治課上研究的課題——上海市大學生對于網(wǎng)絡(luò)道德的認識。該研究通過向大學生發(fā)放紙質(zhì)問卷和電子問卷的方式進行調(diào)查，采取簡單隨機抽樣的方式發(fā)放問卷。研究目的在于從整體上探究大學生對于網(wǎng)絡(luò)道德的認知程度，從人們對于網(wǎng)絡(luò)持有的意識態(tài)度、網(wǎng)上行為規(guī)范、評價選擇等方面設(shè)計問卷。同時，結(jié)合了校內(nèi)校外隨機采訪輔助前期調(diào)研，側(cè)重對訪問者在網(wǎng)上沖浪時對于不文明或具有煽動性的言論的真實感受。同時請大學生對于制止網(wǎng)絡(luò)暴力給予適當?shù)慕ㄗh。希望通過豐富的問卷內(nèi)容體現(xiàn)出大學生真實的心理狀態(tài)，從而進一步探究解決網(wǎng)絡(luò)暴力以及網(wǎng)絡(luò)不文明現(xiàn)象的有效手段。

2.2 樣本的概況及分布

本次研究在上海立信會計金融學院等學校共發(fā)放150 份紙質(zhì)調(diào)查問卷，有效問卷112 份。在性別比例上，參與調(diào)查的男生占20%，女生占80%。其中大一學生為本次研究著重調(diào)查的對象，占據(jù)80%。另外還有14.67%的大二學生，2.67%的大三學生和1.33%的大四學生參與了調(diào)查。

2.3 理論綜述

當下，大學生是使用網(wǎng)絡(luò)最頻繁、耗時最多的社會群體之一。根據(jù)數(shù)據(jù)統(tǒng)計，62.67%的大學生平均每天會花費4 個小時以上的時間在網(wǎng)絡(luò)上，而在其中，有68%的大學生會把大部分時間花在社交媒體上，可見網(wǎng)上交流是大部分大學生必不可少的社交手段，如今常用的社交媒體包括在全國甚至全球關(guān)于娛樂休閑生活信息分享交流的平臺。通過數(shù)據(jù)顯示，82.67%和80%的大學生把微信和QQ 作為常用的社交軟件。此外，還有44%、10.67%和5.33%的大學生分別把微博、貼吧和直播網(wǎng)站這樣具有互動性、透明性、公開性的網(wǎng)上交流平臺作為常用的社交軟件。其中的互動性就體現(xiàn)在媒體會為那些看到信息的人提供自由評論的區(qū)域，讓他們發(fā)表看法，這樣的設(shè)計讓互不相識的人通過網(wǎng)絡(luò)建立起了聯(lián)系，為網(wǎng)上沖浪增添了許多樂趣。

但是人們對待同一事物的看法不可能完全相同，有時候針對某個觀點難免會起紛爭。通過問卷調(diào)查的數(shù)據(jù)，41.34%的大學生無法做到在閱讀完信息后理性地判斷內(nèi)容的真實性再轉(zhuǎn)發(fā)評論，從而導致某些不慎或者過激的言論成為擾亂網(wǎng)絡(luò)秩序的源頭，網(wǎng)絡(luò)暴力也由此而生。

據(jù)調(diào)查，超過四分之一的大學生遭受過網(wǎng)絡(luò)暴力，其中有17.33%的大學生以個人行為代替報警或舉報維權(quán)進行回擊，而9.33%的大學生只選擇默默忍受或不予理睬?？梢妼τ诰W(wǎng)絡(luò)暴力的迫害，不是所有的大學生都能采用正確的渠道合理地進行解決。有專家指出，網(wǎng)絡(luò)暴力會帶來道德綁架、輿論嘲諷、虛假信息和侵犯隱私四種危害。如果沒有有效的手段來治理網(wǎng)絡(luò)暴力，勢必會對大學生乃至所有網(wǎng)民產(chǎn)生嚴重的影響。

為了營造和諧的網(wǎng)上交流環(huán)境，相關(guān)的平臺為用戶設(shè)置了舉報系統(tǒng)。當讀者瀏覽到垃圾營銷、涉黃信息、人身攻擊、有害信息以及違法信息時，可以按類型向平臺進行投訴，平臺的工作人員也會馬上進行反饋。

針對這一點，我們小組設(shè)計了相關(guān)問題來調(diào)查大學生是否能有效利用此類舉報系統(tǒng)。

經(jīng)數(shù)據(jù)統(tǒng)計，面對不良信息只有45.33%的大學生能夠理性地舉報所有他們認為的不良信息，多數(shù)大學生只是看心情舉報，少數(shù)則是不予理睬或是湊個熱鬧，這表明只有一半不到的大學生能有效利用平臺設(shè)置的舉報系統(tǒng)。大部分的大學生理應(yīng)具備識別網(wǎng)絡(luò)暴力的能力，但為什么這類系統(tǒng)不能被大學生完全利用到位？提出疑問后，我們緊接著就大學生面對網(wǎng)絡(luò)暴力所持有的態(tài)度展開調(diào)查。

根據(jù)數(shù)據(jù)顯示，超過四分之一的大學生面對網(wǎng)絡(luò)暴力表示無所謂、看熱鬧或是低估了網(wǎng)絡(luò)暴力帶來的傷害。由此可見，從用戶角度來說，平臺設(shè)置的舉報系統(tǒng)一定程度上可以懲治發(fā)表不良言論的人，但還有一大批未能被舉報的用戶成為漏網(wǎng)之魚，同時，仍有一部分人因為對待網(wǎng)絡(luò)暴力的態(tài)度不同而未能及時制止使得事態(tài)惡化；從平臺自身來說，舉報系統(tǒng)的不完善同樣會讓部分用戶利用平臺的漏洞，不斷散播不良信息，這兩點讓網(wǎng)絡(luò)暴力的問題無法得到有效的根治。

所以，為了打造更加文明的網(wǎng)絡(luò)環(huán)境，我們小組決定從用戶發(fā)布信息的源頭探究在信息發(fā)布欄里加入文本分析的技術(shù)，通過文本預處理、建立語料庫、不文明用語庫等方式，使用相似性比較、聚類分析等文本挖掘技術(shù)，對評論者發(fā)表的留言、評論進行識別，提取文本特征，計算其與不文明用語語料的相似性。從而能夠相對快速、準確地對用戶留言進行及時的處理，識別其中的不文明用語并通過限制發(fā)文、信用打分等方式對留言者進行標識和評價，從而起到一定的警告作用。

3 項目方案

3.1 項目的主要問題

3.1.1 評論數(shù)據(jù)的收集以及數(shù)據(jù)的處理

我們需要大量的數(shù)據(jù)建立屏蔽詞的語料庫與是否屏蔽的數(shù)據(jù)庫，首先要解決的是如何獲取大量真實可靠的清潔數(shù)據(jù)，而數(shù)據(jù)的處理方式需要運用大量實踐去建立初步模型決定采用的預處理方式，是本次項目的重難點，需要我們運用數(shù)據(jù)科學知識找到最有效的途徑。

3.1.2 建立文明用語的語料庫

為了實現(xiàn)屏蔽機制，我們需要將網(wǎng)絡(luò)上的各種語言分類為文明用語、不文明用語和侮辱性用語。因為數(shù)據(jù)較為龐大且存在大量的俚語、隱晦語、網(wǎng)絡(luò)用語、符號等，如果要全面準確地識別隱藏其中的不文明用語，需要合適的文本分析挖掘方法。

3.1.3 網(wǎng)絡(luò)環(huán)境維護方案優(yōu)化策略

在識別了是否需要屏蔽數(shù)據(jù)之后，我們需要采取一種相對合適的方式來優(yōu)化，例如直接屏蔽、將屏蔽部分的不文明用語替換成文明用語，并對用戶進行警告，設(shè)置一定限度的禁言措施。但過度的警告措施會引起用戶反感，所以需要大量數(shù)據(jù)來確定措施的力度對用戶的影響，在維護網(wǎng)絡(luò)環(huán)境的同時最大程度地保證用戶對平臺的駐留。

3.2 擬解決途徑

3.2.1 數(shù)據(jù)的采集

我們準備選取當下在大學生中較熱門的網(wǎng)站，比如微博、易班，在這些以評論作為主要交流方式的平臺上可以更簡單地獲取信息，且網(wǎng)站中較大的流量可以獲得更龐大的數(shù)據(jù)，為之后建立數(shù)據(jù)庫和處理數(shù)據(jù)打下基礎(chǔ)。運用爬蟲作為搜集數(shù)據(jù)的工具可以快速準確地搜集到大量數(shù)據(jù)，減少人工搜集的難度。

3.2.2 數(shù)據(jù)預處理

首先對于被爬取的數(shù)據(jù)需要過濾污染數(shù)據(jù)，去除重復數(shù)據(jù)，并去除無關(guān)消息，得到較為干凈的數(shù)據(jù)。中文語料數(shù)據(jù)大多為短文本或長文本。通過jieba 和HanLP 等較為簡單的中文分詞器與詞性注解的方式將較為長的文本分為我們需要的詞，運用去停止詞、特征提取、TF-IDF 權(quán)值計算等方式，將文本留言轉(zhuǎn)化成數(shù)據(jù)向量，使用文本相似性計算，Logistic回歸分析等分析方法，將其與留言特征語料庫中的樣本數(shù)據(jù)進行比較分析，從而識別出不文明用語。[2-3]基于Python的內(nèi)環(huán)境，可以運用現(xiàn)階段我們在Python 上的學習經(jīng)驗。

3.2.3 文明語料庫的建立

我們初步采用人工采集與數(shù)據(jù)分類的方式建立文明語料庫，采集了約500+的屏蔽詞。并使用線上問卷的形式向大學生群體征集希望被屏蔽的語料，通過數(shù)據(jù)查重的形式，將重復數(shù)據(jù)清除。

3.2.4 網(wǎng)絡(luò)環(huán)境的維護以及優(yōu)化方案

參考我們小組曾經(jīng)參與的“關(guān)于大學生網(wǎng)絡(luò)道德問題調(diào)查問卷”，將問卷面向的對象擴展為群眾，了解不同年齡段人群對于不文明用語及當下由網(wǎng)絡(luò)不文明現(xiàn)象引發(fā)的社會熱點的印象和看法，在此基礎(chǔ)上增加受訪者對于各類不文明用語的的容忍度與希望懲處的力度。在數(shù)據(jù)庫建立之后接受使用者增加新出現(xiàn)屏蔽詞，提高數(shù)據(jù)庫維護的效率，使之更人性化地維護網(wǎng)絡(luò)環(huán)境。除此之外我們希望可以通過詞意解析的方式，將屏蔽詞去除并替換成文明用語表達原有的意思。

4 項目特色與創(chuàng)新點

此項目是基于時下網(wǎng)絡(luò)暴力造成的抑郁癥和自殺的已成為熱點話題的案例，針對網(wǎng)絡(luò)環(huán)境凈化熱點問題采取的解決措施。進入新世紀以來，互聯(lián)網(wǎng)帶給我們的生活和工作上的改變是以肉眼可見的速度持續(xù)增加的，由于互聯(lián)網(wǎng)的介入，工作效率越來越高、生活的便利性越來越大，但隨之而來的是互聯(lián)網(wǎng)不斷發(fā)展之下網(wǎng)絡(luò)環(huán)境的有待改善。隨著網(wǎng)絡(luò)用戶不斷增多，網(wǎng)絡(luò)上的不文明行為也逐漸增加，由此而導致的網(wǎng)絡(luò)暴力事件也屢見不鮮，希望能通過此項目阻止此類行為的發(fā)生，打造一個更文明的網(wǎng)絡(luò)交流環(huán)境。

對大數(shù)據(jù)進行科學研究，建立文明用語語料庫，活用專業(yè)技術(shù)。建立文明用語語料庫，針對大學生這個特殊群體，體現(xiàn)該年齡層用語特色，隨時更新導入網(wǎng)絡(luò)流行用語和游戲用語，從詞匯、短句應(yīng)用，語言習慣，措辭方面便捷有效地阻止不文明用語的出現(xiàn)，并給出一定的預警和管理措施。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡