摘要:在信息技術(shù)不斷創(chuàng)新的今天,互聯(lián)網(wǎng)已成為人們?nèi)粘I钆c工作生產(chǎn)的必備要素,尤其是在社交網(wǎng)絡(luò)快速發(fā)展的背景下,社交網(wǎng)絡(luò)越來(lái)越廣,為人們言語(yǔ)交流提供了良好的網(wǎng)絡(luò)平臺(tái),為言語(yǔ)交際提供了更多的便利。就社交網(wǎng)絡(luò)分析來(lái)看,為準(zhǔn)確提取社交網(wǎng)絡(luò)中的語(yǔ)言,解決中文字詞不準(zhǔn)確及數(shù)據(jù)非結(jié)構(gòu)化等問(wèn)題,本文研究以人工智能技術(shù)應(yīng)用為背景,分析自動(dòng)語(yǔ)言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的應(yīng)用,為社交網(wǎng)絡(luò)中字詞校對(duì)、語(yǔ)法查錯(cuò)、語(yǔ)義校對(duì)及文本校對(duì)提供依據(jù),以此來(lái)豐富有關(guān)社交網(wǎng)絡(luò)語(yǔ)言處理的研究理論。
關(guān)鍵詞:人工智能;自動(dòng)語(yǔ)言處理系統(tǒng);社交網(wǎng)絡(luò)分析
引言
社交網(wǎng)絡(luò)中匯聚了各種各樣的語(yǔ)言信息,代表了不同人群的思想觀點(diǎn),這些語(yǔ)言具備一定的傳播性與影響性,尤其是不利社會(huì)和諧發(fā)展的負(fù)面語(yǔ)言,或有傷害性的網(wǎng)絡(luò)暴力語(yǔ)言,會(huì)對(duì)網(wǎng)絡(luò)輿論環(huán)境造成影響。對(duì)此,為維護(hù)和諧、穩(wěn)定的網(wǎng)絡(luò)環(huán)境,構(gòu)建健康的社交網(wǎng)絡(luò)語(yǔ)言秩序,為社交網(wǎng)絡(luò)健康發(fā)展提供保障,在社交網(wǎng)絡(luò)語(yǔ)言處理中,提倡運(yùn)用人工智能的自動(dòng)語(yǔ)言處理系統(tǒng),依靠科學(xué)技術(shù)處理的方式來(lái)對(duì)不符合社交網(wǎng)絡(luò)發(fā)展的負(fù)面語(yǔ)言進(jìn)行校對(duì)。本研究結(jié)合國(guó)內(nèi)外文獻(xiàn)資料,基于前人提出的研究成果,借鑒過(guò)往研究提出的思路來(lái)分析自動(dòng)語(yǔ)言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的應(yīng)用,探究自動(dòng)語(yǔ)言處理系統(tǒng)應(yīng)用的價(jià)值與意義,從而為社交網(wǎng)絡(luò)長(zhǎng)效發(fā)展提供依據(jù)。
1. 自動(dòng)語(yǔ)言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的字詞校對(duì)
1.1 構(gòu)建語(yǔ)料庫(kù)
為實(shí)現(xiàn)對(duì)社交網(wǎng)絡(luò)語(yǔ)言字詞的準(zhǔn)確校對(duì),自動(dòng)語(yǔ)言處理系統(tǒng)可通過(guò)對(duì)社交網(wǎng)絡(luò)中已發(fā)布的文章、文案等進(jìn)行字詞核查,對(duì)相鄰字、相鄰詞及字詞進(jìn)行校對(duì),自動(dòng)檢測(cè)當(dāng)中錯(cuò)誤的字詞。研究以微博平臺(tái)2022年某營(yíng)銷號(hào)發(fā)布的文章為例,字?jǐn)?shù)共有326萬(wàn)字,運(yùn)用自動(dòng)語(yǔ)言處理系統(tǒng)構(gòu)建容量為20.5MB的語(yǔ)料庫(kù)。依托人工智能、大數(shù)據(jù)、云計(jì)算等先進(jìn)技術(shù)分類整合相關(guān)數(shù)據(jù),利用人工智能的特性,根據(jù)人們文章寫作的用詞習(xí)慣對(duì)語(yǔ)料庫(kù)內(nèi)容進(jìn)行更新,為社交網(wǎng)絡(luò)中字詞校對(duì)提供保障。
1.2 查錯(cuò)接續(xù)關(guān)系
在語(yǔ)言處理中,字詞存在二元接續(xù)關(guān)系,要想有效過(guò)濾社交網(wǎng)絡(luò)中不合規(guī)的語(yǔ)言,在字詞校對(duì)上還需結(jié)合字詞間的接續(xù)關(guān)系進(jìn)行查錯(cuò)處理,重點(diǎn)對(duì)字串相鄰的字詞關(guān)系進(jìn)行校對(duì)。比如字串為S1S2…Si-1SiSi+1…Sn,自動(dòng)語(yǔ)言處理系統(tǒng)在判斷S和鄰近字詞關(guān)系時(shí),可結(jié)合語(yǔ)言學(xué)二元模型理論,對(duì)Si-1與Si的關(guān)系、Si和Si+1的關(guān)系進(jìn)行查錯(cuò)處理?;谇拔臉?gòu)建的語(yǔ)料庫(kù),提出Si-1至Si轉(zhuǎn)移率為P(Si/Si-1)的假設(shè),若P達(dá)到一定閾值,可確定Si與Si-1為二元接續(xù)關(guān)系。自動(dòng)語(yǔ)言處理系統(tǒng)的應(yīng)用可準(zhǔn)確認(rèn)定Si是否出錯(cuò),首先要確定Si-1和Si的接續(xù)關(guān)系,若為接續(xù),則確定Si無(wú)錯(cuò)誤,查錯(cuò)結(jié)果符合相關(guān)標(biāo)準(zhǔn);若為不接續(xù),就要還確定Si和Si+1的接續(xù)關(guān)系,若結(jié)果仍為不接續(xù),就可確定為Si錯(cuò)誤。
2. 自動(dòng)語(yǔ)言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的查錯(cuò)算法
基于社交網(wǎng)絡(luò)語(yǔ)言快速傳播的特點(diǎn),媒體營(yíng)銷號(hào)在微博平臺(tái)上發(fā)表的文章會(huì)快速發(fā)酵,且傳播范圍極廣,若存在語(yǔ)法錯(cuò)誤,就會(huì)產(chǎn)生負(fù)面輿論,從而影響營(yíng)銷號(hào)的運(yùn)營(yíng)。對(duì)此,應(yīng)用自動(dòng)語(yǔ)言處理系統(tǒng)的查錯(cuò)算法能夠?qū)ι缃痪W(wǎng)絡(luò)中的語(yǔ)言語(yǔ)法進(jìn)行分析與處理。以社交網(wǎng)絡(luò)語(yǔ)言的規(guī)則庫(kù)為基準(zhǔn),對(duì)語(yǔ)言的結(jié)構(gòu)進(jìn)行識(shí)別,明確劃分語(yǔ)言的主謂賓結(jié)構(gòu),并以由下到上的處理方式來(lái)分別對(duì)語(yǔ)句結(jié)構(gòu)進(jìn)行校對(duì),檢測(cè)是否存在語(yǔ)法錯(cuò)誤的問(wèn)題[1]。從自動(dòng)語(yǔ)言處理系統(tǒng)語(yǔ)法查錯(cuò)的過(guò)程來(lái)看,要先對(duì)句子進(jìn)行預(yù)處理,使短句串聯(lián)與捆綁,為語(yǔ)句的精準(zhǔn)處理提供依據(jù),確保查錯(cuò)算法在識(shí)別語(yǔ)法錯(cuò)誤問(wèn)題上,結(jié)果更加準(zhǔn)確。比如對(duì)謂語(yǔ)語(yǔ)法的校對(duì),查錯(cuò)算法的運(yùn)用如下:
input語(yǔ)句:P=Q1…Qi…Qn
For i=1 to n do
if(詞Qi不在語(yǔ)片中)
{結(jié)合規(guī)則庫(kù)確定Qi能否充當(dāng)謂語(yǔ);}
if(Qi可充當(dāng)謂語(yǔ))
{添加謂語(yǔ)鏈Prdelink;
for (w=Predlink->firstword to Predlink->lasword)
if(Predlink->num=1)代表P謂語(yǔ)成分正確;
if(Predlink->num=0)代表P謂語(yǔ)缺失;}
3. 自動(dòng)語(yǔ)言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的語(yǔ)義校對(duì)
3.1 構(gòu)建依存關(guān)系
在社交網(wǎng)絡(luò)分析中的語(yǔ)義校對(duì)中,自動(dòng)語(yǔ)言處理系統(tǒng)的應(yīng)用能夠以實(shí)例語(yǔ)義查錯(cuò)為基礎(chǔ),研判語(yǔ)句語(yǔ)義是否正確,分析語(yǔ)句結(jié)構(gòu),并通過(guò)采集網(wǎng)絡(luò)系統(tǒng)中相關(guān)語(yǔ)句案例,通過(guò)建立集合n,對(duì)集合n中所有的語(yǔ)句實(shí)例和未校對(duì)語(yǔ)句相似度進(jìn)行計(jì)算,從中選取相似度較高的實(shí)例i。比較i和未校對(duì)的語(yǔ)句,從中獲取語(yǔ)義校對(duì)的查錯(cuò)結(jié)果。從校對(duì)操作來(lái)看,自動(dòng)語(yǔ)言處理系統(tǒng)整個(gè)運(yùn)作的過(guò)程雖簡(jiǎn)便,但考慮到集合n中存有較多實(shí)例,在計(jì)算語(yǔ)義相似度方面,需要處理的語(yǔ)句較多,會(huì)使工作量增加,延長(zhǎng)了語(yǔ)義相似度計(jì)算的時(shí)間。對(duì)此,為充分發(fā)揮自動(dòng)語(yǔ)言處理系統(tǒng)在社交網(wǎng)絡(luò)語(yǔ)義校對(duì)中準(zhǔn)確判斷的效能,通過(guò)構(gòu)建依存關(guān)系,能夠以語(yǔ)義依存語(yǔ)法的形式來(lái)對(duì)字詞句進(jìn)行準(zhǔn)確判斷,依托字詞句之間良好的依存關(guān)系來(lái)確定語(yǔ)句的語(yǔ)義特征,為語(yǔ)句相似度計(jì)算的準(zhǔn)確性提供保障[2]。
3.2 語(yǔ)句相似度計(jì)算
為實(shí)現(xiàn)精準(zhǔn)高效的語(yǔ)義查錯(cuò),自動(dòng)語(yǔ)言處理系統(tǒng)在語(yǔ)義校對(duì)中,要通過(guò)對(duì)語(yǔ)句相似度的計(jì)算來(lái)確保語(yǔ)義準(zhǔn)確無(wú)誤[3]。在語(yǔ)句相似度的計(jì)算中,要從字詞句有效搭配相似度的角度進(jìn)行考慮,須抓住每一個(gè)語(yǔ)句的核心詞和語(yǔ)句中依存的有效字詞。從語(yǔ)句結(jié)構(gòu)來(lái)看,有效詞可看作形容詞、名詞及動(dòng)詞等類型,此類詞組能夠準(zhǔn)確表達(dá)出一段語(yǔ)句的語(yǔ)義,對(duì)這些詞組的相似度進(jìn)行計(jì)算是社交網(wǎng)絡(luò)語(yǔ)言中語(yǔ)義查誤的重點(diǎn)[4]。例句:事發(fā)后,傷員被及時(shí)送往就近醫(yī)院救治。這句話中的關(guān)鍵詞為“送往”,其搭配的字詞可表現(xiàn)為送往-傷員、送往-醫(yī)院及送往-救治等,通過(guò)對(duì)關(guān)鍵詞和有效詞相似程度的計(jì)算,不僅簡(jiǎn)化了傳統(tǒng)語(yǔ)句相似度計(jì)算繁雜的工作量,在省略多個(gè)計(jì)算過(guò)程后,還能保障語(yǔ)句相似度計(jì)算結(jié)果的準(zhǔn)確性,這便是語(yǔ)義校對(duì)中應(yīng)用自動(dòng)語(yǔ)言處理系統(tǒng)的價(jià)值與意義。文中公式(1)為語(yǔ)句相似度計(jì)算公式:
(1)
基于上述式子來(lái)看,SIM(Sen1, Sen2)是語(yǔ)句相似度,代表了語(yǔ)句字詞有效搭配對(duì)匹配的總權(quán)重,PairCount1與PairCount2則為語(yǔ)句有效搭配數(shù),不同情況下的權(quán)重設(shè)計(jì)見表1。
Word1為語(yǔ)句1,Word1為語(yǔ)句1的相似語(yǔ)句;Word2為語(yǔ)句2,Word2為語(yǔ)句2的相似語(yǔ)句。在多種例句相似度計(jì)算情況下,對(duì)比未校對(duì)語(yǔ)句和相似度最高語(yǔ)句,由此來(lái)對(duì)語(yǔ)句語(yǔ)義正誤進(jìn)行判斷,完成語(yǔ)義校對(duì)。
4. 自動(dòng)語(yǔ)言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的文本校對(duì)
4.1 構(gòu)建易混淆詞典
文本的校對(duì)和字詞、語(yǔ)法、語(yǔ)義的校對(duì)有較大差異。應(yīng)用自動(dòng)語(yǔ)言處理系統(tǒng)對(duì)社交網(wǎng)絡(luò)文本校對(duì),分別有糾錯(cuò)與查錯(cuò)兩種校對(duì)方式,前者是通過(guò)檢測(cè)出文本的錯(cuò)誤,根據(jù)錯(cuò)誤的內(nèi)容提出對(duì)應(yīng)措施進(jìn)行糾正,基于中文文本的常見錯(cuò)誤,自動(dòng)提取錯(cuò)誤特征,收集相關(guān)詞典內(nèi)容,從而為系統(tǒng)自動(dòng)識(shí)別錯(cuò)誤用詞提供參考;后者則為文本錯(cuò)誤內(nèi)容的提取,通過(guò)指明文本的錯(cuò)誤點(diǎn)和特征,以供文本錯(cuò)誤內(nèi)容的修改進(jìn)行參考[5]。易混淆詞典的構(gòu)建要依托糾錯(cuò)的校對(duì)方式,混淆詞典的內(nèi)容包含了文本錯(cuò)誤字詞與糾錯(cuò)建議,圖1為混淆詞典作業(yè)原理。
4.2 糾錯(cuò)算法編程
為凸顯自動(dòng)語(yǔ)言處理系統(tǒng)智能化、自動(dòng)化高效運(yùn)作與處理的效能,在校對(duì)社交網(wǎng)絡(luò)語(yǔ)言文本上,一般都以糾錯(cuò)的校對(duì)方式為主[6]。通過(guò)對(duì)文本字詞錯(cuò)誤的判斷,能夠根據(jù)不同的錯(cuò)誤特征提出針對(duì)性糾錯(cuò)建議,但針對(duì)文本校對(duì)中,未發(fā)現(xiàn)文本錯(cuò)誤的情況,就無(wú)法給出客觀合理的糾錯(cuò)建議。所以,在自動(dòng)語(yǔ)言處理系統(tǒng)的應(yīng)用中,還需進(jìn)行糾錯(cuò)算法編程處理,比如力矩我們認(rèn)為可以延長(zhǎng)時(shí)間[7]。將“可疑延長(zhǎng)”作為系統(tǒng)文本校對(duì)中判斷出的字詞錯(cuò)誤,設(shè)計(jì)糾錯(cuò)算法的編程如下:
string[ ]zc correct;//定義數(shù)組用作糾錯(cuò)建議緩沖區(qū)
inti=0;//糾錯(cuò)計(jì)數(shù)器為0
//x系統(tǒng)檢測(cè)的錯(cuò)誤字串
//易混淆詞典中提出糾錯(cuò)建議
for(intm=0;m<=errmatchco rrect.leng th;m++)
//易混淆詞典中未找到糾錯(cuò)建議
if(i==0){
for(m=0;m<=zctx.length;m++)
if(e.gerErrword()==zctxcorrect[m].getErrword())
//字詞同現(xiàn)概率表
Zccorrect[i]=zctxcorrect[m].getCorrect();}
5. 自動(dòng)語(yǔ)言處理系統(tǒng)的搭建與實(shí)驗(yàn)
5.1 文本自動(dòng)校對(duì)的流程
為實(shí)現(xiàn)對(duì)社交網(wǎng)絡(luò)語(yǔ)言文本的準(zhǔn)確校對(duì),選用的自動(dòng)語(yǔ)言處理系統(tǒng),要具備查錯(cuò)、預(yù)處理及校對(duì)糾錯(cuò)等模塊功能,系統(tǒng)功能實(shí)現(xiàn)流程如下:(1)輸入與打開文本,以正向的順序讀入單句,預(yù)處理文本結(jié)構(gòu)和內(nèi)容,并通過(guò)雙向模式匹配處理,根據(jù)事先構(gòu)建的詞庫(kù),對(duì)文本結(jié)構(gòu)進(jìn)行識(shí)別,明確字詞句的詞性;(2)構(gòu)造字頻向量與二元詞性同現(xiàn)頻率表,創(chuàng)建完善的文本查錯(cuò)知識(shí)庫(kù)?;谙到y(tǒng)查錯(cuò)、糾錯(cuò)的模塊,對(duì)文本字詞進(jìn)行識(shí)別與查誤,判斷文本字詞是否存在連接方式與連接順序的錯(cuò)誤,并判斷語(yǔ)句結(jié)構(gòu)是否完整,語(yǔ)法和語(yǔ)義的表達(dá)是否正確;(3)利用易混淆詞典,準(zhǔn)確定位自動(dòng)語(yǔ)言處理系統(tǒng)查詢中得出的錯(cuò)誤內(nèi)容,提出相應(yīng)的糾錯(cuò)建議,進(jìn)行糾錯(cuò)處理;(4)在完成糾錯(cuò)處理后,要執(zhí)行判斷程序文本處理是否結(jié)束。當(dāng)完成處理后,則流程解鎖;若未完成處理,系統(tǒng)將自動(dòng)跳轉(zhuǎn)至步驟(1),反復(fù)處理指導(dǎo)文本處理無(wú)誤,完成整個(gè)文本自動(dòng)校對(duì)的程序。
5.2 實(shí)驗(yàn)內(nèi)容
選取微博平臺(tái)某營(yíng)銷號(hào)發(fā)布的136篇文章進(jìn)行實(shí)驗(yàn)分析,從中挑選出230個(gè)正確句子與200個(gè)錯(cuò)誤句子,其中60個(gè)有字詞級(jí)錯(cuò)誤,100個(gè)有語(yǔ)法級(jí)錯(cuò)誤,40個(gè)有語(yǔ)義級(jí)錯(cuò)誤。病句舉例如下:
(1)他是本地一家知名企業(yè)的總載。(“載”應(yīng)為“裁”,屬于字詞級(jí)錯(cuò)誤);(2)本縣蘋果的品種非常多,這里無(wú)法一一例舉。(“例舉”應(yīng)為“列舉”,屬于語(yǔ)義級(jí)錯(cuò)誤);(3)巴西總理授予法院獲得簽發(fā)“禁止未成年人進(jìn)入酒吧證”的權(quán)力。(應(yīng)刪除“獲得”,屬于語(yǔ)法級(jí)錯(cuò)誤)。
實(shí)驗(yàn)引入以下參數(shù):(1)召回率=正確發(fā)現(xiàn)句子數(shù)/實(shí)際錯(cuò)誤句子數(shù)×100%;(2)誤報(bào)率=(發(fā)現(xiàn)錯(cuò)誤句子數(shù)-正確發(fā)現(xiàn)句子數(shù))/發(fā)現(xiàn)錯(cuò)誤句子數(shù)×100%;(3)準(zhǔn)確率=1-誤報(bào)率。
實(shí)驗(yàn)結(jié)果見表2。
利用自動(dòng)語(yǔ)言處理系統(tǒng)校對(duì)社交網(wǎng)絡(luò)語(yǔ)言的文本,發(fā)現(xiàn)召回率與準(zhǔn)確率較高,基本在60%以上,在語(yǔ)法錯(cuò)誤句子的判斷中,召回率與準(zhǔn)確率較理想,分別為81%和84.4%。
結(jié)語(yǔ)
基于上述研究分析可以看出,社交網(wǎng)絡(luò)在蓬勃發(fā)展的背景下,網(wǎng)絡(luò)體系中傳播的語(yǔ)音信息還需從語(yǔ)言結(jié)構(gòu)、字詞準(zhǔn)確性、語(yǔ)法正誤、語(yǔ)義正誤及文本正誤等方面進(jìn)行充分考慮。為利用社交網(wǎng)絡(luò)來(lái)傳播符合社會(huì)主義核心價(jià)值觀的語(yǔ)言信息,應(yīng)用人工智能的自動(dòng)語(yǔ)言處理系統(tǒng),能夠以科學(xué)化處理的方式準(zhǔn)確判斷社交網(wǎng)絡(luò)中各類賬戶在文章發(fā)表中語(yǔ)言的準(zhǔn)確性,有效過(guò)濾一些不符合社交網(wǎng)絡(luò)語(yǔ)言規(guī)則庫(kù)的違規(guī)語(yǔ)言,及時(shí)糾正在字詞、語(yǔ)法、語(yǔ)義等方面的錯(cuò)誤,以完善的語(yǔ)料庫(kù)來(lái)優(yōu)化語(yǔ)言規(guī)律,為語(yǔ)言自動(dòng)處理系統(tǒng)在社交網(wǎng)絡(luò)中的應(yīng)用與推廣提供依據(jù)。同時(shí),社交網(wǎng)絡(luò)還能依托自動(dòng)語(yǔ)言處理系統(tǒng),減少網(wǎng)絡(luò)暴力語(yǔ)言的產(chǎn)生,維護(hù)和諧、穩(wěn)定的網(wǎng)絡(luò)語(yǔ)言秩序,構(gòu)建良好的網(wǎng)絡(luò)語(yǔ)言環(huán)境,從而為社交網(wǎng)絡(luò)的健康發(fā)展提供保障。
參考文獻(xiàn):
[1]張洪忠,王競(jìng)一.社交機(jī)器人參與社交網(wǎng)絡(luò)輿論建構(gòu)的策略分析——基于機(jī)器行為學(xué)的研究視角[J].新聞與寫作,2023, (2):35-42.
[2]薛飛.人工智能在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用研究[J].現(xiàn)代雷達(dá),2022,44 (12):125-127.
[3]古天龍,郝峰銳,李龍,等.社交網(wǎng)絡(luò)中負(fù)責(zé)隱私協(xié)商的智能體行為追責(zé)[J].軟件學(xué)報(bào),2022,33(9):3453-3469.
[4]李小偉,舒輝,光焱,等.自然語(yǔ)言處理在簡(jiǎn)歷分析中的應(yīng)用研究綜述[J].計(jì)算機(jī)科學(xué),2022,49(S1):66-73.
[5]Girish K,Pushpavathi M,Abraham A,et al.Automatic speech processing softwareNew sensitive tool for the assessment of nasality:A preliminary study[J].Journal of Cleft Lip Palate and Craniofacial Anomalies,2022,9(1):62-88.
[6]郭九霞.基于自然語(yǔ)言處理的空管系統(tǒng)危險(xiǎn)源文本分類方法研究[J].安全與環(huán)境學(xué)報(bào),2022,22(2):819-825.
[7]張志勇,荊軍昌,李斐,等.人工智能視角下的在線社交網(wǎng)絡(luò)虛假信息檢測(cè)、傳播與控制研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2021,44(11):2261-2282.
作者簡(jiǎn)介:陸苗,博士研究生,講師,研究方向:人工智能。