長江大學(xué)計(jì)算機(jī)與科學(xué)學(xué)院 曾仔健 趙 鳴
在大數(shù)據(jù)背景下,文本分析的重要性變得越來越高,而文本分類作為自然語言處理中的關(guān)鍵環(huán)節(jié),同樣得到了眾多專家學(xué)者的重視。在文本分類過程中,神經(jīng)網(wǎng)絡(luò)技術(shù)的所帶來的效果極為突出,因此也成為了專家學(xué)者的重點(diǎn)研究方向。本文通過對神經(jīng)網(wǎng)絡(luò)進(jìn)行分析,并結(jié)合實(shí)際針對以神經(jīng)網(wǎng)絡(luò)為核心的文本分類方法提出個(gè)人觀點(diǎn),希望為關(guān)注基于神經(jīng)網(wǎng)絡(luò)文本分類的人群提供幫助。
在科學(xué)技術(shù)的不斷發(fā)展過程中,大數(shù)據(jù)為各行各業(yè)提供了更多發(fā)展契機(jī)。文本分析作為提高大數(shù)據(jù)理解能力的關(guān)鍵手段,其重要性毋庸置疑。在開展文本分類工作時(shí),結(jié)合人工神經(jīng)網(wǎng)絡(luò)能夠快速掌握文本特征,從而提高文本分類質(zhì)量。因此,有必要對基于神經(jīng)網(wǎng)絡(luò)的文本分類方法進(jìn)行研究。
在大數(shù)據(jù)的作用下,網(wǎng)絡(luò)中數(shù)據(jù)信息將會逐漸變得越來越多,而且數(shù)量龐大的網(wǎng)民群體也會每天形成大量數(shù)據(jù)信息。互聯(lián)網(wǎng)中的數(shù)據(jù)信息包括文本、聲音、圖像等多種數(shù)據(jù)類型,而在各種數(shù)據(jù)信息中,文本數(shù)據(jù)其數(shù)量占比最為龐大,所以必須找出合理利用文本數(shù)據(jù)的方式,以此來讓文本數(shù)據(jù)發(fā)揮出其自身應(yīng)有的價(jià)值。人工神經(jīng)網(wǎng)絡(luò)可以在使用期間從信息處理角度出發(fā),并完成簡單模型的構(gòu)建,而且還能夠通過不同的連接方式來形成各不相同的網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)自上世紀(jì)四十年代出現(xiàn)后,便得到了學(xué)界的普遍關(guān)注,經(jīng)過幾十年的演變后,在很多行業(yè)領(lǐng)域中得到了廣泛的應(yīng)用。在面對海量文本數(shù)據(jù)的分析工作時(shí),人工神經(jīng)網(wǎng)絡(luò)能夠發(fā)揮出非常重要的作用。其中文本分類屬于對文本數(shù)據(jù)內(nèi)容的合理劃分,能夠提高文本數(shù)據(jù)的分析、使用效果。
文本分類屬于自然語言處理過程中需要面對的一個(gè)經(jīng)典問題,屬于文本分析期間的常見問題。在面對文本分類問題時(shí),需要考慮文檔應(yīng)該歸納為預(yù)先定義的哪些類別中。通常情況下,文本分類屬于文本數(shù)據(jù)處理期間的一項(xiàng)關(guān)鍵技術(shù),可以幫助用戶完成數(shù)據(jù)文本的組織,并完成文本信息的合理挖掘,從而讓用戶能夠更加清晰地完成數(shù)據(jù)信息的有效定位。以在線社交網(wǎng)絡(luò)文本分類的需求為例,其主要類型如下:第一,基于內(nèi)容主題分類。通常文本內(nèi)容將會涉及到政治、體育、競技等層面,此時(shí)便可以結(jié)合對于內(nèi)容的需求來做出文本劃分,然后用戶再根據(jù)需求選擇不同分類的文本內(nèi)容進(jìn)行深化處理。在處理文本的過程中,同一篇文本有可能會涉及到多個(gè)領(lǐng)域之中的內(nèi)容,所以需要結(jié)合用戶需求類實(shí)現(xiàn)標(biāo)簽的分類。第二,基于情感分類。在面對社會中的各類熱點(diǎn)時(shí)事新聞時(shí),媒體與網(wǎng)民便可以在社交平臺中表達(dá)出自己的看法與觀點(diǎn),根據(jù)個(gè)人觀點(diǎn)以及看待事物態(tài)度的不同進(jìn)行文本分類,可以將文本劃分為積極、消極、中立等不同的類型,這部分文本的劃分類別相對較少,若有特殊需求則可以開展更為細(xì)致的劃分。
在開展文本分類之前,需要針對文本中的數(shù)據(jù)內(nèi)容開展數(shù)據(jù)預(yù)處理,其處理過程可以分為以下幾點(diǎn):第一,分詞處理。在文本處理過程中,需要將具有連續(xù)性的文字流劃分成為獨(dú)立詞匯,這種處理方式在面對英文時(shí)相對較為簡單,而在面對文字時(shí)則會變得更加復(fù)雜。分次處理的質(zhì)量將會影響到文本分類的最終效果。第二,刪除停止詞。通過將部分輔助用詞刪除,可以優(yōu)化分類效率,通??梢越Y(jié)合對應(yīng)表來刪除停止詞。第三,詞性標(biāo)注。利用詞性標(biāo)注能夠直觀表現(xiàn)出詞語性質(zhì)。第四,還原詞根。文本預(yù)處理工作能夠完成中文的詞根還原,而英文因?yàn)閱卧~形態(tài)將會發(fā)生改變,所以需要對詞根進(jìn)行還原。文本分類工作就是結(jié)合數(shù)據(jù)特征將不同的文本劃分到正確的類別中,所以其主要問題就是怎樣保證文本的快速劃分。隨著科學(xué)技術(shù)的不斷發(fā)展,人工神經(jīng)網(wǎng)絡(luò)技術(shù)已經(jīng)成為了優(yōu)化文本分類的主要方向。在文本分類過程中,評價(jià)其結(jié)果的指標(biāo)可以分為準(zhǔn)確率、召回率兩種,其中準(zhǔn)確率代表著文本分類的精度,能夠在檢索期間保證文本分類的查準(zhǔn)率。而召回率則指的是相關(guān)文本屬于與文本庫中文本的比率,能夠體現(xiàn)出文本查全率。
神經(jīng)網(wǎng)絡(luò)運(yùn)行時(shí)可以有效連接輸入、輸出神經(jīng)元,輸入神經(jīng)元可以代表文本類別,神經(jīng)元連接也具備對應(yīng)的權(quán)值。在訓(xùn)練過程中,可以通過正向傳播、反向修正等算法實(shí)現(xiàn)對于權(quán)值的調(diào)整修正,此時(shí)便可以讓文本結(jié)合調(diào)整后的權(quán)值進(jìn)行學(xué)習(xí),從而獲取神經(jīng)網(wǎng)絡(luò)模型。通過將類別位置的文本經(jīng)過網(wǎng)絡(luò)模型后,便可以獲取不一樣的輸出值,經(jīng)過比較之后便能夠明確文本類別。除此之外,通過神經(jīng)網(wǎng)絡(luò)還能夠結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)還獲取對應(yīng)的文本特征,避免出現(xiàn)繁雜的人工特征工程。
卷積神經(jīng)網(wǎng)絡(luò)是通過采用多層卷積運(yùn)算以及對每層輸出利用非線性激活函數(shù)進(jìn)行轉(zhuǎn)換。在運(yùn)行期間,神經(jīng)網(wǎng)絡(luò)可以將所有輸入神經(jīng)元與下層輸出神經(jīng)元相連,所以這種方式屬于全連接層。而且卷積神經(jīng)網(wǎng)絡(luò)還可以通過輸入層卷積結(jié)果來完成對于輸出的計(jì)算,這種計(jì)算方式則屬于局部連接,所有的局部輸入都會與輸出神經(jīng)元相連,并在不同層級中利用不容的濾波器。在通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類時(shí),應(yīng)該有效選擇尺寸固定的滑動窗口,然后通過濾波器來選擇特征,最后采用池化操作針對特征完成有效分類。在整個(gè)分類過程中,必須注意滑動窗口的大小選擇,若滑動窗口過小,就會導(dǎo)致無法完成大規(guī)模語句讀取,而滑動窗口過大則會使數(shù)據(jù)信息變得稀疏。為了能夠解決窗口尺寸所造成的影響,可以采用尺寸動態(tài)調(diào)整濾波器來完成文本信息的處理,經(jīng)過處理后的子句長度將會發(fā)生改變,此時(shí)便可以獲取多粒度短語特征。除此之外,詞向量將會對表示句子以及分類效果帶來影響,所以可以結(jié)合不同的詞向量方法來將其歸納成為不同的表示,從而獲取比單獨(dú)詞向量更加豐富的數(shù)據(jù)信息,提高文本分類質(zhì)量。
通常在一段文本內(nèi)容中,每個(gè)單詞都會與其他單詞相連,單詞便不會完全獨(dú)立存在與文本內(nèi)容中。文本中的語義以及單詞順序之間也存在一定關(guān)系。在利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類時(shí),就很難考慮到文本中的次序問題,所以有可能導(dǎo)致語義理解能力降低。時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)屬于針對序列數(shù)據(jù)進(jìn)行建模處理的神經(jīng)網(wǎng)絡(luò),序列在輸出時(shí),其不僅會與當(dāng)前輸入具有直接關(guān)系,還會與之前的輸出相關(guān)聯(lián)。帶有記憶功能的RNN能夠在運(yùn)行期間解決文本分類時(shí)出現(xiàn)的問題,而LSTM更是一種使用范圍足夠廣泛的神經(jīng)網(wǎng)絡(luò)。LSTM在運(yùn)行期間能夠針對序列信息進(jìn)行保存,其中后面信息的重要性更高,然后文本中的重要信息卻并不會全部出現(xiàn)在文本的后半部分。采用雙向LSTM時(shí),可以通過兩個(gè)方向來處理文本,此時(shí)便可以更為有效地處理單詞上下文中的數(shù)據(jù)信息。除此之外,經(jīng)過對LSTM進(jìn)行研究之后,還出現(xiàn)了門控循環(huán)單元等方式,因此這種文本處理方式得到了較為廣泛的應(yīng)用。
CNN在使用過程中可以通過最大池化層來完成重要單詞的判斷,但是在使用期間需要面對滑動窗口尺寸問題,而且CNN自身還缺少學(xué)習(xí)以及與順序有關(guān)的知識,而采用RNN則能夠按照順序來完成建模,但是卻難以通過并行的方式來獲取單詞特征,因此兩種神經(jīng)網(wǎng)絡(luò)的特點(diǎn)各不相同。有學(xué)者專門提出了RCNN模型,該模型在使用期間可以在學(xué)習(xí)語句表示期間采用RNN中的雙向循環(huán)獲取文本中的內(nèi)容信息,然后通過CNN中的池化層來完成特征作用判定,從而強(qiáng)化了文本處理能力。另外還可以使用C-LSTM模型,通過在無標(biāo)簽文本數(shù)據(jù)預(yù)訓(xùn)練獲取的詞向量中構(gòu)建CNN,來學(xué)習(xí)N-Gram中的高級表示,然后可以結(jié)合高層次語句表示來學(xué)習(xí)知識,此時(shí)便可以通過卷積特征窗口來組成有序的形式,通過將濾波器特征結(jié)合到儀器進(jìn)行依次排列,便可以成為LSTM的輸入。
通過結(jié)構(gòu)遞歸形成的網(wǎng)絡(luò)在自然語言處理中可以用作對語句進(jìn)行解析。每個(gè)單詞的語義可以作為特征,但是卻很難順利表示出長語句的含義。所以語義向量空間的組合性非常重要。通過構(gòu)建RNTN模型,可以完成對任意長度短語的輸入,然后把短語表示成為詞向量與解析數(shù),此時(shí)便可以利用張量組合函數(shù)來完成高層節(jié)點(diǎn)向量的計(jì)算。而DRNN模型則能夠完成多個(gè)遞歸層的堆積,并在每一層中加入處理機(jī)構(gòu),此時(shí)便可以在信息傳遞過程中,將處于結(jié)構(gòu)中的節(jié)點(diǎn)隱藏狀態(tài)傳遞至下一層級。這種方式能夠在分類句子時(shí)發(fā)揮出相對較好的效果,但是分類時(shí)同樣需要考慮文章的樹結(jié)構(gòu),而且因?yàn)闀r(shí)間復(fù)雜性高,所以并不適合在長語句中使用。
預(yù)訓(xùn)練中的詞向量能夠有效改善文本分類效果,但是仍然具有局限性,預(yù)訓(xùn)練只包含了模型一層中的先驗(yàn)知識,而剩余部分則需要重新進(jìn)行訓(xùn)練。ELMO模型便可以在實(shí)際使用中得到相對較為良好的效果。有學(xué)者提出了以雙向Transformer的模型BERT,這種方式則進(jìn)一步優(yōu)化了自然語言處理方式。所以預(yù)訓(xùn)練模型能夠在自然語言處理中發(fā)揮出非常好的效果。
結(jié)論:總而言之,以神經(jīng)網(wǎng)絡(luò)為核心的文本分類方式非常重要,能夠在龐大的數(shù)據(jù)信息中結(jié)合文本內(nèi)容、特征來完成文本分類,在保證文本分類質(zhì)量的同時(shí)提高文本分類效率,從而讓數(shù)據(jù)信息發(fā)揮出應(yīng)有的作用。相信隨著更多人了解到文本分類的重要性,基于神經(jīng)網(wǎng)絡(luò)的文本分類方法將會更加完善。