供稿|劉韞赫,呂凝,徐昊 /
作者單位:1. 河北樂亭第一中學(xué),河北 樂亭 063600;2. 北京科技大學(xué)自動(dòng)化學(xué)院,北京 100083
內(nèi)容導(dǎo)讀
作為人工智能領(lǐng)域的關(guān)鍵挑戰(zhàn)之一,盡管機(jī)器學(xué)習(xí)技術(shù)近10年來取得了顯著突破,但是自然語(yǔ)言處理任務(wù)依然是亟需攻克的研究熱點(diǎn)問題。文章介紹了自然語(yǔ)言處理領(lǐng)域的主要任務(wù),梳理了自然語(yǔ)言處理的主要方法和發(fā)展,重點(diǎn)分析了基于深度學(xué)習(xí)的自然語(yǔ)言處理方法。結(jié)合礦冶領(lǐng)域的知識(shí)庫(kù)構(gòu)建特點(diǎn),對(duì)自然語(yǔ)言處理技術(shù)在礦冶領(lǐng)域的應(yīng)用可行性進(jìn)行了分析和展望。以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)模型在處理復(fù)雜異構(gòu)的自然語(yǔ)言時(shí)表現(xiàn)出更為強(qiáng)大的能力,能夠更為精準(zhǔn)地挖掘知識(shí),有效完成信息抽取任務(wù)。自然語(yǔ)言處理技術(shù)服務(wù)于礦冶生產(chǎn),能夠協(xié)助領(lǐng)域?qū)<液脱芯咳藛T構(gòu)建更為全面、高效、準(zhǔn)確的知識(shí)庫(kù),同時(shí)實(shí)現(xiàn)更為智能的知識(shí)服務(wù)系統(tǒng)。
近十年是計(jì)算機(jī)技術(shù)、自動(dòng)化技術(shù)、人工智能技術(shù)取得突破性進(jìn)展的10年。為構(gòu)建通用、易用的人工智能體,自然語(yǔ)言處理是非常重要的任務(wù)。如何讓機(jī)器理解人類的語(yǔ)言,并能夠?qū)?fù)雜語(yǔ)言進(jìn)行分析和理解,是數(shù)十年來致力于人工智能領(lǐng)域研究的科學(xué)家們十分關(guān)注的問題。構(gòu)建人工智能體的宏偉目標(biāo)在于讓機(jī)器幫助人類進(jìn)行復(fù)雜而精準(zhǔn)的計(jì)算,并進(jìn)行決策。計(jì)算機(jī)的決策需要一定的人類知識(shí),而語(yǔ)言正是人類智慧和復(fù)雜知識(shí)的載體。有理由認(rèn)為,自然語(yǔ)言處理領(lǐng)域的進(jìn)展和突破,可以提高計(jì)算機(jī)的自學(xué)習(xí)能力,同時(shí)有效推動(dòng)我國(guó)智能制造、智慧制造的進(jìn)程。
自然語(yǔ)言處理包括語(yǔ)音識(shí)別和語(yǔ)義分析。語(yǔ)音識(shí)別的任務(wù)之一是將人類語(yǔ)音轉(zhuǎn)化為對(duì)應(yīng)的文字,該任務(wù)是將通信領(lǐng)域信號(hào)處理原理推廣到自然語(yǔ)言領(lǐng)域的一個(gè)成功的嘗試。簡(jiǎn)單來說,語(yǔ)音識(shí)別根據(jù)聲音的底層特征,如語(yǔ)調(diào)、音速、音節(jié)、音位等聲學(xué)特征,通過特定的處理方法,將其抽象為一個(gè)狀態(tài)序列。或者說,聲音本身也是一種信號(hào)的形式,它具有特定的頻率特征。采用對(duì)應(yīng)的特征處理方法,語(yǔ)言可以被轉(zhuǎn)化為特定的信號(hào)序列形式。通過合理的模型設(shè)計(jì)和大規(guī)模的語(yǔ)音語(yǔ)料訓(xùn)練,計(jì)算機(jī)可以正確地識(shí)別出語(yǔ)音信號(hào)序列的形式,從而達(dá)到預(yù)測(cè)語(yǔ)音信號(hào)、實(shí)現(xiàn)語(yǔ)音辨識(shí)的目的。圖1是一個(gè)典型的語(yǔ)音識(shí)別模塊的設(shè)計(jì)框圖。
圖 1 語(yǔ)音識(shí)別模塊設(shè)計(jì)框圖
目前,處于語(yǔ)音識(shí)別研究第一梯隊(duì)的國(guó)內(nèi)研究隊(duì)伍有中國(guó)科技大學(xué)科大訊飛團(tuán)隊(duì)、百度語(yǔ)音、騰訊語(yǔ)音等。當(dāng)前的技術(shù)水平已經(jīng)可以較好地完成語(yǔ)音識(shí)別任務(wù):科大訊飛團(tuán)隊(duì)開發(fā)的語(yǔ)音識(shí)別工具包甚至可以實(shí)現(xiàn)對(duì)于中國(guó)方言近乎百分之百的識(shí)別;在百度公司、騰訊公司推出的各種互聯(lián)網(wǎng)產(chǎn)品中,語(yǔ)音識(shí)別技術(shù)也已經(jīng)非常普遍。因此,自然語(yǔ)言處理任務(wù)的主要挑戰(zhàn)在于語(yǔ)義分析。
語(yǔ)義分析和語(yǔ)言理解是目前自然語(yǔ)言處理領(lǐng)域的重點(diǎn)研究方向,也是制約機(jī)器智能的一大技術(shù)瓶頸。從任務(wù)角度出發(fā),語(yǔ)義分析的主要任務(wù)涉及語(yǔ)義分類問題、信息配對(duì)類問題、機(jī)器翻譯類問題、結(jié)構(gòu)化信息處理問題和對(duì)話類問題。
語(yǔ)義分類問題是最常見的自然語(yǔ)言處理問題,其目標(biāo)是給特定的一段文字標(biāo)注對(duì)應(yīng)的標(biāo)簽,例如文檔主題分類、本文情感分析等實(shí)際任務(wù)。
信息配對(duì)類問題的實(shí)質(zhì)是根據(jù)特定的配對(duì)方式對(duì)某一段文字匹配對(duì)應(yīng)的文字,例如查詢系統(tǒng)、簡(jiǎn)單的問答系統(tǒng)。
機(jī)器翻譯類問題就是通過計(jì)算機(jī)進(jìn)行翻譯,常見的翻譯工具有谷歌翻譯、百度翻譯、有道翻譯等。
結(jié)構(gòu)化信息處理問題主要面向自然語(yǔ)言中特定的結(jié)構(gòu)化信息,如詞性標(biāo)注、分詞、命名實(shí)體識(shí)別、句法分析、自動(dòng)摘要等任務(wù)。
對(duì)話類問題可分為長(zhǎng)對(duì)話問題和短對(duì)話問題。短對(duì)話問題類似于信息配對(duì)問題中的問答系統(tǒng),通過對(duì)大量問答對(duì)話的訓(xùn)練得到合適的回答,從而實(shí)現(xiàn)一對(duì)一的對(duì)話。長(zhǎng)對(duì)話問題則更為復(fù)雜,要求計(jì)算機(jī)和人類針對(duì)某一特定的場(chǎng)景進(jìn)行系統(tǒng)的交流,并給出符合語(yǔ)境的回答。長(zhǎng)對(duì)話問題是構(gòu)建對(duì)話系統(tǒng)的核心目標(biāo),也是現(xiàn)有技術(shù)尚未突破的難題。
早在20世紀(jì)50年代,稍晚于第一臺(tái)計(jì)算機(jī)研制成功的時(shí)候,研究人員就已經(jīng)開始試圖利用計(jì)算機(jī)技術(shù)去實(shí)現(xiàn)對(duì)自然語(yǔ)言的挖掘和處理。最初的自然語(yǔ)言處理是以語(yǔ)法規(guī)則為出發(fā)點(diǎn),力求將自然語(yǔ)言轉(zhuǎn)化為和語(yǔ)法規(guī)則相匹配的語(yǔ)言單元和結(jié)構(gòu)。
早期的語(yǔ)法規(guī)則由語(yǔ)言學(xué)家手工實(shí)現(xiàn)。隨著高級(jí)編程語(yǔ)言的普及,部分計(jì)算機(jī)領(lǐng)域的學(xué)者試圖通過編譯器等結(jié)構(gòu)化工具,以處理類似高級(jí)編程語(yǔ)言的形式對(duì)自然語(yǔ)言進(jìn)行概括,試圖增強(qiáng)對(duì)語(yǔ)法規(guī)則的描述能力,這些方法在一定程度上減輕了語(yǔ)言學(xué)家編制語(yǔ)法規(guī)則的工作。
基于規(guī)則的自然語(yǔ)言處理的主要瓶頸在于語(yǔ)言的流動(dòng)性。一段簡(jiǎn)單的自然語(yǔ)言可能涉及到極為復(fù)雜的語(yǔ)法結(jié)構(gòu)。而人們的語(yǔ)言描述是變化的,這給歸納合理全面的語(yǔ)法規(guī)則帶來了極大的困難。更為復(fù)雜的是,許多語(yǔ)言信息來自于常識(shí),如一詞多義等,通過語(yǔ)法規(guī)則實(shí)現(xiàn)帶有常識(shí)信息的語(yǔ)義理解顯然是十分困難的。
20世紀(jì)70年代,基于統(tǒng)計(jì)的語(yǔ)言處理方式日趨成為研究的主流。這一時(shí)期的代表學(xué)者是Frederick Jelinek 教授[1]。基于統(tǒng)計(jì)的自然語(yǔ)言處理模型從大規(guī)模的原始自然語(yǔ)言語(yǔ)料出發(fā),通過已有的統(tǒng)計(jì)學(xué)、數(shù)學(xué)原理,把自然語(yǔ)言處理的任務(wù)轉(zhuǎn)化為概率預(yù)測(cè)的問題。簡(jiǎn)單來說,一個(gè)統(tǒng)計(jì)語(yǔ)言模型可以簡(jiǎn)單表示為:
假定自然語(yǔ)言中某個(gè)字符只和該字符前面的N–1個(gè)字符有關(guān),對(duì)于給定的字符串S=(w1,w2,…wn),判定該字符串為自然語(yǔ)言的標(biāo)準(zhǔn)為該字符串符合貝葉斯條件如公式(1)所示。
通過統(tǒng)計(jì)可以得到不同詞出現(xiàn)的概率,因此就可以有效地訓(xùn)練機(jī)器學(xué)習(xí)模型,達(dá)到預(yù)測(cè)語(yǔ)言標(biāo)簽、辨識(shí)語(yǔ)義狀態(tài)和規(guī)律的目的。
值得一提的是,馬爾科夫模型由于其強(qiáng)大的序列預(yù)測(cè)能力,在語(yǔ)音識(shí)別領(lǐng)域、機(jī)器翻譯領(lǐng)域、結(jié)構(gòu)化語(yǔ)言處理領(lǐng)域(如分詞、拼寫矯正)發(fā)揮了至關(guān)重要的作用,是經(jīng)典統(tǒng)計(jì)自然語(yǔ)言處理方法中的一座豐碑[2-3]。
其他統(tǒng)計(jì)分析模型如采用矩陣奇異值分解理論的LSI(Latent Semantic Index)模型,使用狄利克雷概率理論的LDA(Latent Dirichlet Allocation)模型,基于詞頻統(tǒng)計(jì)的TF-IDF模型(Term Frequency–Inverse Document Frequency)等都在自然語(yǔ)言處理任務(wù),如主題分類等任務(wù)中取得了令人滿意的效果。其他統(tǒng)計(jì)學(xué)工具如主成分分析、互信息、熵等概念也都可以應(yīng)用于自然語(yǔ)言處理領(lǐng)域來提取特征。
基于深度學(xué)習(xí)的自然語(yǔ)言處理方法是統(tǒng)計(jì)自然語(yǔ)言處理方法的一個(gè)分支。深度學(xué)習(xí)方法同樣從大規(guī)模的語(yǔ)料出發(fā),用深度神經(jīng)網(wǎng)絡(luò)作為學(xué)習(xí)算法代替經(jīng)典的機(jī)器學(xué)習(xí)模型。
◆ 深度模型的結(jié)構(gòu)框架
人工神經(jīng)網(wǎng)絡(luò)模型模擬生物系統(tǒng)中的神經(jīng)認(rèn)知學(xué)習(xí)機(jī)制。該模型以節(jié)點(diǎn)為單元,通過動(dòng)態(tài)訓(xùn)練權(quán)值和偏置的方式模仿神經(jīng)元借助神經(jīng)突觸傳遞信息的過程,以達(dá)到學(xué)習(xí)數(shù)據(jù)內(nèi)部潛在規(guī)律的目的。神經(jīng)網(wǎng)絡(luò)模型的本質(zhì)是一種數(shù)學(xué)模型,經(jīng)過復(fù)雜訓(xùn)練的模型具有較好的分類和預(yù)測(cè)功能,能夠針對(duì)輸入產(chǎn)生與之匹配的輸出。經(jīng)典的神經(jīng)網(wǎng)絡(luò)有BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)、Hopfield神經(jīng)網(wǎng)絡(luò)等。圖2為基本的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。
圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)研究中,人們普遍認(rèn)為有監(jiān)督訓(xùn)練多隱層的神經(jīng)網(wǎng)絡(luò)會(huì)產(chǎn)生較大的誤差從而影響訓(xùn)練效果,直到2006年多倫多大學(xué)的Hinton教授提出深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBNs)[4],通過兩階段訓(xùn)練,結(jié)合無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)的訓(xùn)練方式,在機(jī)理上使深度網(wǎng)絡(luò)完成機(jī)器學(xué)習(xí)任務(wù)成為可能,并極大提升了模型的機(jī)器學(xué)習(xí)能力和準(zhǔn)確率。
有別于經(jīng)典神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),深度神經(jīng)網(wǎng)絡(luò)以多個(gè)隱層為特點(diǎn),構(gòu)建更為復(fù)雜的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),從而使模型具有更為復(fù)雜的表現(xiàn)能力和強(qiáng)大的學(xué)習(xí)能力。圖3為深度神經(jīng)網(wǎng)絡(luò)示意圖。
圖3 深度神經(jīng)網(wǎng)絡(luò)示意圖
圖4 神經(jīng)語(yǔ)言模型
◆ 神經(jīng)語(yǔ)言模型與詞向量的表示
進(jìn)行統(tǒng)計(jì)自然語(yǔ)言處理和分析一個(gè)很重要的任務(wù)是對(duì)語(yǔ)言進(jìn)行向量化表示,進(jìn)而將其作為機(jī)器學(xué)習(xí)模型的輸入。傳統(tǒng)自然語(yǔ)言處理方法中用獨(dú)熱表示、詞袋模型等結(jié)構(gòu)表示自然語(yǔ)言。
獨(dú)熱表示又叫one-hot表示方法,即構(gòu)建向量,對(duì)于語(yǔ)料中出現(xiàn)的每一個(gè)詞作為向量的一位。在實(shí)際語(yǔ)料中,出現(xiàn)該詞則這一位為1,其他位均為0。詞袋模型(Bag of words)則構(gòu)建語(yǔ)義詞典,在詞向量中以語(yǔ)義詞典中的每個(gè)詞作為向量的一位,在實(shí)際語(yǔ)料中以該詞出現(xiàn)的次數(shù)作為向量對(duì)應(yīng)位的賦值。假定對(duì)以下包含兩個(gè)文檔的語(yǔ)料進(jìn)行詞袋模型文本表示:
文檔一:小明/喜歡/玩/足球,小剛/也/喜歡。
文檔二:小明/也/喜歡/玩/籃球。
可構(gòu)建的語(yǔ)義詞典為:Dictionary = {1:“小明”,2:“喜歡”,3:“玩”,4:“足球”,5:“小剛”,6:“也”,7:“籃球”}。
構(gòu)建的語(yǔ)料表示為:
文檔一:[1,2,1,1,1,1,0]。
文檔二:[1,1,1,0,0,1,1]。
相較于獨(dú)熱表示的形式,詞袋模型的詞向量更為稠密,但忽視了語(yǔ)序信息。
神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于自然語(yǔ)言處理始于蒙特利爾大學(xué)的Bengio教授于2003年提出的神經(jīng)語(yǔ)言模型,如圖4所示。這一語(yǔ)言模型在完成一定的自然語(yǔ)言處理任務(wù)的同時(shí),完成了對(duì)語(yǔ)義單元的稠密表示。
圖4中的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型首先初始化一組向量作為神經(jīng)網(wǎng)絡(luò)的輸入,該網(wǎng)絡(luò)需完成和語(yǔ)義相關(guān)的預(yù)測(cè)任務(wù),即在輸出層對(duì)目標(biāo)詞進(jìn)行預(yù)測(cè),從而達(dá)到有監(jiān)督訓(xùn)練網(wǎng)絡(luò)的目的[5]。在網(wǎng)絡(luò)訓(xùn)練完畢后,相關(guān)的詞向量也在訓(xùn)練網(wǎng)絡(luò)的同時(shí)訓(xùn)練得出。
在Bengio教授提出神經(jīng)語(yǔ)言模型后,許多深度網(wǎng)絡(luò)結(jié)構(gòu)被用于自然語(yǔ)言處理任務(wù)。如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Networks)在隱含層節(jié)點(diǎn)間增加了鏈接,并可在t時(shí)刻對(duì)(t–1)時(shí)刻乃至(t–n)時(shí)刻對(duì)t時(shí)刻的節(jié)點(diǎn)產(chǎn)生作用。這種循環(huán)結(jié)構(gòu)更符合人腦記憶的形式,從而能更為出色地處理文本領(lǐng)域的序列問題。在RNN基礎(chǔ)上,研究者們進(jìn)一步改良并提出長(zhǎng)短記憶模型(LSTM,Long Short-Term Memory)、雙向長(zhǎng)短記憶模型Bi-LSTM及門控循環(huán)單元(GRU,Gated Recurrent Unit)等結(jié)構(gòu),設(shè)計(jì)了更為精密的循環(huán)神經(jīng)網(wǎng)絡(luò)單元。此外,在圖像領(lǐng)域應(yīng)用極為廣泛的卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network)也被有效應(yīng)用于文本分類任務(wù)。
在深度學(xué)習(xí)模型中,Mikolov提出的Word2vec技術(shù)為主流的文本表示技術(shù)。這一方式沿襲了Bengio提出的神經(jīng)網(wǎng)絡(luò)語(yǔ)言結(jié)構(gòu),通過特定的CBOW模型和Skip-gram模型生成更為稠密的詞向量[6]。這些包含更多語(yǔ)義信息的詞向量可以作為深度網(wǎng)絡(luò)的輸入,使深度網(wǎng)絡(luò)結(jié)構(gòu)更精準(zhǔn)地完成自然語(yǔ)言處理任務(wù)。
目前我國(guó)的礦冶領(lǐng)域在進(jìn)行產(chǎn)業(yè)升級(jí),有理由認(rèn)為,包含自然語(yǔ)言處理的人工智能技術(shù)能夠有效推動(dòng)這一進(jìn)程。概括來講,除通用語(yǔ)音服務(wù)外,自然語(yǔ)言處理技術(shù)可應(yīng)用于礦冶領(lǐng)域的知識(shí)庫(kù)構(gòu)建和知識(shí)服務(wù)。
和傳統(tǒng)工業(yè)生產(chǎn)類似,礦冶領(lǐng)域的生產(chǎn)數(shù)據(jù)和生產(chǎn)記錄文檔往往十分復(fù)雜,具有極為豐富的自然語(yǔ)言信息。在復(fù)雜異構(gòu)的領(lǐng)域語(yǔ)料庫(kù)中有效抽取信息,同時(shí)完成知識(shí)推理,是知識(shí)工程的核心內(nèi)容?;谧匀徽Z(yǔ)言處理的語(yǔ)義分析及分類、知識(shí)表示、信息匹配等技術(shù),可以在復(fù)雜的原始語(yǔ)料中更為有效地抽取知識(shí)。例如,選取礦山生產(chǎn)中的技術(shù)說明文檔,應(yīng)用Word2vec模型訓(xùn)練即可得出一組和“廠礦”一詞具有相近向量的詞。這種基于神經(jīng)網(wǎng)絡(luò)模型的自然語(yǔ)言處理技術(shù)可以更為有效地抽象文本知識(shí),并進(jìn)行計(jì)算,從而構(gòu)建更為高效合理的知識(shí)庫(kù)和專家系統(tǒng)。
基于自然語(yǔ)言處理的對(duì)話生成和信息表示技術(shù)能夠構(gòu)建更為合理、更具智能并具有一定實(shí)時(shí)反應(yīng)和決策能力的知識(shí)服務(wù)系統(tǒng)。有別于傳統(tǒng)知識(shí)服務(wù)系統(tǒng)以半結(jié)構(gòu)化或數(shù)字形式的輸出為主要形式,自然語(yǔ)言知識(shí)服務(wù)系統(tǒng)可提供更具人性化、更易理解的知識(shí)服務(wù)。
圖5為一組離散化的礦山浮選生產(chǎn)數(shù)據(jù),圖6則為由這組數(shù)據(jù)得出的一組控制規(guī)則,利用合理的自然語(yǔ)言處理和對(duì)話生成技術(shù),可以得出更為精準(zhǔn)和智能的知識(shí)服務(wù),如“當(dāng)前原礦品位中等偏下,亞鐵含量偏低,加藥量偏高,在浮選精礦要求中等時(shí),請(qǐng)選用A方案”等。
圖5 礦山浮選生產(chǎn)數(shù)據(jù)示例
圖6 礦山浮選生產(chǎn)控制指令示例
經(jīng)過數(shù)十年的發(fā)展,自然語(yǔ)言處理領(lǐng)域的研究?jī)?nèi)容經(jīng)歷了由規(guī)則到統(tǒng)計(jì)的轉(zhuǎn)變。近年來,以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)模型在處理復(fù)雜異構(gòu)的自然語(yǔ)言時(shí)表現(xiàn)出更為強(qiáng)大的能力,能夠更為精準(zhǔn)地挖掘知識(shí),有效完成信息抽取任務(wù)。自然語(yǔ)言處理技術(shù)可以服務(wù)于礦冶領(lǐng)域的生產(chǎn),能夠協(xié)助領(lǐng)域?qū)<液脱芯咳藛T構(gòu)建更為全面、高效、準(zhǔn)確的知識(shí)庫(kù),同時(shí)實(shí)現(xiàn)更為智能的知識(shí)服務(wù)系統(tǒng)。