国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

探秘自然語言處理

2022-03-18 22:39
中國信息技術教育 2022年5期
關鍵詞:語義向量算法

主持人:

楊? 磊? 天津市第五中學

嘉? 賓:

劉宗凡? 廣東省四會市四會中學

邱元陽? 河南省安陽縣職業(yè)中專

金? 琦? 浙江師范大學附屬中學

倪俊杰? 浙江省桐鄉(xiāng)市鳳鳴高級中學

高手論技

編者按:深度學習是新一代機器學習技術,深度學習技術的不斷發(fā)展對自然語言處理技術產生了深遠的影響。本期我們將討論傳統(tǒng)自然語言處理技術和以深度學習為基礎的新一代自然語言處理技術基本方法,以及利用深度學習技術實現(xiàn)自然語言處理應用案例。

計算機如何理解自然語言?

楊磊:人類的語言是交流的有效工具,語言交流也是一種交流方式。人們彼此間的交流離不開語言,盡管可以通過動作和表情傳遞人們的思想,但是語言是其中最重要的,盡管世界各地的人們所用的語言各不相同,但都遵循共同采用的溝通符號、表達方式與處理規(guī)則,符號會以視覺、聲音或者觸覺方式來傳遞。那么,和人與人的溝通相比,計算機是如何理解人類語言的呢?

倪俊杰:“教”計算機理解人類的自然語言,就是將自然語言轉化為計算機可讀的結構化數(shù)據(jù),使計算機能夠理解自然語言在特定領域里所代表的語義、意圖,從用戶輸入中提取出所需的信息理解人類意圖,我們把這個稱作自然語言理解(NLU)。它是自然語言處理(NLP)的一部分,以語言為對象,在計算機的支持下對語言信息進行定量化的研究,并提供可以讓人與計算機共同使用的語言描寫。就像人類擁有可以收集有關我們周圍世界的信息的眼睛和耳朵等傳感器一樣,計算機系統(tǒng)可以配備傳感器來收集數(shù)據(jù)并提供程序,使它們能夠處理并將這些信息轉換為它們可以理解的東西。NLP的兩個主要階段是數(shù)據(jù)預處理和模型開發(fā)。數(shù)據(jù)預處理是準備數(shù)據(jù)的階段,便于計算機處理數(shù)據(jù)。這可以通過多個過程實現(xiàn),包括:①標記化——文本被分成更小的部分;②停用詞去除——從數(shù)據(jù)樣本中去除一些詞,只留下傳達最多信息的詞;③詞形還原和詞干化——詞被簡化為它們的詞根形式;④詞性標注——詞被標注為名詞、動詞、形容詞等。模型開發(fā)階段是計算機理解自然語言的核心。模型是基于數(shù)據(jù),在算法的控制下,經由訓練得到的。兩種最廣泛使用的自然語言處理算法類型是:①基于規(guī)則的系統(tǒng)——這種類型的算法在NLP的早期階段就使用過,并且仍在使用中,它基于精心設計的語言規(guī)則;②基于機器學習的系統(tǒng)——這類算法依賴于統(tǒng)計方法,并通過訓練數(shù)據(jù)進行改進。這些算法在使用機器學習、神經網(wǎng)絡和深度學習的組合處理新數(shù)據(jù)集時改進自己的規(guī)則。

邱元陽:計算機理解人類語言還是極具挑戰(zhàn)性的。當前的NLP技術基于深度學習,這是人工智能的一個子集,可以在數(shù)據(jù)中發(fā)現(xiàn)模式并使用這些模式來提高其理解能力。深度學習算法需要大量的標記數(shù)據(jù)來訓練和發(fā)現(xiàn)與目標的相關性。收集合適的數(shù)據(jù)集是NLP中最大的挑戰(zhàn)之一。在自然語言處理的早期,基本的機器學習算法被賦予了要搜索的單詞和短語列表,以及對這些單詞和短語的精確響應。深度學習提供了更大的靈活性。算法學習從大量樣本中識別說話者的意圖,類似于兒童學習人類語言的方式。計算機系統(tǒng)可以通過結合句法和語義技術來更好地理解語言。使用句法分析根據(jù)正式的語法規(guī)則來解析自然語言的有效性,并且語義分析允許計算機系統(tǒng)破譯其含義,這就是計算機學習理解自然語言的方式,但這并不容易。人類花了數(shù)千年的時間來發(fā)展自己的語言系統(tǒng),使得人類通過語言進行交流而不必考慮太多,因為人類從小就在訓練大腦如何使用語言。作為一個物種在進化過程中,人類的大腦也已經適應了幾代人的學習。通過語言相互交流涉及復雜的多感官努力,大腦中的語言中心一直在工作。這就是為什么教計算機系統(tǒng)如何理解和使用人類語言是一項如此艱巨的任務。單詞可以根據(jù)上下文改變含義,并且可以以無限的方式組合它們。通常,所傳達信息的含義還取決于文化背景,為計算機系統(tǒng)導航增加了另一層模糊性。計算機系統(tǒng)通常需要人們通過一種明確且高度組織化的編程語言與它們進行通信。語言——以及人們如何使用它——不斷變化的事實使這一過程更加復雜。語言有規(guī)則,但它們不是一成不變的,可以隨著時間的推移而發(fā)展。如果現(xiàn)實世界的語言隨著時間而改變,那么現(xiàn)在有效的計算規(guī)則可能會過時。眾所周知,計算機難以解釋抽象語言的使用。例如,諷刺很難用NLP技術檢測出來。另外,句子的含義可能會根據(jù)說話者強調的任何單詞或音節(jié)而改變。在執(zhí)行語音識別時,NLP算法可能會忽略一個人聲音中微小但重要的音調變化。此外,語音的語氣和語調會根據(jù)一個人的口音而變化,從而使計算機系統(tǒng)難以解析。

自然語言處理的表示學習

金琦:自然語言是典型的非結構化信息,表示學習旨在學習原始數(shù)據(jù)的表征,作為進一步分類或預測的有用信息。自然語言的表示可從多個角度加以定義。從認知科學角度來說,語言表示是語言在人腦中的表現(xiàn)形式,關系到人類如何理解和產生語言;從人工智能角度來說,語言表示是語言的形式化或數(shù)學描述,以便在計算機中表示語言,并能讓計算機程序進行自動處理。一個好的文本表示,首先要具備很強的表示能力,如模型具有一定的深度;其次要使后續(xù)的學習任務變得簡單,能夠帶來下游任務性能的提升;最后應具有一般性,是任務或領域獨立的。早期的語言表示方法主要采用符號化的離散表示。詞表示為One-Hot向量(一維為1、其余維為0的向量),句子或篇章通過詞袋模型、TF-IDF模型、N元模型等方法進行轉換。離散表示的缺點在于詞與詞之間沒有距離的概念,如“電腦”和“計算機”被看成是兩個不同的詞,這顯然是不合理的。當前,主流的語言表示采用更加精確的數(shù)學表示,通常通過基于深度學習的表示模型獲得。目前,比較成熟的應用是詞向量表示,即將每一個詞語用不同的向量表示。其中,向量就是一種有大小、有方向的度量值,如果一個詞具有了一定的向量,如果一大批文檔信息不再是由簡簡單單的詞組成,而是由一組組向量組成,那么計算機就很容易對要處理的文檔進行加工處理,這就是要將詞轉化為向量的目的。在計算機上看到的形形色色的多媒體文件都只是電腦二進制的表示,如何將大自然中的語言、圖形、聲音轉化為計算機能夠識別的二進制機器語言是一個問題。解決該問題就是要找出一種將符號轉化為數(shù)字的方法。

楊磊:2013年,Google開發(fā)出了基于神經網(wǎng)絡的word2vec工具,其主要思想是一個詞的上下文可以很好地表達出詞的語義,它是一種通過無監(jiān)督的學習文本來產生詞向量的方式。它成功訓練出了包含詞間語義信息的詞向量,以便精確度量不同詞語之間的聯(lián)系或關系,如詞語“電腦”和“計算機”是兩個相似詞,經常出現(xiàn)的語義環(huán)境(上下文語境)是相似的。兩個詞語本身具有很高的相似性,詞語向量化后“電腦”和“計算機”在向量空間中表示為兩個點,則可以通過度量兩點之間的cosine距離定量表示兩個詞語的語義相似性。不同的詞語在向量空間中的距離越近,相似性越高。此外,word2vec還表現(xiàn)出一個有趣的現(xiàn)象:向量(“King”)-向量(“Man”)+向量(“Woman”)=向量(“Queen”)??梢钥闯?,word2vec在文本語義表示上擁有很好的效果。word2vec模型根本原理其實是采用了一個三層的神經網(wǎng)絡,它們分別為輸入層、隱含層和輸出層。通過訓練大規(guī)模的語料數(shù)據(jù),將訓練文本中的詞映射到一個n維空間,并使用一個低維的、稠密的詞向量來表示詞語,使用向量距離來計算詞之間相似度,該模型可以很好地提取詞語的語義信息,語義接近的詞在向量空間具有相似的向量表達。word2vec有CBOW和Skip-Gram兩種訓練模型,從圖1可以看到,兩種模型的網(wǎng)絡結構都由輸入層、投影層和輸出層組成。但是,CBOW模型是利用詞語Wt的前后各c個詞語預測當前詞語Wt,而skip-gram模型與之相反,是利用當前詞語Wt去預測前后各c個詞語。預測方法是,大規(guī)模語料經過預處理,輸入詞語通過投影操作利用softmax進行分類預測,CBOW要求中心詞的softmax值最高,Skip-gram希望是上文詞語的softmax值比非上下文詞語的高。

Gensim是做自然語言處理常用的一個工具庫,主要用來以無監(jiān)督的方式從原始的非結構化文本中學習到文本隱藏層的主題向量表達。主要包括TF-IDF、LSA、LDA、word2vec、doc2vec等多種模型。利用Gensim庫實現(xiàn)word2vec如圖2所示。

自然語言處理的預訓練模型

劉宗凡:近年來,預訓練模型(PLMs)的出現(xiàn)將自然語言處理帶入了一個新的時代。最近幾年出現(xiàn)了許多可以改變整個NLP世界格局的文章。PLMs技術已逐漸發(fā)展成為NLP領域不可或缺的主流技術。PLMs主要是用來解決深度學習中大規(guī)模參數(shù)學習問題,其核心思想是在大數(shù)據(jù)上對深層次神經網(wǎng)絡進行預訓練得到模型參數(shù),然后將這些訓練好的模型運用到具體的下游任務中。在現(xiàn)代自然語言處理任務中,用大規(guī)模語料庫進行無監(jiān)督訓練得到的詞的分布式表示被廣泛使用,其中word2vec實現(xiàn)了在低維條件下用稠密向量對詞進行表示,但是這種方式只能提取淺層文本表征,忽略了上下文,無法在不同語境下對詞的句法和語義進行有效表示;ELMo采用雙向長短期記憶網(wǎng)絡對語言模型實現(xiàn)了基于上下文的詞嵌入表示;Google在Transformer中引入了注意力機制,為之后的BERT和GPT奠定了基礎。

通過利用大型語料庫學習通用語義表示的新方法,傳統(tǒng)的基于詞袋模型的文本特征提取方法,如詞的獨熱編碼,會參數(shù)很高的詞向量維度,不能體現(xiàn)詞之間語義信息和相對位置,n-gram算法和共現(xiàn)矩陣的出現(xiàn)緩解了區(qū)分詞序的問題;通過結合神經網(wǎng)絡和語言模型,詞的分布式表示取得了巨大突破。神經網(wǎng)絡語言模型通過n-gram方法對輸入語言模型長文本進行簡化處理,忽略長度大于n的詞,不同于傳統(tǒng)的語言模型,它在詞語的表示上采用低維向量,當遇到語義相近的上文時,可以對目標詞進行相似的預測。由于在前饋神經網(wǎng)絡中使用了全連接的結構,只能處理定長的文本信息;采用循環(huán)神經網(wǎng)絡在預測目標詞時通過迭代的方式獲取所有上文信息,使得模型能夠處理長度變化的文本序列。

大量的文獻已經表明,預訓練語言模型在通用基準測試、問答、情感分析、命名實體識別、機器翻譯、摘要等眾多下游任務中可以帶來喜人的性能提升。目前,將預訓練語言模型應用到下游任務中主要還是依賴于遷移學習進行,遷移學習可以把從大規(guī)模語料中學習到的通用語言知識遷移到特定的下游任務上。通常遷移學習包含兩個階段,一是預訓練,二是微調。對于一些任務,在微調階段,預訓練模型作為特征抽取器,其參數(shù)被固化。而對于大多數(shù)任務,微調階段預訓練模型的參數(shù)不固化,仍在微調階段進行調整,以適應下游任務。

總之,PLMs已經在很多NLP任務中展現(xiàn)出了其強大的能力,然而由于自然語言處理的復雜性,仍存在諸多挑戰(zhàn)。

中文文本情緒分析案例

楊磊:本案例的目的是了解文本處理的一般流程,僅采用比較少的數(shù)據(jù)作為處理對象。本例中每個步驟都可以展開,重點在于了解流程,分清上下游任務,細節(jié)方面僅知道有哪些庫可以解決哪些問題即可。關鍵流程如下頁圖3所示。

(1)采集數(shù)據(jù):導入數(shù)據(jù)集(利用Excel制作兩個文件:pos.xlsx和neg.xlsx)(如下頁圖4)。

(2)詞向量與序列處理:利用gensim進行詞向量訓練(如圖5)。

(3)序列特征處理,求向量均值(如圖6)。

(4)訓練模型:利用tensorflow2.0框架(如圖7)。

(5)驗證(如圖8)。

結語

自然語言處理是人工智能領域中的重要方向之一,被譽為人工智能皇冠上的“明珠”。當前,深度學習、圖計算等方法被廣泛應用于各種自然語言處理任務,取得了不錯的研究成果,但也面臨著全新的挑戰(zhàn)。隨著人工智能領域不斷突破瓶頸,相信未來幾年,語音識別、語義識別和語音合成技術將全面進入工業(yè)、通信、家電、醫(yī)療、汽車電子、家庭服務等領域,更好地服務于我們的生活。

3645500589294

猜你喜歡
語義向量算法
向量的分解
韓國語“容入-離析”關系表達及認知語義解釋
Travellng thg World Full—time for Rree
學習算法的“三種境界”
算法框圖的補全
算法初步知識盤點
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉圓錐曲線