邱 盼
(貴州財經(jīng)大學(xué),貴陽 550000)
隨著開放存取資源運動的迅速發(fā)展,開放存取資源逐漸成為建設(shè)數(shù)字圖書館不可或缺的數(shù)據(jù)源。其開放獲取模式也為研究者提供了獲取學(xué)術(shù)論文的新途徑,有效促進了學(xué)術(shù)資源的共享。為了促進科學(xué)信息的廣泛傳播,學(xué)術(shù)信息的交流與發(fā)布,提高科學(xué)研究的程度,確??茖W(xué)信息的長期保存。
近年來,深度學(xué)習(xí)作為機器學(xué)習(xí)的另一個分支,得到了廣泛的研究和應(yīng)用。 它通過使用由復(fù)雜結(jié)構(gòu)或多個隱藏層感知器組成的多個處理層來替換具有高級數(shù)據(jù)抽象的手冊。在文本分類任務(wù)中,基于文本分布式詞向量表示的深度學(xué)習(xí)方法,卷積神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型對文本進行分類可以獲得更高的準(zhǔn)確率。
本文將重點介紹基于深度學(xué)習(xí)的開放存取資源分類過程和Bi-LSTM 模型和Text-CNN 模型。
圖1
現(xiàn)在的開放存取資源有多個平臺,本文選擇Worldlib 獲取數(shù)據(jù),worldlib 國外文獻(xiàn)整合平臺整合了國外各種開放數(shù)據(jù),文獻(xiàn)數(shù)量近千萬篇,以英語為主,學(xué)科覆蓋范圍為全學(xué)科。本文采用python 爬蟲來獲取開放存取資源。Python 爬蟲相對Java,C++是比較簡單易上手的。
數(shù)據(jù)標(biāo)注意味著人們判斷和標(biāo)注數(shù)據(jù)集內(nèi)的每一條數(shù)據(jù)根據(jù)數(shù)據(jù)分類規(guī)則,找到預(yù)測的目的目標(biāo)y。標(biāo)注的主要原因是基于深度學(xué)習(xí)的訓(xùn)練和測試過程需要使用帶安全標(biāo)注的數(shù)據(jù)。在訓(xùn)練過程中,需要將訓(xùn)練集的數(shù)據(jù)和數(shù)據(jù)類別作為學(xué)習(xí)材料,供計算機學(xué)習(xí)、處理和構(gòu)造神經(jīng)網(wǎng)絡(luò)模型中的意義。測試過程相當(dāng)于測試,數(shù)據(jù)分類是測試的答案,為了研究計算機的影響進行深度研究,需要輸入電腦不帶安全標(biāo)注的數(shù)據(jù)時,計算機自動輸出數(shù)據(jù)的分類結(jié)果,計算機的輸出結(jié)果與答案相比,可以計算學(xué)習(xí)模型的準(zhǔn)確性,因此,數(shù)據(jù)集的所有數(shù)據(jù)必須在類別標(biāo)注中。一般來說,數(shù)據(jù)標(biāo)注越準(zhǔn)確,數(shù)據(jù)量越大,訓(xùn)練模型越好。
在開放存取資源文本分類之前,我們要先開始對資源進行預(yù)處理,一般主要包含文本分詞和進行大量的詞向量訓(xùn)練。本研究為了更好地進行分詞,提升分詞的準(zhǔn)確性,構(gòu)建了開放存取資源語料庫。由于本文的開放存取資源主要是英文,因此對于英文的數(shù)據(jù)預(yù)處理要做的工作主要是按照關(guān)鍵字分詞。
自然語言模型訓(xùn)練的產(chǎn)物,我們通常叫做詞向量,而詞匯由固定長度的向量來表示,通過大量收集的相關(guān)詞匯訓(xùn)練,最終形成一個詞向量空間,而在空間中的每個點則代表一個詞匯。計算機通過大量的對開放存取資源的詞向量訓(xùn)練,可以對資源進行分類識別,最終達(dá)到文本的可計算性。在對開放存取資源進行模型訓(xùn)練時,如果沒有指定與之相對應(yīng)的詞向量,自然語言模型則會選擇對開放存取資源詞匯進行相對的詞向量訓(xùn)練,這是屬于隨機初始化的word2evc 向量,這個詞向量方法在深度學(xué)習(xí)領(lǐng)域中是常用的,在其他領(lǐng)域中也可以運用的到。
目前常用的文本分類模型有很多種,特征提取的好壞直接影響到分類的效果,因此基于傳統(tǒng)分類模型的文本分類方法的工作重點主要集中在特征提取和選擇上,常用方法有 TF-IDF、詞頻、文檔頻次、N-Gram、互信息等。
隨著深度學(xué)習(xí)的不斷發(fā)展,學(xué)者們將文本分類的研究重點轉(zhuǎn)向了基于人工神經(jīng)網(wǎng)絡(luò)的分類模型。人工神經(jīng)網(wǎng)絡(luò)是模擬生物神經(jīng)網(wǎng)絡(luò)進行信息處理的數(shù)學(xué)模型。人工神經(jīng)網(wǎng)絡(luò)由多個連接權(quán)值可調(diào)的神經(jīng)元組成。其參數(shù)學(xué)習(xí)基于BP 算法,具有較強的非線性映射能力。神經(jīng)網(wǎng)絡(luò)處理文本分類的優(yōu)點之一,而不必花大量的時間在特征提取和選擇,將分布式說這個詞作為特征輸入到網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)可以自動提取文本分類的有價值的信息,這些信息通常是通過卷積,點,非線性函數(shù),矩陣乘法操作等,和高度的信息編碼并不容易解釋。
隨著深度學(xué)習(xí)研究范圍的擴大,在很多領(lǐng)域中我們會發(fā)現(xiàn),在常見的圖像、音頻處理方面,我們也會經(jīng)常運用到深度學(xué)習(xí)方面的知識。由于本研究是針對開放存取資源進行的研究,屬于自然語言處理領(lǐng)域,因此,本文通過對自然語言處理相關(guān)的神經(jīng)網(wǎng)絡(luò)模型進行研究,選取Bi-LSTM 模型和Text-CNN 模型作為處理開放存取資源的深度學(xué)習(xí)模型。
(1)embedding 層
利戴工業(yè)技術(shù)服務(wù)(上海)有限公司客戶項目經(jīng)理趙慶山先生也以“智能工廠的整體解決方案”為題,介紹了工業(yè)服務(wù)體系在智能制造發(fā)展過程中扮演的角色及地位,同時也分享了其在上汽大眾動力總成有限公司等典型項目案例。這些項目不僅包括了加工設(shè)備的安裝調(diào)試和維護保養(yǎng),同時也涉及了智能制造的落地,為推動企業(yè)轉(zhuǎn)型升級發(fā)揮了積極作用。
該層,作為神經(jīng)網(wǎng)絡(luò)的第一層,它用作尋找輸入數(shù)據(jù)中的所有詞匯,并根據(jù)詞匯找到與其對應(yīng)的詞向量,是用來將輸入數(shù)據(jù)中的所有詞語找到其對應(yīng)的詞向量,最后再將所有得到的詞向量構(gòu)造形成一個相應(yīng)的矩陣。在這一層中,不需要添加訓(xùn)練過的詞向量,并且詞向量在該層是隨機初始化的。
(2)bidirectional 層
在該層,通常采用雙向傳播的64個LSTM 神經(jīng)單元進行文本分類訓(xùn)練。
(3)dropout 層
可以有效的防止過擬合。過擬合是學(xué)習(xí)過程中把樣本數(shù)據(jù)中的所有特征都記錄了下來。因此,在這個學(xué)習(xí)過程中,計算機學(xué)習(xí)了大量的局部特征,而這個特征會對測試集在測試時造成一定的干擾,造成干擾后,會降低測試集的精度,這種局部特征在測試集進行預(yù)測時造成干擾,從而使測試集準(zhǔn)確率下降,誤差可以用于判斷測試集是否過擬合,測試集內(nèi)的誤差不斷減少,促使測試集外誤差逐漸減小在逐漸變大。
(4)dense 層
改成在整個神經(jīng)網(wǎng)絡(luò)中起到了重要作用,主要負(fù)責(zé)的是分類的工作,這個過程是對數(shù)據(jù)集中的每條數(shù)據(jù)進行標(biāo)記,在dense 層,也加入了sigmoid 激活函數(shù),該函數(shù)的主要作用是對數(shù)據(jù)的某一分類的類別概率進行預(yù)測該,并完成分類任務(wù)。
(1)輸入層
Text-CNN 模型的輸入層需要輸入一個定長的文本序列,我們需要通過分析語料集樣本的長度指定一個輸入序列的長度L,比L 短的樣本序列需要填充(自己定義填充符),比L 長的序列需要截取。最終輸入層輸入的是文本序列中各個詞匯對應(yīng)的分布式表示,即詞向量。
(2)卷積層
在NLP 領(lǐng)域一般卷積核只進行一維的滑動,即卷積核的寬度與詞向量的維度等寬,卷積核只進行一維的滑動。在Text-CNN 模型中一般使用多個不同尺寸的卷積核。卷積核的高度,即窗口值,可以理解為N-gram 模型中的N,即利用的局部詞序的長度,窗口值也是一個超參數(shù),需要在任務(wù)中嘗試,一般選取2-8之間的值。
(3)池化層
在Text-CNN 模型的池化層中使用了Max-pool(最大值池化),即減少模型的參數(shù),又保證了在不定長的卷基層的輸出上獲得一個定長的全連接層的輸入。
(4)全連接層
全連接層的作用就是分類器,原始的Text-CNN 模型使用了只有一層隱藏層的全連接網(wǎng)絡(luò),相當(dāng)于把卷積與池化層提取的特征輸入到一個LR 分類器中進行分類。
現(xiàn)如今,開放存取資源的發(fā)展越來越快,我們也發(fā)現(xiàn)學(xué)者發(fā)表的學(xué)術(shù)論文的也呈很大的比例增長,學(xué)術(shù)研究學(xué)者對學(xué)術(shù)論文的需求也逐漸增多。在此研究背景下,本文就是對開放存取資源進行分類,并方便學(xué)術(shù)研究學(xué)者檢索和研究。本文主要介紹了基于深度學(xué)習(xí)的文本分類過程和幾類經(jīng)典的文本分類網(wǎng)絡(luò)模型,本文研究選取Bi-LSTM 模型和Text-CNN 模型作為處理開放存取資源的深度學(xué)習(xí)模型。