基于LightGBM 的文本關(guān)鍵詞提取方法

2021-08-02 07:40馬莉媛朱良奇黃季濤李夢(mèng)君荊苗苗

軟件導(dǎo)刊 2021年7期

馬莉媛，黃勃，朱良奇，黃季濤，李夢(mèng)君，荊苗苗

（上海工程技術(shù)大學(xué)電子電氣工程學(xué)院，上海 201620）

0 引言

移動(dòng)互聯(lián)網(wǎng)快速發(fā)展與大數(shù)據(jù)、云計(jì)算等技術(shù)的出現(xiàn)催生了眾多新媒體發(fā)展，公眾獲取信息的渠道逐漸增加，信息獲取愈加便利。但有些媒體為了吸引用戶眼球，追求更高的點(diǎn)擊率，對(duì)文章標(biāo)題過(guò)度潤(rùn)色，部分文章甚至出現(xiàn)文不對(duì)題的現(xiàn)象。用戶在信息檢索時(shí)多用文本標(biāo)題進(jìn)行檢索，由于信息過(guò)載、垃圾信息過(guò)多導(dǎo)致無(wú)法快速找到精準(zhǔn)信息等問(wèn)題。面對(duì)繁雜的信息，可利用關(guān)鍵詞提取技術(shù)快速且精準(zhǔn)地提煉文本信息。

關(guān)鍵詞提取指從文本中提取與目標(biāo)內(nèi)容最相關(guān)的詞匯，被提取的關(guān)鍵詞必須具備3 個(gè)條件：可讀性、相關(guān)性及涵蓋性。1958 年Luhn［1］提出了題內(nèi)關(guān)鍵字索引的概念，使檢索刊物時(shí)對(duì)索引的編輯工作實(shí)現(xiàn)自動(dòng)化，加快了檢索刊物的出版速度，保證了文獻(xiàn)報(bào)道及時(shí)性；1999 年，Witten等［2］提出一種KEA 全新算法，該算法主要是利用候選目標(biāo)關(guān)鍵詞第一次處在文檔內(nèi)的位置與TF-IDF 值進(jìn)行匹配從而獲得特征值，然后使用貝葉斯模型訓(xùn)練獲得關(guān)鍵詞；2000 年，Turney［3］采用C4.5 決策樹(shù)分類器進(jìn)行關(guān)鍵詞提取；Mihalcea 等［4］基于PageRank 算法與單詞之間的語(yǔ)義關(guān)系，提出基于圖模型的Texrank 算法，該算法精度較高，考慮了詞的位置信息，但是計(jì)算復(fù)雜度較高；徐文海等［5］提出了一種基于向量空間模型與TF-IDF 方法的中文關(guān)鍵詞抽取算法。該算法在對(duì)文本進(jìn)行自動(dòng)分詞后，用TF-IDF 方法對(duì)文獻(xiàn)空間中的每個(gè)詞進(jìn)行權(quán)重計(jì)算，然后根據(jù)計(jì)算結(jié)果抽取出科技文獻(xiàn)關(guān)鍵詞，這種方法較易理解，且容易實(shí)現(xiàn)，但是過(guò)度依賴語(yǔ)料庫(kù)，精度不高，沒(méi)有考慮語(yǔ)義信息；劉嘯劍等［6］提出一種基于圖與主題模型的關(guān)鍵詞抽取算法，首先利用LDA 主題模型計(jì)算出詞與詞之間的相似性，作為詞與詞之間的權(quán)重并構(gòu)建一個(gè)帶權(quán)無(wú)向詞圖，最后再?gòu)倪@些短語(yǔ)節(jié)點(diǎn)中選擇TopK 個(gè)詞作為文章關(guān)鍵詞，該方法考慮到文本隱含語(yǔ)義，但是提取的關(guān)鍵詞較廣泛、時(shí)間復(fù)雜度較高且需要大量訓(xùn)練。為了改進(jìn)TF-IDF 算法、Textrank 算法及LDA 算法缺陷，近年來(lái)眾多融合算法被提出。例如，牛永潔等［7］提出融合因素的TF-IDF 關(guān)鍵詞提取算法，朱衍丞等［8］提出基于SVM 的融合多特征TextRank 的關(guān)鍵詞提取算法，曾慶田等［9］提出融合主題詞嵌入與網(wǎng)絡(luò)結(jié)構(gòu)分析的主題關(guān)鍵詞提取方法。雖然這些融合算法在一定程度上提高了原始算法準(zhǔn)確率，但是在處理海量數(shù)據(jù)時(shí)該類方法準(zhǔn)確率有所下降。

針對(duì)以上問(wèn)題，本文提出基于LightGBM 的文章關(guān)鍵詞提取。首先通過(guò)TF-IDF 模型，為文本選出20 個(gè)候選關(guān)鍵詞；然后通過(guò)特征工程［10］，對(duì)文本候選關(guān)鍵詞進(jìn)行特征提取，共提取5 個(gè)特征；再將20 個(gè)候選關(guān)鍵詞經(jīng)由特征工程提取出5個(gè)特征，將這5個(gè)特征作為L(zhǎng)ightGBM算法［11］參數(shù)，判斷這20 個(gè)候選關(guān)鍵詞是否為關(guān)鍵詞；最終選擇預(yù)測(cè)概率較高的詞作為文本關(guān)鍵詞。

1 特征工程

假設(shè)現(xiàn)有一篇文本T，文本句子長(zhǎng)度為n，則有T={S1,S2,…,Sn}，對(duì)于?Si∈T，有Si={w1,w2,…,wm}。對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理，本文采用Jieba 分詞對(duì)文本進(jìn)行分詞及去除停用詞處理，去除與文章語(yǔ)義無(wú)關(guān)的部分詞匯，例如標(biāo)點(diǎn)符號(hào)、形容詞、副詞、助詞及人稱代詞等，得到一個(gè)長(zhǎng)度為l的詞組列表，用該詞組表示文本，得到T={w1,w2,…,wl}。

此時(shí)得到長(zhǎng)度為l的詞組T可能存在冗余和噪聲，IDF本身是一種抑制噪聲的加權(quán)，而TF-IDF 是對(duì)文檔或句子中的詞語(yǔ)進(jìn)行頻率計(jì)算的常用方法，某個(gè)詞TF-IDF 取值取決于兩個(gè)因素：詞頻及該詞稀有程度，因此TF-IDF 描繪了一個(gè)詞語(yǔ)在所屬文檔或句子的稀有程度。雖然TF-IDF 算法精度不高，但該步驟僅去除一部分噪聲，即過(guò)濾掉通用詞，保留重要的詞語(yǔ)，且TF-IDF 易于實(shí)現(xiàn)，故本文采用TF-IDF對(duì)經(jīng)過(guò)預(yù)處理之后的數(shù)據(jù)進(jìn)行粗略篩選，選出20 個(gè)候選關(guān)鍵詞K={w1,w2,…,w20}。

經(jīng)由TF-IDF 得到的候選關(guān)鍵詞此時(shí)還是文本數(shù)據(jù)，對(duì)文本數(shù)據(jù)進(jìn)行特征提取，轉(zhuǎn)換為可用于機(jī)器學(xué)習(xí)的數(shù)字特征，即將文本數(shù)據(jù)特征值化。對(duì)這20 個(gè)候選關(guān)鍵詞進(jìn)行特征提取，主要提取以下5 個(gè)特征：字典特征、文本特征、詞頻特征、相似度特征及詞性特征。

1.1 字典特征提取

字典特征提取指將文本數(shù)據(jù)映射在向量空間。首先對(duì)候選關(guān)鍵詞進(jìn)行One-Hot 編碼得到其向量表示。由于One-Hot 編碼得到的詞向量矩陣過(guò)于稀疏，對(duì)One-Hot 編碼進(jìn)行Word Embedding 得到低維稠密向量。本文用Word2Vec［14］的Skip-Gram模型訓(xùn)練詞向量（見(jiàn)圖1）。Skip-Gram 模型主要定義了=概率分布，其思路是以中心詞為中點(diǎn)，定義一個(gè)長(zhǎng)度為2m 的滑窗，計(jì)算上下文詞匯出現(xiàn)的概率。通過(guò)重復(fù)操作，選擇詞匯向量，使概率分布值最大化。

Fig.1 Skip-Gram model圖1 Skip-Gram 模型

首先，將中心詞匯One-Hot 編碼作為輸入，與所有中心詞匯表示組成的矩陣相乘，得到中心詞匯向量表示vc，再將其與輸出詞匯向量表示uo相乘，即uoT vc，得到基于中心詞匯vc的上下文詞匯向量表示。

然后，利用softmax 將數(shù)值轉(zhuǎn)換成概率分布，即計(jì)算兩個(gè)單詞向量點(diǎn)積，將其轉(zhuǎn)換為softmax(uoT vc)。uTw vc的意義是遍歷w=1,2,…,l，計(jì)算出每個(gè)單詞與vc相似度。

此時(shí)得到上下文詞匯概率分布是存在誤差的。定義一個(gè)損失函數(shù)J'(θ)對(duì)該模型進(jìn)行訓(xùn)練。

其中，J'(θ)表示在一段長(zhǎng)文本中，遍歷文本中所有位置；θ是模型參數(shù)，也是詞匯向量表示；wt為中心詞；wt+j為上下文單詞。求J'(θ)負(fù)的對(duì)數(shù)似然，得到J(θ)。

訓(xùn)練模型主要目的是調(diào)整參數(shù)θ，以此讓負(fù)的對(duì)數(shù)似然最小化，從而使預(yù)測(cè)概率最大化。

1.2 文本特征提取

由字典特征提取得到候選關(guān)鍵詞向量表示，但此時(shí)向量表示是靜態(tài)詞向量，即不考慮其詞法和語(yǔ)序問(wèn)題，因此利用N-gram 模型［12］，用于提取上下文文本特征。N-gram模型是概率判別模型，其本質(zhì)是基于n 階馬爾可夫假設(shè)，即一個(gè)詞的出現(xiàn)僅與它之前的若干個(gè)詞有關(guān)。

在計(jì)算復(fù)雜度方面，模型參數(shù)量級(jí)是N 的指數(shù)函數(shù)O(Nn)；在模型效果方面，當(dāng)n 從2 到3 時(shí)，效果上升顯著，但之后提升不顯著，因此綜合計(jì)算復(fù)雜度與模型效果兩個(gè)因素，本文取n=3。

1.3 詞頻特征提取

由Word2Vec 得到的詞向量表示并沒(méi)有考慮詞頻，但在計(jì)算詞的重要程度時(shí)，詞頻是非常重要的權(quán)重之一，因此需提取詞頻特征，本文用每個(gè)詞TF-IDF 值作為詞頻特征。

1.4 相似度特征提取

關(guān)鍵詞的設(shè)立是為了讓用戶在短時(shí)間內(nèi)掌握文本信息，如若選取關(guān)鍵詞意思相近，則不能很好地概括文本內(nèi)容，說(shuō)明關(guān)鍵詞有冗余，因此計(jì)算詞間相似度，去除冗余詞組，可提升關(guān)鍵詞提取效果。本文通過(guò)計(jì)算詞向量間余弦相似度提取候選關(guān)鍵詞相似度特征。

1.5 詞性特征提取

關(guān)鍵詞精髓在于通過(guò)短短幾個(gè)詞語(yǔ)了解文本內(nèi)容，這要求提取的關(guān)鍵詞十分精簡(jiǎn)。在漢語(yǔ)言中，實(shí)詞往往更能表征文本內(nèi)容，因此對(duì)候選關(guān)鍵詞進(jìn)行詞性判別可過(guò)濾一些噪音［13］。

首先，對(duì)詞性進(jìn)行加權(quán)。由于名詞、動(dòng)詞、形容詞、感嘆詞、介詞、連詞等不同詞性的詞語(yǔ)對(duì)文本內(nèi)容呈現(xiàn)貢獻(xiàn)不同，因此對(duì)詞性進(jìn)行加權(quán)，給不同詞性賦予一定權(quán)重。詞性加權(quán)公式為，其中n為詞性總類數(shù)，xi表示第i個(gè)特征粒子，j表示某種詞性。

其次，特征詞為某種詞性概率的計(jì)算公式為：

其中，tj表示特征t詞性特征。

則詞性權(quán)重計(jì)算公式如式（8）所示，其中PF×TDF表示特征t的詞性加權(quán)總值。

2 基于LightGBM 的文本關(guān)鍵詞提取

對(duì)候選關(guān)鍵詞進(jìn)行特征工程，得到候選關(guān)鍵詞字典特征、文本特征、詞頻特征、相似度特征及詞性特征，然后采用決策樹(shù)算法將關(guān)鍵詞提取轉(zhuǎn)化為二分類問(wèn)題。梯度提升決策樹(shù)（Gradient Boosting Decision Tree，GBDT）［14-15］是一種流行的機(jī)器學(xué)習(xí)算法，在此基礎(chǔ)上產(chǎn)生了很多經(jīng)過(guò)工程優(yōu)化的算法，如XGBoost［16-17］、pGBRT 等。本文使用Light?GBM 算法，其中基于梯度的單邊采樣（Gradient-based One-Side Sampling，GOSS）可有效解決數(shù)據(jù)量較大的問(wèn)題，同時(shí)在計(jì)算過(guò)程中使用互斥特征捆綁（Exclusive Feature Bun?dling，EFB）方法有效簡(jiǎn)化數(shù)據(jù)。

2.1 關(guān)鍵詞提取

以文本特征、詞頻特征、相似度特征及詞性特征作為劃分屬性，建立一個(gè)樣本集T，則T={(w1,y1),(w2,y2)…(w20,y20)}，其中wi為詞向量，yi∈{0,1}為標(biāo)簽，當(dāng)yi=0 時(shí)，該詞wi不是關(guān)鍵詞，反之表示候選關(guān)鍵詞wi為關(guān)鍵詞。LightGBM 算法作為分類器進(jìn)行關(guān)鍵詞提取步驟如下。

步驟1：對(duì)樣本T進(jìn)行歸一化處理。

步驟2：計(jì)算初始梯度值λ（初始值設(shè)置為0）。

步驟3：建立樹(shù)。LightGBM 算法特色是直方圖優(yōu)化，將特征工程中得到的特征值劃分為離散值進(jìn)行裝箱處理，形成bins。直方圖構(gòu)建過(guò)程如圖2 所示，將特征值為浮點(diǎn)型數(shù)據(jù)的特征裝箱處理，即特征值離散化，然后進(jìn)行裝箱處理形成bindata。

Fig.2 Histogram construction圖2 直方圖構(gòu)建

2.2 直方圖優(yōu)化算法

利用直方圖尋找最佳分裂點(diǎn)

（1）建立直方圖。假設(shè)通過(guò)上述算法建立的直方圖為：

其中，對(duì)每個(gè)特征創(chuàng)建一個(gè)直方圖hij=(cij,lij)，該直方圖存儲(chǔ)了兩類信息，分別是樣本梯度之和cij=H[f.bins[i]].g與樣本數(shù)量lij=H[f.bins[i]].n。遍歷所有樣本，累積上述兩類統(tǒng)計(jì)值到樣本所屬的bin 中。

（2）尋找最佳分裂特征。分別以當(dāng)前bin 作為分割點(diǎn)，累加其左邊的bin 至當(dāng)前bin 梯度和SL及樣本數(shù)量nL，并與父節(jié)點(diǎn)上的總梯度SP與總樣本數(shù)量nP相減，得到右邊所有bin 的梯度和SR及樣本數(shù)量nR，計(jì)算出增益后在遍歷過(guò)程中取最大增益，以此時(shí)特征和bin 特征值作為最佳分裂特征G與分裂閾值I。

（3）建立根節(jié)點(diǎn)。

（4）根據(jù)最佳分裂特征，分裂閾值將樣本進(jìn)行切分。

（5）重復(fù)（1）～（4）選取最佳分裂葉子、分裂特征、分裂閾值，切分樣本，直到達(dá)到葉子數(shù)目限制或所有葉子不能分割。

（6）更新當(dāng)前每個(gè)樣本輸出值。

步驟4：更新梯度值。

步驟5：重復(fù)步驟3、步驟4，直到所有的樹(shù)均完成建立。

步驟6：調(diào)節(jié)參數(shù)，進(jìn)行分類實(shí)驗(yàn)。

3 實(shí)驗(yàn)

本文實(shí)驗(yàn)利用搜狐校園算法比賽提供的數(shù)據(jù)，包含大約10 萬(wàn)篇搜狐網(wǎng)站上的各類文章資訊。實(shí)驗(yàn)使用準(zhǔn)確率P、召回率R 及F1 評(píng)價(jià)關(guān)鍵詞抽取效果。實(shí)驗(yàn)分別抽取了2～5 個(gè)關(guān)鍵詞作為自動(dòng)抽取關(guān)鍵詞與數(shù)據(jù)集中人工標(biāo)注的關(guān)鍵詞進(jìn)行對(duì)比。與本文LightGBM 方法進(jìn)行對(duì)比的算法包括TF-IDF、TextRank、LDA。

從表2 和圖3 可以看出，隨著提取關(guān)鍵詞個(gè)數(shù)的增加，準(zhǔn)確率均有所降低，即TopN 越小，準(zhǔn)確率越高?？v向?qū)Ρ萀ightGBM 與其他算法，發(fā)現(xiàn)LightGBM 算法提取關(guān)鍵詞的效果明顯優(yōu)于其他算法。因此綜合考慮總體試驗(yàn)評(píng)價(jià)結(jié)果，本文LightGBM 算法整體效果最佳。

Table 2 Results comparison of the keyword extraction methods表2 各類關(guān)鍵詞抽取方法結(jié)果對(duì)比

Fig.3 Accuracy，recall and F1 values of each method when N is 2～5圖3 N 取2～5 時(shí)各方法準(zhǔn)確率、召回率及F1 值

4 結(jié)語(yǔ)

關(guān)鍵詞提取是自然語(yǔ)言處理的基礎(chǔ)與核心。自然語(yǔ)言處理中的信息檢索、摘要生成、文檔分類、基于檢索的問(wèn)答系統(tǒng)等均與關(guān)鍵詞提取聯(lián)系緊密。本文提出融合特征工程與LightGBM 算法實(shí)現(xiàn)關(guān)鍵詞提取，利用TF-IDF 中IDF 抑制噪聲的特點(diǎn)選擇候選關(guān)鍵詞，并通過(guò)特征工程提取候選關(guān)鍵詞的5 個(gè)特征作為L(zhǎng)ightGBM 特征集，將關(guān)鍵詞提取問(wèn)題轉(zhuǎn)化為二分類問(wèn)題。實(shí)驗(yàn)結(jié)果表明，該方式可進(jìn)一步提高關(guān)鍵詞提取效率。下一步研究將利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)文本關(guān)鍵詞提取，并與傳統(tǒng)關(guān)鍵詞提取方法從效率及準(zhǔn)確率兩個(gè)維度進(jìn)行對(duì)比，尋找性能更佳的方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡