国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度神經(jīng)網(wǎng)絡(luò)的醫(yī)藥專利文本聚類模型研究

2021-09-08 03:45王思源何先波
關(guān)鍵詞:特征提取醫(yī)藥聚類

王思源,何先波

(西華師范大學(xué) 計(jì)算機(jī)學(xué)院,四川 南充 637002)

0 引言

近年來(lái),醫(yī)藥專利文本數(shù)量呈爆發(fā)式增長(zhǎng),通過(guò)對(duì)醫(yī)藥專利文本劃分的研究,可以挖掘生物醫(yī)藥行業(yè)潛在競(jìng)爭(zhēng)力、提升項(xiàng)目的研究水平以及加快新藥研發(fā)進(jìn)度.醫(yī)藥專利文本主要包括摘要、權(quán)利項(xiàng)、專利申請(qǐng)書(shū)、說(shuō)明書(shū)以及申請(qǐng)相關(guān)信息等內(nèi)容[1].本課題從醫(yī)藥專利的文本特點(diǎn)和現(xiàn)實(shí)需求出發(fā),對(duì)醫(yī)藥專利文本的深度特征提取與聚類算法開(kāi)展研究,提升了醫(yī)藥專利文本聚類的質(zhì)量,減輕了人工標(biāo)注專利的負(fù)擔(dān).

1 研究現(xiàn)狀

研究者為了更好地挖掘?qū)@谋拘畔?,在專利文本特征提取和聚類方法上進(jìn)行不斷地研究與創(chuàng)新,進(jìn)一步提升了專利文本聚類質(zhì)量.

如薛淑暉等人[2]使用TF-IDF方法提取VSM模型向量中的關(guān)鍵詞,然后用K-Means聚類得到專利文本聚類結(jié)果,提升了專利文本聚類結(jié)果.Jun等人[3]基于NB方法對(duì)專利數(shù)據(jù)進(jìn)行聚類,用后驗(yàn)概率作為距離值構(gòu)造聚類結(jié)果樹(shù)狀圖,實(shí)現(xiàn)了高效聚類.姚長(zhǎng)青等人[4]使用潛在語(yǔ)義索引(Latent Semantic Indexing,LSI)的方法對(duì)專利文本進(jìn)行特征降維,并改進(jìn)了K-Means算法,一定程度上緩解了聚類特征維度問(wèn)題.

2 模型結(jié)構(gòu)

本文設(shè)計(jì)的基于深度神經(jīng)網(wǎng)絡(luò)的醫(yī)藥專利文本聚類模型主要分成三個(gè)模塊,包含文本預(yù)處理、深度特征提取和聚類分析模塊.模型流程圖如圖1所示.

圖1 醫(yī)藥專利文本聚類模型流程圖

2.1 文本預(yù)處理

在文本預(yù)處理模塊,首先使用Jieba分詞工具進(jìn)行分詞;其次使用正則化指令去除專利文本中的無(wú)用標(biāo)簽、特殊符號(hào)對(duì)數(shù)據(jù)進(jìn)行清洗;最后根據(jù)醫(yī)藥專利文本的特征,在“哈工大停用詞表”的基礎(chǔ)上擴(kuò)充停用詞表,將醫(yī)藥專利文本都包含了“本發(fā)明”“一種”“所述”“方法”等詞匯作為停用詞,建立專有的醫(yī)藥專利停用詞表,過(guò)濾掉專利文本中出現(xiàn)頻率高但信息量少的停用詞.

2.2 深度特征提取

在深度特征提取模塊,主要分為詞向量化表示和特征提取兩部分.先將預(yù)處理后的醫(yī)藥專利文本表示為詞向量,然后將訓(xùn)練好的詞向量作為深度特征提取網(wǎng)絡(luò)的輸入,通過(guò)設(shè)計(jì)的特征提取網(wǎng)絡(luò)挖掘醫(yī)藥專利文本的深度潛在特征.

在詞向量化表示方法上,使用基于全局統(tǒng)計(jì)的GloVe[5]模型訓(xùn)練醫(yī)藥專利文本詞向量.GloVe模型中的相關(guān)參數(shù)設(shè)置:詞向量維度為300,窗口大小為15,最小詞頻為15,最大迭代次數(shù)為20.

針對(duì)特征提取方法的選擇,本文設(shè)計(jì)了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[6]與雙向LSTM(Bidirectional Long Short-Term Memory,Bi-LSTM)[7]的深度特征提取網(wǎng)絡(luò),本文將該網(wǎng)絡(luò)簡(jiǎn)稱為CBL深度特征提取網(wǎng)絡(luò).CBL網(wǎng)絡(luò)整合了CNN與RNN的優(yōu)點(diǎn),由輸入層、CNN層、RNN層和全連接層組成,其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示.

圖2 CBL深度特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖

輸入層輸入是詞向量矩陣表示的文檔,每個(gè)單詞由一整行的詞向量表示.由于醫(yī)藥專利文本詞匯過(guò)長(zhǎng),為了提升網(wǎng)絡(luò)的訓(xùn)練速度和效率,設(shè)置每篇醫(yī)藥專利文檔輸入的最長(zhǎng)長(zhǎng)度為2 000個(gè)特征詞,利用TF-IDF方法根據(jù)特征詞重要程度進(jìn)行排序選擇.

CNN層主要由卷積、池化和卷積層組成.卷積層(Convolution Layer,Conv)中設(shè)置濾波器的寬度與輸入詞向量矩陣的寬度相同,保證了單詞作為NLP中的最小粒度;為了獲得豐富的專利文本特征,Conv1和Conv2中使用了多個(gè)不同大小的濾波器,同時(shí)為了得到同一窗口中更多互補(bǔ)的特征,使用了同一大小多個(gè)數(shù)量的濾波器,實(shí)現(xiàn)并行抽取特征.池化層(Pooling Layer)中使用步長(zhǎng)為1的最大池化,聚焦重要特征、去掉冗余信息.

RNN層中,為了有效獲得專利文本的時(shí)序信息、解決長(zhǎng)時(shí)間依賴的問(wèn)題,使用Bi-LSTM網(wǎng)絡(luò)實(shí)現(xiàn)上下文特征提取.Bi-LSTM網(wǎng)絡(luò)是對(duì)單向LSTM網(wǎng)絡(luò)的擴(kuò)展,引入第二層反向的LSTM網(wǎng)絡(luò),輸出結(jié)果由這兩個(gè)正反方向的LSTM狀態(tài)共同決定.結(jié)構(gòu)圖中,F(xiàn)(Forward)表示正向的LSTM單元結(jié)構(gòu),B(Backward)表示反向的LSTM單元結(jié)構(gòu),該網(wǎng)絡(luò)的輸出能同時(shí)考慮文本特征的前后因素.

最后全連接層將前幾層網(wǎng)絡(luò)得到的醫(yī)藥專利文本特征信息進(jìn)行整合,得到最終的專利文本特征向量,并將其作為聚類算法的輸入.CBL網(wǎng)絡(luò)結(jié)構(gòu)的具體參數(shù)設(shè)置如表1所示.

表1 CBL深度特征提取網(wǎng)絡(luò)的參數(shù)設(shè)置

2.3 聚類分析

在聚類分析模塊,針對(duì)傳統(tǒng)K-Means算法存在的對(duì)初始中心點(diǎn)和離群點(diǎn)敏感問(wèn)題,在初始中心點(diǎn)的選取和目標(biāo)函數(shù)做出了優(yōu)化.本文將改進(jìn)的K-Means算法簡(jiǎn)稱為優(yōu)化KM聚類算法.

2.3.1 目標(biāo)函數(shù)的優(yōu)化

K-Means是一種基于目標(biāo)函數(shù)并采用梯度下降法尋找目標(biāo)函數(shù)最小值的算法.原始K-Means算法的目標(biāo)函數(shù)J公式為:

(1)

式中,d(x,ci)2=‖x-ci‖2表示距離空間中樣本點(diǎn)x與簇中心點(diǎn)ci之間的歐氏距離.

本文針對(duì)離群點(diǎn)的問(wèn)題,給目標(biāo)函數(shù)添加了一個(gè)懲罰項(xiàng)用于檢測(cè)離群點(diǎn),得到的新目標(biāo)函數(shù)J′,公式為:

(2)

2.3.2 初始中心點(diǎn)的選擇

本文提出的優(yōu)化KM算法以初始中心點(diǎn)(質(zhì)心)的選擇作為切入點(diǎn),采用多次隨機(jī)分組取最優(yōu)的策略.優(yōu)化KM算法的具體過(guò)程為:

Step1:把專利樣本特征隨機(jī)分成K組,計(jì)算每組特征的均值,并將其作為每組聚類的初始質(zhì)心.

Step2:計(jì)算選取初始質(zhì)心的首次迭代結(jié)果的目標(biāo)函數(shù)值分?jǐn)?shù).

Step3:重復(fù)以上兩個(gè)步驟,進(jìn)行N次初始質(zhì)心的隨機(jī)選擇,比較每次計(jì)算得到的目標(biāo)函數(shù)值分?jǐn)?shù),選擇分?jǐn)?shù)最小的一組作為初始中心點(diǎn),即實(shí)現(xiàn)多次隨機(jī)選擇,得到最優(yōu)聚類初始質(zhì)心.最終得到的初始質(zhì)心將優(yōu)于其他N-1 次的結(jié)果.

Step4:直到簇質(zhì)心位置不再發(fā)生變化或目標(biāo)函數(shù)值最小化,則KM算法終止.

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集分析

本課題主要針對(duì)醫(yī)藥專利文本進(jìn)行實(shí)驗(yàn),選取的醫(yī)藥專利數(shù)據(jù)集主要來(lái)自藥智網(wǎng)和湯森路透專利數(shù)據(jù)庫(kù).共獲得277 085條醫(yī)藥專利數(shù)據(jù),選取的醫(yī)藥專利數(shù)據(jù)都屬于單標(biāo)簽數(shù)據(jù).收集到的醫(yī)藥專利數(shù)據(jù)集主要分為12種類別.由于從網(wǎng)上得到的醫(yī)藥專利數(shù)據(jù)中部分信息不完整、存在缺失值,因此本文選取的專利數(shù)據(jù)中都包含了標(biāo)題、摘要和主權(quán)項(xiàng)三項(xiàng)內(nèi)容.對(duì)收集到的醫(yī)藥專利數(shù)據(jù)進(jìn)行隨機(jī)采樣,從每一類中隨機(jī)抽取5 000條作為實(shí)驗(yàn)數(shù)據(jù)集,不足5 000條的類別全部選取.每一類的醫(yī)藥專利數(shù)據(jù)分布和隨機(jī)抽取的實(shí)驗(yàn)數(shù)量,如表2 所示.

表2 實(shí)驗(yàn)數(shù)據(jù)分布

3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

聚類查準(zhǔn)率(Precision,Pre)是指得到的聚類結(jié)果中,每個(gè)簇中正確劃分的準(zhǔn)確性指標(biāo).聚類查全率(Recall,Re)是指得到的聚類結(jié)果中每類樣本正確劃分到對(duì)應(yīng)類簇的指標(biāo).

假定C={C1,C2,…,Ck}是聚類生成的聚簇集,將簇Ck和標(biāo)注的類別i進(jìn)行計(jì)算,得到的查準(zhǔn)率和查全率公式分別為:

Pre(Ck,i)=n(Ck,i)/nk

(3)

Re(Ck,i)=n(Ck,i)/ni

(4)

式中,n(Ck,i)為簇Ck與i類中所共有的文檔個(gè)數(shù),nk表示劃分到簇Ck中的文檔個(gè)數(shù),ni為預(yù)設(shè)類別i中的文檔個(gè)數(shù).

特征測(cè)量(F1-Measure,F(xiàn)1)據(jù)查準(zhǔn)率和查全率得到.簇Ck對(duì)于類別i的F1(Ck,i)公式為:

(5)

聚類精確度 (Accuracy,Acc) 用于判斷聚類結(jié)果正確劃分的程度.聚類精確度公式為:

(6)

式中,k和i分別表示聚類對(duì)象的預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽,n為樣本總數(shù),δ表示指示函數(shù):

(7)

四個(gè)指標(biāo)的值取值范圍均在0~1之間,值越接近1,得到的聚類質(zhì)量越好.

3.3 實(shí)驗(yàn)結(jié)果分析

3.3.1 實(shí)驗(yàn)環(huán)境和說(shuō)明

實(shí)驗(yàn)使用Pycharm工具作為軟件開(kāi)發(fā)平臺(tái),使用Windows10操作系統(tǒng),計(jì)算機(jī)處理器為Intel(R) Core(TM) i7-6700 CPU @ 3.40GHz,GPU為Nvidia GeForce GTX 1060 6GB.

3.3.2 實(shí)驗(yàn)結(jié)果

3.3.2.1 特征提取方法的對(duì)比

為了驗(yàn)證本課題設(shè)計(jì)的CBL深度特征提取網(wǎng)絡(luò)能否有效地提取醫(yī)藥專利深層特征,以及是否提升醫(yī)藥專利文本聚類的性能,與常用于文本聚類的TF-IDF[8],LSA[9]和CNN特征提取方法進(jìn)行了比較.在實(shí)驗(yàn)過(guò)程中僅改變特征提取的方法,其他步驟處理相同.實(shí)驗(yàn)結(jié)果如表3所示.

表3 在不同特征提取方法的比較

實(shí)驗(yàn)結(jié)果表明,神經(jīng)網(wǎng)絡(luò)模型在特征提取上更具有優(yōu)勢(shì).同時(shí)本文提出的CBL深度特征提取網(wǎng)絡(luò)是對(duì)典型CNN的改進(jìn),較典型CNN特征提取方法得到的聚類結(jié)果各指標(biāo)提升了3%以上.因此,本文設(shè)計(jì)的特征提取方法能更好地提取醫(yī)藥專利文本特征.

3.3.2.2 模型對(duì)比

為了驗(yàn)證本文提出的醫(yī)藥專利文本聚類模型的整體聚類性能,同現(xiàn)有的KNN,NB,SVM[10]和RF[11]專利文本劃分模型進(jìn)行了對(duì)比實(shí)驗(yàn).在實(shí)驗(yàn)過(guò)程中文本預(yù)處理步驟處理相同,實(shí)驗(yàn)結(jié)果如表4所示.實(shí)驗(yàn)結(jié)果表明,本文模型在四個(gè)指標(biāo)上都表現(xiàn)很好,得到的值在94%以上且比較穩(wěn)定,與現(xiàn)有的專利文本劃分模型相比,得到的聚類效果更好.

表4 各模型之間的對(duì)比

4 結(jié)語(yǔ)

本文主要是針對(duì)醫(yī)藥專利文本數(shù)據(jù)進(jìn)行的聚類研究,本文提出的基于深度神經(jīng)網(wǎng)絡(luò)的文本聚類模型也可以應(yīng)用于其他復(fù)雜長(zhǎng)文本的聚類分析.在未來(lái)的研究過(guò)程中,深度特征提取網(wǎng)絡(luò)的CNN部分,本文使用的是1-Maxpooling進(jìn)行池化,今后可以嘗試使用動(dòng)態(tài)k-Maxpooling進(jìn)行池化,來(lái)進(jìn)一步提升復(fù)雜長(zhǎng)文本的特征提取質(zhì)量.

猜你喜歡
特征提取醫(yī)藥聚類
《醫(yī)藥導(dǎo)報(bào)》第十屆編委會(huì)成員名單
《云南醫(yī)藥》雜志征訂啟事
古代醫(yī)藥文化大眾傳播方式概述
我國(guó)蒙醫(yī)藥法律保護(hù)的意義
空間目標(biāo)的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
基于特征提取的繪本閱讀機(jī)器人設(shè)計(jì)方案
基于Daubechies(dbN)的飛行器音頻特征提取
面向WSN的聚類頭選舉與維護(hù)協(xié)議的研究綜述
基于高斯混合聚類的陣列干涉SAR三維成像
威宁| 泰来县| 城步| 尉犁县| 遵义县| 永顺县| 临漳县| 鄂州市| 江城| 龙口市| 会东县| 武功县| 靖州| 轮台县| 砚山县| 黄陵县| 柯坪县| 米泉市| 岐山县| 治县。| 辽宁省| 龙海市| 南开区| 合江县| 巨野县| 海淀区| 眉山市| 商都县| 万源市| 梅河口市| 德令哈市| 兴化市| 林芝县| 大名县| 牡丹江市| 遵义县| 罗城| 石林| 略阳县| 巫溪县| 荣成市|