阮光冊 周萌葳
(華東師范大學(xué)經(jīng)濟與管理學(xué)部信息管理系 上海 200241)
專利是技術(shù)創(chuàng)新的最大信息來源,囊括了全球90%以上的最新技術(shù)情報[1]。專利技術(shù)主題聚類,可以有效剖析領(lǐng)域發(fā)展現(xiàn)狀和共性技術(shù),把握技術(shù)發(fā)展脈絡(luò)、定位技術(shù)前沿?zé)狳c和關(guān)鍵技術(shù)的研究趨勢,從而為科研工作者和政府決策部門提供重要的參考依據(jù)。為此,如何針對專利文獻的特征來完成高時效、高質(zhì)量的專利技術(shù)主題識別,是當(dāng)下情報學(xué)領(lǐng)域所需要探索和解決的重要難題。
目前,專利技術(shù)主題聚類最簡單的方式是通過IPC分類,但由于IPC分類號所代表的專利技術(shù)含義較為寬泛,相同IPC分類號所包含的技術(shù)信息也存在較大差異,為此,使用IPC分類號進行專利技術(shù)分類,無法實現(xiàn)技術(shù)主題的細化,不利于領(lǐng)域技術(shù)主題的深度探究。此外,專利分類重新修訂后,不再對已分類專利進行重新分類,因此將會產(chǎn)生“過檔文獻”[2],這意味著當(dāng)IPC分類號被修改后,使用舊版分類號的部分專利無法被檢索出來;隨著文本挖掘技術(shù)的廣泛應(yīng)用,借助信息技術(shù)對專利文獻進行技術(shù)主題特征識別成為可能。一方面,以主題詞作為輔助,可以獲得更詳盡的IPC分類之間的關(guān)聯(lián)關(guān)系[3]。另一方面,采用文本挖掘方法,獲得專利文獻摘要或全文中的核心詞[4],能夠挖掘隱含在專利文獻中的大量非結(jié)構(gòu)化信息,實現(xiàn)專利技術(shù)主題聚類。然而,由于專利文獻為了保持其新穎性以及避開專利雷區(qū)[5],會使用獨特或不常用的詞或短語進行技術(shù)描述,這也增加了采用文本挖掘方法進行專利技術(shù)主題聚類的難度。
針對以上問題,本文將Sentence-Bert算法引入專利技術(shù)主題識別研究,通過對專利摘要的句子進行相似性判斷,將語義相似的專利文獻進行聚類,并提取聚類后的主題,通過文本分析挖掘出領(lǐng)域?qū)@夹g(shù)主題的研究熱點。最后,本文以2015-2019年長三角地區(qū)的人工智能專利數(shù)據(jù)作為研究對象,識別人工智能領(lǐng)域的研究熱點,并將結(jié)果對比LDA主題模型、K-means、doc2vec等方法,得出相應(yīng)的結(jié)論。
專利技術(shù)主題識別的分析方式主要包括專家分析法、專利引證法[6-8]、文獻計量法[9-11]和內(nèi)容分析法等。
專家分析法主要是通過德爾菲調(diào)查或技術(shù)路線圖法從專利數(shù)據(jù)中中獲取關(guān)鍵技術(shù)信息。由于該方法存在一定的主觀性,往往被用于分析對象無法通過客觀方式收集時使用[12]。專利引證法和文獻計量法更多的是通過對專利的外部特征進行測度,以達到把握科技演變情況和探索科技關(guān)聯(lián)規(guī)律的目標,而專利的內(nèi)容分析法是對專利的內(nèi)部特征進行可再觀的、有效的推斷[13],從而達到評估專利質(zhì)量、預(yù)測專利分類、挖掘研究熱點、展望前沿趨勢等目的。
近年來,采用文本挖掘技術(shù)對專利技術(shù)主題的探究和分析成為研究熱點,通過對專利文本的內(nèi)容進行分析,可以有效挖掘?qū)@芯繜狳c、識別專利技術(shù)主題?,F(xiàn)有研究中,專利技術(shù)主題識別大致可劃分為四種技術(shù)路線:一是基于專利技術(shù)主題詞和主題詞關(guān)聯(lián)表征,對專利文本的主題進行研究,如王莎莎等[14]通過建立技術(shù)之間的關(guān)聯(lián)關(guān)系,實現(xiàn)在行業(yè)視角下的技術(shù)關(guān)聯(lián)趨勢探索;二是基于共詞分析和共現(xiàn)網(wǎng)絡(luò)對專利文獻進行建模,獲取專利文本的主題,如張振剛等[15]以關(guān)鍵詞共現(xiàn)的思想繪制了人工智能領(lǐng)域的專利共現(xiàn)知識圖譜,從而發(fā)現(xiàn)人工智能的關(guān)鍵技術(shù)和熱點分布;三是采用聚類算法,以關(guān)鍵詞共現(xiàn)矩陣[16-17]或?qū)@鸌PC分類號[18-19]為基礎(chǔ),通過聚類分析來確定領(lǐng)域熱點情況;四是基于主題模型的方式對專利文獻進行特征提取、語義提取等操作,從而發(fā)現(xiàn)文獻潛在的知識結(jié)構(gòu)和主題關(guān)聯(lián)。羅建等[20]提出采用LDA主題模型來對專利全文進行聚類,從而實現(xiàn)對專利文本內(nèi)容更細粒度的主題表征。
然而,由于專利文本的特殊性,采用上述方法對專利文獻進行技術(shù)主題識別時,會存在著以下幾個問題:一是專利文獻普遍缺少關(guān)鍵詞標簽,無法將其視作為類似于科技文獻的普通文本數(shù)據(jù)來進行處理[21]。在專利文本挖掘技術(shù)中,主題詞也無法完全囊括專利所包含的全部內(nèi)容[22],為此,采用常規(guī)的文本處理技術(shù)無法達到良好的技術(shù)主題識別效果;二是若僅用IPC、CPC等分類號等來對專利進行主題識別,無法精確識別專利技術(shù)融合交叉程度[23],并且會導(dǎo)致專利在分類過程中的粒度過粗問題;三是專利文獻存在著語言表達晦澀難懂、文本詞匯專業(yè)性強且技術(shù)語境較為復(fù)雜[24]等特點,而LDA主題模型更傾向于高頻詞之間的共現(xiàn)關(guān)系[25],使得采用主題模型進行專利技術(shù)主題識別時存在著語義信息有限、主題辨識度低等問題。
隨著深度學(xué)習(xí)在自然語言處理研究上取得突破性進展,一些學(xué)者們開始嘗試采用深度學(xué)習(xí)算法挖掘?qū)@墨I中深層次的主題信息。徐紅姣等[26]采用word2vec來生成領(lǐng)域的關(guān)鍵詞向量,通過詞向量的計算來獲取主題的語義相似度,構(gòu)建論文-專利主題關(guān)聯(lián)演化圖譜。曹祺等[27]采用doc2vec模型計算專利文獻的語義相似度,論證了doc2vec優(yōu)于傳統(tǒng)的相似度檢測模型,為專利技術(shù)主題識別的挖掘奠定了堅實的基礎(chǔ)。
目前,采用深度學(xué)習(xí)算法對專利文獻進行主題識別的研究仍存在一定的進步空間。受doc2vec模型將文檔表示為向量的啟發(fā),本文提出了一種新的專利文獻主題識別方法,在探索特定領(lǐng)域?qū)@难芯繜狳c時引入了深度學(xué)習(xí)方法,以專利的摘要作為專利熱點研究的識別對象,將Sentence-BERT算法運用到專利摘要向量化模型當(dāng)中,并將處理結(jié)果與聚類分析、主題詞提取等方法相結(jié)合,共同探究專利熱點主題的語義描述。
專利文獻包含有結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息。結(jié)構(gòu)化信息包括專利的申請?zhí)?、發(fā)明人、所屬國、IPC分類號以及申請日和授權(quán)日等信息,非結(jié)構(gòu)化信息則主要包括專利摘要、全文和權(quán)利要求等。相對于專利的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化信息中摘要和全文包含了更多與專利技術(shù)主題有關(guān)的描述,而專利摘要信息不僅包含了專利技術(shù)主題的概括性描述,也涵蓋了專利的主要技術(shù)范疇,在專利技術(shù)主題挖掘中具有重要的意義。為此,本文的實驗選擇專利文獻的摘要作為數(shù)據(jù)源進行技術(shù)主題識別。
本文設(shè)計的對專利技術(shù)主題聚類和識別過程由四個部分組成:首先,采用Sentence-BERT算法對專利文獻摘要文本進行向量化表示,實現(xiàn)文本基于句向量的篇章語義表示。由于Sentence-BERT 可以能夠獲得在語義上有足夠意義的句向量,實現(xiàn)專利文獻的相似度計算,有效解決專利摘要文獻語義特征稀疏的問題;其次,采用UMAP算法對文本向量化矩陣進行數(shù)據(jù)降維,UMAP是一種非常有效的可伸縮降維算法,算法在保留了摘要文本更多全局結(jié)構(gòu)信息的同時,將高維概率分布映射到低維空間;隨后本文利用HDBSCAN方式尋找原始數(shù)據(jù)中的高密度簇專利文獻的聚類操作;最后,識別類簇文本集合中的主題特征,并完成主題呈現(xiàn)。具體步驟如圖1所示:
圖1 基于Sentence-BERT的專利主題識別研究框架
專利文獻主題識別的首要任務(wù)是將文本轉(zhuǎn)換為機器可以識別的向量。由于專利文獻為保持其新穎性,往往使用獨特或不常用的詞或短語來表達常見性語義,致使語言表達晦澀[5],使得采用簡單的文本分詞,對詞匯進行向量化處理,很難有效地獲得專利主題的識別。目前,解決文本聚類和語義搜索一種常用的方法是將文本中的句子映射到一個向量空間中,識別語義相似的句子。Sentence-BERT(簡稱SBERT)是Reimers N.等人在2019年提出的句子向量計算模型,通過生成句子的Embedding向量,找出語義相似的句子[28]。
Sentence-BERT是對BERT語言模型的一種改進,主要是解決Bert模型進行文本語義相似度計算需要巨大的時間開銷[28]。模型使用Siamese and Triplet Network(孿生網(wǎng)絡(luò)和三重態(tài)網(wǎng)絡(luò)),獲取句子對的向量表示,然后進行相似度模型的預(yù)訓(xùn)練,Sentence-BERT模型能夠獲得在語義上有足夠意義的篇章向量。
Sentence-BERT采用孿生網(wǎng)絡(luò)的結(jié)構(gòu),對于兩個句子(或短文本)的Sentence Encoder使用同一個BERT,并在其后加入了一個池化(pooling)操作來實現(xiàn)輸出相同大小的句向量。對于句子(或短文本)的相似度任務(wù),直接計算并輸出余弦相似度。下圖顯示了Sentence-BERT針對句子(文本)相似度計算的流程。
圖2中,將句子對輸入到參數(shù)共享的兩個BERT模型中,然后BERT輸出句子的所有字向量傳入Pooling層進行平均池化(既是在句子長度這個維度上對所有字向量求均值)獲取到每個句子的句向量表示。Sentence-BERT能夠很好的捕捉句子之間的關(guān)系,使用余弦相似度來衡量兩個句向量之間的相似性,提升了推理的速度。
圖2 Sentence-BERT完成文本相似度任務(wù)流程圖
Sentence-BERT擴展了預(yù)訓(xùn)練的BERT模型,模型使用Sentence Transformer,可通過加載預(yù)訓(xùn)練模型,實現(xiàn)從一組文檔中創(chuàng)建文檔嵌入。目前,預(yù)先訓(xùn)練好的模型應(yīng)用于下游任務(wù)主要有基于特征和基于微調(diào)這兩種方式,該兩種方式均使用單向的語言模型來學(xué)習(xí)一般的語言表征[29]。實驗中,本文采用distiluse-base-multilingual-cased-v1包( 下載地址:https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/。distilbert-base-nli-mean-tokens是以預(yù)訓(xùn)練DistilBERT-base模型在NLI數(shù)據(jù)集上進行微調(diào)的SBERT模型,該模型使用均值池化策略計算句子表示。)作為預(yù)訓(xùn)練模型,該模型在嵌入句子和段落與嵌入搜索查詢方面的質(zhì)量得到了廣泛的評估。為了更好的將預(yù)訓(xùn)練模型應(yīng)用于本文方法,實驗中,對預(yù)訓(xùn)練模型進行微調(diào)(fine-tune)操作。具體步驟為:隨機抽取原始數(shù)據(jù)集中的4000條數(shù)據(jù)采用余弦相似度計算,并對計算結(jié)果進行人工判定,將結(jié)果作為訓(xùn)練數(shù)據(jù)輸入到初始模型當(dāng)中,設(shè)置迭代次數(shù)為20,完成預(yù)訓(xùn)練模型的微調(diào)。
Sentence-BERT語言模型首先采用BERT進行文本預(yù)訓(xùn)練,由于BERT的中文模型通常采用512個字符的長度限制,為此預(yù)訓(xùn)練后的文檔將變成N*512(N為文件數(shù))的向量矩陣,隨著N的增加,將形成高維數(shù)據(jù)集。為達到去除冗余特征,提高文本的聚類效果,需要對向量矩陣進行數(shù)據(jù)降維操作。為此,本文提出了使用UMAP (Uniform Manifold Approximation and Projection)進行降維的方式。UMAP是L McInnes等人[30]于2018年提出的一種新的降維技術(shù),其理論基礎(chǔ)黎曼幾何和代數(shù)拓撲,主要利用局部流形逼近和局部模糊單純形集表示來構(gòu)造高維數(shù)據(jù)的拓撲表示,即對于高維數(shù)據(jù)來說,給定一些數(shù)據(jù)的低維表示,就可以使用類似的過程來構(gòu)造等價的低維拓撲表示。目前,UMAP是文本向量降維效果最好的一個方法。在數(shù)據(jù)降維的過程中采用UMAP方式,既可以減少計算復(fù)雜度和內(nèi)存使用量,又可以最大程度地保留原始數(shù)據(jù)的特征[31],相對于T-SNE降維[32],UMAP的優(yōu)點有三:一是其能夠盡可能多的保留全局結(jié)構(gòu),二是其耗時更短,三是其對嵌入維數(shù)沒有限制,故可以擴展到更大的維度的數(shù)據(jù)集。
為了能更好的抽取專利文獻中的主題信息,本文首先對獲得的文本向量矩陣進行聚類。在聚類時本文選擇了由 Campello、Moulavi 和 Sander 共同開發(fā)的HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)聚類算法[33],和傳統(tǒng)DBSCAN最大的不同之處在于,HDBSCAN可以處理不同密度的集群聚類問題,并且在參數(shù)選擇方面表現(xiàn)出更加穩(wěn)健的優(yōu)點。HDBSCAN算法引入層次聚類思想,對最小生成樹剪枝的最小子樹做了限制,控制生成的類簇不會過小。此外,算法對參數(shù)敏感度較低,不需要自行設(shè)置閾值,只需定義最小簇的數(shù)量。
對聚類類簇的主題詞抽取,本文采用TF-IDF算法。TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)是一種能根據(jù)詞語在語料庫中出現(xiàn)的頻次來判斷其重要性程度的統(tǒng)計方法。TF表示一個詞在文檔中出現(xiàn)的頻率,頻率越高,則代表該詞出現(xiàn)的次數(shù)越多;IDF表示一個詞在所有文檔中的重要性程度,包含該詞的文檔越少,則該詞更能體現(xiàn)文檔的主題。TF和IDF的具體計算公式如下
(1)
公式(1)反映了關(guān)鍵詞w在文檔Di中出現(xiàn)的頻率;Di為第i個文檔中所有詞的總數(shù)
(2)
公式(2),表示詞w在文檔集合中的普遍程度,N為文檔總數(shù),I表示關(guān)鍵詞w是否出現(xiàn)在Di文檔中,一個詞w越普遍,其IDF值越低。
TF-IDF的公式為TF*IDF。TF-IDF算法認為,如果某個詞在一篇文章中出現(xiàn)的頻次高,且在其他文章中很少出現(xiàn),那么這個詞就具有很好的類別區(qū)分能力。因此,采用TF-IDF可以用以評估一個詞對于一篇文章的重要性。
運用這個思想,可以將一個主題簇群中的所有文檔視為一個單一文檔C來應(yīng)用TF-IDF方法,可以得到一個主題簇群中的詞的重要性得分C-TF-IDF。在一個聚類簇群中,詞匯越重要越能代表該主題。用此方法來即可挖掘出各個簇群中的主題詞,從而對不同主題進行描述和刻畫。
本文運用上文提出的研究思路,以人工智能領(lǐng)域?qū)@麛?shù)據(jù)進行實驗。具體的研究流程為:
a.獲取專利文獻的摘要數(shù)據(jù),采用基于BERT的Sentence Transformer模型對專利摘要數(shù)據(jù)進行向量化表示,在預(yù)訓(xùn)練包distiluse-base-multilingual-cased-v1的基礎(chǔ)上進行模型微調(diào)操作,使用二次訓(xùn)練模型完成文檔集的嵌入;
b.采用UMAP算法對文檔集嵌入后生成的向量化矩陣數(shù)據(jù)進行流式降維,將高維數(shù)據(jù)數(shù)據(jù)映射到低維空間;
c.采用HDBSCAN尋找低維空間數(shù)據(jù)中的高密簇,形成具有主題意義的類簇,并可視化聚類結(jié)果。
d.采用TF-IDF的方式對聚類類簇中的核心關(guān)鍵詞進行提取,通過人工主題歸并方式識別人工智能領(lǐng)域?qū)@闹黝}特征。
e.以上述實驗對比采用共詞分析、LDA主題模型、K-means、doc2vec等方式來對專利文檔進行的主題挖掘,驗證本文提出的方法的實用性。
本文選取了incoPat科技創(chuàng)新情報檢索平臺上長三角地區(qū)有關(guān)人工智能領(lǐng)域的專利數(shù)據(jù),檢索時間為2020年11月10日,檢索時間范圍為2015—2019年,檢索主題詞為“人工智能”or“模式識別”or“自然語言處理”or“ 語音識別”or“圖像識別”or“視頻識別”or“虹膜識別”or“智能處理器”or“智能機器人”or“專家系統(tǒng)”or“智能搜索”or“智能駕駛”or“機器學(xué)習(xí)”or“深度學(xué)習(xí)”or“神經(jīng)網(wǎng)絡(luò)”or“計算機視覺”or“認知計算”,專利申請地址包含江浙滬皖3省1市,同時過濾掉檢索報告、譯文、和短期專利。檢索后的數(shù)據(jù)集見圖3。
圖3 獲取的專利數(shù)據(jù)(部分)
對于獲取的數(shù)據(jù),為了便于分析,本文首先按照專利申請?zhí)栠M行合并,優(yōu)先保留授權(quán)專利記錄,隨后,選取發(fā)明專利作為研究對象,最后,對專利數(shù)據(jù)進行去重操作。經(jīng)過數(shù)據(jù)篩選,本文最終得到22370條專利數(shù)據(jù)。
BERT的中文模型通常由512個字符的長度限制,為此,實驗前,本文對摘要數(shù)據(jù)的長度進行了統(tǒng)計,統(tǒng)計結(jié)果如下:
表1 摘要字數(shù)統(tǒng)計
從結(jié)果來看,數(shù)據(jù)集中每篇專利摘要的字符均低于512,因此不需要做切割或補齊操作,考慮到文本的平均長度為259,采用Sentence-BERT用對文檔數(shù)據(jù)進行句子向量化計算。經(jīng)過上述預(yù)處理,最終形成實驗基礎(chǔ)數(shù)據(jù)。
實驗中,本文載入經(jīng)過fine-tune操作的多語言模型distiluse-base-multilingual-cased-v1包作為文檔數(shù)據(jù)的預(yù)訓(xùn)練模型,采用 Sentence-BERT對22370條專利摘要數(shù)據(jù)進行文檔向量化表示,最終得到22370行*512列的向量化矩陣。
在UMAP對文本向量進行非線性降維的過程中,考慮到降低計算復(fù)雜度及內(nèi)存使用率,主要的參數(shù)設(shè)定為:n_neighbors=15,n_components=2,并采用余弦相似度的方式來構(gòu)建向量相似度矩陣。
為了便于向量可視化,本文采用降維后的二維向量來描述每一篇人工智能專利摘要,經(jīng)過HDBSCAN來對文檔進行聚類。在聚類結(jié)果上發(fā)現(xiàn)的高密度簇,可以認為是人工智能領(lǐng)域的研究熱點。HDBSCAN的重要參數(shù)主要有最小生成簇類大小min_cluster_size。當(dāng)min_cluster_size數(shù)值增大時,最小簇中所聚類的文檔數(shù)越多,挖掘得到的主題數(shù)量越少,主題分類越不明顯。當(dāng)min_cluster_size數(shù)值越小,聚類所需文檔的數(shù)目越少,則更可以挖掘出更精細化的主題。本文經(jīng)過實驗發(fā)現(xiàn),當(dāng)min_cluster_size=100時,簇與簇之間區(qū)別較為明顯,且主題精細化程度較高,為此將100作為最小生成簇的值。文檔向量經(jīng)過聚類計算后,共形成30個高密度簇。
TF-IDF方法對文本集進行核心關(guān)鍵詞提取過程中,較依賴與數(shù)據(jù)的預(yù)處理結(jié)果,為此,文本構(gòu)建人工智能專利的停用詞表,對專利摘要數(shù)據(jù)進行分詞、去停用詞等操作,對于專利文獻中出現(xiàn)的專有名詞,本文借助了人工識別和并參考了《漢語主題詞表》( 《漢語主題詞表》,網(wǎng)址:https://ct.istic.ac.cn/site/organize/word),通過實驗結(jié)果的不斷修正,最終構(gòu)建了領(lǐng)域詞典,以便于高效的完成分詞,并為后續(xù)主題詞識別提供高質(zhì)量的語料庫。
對于30個聚類結(jié)果,本文將每一個簇里的所有文檔數(shù)據(jù)進行匯總,視為一個單一文檔來應(yīng)用TF-IDF,得到每一個簇內(nèi)(即每一個主題內(nèi))的重要性詞匯。根據(jù)對重要性詞匯進行排序,可以發(fā)現(xiàn),出現(xiàn)次數(shù)越多的詞匯,越能代表該主題,其為主題詞。將該主題內(nèi)排名靠前的重要詞匯進行語義分析,可以挖掘出該主題領(lǐng)域下的研究內(nèi)容。將所有研究內(nèi)容進行匯總,即可得到長三角地區(qū)人工智能領(lǐng)域的研究熱點。
表2展示了30個類簇的技術(shù)主題識別結(jié)果,每個類簇采用5個主題詞進行描述,根據(jù)這些主題詞,通過人工的方式對主題進行命名,共可分為30個技術(shù)主題小類。通過對這30個小類進行觀察和分析,可將其匯總為9個技術(shù)主題大類。
在表2中,編號0,2,4,5,11,14,18,21可共同命名為智能監(jiān)控,每一個子主題可分別命名為電梯監(jiān)測、燈具控制、雷達監(jiān)測、農(nóng)業(yè)監(jiān)測、火災(zāi)警報、水下作業(yè)監(jiān)測、硬件設(shè)施、電力監(jiān)測;編號7,9,13,16,17可共同命名為智能醫(yī)療,每一個子主題可分別命名為智能影像、醫(yī)療成像、心電圖診斷、癌細胞分析、病例共享;編號3,8,10可共同命名為智能駕駛,每一個子主題可分別命名為智能汽車、電動汽車、無人機;編號19,20可共同命名為智能機械,其中包含了電機和硬件設(shè)施兩個子主題;編號22,26,29可共同命名為卷積神經(jīng)網(wǎng)絡(luò),其中包含了神經(jīng)網(wǎng)絡(luò)、卷積權(quán)重和網(wǎng)絡(luò)分割三個子主題;編號6,23可共同命名主題為數(shù)據(jù)平臺,其中包含云端服務(wù)和數(shù)據(jù)庫兩個子主題;編號1,15可共同命名主題為人臉識別,其中包含人臉檢測和人臉特征提取兩個子主題;編號12,25,27,28可共同命名為圖像識別主題,其中又可命名四個子主題為語音識別、視頻識別、硬件設(shè)備和圖像校正。編號24可命名為自然語言處理。
從表2的結(jié)果可以看到,基于Sentence-BERT模型來對專利摘要數(shù)據(jù)進行技術(shù)主題聚類,可以挖掘出更細粒度、更高質(zhì)量、更深層次的主題,有助于分析探討技術(shù)主題中的細分特征,顯著提升技術(shù)主題的多樣性和可解釋性。
為進一步分析獲得的9個技術(shù)主題之間的相似性,本文采用JS散度算法[34]對獲得的9個技術(shù)主題間概率分布的相似度進行計算,并采用gephi來畫圖。其中,節(jié)點的大小代表著專利數(shù)量的多少,節(jié)點越大表示專利數(shù)量越多;邊顏色的深淺表示了主題之間的相關(guān)程度,顏色越深、線條代表著兩個主題相似度越高,相關(guān)性越強。具體如圖4所示。
圖4 專利技術(shù)主題相似度關(guān)系圖
從圖中可以看出,音圖識別、智能駕駛、智能監(jiān)控、卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)在人工智能領(lǐng)域的專利數(shù)量較大,而人臉識別、自然語言處理等技術(shù)的專利申請量較少。此外,智能監(jiān)控與智能醫(yī)療的技術(shù)主題相似度比較高,而卷積神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)平臺、音圖識別與智能駕駛、智能機械與智能駕駛、以及智能監(jiān)控與數(shù)據(jù)平臺等技術(shù)之間均存在一定的技術(shù)主題相似度。值得注意的是,人臉識別技術(shù)從連線的顏色和粗細上可以發(fā)現(xiàn),與其他8個技術(shù)主題的JS散度分布的相似度比較低,說明該技術(shù)的相對“獨立性”。
針對主題相似度判斷結(jié)果,本文對專利摘要進行分析。對于智能監(jiān)控、智能醫(yī)療和人臉識別三個技術(shù)主題,通過人工提取、整理和分析三類主題的技術(shù)分布,可以發(fā)現(xiàn),這三類主題均使用了深度學(xué)習(xí)、機器學(xué)習(xí)、圖像識別等人工智能技術(shù),在使用的技術(shù)上存在一定的相似性;同時,智能監(jiān)控和智能醫(yī)療主題的專利,除了使用上述技術(shù)之外,大多專利均采用了物聯(lián)網(wǎng)、人機交互、模式識別、傳感器檢測等技術(shù),使得這兩個技術(shù)主題的相似度較高;而人臉識別主題涉及到虹膜識別、眼球追蹤、生物指紋等技術(shù),這使得該專利技術(shù)主題與其他主題差別較大,這也是人臉識別主題與其他主題的相似程度較低的重要原因。
為驗證該方法在文本向量化上的有效性,本文采用LDA主題模型、k-means聚類、doc2vec三種方法的實驗結(jié)果作為對照組來進行比較。
采用LDA主題模型來推測專利技術(shù)主題分布,根據(jù)困惑度指標來確定最佳主題個數(shù)為74個;采用K-means來對專利摘要文檔進行聚類,通過手肘法確定最佳聚類數(shù)為8個;采用doc2vec[35]對每篇專利摘要進行向量化表示,在數(shù)據(jù)降維、文本聚類過程中采用的參數(shù)均與Sentence-BERT實驗一致,最終一共得到了7個主題。
本文采用主題一致性指標來衡量不同算法獲得的主題效果。主題一致性通過衡量主題之間高頻詞匯的語義相似程度來為單個主題打分,表示了主題內(nèi)部有意義聯(lián)系的程度,其數(shù)值越大表明模型越佳[36]。本文分別選擇“u_mass”和“c_v”兩種方式計算主題的一致性,通過實驗對比,計算Sentence-BERT、 LDA、k-means和doc2vec四種方式的主題一致性,具體結(jié)果詳見表3。
表3 主題一致性和主題數(shù)量的對比實驗
從表3可見,采用Sentence-BERT模型對文檔進行向量化,得到的u_mass和c_v值均最高,說明本文方法的主題一致性效果最好。從實驗數(shù)據(jù)對比來看,LDA模型獲得的主題一致性是幾種方法中最低的,這也說明專利文獻存在技術(shù)術(shù)語多樣化的特點,使得依據(jù)詞匯之間的共現(xiàn)關(guān)系識別專利技術(shù)主題會造成結(jié)果的不穩(wěn)定。從主題聚類的數(shù)量來看,本文獲的30個類簇,可以較好的細分專利文獻集的主題信息,提升了挖掘的效果。通過比較四種方式的主題建模結(jié)果,本文認為,采用Sentence-BERT模型來對專利摘要進行向量化表示,能夠使得文檔在向量空間中得到更好的表示,從而愈發(fā)豐富文檔的語義描述,最終在主題的精細化挖掘中起到較好的效果。
采用文本挖掘的方法對專利技術(shù)主題進行聚類,可以有效挖掘?qū)@墓残约夹g(shù)。本文采用深度學(xué)習(xí)的思想,結(jié)合向量降維、相似度計算、聚類分析、主題詞提取等方法,對2015-2019年的長三角地區(qū)人工智能領(lǐng)域進行分析。研究表明,采用Sentence-BERT模型能夠在文本向量化過程中更多地考慮上下文之間的語義聯(lián)系,使得文檔更好地在向量空間中被表示,從而可以挖掘出更細粒度、更精細化、更高質(zhì)量、更深層次的主題,有助于分析探討主題中的細分特征,顯著提升主題的多樣性和可解釋性。
本文研究方法的采用Sentence-BERT對句子向量化的方法,解決了專利文獻為突出新穎性,而常使用獨特或不常用的詞或短語所造成的詞匯向量語義特征稀疏問題。但是,基于Sentence-BERT模型對專利文獻的主題識別分析仍有一些需要進一步提高的地方,今后,我們將繼續(xù)探索在聚類處理時如何平衡粗細粒度之間的關(guān)系,以及如何合理的使用fine-tune(微調(diào))策略,完善預(yù)訓(xùn)練語料庫,提高文本向量化處理準確度,以及如何利用遷移學(xué)習(xí)實現(xiàn)跨領(lǐng)域?qū)@墨I的主題識別問題,是未來該方法進一步深入探索的方向。