面向科技文獻(xiàn)的國(guó)內(nèi)外知識(shí)挖掘研究熱點(diǎn)與展望

2024-01-02 14:14:58孫盟盟奚洋洋

河北科技圖苑 2023年5期

孫盟盟奚洋洋

★基金項(xiàng)目：本文系河北省社會(huì)科學(xué)發(fā)展研究課題“數(shù)字人文視域下高校圖書館特藏資源建設(shè)與服務(wù)策略研究”（20230303047）的研究成果。

摘要：以WOS核心合集與CNKI數(shù)據(jù)庫(kù)作為數(shù)據(jù)來(lái)源，運(yùn)用文獻(xiàn)計(jì)量和內(nèi)容分析方法，借助Citespace、VOSviewer對(duì)國(guó)內(nèi)外關(guān)于科技文獻(xiàn)的知識(shí)挖掘研究情況進(jìn)行系統(tǒng)梳理。通過對(duì)發(fā)文趨勢(shì)、作者共現(xiàn)、機(jī)構(gòu)共現(xiàn)和關(guān)鍵詞共現(xiàn)進(jìn)行分析，揭示該領(lǐng)域的熱點(diǎn)主題與發(fā)展趨勢(shì)。研究發(fā)現(xiàn)關(guān)于科技文獻(xiàn)知識(shí)挖掘的熱點(diǎn)主題集中于面向科技創(chuàng)新的知識(shí)挖掘、知識(shí)產(chǎn)權(quán)與主題演化分析、細(xì)粒度知識(shí)抽取及知識(shí)關(guān)聯(lián)挖掘等方面。提出未來(lái)需要探索多樣化的知識(shí)挖掘方法，以更好地開發(fā)科技文獻(xiàn)價(jià)值的相關(guān)建議。

關(guān)鍵詞：科技文獻(xiàn)；知識(shí)挖掘；主題演化；文獻(xiàn)計(jì)量

中圖分類號(hào)：G353.1??? 文獻(xiàn)標(biāo)識(shí)碼：A

DOI：10.13897/j.cnki.hbkjty.2023.0078

隨著科學(xué)技術(shù)的迅猛發(fā)展，知識(shí)更新迭代的周期不斷縮短?？萍嘉墨I(xiàn)作為科學(xué)技術(shù)研究活動(dòng)的成果記錄，每年的總體產(chǎn)出持續(xù)增長(zhǎng)。據(jù)中國(guó)科學(xué)技術(shù)信息研究所發(fā)布的《2022年中國(guó)科技論文統(tǒng)計(jì)報(bào)告》顯示，我國(guó)在國(guó)際頂尖期刊中的論文數(shù)量繼續(xù)保持在世界第二位［1］。與此同時(shí)，根據(jù)WIPO公布的數(shù)據(jù)，我國(guó)專利申請(qǐng)量已連續(xù)多年位居世界第一?？萍嘉墨I(xiàn)作為表達(dá)科學(xué)機(jī)理、闡述研究思路以及展示科技成果的重要載體，其中蘊(yùn)含了豐富的知識(shí)，是科技創(chuàng)新活動(dòng)中最重要的資源。因此，近年來(lái)諸多研究開始探索如何采用大數(shù)據(jù)技術(shù)深入挖掘、集成和利用海量的科技文獻(xiàn)資源，促進(jìn)知識(shí)發(fā)現(xiàn)、知識(shí)增值。而知識(shí)挖掘主要采用知識(shí)抽取、知識(shí)識(shí)別、知識(shí)發(fā)現(xiàn)、分類、聚類等技術(shù)方法，從龐大數(shù)據(jù)資源中自動(dòng)發(fā)現(xiàn)隱藏的知識(shí)和信息，曾廣泛應(yīng)用于智能搜索、深度問答、社交網(wǎng)絡(luò)以及一些垂直行業(yè)。在此背景下，本文擬對(duì)國(guó)內(nèi)外關(guān)于科技文獻(xiàn)資源的知識(shí)挖掘理論、方法、技術(shù)等相關(guān)研究進(jìn)行進(jìn)一步梳理和總結(jié)，以期為后續(xù)研究提供參考和借鑒。

1? 數(shù)據(jù)來(lái)源與研究方法

本研究選擇Web of Science核心合集數(shù)據(jù)庫(kù)作為外文文獻(xiàn)數(shù)據(jù)來(lái)源，從中國(guó)知網(wǎng)平臺(tái)獲取中文文獻(xiàn)。直接以“科技文獻(xiàn)知識(shí)挖掘”為主題進(jìn)行檢索，返回的結(jié)果較少，需要調(diào)整檢索策略進(jìn)行擴(kuò)檢?？紤]到科技文獻(xiàn)的類型主要為科技論文、專利、科技報(bào)告，因此構(gòu)造中文檢索式為：（（主題=科技文獻(xiàn)） OR （主題=科技論文） OR （主題=專利） OR （主題=科技報(bào)告）） AND （（主題=挖掘） OR （主題=識(shí)別） OR （主題=抽?。?OR （主題=發(fā)現(xiàn)） OR （主題=分類） OR （主題=聚類）） AND （主題=知識(shí)），限定文獻(xiàn)類型為期刊論文。外文檢索式為（TS=（scientific paper） OR TS=（patent） OR TS=（scientific Report）） AND （TS=（mining）OR TS=（identify）OR TS=（extract）OR TS=（classify） OR TS=（cluster）） AND （TS=（knowledge）），限定文獻(xiàn)類型為Article，時(shí)間范圍不做設(shè)定，檢索時(shí)間為2023年5月31日。根據(jù)上述檢索策略，清除會(huì)議報(bào)道、資訊簡(jiǎn)介、書評(píng)等，共獲得中文文獻(xiàn)1 121篇，外文文獻(xiàn)9 160篇。

在研究方法上，本文采用文獻(xiàn)計(jì)量和圖譜可視化的方式對(duì)國(guó)內(nèi)外關(guān)于科技文獻(xiàn)知識(shí)挖掘的相關(guān)論文進(jìn)行分析。其中，針對(duì)發(fā)文趨勢(shì)、作者共現(xiàn)、機(jī)構(gòu)共現(xiàn)的分析通過Citespace進(jìn)行梳理；在分析熱點(diǎn)研究主題及應(yīng)用時(shí)，借助VOSviewer可視化工具進(jìn)行，對(duì)數(shù)據(jù)進(jìn)行布局，調(diào)整標(biāo)簽、節(jié)點(diǎn)，最后根據(jù)圖譜總結(jié)歸納相關(guān)主題。

2? 國(guó)內(nèi)外發(fā)文趨勢(shì)分析

2.1? 年度發(fā)文量分析

發(fā)文量的年度變化趨勢(shì)是衡量某一研究領(lǐng)域發(fā)展態(tài)勢(shì)的關(guān)鍵指標(biāo)［2］。關(guān)于科技文獻(xiàn)知識(shí)挖掘研究的國(guó)內(nèi)外論文發(fā)文時(shí)間如圖1所示，從圖1可看出國(guó)際上的相關(guān)研究最早可追溯到1994年前后，國(guó)內(nèi)大概始于2000年。早期研究主要以科技文獻(xiàn)資源的發(fā)現(xiàn)為主，國(guó)內(nèi)外年度產(chǎn)出整體呈穩(wěn)定增長(zhǎng)態(tài)勢(shì)。2006年，我國(guó)召開全國(guó)科學(xué)技術(shù)大會(huì)，相關(guān)研究逐漸增多。從國(guó)際整體發(fā)文趨勢(shì)來(lái)看，2016年成為文獻(xiàn)激增的拐點(diǎn)，大數(shù)據(jù)、人工智能技術(shù)的飛速發(fā)展，為科技文獻(xiàn)的知識(shí)挖掘提供了方法和技術(shù)支撐。2023年文獻(xiàn)量因未完整統(tǒng)計(jì)不作參考?？梢灶A(yù)見，知識(shí)挖掘在未來(lái)很長(zhǎng)一段時(shí)間內(nèi)都會(huì)是知識(shí)組織、知識(shí)服務(wù)等領(lǐng)域的研究重點(diǎn)。

2.2? 研究作者及主要發(fā)文機(jī)構(gòu)分析

2.2.1? 研究作者及共現(xiàn)分析

普賴斯定律［2］可預(yù)測(cè)研究主題的核心作者群體，公式為：m≈0.749（Nmax ）1/2，發(fā)文數(shù)超過m的作者即為核心作者，Nmax是最高產(chǎn)作者的發(fā)文數(shù)。根據(jù)檢索數(shù)據(jù)，國(guó)內(nèi)發(fā)表文獻(xiàn)量排名前十的作者見表1，其中，黃魯成、蔡虹、許海云均發(fā)文11篇，計(jì)算可知滿足發(fā)文量超過 3 篇的核心作者共59位，累計(jì)發(fā)文194篇，約占全部發(fā)文的17.3%；國(guó)外發(fā)表文獻(xiàn)量排名前十的作者見表2，其中，Yoon Janghyeok發(fā)文18篇，計(jì)算可知滿足發(fā)文量超過4篇的核心作者共482位，累計(jì)發(fā)文1 958篇，約占全部發(fā)文的21.4%?？傮w來(lái)看，國(guó)內(nèi)外均未形成核心作者群體。

基于中國(guó)知網(wǎng)文獻(xiàn)數(shù)據(jù)，使用Citespace設(shè)定時(shí)間節(jié)點(diǎn)為“2000年1月至2023年5月”，時(shí)間切片為“1年”，節(jié)點(diǎn)類型選擇“author”，生成國(guó)內(nèi)20多年科技文獻(xiàn)知識(shí)挖掘研究領(lǐng)域的作者合作網(wǎng)絡(luò)圖譜（圖2）：節(jié)點(diǎn)數(shù)量N=198，連線數(shù)E=77，網(wǎng)絡(luò)密度D=0.0039，可見該研究領(lǐng)域的作者合作較少且分散；外文文獻(xiàn)數(shù)據(jù)分析保持其他參數(shù)及默認(rèn)值不變，設(shè)定時(shí)間節(jié)點(diǎn)為“1994年1月至2023年5月”，生成國(guó)外近30年相關(guān)研究領(lǐng)域的作者合作網(wǎng)絡(luò)圖譜（圖3）：節(jié)點(diǎn)數(shù)量N=272，連線數(shù)E=387，網(wǎng)絡(luò)密度D=0.0105，該研究領(lǐng)域的國(guó)際學(xué)者已形成一定合作團(tuán)隊(duì)，但仍有一部分研究者是獨(dú)立發(fā)表。

2.2.2? 發(fā)文機(jī)構(gòu)及共現(xiàn)分析

從發(fā)文機(jī)構(gòu)的文獻(xiàn)數(shù)量來(lái)看，國(guó)內(nèi)發(fā)文量排在前五位的機(jī)構(gòu)分別是中國(guó)科學(xué)院大學(xué)（43篇）、中國(guó)科學(xué)技術(shù)信息研究所（38篇）、大連理工大學(xué)（36篇）、北京工業(yè)大學(xué)（29篇）和中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心（25篇），基本集中于北京地區(qū)；國(guó)外發(fā)文量排在前五位的機(jī)構(gòu)分別為加州大學(xué)（197篇）、法國(guó)研究型大學(xué)聯(lián)盟（173篇）、倫敦大學(xué)（159篇）、法國(guó)國(guó)家科學(xué)研究中心（131篇）、哈佛大學(xué)（109篇），基本為歐美大學(xué)。

對(duì)科技文獻(xiàn)知識(shí)挖掘研究進(jìn)行機(jī)構(gòu)共現(xiàn)網(wǎng)絡(luò)分析，保持其他參數(shù)不變，節(jié)點(diǎn)類型選擇“Institution”，國(guó)內(nèi)作者合作網(wǎng)絡(luò)圖譜如圖4所示（閾值設(shè)定為5），國(guó)外作者合作網(wǎng)絡(luò)圖譜如圖5所示（閾值設(shè)定為50）。從圖4可知，國(guó)內(nèi)發(fā)文機(jī)構(gòu)仍以獨(dú)立發(fā)文居多，機(jī)構(gòu)合作以中國(guó)科學(xué)技術(shù)信息研究所、中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心為中心的合作網(wǎng)絡(luò)較為凸顯，區(qū)域內(nèi)合作僅凸顯出武漢地區(qū)的小范圍合作網(wǎng)絡(luò)；從圖5中可看出，國(guó)外發(fā)文機(jī)構(gòu)間的合作較為普遍，以加州大學(xué)、倫敦大學(xué)、哈佛大學(xué)等形成的合作集群較為突出，形成了一定的研究合力。加州大學(xué)是多個(gè)研究機(jī)構(gòu)的連接紐帶。

3? 科技文獻(xiàn)知識(shí)挖掘研究主題分析

研究借助VOSviewer工具對(duì)論文關(guān)鍵詞進(jìn)行分析，構(gòu)建文獻(xiàn)共詞網(wǎng)絡(luò)，洞悉該領(lǐng)域的熱點(diǎn)主題以及各主題之間的關(guān)系。具體實(shí)現(xiàn)過程為：中文分析所有文獻(xiàn)；外文因數(shù)量較多，僅選取SSCI和SCI來(lái)源期刊的論文作為樣本數(shù)據(jù)。關(guān)鍵詞頻次設(shè)定為5，生成中文論文關(guān)鍵詞共現(xiàn)圖譜（圖6）和外文論文關(guān)鍵詞共現(xiàn)圖譜（圖7）。其中，元素的顏色代表所屬聚類，可看出國(guó)內(nèi)關(guān)于科技文獻(xiàn)知識(shí)挖掘研究的共同關(guān)注點(diǎn)集中于知識(shí)產(chǎn)權(quán)、專利、知識(shí)圖譜、科技文獻(xiàn)、數(shù)據(jù)挖掘、專利信息等；國(guó)外關(guān)注點(diǎn)集中于創(chuàng)新、專利、文獻(xiàn)計(jì)量學(xué)、系統(tǒng)評(píng)價(jià)、文本分析、氣候變化、藥用植物等。國(guó)內(nèi)外共同點(diǎn)在于：研究對(duì)象集中于知識(shí)產(chǎn)權(quán)、專利和科技論文，研究主題主要涉及科技文獻(xiàn)的技術(shù)創(chuàng)新、知識(shí)抽取、知識(shí)關(guān)聯(lián)、知識(shí)發(fā)現(xiàn)、分類與聚類、主題分析與演化等，采用方法主要包括文獻(xiàn)計(jì)量分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、內(nèi)容分析、社會(huì)網(wǎng)絡(luò)分析等。同時(shí)，可以看出國(guó)際上對(duì)科技文獻(xiàn)的知識(shí)挖掘已逐漸深入到細(xì)分學(xué)科領(lǐng)域，如醫(yī)學(xué)、生態(tài)學(xué)、藥理學(xué)等。

根據(jù)圖譜揭示的研究概況，并對(duì)樣本文獻(xiàn)進(jìn)行內(nèi)容分析，可發(fā)現(xiàn)國(guó)內(nèi)外相關(guān)研究主題主要集中于科技創(chuàng)新的知識(shí)挖掘、知識(shí)產(chǎn)權(quán)與主題演化分析、基于機(jī)器學(xué)習(xí)的細(xì)粒度知識(shí)抽取、知識(shí)關(guān)聯(lián)挖掘與知識(shí)網(wǎng)絡(luò)構(gòu)建、科技文獻(xiàn)的分類與聚類五個(gè)方面。

3.1? 面向科技創(chuàng)新的知識(shí)挖掘

從圖6、7可看出，相關(guān)研究中“創(chuàng)新”這一關(guān)鍵詞出現(xiàn)頻率較高。從根本上而言，科學(xué)研究及對(duì)科研成果的知識(shí)挖掘都是為了促進(jìn)科技創(chuàng)新。因此，國(guó)內(nèi)外學(xué)者開展了較多支持科技創(chuàng)新的知識(shí)挖掘研究，具體包括對(duì)科技文獻(xiàn)中創(chuàng)新點(diǎn)的挖掘、技術(shù)創(chuàng)新識(shí)別、基于內(nèi)容的創(chuàng)新性測(cè)度等。針對(duì)創(chuàng)新點(diǎn)的挖掘，張楠等

［3］以石墨烯領(lǐng)域的論文和專利為研究樣本，采用LDA2Vec主題模型和Kmeans聚類算法進(jìn)行了硬科技創(chuàng)新候選技術(shù)主題挖掘。R.K.Amplayo等［4］以arXiv中一定時(shí)間范圍內(nèi)的科技論文作為數(shù)據(jù)集，構(gòu)建了基于作者、關(guān)鍵詞、主題詞等實(shí)體的引用圖譜，當(dāng)新的論文被添加時(shí)，圖譜的變化會(huì)體現(xiàn)出該論文的創(chuàng)新點(diǎn)，將其輸入自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)中能實(shí)現(xiàn)創(chuàng)新檢測(cè)。針對(duì)創(chuàng)新技術(shù)的識(shí)別，周瀟等［5］以語(yǔ)音識(shí)別領(lǐng)域的專利文本數(shù)據(jù)為例，通過Word2Vec構(gòu)建領(lǐng)域技術(shù)主題的詞向量語(yǔ)義網(wǎng)絡(luò)，并利用CFDP算法識(shí)別出潛在創(chuàng)新要素及組合方式。王金鳳等［6］構(gòu)建基于文本挖掘、機(jī)器學(xué)習(xí)算法及多維空間專利地圖的技術(shù)創(chuàng)新路徑識(shí)別模型。針對(duì)基于內(nèi)容的創(chuàng)新性測(cè)度，S.Shibayama等

［7-8］依據(jù)論文所引參考文獻(xiàn)的篇名之間的語(yǔ)義距離、S.Uddin等綜合關(guān)鍵詞數(shù)量、長(zhǎng)度以及新詞比例等指標(biāo)測(cè)度科技文獻(xiàn)的創(chuàng)新性。

3.2? 知識(shí)產(chǎn)權(quán)與主題演化分析

專利是科技文獻(xiàn)中應(yīng)用性極強(qiáng)的一部分，如何有效開展專利挖掘、執(zhí)行專利布局是知識(shí)產(chǎn)權(quán)戰(zhàn)略的重要一環(huán)。在專利挖掘領(lǐng)域，關(guān)鍵技術(shù)與主題演化分析作為科技文獻(xiàn)知識(shí)挖掘的一個(gè)重要研究方向，能夠幫助企業(yè)更好地開展專利布局，抓住市場(chǎng)機(jī)會(huì)［9］。因此，國(guó)內(nèi)外學(xué)者在該方面做出了諸多探索。如，A.Momeni［10］提出了一種基于專利發(fā)展路徑、k-core分析的主題建模方法，以識(shí)別光伏產(chǎn)業(yè)中有潛力產(chǎn)生決定性影響的技術(shù)。許學(xué)國(guó)等［11］基于機(jī)器學(xué)習(xí)和經(jīng)驗(yàn)?zāi)B(tài)分解方法，識(shí)別出了新能源汽車領(lǐng)域的20項(xiàng)核心技術(shù)。近年來(lái)，深度學(xué)習(xí)技術(shù)為科技文獻(xiàn)知識(shí)挖掘提供了更加智能的手段，楊辰等［12］利用Doc2vec模型結(jié)合基于密度的離群值檢測(cè)算法、黃魯成等［13］利用TF-IDF及ABOD異常點(diǎn)檢測(cè)方法識(shí)別出了具有潛在技術(shù)機(jī)會(huì)的異常專利。除了專利以外，同樣也有基于科技論文數(shù)據(jù)進(jìn)行關(guān)鍵技術(shù)識(shí)別的研究［14-15］。同時(shí)，也有學(xué)者將多種方法結(jié)合起來(lái)用于技術(shù)主題的演化分析，如綜合使用主題建模與社會(huì)網(wǎng)絡(luò)分析法識(shí)別基因編輯的核心主題、突出主題和新興主題，并預(yù)測(cè)基因編輯技術(shù)的未來(lái)發(fā)展趨勢(shì)［16］；或通過Leiden算法識(shí)別技術(shù)主題，采用專利引文網(wǎng)絡(luò)分析發(fā)現(xiàn)決定性技術(shù)的主題演化趨勢(shì)［17］。

3.3? 基于機(jī)器學(xué)習(xí)的細(xì)粒度知識(shí)抽取

隨著自然語(yǔ)言處理技術(shù)的發(fā)展，對(duì)科技文獻(xiàn)的知識(shí)挖掘逐漸深入到細(xì)粒度的知識(shí)元，從章節(jié)、段落、句子到短語(yǔ)，實(shí)現(xiàn)了對(duì)科技文獻(xiàn)中的術(shù)語(yǔ)、技術(shù)要素、關(guān)系的抽取以及結(jié)構(gòu)功能的識(shí)別。采用方法主要有基于統(tǒng)計(jì)的、基于規(guī)則的及基于機(jī)器學(xué)習(xí)的方法，抽取對(duì)象既有科技論文也有專利文獻(xiàn)。如，S.Kaewphan等

［18］利用深度學(xué)習(xí)模型CNN-BiLSTM-CRF，從生物醫(yī)學(xué)領(lǐng)域的科技論文中抽取分子、細(xì)胞和組織等實(shí)體。趙丹寧等［19-20］利用基于規(guī)則的方法從藥物代謝動(dòng)力學(xué)文獻(xiàn)摘要中抽取了實(shí)驗(yàn)、藥物、給藥方式、藥物代謝力學(xué)參數(shù)等實(shí)驗(yàn)數(shù)據(jù)，并采用LSTM、Attention機(jī)制等深度學(xué)習(xí)模型，自動(dòng)抽取了非結(jié)構(gòu)式摘要中的“目的”“方法”“結(jié)果”三種結(jié)構(gòu)要素。Pang N等

［21］提出了一種基于BERT-CRF模型的化學(xué)實(shí)體和關(guān)系抽取方法，從科技文獻(xiàn)中抽取了化合物、溶液、方法、反應(yīng)、化學(xué)鍵、PKA、PKA－VALUE 7類實(shí)體以及化學(xué)鍵能數(shù)據(jù)鏈。D.Zhao等［22］結(jié)合表征學(xué)習(xí)和多頭注意力機(jī)制，以生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)為分析對(duì)象，實(shí)現(xiàn)了跨句子多元關(guān)系抽取。同時(shí)，也有較多研究探索了科技文獻(xiàn)結(jié)構(gòu)功能識(shí)別的方法，以滿足科研人員對(duì)科技文獻(xiàn)中部分特定知識(shí)的檢索，幫助他們快速獲取精細(xì)的知識(shí)點(diǎn)。比如，A.Varga A等［23］提出了一種用于篇章結(jié)構(gòu)識(shí)別的zoneLDA 模型。馬曉慧等［24］利用CNN、LSTM、BERT等深度學(xué)習(xí)模型，分別從句子、段落、章節(jié)內(nèi)容等層次對(duì)科技論文進(jìn)行了結(jié)構(gòu)功能識(shí)別。

3.4? 知識(shí)關(guān)聯(lián)挖掘與知識(shí)網(wǎng)絡(luò)構(gòu)建

知識(shí)關(guān)聯(lián)挖掘與知識(shí)網(wǎng)絡(luò)構(gòu)建常被用于發(fā)現(xiàn)科技文獻(xiàn)資源或內(nèi)部知識(shí)之間的潛在關(guān)聯(lián)，在此基礎(chǔ)上進(jìn)行預(yù)測(cè)與知識(shí)推理，挖掘隱性知識(shí)。比如，范馨月等

［25］以PubMed論文集為研究對(duì)象，采用文本挖掘方法，構(gòu)建了“藥物—副作用”的共現(xiàn)矩陣，進(jìn)而發(fā)現(xiàn)兩者之間的潛在關(guān)系。賈麗燕等［26］利用關(guān)聯(lián)規(guī)則分析方法，通過對(duì)醫(yī)療文獻(xiàn)的數(shù)據(jù)挖掘，發(fā)現(xiàn)了糖尿病視網(wǎng)膜病變的用藥規(guī)律。同時(shí)，也有研究從科技文獻(xiàn)資源縱向挖掘角度建立知識(shí)網(wǎng)絡(luò)，根據(jù)知識(shí)網(wǎng)絡(luò)節(jié)點(diǎn)間錯(cuò)綜復(fù)雜的關(guān)系進(jìn)一步發(fā)現(xiàn)核心的或隱含的知識(shí)點(diǎn)。如，王凱等［27］將文獻(xiàn)正文表示成一個(gè)以句子為節(jié)點(diǎn)，句子間關(guān)聯(lián)為邊的文本關(guān)系網(wǎng)絡(luò)，采用社會(huì)網(wǎng)絡(luò)分析方法挖掘出重要章節(jié)中的核心句。近年來(lái)，知識(shí)圖譜被廣泛用于科技文獻(xiàn)的知識(shí)組織與知識(shí)關(guān)聯(lián)中，以實(shí)現(xiàn)語(yǔ)義搜索、智能問答等知識(shí)服務(wù)。李星原等［28］以癲癇領(lǐng)域的相關(guān)論文作為數(shù)據(jù)集，構(gòu)建了多模態(tài)的知識(shí)圖譜，直觀地呈現(xiàn)了該領(lǐng)域醫(yī)療實(shí)體之間的關(guān)聯(lián)。A.Rossanez等［29］提出了一種基于規(guī)則的半自動(dòng)方法，從一組生物醫(yī)學(xué)論文的摘要中識(shí)別生物醫(yī)學(xué)命名實(shí)體和關(guān)系，生成知識(shí)圖譜，并將其鏈接到生物醫(yī)學(xué)領(lǐng)域的本體中。鐘將等［30］以人工智能、大數(shù)據(jù)等領(lǐng)域的最新科技論文為語(yǔ)料集，從中提取知識(shí)三元組（涵蓋處理任務(wù)、處理方法、處理對(duì)象以及性能指標(biāo)4類實(shí)體以及包含、應(yīng)用、對(duì)比和同指4種關(guān)系），構(gòu)建了計(jì)算機(jī)領(lǐng)域知識(shí)圖譜。

3.5? 科技文獻(xiàn)的分類與聚類

科技文獻(xiàn)的分類和聚類是建立在對(duì)文本主題、內(nèi)容或?qū)傩赃M(jìn)行特征表示、特征選擇的基礎(chǔ)上實(shí)現(xiàn)，進(jìn)而發(fā)現(xiàn)同類文獻(xiàn)之間潛在的相似模式?？萍嘉墨I(xiàn)的分類對(duì)資源的檢索、篩選和推薦都有重要意義，而對(duì)科技文獻(xiàn)資源的聚類分析則被廣泛用于技術(shù)熱點(diǎn)的挖掘、價(jià)值評(píng)估等各個(gè)方面。分類和聚類一般基于文本內(nèi)容或主題，采用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)。肖悅珺等［31］以新能源汽車領(lǐng)域的專利文本作為實(shí)驗(yàn)數(shù)據(jù)，利用BERT模型提取句子和重要專有名詞的特征表示向量，并根據(jù)文本特征結(jié)合專有名詞及其上下文語(yǔ)句信息對(duì)專利文本進(jìn)行分類。宮小翠等［32］提出了基于 Labeled LDA 主題模型的醫(yī)學(xué)文獻(xiàn)自動(dòng)分類法。白思萌等［33］采用文本級(jí)超圖和交叉注意力機(jī)制捕捉科技文獻(xiàn)的組織結(jié)構(gòu)及語(yǔ)義語(yǔ)法信息，對(duì)生物醫(yī)學(xué)領(lǐng)域的文本進(jìn)行分類。J.Yun［34］根據(jù)科技文獻(xiàn)的共引網(wǎng)絡(luò)與共被引網(wǎng)絡(luò)的結(jié)構(gòu)信息進(jìn)行了文獻(xiàn)聚類。馬建紅等［35］采用信息實(shí)體語(yǔ)義增強(qiáng)表示（ERNIE）和卷積神經(jīng)網(wǎng)絡(luò)（CNN）相結(jié)合的深度學(xué)習(xí)模型，提出了一種基于功效特征的跨領(lǐng)域?qū)＠垲惖姆椒?。李玉等?6］通過DBSCAN聚類改進(jìn)了隨機(jī)森林算法，并將其用于專利的價(jià)值評(píng)估中。李俊州等［37］利用K-medoids聚類算法提出了一種針對(duì)科技文獻(xiàn)文本特征選擇的方法，實(shí)現(xiàn)文本內(nèi)容的特征降維。

4? 結(jié)論與展望

本研究借助Citespace、VOSviewer對(duì)科技文獻(xiàn)知識(shí)挖掘領(lǐng)域的發(fā)展現(xiàn)狀、熱點(diǎn)研究主題等進(jìn)行系統(tǒng)梳理和總結(jié)，根據(jù)分析結(jié)果，主要提出以下建議：

（1）整體來(lái)看，現(xiàn)階段正是科技文獻(xiàn)知識(shí)挖掘研究的白熱化時(shí)期，國(guó)內(nèi)外都應(yīng)加強(qiáng)多學(xué)科、多領(lǐng)域、跨區(qū)域間的合作交流，逐漸形成一批用于知識(shí)發(fā)現(xiàn)、知識(shí)檢索、知識(shí)推薦等領(lǐng)域的成熟技術(shù)與產(chǎn)品。

（2）語(yǔ)義網(wǎng)、關(guān)聯(lián)數(shù)據(jù)、知識(shí)圖譜的發(fā)展，從語(yǔ)義層面為科技文獻(xiàn)的知識(shí)挖掘、組織、關(guān)聯(lián)提供了極大的技術(shù)支撐，但文獻(xiàn)內(nèi)容知識(shí)元間的聯(lián)系揭示仍然受自然語(yǔ)言處理、信息抽取、知識(shí)圖譜等技術(shù)和算法的限制，如自然語(yǔ)言處理技術(shù)中的文本匹配算法、情感分析算法等仍存在一定的誤差［38］，復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)的信息抽取技術(shù)還需要依賴于大量的數(shù)據(jù)訓(xùn)練［39］等，需加強(qiáng)對(duì)新技術(shù)的關(guān)注及在人力、物力、財(cái)力方面的投入，推動(dòng)數(shù)據(jù)處理、模型優(yōu)化和訓(xùn)練等研究的開展、普及與應(yīng)用。

（3）機(jī)器學(xué)習(xí)與深度學(xué)習(xí)技術(shù)使得科技文獻(xiàn)的知識(shí)挖掘更加智能化，為科技文獻(xiàn)深度聚類研究提供了更多思路?？萍嘉墨I(xiàn)的分類與聚類分析主要是建立在處理文本數(shù)據(jù)的基礎(chǔ)上，而對(duì)復(fù)雜的圖像、時(shí)序類數(shù)據(jù)的探索不足，可考慮利用深度神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)來(lái)提高聚類效果，發(fā)展到更多領(lǐng)域，更好地改變?nèi)藗兊纳a(chǎn)生活。

研究發(fā)現(xiàn)當(dāng)前的科技文獻(xiàn)知識(shí)挖掘方法及其應(yīng)用仍處于初級(jí)探索階段，還存在較多亟待解決的問題，例如，如何開展跨領(lǐng)域的知識(shí)挖掘，如何提高知識(shí)挖掘方法的可移植性與準(zhǔn)確性等，未來(lái)還需要進(jìn)行更深入的研究。

參考文獻(xiàn)

［1］中國(guó)科學(xué)技術(shù)信息研究所.2022年中國(guó)科技論文統(tǒng)計(jì)報(bào)告發(fā)布

［EB/OL］.［2023-03-08］.https：//www.istic.ac.cn/html/1/284/338/1292211314138981529.html.

［2］顧海，奉子嵐，吳迪，等.我國(guó)遠(yuǎn)程醫(yī)療研究現(xiàn)狀及趨勢(shì)——基于CiteSpace的文獻(xiàn)量化分析［J］.信息資源管理學(xué)報(bào)，2020，10（4）：119-129．

［3］張楠，趙輝.基于論文—專利的石墨烯領(lǐng)域硬科技創(chuàng)新技術(shù)主題識(shí)別研究［J］.高技術(shù)通訊，2021，31（8）：892-900.

［4］Amplayo R K ， Hong S L ， Song M . Network-based Approach to detect novelty of scholarly literature［J］. Information sciences， 2017（422）：542-557.

［5］周瀟，許銀彪，史益.基于深度學(xué)習(xí)與語(yǔ)義挖掘的技術(shù)創(chuàng)新組合識(shí)別與追蹤［J］.圖書情報(bào)工作，2022，66（10）：33-44.

［6］王金鳳，徐正強(qiáng)，馮立杰，等.基于多維空間專利地圖及可拓學(xué)的技術(shù)創(chuàng)新路徑識(shí)別與評(píng)價(jià)［J］.科技管理研究，2022，42（8）：8-17.

［7］Shibayama S， Yin D， Matsumoto K.Measuring novelty in science with word Embedding［J］.PLoS ONE， 2021，16（7）：e0254034.

［8］Uddin S， Khan A. The impact of author-selected keywords on citation counts［J］.Journal of Informetrics， 2016， 10（4）：1166-1177.

［9］賈軍，魏潔云.新興產(chǎn)業(yè)核心技術(shù)早期識(shí)別方法與應(yīng)用研究［J］.科學(xué)學(xué)研究，2018，36（7）： 1206-1214.

［10］MOMENI A， ROST K. Identification and monitoring of possible disruptive technologies by patent-development paths and topic modeling［J］.Technological Forecasting and Social Change， 2016， 104：16-29.

［11］許學(xué)國(guó)，桂美增.基于機(jī)器學(xué)習(xí)的新能源汽車核心技術(shù)識(shí)別及布局研究［J］.科技管理研究，2021，41（9）：96-106.

［12］楊辰，王楚涵，陶琬瑩，等.基于專利的技術(shù)機(jī)會(huì)識(shí)別：深度學(xué)習(xí)領(lǐng)域的案例分析［J］.科技管理研究，2021，41（12）：172-176.

［13］黃魯成，李曉宇，李晉.基于專利的ABOD-RFM技術(shù)機(jī)會(huì)識(shí)別方法研究［J］.情報(bào)理論與實(shí)踐，2020，43（9）：144-149.

［14］Jia W， Xie Y， Zhao Y， et al. Research on Disruptive Technology Recognition of Chinas Electronic Information and Communication Industry Based on Patent Influence［J］.Journal of Global

Information Management，

2021， 29（2）：148-165.

［15］Dotsika F， Watkins A. Identifying Potentially Disruptive Trends by Means of Keyword Network Analysis［J］.Technological Forecasting Social Change， 2017（119）： 114-127.

［16］翟東升，金苑苑，徐碩，等.基于語(yǔ)義特征的潛在標(biāo)準(zhǔn)必要專利識(shí)別研究［J］.科研管理，2022，43（3）：183-191.

［17］吳潔，桂亮，劉鵬.基于圖卷積網(wǎng)絡(luò)的高質(zhì)量專利自動(dòng)識(shí)別方案研究［J］.情報(bào)雜志，2022，41（1）：88-95，124.

［18］Liu J， Wei J， Liu Y. Technology Forecasting based on Topic Analysis and Social Network Analysis： A Case Study Focusing on Gene Editing Patents［J］.JOURNAL OF SCIENTIFIC & INDUSTRIAL RESEARCH， 2021， 80（5）：428-437.

［19］李乾瑞，郭俊芳，黃穎，等.基于突變——融合視角的顛覆性技術(shù)主題演化研究［J］.科學(xué)學(xué)研究，2021，39（12）：

2129-2139.

［20］Kaewphan S， Hakala K， Miekka N， et al. Wide－scope Biomedical Named Entity Ｒecognition and Normalization with CＲFs，F(xiàn)uzzy Matching and Character Level Modeling［J］. Database：The Journal of Biological Databases and Curation， 2018（2018）：1-10．

［21］趙丹寧，牟冬梅，斯琴.研究型科技文獻(xiàn)的實(shí)驗(yàn)數(shù)據(jù)自動(dòng)抽取研究——以藥物代謝動(dòng)力學(xué)文獻(xiàn)為例［J］.圖書館建設(shè)，2017（12）：33-38.

［22］趙丹寧，牟冬梅，白森.基于深度學(xué)習(xí)的科技文獻(xiàn)摘要結(jié)構(gòu)要素自動(dòng)抽取方法研究［J］.數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)，2021，5（7）：70-80.

［23］Pang N ， Qian L ， Lyu W ， et al. Transfer Learning for Scientific Data Chain Extraction in Small Chemical Corpus with BERT-CRF Model： arXiv， 10.48550/arXiv.1905.05615［P］. 2019.

［24］Zhao D ， Wang J ， Zhang Y ， et al. Incorporating representation learning and multihead attention to improve biomedical cross-sentence n-ary relation extraction［J］. BMC Bioinformatics， 2020， 21（1）：312.

［25］Varga A ， Preotiuc-Pietro D ， Ciravegna F. Unsupervised document zone identification using probabilistic graphical models［C］// Eight International Conference on Language Resources & Evaluation. 2012：1610-1617．

［26］馬曉慧，趙文娟，劉忠寶.基于深度學(xué)習(xí)的多學(xué)科多層次學(xué)術(shù)論文結(jié)構(gòu)功能識(shí)別方法比較研究［J］.情報(bào)科學(xué)，2021，39（8）：94-102.

［27］范馨月，崔雷.基于文本挖掘的藥物副作用知識(shí)發(fā)現(xiàn)研究［J］.數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)，2018，2（3）：79-86．

［28］賈麗燕，來(lái)保勇，趙楠琦，等．基于文獻(xiàn)數(shù)據(jù)挖掘的糖尿病視網(wǎng)膜病變中藥用藥關(guān)聯(lián)規(guī)則分析［J］.中國(guó)中醫(yī)眼科雜志，2019，29（1）：25-30.

［29］王凱，孫濟(jì)慶，李楠.面向?qū)W術(shù)文獻(xiàn)的知識(shí)挖掘方法研究［J］.現(xiàn)代情報(bào)，2017，37（5）：47-51，110.

［30］李星原，汪鵬，申牧，等.癲癇病相關(guān)論文多模態(tài)知識(shí)圖譜的構(gòu)建初探［J］.北京郵電大學(xué)學(xué)報(bào)，2022，45（4）：19-24.

［31］RossanezA，Reis J D，Torres R，et al.KGen：a knowledge graph generator from biomedical scientific literature［J］.BMC Medical Informatics and Decision Making， 2020， 20（S1）：1-24.

［32］鐘將，尹紅，張劍.基于學(xué)術(shù)知識(shí)圖譜的輔助創(chuàng)新技術(shù)研究［J］.計(jì)算機(jī)科學(xué)，2022，49（5）： 194-199.

［33］肖悅珺，李紅蓮，張樂，等.特征融合的中文專利文本分類方法研究［J］.數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)，2022，6（4）：49-59.

［34］宮小翠，安新穎，單連慧.基于Labeled LDA主題模型的醫(yī)學(xué)文獻(xiàn)自動(dòng)分類法［J］.中華醫(yī)學(xué)圖書情報(bào)雜志，2018，27（10）：53-58.

［35］白思萌，牛振東，何慧，等.基于超圖注意力網(wǎng)絡(luò)的生物醫(yī)學(xué)文本分類方法［J］.數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)，2022，6（11）：13-24.

［36］Yun J ，Ahn S ， Lee J Y . Return to basics： Clustering of scientific literature using structural information［J］. Journal of Informetrics， 2020，14（4）：101099．

［37］馬建紅，曹文斌，劉元?jiǎng)?，?基于功效特征的專利聚類方法［J］.計(jì)算機(jī)應(yīng)用，2021，41（5）： 1361-1366.

［38］李玉，王利，周志平，等.基于DBSCAN聚類改進(jìn)隨機(jī)森林算法的專利價(jià)值評(píng)估方法［J］.科學(xué)技術(shù)與工程，2020，20（14）：5673-5679.

［39］李俊州，武瑩.基于改進(jìn)K-medoids算法的科技文獻(xiàn)特征選擇方法［J］.華中師范大學(xué)學(xué)報(bào)（自然科學(xué)版），2015，49（4）：541-545.

［40］孫靜含，任靜.計(jì)算機(jī)文本分析算法發(fā)展綜述［J］.電子技術(shù)應(yīng)用，2023，49（3）：42-47.

［41］楊洋，關(guān)毅，李雪，等.中文醫(yī)學(xué)細(xì)粒度知識(shí)表示體系與標(biāo)注語(yǔ)料庫(kù)構(gòu)建［J］.中文信息學(xué)報(bào)，2023，37（6）：52-66.

作者簡(jiǎn)介：

孫盟盟（1990），女，碩士，河北大學(xué)圖書館館員。研究方向：信息素養(yǎng)、文獻(xiàn)分析。

奚洋洋（1990），女，碩士，河北大學(xué)圖書館館員。研究方向：信息服務(wù)、數(shù)據(jù)可視化。

（收稿日期：2023-07-17? 責(zé)任編輯：孫? 煒）

Research Hot spots and Prospects of Knowledge Mining for Scientific and

Technological Literature at Home and Abroad

—Quantitative Analysis Based on WOS Core Collection and CNKI Database

Sun Meng-meng? Xi Yang-yang

Abstract：Taking the WOS core collection and CNKI database as data sources， using bibliometric and content analysis methods，with the help of Citespace and VOSviewer， knowledge mining research on scientific and technological literature at home and abroad is systematically sorted out. By analyzing the publication trend and the co-occurrence of authors， institutions and keywords， this paper reveals the hot topics and development trends in this field. It is found that the hot topics about knowledge mining of scientific and technological literature are concentrated in the aspects of knowledge mining for scientific and technological innovation， intellectual property and topic evolution analysis， fine-grained knowledge extraction and knowledge association mining. Some suggestions are put forward that diversified knowledge mining methods should be explored in the future to better exploit the value of scientific and technological literature.

Keywords：Scientific Literature; Knowledge Mining; Theme Evolution; Bibliometrics

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向科技文獻(xiàn)的國(guó)內(nèi)外知識(shí)挖掘研究熱點(diǎn)與展望