科技期刊文本與數(shù)據(jù)挖掘人工智能應用的研究進展

2023-02-12 23:42:48王利鵬鄭春雨

中國科技期刊研究 2023年8期

■龐麗王利鵬鄭春雨陳婕*

1）中國醫(yī)科大學附屬盛京醫(yī)院婦產(chǎn)科，遼寧省沈陽市鐵西區(qū)滑翔路39號 110022

2）中國醫(yī)科大學期刊中心，遼寧省沈陽市沈北新區(qū)蒲河路77號 110122

根據(jù)Web of Science數(shù)據(jù)庫統(tǒng)計，2018年全球發(fā)表學術論文總量大約為261.75萬篇，中國已超過美國成為全球最大的科研論文生產(chǎn)國，2022年我國期刊總數(shù)為10185種，其中科技期刊有5071種［1］，年發(fā)文量為100多萬篇。伴隨著國內(nèi)“數(shù)據(jù)匯交”政策與國際“非商業(yè)目的的文本與數(shù)據(jù)挖掘著作權(quán)費用全免”政策的深入，大量“開放為常態(tài)，不開放為例外”的科學數(shù)據(jù)和科研成果成為公共資源，可供挖掘的數(shù)據(jù)規(guī)模巨大，研究基礎雄厚，這將促進科學突飛猛進。然而，如何有效利用智能化手段進行文本與數(shù)據(jù)挖掘，擯棄冗余無效數(shù)據(jù)，從而指導學科發(fā)展，是擺在每位期刊人面前的一項課題?！拔谋九c數(shù)據(jù)挖掘”（Text and Data Mining）是一項交叉技術，與圖書情報學、信息學、術語學、機器學習、自然語言處理、模式識別、神經(jīng)網(wǎng)絡計算、數(shù)理統(tǒng)計等學科領域融合。近年來，隨著人工智能技術的不斷突破，文本與數(shù)據(jù)挖掘進展迅速。精準、全面、有效地利用文本與數(shù)據(jù)挖掘有效評估稿件、篩選主題、回避學術不端、預測學科發(fā)展、捕捉創(chuàng)新點、輔助高水平辦刊及拓展應用是目前科技期刊關注的重點。國內(nèi)該領域研究不多，既往研究對關鍵詞抽提、挖掘邏輯、選題策劃、創(chuàng)新性評估等進行探索，但尚未見對標準化智能體系的報道。邊釗等［2］以遙感領域為例，分析關鍵詞規(guī)范化對主題信息挖掘結(jié)果的影響，發(fā)現(xiàn)須進一步對關鍵詞按照一定規(guī)則規(guī)范化以重塑聚類，方可得到優(yōu)化結(jié)果，但其僅對遙感領域關鍵詞數(shù)據(jù)進行抽提而非整篇科技文獻的元數(shù)據(jù)。田海江等［3］對100篇文獻樣本的挖掘邏輯分析顯示，作者關聯(lián)度機制存在內(nèi)生性問題，難以繼續(xù)優(yōu)化，而文獻碎片化自然語言處理機制存在學科分類表象與匹配聚類實質(zhì)不易彌合的客觀問題，但尚可通過優(yōu)化數(shù)據(jù)挖掘邏輯提升數(shù)據(jù)挖掘效果；其得出應改進算法映射，擯棄“超齡”數(shù)據(jù)，從而提高數(shù)據(jù)挖掘的準確度。白婭娜等［4］以《潔凈煤技術》專刊為例，以年均出現(xiàn)3次以上的主題詞為高頻詞進行數(shù)據(jù)挖掘和分析，由此確定選題方向，并取得了較好的效果，但其未對挖掘邏輯和挖掘精度作描述。盧超［5］探索了學科領域中新興研究話題的內(nèi)容特征識別路徑，通過構(gòu)建文獻耦合網(wǎng)絡進行文本挖掘，構(gòu)建不同特征指標，從而有效實現(xiàn)新興研究話題發(fā)現(xiàn)，其思路或可用于論文創(chuàng)新性評估，但其未對如何回避數(shù)據(jù)冗余及提升挖掘精度進行報道。由此可見，當前文本與數(shù)據(jù)挖掘研究仍存在諸多不盡如人意之處。本文擬對國內(nèi)外科技期刊文本與數(shù)據(jù)挖掘智能化研究進展進行闡述，以期為科技期刊文本與數(shù)據(jù)挖掘智能化發(fā)展探尋對策方案。

1 概念界定與研究方法

2019年3月26日歐盟議會批準了新的《數(shù)字單一市場版權(quán)指令》（Directive on Copyright in the Digital Singles Market），該版權(quán)指令對智能時代的新聞出版和文本與數(shù)據(jù)挖掘進行了最新定義，并允許智能分析受版權(quán)保護的大量數(shù)據(jù)，支持文本與數(shù)據(jù)挖掘帶來行業(yè)創(chuàng)新［6］。文本與數(shù)據(jù)挖掘是指任何旨在分析數(shù)字形式的文本和數(shù)據(jù)的自動分析技術，可生成包括但不限于模型、趨勢、相關性等的信息［6］。區(qū)別于既往的文本挖掘（Text Mining）、數(shù)字挖掘（Data Mining）、網(wǎng)絡挖掘（Internet Mining），文本與數(shù)據(jù)挖掘是人工智能時代下三者融合發(fā)展的必然趨勢，可以理解為對數(shù)字形式的文本進行自動化分析，也可以理解為借助智能化手段對文本資源進行數(shù)字化，進而進行數(shù)字挖掘和網(wǎng)絡挖掘，是基于文本信息的知識發(fā)現(xiàn)。與數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比，文本為非結(jié)構(gòu)化數(shù)據(jù)，文檔的內(nèi)容是人類使用的自然語言。在大數(shù)據(jù)基礎上，文本與數(shù)據(jù)挖掘智能化研究將文本信息數(shù)字化，通過智能手段獲取有效、新穎、有用、可理解的，散布在文本文件中的有價值信息。本研究擬采用文獻分析法檢索2019—2023年英文數(shù)據(jù)庫Web of Science（SCIE、SSCI、ESI）、ScienceDirect、Elsevier及中文數(shù)據(jù)庫中國知網(wǎng)中的科技期刊文本與數(shù)據(jù)挖掘智能化研究，梳理科技期刊文本與數(shù)據(jù)挖掘智能化研究進展，并為科技期刊文本與數(shù)據(jù)挖掘智能化模式提出可行性建議。

2 國內(nèi)外研究進展及分析

2．1 國外科技期刊文本與數(shù)據(jù)挖掘智能化研究進展

2019 年7 月，Pulla［7］在Nature上發(fā)文，介紹了美國與印度合作構(gòu)建的巨大文本和圖像庫JNU Data Depot，該數(shù)據(jù)庫收錄了從1847年開始的7300萬篇文獻，試圖掃清出于科研目的對科技論文進行文本與數(shù)據(jù)挖掘的障礙。（1）在科技期刊選題熱點方面，Zengul等［8］使用了自然語言處理和文本與數(shù)據(jù)挖掘方法對10種腎臟病期刊的17412篇文獻摘要進行分析，捕獲10個不同的腎臟病研究主題，發(fā)現(xiàn)：2個主題呈上升趨勢，3個主題呈下降趨勢，5個主題保持相對穩(wěn)定；隨著時間的推移，“關注病死率和生存”與“患者相關的結(jié)果和視角”的研究越來越受歡迎。由此提出，腎臟學研究者可利用該分析結(jié)果進一步確立研究方向。Zengul等［9］通過文本與數(shù)據(jù)挖掘，研究排名前20癌癥／腫瘤學期刊的93423篇文獻的研究主題及趨勢，發(fā)現(xiàn)14個不同主題，包括7個上升主題、5個下降主題、2個相對穩(wěn)定主題，其中“癌癥遺傳”和“生物標記物”等主題在過去20年中一直呈現(xiàn)出穩(wěn)定的發(fā)展趨勢，并吸引了癌癥研究人員的持續(xù)關注。該研究結(jié)果有利于解釋癌癥研究的主題和趨勢，幫助研究人員和利益相關者確定未來研究方向。（2）在預印本出版領域，Lampinen等［10］以心理學出版物為例，通過人工智能文本與數(shù)據(jù)挖掘分析預印本和快速發(fā)布會議出版物，討論了卷積神經(jīng)網(wǎng)絡、機器深化學習等文本與數(shù)據(jù)挖掘方案的優(yōu)劣勢，建議將兩種方案結(jié)合起來實現(xiàn)薈萃分析和綜合評論以實現(xiàn)發(fā)布優(yōu)化，探索了預印本的智能文本與數(shù)據(jù)挖掘。（3）在文獻評估方面，CheshmehSohrabi等［11］利用文本與數(shù)據(jù)挖掘和文獻計量技術分析了Scopus數(shù)據(jù)庫1973—2020年2162篇文獻的作者、標題、摘要、引用、機構(gòu)、出版日期、被引頻次、卷、起止頁、作者關鍵詞、索引關鍵詞和文檔類型等，發(fā)現(xiàn)：文獻總被引頻次為35899次，大約87%的Articles、46%的Editorials和43%的Notes至少得到1次引用，而Conference Papers沒有被引用；在排名前85位的國家貢獻的1903篇文獻中，美國文獻的總被引頻次最高（8776次），1781篇（94%）有摘要，而在43篇沉睡期長達43年的零被引文獻中34篇無摘要。其研究結(jié)果可進一步指導研究者識別學科優(yōu)勢和趨勢，找出差距和不足，并有助于發(fā)現(xiàn)學科領域的熱點和新模式。（4）在模型探索和方法學研究方面，Lee等［12］使用NSML（Naver Smart Machine Learning）研發(fā)了BioBERT模型，獲得了比之前所有模型更高的MRR（Mean Reciprocal Rank）分數(shù)，最終構(gòu)建了可用最少的任務特定架構(gòu)實現(xiàn)命名實體識別（Named Entity Recognition，NER）、關系提?。≧elation Extraction，RE）和問答系統(tǒng)（Question Answering System，QA）的最優(yōu)模型。Plotnikova等［13］通過系統(tǒng)回顧207篇經(jīng)同行評議的“灰色”文獻，發(fā)現(xiàn)數(shù)據(jù)挖掘方法主要是“照原樣”（as-is）實施的，且對模型存在各種改編，改編模型的數(shù)量正在迅速增長，改編目的為適當處理大數(shù)據(jù)技術、工具和環(huán)境或?qū)?shù)據(jù)挖掘解決方案集成到業(yè)務流程和IT系統(tǒng)中，其得出結(jié)論是應結(jié)合數(shù)據(jù)、技術和組織方面對現(xiàn)有標準文本與數(shù)據(jù)挖掘模型進行改進。Gonzalez等［14］組織研討會議，提出了ATHENA綜合方法、SEN方法、細粒度文本挖掘方法等可行性方法來改進文本與數(shù)據(jù)挖掘，由此認為文本與數(shù)據(jù)挖掘的最大挑戰(zhàn)是真正影響生物醫(yī)學成果發(fā)現(xiàn)過程，使科學家能夠產(chǎn)生新的假設來解決最關鍵的問題。（5）在同行評議方面，Kang等［15］以神經(jīng)網(wǎng)絡語言模型為依托，對3006篇稿件的10770份同行評議意見進行文本與數(shù)據(jù)挖掘，提出了一種聯(lián)合使用稿件正文和同行評議意見的預測方法，進而認為多數(shù)稿件的同行評議意見與客觀評議結(jié)果一致。

由此可見，多模態(tài)文本與數(shù)據(jù)挖掘正驅(qū)動科技期刊在多領域深入發(fā)展，其利用不同數(shù)據(jù)類型之間的關聯(lián)，探索最新模型，并提高模型的性能和效率，最終實現(xiàn)通過對現(xiàn)有科技期刊論文數(shù)據(jù)的分析，挖掘出有價值的信息和知識，預測未來趨勢和發(fā)展方向，為科學研究決策和期刊發(fā)展提供參考。智能化的文本與數(shù)據(jù)挖掘抓取的內(nèi)容包括但不限于模型、趨勢、相關性等敏感高效信息，其正在引領和指導學科及技術的變革性發(fā)展。但目前在國外，文本與數(shù)據(jù)挖掘智能化研究人員多為專業(yè)數(shù)據(jù)挖掘者，研究對象均為開放獲取數(shù)據(jù)，因此不排除數(shù)據(jù)偏倚且學科指導價值有限的情況。

2．2 我國文本與數(shù)據(jù)挖掘智能化研究進展

在中國知網(wǎng)數(shù)據(jù)庫檢索得到2019—2023年關鍵詞為“文本與數(shù)據(jù)挖掘”的34條文獻記錄，包括24篇學術期刊論文、9篇學位論文、1篇學術輯刊論文，論文分布在民商法（31篇）、出版（9篇）、法史（5篇）、圖書情報與數(shù)字圖書館（3篇）、行政法及地方法制（1篇）、國際法（1篇）、憲法（1篇）、計算機軟件及計算機應用（1篇）等學科領域。其中，圖書情報與數(shù)字圖書館領域的3篇論文《人工智能時代文本與數(shù)據(jù)挖掘合理使用規(guī)則設計研究》《圖書館數(shù)字化作品的著作權(quán)保護與TDM的沖突與兼容》《開放獲取的許可授權(quán)協(xié)議管理》和出版領域的9篇論文均關注著作權(quán)法例外條例。主要主題為“文本與數(shù)據(jù)挖掘”的論文僅有2篇，也主要關注著作權(quán)法例外條例的本土化情況。

中國科學技術協(xié)會《中國科技期刊發(fā)展藍皮書（2022）》的數(shù)據(jù)顯示，截至2021年底，在中國科技期刊中，中文科技期刊占大多數(shù)。面對海量的論文文本與數(shù)據(jù)，未見對我國中文科技期刊文本與數(shù)據(jù)挖掘智能化的系統(tǒng)報道，現(xiàn)就當前研究現(xiàn)狀進行分析。（1）在選題策劃方面，已有較多報道，研究多采用網(wǎng)絡挖掘。王秀芝等［16］以“一流大學與一流學科建設”和“高等教育國際化”兩個選題為例，運用Rost News Analysis Tool 4.5分析工具，進行分詞和詞性分析、詞頻統(tǒng)計、詞語過濾、名詞提取、語義網(wǎng)絡構(gòu)建、數(shù)據(jù)可視化分析等，對網(wǎng)絡數(shù)據(jù)進行挖掘，最終量化期刊選題策劃方向，提出基于網(wǎng)絡挖掘技術的學術期刊選題策劃新路徑；但其未采用智能化手段，雖進行了量化選題論證分析，但其納入的基礎文本數(shù)據(jù)的質(zhì)量和數(shù)量有限，挖掘結(jié)果代表性不強。（2）在模型構(gòu)建和方法學方面，圖書情報領域研究多采用傳統(tǒng)的主題成因理論，部分研究也采用詞頻分析和非結(jié)構(gòu)化數(shù)據(jù)集進行分布分析、聚類分析、趨勢分析等。楊玥等［17］利用主題模型分析和詞頻統(tǒng)計相結(jié)合的方法來提升關鍵詞提取的準確率，但該手段需要海量計算和人工處理。溫有奎等［18］采用人工智能技術把文本信息智能分解成結(jié)構(gòu)化知識單元，并將知識單元分解為主謂賓結(jié)構(gòu)；將主謂賓語句單元轉(zhuǎn)換為PDF格式，建立具有語義關系的語義知識庫，利用人工智能的知識表示、存儲、推理技術開展語義關系的智能推理研究。該研究為智能文本挖掘提供了理論和技術基礎，但涵蓋學科泛泛，缺少出版應用實例。（3）在文獻評估方面，龔真平［19］基于網(wǎng)絡爬蟲技術，為用戶提供可挖掘海量數(shù)據(jù)的可視化系統(tǒng)，減少用戶獲取有用文獻信息的時間，同時該系統(tǒng)可進行文獻自動化查重，減少審核人員的工作量。該研究成果主要應用于檢測重復率，未對學術價值作進一步的評估。（4）在同行評議方面，杜杏葉［20］研究探索了基于文本與數(shù)據(jù)挖掘的同行評議系統(tǒng)，對論文的創(chuàng)新性、科學性、規(guī)范性、學術影響力等評價指標進行數(shù)字轉(zhuǎn)化，借助認知計算邏輯構(gòu)建學術論文知識元本體模型，利用規(guī)范性模塊、專家評價模塊、編輯部處理模塊檢測，并以《圖書情報工作》發(fā)表論文為例進行智能化評價，結(jié)果顯示同行評議系統(tǒng)與專家評價的總體重合率達60%。該研究對建立智能化綜合評價系統(tǒng)，實現(xiàn)對學術論文的創(chuàng)新性、科學性、價值性等的評價和自動量化評審，推動大數(shù)據(jù)與人工智能技術在學術評價領域的深度應用有借鑒價值，但其也存在不足之處：智能化融合不足、混雜因素多、采用的標準陳舊、納入對象少、未作比較研究等。王勇臻等［21］通過梳理不同文本挖掘技術在論文同行評議中的應用研究，認為目前研究應圍繞對同行評議意見的預測能力、情感表達以及論辯邏輯3個方面進行深化，應著重探討不同文本挖掘方法的可行性與有效性，但其研究樣本局限于計算機科學領域的國際會議論文（英文）。經(jīng)檢索，未見關于文本與數(shù)據(jù)挖掘在預印本、優(yōu)先出版等期刊出版方面應用的文獻報道。

2．3 我國文本與數(shù)據(jù)挖掘智能化研究進展分析

2.3.1 挖掘技術較為成熟，但融合能力不足

在圖書情報學和計算機科學領域已有大量數(shù)據(jù)挖掘研究，相關技術較為成熟。孫朝陽［22］采用基于規(guī)則的實體自動補全方法和基于深度學習的關系自動補全方法，設計并訓練了深度學習模型，最終產(chǎn)出了知識圖譜補全模塊，并在初等數(shù)學自然語言理解系統(tǒng)驗證。其系統(tǒng)解題通過率提高了30%，但其研究對象為初等數(shù)學這類邏輯完整的結(jié)構(gòu)化文本?，F(xiàn)有技術對非結(jié)構(gòu)化文本的融合能力不足，當前采用的主流挖掘技術如Python、網(wǎng)絡爬蟲各有優(yōu)缺點：Python可以進行一般人工智能處理，但不可避免地存在數(shù)據(jù)誤差、掃描不清晰等問題，全面性不佳；網(wǎng)絡爬蟲可以完全照原樣處理數(shù)據(jù)，但其欠缺智能化處理方案。在應用于中文科技期刊這一特殊載體時，這些技術又面臨學科特殊性干擾，如名詞體系不完善導致的關鍵詞抓取不全面、數(shù)據(jù)冗余、大量人工介入等，這些都是目前干擾挖掘結(jié)果的技術層面問題。

2.3.2 新概念的科技期刊出版實踐不足

智能化文本與數(shù)據(jù)挖掘可深度應用于選題策劃、優(yōu)先出版和預印本、趨勢分析、關鍵詞提取、文本聚類和實體識別、學科預測、情感分析、推薦系統(tǒng)等。在非結(jié)構(gòu)化文本方面，網(wǎng)絡挖掘、文本挖掘、數(shù)字挖掘應用較多，但這三者有別于文本與數(shù)據(jù)挖掘，僅供借鑒。在網(wǎng)絡挖掘方面，劉曉彤等［23］通過爬取原創(chuàng)微博、結(jié)合Single-Pass和K-Means＋＋算法聚類出微博主題，對疫苗市場、疫苗變異、疫苗科普等11個聚類主題分別進行智能化情感分析，該研究結(jié)果可以指導心理疏導的方向。在文本挖掘方面，趙大海等［24］構(gòu)建基于文本挖掘與人工智能技術的智能軍事情報獲取框架，針對海量非結(jié)構(gòu)化文本信息，運用智能算法進行可能性推理，并結(jié)合文字處理等技術，提高了軍事情報的多維提取率，為戰(zhàn)場態(tài)勢感知和作戰(zhàn)決策指揮等方面提供了很好的指導，其研究技術或可借鑒。在數(shù)字挖掘方面，張美娟等［25］提出基于數(shù)字挖掘創(chuàng)新圖書館精準營銷模式，構(gòu)建數(shù)字挖掘的技術平臺和精準營銷的業(yè)務平臺，并進行了實踐探索；但其只關注了圖書的營銷實踐，未對科技期刊出版實踐進行探索，研究成果是否可以被科技期刊領域借鑒尚需進一步研究評估。

2.3.3 關鍵詞等文本數(shù)據(jù)不夠精準

目前文本與數(shù)據(jù)挖掘的技術研究基礎仍以文本數(shù)據(jù)收集、清洗、分詞、文本標識為主，進一步進行數(shù)據(jù)抽取和文本降維以實現(xiàn)深度挖掘分析對名詞術語標準化程度有嚴苛要求。全國科學技術名詞審定委員會已于2000年正式成為國際術語信息中心（Infoterm）成員，且2009年術語學作為獨立學科出現(xiàn)，但科技期刊術語學研究尚不完善，多數(shù)研究關注點局限于應用層面。商濤等［26］對《呼吸病學名詞》在電子病歷中的使用情況進行調(diào)研，通過觀察疾病、體征或癥狀類標準醫(yī)學術語及其關聯(lián)的同義詞分布，發(fā)現(xiàn)標準醫(yī)學術語的使用頻次高于非標準醫(yī)學術語，但整體而言，同一醫(yī)學概念在不同來源的病歷中表述多樣，標準化程度不高，從而認為術語使用現(xiàn)狀有待改進。龐麗等［27］的前期研究通過比對GB 6447—1986《文摘編寫規(guī)則》和2020年《報紙期刊質(zhì)量管理規(guī)定》，發(fā)現(xiàn)600種中文醫(yī)學科技期刊摘要的整體情況良好，但仍有結(jié)構(gòu)、格式、表述等方面的不足。因此，術語體系不統(tǒng)一會進一步影響文本信息結(jié)構(gòu)分層邏輯等基礎問題。

2.3.4 結(jié)構(gòu)化文本邏輯完整，非結(jié)構(gòu)化文本技術受限

關于文本與數(shù)據(jù)挖掘智能化，目前計算機領域探討較多。唐家川［28］聚焦于純非結(jié)構(gòu)化文本，構(gòu)建關系標注平臺，設計能從短句中抽取多個三元組的算法邏輯，并基于該算法開發(fā)出文本關系抽取系統(tǒng)。該算法的核心是使用BERT模型將數(shù)學文本轉(zhuǎn)為句向量，再采用文本匹配的思路從已知數(shù)據(jù)中尋找相似度最高的短句，以該短句的關系為當前短句的關系，最終實現(xiàn)系統(tǒng)關系抽取90%的正確率、80%的完整性。但其局限于初等數(shù)學這類邏輯完整的文本信息，未對其他文本信息探索，該方法或可為科技期刊非結(jié)構(gòu)化文本分析提供借鑒。目前在關鍵詞提取方面，TEXT Rank算法和TF-IDF算法較為流行，但既往研究認為，傳統(tǒng)的文本與數(shù)據(jù)挖掘存在3個方面的問題：（1）矢量空間模型（Vector Space Model，VSM）的維度獨立單一，高維空間的文本相似度不足；（2）術語（或詞匯）語義相關性不夠，多數(shù)傳統(tǒng)的文本與數(shù)據(jù)挖掘方法無法識別同義詞；（3）詞袋法產(chǎn)生的矢量導致“維數(shù)災難”。

3 對策建議

3．1 加強文本與數(shù)據(jù)挖掘基礎布局，促進融合發(fā)展

加強文本與數(shù)據(jù)挖掘基礎布局，促進融合發(fā)展，如：采用自然語言處理技術對科技期刊文本與數(shù)據(jù)進行處理和分析，實現(xiàn)對文本的語義理解、情感分析等功能，提高對文本的理解和處理能力；采用機器學習技術對科技期刊文本進行分類、聚類、推薦等，實現(xiàn)對文本的自動化處理和管理，提高信息檢索和知識發(fā)現(xiàn)的效率和準確性；采用數(shù)據(jù)可視化技術將處理后的數(shù)據(jù)呈現(xiàn)為直觀易懂的圖形，幫助期刊更好地理解和分析數(shù)據(jù)，發(fā)現(xiàn)其中規(guī)律和趨勢；采用智能推薦技術將分析的結(jié)果反饋給編輯、讀者或作者，幫助他們發(fā)現(xiàn)更多有價值的信息和研究成果，提高其工作效率和科研能力。

3．2 鼓勵應用文本與數(shù)據(jù)挖掘人工智能的出版實踐

鼓勵文本與數(shù)據(jù)挖掘平臺或工具的構(gòu)建，以通過智能技術對科技文獻進行深度挖掘，發(fā)現(xiàn)其中信息和關聯(lián)，從而促進科技創(chuàng)新和產(chǎn)業(yè)發(fā)展。鑒于當前常用的挖掘方法各有優(yōu)缺點，應鼓勵大量根據(jù)不同挖掘目的開展的出版實踐，并總結(jié)經(jīng)驗。開發(fā)優(yōu)于現(xiàn)狀的新模式、整合優(yōu)勢的智能網(wǎng)絡平臺也是未來需要探索的方向。

3．3 提高關鍵詞抓取精準度

提高關鍵詞抓取精準度，提高高維空間的文本相似度，提高術語（或詞匯）語義相關性，避免“維數(shù)災難”，深度研究科技期刊語言文字術語的精細標準［29-30］，進一步完善行業(yè)標準，促進文本與數(shù)據(jù)挖掘的智能化發(fā)展。特征選擇和降維等方法也可用于進一步優(yōu)化特征向量的表示。

3．4 非結(jié)構(gòu)化文本的歸類探索

科技期刊具有學科交叉性，文本與數(shù)據(jù)多樣。應借鑒現(xiàn)有經(jīng)驗，探索非結(jié)構(gòu)化文本的特征向量轉(zhuǎn)換和算法優(yōu)化方法，如在確定特征向量時，可以綜合使用詞袋模型、TF-IDF模型、Word2Vec模型、LDA模型、N-Gram模型等，選取適合文本任務和數(shù)據(jù)集的特征向量表示方式。算法模型也需要根據(jù)研究目的進行優(yōu)化，如：在使用深度學習模型卷積神經(jīng)網(wǎng)絡進行文本處理時，應對長文本進行截斷或填充以避免模型無法處理或丟失關鍵信息，用遷移學習、預訓練模型提高訓練速度，采用正則化技術（如L1、L2正則化）降低模型復雜度和過擬合風險，結(jié)合注意力機制或空洞卷積（Dilated Convolution）提升模型對全局上下文的感知能力等。在采用循環(huán)神經(jīng)網(wǎng)絡（Recurrent Neural Networks，RNN）進行文本處理時，可采用門控循環(huán)單元（Gated Recurrent Units，GRU）、長短時記憶網(wǎng)絡（Long Short-Term Memory，LSTM）或預訓練的詞嵌入模型（如BERT、GPT等）解決長期依賴性問題，使用注意力機制（Attention Mechanism）使模型能夠更好地處理長序列，利用Transformer模型并行處理整個序列，對序列進行截斷或采樣以減少參數(shù)數(shù)量和計算量，使用批處理和GPU加速等技術提高計算效率等。

4 結(jié)語

科技期刊文本與數(shù)據(jù)挖掘的智能發(fā)展對科技工作者和科學研究具有重要意義。本研究對科技期刊文本與數(shù)據(jù)挖掘智能化研究現(xiàn)狀進行了分析，發(fā)現(xiàn)在選題策劃、預印本、文獻評估、同行評議以及模型探索等方面國內(nèi)外進展不一，中文科技期刊文本與數(shù)據(jù)挖掘的智能化研究呈現(xiàn)出技術融合能力不足、出版實踐不足、文本數(shù)據(jù)抓取不精準以及非結(jié)構(gòu)化文本受限等問題。因此，呼吁加強文本與數(shù)據(jù)挖掘的基礎布局，促進技術融合和發(fā)展；同時鼓勵更多的出版實踐，探索對文本與數(shù)據(jù)的深度挖掘；此外，還需要進一步構(gòu)建完整的科技期刊智能化文本與數(shù)據(jù)挖掘規(guī)則?？傊ㄟ^科技期刊文本與數(shù)據(jù)挖掘智能化研究，可以更好地利用科技文獻資源，促進科學發(fā)展。

近來，隨著最新的國家標準GB／T 7713.2—2022《學術論文編寫規(guī)則》的推廣采用，科技期刊文本與數(shù)據(jù)格式將更加規(guī)范，其挖掘邏輯將變得相對簡單。未來的研究可嘗試構(gòu)建智能挖掘系統(tǒng)，探索不同挖掘模型下的出版案例，深入研究文本與數(shù)據(jù)挖掘邏輯算法，推動科技期刊文本與數(shù)據(jù)挖掘智能化的進一步發(fā)展。

中國科技期刊研究2023年8期

中國科技期刊研究的其它文章: SCIE收錄的我國科技期刊創(chuàng)新性評價：基于顛覆性指數(shù)的實證研究; 基于質(zhì)性研究的護理類科技期刊編輯出版中的作者服務需求初探; 學術期刊開放同行評議實踐現(xiàn)狀分析; 中文學術期刊撤稿聲明問題及對策研究; 科技期刊編輯的職業(yè)忠誠度：現(xiàn)實水平、內(nèi)部機理及提升對策; 科技期刊青年人才支持項目成效分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡