■龐 麗 王利鵬 鄭春雨 陳 婕*
1)中國醫(yī)科大學附屬盛京醫(yī)院婦產(chǎn)科,遼寧省沈陽市鐵西區(qū)滑翔路39號 110022
2)中國醫(yī)科大學期刊中心,遼寧省沈陽市沈北新區(qū)蒲河路77號 110122
根據(jù)Web of Science數(shù)據(jù)庫統(tǒng)計,2018年全球發(fā)表學術論文總量大約為261.75萬篇,中國已超過美國成為全球最大的科研論文生產(chǎn)國,2022年我國期刊總數(shù)為10185種,其中科技期刊有5071種[1],年發(fā)文量為100多萬篇。伴隨著國內(nèi)“數(shù)據(jù)匯交”政策與國際“非商業(yè)目的的文本與數(shù)據(jù)挖掘著作權(quán)費用全免”政策的深入,大量“開放為常態(tài),不開放為例外”的科學數(shù)據(jù)和科研成果成為公共資源,可供挖掘的數(shù)據(jù)規(guī)模巨大,研究基礎雄厚,這將促進科學突飛猛進。然而,如何有效利用智能化手段進行文本與數(shù)據(jù)挖掘,擯棄冗余無效數(shù)據(jù),從而指導學科發(fā)展,是擺在每位期刊人面前的一項課題?!拔谋九c數(shù)據(jù)挖掘”(Text and Data Mining)是一項交叉技術,與圖書情報學、信息學、術語學、機器學習、自然語言處理、模式識別、神經(jīng)網(wǎng)絡計算、數(shù)理統(tǒng)計等學科領域融合。近年來,隨著人工智能技術的不斷突破,文本與數(shù)據(jù)挖掘進展迅速。精準、全面、有效地利用文本與數(shù)據(jù)挖掘有效評估稿件、篩選主題、回避學術不端、預測學科發(fā)展、捕捉創(chuàng)新點、輔助高水平辦刊及拓展應用是目前科技期刊關注的重點。國內(nèi)該領域研究不多,既往研究對關鍵詞抽提、挖掘邏輯、選題策劃、創(chuàng)新性評估等進行探索,但尚未見對標準化智能體系的報道。邊釗等[2]以遙感領域為例,分析關鍵詞規(guī)范化對主題信息挖掘結(jié)果的影響,發(fā)現(xiàn)須進一步對關鍵詞按照一定規(guī)則規(guī)范化以重塑聚類,方可得到優(yōu)化結(jié)果,但其僅對遙感領域關鍵詞數(shù)據(jù)進行抽提而非整篇科技文獻的元數(shù)據(jù)。田海江等[3]對100篇文獻樣本的挖掘邏輯分析顯示,作者關聯(lián)度機制存在內(nèi)生性問題,難以繼續(xù)優(yōu)化,而文獻碎片化自然語言處理機制存在學科分類表象與匹配聚類實質(zhì)不易彌合的客觀問題,但尚可通過優(yōu)化數(shù)據(jù)挖掘邏輯提升數(shù)據(jù)挖掘效果;其得出應改進算法映射,擯棄“超齡”數(shù)據(jù),從而提高數(shù)據(jù)挖掘的準確度。白婭娜等[4]以《潔凈煤技術》專刊為例,以年均出現(xiàn)3次以上的主題詞為高頻詞進行數(shù)據(jù)挖掘和分析,由此確定選題方向,并取得了較好的效果,但其未對挖掘邏輯和挖掘精度作描述。盧超[5]探索了學科領域中新興研究話題的內(nèi)容特征識別路徑,通過構(gòu)建文獻耦合網(wǎng)絡進行文本挖掘,構(gòu)建不同特征指標,從而有效實現(xiàn)新興研究話題發(fā)現(xiàn),其思路或可用于論文創(chuàng)新性評估,但其未對如何回避數(shù)據(jù)冗余及提升挖掘精度進行報道。由此可見,當前文本與數(shù)據(jù)挖掘研究仍存在諸多不盡如人意之處。本文擬對國內(nèi)外科技期刊文本與數(shù)據(jù)挖掘智能化研究進展進行闡述,以期為科技期刊文本與數(shù)據(jù)挖掘智能化發(fā)展探尋對策方案。
2019年3月26日歐盟議會批準了新的《數(shù)字單一市場版權(quán)指令》(Directive on Copyright in the Digital Singles Market),該版權(quán)指令對智能時代的新聞出版和文本與數(shù)據(jù)挖掘進行了最新定義,并允許智能分析受版權(quán)保護的大量數(shù)據(jù),支持文本與數(shù)據(jù)挖掘帶來行業(yè)創(chuàng)新[6]。文本與數(shù)據(jù)挖掘是指任何旨在分析數(shù)字形式的文本和數(shù)據(jù)的自動分析技術,可生成包括但不限于模型、趨勢、相關性等的信息[6]。區(qū)別于既往的文本挖掘(Text Mining)、數(shù)字挖掘(Data Mining)、網(wǎng)絡挖掘(Internet Mining),文本與數(shù)據(jù)挖掘是人工智能時代下三者融合發(fā)展的必然趨勢,可以理解為對數(shù)字形式的文本進行自動化分析,也可以理解為借助智能化手段對文本資源進行數(shù)字化,進而進行數(shù)字挖掘和網(wǎng)絡挖掘,是基于文本信息的知識發(fā)現(xiàn)。與數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比,文本為非結(jié)構(gòu)化數(shù)據(jù),文檔的內(nèi)容是人類使用的自然語言。在大數(shù)據(jù)基礎上,文本與數(shù)據(jù)挖掘智能化研究將文本信息數(shù)字化,通過智能手段獲取有效、新穎、有用、可理解的,散布在文本文件中的有價值信息。本研究擬采用文獻分析法檢索2019—2023年英文數(shù)據(jù)庫Web of Science(SCIE、SSCI、ESI)、ScienceDirect、Elsevier及中文數(shù)據(jù)庫中國知網(wǎng)中的科技期刊文本與數(shù)據(jù)挖掘智能化研究,梳理科技期刊文本與數(shù)據(jù)挖掘智能化研究進展,并為科技期刊文本與數(shù)據(jù)挖掘智能化模式提出可行性建議。
2019 年7 月,Pulla[7]在Nature上發(fā)文,介紹了美國與印度合作構(gòu)建的巨大文本和圖像庫JNU Data Depot,該數(shù)據(jù)庫收錄了從1847年開始的7300萬篇文獻,試圖掃清出于科研目的對科技論文進行文本與數(shù)據(jù)挖掘的障礙。(1)在科技期刊選題熱點方面,Zengul等[8]使用了自然語言處理和文本與數(shù)據(jù)挖掘方法對10種腎臟病期刊的17412篇文獻摘要進行分析,捕獲10個不同的腎臟病研究主題,發(fā)現(xiàn):2個主題呈上升趨勢,3個主題呈下降趨勢,5個主題保持相對穩(wěn)定;隨著時間的推移,“關注病死率和生存”與“患者相關的結(jié)果和視角”的研究越來越受歡迎。由此提出,腎臟學研究者可利用該分析結(jié)果進一步確立研究方向。Zengul等[9]通過文本與數(shù)據(jù)挖掘,研究排名前20癌癥/腫瘤學期刊的93423篇文獻的研究主題及趨勢,發(fā)現(xiàn)14個不同主題,包括7個上升主題、5個下降主題、2個相對穩(wěn)定主題,其中“癌癥遺傳”和“生物標記物”等主題在過去20年中一直呈現(xiàn)出穩(wěn)定的發(fā)展趨勢,并吸引了癌癥研究人員的持續(xù)關注。該研究結(jié)果有利于解釋癌癥研究的主題和趨勢,幫助研究人員和利益相關者確定未來研究方向。(2)在預印本出版領域,Lampinen等[10]以心理學出版物為例,通過人工智能文本與數(shù)據(jù)挖掘分析預印本和快速發(fā)布會議出版物,討論了卷積神經(jīng)網(wǎng)絡、機器深化學習等文本與數(shù)據(jù)挖掘方案的優(yōu)劣勢,建議將兩種方案結(jié)合起來實現(xiàn)薈萃分析和綜合評論以實現(xiàn)發(fā)布優(yōu)化,探索了預印本的智能文本與數(shù)據(jù)挖掘。(3)在文獻評估方面,CheshmehSohrabi等[11]利用文本與數(shù)據(jù)挖掘和文獻計量技術分析了Scopus數(shù)據(jù)庫1973—2020年2162篇文獻的作者、標題、摘要、引用、機構(gòu)、出版日期、被引頻次、卷、起止頁、作者關鍵詞、索引關鍵詞和文檔類型等,發(fā)現(xiàn):文獻總被引頻次為35899次,大約87%的Articles、46%的Editorials和43%的Notes至少得到1次引用,而Conference Papers沒有被引用;在排名前85位的國家貢獻的1903篇文獻中,美國文獻的總被引頻次最高(8776次),1781篇(94%)有摘要,而在43篇沉睡期長達43年的零被引文獻中34篇無摘要。其研究結(jié)果可進一步指導研究者識別學科優(yōu)勢和趨勢,找出差距和不足,并有助于發(fā)現(xiàn)學科領域的熱點和新模式。(4)在模型探索和方法學研究方面,Lee等[12]使用NSML(Naver Smart Machine Learning)研發(fā)了BioBERT模型,獲得了比之前所有模型更高的MRR(Mean Reciprocal Rank)分數(shù),最終構(gòu)建了可用最少的任務特定架構(gòu)實現(xiàn)命名實體識別(Named Entity Recognition,NER)、關系提?。≧elation Extraction,RE)和問答系統(tǒng)(Question Answering System,QA)的最優(yōu)模型。Plotnikova等[13]通過系統(tǒng)回顧207篇經(jīng)同行評議的“灰色”文獻,發(fā)現(xiàn)數(shù)據(jù)挖掘方法主要是“照原樣”(as-is)實施的,且對模型存在各種改編,改編模型的數(shù)量正在迅速增長,改編目的為適當處理大數(shù)據(jù)技術、工具和環(huán)境或?qū)?shù)據(jù)挖掘解決方案集成到業(yè)務流程和IT系統(tǒng)中,其得出結(jié)論是應結(jié)合數(shù)據(jù)、技術和組織方面對現(xiàn)有標準文本與數(shù)據(jù)挖掘模型進行改進。Gonzalez等[14]組織研討會議,提出了ATHENA綜合方法、SEN方法、細粒度文本挖掘方法等可行性方法來改進文本與數(shù)據(jù)挖掘,由此認為文本與數(shù)據(jù)挖掘的最大挑戰(zhàn)是真正影響生物醫(yī)學成果發(fā)現(xiàn)過程,使科學家能夠產(chǎn)生新的假設來解決最關鍵的問題。(5)在同行評議方面,Kang等[15]以神經(jīng)網(wǎng)絡語言模型為依托,對3006篇稿件的10770份同行評議意見進行文本與數(shù)據(jù)挖掘,提出了一種聯(lián)合使用稿件正文和同行評議意見的預測方法,進而認為多數(shù)稿件的同行評議意見與客觀評議結(jié)果一致。
由此可見,多模態(tài)文本與數(shù)據(jù)挖掘正驅(qū)動科技期刊在多領域深入發(fā)展,其利用不同數(shù)據(jù)類型之間的關聯(lián),探索最新模型,并提高模型的性能和效率,最終實現(xiàn)通過對現(xiàn)有科技期刊論文數(shù)據(jù)的分析,挖掘出有價值的信息和知識,預測未來趨勢和發(fā)展方向,為科學研究決策和期刊發(fā)展提供參考。智能化的文本與數(shù)據(jù)挖掘抓取的內(nèi)容包括但不限于模型、趨勢、相關性等敏感高效信息,其正在引領和指導學科及技術的變革性發(fā)展。但目前在國外,文本與數(shù)據(jù)挖掘智能化研究人員多為專業(yè)數(shù)據(jù)挖掘者,研究對象均為開放獲取數(shù)據(jù),因此不排除數(shù)據(jù)偏倚且學科指導價值有限的情況。
在中國知網(wǎng)數(shù)據(jù)庫檢索得到2019—2023年關鍵詞為“文本與數(shù)據(jù)挖掘”的34條文獻記錄,包括24篇學術期刊論文、9篇學位論文、1篇學術輯刊論文,論文分布在民商法(31篇)、出版(9篇)、法史(5篇)、圖書情報與數(shù)字圖書館(3篇)、行政法及地方法制(1篇)、國際法(1篇)、憲法(1篇)、計算機軟件及計算機應用(1篇)等學科領域。其中,圖書情報與數(shù)字圖書館領域的3篇論文《人工智能時代文本與數(shù)據(jù)挖掘合理使用規(guī)則設計研究》《圖書館數(shù)字化作品的著作權(quán)保護與TDM的沖突與兼容》《開放獲取的許可授權(quán)協(xié)議管理》和出版領域的9篇論文均關注著作權(quán)法例外條例。主要主題為“文本與數(shù)據(jù)挖掘”的論文僅有2篇,也主要關注著作權(quán)法例外條例的本土化情況。
中國科學技術協(xié)會《中國科技期刊發(fā)展藍皮書(2022)》的數(shù)據(jù)顯示,截至2021年底,在中國科技期刊中,中文科技期刊占大多數(shù)。面對海量的論文文本與數(shù)據(jù),未見對我國中文科技期刊文本與數(shù)據(jù)挖掘智能化的系統(tǒng)報道,現(xiàn)就當前研究現(xiàn)狀進行分析。(1)在選題策劃方面,已有較多報道,研究多采用網(wǎng)絡挖掘。王秀芝等[16]以“一流大學與一流學科建設”和“高等教育國際化”兩個選題為例,運用Rost News Analysis Tool 4.5分析工具,進行分詞和詞性分析、詞頻統(tǒng)計、詞語過濾、名詞提取、語義網(wǎng)絡構(gòu)建、數(shù)據(jù)可視化分析等,對網(wǎng)絡數(shù)據(jù)進行挖掘,最終量化期刊選題策劃方向,提出基于網(wǎng)絡挖掘技術的學術期刊選題策劃新路徑;但其未采用智能化手段,雖進行了量化選題論證分析,但其納入的基礎文本數(shù)據(jù)的質(zhì)量和數(shù)量有限,挖掘結(jié)果代表性不強。(2)在模型構(gòu)建和方法學方面,圖書情報領域研究多采用傳統(tǒng)的主題成因理論,部分研究也采用詞頻分析和非結(jié)構(gòu)化數(shù)據(jù)集進行分布分析、聚類分析、趨勢分析等。楊玥等[17]利用主題模型分析和詞頻統(tǒng)計相結(jié)合的方法來提升關鍵詞提取的準確率,但該手段需要海量計算和人工處理。溫有奎等[18]采用人工智能技術把文本信息智能分解成結(jié)構(gòu)化知識單元,并將知識單元分解為主謂賓結(jié)構(gòu);將主謂賓語句單元轉(zhuǎn)換為PDF格式,建立具有語義關系的語義知識庫,利用人工智能的知識表示、存儲、推理技術開展語義關系的智能推理研究。該研究為智能文本挖掘提供了理論和技術基礎,但涵蓋學科泛泛,缺少出版應用實例。(3)在文獻評估方面,龔真平[19]基于網(wǎng)絡爬蟲技術,為用戶提供可挖掘海量數(shù)據(jù)的可視化系統(tǒng),減少用戶獲取有用文獻信息的時間,同時該系統(tǒng)可進行文獻自動化查重,減少審核人員的工作量。該研究成果主要應用于檢測重復率,未對學術價值作進一步的評估。(4)在同行評議方面,杜杏葉[20]研究探索了基于文本與數(shù)據(jù)挖掘的同行評議系統(tǒng),對論文的創(chuàng)新性、科學性、規(guī)范性、學術影響力等評價指標進行數(shù)字轉(zhuǎn)化,借助認知計算邏輯構(gòu)建學術論文知識元本體模型,利用規(guī)范性模塊、專家評價模塊、編輯部處理模塊檢測,并以《圖書情報工作》發(fā)表論文為例進行智能化評價,結(jié)果顯示同行評議系統(tǒng)與專家評價的總體重合率達60%。該研究對建立智能化綜合評價系統(tǒng),實現(xiàn)對學術論文的創(chuàng)新性、科學性、價值性等的評價和自動量化評審,推動大數(shù)據(jù)與人工智能技術在學術評價領域的深度應用有借鑒價值,但其也存在不足之處:智能化融合不足、混雜因素多、采用的標準陳舊、納入對象少、未作比較研究等。王勇臻等[21]通過梳理不同文本挖掘技術在論文同行評議中的應用研究,認為目前研究應圍繞對同行評議意見的預測能力、情感表達以及論辯邏輯3個方面進行深化,應著重探討不同文本挖掘方法的可行性與有效性,但其研究樣本局限于計算機科學領域的國際會議論文(英文)。經(jīng)檢索,未見關于文本與數(shù)據(jù)挖掘在預印本、優(yōu)先出版等期刊出版方面應用的文獻報道。
2.3.1 挖掘技術較為成熟,但融合能力不足
在圖書情報學和計算機科學領域已有大量數(shù)據(jù)挖掘研究,相關技術較為成熟。孫朝陽[22]采用基于規(guī)則的實體自動補全方法和基于深度學習的關系自動補全方法,設計并訓練了深度學習模型,最終產(chǎn)出了知識圖譜補全模塊,并在初等數(shù)學自然語言理解系統(tǒng)驗證。其系統(tǒng)解題通過率提高了30%,但其研究對象為初等數(shù)學這類邏輯完整的結(jié)構(gòu)化文本?,F(xiàn)有技術對非結(jié)構(gòu)化文本的融合能力不足,當前采用的主流挖掘技術如Python、網(wǎng)絡爬蟲各有優(yōu)缺點:Python可以進行一般人工智能處理,但不可避免地存在數(shù)據(jù)誤差、掃描不清晰等問題,全面性不佳;網(wǎng)絡爬蟲可以完全照原樣處理數(shù)據(jù),但其欠缺智能化處理方案。在應用于中文科技期刊這一特殊載體時,這些技術又面臨學科特殊性干擾,如名詞體系不完善導致的關鍵詞抓取不全面、數(shù)據(jù)冗余、大量人工介入等,這些都是目前干擾挖掘結(jié)果的技術層面問題。
2.3.2 新概念的科技期刊出版實踐不足
智能化文本與數(shù)據(jù)挖掘可深度應用于選題策劃、優(yōu)先出版和預印本、趨勢分析、關鍵詞提取、文本聚類和實體識別、學科預測、情感分析、推薦系統(tǒng)等。在非結(jié)構(gòu)化文本方面,網(wǎng)絡挖掘、文本挖掘、數(shù)字挖掘應用較多,但這三者有別于文本與數(shù)據(jù)挖掘,僅供借鑒。在網(wǎng)絡挖掘方面,劉曉彤等[23]通過爬取原創(chuàng)微博、結(jié)合Single-Pass和K-Means++算法聚類出微博主題,對疫苗市場、疫苗變異、疫苗科普等11個聚類主題分別進行智能化情感分析,該研究結(jié)果可以指導心理疏導的方向。在文本挖掘方面,趙大海等[24]構(gòu)建基于文本挖掘與人工智能技術的智能軍事情報獲取框架,針對海量非結(jié)構(gòu)化文本信息,運用智能算法進行可能性推理,并結(jié)合文字處理等技術,提高了軍事情報的多維提取率,為戰(zhàn)場態(tài)勢感知和作戰(zhàn)決策指揮等方面提供了很好的指導,其研究技術或可借鑒。在數(shù)字挖掘方面,張美娟等[25]提出基于數(shù)字挖掘創(chuàng)新圖書館精準營銷模式,構(gòu)建數(shù)字挖掘的技術平臺和精準營銷的業(yè)務平臺,并進行了實踐探索;但其只關注了圖書的營銷實踐,未對科技期刊出版實踐進行探索,研究成果是否可以被科技期刊領域借鑒尚需進一步研究評估。
2.3.3 關鍵詞等文本數(shù)據(jù)不夠精準
目前文本與數(shù)據(jù)挖掘的技術研究基礎仍以文本數(shù)據(jù)收集、清洗、分詞、文本標識為主,進一步進行數(shù)據(jù)抽取和文本降維以實現(xiàn)深度挖掘分析對名詞術語標準化程度有嚴苛要求。全國科學技術名詞審定委員會已于2000年正式成為國際術語信息中心(Infoterm)成員,且2009年術語學作為獨立學科出現(xiàn),但科技期刊術語學研究尚不完善,多數(shù)研究關注點局限于應用層面。商濤等[26]對《呼吸病學名詞》在電子病歷中的使用情況進行調(diào)研,通過觀察疾病、體征或癥狀類標準醫(yī)學術語及其關聯(lián)的同義詞分布,發(fā)現(xiàn)標準醫(yī)學術語的使用頻次高于非標準醫(yī)學術語,但整體而言,同一醫(yī)學概念在不同來源的病歷中表述多樣,標準化程度不高,從而認為術語使用現(xiàn)狀有待改進。龐麗等[27]的前期研究通過比對GB 6447—1986《文摘編寫規(guī)則》和2020年《報紙期刊質(zhì)量管理規(guī)定》,發(fā)現(xiàn)600種中文醫(yī)學科技期刊摘要的整體情況良好,但仍有結(jié)構(gòu)、格式、表述等方面的不足。因此,術語體系不統(tǒng)一會進一步影響文本信息結(jié)構(gòu)分層邏輯等基礎問題。
2.3.4 結(jié)構(gòu)化文本邏輯完整,非結(jié)構(gòu)化文本技術受限
關于文本與數(shù)據(jù)挖掘智能化,目前計算機領域探討較多。唐家川[28]聚焦于純非結(jié)構(gòu)化文本,構(gòu)建關系標注平臺,設計能從短句中抽取多個三元組的算法邏輯,并基于該算法開發(fā)出文本關系抽取系統(tǒng)。該算法的核心是使用BERT模型將數(shù)學文本轉(zhuǎn)為句向量,再采用文本匹配的思路從已知數(shù)據(jù)中尋找相似度最高的短句,以該短句的關系為當前短句的關系,最終實現(xiàn)系統(tǒng)關系抽取90%的正確率、80%的完整性。但其局限于初等數(shù)學這類邏輯完整的文本信息,未對其他文本信息探索,該方法或可為科技期刊非結(jié)構(gòu)化文本分析提供借鑒。目前在關鍵詞提取方面,TEXT Rank算法和TF-IDF算法較為流行,但既往研究認為,傳統(tǒng)的文本與數(shù)據(jù)挖掘存在3個方面的問題:(1)矢量空間模型(Vector Space Model,VSM)的維度獨立單一,高維空間的文本相似度不足;(2)術語(或詞匯)語義相關性不夠,多數(shù)傳統(tǒng)的文本與數(shù)據(jù)挖掘方法無法識別同義詞;(3)詞袋法產(chǎn)生的矢量導致“維數(shù)災難”。
加強文本與數(shù)據(jù)挖掘基礎布局,促進融合發(fā)展,如:采用自然語言處理技術對科技期刊文本與數(shù)據(jù)進行處理和分析,實現(xiàn)對文本的語義理解、情感分析等功能,提高對文本的理解和處理能力;采用機器學習技術對科技期刊文本進行分類、聚類、推薦等,實現(xiàn)對文本的自動化處理和管理,提高信息檢索和知識發(fā)現(xiàn)的效率和準確性;采用數(shù)據(jù)可視化技術將處理后的數(shù)據(jù)呈現(xiàn)為直觀易懂的圖形,幫助期刊更好地理解和分析數(shù)據(jù),發(fā)現(xiàn)其中規(guī)律和趨勢;采用智能推薦技術將分析的結(jié)果反饋給編輯、讀者或作者,幫助他們發(fā)現(xiàn)更多有價值的信息和研究成果,提高其工作效率和科研能力。
鼓勵文本與數(shù)據(jù)挖掘平臺或工具的構(gòu)建,以通過智能技術對科技文獻進行深度挖掘,發(fā)現(xiàn)其中信息和關聯(lián),從而促進科技創(chuàng)新和產(chǎn)業(yè)發(fā)展。鑒于當前常用的挖掘方法各有優(yōu)缺點,應鼓勵大量根據(jù)不同挖掘目的開展的出版實踐,并總結(jié)經(jīng)驗。開發(fā)優(yōu)于現(xiàn)狀的新模式、整合優(yōu)勢的智能網(wǎng)絡平臺也是未來需要探索的方向。
提高關鍵詞抓取精準度,提高高維空間的文本相似度,提高術語(或詞匯)語義相關性,避免“維數(shù)災難”,深度研究科技期刊語言文字術語的精細標準[29-30],進一步完善行業(yè)標準,促進文本與數(shù)據(jù)挖掘的智能化發(fā)展。特征選擇和降維等方法也可用于進一步優(yōu)化特征向量的表示。
科技期刊具有學科交叉性,文本與數(shù)據(jù)多樣。應借鑒現(xiàn)有經(jīng)驗,探索非結(jié)構(gòu)化文本的特征向量轉(zhuǎn)換和算法優(yōu)化方法,如在確定特征向量時,可以綜合使用詞袋模型、TF-IDF模型、Word2Vec模型、LDA模型、N-Gram模型等,選取適合文本任務和數(shù)據(jù)集的特征向量表示方式。算法模型也需要根據(jù)研究目的進行優(yōu)化,如:在使用深度學習模型卷積神經(jīng)網(wǎng)絡進行文本處理時,應對長文本進行截斷或填充以避免模型無法處理或丟失關鍵信息,用遷移學習、預訓練模型提高訓練速度,采用正則化技術(如L1、L2正則化)降低模型復雜度和過擬合風險,結(jié)合注意力機制或空洞卷積(Dilated Convolution)提升模型對全局上下文的感知能力等。在采用循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,RNN)進行文本處理時,可采用門控循環(huán)單元(Gated Recurrent Units,GRU)、長短時記憶網(wǎng)絡(Long Short-Term Memory,LSTM)或預訓練的詞嵌入模型(如BERT、GPT等)解決長期依賴性問題,使用注意力機制(Attention Mechanism)使模型能夠更好地處理長序列,利用Transformer模型并行處理整個序列,對序列進行截斷或采樣以減少參數(shù)數(shù)量和計算量,使用批處理和GPU加速等技術提高計算效率等。
科技期刊文本與數(shù)據(jù)挖掘的智能發(fā)展對科技工作者和科學研究具有重要意義。本研究對科技期刊文本與數(shù)據(jù)挖掘智能化研究現(xiàn)狀進行了分析,發(fā)現(xiàn)在選題策劃、預印本、文獻評估、同行評議以及模型探索等方面國內(nèi)外進展不一,中文科技期刊文本與數(shù)據(jù)挖掘的智能化研究呈現(xiàn)出技術融合能力不足、出版實踐不足、文本數(shù)據(jù)抓取不精準以及非結(jié)構(gòu)化文本受限等問題。因此,呼吁加強文本與數(shù)據(jù)挖掘的基礎布局,促進技術融合和發(fā)展;同時鼓勵更多的出版實踐,探索對文本與數(shù)據(jù)的深度挖掘;此外,還需要進一步構(gòu)建完整的科技期刊智能化文本與數(shù)據(jù)挖掘規(guī)則??傊ㄟ^科技期刊文本與數(shù)據(jù)挖掘智能化研究,可以更好地利用科技文獻資源,促進科學發(fā)展。
近來,隨著最新的國家標準GB/T 7713.2—2022《學術論文編寫規(guī)則》的推廣采用,科技期刊文本與數(shù)據(jù)格式將更加規(guī)范,其挖掘邏輯將變得相對簡單。未來的研究可嘗試構(gòu)建智能挖掘系統(tǒng),探索不同挖掘模型下的出版案例,深入研究文本與數(shù)據(jù)挖掘邏輯算法,推動科技期刊文本與數(shù)據(jù)挖掘智能化的進一步發(fā)展。