劉細(xì)文,郭世杰
(1.中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書情報(bào)與檔案管理系,北京 100049;2.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190)
現(xiàn)代科學(xué)研究在微觀、宏觀、復(fù)雜性等方面不斷深入,“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)”正日益發(fā)揮不可替代的作用,多學(xué)科交叉前沿和一系列顛覆性技術(shù)正在不斷塑造新的科學(xué)研究競(jìng)爭(zhēng)格局;面對(duì)不斷涌現(xiàn)的新技術(shù)、新知識(shí)、新概念,如何與前沿科學(xué)家和工程師同步認(rèn)知最新科技發(fā)展態(tài)勢(shì),高效和準(zhǔn)確地還原不同研究主題和領(lǐng)域知識(shí)本體全貌,進(jìn)而從紛繁復(fù)雜的技術(shù)領(lǐng)域動(dòng)態(tài)中敏捷地監(jiān)測(cè)、抓取、挖掘出有效信息,為決策者和科研人員搭建好“從數(shù)據(jù)到信息,從知識(shí)到智慧”的橋梁,是情報(bào)工作者面臨的重要問題。
科研數(shù)據(jù)的爆炸式增長(zhǎng)對(duì)大規(guī)模知識(shí)管理和基于機(jī)器理解的知識(shí)挖掘帶來了新的挑戰(zhàn),同時(shí)也提供了對(duì)跨學(xué)科知識(shí)進(jìn)行集成和解析挖掘的可行條件。2012年,TONY 等在 《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》[1]中指出,未來的計(jì)算機(jī)系統(tǒng)應(yīng)當(dāng)能夠自動(dòng)發(fā)現(xiàn)、獲取、組織、分析、關(guān)聯(lián)、解釋、推斷信息,在全球范圍內(nèi)管理和處理知識(shí)的基礎(chǔ)架構(gòu)可作為下一代知識(shí)驅(qū)動(dòng)型服務(wù)和應(yīng)用程序的基礎(chǔ),研究人員可以利用這樣的基礎(chǔ)設(shè)施,提出與他們專業(yè)領(lǐng)域相關(guān)的問題,并在這樣的“知識(shí)海洋”中找到答案。2020 年,張霖[2]提出,通過利用物理模型、傳感器更新、運(yùn)行歷史數(shù)據(jù)等資源,可以集成多學(xué)科、多物理量、多尺度、多概率的仿真,可以在虛擬空間中完成對(duì)現(xiàn)實(shí)物理對(duì)象的映射,從而進(jìn)行分析、預(yù)測(cè)、診斷、訓(xùn)練等,開展學(xué)科領(lǐng)域的知識(shí)發(fā)現(xiàn)研究。
在人工智能技術(shù)快速發(fā)展的背景下,構(gòu)建不同科技領(lǐng)域的“認(rèn)知模型”,利用算法和計(jì)算框架對(duì)物理世界的各種研究對(duì)象進(jìn)行抽象和描述,是進(jìn)一步利用各種計(jì)算工具、服務(wù)和應(yīng)用程序,實(shí)現(xiàn)機(jī)器輔助知識(shí)推理、演繹、跨領(lǐng)域相關(guān)分析的基礎(chǔ)。近年來,國(guó)內(nèi)外已有大量機(jī)器學(xué)習(xí)算法將科學(xué)研究的問題抽象為包含該領(lǐng)域核心知識(shí)的若干關(guān)鍵特征,這些特征包括技術(shù)性能參數(shù)、結(jié)構(gòu)成分、材料、制備方法、生產(chǎn)工藝、應(yīng)用方向等,為快速構(gòu)建對(duì)該學(xué)科領(lǐng)域的情報(bào)認(rèn)知、幫助一線科研人員積累科學(xué)研究方法和思路、指導(dǎo)情報(bào)研究人員理解特定學(xué)科領(lǐng)域的知識(shí)背景等提供了便利條件。
隨著科研數(shù)據(jù)的不斷豐富和信息技術(shù)的高速發(fā)展,國(guó)內(nèi)外許多研究人員構(gòu)建了專業(yè)學(xué)科領(lǐng)域的分析模型,在此基礎(chǔ)上利用公開發(fā)表的文獻(xiàn)資料,對(duì)該領(lǐng)域的關(guān)鍵知識(shí)與信息(如新材料、新工藝、新研究方向等)進(jìn)行挖掘和分析。2019 年7 月,TSHITOYAN等在Nature上報(bào)道了利用無監(jiān)督詞嵌入模型從材料科學(xué)文獻(xiàn)中發(fā)現(xiàn)潛在新材料組份的方法[3],利用近330 萬份論文摘要數(shù)據(jù)訓(xùn)練詞嵌入模型,對(duì)文獻(xiàn)中材料的“結(jié)構(gòu)-屬性”關(guān)系進(jìn)行了挖掘,預(yù)測(cè)了可能具有較高熱電品質(zhì)因數(shù)的新材料,并基于歷史數(shù)據(jù)成功開展回溯測(cè)試驗(yàn)證,表明詞向量空間模型的位置編碼可能包含材料科學(xué)知識(shí)。2015 年,ROSS 利用“機(jī)器人科學(xué)家”開展化學(xué)和生物研究的方法,構(gòu)建了包含1 萬多個(gè)知識(shí)點(diǎn)的11 層深的嵌套樹狀結(jié)構(gòu)模型,將實(shí)驗(yàn)假設(shè)、測(cè)量結(jié)果、目標(biāo)等知識(shí)以具有相關(guān)概率的邏輯進(jìn)行表示并通過語義網(wǎng)進(jìn)行發(fā)布,發(fā)現(xiàn)了對(duì)抗熱帶病的新鉛化合物[4]。2019 年7 月,F(xiàn)ATHALLA 等報(bào)道了“科學(xué)事件數(shù)據(jù)模型”(OR-SEO)構(gòu)建和應(yīng)用方法,對(duì)人員、組織、位置、時(shí)間等科學(xué)事件“要素”及它們之間的關(guān)系進(jìn)行建模,并通過組合規(guī)則發(fā)現(xiàn)要素間新的關(guān)系、推斷知識(shí)圖譜中未明確的新知識(shí)[5]。與此類似的還包括許多用于分析和發(fā)現(xiàn)新基因、新藥物的生物信息學(xué)(Bio-Informatics)、醫(yī)學(xué)信息學(xué)(Medical Informatics)挖掘模型等。
在更廣泛的科學(xué)技術(shù)領(lǐng)域,應(yīng)用各種機(jī)器學(xué)習(xí)方法直接從各種實(shí)驗(yàn)、觀測(cè)、分析、測(cè)量數(shù)據(jù)中發(fā)掘新知識(shí)的研究大放異彩,取得了令人矚目的豐富成果,近年來在人工智能的熱潮中已經(jīng)廣為人知。例如,在生物學(xué)中,KOOHI-MOGHADAM 等利用多通道卷積神經(jīng)網(wǎng)絡(luò)(MCCNN)模型,對(duì)醫(yī)學(xué)數(shù)據(jù)庫(kù)中11 萬余條致病蛋白質(zhì)突變數(shù)據(jù)、16 萬余條金屬結(jié)合位點(diǎn)的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)進(jìn)行了分析,揭示了十幾種疾病和不同金屬、不同蛋白質(zhì)突變之間的相關(guān)關(guān)系[6];在天文學(xué)中,DATTILO 等利用多個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)“開普勒”(Kepler)空間望遠(yuǎn)鏡的觀測(cè)數(shù)據(jù)進(jìn)行分析,在距地球1 200 光年的水瓶座星座中發(fā)現(xiàn)了2 顆系外行星[7];在太陽(yáng)物理學(xué)中,WANG 等利用核主成分分析(KPCA)模型對(duì)太陽(yáng)耀斑先兆因子(磁通量、磁螺度平均值等)數(shù)據(jù)進(jìn)行了分析,增強(qiáng)了對(duì)強(qiáng)太陽(yáng)耀斑的預(yù)報(bào)能力[8];在地質(zhì)學(xué)中,PHAM 等利用決策樹(DT)分類器、基于旋轉(zhuǎn)森林的決策樹(RFDT)、基于多重提升的決策樹(MDT)等模型,對(duì)印度某地區(qū)的10 種地質(zhì)數(shù)據(jù)(海拔、降水量、坡度、河流密度、巖性、地形濕度指數(shù)等)進(jìn)行了分析,完成了對(duì)34 口地下水井水位的預(yù)測(cè)[9]。
上述研究均構(gòu)建了用于分析某一學(xué)科領(lǐng)域數(shù)據(jù)的學(xué)科認(rèn)知模型,這些模型包含對(duì)相關(guān)科學(xué)/技術(shù)工程的關(guān)鍵問題、核心技術(shù)、性能指標(biāo)、相關(guān)關(guān)系的描述和抽象,提供了研究這些科學(xué)/技術(shù)工程問題的方法、思路、計(jì)算框架、核心算法等,代表著科研人員對(duì)特定學(xué)科領(lǐng)域的認(rèn)知。若能將這些模型進(jìn)行有效解析、存儲(chǔ),實(shí)現(xiàn)可查詢、檢索、重復(fù)使用,將為不同領(lǐng)域的科研人員和情報(bào)分析人員提供快速切入最新研究領(lǐng)域、敏捷獲取領(lǐng)域知識(shí)本體的抓手。
情報(bào)是知識(shí)的流動(dòng),并可以帶來原有知識(shí)結(jié)構(gòu)的變化??茖W(xué)進(jìn)步依賴于對(duì)現(xiàn)有知識(shí)的有效吸收,以選擇最有前途的演進(jìn)方向發(fā)展,并最大程度地減少重復(fù)勞動(dòng)。潛在知識(shí)一方面蘊(yùn)藏在科學(xué)研究實(shí)驗(yàn)/測(cè)量/觀測(cè)/分析數(shù)據(jù)中,另一方面也很大程度上“沉淀”在已有的學(xué)術(shù)文獻(xiàn)中。如果通過從大量學(xué)術(shù)文獻(xiàn)中提取知識(shí)和關(guān)系,能夠揭示“沉淀”知識(shí),帶來全新的開發(fā)和設(shè)計(jì)成果,使原有知識(shí)結(jié)構(gòu)發(fā)生改變、形成新的知識(shí)結(jié)構(gòu)。正如布魯克斯知識(shí)方程[10]描述的那樣:
方程(1)中,K[S]代表原有知識(shí)結(jié)構(gòu),△I為情報(bào)增量,K[S+△S]為新的知識(shí)結(jié)構(gòu)。這里的△I既可以來自各種自然科學(xué)實(shí)驗(yàn)、觀測(cè)、測(cè)量、計(jì)算活動(dòng),也可以來自對(duì)文獻(xiàn)資源和各種音視頻媒體信息的綜合、提煉、歸納、總結(jié)、對(duì)比、分析,而后者正是學(xué)科情報(bào)工作的基本內(nèi)涵之一。
基于已有學(xué)術(shù)文獻(xiàn),開展深度情報(bào)研究、快速應(yīng)對(duì)技術(shù)威脅、準(zhǔn)確把握學(xué)科研究進(jìn)展等,都需要高效地對(duì)學(xué)科領(lǐng)域與技術(shù)優(yōu)勢(shì)形成快速準(zhǔn)確科學(xué)認(rèn)知。然而,這種科學(xué)認(rèn)知除了需要借助信息化、智能化手段綜合分析科學(xué)大數(shù)據(jù)、學(xué)術(shù)文獻(xiàn)大數(shù)據(jù)等外,還需要借助各個(gè)學(xué)科領(lǐng)域的認(rèn)知模型,通過信息計(jì)算、數(shù)據(jù)計(jì)算、情報(bào)計(jì)算方式形成對(duì)學(xué)科和技術(shù)態(tài)勢(shì)的情報(bào)認(rèn)知。如果廣泛收集學(xué)科知識(shí)認(rèn)知模型建立“情報(bào)認(rèn)知模型庫(kù)”,則可以作為新的情報(bào)研究數(shù)據(jù)基礎(chǔ)設(shè)施,幫助不同領(lǐng)域的科研工作者、情報(bào)人員快速識(shí)別新科技理念、發(fā)現(xiàn)科技機(jī)遇、甄別技術(shù)威脅,進(jìn)行知識(shí)挖掘、組織、集成、關(guān)聯(lián)、重組。
基于以上認(rèn)識(shí)和發(fā)展需要,可以將“情報(bào)認(rèn)知模型”定義為:科研人員借助于文獻(xiàn)信息資源、實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析和挖掘的模擬、仿真計(jì)算模型,以及相關(guān)的知識(shí)挖掘計(jì)算方法等。
在不同學(xué)科領(lǐng)域,已有許多研究開發(fā)和構(gòu)建了各種分析模型,如前文提到的材料性能挖掘模型、蛋白質(zhì)結(jié)構(gòu)模型、系外行星識(shí)別模型、太陽(yáng)耀斑活動(dòng)分析模型、地下水水位分析模型等,可以將它們看作相關(guān)學(xué)科領(lǐng)域的“情報(bào)認(rèn)知模型”。但是,情報(bào)研究人員還很少?gòu)奶厣珨?shù)據(jù)資源和數(shù)據(jù)基礎(chǔ)設(shè)施的角度去看待這些“情報(bào)認(rèn)知模型”,也很少?gòu)墓こ袒瘜?shí)施的角度,去建設(shè)一個(gè)解析、存儲(chǔ)、檢索和調(diào)用這些“情報(bào)認(rèn)知模型”的信息庫(kù)。
以石墨烯材料領(lǐng)域?yàn)槔嚓P(guān)研究可涉及至少5類信息對(duì)象:第1 類是開展實(shí)驗(yàn)分析或測(cè)量所獲得的科學(xué)實(shí)驗(yàn)數(shù)據(jù),如進(jìn)行石墨烯導(dǎo)電性實(shí)驗(yàn)時(shí)記錄的時(shí)間信息和各種實(shí)驗(yàn)儀器讀數(shù)等;第2 類是從這些實(shí)驗(yàn)數(shù)據(jù)中獲得的知識(shí),例如可以是石墨烯的電學(xué)性能、熱學(xué)性能、光學(xué)性能、力學(xué)性能、制備方法、功能化應(yīng)用領(lǐng)域等;第3 類是對(duì)科學(xué)技術(shù)領(lǐng)域的知識(shí)進(jìn)行挖掘、組織、歸納、分析之后所獲得的情報(bào)。例如可以是石墨烯的各種性能參數(shù)和應(yīng)用領(lǐng)域、制備方法之間的因果關(guān)系、上下位關(guān)系、包含關(guān)系、“材料—成品”關(guān)系、“實(shí)體—值”關(guān)系等。第4 類是用于指導(dǎo)對(duì)科學(xué)技術(shù)領(lǐng)域知識(shí)進(jìn)行分析和挖掘的認(rèn)知模型,例如可以是抽取石墨烯的熱學(xué)、力學(xué)、電學(xué)性能特征、采用聚類算法分析石墨烯研究主題的無監(jiān)督學(xué)習(xí)模型,也可以是抽取石墨烯的制備方法和催化劑種類特征的機(jī)器學(xué)習(xí)模型等。第5 類則是對(duì)各種情報(bào)認(rèn)知模型進(jìn)行分類、解析、組織和結(jié)構(gòu)化存儲(chǔ)的模型庫(kù),例如不同石墨烯情報(bào)認(rèn)知模型的訓(xùn)練數(shù)據(jù)源、特征抽取規(guī)則、驗(yàn)證方法、情報(bào)挖掘和預(yù)測(cè)效果、源代碼等。上述5類信息對(duì)象都對(duì)科學(xué)技術(shù)領(lǐng)域的科學(xué)研究和科技情報(bào)工作具有價(jià)值,都可以進(jìn)行積累和收集,對(duì)科研人員和情報(bào)人員提供服務(wù),發(fā)揮“數(shù)據(jù)基礎(chǔ)設(shè)施”和“情報(bào)分析/科學(xué)研究工具箱”的功效。
當(dāng)前,許多研究領(lǐng)域呈現(xiàn)出對(duì)長(zhǎng)期連續(xù)觀測(cè)獲取數(shù)據(jù)、有效存儲(chǔ)和傳輸數(shù)據(jù)、多源數(shù)據(jù)綜合分析等能力的強(qiáng)烈需求。在這樣的趨勢(shì)下,國(guó)內(nèi)外已經(jīng)建設(shè)了許多“數(shù)據(jù)基礎(chǔ)設(shè)施”,這其中包括美國(guó)能源部于2019年部署的“環(huán)境科學(xué)虛擬生態(tài)系統(tǒng)數(shù)據(jù)基礎(chǔ)設(shè)施”(ESS-DVIE)[11]、法國(guó)于2018 年規(guī)劃升級(jí)的“法國(guó)國(guó)家核物理和粒子物理計(jì)算中心”(CC-IN2P3)[12]、日本國(guó)立遺傳學(xué)研究所(NIG)建設(shè)的“日本DNA 數(shù)據(jù)銀行”(DDBJ)[13]、歐洲將于2021 年建成“多尺度植物表型組學(xué)和模擬歐洲設(shè)施”(EMPHASIS)和已建成并運(yùn)行的“歐洲生物信息分布式網(wǎng)絡(luò)”(ELIXIR)[14]等。在中國(guó),科技部和財(cái)政部于2019 年6 月對(duì)國(guó)家科技資源共享服務(wù)平臺(tái)進(jìn)行了整合,形成了“國(guó)家高能物理科學(xué)數(shù)據(jù)中心”等20個(gè)國(guó)家科學(xué)數(shù)據(jù)中心、“國(guó)家重要野生植物種質(zhì)資源庫(kù)”等30個(gè)國(guó)家生物種質(zhì)與實(shí)驗(yàn)材料資源庫(kù)[15]。此外,中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心建設(shè)了“中國(guó)科學(xué)院數(shù)據(jù)云”[16],中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心建設(shè)了“科技文獻(xiàn)大數(shù)據(jù)知識(shí)資源體系”[17]等。
與上述已建成的“數(shù)據(jù)基礎(chǔ)設(shè)施”相比,“情報(bào)認(rèn)知模型庫(kù)”最大的不同在于其囊括了諸多獨(dú)特的應(yīng)用場(chǎng)景、科學(xué)技術(shù)領(lǐng)域知識(shí),以及對(duì)各種科研問題的抽象方法和仿真框架。不僅如此,這些場(chǎng)景、知識(shí)、方法、框架是相互關(guān)聯(lián)的,能夠被“模型庫(kù)”的用戶統(tǒng)一檢索、查詢、調(diào)用。而作為對(duì)比,前文提到的大部分現(xiàn)有“數(shù)據(jù)基礎(chǔ)設(shè)施”只存儲(chǔ)了科學(xué)實(shí)驗(yàn)研究的底層實(shí)驗(yàn)數(shù)據(jù),或存儲(chǔ)了從底層實(shí)驗(yàn)數(shù)據(jù)中提煉、總結(jié)發(fā)現(xiàn)的學(xué)科知識(shí);盡管少數(shù)“數(shù)據(jù)基礎(chǔ)設(shè)施”對(duì)一些通用的數(shù)據(jù)挖掘算法進(jìn)行了存儲(chǔ),但是這些算法是孤立的,并不包含細(xì)分科學(xué)技術(shù)領(lǐng)域的知識(shí)框架、特征抽取標(biāo)準(zhǔn),因此難以與這些領(lǐng)域的具體應(yīng)用場(chǎng)景進(jìn)行關(guān)聯(lián)。因此,盡管“情報(bào)認(rèn)知模型庫(kù)”在數(shù)據(jù)來源和存儲(chǔ)內(nèi)容上與現(xiàn)有的數(shù)據(jù)基礎(chǔ)設(shè)施具有一定聯(lián)系和相似性,但是它們之間依然存在顯而易見的差異。
此外,通過對(duì)模型庫(kù)中各種跨科學(xué)技術(shù)領(lǐng)域的、從數(shù)據(jù)到知識(shí)的分析模型進(jìn)行對(duì)比、歸納、總結(jié),“模型庫(kù)”構(gòu)建人員未來將可能就“人工智能技術(shù)賦能的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)”的共性方法進(jìn)行更深入的分析和研究,從而在數(shù)據(jù)密集型知識(shí)發(fā)現(xiàn)的研究范式、理論、方法上做出更多貢獻(xiàn)。
科學(xué)技術(shù)的最新進(jìn)展往往帶來全新的科技認(rèn)知,可能是新關(guān)注焦點(diǎn)、新應(yīng)用場(chǎng)景、新發(fā)展方向,也可能是性能的突破、方法工藝的革新、結(jié)構(gòu)成分的突變等。這些新的科技認(rèn)知不斷沖擊舊的知識(shí)體系,在原有知識(shí)結(jié)構(gòu)中催生了新的知識(shí)節(jié)點(diǎn)、形成了新的關(guān)聯(lián)關(guān)系,亦或者突破了原有認(rèn)知模型中所存儲(chǔ)的參數(shù)閾值。為了對(duì)這些最新科技進(jìn)展進(jìn)行有效甄別,必須保證作為本底信息的原有知識(shí)儲(chǔ)備的全面性、準(zhǔn)確性、專業(yè)性。
以包含“情報(bào)認(rèn)知模型”的高水平學(xué)術(shù)論文為收集對(duì)象,通過制定對(duì)各種科學(xué)技術(shù)領(lǐng)域情報(bào)認(rèn)知模型的標(biāo)引、融合、驗(yàn)證、更新規(guī)則,構(gòu)建跨領(lǐng)域情報(bào)認(rèn)知體系的規(guī)范和框架,有利于積累相關(guān)數(shù)據(jù)和模型方法,發(fā)展面向關(guān)鍵核心技術(shù)性能評(píng)價(jià)的指標(biāo),乃至通過對(duì)各種認(rèn)知模型的集成、關(guān)聯(lián)、重組、梳理,逐漸形成跨領(lǐng)域、大規(guī)模、結(jié)構(gòu)化的科學(xué)技術(shù)領(lǐng)域知識(shí)庫(kù)。屆時(shí),根據(jù)技術(shù)性能參數(shù)比對(duì)、成分結(jié)構(gòu)查詢、技術(shù)工藝對(duì)比等方法,就能夠快速甄別新科技動(dòng)態(tài)中所蘊(yùn)含的機(jī)遇和威脅,或利用綜合性指標(biāo)體系判斷新科技成果的突破和創(chuàng)新顛覆程度。
正是由于“情報(bào)認(rèn)知模型庫(kù)”的重要意義和價(jià)值,十分有必要厘清模型庫(kù)的結(jié)構(gòu)和功能,設(shè)計(jì)一套行之有效的模型庫(kù)構(gòu)建方法。
一般而言,學(xué)科領(lǐng)域知識(shí)挖掘模型是由各領(lǐng)域科研人員開發(fā),并以學(xué)術(shù)論文的形式進(jìn)行報(bào)道和公開的。在許多情況下,這些模型會(huì)將某一類研究對(duì)象或科學(xué)問題抽象為包含諸多“要素”的一套知識(shí)本體,然后根據(jù)這些“要素”確定需要挖掘的數(shù)據(jù)源,將技術(shù)領(lǐng)域問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的分類或回歸問題,將技術(shù)領(lǐng)域背景知識(shí)儲(chǔ)備轉(zhuǎn)化為特征抽取的規(guī)則,構(gòu)建出合適的訓(xùn)練語料;最后通過對(duì)模型的訓(xùn)練、驗(yàn)證,得到各種“要素”之間的相關(guān)關(guān)系,從而實(shí)現(xiàn)對(duì)未知問題的預(yù)測(cè)結(jié)果。仍以石墨烯技術(shù)領(lǐng)域?yàn)槔?,它包含的各種“要素”和“要素”之間的關(guān)系可以用圖1 進(jìn)行展示。
圖1 石墨烯技術(shù)領(lǐng)域知識(shí)本體(Graphene Ontology,GO)示意圖Fig.1 A diagram of Graphene Ontology
通過分析“情報(bào)認(rèn)知模型”的要素可以看出,模型要素的來源既包括技術(shù)方法和性能參數(shù)細(xì)節(jié),也包含文獻(xiàn)來源信息。因此,在設(shè)計(jì)模型庫(kù)的結(jié)構(gòu)和功能時(shí),需要考慮文獻(xiàn)庫(kù)、知識(shí)庫(kù)、算法庫(kù)、實(shí)驗(yàn)數(shù)據(jù)/語料庫(kù)等模塊;為了方便模型庫(kù)的建設(shè)和推廣應(yīng)用,可以分別設(shè)計(jì)“管理系統(tǒng)”“標(biāo)引系統(tǒng)”“用戶訪問系統(tǒng)”,分別面向“模型庫(kù)管理人員、建設(shè)和標(biāo)引人員、用戶”這3 類人群提供模型庫(kù)的訪問途徑。而在服務(wù)功能上,通過對(duì)模型庫(kù)中的文本進(jìn)行聚類分析、對(duì)各種性能參數(shù)等定量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析、對(duì)各種模型的效果和適用場(chǎng)景進(jìn)行對(duì)比分析、對(duì)預(yù)標(biāo)引數(shù)據(jù)和算法提供下載服務(wù),可以實(shí)現(xiàn)研究熱點(diǎn)識(shí)別、技術(shù)性能對(duì)比、科技領(lǐng)域智能分析方法推薦、知識(shí)發(fā)現(xiàn)算法輔助設(shè)計(jì)開發(fā)等功能,如圖2 所示。
值得指出的是,圖2 中并未顯示模型庫(kù)的不同模塊、各模塊的不同字段之間的相關(guān)關(guān)系,而這些相關(guān)關(guān)系是至關(guān)重要的。在未來的具體建設(shè)實(shí)施階段,需要進(jìn)一步設(shè)計(jì)各字段的數(shù)據(jù)類型/長(zhǎng)度、錄入必要性、字段錄入的規(guī)范性等。
考慮到“情報(bào)認(rèn)知模型”的上述結(jié)構(gòu)和功能特點(diǎn),構(gòu)建“情報(bào)認(rèn)知模型庫(kù)”的過程應(yīng)當(dāng)包括對(duì)模型的監(jiān)測(cè)、收集、驗(yàn)證、標(biāo)引、存儲(chǔ)、分裝、調(diào)用等,如圖3 所示。
圖2 “情報(bào)認(rèn)知模型庫(kù)”的結(jié)構(gòu)和功能Fig.2 Structure and function of the"intelligence cognition model database"
圖3 建設(shè)“情報(bào)認(rèn)知模型”的工作流程Fig.3 Workflow of constructing"intelligence cognition model database"
(1)模型的收集和識(shí)別。在模型庫(kù)的建設(shè)過程中,應(yīng)當(dāng)以來自科技決策層和科研一線、產(chǎn)業(yè)一線的情報(bào)需求為牽引,優(yōu)先對(duì)具有重要應(yīng)用價(jià)值的、有重復(fù)使用潛力的模型進(jìn)行解析、驗(yàn)證和存儲(chǔ)。應(yīng)當(dāng)盡量從經(jīng)過同行評(píng)審的高質(zhì)量學(xué)術(shù)期刊上搜集模型。另一方面,對(duì)模型的監(jiān)測(cè)和積累可以嵌入科技情報(bào)工作者的日常工作業(yè)務(wù)中,即在周期性情報(bào)快報(bào)的監(jiān)測(cè)和選題時(shí)、進(jìn)行專題情報(bào)調(diào)研時(shí),注意對(duì)情報(bào)人員掃描發(fā)現(xiàn)的有價(jià)值的情報(bào)認(rèn)知模型加以關(guān)注,并將其納入后續(xù)的驗(yàn)證環(huán)節(jié)。
因此,可以納入“模型庫(kù)”的模型應(yīng)當(dāng)具備的標(biāo)準(zhǔn)包括:①權(quán)威性(由相關(guān)科學(xué)技術(shù)領(lǐng)域?qū)I(yè)研究人員開發(fā),或發(fā)表在經(jīng)過同行評(píng)議的高質(zhì)量期刊上);②完整性(包含對(duì)模型計(jì)算過程的定量描述、模型算法、輸入和輸出結(jié)果、訓(xùn)練語料、數(shù)據(jù)來源等);③實(shí)用性(應(yīng)當(dāng)不是純理論研究或推導(dǎo),而是通過數(shù)據(jù)分析實(shí)現(xiàn)了知識(shí)發(fā)現(xiàn),或確實(shí)解決了相關(guān)科學(xué)技術(shù)領(lǐng)域的實(shí)際問題);④可重復(fù)性(模型的使用場(chǎng)景、步驟、條件清晰,可以由情報(bào)分析人員或相關(guān)領(lǐng)域科研人員對(duì)模型進(jìn)行驗(yàn)證),等等??梢灶A(yù)見,隨著模型庫(kù)的建設(shè),這些標(biāo)準(zhǔn)還會(huì)進(jìn)一步充實(shí)和豐富。
(2)模型的驗(yàn)證。在初步發(fā)現(xiàn)有價(jià)值的情報(bào)認(rèn)知模型后,對(duì)其的驗(yàn)證是至關(guān)重要的一步,這直接關(guān)系到建成后的模型庫(kù)是否可靠、可信賴、可推廣。在對(duì)“情報(bào)認(rèn)知模型”進(jìn)行驗(yàn)證時(shí),首先應(yīng)當(dāng)對(duì)模型的水平、價(jià)值、應(yīng)用范圍做初步判斷,對(duì)價(jià)值較低的模型進(jìn)行剔除。對(duì)價(jià)值高的模型驗(yàn)證時(shí),應(yīng)當(dāng)對(duì)模型的算法、代碼、訓(xùn)練和測(cè)試語料數(shù)據(jù)進(jìn)行下載,對(duì)研究論文中介紹的挖掘?qū)嶒?yàn)過程進(jìn)行重現(xiàn),對(duì)論文中的關(guān)鍵分析步驟和重要公示進(jìn)行重點(diǎn)追溯,避免出現(xiàn)邏輯錯(cuò)誤;在必要時(shí)可以聘請(qǐng)相關(guān)科學(xué)技術(shù)領(lǐng)域?qū)<?,?duì)模型設(shè)計(jì)的學(xué)科背景知識(shí)和科學(xué)性、準(zhǔn)確性進(jìn)行把關(guān)。對(duì)模型的驗(yàn)證需要準(zhǔn)備相應(yīng)的計(jì)算環(huán)境和設(shè)備。如果模型驗(yàn)證需要的數(shù)據(jù)量和計(jì)算量過大,超出模型庫(kù)建設(shè)單位的能力(例如一些采用大數(shù)據(jù)分析技術(shù)、或需要高性能計(jì)算設(shè)備的模型),那么可以暫時(shí)將“重現(xiàn)挖掘分析過程”省略;在將模型提供給服務(wù)對(duì)象(一般為具有相應(yīng)計(jì)算環(huán)境和設(shè)備的單位)時(shí),由服務(wù)對(duì)象完成對(duì)挖掘過程的重現(xiàn)驗(yàn)證。
(3)模型的標(biāo)引。對(duì)“情報(bào)認(rèn)知模型”的標(biāo)引需要包括對(duì)報(bào)道和介紹模型的文獻(xiàn)信息的標(biāo)引,以及對(duì)模型自身特性的標(biāo)引兩個(gè)部分,如表1 所示。
下面以香港大學(xué)KOOHI-MOGHADAM 等2019 年發(fā)表在期刊Nature Machine Intelligence上的論文Predicting Disease-Associated Mutation of Metal-Binding Sites in Proteins Using a Deep Learning Approach[6]為例說明對(duì)模型標(biāo)引的基本流程:這篇論文報(bào)道了使用深度學(xué)習(xí)方法預(yù)測(cè)蛋白質(zhì)中金屬結(jié)合位點(diǎn)的突變與疾病之間的相關(guān)性的一項(xiàng)研究。①在數(shù)據(jù)源方面,該研究首先從多個(gè)醫(yī)學(xué)數(shù)據(jù)庫(kù)下載了大量已知的金屬結(jié)合位點(diǎn)蛋白質(zhì)三維結(jié)構(gòu)(來自MetalPDB 數(shù)據(jù)庫(kù)),以及人體細(xì)胞(致?。夹裕┩蛔償?shù)據(jù)(分別來自ClinVar、Uniprot Humsavar 和CancerResource2 數(shù)據(jù)庫(kù));②在特征工程方面,該研究利用受控的醫(yī)學(xué)主題詞表對(duì)疾病名稱進(jìn)行了清洗,然后定義了5 項(xiàng)數(shù)據(jù)特征(原始氨基酸類型、突變氨基酸類型、氨基酸在蛋白質(zhì)中的位置、金屬類型、相互作用類型),將蛋白質(zhì)結(jié)構(gòu)空間特征映射到三維點(diǎn)陣網(wǎng)格中,以矩陣形式在計(jì)算機(jī)中存儲(chǔ);③在機(jī)器學(xué)習(xí)模型的訓(xùn)練上,該研究將上述矩陣(網(wǎng)格)作為多通道卷積神經(jīng)網(wǎng)絡(luò)(MCCNN)的輸入項(xiàng),將不同金屬的結(jié)合位點(diǎn)良性突變作為陰性訓(xùn)練集/測(cè)試集(輸出項(xiàng)),而將致病突變作為陽(yáng)性訓(xùn)練集/測(cè)試集(輸出項(xiàng));④在分析效果上,該研究通過訓(xùn)練MCCNN,對(duì)未知是否致病的突變情況進(jìn)行了分類,最終發(fā)現(xiàn)了1 256 種與疾病相關(guān)的錯(cuò)義突變,以及261 種良性錯(cuò)義突變;在此基礎(chǔ)上發(fā)現(xiàn)10 種金屬與17 種疾病高度相關(guān),例如鋅結(jié)合位點(diǎn)的突變?cè)谌橄?、肝、腎、免疫系統(tǒng)和前列腺疾病中起主要作用,鈣和鎂的結(jié)合位點(diǎn)突變分別與肌肉疾病和免疫系統(tǒng)疾病有關(guān),錳和銅結(jié)合位點(diǎn)突變與心血管疾病有關(guān)等。因此,這項(xiàng)研究中所蘊(yùn)藏的“情報(bào)認(rèn)知模型”的關(guān)鍵之處在于它在第②步(特征工程)中定義的5 項(xiàng)“數(shù)據(jù)抽取特征”,以及后續(xù)對(duì)MCCNN 的輸入、輸出、陽(yáng)性/陰性訓(xùn)練語料的構(gòu)建思路上;而相關(guān)算法、原始數(shù)據(jù)下載地址均可以重復(fù)利用,需要“模型庫(kù)”構(gòu)建人員進(jìn)行標(biāo)引和存儲(chǔ)。最后這篇論文的標(biāo)引結(jié)果如表1 的第1 行所示。
表1 對(duì)“科學(xué)技術(shù)領(lǐng)域情報(bào)認(rèn)知模型”的標(biāo)引示例Table 1 Indexing examples of the"scientific and technological intelligence cognition models"
(4)模型的封裝。對(duì)模型的標(biāo)引是進(jìn)行結(jié)構(gòu)化存儲(chǔ)、形成模型庫(kù)的關(guān)鍵步驟。為了讓模型庫(kù)發(fā)揮科研基礎(chǔ)設(shè)施和情報(bào)工具箱的效果,還可以將各種模型封裝為可執(zhí)行程序,方便科研人員和情報(bào)人員對(duì)模型的調(diào)用。
(5)模型的存儲(chǔ)。“情報(bào)認(rèn)知模型庫(kù)”應(yīng)該包含對(duì)報(bào)道和介紹各個(gè)模型的文獻(xiàn)全文的存儲(chǔ)、對(duì)模型算法和代碼的存儲(chǔ)、對(duì)模型訓(xùn)練和驗(yàn)證所采用的數(shù)據(jù)源和語料庫(kù)的存儲(chǔ)等??梢圆捎贸墒斓臄?shù)據(jù)庫(kù)構(gòu)建方法對(duì)上述內(nèi)容進(jìn)行存儲(chǔ),并構(gòu)建支持檢索和調(diào)用的模型目錄。
(6)模型庫(kù)的服務(wù)和應(yīng)用。“情報(bào)認(rèn)知模型庫(kù)”既可以供科技情報(bào)工作者查詢和調(diào)用,也可以供相關(guān)科學(xué)技術(shù)領(lǐng)域的科研人員使用,同時(shí)也能夠給研究機(jī)器學(xué)習(xí)算法和模型的技術(shù)人員以啟發(fā)。在應(yīng)用形式上,可以建設(shè)“情報(bào)認(rèn)知模型庫(kù)”門戶網(wǎng)站,按照領(lǐng)域類別不同,對(duì)模型進(jìn)行分類展示??萍记閳?bào)人員可以在撰寫情報(bào)報(bào)告時(shí),通過門戶網(wǎng)站查詢、利用不同的情報(bào)認(rèn)知模型,自動(dòng)挖掘文獻(xiàn)信息、生成情報(bào)觀點(diǎn),提高工作效率和分析水平。未來為了實(shí)現(xiàn)這一愿景,還需要進(jìn)一步研究如何改進(jìn)模型庫(kù)的組織方式、提高模型庫(kù)的自動(dòng)化水平等。
構(gòu)建“情報(bào)認(rèn)知模型庫(kù)”對(duì)開展科學(xué)技術(shù)領(lǐng)域情報(bào)工作具有重要意義。隨著科研數(shù)據(jù)的爆炸式增長(zhǎng)和信息技術(shù)的飛速發(fā)展,各種自動(dòng)化、智能化的分析工具已經(jīng)在科學(xué)研究、技術(shù)開發(fā)、科技情報(bào)工作中扮演至關(guān)重要的角色;“情報(bào)認(rèn)知模型”中包含對(duì)各種科學(xué)技術(shù)領(lǐng)域知識(shí)的抽象、總結(jié),能夠發(fā)揮“從數(shù)據(jù)到知識(shí)”的重要橋梁作用,因此如果它們能被有效地收集、存儲(chǔ)、封裝,形成“情報(bào)認(rèn)知模型庫(kù)”,將具備廣泛應(yīng)用價(jià)值,發(fā)揮科技數(shù)據(jù)基礎(chǔ)設(shè)施、科技情報(bào)分析工具箱的效果。
“對(duì)模型的驗(yàn)證”是建設(shè)“情報(bào)認(rèn)知模型庫(kù)”的關(guān)鍵步驟之一。為驗(yàn)證模型的可靠性、實(shí)用性,需要重現(xiàn)原始文獻(xiàn)中所描述的利用該模型對(duì)科學(xué)技術(shù)領(lǐng)域數(shù)據(jù)進(jìn)行挖掘、分析、實(shí)驗(yàn)、評(píng)估的過程。對(duì)于模型庫(kù)的建設(shè)機(jī)構(gòu)而言,如何在有限的硬件計(jì)算能力、技術(shù)分析能力條件下,重現(xiàn)一些涉及大數(shù)據(jù)分析任務(wù)的模型,可能是需要解決的難題之一??赡艿奶幚矸绞桨ú捎谩跋却鎯?chǔ),后驗(yàn)證”的方式,或?qū)で髶碛邢嚓P(guān)技術(shù)條件、硬件資源的機(jī)構(gòu)協(xié)助等。
“情報(bào)認(rèn)知模型庫(kù)”的構(gòu)建需要情報(bào)人員、科學(xué)技術(shù)領(lǐng)域?qū)<?、信息技術(shù)人員的通力合作。任何一篇學(xué)術(shù)論文中設(shè)計(jì)的“情報(bào)認(rèn)知模型”都是對(duì)紛繁復(fù)雜的自然現(xiàn)象和問題的抽象、簡(jiǎn)化、仿真,因此一定會(huì)存在信息損失,也一定是片面的;通過“情報(bào)認(rèn)知模型”構(gòu)建的科學(xué)技術(shù)領(lǐng)域知識(shí)本體,必須同該領(lǐng)域的專家智慧、研判相結(jié)合,才能保證整個(gè)科學(xué)技術(shù)領(lǐng)域的“知識(shí)地圖”的完整性、合理性、權(quán)威性。
展望未來,在“情報(bào)認(rèn)知模型庫(kù)”初步建成后,如何對(duì)其進(jìn)行推廣服務(wù),如何提升模型庫(kù)檢索、查詢、調(diào)用的自動(dòng)化水平,如何利用服務(wù)效果的反饋對(duì)模型庫(kù)進(jìn)行維護(hù)和更新升級(jí)等,還需要更進(jìn)一步的研究。