国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科技信息分析從單一維度到多維復(fù)合的演進(jìn)*

2019-02-24 07:04滕廣青葉心郭思月王思茗
數(shù)字圖書館論壇 2019年12期
關(guān)鍵詞:數(shù)據(jù)源關(guān)聯(lián)維度

滕廣青 葉心 郭思月 王思茗

(1.東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,長(zhǎng)春 130117;2.長(zhǎng)春市圖書館,長(zhǎng)春 130021)

科學(xué)技術(shù)信息一直是情報(bào)學(xué)關(guān)注的重要內(nèi)容。在人類科技進(jìn)步的發(fā)展史上,科技情報(bào)分析與服務(wù)扮演著至關(guān)重要的角色。改革開放以來(lái),我國(guó)政府高度重視科學(xué)技術(shù)的創(chuàng)新與發(fā)展,近年來(lái)的《政府工作報(bào)告》多次提到科技創(chuàng)新在國(guó)民經(jīng)濟(jì)建設(shè)中的重要地位。中共中央、國(guó)務(wù)院印發(fā)的《國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略綱要》明確提出了我國(guó)科技創(chuàng)新的戰(zhàn)略要求、戰(zhàn)略部署、戰(zhàn)略任務(wù)、戰(zhàn)略保障等。科技創(chuàng)新不但是一線科研工作者的時(shí)代使命,也為科技信息分析與服務(wù)工作提出了新的要求。以往的科技信息分析多以引文、關(guān)鍵詞、專利技術(shù)中某單一數(shù)據(jù)類型為對(duì)象展開研究,研究視角與方法也多為單一維度的信息分析。雖然取得了豐富的成果,但限于數(shù)據(jù)的片面性,以及分析視角與方法的單一性,研究工作難免存在局限。作為科技創(chuàng)新的保障,科技信息分析與服務(wù)的能力亟需提升。大數(shù)據(jù)時(shí)代科技情報(bào)工作,需要以多維度的視角從數(shù)據(jù)和方法上實(shí)現(xiàn)創(chuàng)新。

本文采用數(shù)據(jù)科學(xué)的思維,對(duì)科技信息分析中研究數(shù)據(jù)與研究方法的變遷進(jìn)行梳理與分析。重點(diǎn)剖析科技信息分析中,從單一維度向多維復(fù)合的轉(zhuǎn)變模式與特征。在梳理與總結(jié)科技信息分析演進(jìn)脈絡(luò)的同時(shí),揭示其背后的動(dòng)力機(jī)制,從數(shù)據(jù)科學(xué)范式的視角,為科技信息分析領(lǐng)域的相關(guān)研究提供借鑒,探索科技信息分析研究領(lǐng)域新的學(xué)科增長(zhǎng)點(diǎn)。

1 單一維度的科技信息分析

1.1 基于引文關(guān)系的科技信息分析

20世紀(jì)中期,Garfield[1]和Price[2]分別在Science雜志上撰文,從科學(xué)論文引用關(guān)系的視角探索科學(xué)知識(shí)發(fā)展脈絡(luò)與模式,是基于引文關(guān)系研究科學(xué)知識(shí)信息的典型代表。科學(xué)引文能夠反映人類科學(xué)知識(shí)的傳承與創(chuàng)新,在呈現(xiàn)知識(shí)發(fā)展脈絡(luò)方面具有優(yōu)勢(shì),此外還被用于科研評(píng)價(jià)等領(lǐng)域。學(xué)術(shù)界基于引文關(guān)系的科技信息分析主要包括3個(gè)方面:①科學(xué)知識(shí)的時(shí)間演化性,研究目的在于發(fā)現(xiàn)科學(xué)前沿知識(shí)隨時(shí)間演化的規(guī)律[3];②科學(xué)知識(shí)傳承的連通性,聚焦于發(fā)現(xiàn)知識(shí)傳播與知識(shí)傳承中的知識(shí)關(guān)聯(lián)關(guān)系[4];③學(xué)科領(lǐng)域的知識(shí)群聚性,探索不同或相同學(xué)科(或主題)領(lǐng)域的知識(shí)引用中存在的群聚性特征[5]。

由于科學(xué)引文天然存在時(shí)間序列關(guān)系,因此基于引文關(guān)系的科技信息分析工作都在本質(zhì)上含有不同程度的時(shí)間序列分析。此外,Price[2]在1965年的研究中已經(jīng)將網(wǎng)絡(luò)思維引入科學(xué)引文分析,盡管這一時(shí)期的網(wǎng)絡(luò)分析方法還相對(duì)單一,其思維模式卻被后人紛紛學(xué)習(xí)效仿。此類研究工作的關(guān)鍵問題在于數(shù)據(jù)維度的單一性。盡管時(shí)間序列分析、網(wǎng)絡(luò)分析等方法隨著不斷優(yōu)化完善至今仍然受到研究者的青睞,但是單一維度的引文數(shù)據(jù),無(wú)論是在試圖總覽領(lǐng)域知識(shí)全貌還是具體細(xì)節(jié)領(lǐng)域的特征識(shí)別上,都尚不足以給出全面的結(jié)論。

1.2 基于文獻(xiàn)核心詞的科技信息分析

傳統(tǒng)基于文獻(xiàn)核心詞的科技信息研究主要通過高頻詞識(shí)別領(lǐng)域核心知識(shí)或研究熱點(diǎn)。隨著數(shù)據(jù)挖掘與網(wǎng)絡(luò)科學(xué)等理論與技術(shù)的發(fā)展與引入,學(xué)術(shù)界基于文獻(xiàn)核心詞的科技信息研究涌現(xiàn)出豐富的成果。從研究數(shù)據(jù)的視角看,基于核心詞的科技信息分析主要分為文獻(xiàn)關(guān)鍵詞、社會(huì)化標(biāo)簽、文檔內(nèi)容語(yǔ)料等類型數(shù)據(jù)。此類研究多以領(lǐng)域知識(shí)聚類或發(fā)展趨勢(shì)研判為主,主要包括基于論文關(guān)鍵詞或標(biāo)簽等采用共詞網(wǎng)絡(luò)和聚類分析識(shí)別與驗(yàn)證領(lǐng)域知識(shí)的主題廣泛性和領(lǐng)域核心凝聚性[6],采用時(shí)間序列分析識(shí)別領(lǐng)域主題的演變趨勢(shì)與影響[7],以及通過中心性與核心-邊緣分析等方法追蹤核心概念發(fā)展成為學(xué)科支柱的演變[8]。

上述基于文獻(xiàn)核心詞的科技信息分析中,涉及的分析方法主要包括復(fù)雜網(wǎng)絡(luò)分析、向量空間分布、時(shí)間序列分析等。研究數(shù)據(jù)包括關(guān)鍵詞、標(biāo)簽、文本中抽取的特征詞等多種類型。雖然涉及多種數(shù)據(jù)類型,但是性質(zhì)上仍屬于同一維度的數(shù)據(jù),而且每個(gè)具體的研究工作多限于一種數(shù)據(jù)類型?;诓煌愋偷臄?shù)據(jù)的研究結(jié)果也未能實(shí)現(xiàn)交叉驗(yàn)證。

1.3 基于研究者和機(jī)構(gòu)的科技信息分析

在科學(xué)技術(shù)的研發(fā)與創(chuàng)新過程中,科研人員和研發(fā)團(tuán)隊(duì)以及研究機(jī)構(gòu)起到至關(guān)重要的作用。因此,對(duì)于研究人員和團(tuán)隊(duì)機(jī)構(gòu)的相關(guān)研究是科技信息分析一環(huán)。目前,學(xué)術(shù)界在基于研究者和機(jī)構(gòu)的科技信息研究中已經(jīng)取得了較豐碩的成果。學(xué)術(shù)界的這部分研究主要分為靜態(tài)研究和動(dòng)態(tài)研究?jī)蓚€(gè)層面。其中靜態(tài)研究主要包括合作網(wǎng)絡(luò)結(jié)構(gòu)特征及合作模式特征[9]、核心學(xué)者與合作強(qiáng)度識(shí)別[10]、隱性合作關(guān)系探測(cè)[11]等。動(dòng)態(tài)研究主要集中在合作關(guān)系演化與領(lǐng)域核心作者演變方面[12],其中包括科研合作關(guān)系的穩(wěn)定性測(cè)量以及科研人員之間的知識(shí)流動(dòng)等。

在研究方法上,基于研究者和機(jī)構(gòu)的科技信息分析,相比基于文獻(xiàn)核心詞的科技信息分析更適合于社會(huì)網(wǎng)絡(luò)分析中關(guān)于行動(dòng)者的設(shè)定。研究數(shù)據(jù)來(lái)源多為科學(xué)文獻(xiàn)的作者署名信息,這使得其中的網(wǎng)絡(luò)分析通常以1-模網(wǎng)絡(luò)為基礎(chǔ),研究工作的數(shù)據(jù)維度與分析維度相對(duì)單一。僅有少數(shù)的研究工作涉及文獻(xiàn)署名與科研績(jī)效指數(shù)兩種不同的數(shù)據(jù)維度。

1.4 基于專利技術(shù)的科技信息分析

專利技術(shù)連接基礎(chǔ)研究與實(shí)際應(yīng)用,也是衡量科學(xué)技術(shù)發(fā)展水平的重要指標(biāo)。基于專利技術(shù)的科技信息研究更傾向于科技創(chuàng)新的落地應(yīng)用,由此也帶來(lái)了技術(shù)保護(hù)與技術(shù)競(jìng)爭(zhēng)等問題。因此,專利技術(shù)分析是科技信息分析中最常見的分析視角。早期基于專利技術(shù)的科技信息研究主要集中在新技術(shù)開發(fā)與傳播等方面[13];近年來(lái),隨著科學(xué)技術(shù)商業(yè)環(huán)境中競(jìng)爭(zhēng)態(tài)勢(shì)的加劇,專利技術(shù)價(jià)值與保護(hù)[14]、專利審查與訴訟[15]等與技術(shù)競(jìng)爭(zhēng)和知識(shí)產(chǎn)權(quán)相關(guān)的研究工作逐漸增加。

這部分研究工作的相關(guān)數(shù)據(jù)大多來(lái)自專利文獻(xiàn)中的發(fā)明人、申請(qǐng)人、IPC分類號(hào)、專利授權(quán)機(jī)構(gòu)等形式特征,但是由于專利的可轉(zhuǎn)讓性等原因,同一項(xiàng)專利可能會(huì)出現(xiàn)申請(qǐng)人、持有人等并非一致的現(xiàn)象。因此,許多研究工作將復(fù)雜網(wǎng)絡(luò)分析與數(shù)據(jù)挖掘技術(shù)結(jié)合使用,其中一些研究涉及2種數(shù)據(jù)維度。此外,不同的專利授權(quán)機(jī)構(gòu)往往對(duì)專利文獻(xiàn)的標(biāo)準(zhǔn)格式要求存在差異,自然語(yǔ)言處理技術(shù)被較多地應(yīng)用于基于專利技術(shù)的科技信息分析。

網(wǎng)絡(luò)統(tǒng)戰(zhàn)視野下民主黨派微信公眾號(hào)影響力研究——基于優(yōu)質(zhì)推文的內(nèi)容……………………………………………… 吳 凡 張?zhí)焓妫?·84)

2 多維復(fù)合的科技信息分析

隨著科學(xué)技術(shù)的發(fā)展以及研究工作的深入,研究者逐漸意識(shí)到僅憑單一維度的數(shù)據(jù)和單一維度的研究視角很難對(duì)科學(xué)活動(dòng)背后潛在的模式與規(guī)律給予更全面的洞察。盡管網(wǎng)絡(luò)科學(xué)(復(fù)雜網(wǎng)絡(luò)、社會(huì)網(wǎng)絡(luò))理論與方法的引入在一定程度上豐富了研究工作的分析視角,但是數(shù)據(jù)維度的單一性仍然在一定程度上限制了在具體研究工作中展開多維復(fù)合分析的空間。大數(shù)據(jù)思維的興起,為解決這一局限提供了新的思路。人們?cè)陉P(guān)注數(shù)據(jù)體量、處理速度、價(jià)值密度的同時(shí),也對(duì)4V(Volume、Velocity、Variety、Value)中的多樣性(Variety)給予了高度重視。數(shù)據(jù)的多樣性能夠?yàn)檠芯抗ぷ髯⑷攵嗑S度的信息,還能在多個(gè)維度之間實(shí)現(xiàn)交叉復(fù)現(xiàn)。學(xué)術(shù)界逐漸產(chǎn)生從多個(gè)視角對(duì)科技信息展開研究的相關(guān)成果。這些研究工作超越以往單一維度的科技信息分析,考慮多維度之間的相互關(guān)聯(lián)與擾動(dòng)。

2.1 簡(jiǎn)單的多維科技信息分析

多維復(fù)合的科技信息分析首先是研究數(shù)據(jù)的多維性。早期簡(jiǎn)單的多維科技信息分析主要包括基于多數(shù)據(jù)源同一維度的科技信息分析,以及基于同一數(shù)據(jù)源的科技信息多維分析。

學(xué)術(shù)界眾多的科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)各有側(cè)重,單純以某一數(shù)據(jù)庫(kù)作為數(shù)據(jù)源或多或少都會(huì)存在一定的疏漏。因此,學(xué)術(shù)界在科技信息研究的過程中已經(jīng)開始重視多源數(shù)據(jù)對(duì)研究工作的有效支持,力圖通過多個(gè)數(shù)據(jù)源整合后的信息資源對(duì)研究問題建立更全面的認(rèn)識(shí)。較早的基于多數(shù)據(jù)源的科技信息分析常采用整合多個(gè)文獻(xiàn)數(shù)據(jù)庫(kù)(如Web of Science、Scopus)的方法,雖然涉及多庫(kù)整合,但主要還是以科學(xué)論文為基礎(chǔ),數(shù)據(jù)具有明顯的同質(zhì)性。隨著研究工作的開展,此類研究的數(shù)據(jù)源已經(jīng)不再局限于科學(xué)論文數(shù)據(jù),其中比較典型的多數(shù)據(jù)源整合包括科學(xué)論文與專利文獻(xiàn)的整合[16],科學(xué)論文與商業(yè)報(bào)告的整合[17],以及科學(xué)論文與政府公報(bào)和行業(yè)新聞的整合[18]等多種形式。此類研究多以更全面地識(shí)別領(lǐng)域知識(shí)或技術(shù)前沿為目的。盡管不同數(shù)據(jù)源中的數(shù)據(jù)維度可能存在差異,但是通過特征詞(如關(guān)鍵詞)的提取與匹配,通??梢詽M足單一維度分析的任務(wù)需求。研究中通常需要面對(duì)文獻(xiàn)歸類與去重問題,涉及到不同語(yǔ)種數(shù)據(jù)源還要面對(duì)跨語(yǔ)言處理問題。由于不同數(shù)據(jù)源題錄格式的差異會(huì)給文獻(xiàn)歸類與去重工作造成一定的困擾,而且跨語(yǔ)言處理目前仍然需要一定程度的人工介入。因此,其中跨語(yǔ)言文獻(xiàn)間的內(nèi)部關(guān)聯(lián)識(shí)別成為研究工作的難點(diǎn)。

基于同一數(shù)據(jù)源的科技信息多維分析不需要多庫(kù)或跨庫(kù)檢索。相對(duì)于多數(shù)據(jù)源同一維度的科技信息分析而言,基于同一數(shù)據(jù)源的科技信息多維分析關(guān)注的重點(diǎn)在于不同維度數(shù)據(jù)之間的關(guān)聯(lián)與擾動(dòng)。由于在數(shù)據(jù)獲取方面具有一定的便捷性,此類研究目前積累了較多的研究成果,包括基于“作者-關(guān)鍵詞”“合作關(guān)系-作者水平”“作者-機(jī)構(gòu)-國(guó)家”“作者-時(shí)間-關(guān)鍵詞”“機(jī)構(gòu)-主題-地區(qū)”“作者-論文-關(guān)鍵詞-期刊-基金”“學(xué)科-地區(qū)”“學(xué)科-時(shí)間-出版機(jī)構(gòu)”“基金-學(xué)科-國(guó)家-合作-引文”“發(fā)明人-申請(qǐng)人-IPC分類號(hào)-授權(quán)機(jī)構(gòu)”“博主-博文-評(píng)論-推薦-訪問量”等諸多不同維度數(shù)據(jù)的科技信息分析[19-22]。這類研究中,分析工作往往涉及多個(gè)維度,包括2-模網(wǎng)絡(luò)、3-模網(wǎng)絡(luò)等網(wǎng)絡(luò)分析的方法被大量應(yīng)用。盡管其中不同維度之間關(guān)聯(lián)關(guān)系的識(shí)別尚處于較淺的層面,但是跨維度的關(guān)聯(lián)與擾動(dòng)分析已經(jīng)初見端倪。

2.2 復(fù)雜的多維數(shù)據(jù)科技信息分析

事實(shí)上,情報(bào)學(xué)界對(duì)前述基于簡(jiǎn)單多維數(shù)據(jù)的科技信息分析并不陌生,只是近年來(lái)隨著數(shù)據(jù)科學(xué)的興起,越來(lái)越多的研究人員開始更加重視多維復(fù)合分析在科技信息研究中的重要性。隨著研究工作的深入,在多維信息的混雜性逐漸凸顯的同時(shí),不同維度間隱含的數(shù)據(jù)價(jià)值也逐漸浮現(xiàn)。與此同時(shí),多維數(shù)據(jù)間跨維度的關(guān)聯(lián)與擾動(dòng)逐漸成為科技信息多維分析中關(guān)注的焦點(diǎn)。研究人員嘗試通過跨維度的知識(shí)發(fā)現(xiàn),挖掘和捕捉曾經(jīng)被忽略或掩蓋的模式與規(guī)律。一些基于不同數(shù)據(jù)源中不同維度數(shù)據(jù)的更復(fù)雜的研究工作相繼開展。

基于復(fù)雜多維數(shù)據(jù)的科技信息研究的一個(gè)典型代表是Martín-Martín等[23]在2018年發(fā)表的一項(xiàng)關(guān)于科技信息覆蓋率的研究成果。該項(xiàng)研究的數(shù)據(jù)來(lái)自Google Scholar、Web of Science、Scopus三大著名的科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)。研究中的數(shù)據(jù)維度涉及學(xué)科方向(252個(gè))、文獻(xiàn)類型(期刊論文、圖書、會(huì)議論文等)、語(yǔ)言種類(英語(yǔ)、西班牙語(yǔ)、德語(yǔ)等),以及引用記錄(2 448 055條)等多個(gè)方面。無(wú)獨(dú)有偶,國(guó)內(nèi)學(xué)術(shù)界也出現(xiàn)將機(jī)構(gòu)庫(kù)、專家?guī)?、論文?kù)等不同數(shù)據(jù)源進(jìn)行關(guān)聯(lián)整合的研究成果,數(shù)據(jù)維度涉及作者、研究主題、機(jī)構(gòu)等[24]。盡管這些研究都同時(shí)涉及多個(gè)數(shù)據(jù)源以及多個(gè)數(shù)據(jù)維度,但是數(shù)據(jù)源在類別上都屬于科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)。不同科學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)的格式標(biāo)準(zhǔn)不同的情況下,其題錄信息畢竟還是自帶一定程度的規(guī)范性。更為復(fù)雜的是基于學(xué)術(shù)型數(shù)據(jù)源與非學(xué)術(shù)型數(shù)據(jù)源關(guān)聯(lián)整合的研究?,F(xiàn)有的研究成果中,已經(jīng)出現(xiàn)基于傳統(tǒng)學(xué)術(shù)資源數(shù)據(jù)與現(xiàn)代社交媒體數(shù)據(jù)關(guān)聯(lián)整合的相關(guān)研究,數(shù)據(jù)維度涉及期刊、所有者、出版商、推文、引文等[25]。國(guó)內(nèi)2019年最新的研究成果中,更是通過學(xué)術(shù)論文(中國(guó)知網(wǎng)期刊論文、學(xué)位論文、會(huì)議論文)、專利搜索引擎(大為innojoy)、國(guó)家圖書館(館藏目錄)、自然科學(xué)基金(LetPub)、行業(yè)報(bào)告(中文互聯(lián)網(wǎng)數(shù)據(jù)資訊中心)、政策(中國(guó)政府公開信息整合服務(wù)平臺(tái))、輿情(微信指數(shù))多類數(shù)據(jù)源的關(guān)聯(lián)整合,從相互關(guān)聯(lián)與影響的多維信息中對(duì)新興技術(shù)進(jìn)行識(shí)別[26]。此類研究中,由于數(shù)據(jù)的性質(zhì)特征和形式特征都存在較大的差異,因此跨維度關(guān)聯(lián)識(shí)別的難度更大,自然語(yǔ)言處理以及關(guān)聯(lián)分析方法也被廣泛使用。顯然,學(xué)術(shù)資源與非學(xué)術(shù)資源的關(guān)聯(lián)整合在數(shù)據(jù)維度上跨越了更遠(yuǎn)的認(rèn)知距離,進(jìn)而能夠?qū)⒏S富的關(guān)聯(lián)信息實(shí)現(xiàn)整合,并從中挖掘出以往研究中容易被忽略的模式特征,能夠更好地解決單一數(shù)據(jù)源的不確定性。同時(shí),隨著研究中數(shù)據(jù)維度的不斷擴(kuò)展,不同維度間數(shù)據(jù)關(guān)聯(lián)關(guān)系識(shí)別的重要性也越發(fā)凸顯,研究工作對(duì)分析技術(shù)與方法在處理多維關(guān)系上的要求也越來(lái)越高。

3 多維復(fù)合分析的數(shù)據(jù)與方法

通過上述對(duì)科技信息分析相關(guān)研究工作的梳理與分析不難發(fā)現(xiàn),科技信息的多維復(fù)合研究在本質(zhì)上包含研究數(shù)據(jù)的多維度和研究視角與方法的多維度兩個(gè)方面。而且網(wǎng)絡(luò)科學(xué)理論與方法憑借其在揭示結(jié)構(gòu)關(guān)系方面得天獨(dú)厚的優(yōu)勢(shì),被較為廣泛地應(yīng)用于多維度的科技信息分析。通過對(duì)研究數(shù)據(jù)與方法的梳理歸納,結(jié)合相關(guān)學(xué)科領(lǐng)域的最新研究成果,研究工作從數(shù)據(jù)與方法的視角對(duì)科技信息多維復(fù)合分析中的相關(guān)維度進(jìn)行總結(jié),如圖1所示。

圖1 科技信息多維復(fù)合分析的數(shù)據(jù)與方法

圖1中的中間部分為科技信息多維復(fù)合分析的相關(guān)研究任務(wù),左側(cè)為研究數(shù)據(jù),右側(cè)為研究方法。從研究數(shù)據(jù)的角度看,既包含科學(xué)論文、專利文獻(xiàn)、基金項(xiàng)目等經(jīng)典的科技信息載體,也包括近年來(lái)在科技信息分析中嶄露頭角的社交媒體、政策文件、行業(yè)報(bào)告、新聞報(bào)道等數(shù)據(jù)源。此外,近年來(lái)開放的科學(xué)數(shù)據(jù)在科技信息分析中的作用也有所體現(xiàn),甚至還包括圖中沒有列示的用戶認(rèn)知行為等相關(guān)數(shù)據(jù)源。這些多源的研究數(shù)據(jù)能夠?yàn)榭萍夹畔⒎治鎏峁└尤娴幕A(chǔ)信息,也蘊(yùn)含著更加豐富的多維關(guān)聯(lián)關(guān)系?;谏鲜霎愘|(zhì)異構(gòu)的數(shù)據(jù)源,研究人員可以采用傳統(tǒng)方法提取其中的形式特征,包括論文關(guān)鍵詞、作者、引文、機(jī)構(gòu)、國(guó)別、期刊、學(xué)科方向、IPC分類號(hào)、專利申請(qǐng)人等;也可以借助自然語(yǔ)言處理等技術(shù),通過特征詞抽取、主題劃分、相似性比較等識(shí)別其中潛在的語(yǔ)義信息,建立更豐富的細(xì)粒度語(yǔ)義關(guān)聯(lián)。

在研究方法方面,除了傳統(tǒng)的科學(xué)計(jì)量學(xué)與統(tǒng)計(jì)分析方法外,以結(jié)構(gòu)關(guān)系分析見長(zhǎng)的網(wǎng)絡(luò)分析方法占有重要的地位。從現(xiàn)有的研究成果看,除了一些成熟的單模網(wǎng)絡(luò)分析方法外,2-模網(wǎng)絡(luò)、3-模網(wǎng)絡(luò)分析屢被應(yīng)用,甚至有研究將多個(gè)2-模網(wǎng)絡(luò)合并成一個(gè)復(fù)合的多模網(wǎng)絡(luò)用以識(shí)別科技信息間跨維度的關(guān)聯(lián)。類似的研究中,對(duì)于多維信息分析更具優(yōu)勢(shì)的超圖、元網(wǎng)絡(luò)、多層網(wǎng)絡(luò)等分析方法也相繼被應(yīng)用于科技信息的多維復(fù)合分析中。由于網(wǎng)絡(luò)科學(xué)在結(jié)構(gòu)關(guān)系揭示方面得天獨(dú)厚的優(yōu)勢(shì),在學(xué)術(shù)界最新的研究成果中,研究者提出網(wǎng)絡(luò)分析的思想與方法是科技信息分析的基礎(chǔ)邏輯框架[27]。此外,知識(shí)圖譜(Knowledge Graph)的理論與方法也對(duì)科技信息多維分析提供了支持,憑借其實(shí)體與關(guān)系的多樣化及其在多維關(guān)系揭示方面的優(yōu)勢(shì)也被引入科技信息分析領(lǐng)域。需要說(shuō)明的是,這里所說(shuō)的知識(shí)圖譜是指Google提出的知識(shí)圖譜,不同于圖書情報(bào)學(xué)領(lǐng)域更早出現(xiàn)的科學(xué)知識(shí)圖譜(Mapping Knowledge Domain)??茖W(xué)知識(shí)圖譜由Morris、陳超美、Garfield等學(xué)者于2003年美國(guó)國(guó)家科學(xué)院組織的研討會(huì)上共同提出,并于2004年在Proceedings of the National Academy of Sciences of the United States of America發(fā)表專題論文。Google的知識(shí)圖譜于2012年提出,一經(jīng)提出就迅速引起學(xué)術(shù)界的關(guān)注。Google提出的知識(shí)圖譜可以涵蓋種類繁多的實(shí)體、關(guān)系及屬性,實(shí)體之間由其關(guān)系連接,并且實(shí)體與關(guān)系都可以具有各自的屬性,其背后往往由圖數(shù)據(jù)庫(kù)作為后臺(tái)。如一個(gè)簡(jiǎn)單的“作者-文獻(xiàn)”關(guān)系在知識(shí)圖譜中可以表示為作者實(shí)體與論文實(shí)體之間由創(chuàng)作關(guān)系連接,作者實(shí)體可以具有是否為通信作者的屬性,論文實(shí)體可以有所屬學(xué)科方向的屬性,實(shí)體之間的創(chuàng)作關(guān)系有時(shí)間屬性等。以往的科技信息分析中僅能獲得簡(jiǎn)單的作者與文獻(xiàn)之間的關(guān)系。但是在知識(shí)圖譜的視域下,則可以在“作者-文獻(xiàn)”關(guān)系的基礎(chǔ)上,通過一系列的通信作者屬性推測(cè)作者在科研團(tuán)隊(duì)中的重要性,通過創(chuàng)作關(guān)系的時(shí)間屬性識(shí)別作者科研生涯的高產(chǎn)出階段,通過一系列論文的學(xué)科方向?qū)傩苑治隹蒲腥藛T更擅長(zhǎng)的研究方向,甚至可以通過更多維度信息的結(jié)合推斷研究人員在不同研究方向團(tuán)隊(duì)中的重要程度等。某種程度上講,知識(shí)圖譜與網(wǎng)絡(luò)科學(xué)在研究思想上存在異曲同工之處,但是在包容信息內(nèi)容的維度上,一個(gè)知識(shí)圖譜要遠(yuǎn)遠(yuǎn)超過一個(gè)特定的知識(shí)網(wǎng)絡(luò)。而且,從知識(shí)圖譜的后臺(tái)圖數(shù)據(jù)庫(kù)中抽取的多維復(fù)雜關(guān)系可以被應(yīng)用于多類型和多任務(wù)的圖挖掘分析[28],因此也將成為未來(lái)科技信息多維復(fù)合分析的重要支撐技術(shù)。

另外,隨著機(jī)器學(xué)習(xí)技術(shù)(包括深度神經(jīng)網(wǎng)絡(luò))與自然語(yǔ)言處理技術(shù)的成熟,多維異構(gòu)數(shù)據(jù)中的語(yǔ)義信息被抽取并加以分析。類似基金項(xiàng)目與科學(xué)論文等數(shù)據(jù)之間傳統(tǒng)方法下依靠形式特征(論文中的基金標(biāo)注)建立的簡(jiǎn)單關(guān)聯(lián),在隱狄利克雷分布(Latent Dirichlet Allocation,LDA)模型等語(yǔ)義分析方法的輔助下得以擴(kuò)展,并且能夠獲得更深層面的洞見。同時(shí),LDA等自然語(yǔ)言處理方法自身也在不斷地向多維信息分析的方向邁進(jìn),作者主題(Author-Topic,AT)、作者興趣主題(Author-Interest-Topic,AIT)、作者會(huì)議主題(Author-Conference-Topic,ACT)、引文作者主題(Citation-Author-Topic,CAT)、作者時(shí)間主題(Author-Time-Topic,ATT)等納入作者、興趣、會(huì)議、引文、時(shí)間等維度信息的語(yǔ)義分析方法紛紛在科技信息分析領(lǐng)域涌現(xiàn)[29],無(wú)疑能夠?yàn)槎嗑S異構(gòu)數(shù)據(jù)源中的語(yǔ)義信息抽取與分析提供更大的助力。此外,復(fù)雜系統(tǒng)分析方法也對(duì)科技信息多維分析提供了支持,多代理系統(tǒng)(MAS)可以對(duì)系統(tǒng)的自組織模式進(jìn)行仿真建模,從復(fù)雜科學(xué)的視角探索科學(xué)發(fā)展與創(chuàng)新中的動(dòng)力機(jī)制。顯然,在研究數(shù)據(jù)方面,越來(lái)越不同維度的數(shù)據(jù)被納入科技信息分析的視野范疇;在研究方法方面,網(wǎng)絡(luò)分析、自然語(yǔ)言處理、知識(shí)圖譜等對(duì)科技信息多維復(fù)合分析提供了技術(shù)與方法層面的有力支撐。

4 結(jié)語(yǔ)

由上述分析可以看到,科技信息分析領(lǐng)域,研究工作已經(jīng)從早期單一維度的信息分析開始逐漸向多維復(fù)合分析的方向轉(zhuǎn)變。情報(bào)學(xué)界對(duì)科技信息多維分析的嘗試與探索也經(jīng)歷了從簡(jiǎn)單多維分析到復(fù)雜多維分析的過程。從數(shù)據(jù)的多維性到研究視角與方法的多維性,都在不同程度上得到顯著的發(fā)展與提升。這期間,大數(shù)據(jù)思維、網(wǎng)絡(luò)科學(xué)、自然語(yǔ)言處理等相關(guān)學(xué)科的發(fā)展在跨維度關(guān)聯(lián)識(shí)別與細(xì)粒度關(guān)聯(lián)揭示等方面起到了積極的推動(dòng)與促進(jìn)作用。在我國(guó)科技創(chuàng)新的戰(zhàn)略框架下,對(duì)科技信息資源實(shí)現(xiàn)深層次挖掘,從多維復(fù)合分析的視角洞察與揭示不同維度信息之間潛在的模式與規(guī)律,逐漸成為學(xué)術(shù)界的共識(shí)。

科技信息的多維復(fù)合分析有助于獲得不同維度之間的潛在關(guān)聯(lián),發(fā)現(xiàn)科技發(fā)展以及科技創(chuàng)新中內(nèi)在模式與規(guī)律,從而提供全景式的知識(shí)服務(wù)。對(duì)于創(chuàng)新科技信息研究,提升科技信息服務(wù)水平,促進(jìn)國(guó)家科技發(fā)展都具有積極意義??萍夹畔⒍嗑S分析是一個(gè)漸進(jìn)的演進(jìn)過程。這期間,數(shù)字化科技信息資源的可獲得性,以及網(wǎng)絡(luò)分析等有效分析方法的支撐都起到了關(guān)鍵的作用。事實(shí)上,科技信息多維分析不僅包括數(shù)據(jù)的多維性與方法的多維性,還包括研究目標(biāo)的多維性等方面。本文重點(diǎn)從數(shù)據(jù)與方法的視角對(duì)科技信息多維分析的演進(jìn)狀況進(jìn)行梳理與歸納,既對(duì)當(dāng)前學(xué)術(shù)界的科技信息分析相關(guān)研究進(jìn)行了總結(jié),也力圖為今后科技信息分析領(lǐng)域的相關(guān)探索提供借鑒,開拓科技信息研究領(lǐng)域新的學(xué)科增長(zhǎng)點(diǎn)。

猜你喜歡
數(shù)據(jù)源關(guān)聯(lián)維度
理解“第三次理論飛躍”的三個(gè)維度
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
認(rèn)識(shí)黨性的五個(gè)重要維度
淺論詩(shī)中“史”識(shí)的四個(gè)維度
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
奇趣搭配
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
智趣
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
合阳县| 汝南县| 台东县| 全南县| 金坛市| 杭锦旗| 饶河县| 平凉市| 蓝山县| 东乡族自治县| 康乐县| 富顺县| 榆中县| 中卫市| 乌鲁木齐市| 武城县| 炉霍县| 比如县| 旺苍县| 彝良县| 合川市| 全州县| 岑巩县| 禄丰县| 安阳县| 桦南县| 建平县| 同江市| 永善县| 青冈县| 绵竹市| 阿拉善左旗| 馆陶县| 常宁市| 鹤岗市| 新兴县| 壶关县| 樟树市| 忻城县| 兴仁县| 澄江县|