周 健 張 杰 屈 冉 閆 石
(1. 安徽財經大學 管理科學與工程學院 蚌埠 233000;2.北京郵電大學 計算機學院 北京 100876)
自中本聰于2008年提出區(qū)塊鏈技術后[1],其作為一種去中心化、節(jié)點之間共同維護的分布式數據系統(tǒng)[2],由于安全性、數據可追溯性、數據防篡改等特點和優(yōu)勢[3],備受人們的青睞。2016年年初,聯(lián)合國社會發(fā)展部(UNRISD)發(fā)布了題為《加密貨幣以及區(qū)塊鏈技術在建立穩(wěn)定金融體系中的作用》的報告,提出擬利用區(qū)塊鏈技術構建更加穩(wěn)固的金融體系,同年,我國發(fā)布《中國區(qū)塊鏈技術和應用發(fā)展白皮書》,并在國務院發(fā)布的《國務院關于印發(fā)“十三五”國家信息化規(guī)劃的通知》首次將區(qū)塊鏈技術作為戰(zhàn)略性前沿技術和顛覆性技術。2019年10月,習近平總書記在中央政治局第十八次集體學習時強調,要把區(qū)塊鏈作為核心技術自主創(chuàng)新的重要突破口,加快推動區(qū)塊鏈技術和產業(yè)創(chuàng)新發(fā)展。隨著區(qū)塊鏈技術在各行各業(yè)的深入應用及一系列政策的支持,其已成為國內外研究人員共同關注的焦點。自黨中央提出“創(chuàng)新驅動發(fā)展戰(zhàn)略”以來,科研機構和研究人員通過探究行業(yè)的前沿熱點主題及動態(tài)演化過程,以作為科研方向與項目決策的支撐,實現(xiàn)學術資源的合理配置,推動行業(yè)進步[4]。期刊文獻作為重要的科研成果,對于行業(yè)發(fā)展和技術進步具有一定的指導和推動作用,然而隨著期刊數量迸發(fā),如何從大量的期刊文獻中科學地挖掘出研究主題及其演化路徑,全面揭示區(qū)塊鏈的研究現(xiàn)狀,是推動行業(yè)發(fā)展進步的重要舉措。
近些年,眾多學者在熱點主題挖掘與識別、演化分析等進行了諸多研究,如Kleinberg在早期時提出可利用詞頻分布特征挖掘熱點主題[5];郝曉玲等人利用文本頻數、文本聚合度及粘聯(lián)度提取高頻詞匯,并采用詞共現(xiàn)分析方法對微博主題詞進行聚類,挖掘熱點話題[6];王麗培等人通過詞頻統(tǒng)計等方法對中美兩國圖書自律規(guī)范進行比較分析[7]。然而詞共現(xiàn)分析等傳統(tǒng)的主題分析方法在面對現(xiàn)如今數量激增、內容豐富的文本信息時顯得心余力絀,隨著研究發(fā)展,主題分析方法逐漸形成了基于社會網絡分析[8]和基于主題模型分析[9]。社會網絡分析法由圖論發(fā)展而來,用于揭示個體之間以及個體同網絡整體之間的關系特征,Aggarwal等人通過社會網絡分析印度企業(yè)董事會的演變,有效地探究政府干預政策對精英群體集中度的影響[10];Chouchani等人利用社會網絡分析高效地對線上興趣社區(qū)進行識別和分類[11],楊勇等國內學者構建了國內發(fā)明專利合作網絡,通過對網絡中心度、結構洞等特征指標進行測度,分析國內發(fā)明專利合作網絡的演化趨勢[12]?;诰W絡關系挖掘出的主題雖然可信度高,但對主題的無權重區(qū)分導致無法科學地表現(xiàn)主題強度?;谥黝}模型的分析方法用于對文本中潛在的語義關系和主題信息進行挖掘,潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是當下主流的主題模型之一,最初由Blei于2003年提出[13],其作為一種非監(jiān)督機器學習方法,被廣泛應用于文本挖掘方向,能夠挖掘出初始文檔中的潛在主題,但由于LDA 模型忽略了主題詞之間的潛在語義聯(lián)系,因而在短文本中的挖掘效果較為有限[14],故許多學者將其進行優(yōu)化,如Shuo Xu等人將時間維度當作LDA模型的內生變量并結合著者屬性生成動態(tài)主題模型[15];Tajbakhsh等人結合了詞語共現(xiàn)提出優(yōu)化的LDA 模型用于對Twitter短文本進行聚類[16]。國內外也有許多學者利用該方法對學科進行主題挖掘,如Suominen 等學者利用LDA 模型通過專利數據對企業(yè)研發(fā)方向進行分析和預測[17];張子振等人基于期刊論文、碩博士論文、專利文獻等多源文獻,利用LDA模型對機器學習進行主題挖掘并進行差異性分析[18];譚春輝等基于LDA模型對國內外數據挖掘進行熱點主題挖掘和演化對比分析[19]。
鑒于目前區(qū)塊鏈的飛速發(fā)展,國內外學者亦針對區(qū)塊鏈文獻計量及前沿主題進行了相關研究。如王發(fā)明等以CNKI期刊庫中2015-2017年5月的區(qū)塊鏈論文作為檢索對象, 使用知識圖譜展現(xiàn)國內區(qū)塊鏈研究的時空分布特征、研究熱點及前沿問題[20];Firdaus等以Scopus數據庫中2013-2018年間發(fā)表的文章為研究對象,利用文獻計量展示區(qū)塊鏈文獻中的國家合作網絡和關鍵字共現(xiàn)網絡,以探討該間的時空聯(lián)系和前沿主題[21];花敏等以近五年國內外區(qū)塊鏈的相關文獻為對象,利用文獻計量和科學知識圖譜對揭示了區(qū)塊鏈的研究熱點和趨勢等方面[22]。
綜上所述,當前已有研究主要從區(qū)塊鏈合作網絡、主題詞共現(xiàn)網絡、研究熱點及趨勢等方面進行梳理與分析,且大部分對于熱點主題的研究仍以詞共現(xiàn)方法為主,少部分利用主題模型的方法也僅為區(qū)塊鏈主題識別研究,缺乏對主題強度和內容演化的分析。針對上述問題,本文以國內外區(qū)塊鏈相關文獻為基礎,將文獻按時序劃分為不同的時間窗口,對不同時間窗口下的文獻數據進行 LDA 主題挖掘和識別,通過計算余弦距離值的方法測度不同主題間的相似度,以確定不同主題間的演化關系,并以可視化的方法對其主題強度變化和演化路徑進行展示,進一步,引入新穎度指標和熱度指標來界定熱點主題,以更為客觀全面地揭示國內外區(qū)塊鏈研究主題及其異同,并展望未來國內外區(qū)塊鏈的發(fā)展趨勢,為推動國內區(qū)塊鏈的創(chuàng)新與發(fā)展形成有效的參考。
1.1研究思路為有效地分析國內外區(qū)塊鏈研究主題和演化關系,本文從中國知網(CNKI)和Web of Science上收集文獻數據,并將文獻標題及文獻摘要作為數據來源,同時基于時間線對時序進行時間窗口分割,挖掘不同窗口下的研究主題,并以可視化的形式展現(xiàn)國內外區(qū)塊鏈主題熱度變化及演化路徑,引入新穎度和熱度指標識別熱點主題,以更為全面地比較分析國內外對該研究的異同,研究思路如圖1所示。
圖1 研究思路圖
1.2關鍵技術
1.2.1 主題抽取技術 目前,已有不少方法應用于主題提取方面,諸如基于詞頻與逆文檔頻的TF-IDF方法、基于網頁推薦系統(tǒng)的Textrank算法以及非監(jiān)督主題抽取算法PageRank等常見的方法,但這些方法更適合噪聲較多或輸出單一的場景,也無法科學地揭示主題之間、主題與文本之間的潛在聯(lián)系。本文采用LDA主題模型對文本進行主題提取,這是一種文檔主題生成模型,共包含詞、主題、文檔三層結構[23]。作為一種非監(jiān)督機器學習方法,與傳統(tǒng)的主題挖掘方法相比,LDA 主題模型在分析文本語義等方面具有良好的效果,可以有效地分析大規(guī)模非結構化文檔集[24]。同時,在不需要預先對初始文檔進行人工標注的條件下,通過LDA主題模型即可挖掘出潛在主題。因此,將LDA模型運用于文檔內容分析中在一定程度上可以更好地保留文檔內部關系,更為科學地揭示主題間的演化路徑,具體模型如圖2所示。
圖2 LDA主題模型結構圖
其中,α和β分別是主題分布θ和主題詞分布φ的先驗分布參數,z和w分別表示模型生成的主題及最終的主題詞,D表示文檔數量,S表示文檔的詞語數量。主題模型的生成過程主要如下:首先,從全局中選取長度為N的文檔,接著,分別從參數為α的先驗分布和參數為β的先驗分布中取樣生成文檔在主題上的分布θ和主題在主題詞上的分布φ;最后,分別從參數為θ和參數為φ的多項式分布中采樣主題z和主題詞w,模型的聯(lián)合分布如公式(1)所示。
(1)
通常,LDA模型的超參數α、β選取默認值[25],主題z和主題詞w可通過變分推斷算法[13]或Gibbs采樣算法[26]得到,因為Gibbs采樣算法實現(xiàn)簡單,故本文采用Gibbs采樣算法求得全局的主題z分布和主題詞w分布。在LDA模型中,主題數需要預先設定,為了得到最為合適的主題數,本文采用困惑度評價法求得最優(yōu)主題數k,其計算公式如公式(2)所示:
(2)
困惑度表示文檔所屬的主題的不確定性(信息熵),故而當困惑度最小時,主題數最優(yōu),一般情況下,當困惑度下降趨勢不再明顯或處于拐點處時,此時的k值為最優(yōu)主題數。
1.2.2 主題演化分析技術 通過LDA模型對不同時間窗口的文檔進行挖掘所得到的主題間可能存在聯(lián)系和差異,為描述相鄰時間窗口下文檔主題的相似度和演化關系,本文采用計算余弦距離值的方法來確定主題間的演化關系。余弦距離值以向量空間中兩個向量夾角的余弦值作為衡量標準,其計算公式如下:
(3)
余弦距離值范圍在0~1中,當距離值越接近1,則表明兩個向量越相似,距離值越小,則表明兩個向量差異越大。通過LDA模型輸出的主題詞集,構建主題空間向量,通過計算可以得到兩個主題間的相似程度,以確定主題的演化程度。
1.2.3 熱點主題識別技術 熱點主題的識別是識別在特定時間內具有較高關注度的主題。本文根據模型輸出的結果,借鑒已有的熱點主題識別方法[19],結合主題的時序特征,通過主題新穎度和主題熱度判別指標,以生命周期理論為理論基礎,定量和定性地識別處于熱點階段的主題。
a.主題熱度指標。主題熱度指標主要用于揭示主題的受關注程度,其表現(xiàn)形式為同一時間窗口下該主題下文檔的數量多少。以LDA模型輸出結果為基礎,定義主題熱度指標計算公式如下所示:
(4)
式中,HT(t)為時間窗口t下的主題T的主題熱度,ST(t)為時間窗口t下該主題的文檔數量,SW(t)為時間窗口t下所有主題的文檔數量。當主題熱度越大,則表明該主題所受到的關注程度越高。
b.主題新穎度指標。主題新穎度指標用于揭示某個主題下的新穎程度,即該主題所出現(xiàn)的年份越近,則新穎程度越高,本文參考范云滿等人采用的新穎度計算公式[27],如下所示:
(5)
式中,NIT(t)為時間窗口t下主題T的新穎度,t為當前時間窗口,Tbegin表示該主題首次出現(xiàn)的時間,故隨時間的推移,主題的新穎程度下降。在該新穎度計算模型中,斜率逐漸減小,即新興主題老化速度快,得以保留的有價值的主題老化速度慢,符合文獻老化規(guī)律。
c.主題二維尺度分析。本文通過不同時間窗口對主題進行挖掘,以LDA模型輸出結果為基礎,主題的熱度和新穎度得以確定。為更好地識別熱點主題,本文借鑒已有的主題二維尺度分析方法[28],基于主題熱度指標和新穎度指標計算結果,構建主題生命周期,分別為潛在主題階段、新興主題階段、熱點主題階段和衰退主題階段,并通過新穎程度與熱度程度定量地識別主題所屬的階段。其中,設定新穎程度與熱度程度的判定閾值;若主題為潛在主題,該類主題通常新穎度高但相關文檔較少,主題處于潛在期或發(fā)展遇到瓶頸;若主題為新興主題,此類主題文檔增加較快,主題新穎度較高且熱度也較高,主題進入快速發(fā)展時期;若主題為熱點主題,通常此類主題新穎度較低但熱度最高,主題進入成熟期,此時主題經過一段時間發(fā)展并得以保留,具有較高的研究價值;若主題進入衰退階段,則主題新穎度低且研究熱度也很低,主題文檔數減少,主題衰落老化并逐漸進入消亡階段。
2.1數據來源及預處理本文的實證研究對象為國內外區(qū)塊鏈,國內文獻源為中國知網(CNKI),使用高級檢索,設定檢索條件為“主題=區(qū)塊鏈”,為保證文獻來源的科學性,限定文獻為期刊,文獻來源為SCI期刊、EI源期刊、核心期刊、CSCD期刊、CSSCI期刊,時間跨度為2014-2020年,檢索日期為2020年10月31日(2020年未記錄完整)。導出全記錄文獻信息,篩去重復和信息不全的文獻,最后得到2 380篇文獻。國外文獻源為Web of Science(WOS),同樣采用高級檢索,檢索式為“SU=blockchain”, “SU”表示研究主題,文獻類型設定為“Article”,語言設定為“English”,索引條件為SCI和SSCI,時間跨度為2015-2020年,檢索日期同樣為2020年10月31日(2020年未記錄完整)。導出全文獻信息,經過篩選,去除重復和不完整的文獻信息,最終得到2 826篇文獻。
為更好地分析區(qū)塊鏈研究主題和演化路徑,本文在檢索結果的基礎上,結合文獻增長的趨勢,按照時間線對文獻進行時間窗口劃分??紤]到區(qū)塊鏈相關文獻出現(xiàn)年份較遲,且前期發(fā)文量低,近期文獻量增長迅速,為平衡每個時間窗口的發(fā)文量,故將國內區(qū)塊鏈劃分為2014-2017年、2018年、2019年以及2020年四個時間窗口,將國外區(qū)塊鏈劃分為2015-2018年、2019年、2020年三個時間窗口。
從導出的文獻信息中選取標題與摘要作為模型的語料來源,對于中文語料,調用中文分詞工具Jieba庫對中文語料進行分詞,分詞前添加區(qū)塊鏈的專業(yè)詞匯作為自定義詞典,以提高分詞效果,分詞過程中,結合中文停用詞表,去除虛詞或無實際意義的符號等。對于英文語料,調用NLTK自然語言處理工具包,對句子進行標記、詞形還原、詞干提取等。為提高模型的準確度,對語料進行同義詞合并,比如“BTC”與“bitcoin”同義,統(tǒng)一為“bitcoin”;“共識協(xié)議”與“共識機制”同義,統(tǒng)一為“共識機制”等。對分詞后的文本進行特征提取,作為LDA模型的輸入來源。
2.2主題挖掘在進行主題挖掘之前,通過計算困惑度獲得不同時間窗口下的最優(yōu)主題數,計算結果如圖3所示。一般情況下,當困惑度最小時或處于拐點處時,挖掘出的主題數最佳,此時的k值為最優(yōu)主題數。根據計算結果,確定2014-2017年國內文獻最優(yōu)主題數為7個,2018年國內文獻最優(yōu)主題數為11個,2019年國內文獻最優(yōu)主題數為20個,2020年國內文獻最優(yōu)主題數為30個。同理,確定2015-2018年國外文獻最優(yōu)主題數為11個,2019年國外最優(yōu)主題數為21個,2020年國外最優(yōu)主題數為21個。
圖3 不同時間窗口下國內外主題困惑度
LDA主題模型作為一種無監(jiān)督機器學習方法,可以挖掘初始文檔中的潛在主題,挖掘效果與迭代次數相關。迭代次數越高,模型收斂效果越好,考慮算力與收斂效果,本文將收斂次數定在500次。隨后,對國內外每個時間窗口下輸出的主題進行篩選,如去除由虛詞組成的主題聚類、去除與區(qū)塊鏈研究無關或相關度較小的主題聚類,去除文獻數量為 0 的主題等[29],對篩選后的結果進行主題命名,為精確保留主題語義,中文主題標簽參考中圖分類法,英文主題標簽則參考 Web of Science的研究方向,對每個主題進行人工命名,結果如表1和表2所示。
表1 國內區(qū)塊鏈不同時間窗口下的主題分布
表2 國外區(qū)塊鏈不同時間窗口下的主題分布
對比表1和表2,可以將國內外區(qū)塊鏈研究主要劃分為5個:包括共識機制、智能合約等在內的區(qū)塊鏈架構研究;包括金融科技、供應鏈、能源交易、資源共享、版權保護等行業(yè)應用研究;包括隱私安全、數據溯源、交易攻擊等區(qū)塊鏈安全研究;包括物聯(lián)網、人工智能、云計算、神經網絡等高新技術研究;社會治理、數字城市等公共管理研究等。
2.3主題強度分析基于LDA模型輸出結果,計算各時間窗口下的國內外區(qū)塊鏈研究主題強度,繪制主題熱度圖。熱度圖中,顏色深的是熱度較大的主題,顏色淺的為熱度較小的主題,主題編號與國內外區(qū)塊鏈主題分布表中的主題排序一致,結果如圖4和圖5所示。
圖4 國內主題熱度圖
圖5 國外主題熱度圖
從內容上看,國內區(qū)塊鏈研究主要集中于金融科技、能源交易、數據安全、資源共享、共識機制、數字貨幣、供應鏈和社會治理等研究,國外區(qū)塊鏈研究主要集中于數字貨幣、數據系統(tǒng)、共識機制、金融科技、隱私安全等研究。國內區(qū)塊鏈研究相較于國外更偏向與區(qū)塊鏈和行業(yè)技術的結合應用,國外研究更偏向于區(qū)塊鏈架構和區(qū)塊鏈安全等理論的研究。
從時間上看,國內區(qū)塊鏈研究早期多是對數字貨幣、金融服務、供應鏈等傳統(tǒng)應用和智能合約、數據安全、共識機制等理論等展開研究,隨著學者的不斷深入研究和政策的支持,區(qū)塊鏈技術被應用的更多,衍生出包括智能制造、版權保護、電子檔案、產品追溯等在內的細分以及與人工智能、云計算等高新技術結合的相關。2019年10月,習近平總書記提出要加強和創(chuàng)新社會治理,將最新科技成果應用于社會治理[30],區(qū)塊鏈用于社會治理開始備受學者關注,可以料想,未來區(qū)塊鏈結合社會治理的研究熱度會繼續(xù)提升。同樣,國外區(qū)塊鏈研究多是從對數字貨幣、供應鏈、智能合約、隱私安全等理論和應用衍生出車輛互聯(lián)網、數字城市、知識發(fā)現(xiàn)、醫(yī)療健康等細分,近段時間,國外區(qū)塊鏈研究由理論研究逐步向應用研究發(fā)展,且與智能工業(yè)、人工智能等高新技術聯(lián)系緊密。
2.4主題演化分析本文通過對相鄰時間窗口下挖掘出的主題及主題詞間進行余弦距離值的計算,得到主題間的演化關系。余弦距離值越高,主題間出現(xiàn)存在演化關系的概率越大。為了使演化路徑更為客觀,根據相關研究,確定0.3為相似度閾值[31]。認定相鄰時間窗口間余弦距離值高于0.3的主題具有演化關系,利用開源ECharts開源圖表庫將主題演化關系繪制成?;鶊D,結果如圖 6和圖7所示。其中,每個元素塊都具有對應主題,主題間的連線表示主題間的流動方向以及聯(lián)系,連線的粗細表示相似度的高低,連線越粗,則表明主題間的演化關系越緊密。
圖6 國內區(qū)塊鏈主題演化圖
圖7 國外區(qū)塊鏈主題演化圖
國內外區(qū)塊鏈研究中,共識機制等區(qū)塊鏈架構一直是區(qū)塊鏈研究主題的重點和熱點,且不同時間窗口的主題相似度較高,主題相關文獻較多,主題研究延續(xù)性較強?;谖谋局黝}詞分布,區(qū)塊鏈架構研究隨著研究的深入和技術應用的發(fā)展,研究重點從網絡節(jié)點共識的安全性演化為與行業(yè)應用的結合,提高行業(yè)應用的安全性和效率。
不同于區(qū)塊鏈架構的研究,區(qū)塊鏈行業(yè)應用的研究呈現(xiàn)出熱度高、演化路徑多。行業(yè)應用研究不僅存在行業(yè)內部的演化,如金融科技的演化,從主題詞來看,金融科技研究從金融交易和風險控制等應用向如何構建穩(wěn)定的金融科技市場演化。行業(yè)間也存在演化關系,如供應鏈與能源交易間的演化、版權保護和圖書館與檔案管理間的演化等等。同時,行業(yè)應用研究也呈現(xiàn)出跨間的演化,比較顯著的演化如金融科技與社會治理間的演化,隨著區(qū)塊鏈技術在金融科技中的普及,如何規(guī)范金融市場、設立相關法律法規(guī)是社會治理的一大難題。
區(qū)塊鏈安全與區(qū)塊鏈架構、行業(yè)應用、高新技術、公共管理的主題關聯(lián)性與相似性都較高。 原因在于區(qū)塊鏈技術具有數據防篡改、安全性高的特點,針對不同的區(qū)塊鏈問題,安全性都是不可忽視的研究方向,許多學者基于共識機制、交易攻擊、行業(yè)應用、合約漏洞、隱私安全等去研究區(qū)塊鏈安全問題。
相較于國外,國內區(qū)塊鏈應用研究與理論研究間的主題聯(lián)系更為緊密,主題間的演化和衍生性更強,而國外主題研究的延續(xù)性更強。
2.5熱點主題識別基于LDA主題模型得到的信息,通過計算主題的熱度和新穎度,基于已有的主題二維尺度分析方法,將主題新穎度較低但熱度最高的主題定義為熱點主題。根據公式(3)計算得出每個主題的熱度值,取國內外所有主題的熱度平均值作為熱度指標的閾值,根據計算得出,國內主題熱度閾值為0.0357,國外主題熱度閾值為0.0370。同時,根據“二八定律”,通過公式(4)確定新穎度閾值為0.2。界定主題熱度和新穎度同時大于閾值的主題為熱點主題,得出國內區(qū)塊鏈熱點主題為9個,國外區(qū)塊鏈熱點主題為7個,主題及對應主題詞的結果如表3和表4所示。
表3 國內區(qū)塊鏈的熱點主題分布
表4 國外區(qū)塊鏈的熱點主題分布
根據界定的熱點主題,不難發(fā)現(xiàn)國內外區(qū)塊鏈的研究方向大體相似,結合研究的劃分和演化過程,從各個主題的主題詞和具體內容探究,以更客觀地揭示國內外區(qū)塊鏈研究熱點的異同。
2.5.1 區(qū)塊鏈架構 關于區(qū)塊鏈架構研究,國內外主要都聚焦于共識機制的研究。共識機制作為區(qū)塊鏈技術中的底層機制,是節(jié)點對接受到的交易進行排序、模擬執(zhí)行、保證節(jié)點在分布式網絡中達成共識的關鍵[32]。在國內外,該主題的熱度都呈上升趨勢,且文獻數量較多,主要涉及共識機制的安全性、效率性的優(yōu)化等,隨著研究的深入,共識機制的研究逐漸演化為與行業(yè)應用的結合,隨著應用的不斷落地,可以預見,共識機制的研究仍將持續(xù)且不斷由理論研究向應用研究演化。不同于國內,智能合約是國外區(qū)塊鏈架構的研究熱點,智能合約實質上是部署在區(qū)塊鏈系統(tǒng)上的去中心化、可信任的共享代碼[33]。相較于國內大部分智能合約的研究都存在于行業(yè)應用,國外對于智能合約的研究包括了安全漏洞[34]、代碼克隆[35]等理論研究。
2.5.2 行業(yè)應用 在行業(yè)應用,金融科技和供應鏈都是國內外的研究熱點。金融科技將新興科技應用于金融行業(yè),技術驅動金融創(chuàng)新,創(chuàng)造新的商業(yè)模式、業(yè)務流程來提高傳統(tǒng)金融效率[36],供應鏈管理是通過對供應鏈運作使其達到最優(yōu)化,以最優(yōu)的方案滿足企業(yè)需求。在金融科技和供應鏈管理中,數據量十分龐大,且數據對該的重要性不言而喻,由于區(qū)塊鏈技術具有數據防篡改等優(yōu)點,金融科技與供應鏈等結合區(qū)塊鏈技術,可以在海量數據的基礎上發(fā)揮區(qū)塊鏈的優(yōu)勢,確保數據的安全性,提高運行效率。觀察演化路徑,金融科技的演化和衍生路徑多,行業(yè)間的聯(lián)系緊密,隨著研究的發(fā)展,金融科技更強調金融監(jiān)管、市場治理等,供應鏈金融也成為了行業(yè)內研究的熱點。不同于國外區(qū)塊鏈研究,國內更偏向于區(qū)塊鏈技術與應用的結合,國內區(qū)塊鏈研究熱點主題中,還包括例如與高校數字教學資源共建共享結合的資源共享行業(yè)研究[37]、以比特幣為代表的數字貨幣研究、能源交易尤其是電力交易模型研究、版權保護應用研究等。
2.5.3 區(qū)塊鏈安全 區(qū)塊鏈安全一直是區(qū)塊鏈安全研究的熱點,隨著大數據時代的來臨,海量數據存在泄露、篡改等一系列安全問題,國內區(qū)塊鏈安全以數據安全研究為主,研究包括審計、金融監(jiān)管等信息平臺的安全等等。相較于國內,國外區(qū)塊鏈安全研究不僅聚焦于數據系統(tǒng)的安全,還包括隱私安全。盡管區(qū)塊鏈技術被認為是具有匿名性的技術,不足但想要做到完全的匿名是十分困難的,多數區(qū)塊鏈系統(tǒng)都存在著匿名性的安全問題[38],主要包括身份隱私安全和交易隱私安全等。
2.5.4 高新技術 區(qū)塊鏈技術與物聯(lián)網、人工智能、云計算等高新技術的結合也成為國內外區(qū)塊鏈研究的趨勢方向。同時,物聯(lián)網也是國外區(qū)塊鏈領域研究的熱點之一,物聯(lián)網是在互聯(lián)網基礎上擴展的網絡,通過將信息傳感設備與互聯(lián)網結合起來形成的網絡,實現(xiàn)跨越時空的人與設備間的互聯(lián)互通。區(qū)塊鏈技術與物聯(lián)網技術的結合,尤其是車輛互聯(lián)網、能源物聯(lián)網等,涉及物聯(lián)網系統(tǒng)[39]、物聯(lián)網隱私[40]等都是區(qū)塊鏈技術結合物聯(lián)網領域的研究熱點。從主題強度來看,國內外關于區(qū)塊鏈技術和人工智能、云計算等的結合研究呈上升趨勢,但目前國內大部分研究多與應用和監(jiān)管等有關,涉及理論算法研究相對較少??梢灶A見,區(qū)塊鏈技術與高新技術的研究將仍會持續(xù)。
2.5.5 公共管理 自中央政治局第十八次集體學習召開以來,有關將區(qū)塊鏈技術應用到公共管理中成為眾多學者研究方向,將區(qū)塊鏈技術應用到社會治理等方面也是國內的研究熱點之一。包括市場監(jiān)管[41]、法律法規(guī)[42]、政府治理[43]等。如何將區(qū)塊鏈技術合理地運用到社會治理中,推動各行各業(yè)的發(fā)展,提高政府的運行效率,完善監(jiān)管體系,以實現(xiàn)高質量發(fā)展是區(qū)塊鏈技術在公共管理的研究趨勢。
本文基于LDA主題挖掘模型,對國內外區(qū)塊鏈核心期刊進行主題挖掘,并通過主題強度分析、演化分析及熱點主題識別對區(qū)塊鏈研究進行分析,得到以下結論:
a.國內外區(qū)塊鏈研究主要涉及包括共識機制、智能合約等在內的區(qū)塊鏈架構機制;包括金融科技、供應鏈、能源交易、資源共享、版權保護等行業(yè)應用;包括數據系統(tǒng)安全、隱私安全、交易攻擊等區(qū)塊鏈安全;包括物聯(lián)網、人工智能、云計算、等高新技術;社會治理、數字城市等公共管理等。
b.從主題強度來看,國內區(qū)塊鏈研究更偏向于行業(yè)應用、公共管理等應用的研究,國外區(qū)塊鏈研究更偏向于區(qū)塊鏈架構、區(qū)塊鏈安全及高新技術等理論的研究。國內外區(qū)塊鏈研究早期多是對數字貨幣、金融服務、供應鏈等傳統(tǒng)應用和智能合約、數據安全、共識機制等理論等展開研究,隨著研究的深入,衍生出包括智能制造、版權保護、電子檔案、產品追溯等在內的細分以及與人工智能、云計算等高新技術結合的相關。從內容演化來看,共識機制等區(qū)塊鏈架構主題研究延續(xù)性較強,區(qū)塊鏈行業(yè)應用研究呈現(xiàn)出熱度高、演化和衍生路徑多的特點,區(qū)塊鏈安全與區(qū)塊鏈架構、行業(yè)應用、高新技術、公共管理的主題關聯(lián)性與相似性都較高,跨結合研究更為緊密。國內相較于國外,區(qū)塊鏈應用研究與理論研究間的主題聯(lián)系更為密切,主題間的演化和衍生性更強,而國外主題研究的延續(xù)性更強。
c.從熱點主題來看,共識機制、金融科技、數據安全、供應鏈等研究主題是國內外區(qū)塊鏈研究共同的熱點主題。不同于國外,國內區(qū)塊鏈研究更偏向于應用的研究,包括資源共享、數字貨幣、能源交易、版權保護等行業(yè)應用以及社會治理等公共管理。國外的研究熱點更偏向于理論的研究,包括物聯(lián)網、智能合約、隱私保護等。
本文通過LDA主題模型,對區(qū)塊鏈的國內外核心期刊論文進行主題抽取,同時利用可視化的方法展現(xiàn)主題強度及主題演化路徑,并通過新穎度指標和熱度指標識別國內外區(qū)塊鏈研究的熱點主題,對比分析國內外區(qū)塊鏈研究的異同,以更為客觀地揭示區(qū)塊鏈的研究現(xiàn)狀。通過研究發(fā)現(xiàn)國內外區(qū)塊鏈的研究主題在內容和結構上具有一定的差異。國外更偏向于區(qū)塊鏈理論的研究,且主題研究的延續(xù)性較強,與物聯(lián)網等高新技術的研究更為密切,國內則更注重區(qū)塊鏈技術與應用的結合,且研究主題更為豐富,差異更為明顯,更注重區(qū)塊鏈技術在公共管理中發(fā)揮的作用。根據研究結果,學者在國內外區(qū)塊鏈的核心期刊文獻的基礎上,可以了解感興趣的研究的發(fā)展史及最新發(fā)展動態(tài),為研究制定科學合理的方向。
本文的研究還存在以下不足:一是在于數據只提取了文獻的標題與摘要部分,未對關鍵詞和全文分析進行比較;二是在于主題抽取中缺乏一定的專家指導,可能會影響到主題挖掘結果的準確性,導致本文的結論與實際情況可能存在一定的偏差。下一步研究工作將綜合專利文獻探索區(qū)塊鏈研究的實際應用情況。