王莉亞
(河南工程學院管理工程學院 鄭州 451191)
·情報分析·
基于特征詞突變的信息整合領域主題演化研究
王莉亞
(河南工程學院管理工程學院鄭州451191)
以Web of Science數(shù)據庫2000~2012年收錄的信息整合領域的論文為數(shù)據源,采用突變點識別方法獲取論文集合中文獻特征詞詞頻突變點,以此為基礎將信息整合領域研究的發(fā)展過程劃分為4個階段:基礎期、平穩(wěn)期、活躍期和發(fā)展期,對各個階段的研究主題內容進行全面、客觀地分析。
突變點 信息整合 主題演化 主題研究
主題演化研究是學科領域研究的重要內容。而主題演化的發(fā)展階段是主題演化研究中首先需要搞清楚的一個問題,只有對所要研究的主題所處的發(fā)展階段有一個準確的劃分,才能對學科主題的發(fā)展狀況做出正確的判斷。目前,關于主題演化發(fā)展階段的劃分并沒有統(tǒng)一標準,不同學者從各自的研究角度和研究目的出發(fā)對主題演化的發(fā)展階段提出了各種劃分方法。目前常用的是定長方法,即通常按照2年、5年或10年為單位來劃分演化過程。這種方法操作比較簡單,但是其缺點是分段長度過大,主題內容特征為許多特征的匯合;另一方面,如果樣本長度過小,在不同討論時間內,主題內容差異不大,很難得出正確結論。同時主題內容比較集中的時間段可能被強行分散開到不同的時間段內,另外,主題內容差異比較大的文獻可能被分到同一固定長度的時間段內,使得該時間段內的主題內容趨向一致,因而不能準確地衡量主題內容變化趨勢。綜上所述,采用上述方法進行主題階段劃分缺乏系統(tǒng)嚴密的數(shù)據理論基礎,有一定的主觀性。
因此,本文提出基于關鍵詞突變點的主題演化階段的思想,從而更有效地確定階段劃分界限。其中突變詞是指以文獻關鍵詞為分析對象,根據詞頻年度分布情況,利用時間序列中突變點識別方法檢測出發(fā)生突變的時間點,那么在發(fā)生突變的當年該關鍵詞就稱為突變關鍵詞,簡稱為突變詞。同時把這種關鍵詞發(fā)生突變的現(xiàn)象稱為關鍵詞突變,簡稱為突變。將信息熵變化原理和有序聚類方法相結合,從而對反映文獻關鍵詞詞頻突變情況進行分析,并以此為基礎劃分研究主題演化過程,即把發(fā)生關鍵詞突變次數(shù)變化特征比較接近的時間段劃分為一段,把出現(xiàn)突變點數(shù)量較多和較少的相鄰段很好的分開來考慮。
具體來講,將突變點識別引入主題特征分析中,來描述主題演變特點。設相關文獻集合為Ti(i=1,2,...,n),從Ti中抽取每個文檔的關鍵詞,則可將文獻集合轉換為關鍵詞集合Wj(j=1,2,...,q),那么特征詞集合在時間集tm(m=1,2,...,p)上的特征矩陣為:
其中wij(i=1,2,...,p;j=1,2,...,q)表示詞Wj在時間tm上出現(xiàn)的頻次。根據突變點識別方法[1],可以獲得特征詞集合Wj(j=1,2,...,q)在不同時間段tm(m=1,2,...p)上發(fā)生突變的時間點集合為tj(τ)(2<τ 2.1 數(shù)據源及其預處理 筆者于2013年10月20日以“information integration”為主題詞在web of science數(shù)據庫進行檢索,數(shù)據年限設置為(2000~2012年),共獲得1 494篇文獻,其中選擇具有較高研究價值的“article”和“review”這兩種文獻類型作為研究對象,共計881篇文獻。另外,由于文本后續(xù)選擇的需要,又刪除了32篇沒有“abstract”的文獻,最終獲得有效分析文獻849篇。 考慮到目前文獻關鍵詞在表征文獻內容方面存在的問題,本文利用RefViz軟件對數(shù)據進行預處理,從文獻的標題和摘要中抽取特征詞匯來表征文獻內容。然后通過手工方法對其結果進行修正,最終選出代表信息整合研究主題發(fā)展的483個特征詞匯,以此為樣本對信息整合研究領域進行演化研究。 2.2 特征詞突變點識別及其演化階段劃分 采用主題領域中關鍵詞突變程度計算和處理方法,獲得特征詞突變程度年度分布,最終特征詞有效突變點的年度分布圖,如圖1所示。由于突變點的特征相對于前后兩個時間段均有變化,而2000和2012年作為研究時間的起始結點,均無法判斷其突變情況,因此無法利用突變點識別方法來計算其突變點數(shù)量, 圖1中的時間范圍是2001~2011年。 圖1 2001~2011年“信息整合”主題特征詞突變點年度分布圖 從突變點的數(shù)量上來看,2001年、2005年、2006年和2007年的突變點比較多,這顯示了這4年中該領域研究主題內容變化可能比較大,或者可能是該領域主題研究的轉折點。本文將信息整合研究主題過程劃分為4個階段,2000~2003年基礎期、2004年平穩(wěn)期、2005~2007年活躍期、2008~2012年發(fā)展期。 2.3 不同階段主題內容特征分析 2.3.1 基礎期(2000~2003年) 該時期的重點內容是信息整合的應用研究,其應用領域主要包括3個方面,首先是神經系統(tǒng)領域腦信息整合研究,例如大腦活化過程中腦半球的非對稱性和分類信息的整合[2];行動規(guī)劃過程中皮質層上目標信息和部位信息的整合[3]。其次是各種信息系統(tǒng)中的應用,例如地理信息系統(tǒng)中構建新的城市交通數(shù)據的整合、分析和可視化[4]等。第三是系統(tǒng)間的整合研究,例如整合全球定位系統(tǒng)和地理信息系統(tǒng)用于交通阻塞研究[5]。隨著應用研究范圍的不斷拓展,該研究領域的一些核心問題已經進入人們的研究視野。但是關于整合理論模型的研究比較少,只有一篇文獻提出構建信息整合理論模型來完善信息系統(tǒng)整合。 2.3.2 平穩(wěn)期(2004年) 這個階段研究主要是理論方法的深入研究和理論應用的拓展。具體來其研究內容主要包括如下4個方面:①神經系統(tǒng)科學領域腦信息整合研究。例如,多模式神經導航系統(tǒng)中整合功能信息;人腦中聽覺信息整合等。②信息整合應用研究。首先是信息整合在供應鏈管理中的應用研究[6-7],例如供應鏈建設中的系統(tǒng)整合與信息共享;通過B2B網絡中心在供應鏈管理中進行信息整合;供應鏈整合和管理中的信息系統(tǒng);評價供應鏈信息系統(tǒng)中的整合;在供應鏈中通過信息技術進行合作與整合。其次是信息整合在其他領域的應用研究,例如遙感、地理信息系統(tǒng)、全球定位系統(tǒng)和電信的整合;應急管理中遠程數(shù)據和地理信息系統(tǒng)技術整合研究。③信息整合類別學習研究[8]。主要包括延遲反饋對于基于規(guī)則和信息整合的分類學習的影響;基于規(guī)則的類別學習和基于信息整合的類別學習在反饋處理過程中的比較研究。④信息整合方法、模型和系統(tǒng)本身的研究[9-10]。主要包括信息整合中流技術的應用;信息整合的發(fā)展階段——復用、融合和自動復用研究;利用元數(shù)據和本體進行網絡數(shù)據整合和信息共享。此階段的研究一方面是理論方法的深入研究,主要表現(xiàn)為在腦信息整合、信息整合方法及其應用研究,同時,在信息整合方法研究中引入元數(shù)據和本體,流技術等。另一方面理論應用的拓展集中體現(xiàn)在信息整合思想在類別學習中的應用研究。 2.3.3 活躍期(2005~2007年) 活躍期的典型特點是研究內容、研究主題、研究角度等的分散化。從研究內容上來看,首先研究內容不斷豐富,研究角度差異性比較大。例如,針對異質信息整合這個問題上,2005年主要采用無監(jiān)督抽取和分類方法[11],而2006年則是從融合的角度出發(fā),并將本體[12]引入其中。其次,這個階段信息整合的應用研究不斷擴展,無論是在腦科學領域、還是政府網站、或系統(tǒng)發(fā)展,信息整合的應用研究逐步受到高度重視,這預示著信息整合的應用研究正在向多方向、多角度發(fā)展。同時,還值得一提的像信息整合類別學習,雖然相關的研究比較少,但是也非常值得關注。這3年該領域主題研究主要內容,如表1所示。 表1 2005~2007年信息整合研究主題內容 2.3.4 發(fā)展期(2008~2012年) 主題研究范圍比較大,主要是對研究內容和方法的拓展。具體來講,近5年信息整合主題研究內容主要包括以下5個方面:①神經科學中腦信息整合研究。主要是與大腦功能和意識相關的信息整合研究。②不同信息系統(tǒng)的整合。地理信息系統(tǒng)整合[13];農業(yè)信息系統(tǒng)整合[14];全球供應鏈中面向過程的整合系統(tǒng)[15]。③信息整合類別學習研究。主要是信息整合類別學習評價研究以及多個系統(tǒng)的類別學習[16-17]。④信息整合方法研究。主要包括基于本體的語義web整合[18],異構數(shù)據源的信息整合,面向決策支持的web服務架構[19]。⑤信息整合思想應用研究。同時整合對象也從數(shù)據整合、信息整合向知識整合轉移,面向數(shù)據庫的知識整合成為研究的熱點。 從主題研究內容來看,基礎期雖然研究內容比較單一,但是卻表明了該領域研究的重點——信息整合的應用研究,為后期幾個階段的主題研究奠定基礎;在平穩(wěn)期主要體現(xiàn)在理論方法的深入研究和應用的拓展;活躍期延續(xù)了平穩(wěn)期的特點,信息整合的應用研究不斷擴展,同時研究內容不斷豐富,研究角度的差異性較大;發(fā)展期的研究范圍比較大,重點是研究內容和方法的拓展。 從文獻信息計量的角度看,文獻數(shù)量在一定意義上可以反映出某一學科發(fā)展狀況和研究水平,而某一時期文獻中所包含詞語的量的變化,又從側面體現(xiàn)學科發(fā)展各個階段的特點。本文首先提出了基于信息熵的時間序列中突變點識別方法,然后將此方法應用到文獻計量領域的特征詞分析中,提出了基于關鍵詞突變點的主題演化階段的思想,從理論上講,這種劃分形式有利于考慮影響因素作用的大小,提高了劃分精度。最后,在劃分演化階段的基礎上,根據不同階段特征詞詞頻突變點檢測結果,結合不同階段所包含的文獻,對信息整合主題文獻的內容進行分析。通過該實證分析表明了基于特征詞詞頻突變點的主題演化階段劃分可以更客觀、更公正、更全面地反映一個學科領域的發(fā)展過程。 [1] 王莉亞. 基于離群數(shù)據的主題演化研究[D]. 北京: 中國科學院研究生院, 2012: 40-41. [2] Koivisto M, Laine M. Hemispheric asymmetries in activation and integration of categorical information[J]. Laterality, 2000, 5(1): 1-21. [3] Hoshi E,Tanji J. Integration of target and body-part information in the premotor cortex when planning action[J]. Nature, 2000, 408(6811): 466-470. [4] Claramunt C, Jiang B, Bargiela A. A new framework for the integration, analysis and visualisation of urban traffic data within geographic information systems[J]. Transportation Research Part C-Emerging Technologies, 2000, 8(1-6): 167-184. [5] Taylor M A P, Woolley J E,Zito R. Integration of the global positioning system and geographical information systems for traffic congestion studies[J]. Transportation Research Part C-Emerging Technologies, 2000, 8(1-6): 257-285. [6] Gunasekaran A,Ngai E W T. Information systems in supply chain integration and management[J]. European Journal of Operational Research, 2004, 159(2): 269-295. [7] Themistocleous M, Irani Z,Love P E D. Evaluating the integration of supply chain information systems: A case study[J]. European Journal of Operational Research, 2004, 159(2): 393-405. [8] Maddox W T, Ashby F G, Ing A D, et al. Disrupting feedback processing interferes with rule-based but not information-integration category learning[J]. Memory & Cognition, 2004, 32(4): 582-591. [9] Motro A, Berlin J,Anokhin P. Multiplex, fusionplex and autoplex - Three generations of information integration[J]. Sigmod Record, 2004, 33(4): 51-57. [10] Sato H, Kanai A. A technical survey of data integration and information sharing using knowledge representation on the Web[J]. Ieice Transactions on Information and Systems, 2004, E87-D(11): 2435-2445. [11] Ben Miled Z, Li N H,Bukhres O. BACIIS: Biological and chemical information integration system[J]. Journal of Database Management, 2005, 16(3): 72-85. [12] Cho J, Han S, Kim H. Meta-ontology for automated information integration of parts libraries[J]. Computer-Aided Design, 2006, 38(7): 713-725. [13] Kamal M M, Passmore P J,Shepherd I D H. Integration of geographic information system and RADARSAT synthetic aperture radar data using a self-organizing map network as compensation for real-time ground data in automatic image classification[J]. Journal of Applied Remote Sensing, 2010(4): 1-13. [14] Gutierrez-Garcia J O, Zaragoza-Rios J A,Ramos-Corchado F.F. Intergration of Agricultural Information Systems Assisted by Knowledge[J]. Intelligent Automation and Soft Computing, 2010, 16(6): 913-922. [15] Thun J H. Angles of Intergration: And Empirical Analysis of the Alignment of Internt-based Information Technolgy and Global Supply Chain Integration[J]. Journal of Supply Chain Management, 2010, 46(2): 30-44. [16] Helie S, Waldschmidt J G, Ashby F G. Automaticity in rule-based and information-integration categorization[J]. Attention Perception & Psychophysics, 2010, 72(4): 1013-1031. [17] Vandist K, De Schryver M, Rosseel Y. Semisupervised category learning: The impact of feedback in learning the information-integration task[J]. Attention Perception & Psychophysics, 2009, 71(2): 328-341. [18] Lu Y M, Liu D. An Ontological Meta-Model Framework for Implementation of IEC 61968[J]. Przeglad Elektrotechniczny, 2012, 88(11A): 4. [19] Yang J J, Li J B, Deng X Z,et al. A web services-based approach to develop a networked information integration service platform for gear enterprise[J]. Journal of Intelligent Manufacturing, 2012, 23(5): 1721-1732. (責任編校 田麗麗) ThemeMutationintheFieldofInformationIntegration:AStudyBasedon Mutation Wang Liya School of Management Engineering, Henan Institute of Engineering, Zhengzhou 451191, China Employing the mutation detection method, this study has analyzed the literature in the field of information integration, which were collected in the Web of Science database from 2000 to 2012. Based on the analysis, the research process in the field of information integration is divided into four stages: fundamental stage, stable stage, run-in stage and development stage. Research topics at each stage are comprehensively and objectively elucidated. mutation point; information integration; theme evolution; theme research G353.1 *本文系河南省教育廳人文社會科學研究項目“學科主題演進深度挖掘研究”(項目編號:2013-QN-362)的研究成果之一 王莉亞,女,1979年生,博士,講師,發(fā)表論文17篇,出版論著1部。2 “信息整合”領域研究實證分析
3 結語