国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

碎片化科研創(chuàng)新點動態(tài)挖掘研究*

2014-10-12 02:54:58溫有奎吳廣印
數(shù)字圖書館論壇 2014年7期
關鍵詞:特征詞學術論文文摘

溫有奎,吳廣印

(1. 北京萬方軟件股份有限公司,北京 100038;2. 中國科學技術信息研究所,北京 100038)

碎片化科研創(chuàng)新點動態(tài)挖掘研究*

溫有奎1,吳廣印2

(1. 北京萬方軟件股份有限公司,北京 100038;2. 中國科學技術信息研究所,北京 100038)

從海量科技信息中挖掘出科研創(chuàng)新點碎片已成為大數(shù)據(jù)環(huán)境下知識挖掘與服務的一個關鍵問題,也仍然是迄今為止非結構化知識發(fā)現(xiàn)的一個難題。文章提出一種碎片化科研創(chuàng)新點動態(tài)挖掘方法。通過對學術成果的要素和條件分析,建立學術成果創(chuàng)新要素的關鍵變量和語義關系,給出學術成果創(chuàng)新點的本體模型;基于模型的理論指導,實現(xiàn)科技文獻中科研創(chuàng)新點碎片的動態(tài)挖掘系統(tǒng)。該方法有利于過濾海量科技文獻的創(chuàng)新點,發(fā)現(xiàn)文獻中的知識關聯(lián)關系,提高文獻知識挖掘的效率,為科研工作者快速方便地直接獲取科研動態(tài)信息提供技術支持。

碎片化;創(chuàng)新點;本體建模;動態(tài)挖掘

1 引言

大數(shù)據(jù)的到來為科技信息服務機構提出了新的挑戰(zhàn),如何解決科研工作中的信息淹沒而又知識貧乏的困境,研究新的知識挖掘技術成為當前信息服務業(yè)最為關鍵的問題。早在20世紀中葉科學家就在積極地探討科學知識分裂現(xiàn)象,尋找直接挖掘所需知識的方法,但一直沒有很好的解決方案。20世紀60年代,美國情報學家Swanson教授對科學知識碎片(Fragmentation of Science Knowledge)理論提出新的看法:(1)客觀知識總量與人類吸收能力存在巨大的差距;(2)跨學科的信息傳遞變得更加困難;(3)跨學科間存在潛在未被發(fā)現(xiàn)的關聯(lián)。他首次提出并驗證了利用文獻間存在知識碎片的推理發(fā)現(xiàn)新知識的方法[1]。為此,許多學者也做了大量的研究工作[2-5],李國杰院士從知識創(chuàng)新的源頭提出,我國已經走過論文數(shù)量增長歷史階段,現(xiàn)在應該是強調論文質量的時候了[6]。李懷祖教授的文章強調,創(chuàng)新是一篇論文的靈魂[7],稱得上科學研究成果的論文,一定要有新發(fā)現(xiàn)、新假設或新理論。韓客松博士抽樣統(tǒng)計國內中文期刊中自然科學論文的標題與論文主題的基本符合率為98%[8]。至2012年末,非結構化數(shù)據(jù)占有比例達到整個數(shù)據(jù)量的75%以上[9]。大數(shù)據(jù)和云計算的出現(xiàn)加劇自然科學成果的傳播速度,也加劇了信息淹沒和知識貧乏的速度,信息檢索需求已向更深層次的知識發(fā)現(xiàn)需求發(fā)展。因此,本文提出一種從學術論文成果中對科研創(chuàng)新點進行動態(tài)挖掘的方法。通過對構成學術論文成果的要素和條件的分析,建立學術論文成果創(chuàng)新點表現(xiàn)要素的關鍵變量和語義關系,構建創(chuàng)造性學術論文成果的本體模型,基于該模型的理論指導,實現(xiàn)對科技文獻中創(chuàng)造性成果的動態(tài)挖掘方法,并利用關聯(lián)規(guī)則為用戶關注的創(chuàng)新點自動推薦關聯(lián)關鍵詞,為用戶發(fā)現(xiàn)新的創(chuàng)新點提供幫助。

2 創(chuàng)新點挖掘的本體模型構造

2.1 創(chuàng)新點要素與判定

2.1.1 創(chuàng)新點要素分析

本文提出的創(chuàng)新點動態(tài)挖掘的思想,是把海量科技期刊論文中的創(chuàng)新點以短語片段形式抽取出來并加以聚類,旨在解決科技期刊論文關注點的快速、簡明、直接、準確的檢索問題。以創(chuàng)新點過濾海量科技文獻,探索以創(chuàng)新點動態(tài)挖掘科技文獻知識的新方法,為建立科研創(chuàng)新點的語義關聯(lián)推理建立基礎。

學術成果的創(chuàng)新點是科學研究活動的靈魂,是科學發(fā)現(xiàn)與理論創(chuàng)新成果的核心,是科研工作者關注和跟蹤的關鍵信息。有研究者提出科學發(fā)現(xiàn)與理論創(chuàng)新成果應當滿足六項要素[10]:(1)新穎性;(2)創(chuàng)造性;(3)自洽性;(4)包容性;(5)簡明性;(6)可實驗檢驗性。上述六項要素,1-4項是必須同時滿足的條件,5-6項則視具體情況而定。

2.1.2 創(chuàng)新點的判定[10]

(1)新穎性的判定:指科學發(fā)現(xiàn)與理論創(chuàng)新成果向社會公開之日以前,沒有同樣的科學事實和科學理論在國內外出版物上公開發(fā)表過,或者以其他方式為公眾所了解。

(2)創(chuàng)造性的判定:指作者獨自創(chuàng)作完成的,而不是剽竊抄襲他人的;同公開之日以前的所有科學事實和科學理論比較,該科學發(fā)現(xiàn)與理論創(chuàng)新成果有實質性的突破和顯著的進步;科學發(fā)現(xiàn)與理論創(chuàng)新成果可以是既有成果的改進與發(fā)展,但必須與既有成果有顯著的不同并有實質性的突破,論述中應當引證既有成果的論文資料。

(3)自洽性的判定:是一個理論能夠成立的必備條件。指建構一個科學理論的若干個基本假設之間,假設與一系列結論之間,各個結論之間必須相容,不相互矛盾,邏輯推理和數(shù)學演算正確無誤。

(4)包容性的判定:指新的科學理論應當能夠解釋已有的實驗事實,新的科學理論應該在一定的條件下回歸到已經被實踐所證明、在同樣條件下成立的相應的現(xiàn)有科學理論。

(5)簡明性的判定:應當從盡可能少的基本假設出發(fā)描述盡可能多的認識對象,包羅盡可能多的科學結論。

(6)可實驗檢驗性的判定:指自然科學理論可訴諸實驗的檢驗。

2.2 創(chuàng)新點三要素的鑒別

本體(Ontology)是對客觀存在的一個系統(tǒng)的解釋或說明,它關心的是客觀現(xiàn)實的抽象本質。本體應用在計算機領域可以構造對象模型,以及對象的關系和屬性。我們利用語義網構建一個學術論文創(chuàng)新點挖掘的本體模型,這個模型有助于對無結構和半結構化文本知識的理解和挖掘。

學術論文完善地論述創(chuàng)新點,一般要回答三方面的問題[7]:(1)創(chuàng)新點是什么;(2)為何要提出此創(chuàng)新點;(3)回答這個創(chuàng)新點是否成立的質疑。為了回答上述問題,論文應有三方面的內容,即創(chuàng)新點的表述、創(chuàng)新點的理論和實際背景評述以及創(chuàng)新點的論證。表述反映論文的貢獻所在,背景評述襯托出論文的價值,論證則表明創(chuàng)新點的可信程度,三者缺一不可。為此我們將這三點假設為鑒別創(chuàng)新點的三要素,即創(chuàng)新點存在的必要充分條件。

2.3 創(chuàng)新點的本體模型

2.3.1 創(chuàng)新點的本體模型構建

創(chuàng)新點分布在論文的整個結構中,表現(xiàn)為主題中的創(chuàng)新點、技術背景中的創(chuàng)新點、技術方法中的創(chuàng)新點、論文結論中的創(chuàng)新點和總體創(chuàng)新點。由于寫作要求,每種創(chuàng)新點功能表現(xiàn)出了獨特的知識本體結構。建立學術論文創(chuàng)新點的知識本體模型,是實現(xiàn)學術論文創(chuàng)新點智能識別和動態(tài)挖掘的關鍵理論。

一般學術論文對創(chuàng)新點的描述由五大部分組成,既展現(xiàn)出一種層次關系,又表現(xiàn)出一種網狀關聯(lián)關系,學術論文的創(chuàng)新點本體模型見圖1。

圖1 學術論文創(chuàng)新點本體模型圖

2.3.2 創(chuàng)新點本體模型的解釋

(1)題目凸顯創(chuàng)新點

學術論文的標題反映主題的創(chuàng)新點,是文章的靈魂。有人抽樣統(tǒng)計國內中文期刊中自然科學論文的標題與論文主題的基本符合率為98%[6]。好的論文題目能明白無誤地告訴讀者創(chuàng)新點是什么,具有畫龍點睛的功能。

(2)摘要陳述創(chuàng)新點

摘要是向讀者敘述本文的創(chuàng)新點和它的價值,包含三個組成部分:①問題說明:指明論文所要解決的問題,并令讀者意識到此問題的價值所在。②創(chuàng)新點:研究工作的貢獻,即與眾不同的新發(fā)現(xiàn)。創(chuàng)新點應占摘要中大部分篇幅。③論證途徑的說明:創(chuàng)新點論證過程不必敘述,但作者若在論證方法技術上有改進和創(chuàng)新之處則可以寫上。

(3)緒論論述問題與假設

論文首先都要點題,目的是為了闡明問題。緒論可細分為幾部分:①問題提出及背景;②文獻綜述;③假設表述,有時還加上關鍵術語界定內容。

(4)方法論證創(chuàng)新點

方法部分要從方法論角度詳細描述論證過程,使讀者可以根據(jù)論文描述的方法,獨立地重復此項論證和驗證工作。方法部分應包括三項內容的描述:研究主體、論證框架及步驟和數(shù)據(jù)分析。

(5)結果和討論闡明創(chuàng)新點

主要闡明假設驗證結果,亦即論文的主要創(chuàng)新。結果應描述新發(fā)現(xiàn)取得的過程,盡管分析結果是圍繞研究者的假設展開的,但分析過程的描述應該避免主觀的議論,只是擺事實、數(shù)據(jù)和論據(jù),強調敘述過程的客觀和科學性。結果表述中也包括和同類分析結果的比較,揭示和前人分析結果的不同,以襯托出本研究工作的創(chuàng)新之處。

3 科研創(chuàng)新點碎片挖掘

3.1 建立創(chuàng)新點動態(tài)挖掘模板

3.1.1 創(chuàng)新點動態(tài)挖掘模板的結構

根據(jù)圖1給出的學術論文創(chuàng)新點本體模型圖的理論,我們建立了論文創(chuàng)新點動態(tài)挖掘模板。模板由5個模塊組成。

(1)問題模塊(用戶關注點,也即論文的創(chuàng)新點,來自標題)

(2)方法模塊(解決關注點問題所提出的新方法,來自文摘的創(chuàng)新點)

(3)結論模塊(新發(fā)現(xiàn)、階段性結論,來自文摘的創(chuàng)新點)

(4)作者模塊(論文作者)

(5)時間模塊(論文發(fā)表的時間)如果我們將S定義為結構,s1、s2、s3、s4、s5分別表示問題類、方法類、結論類、作者類、時間類變量,我們就得到了創(chuàng)新點動態(tài)挖掘模板的結構函數(shù),S=(s1,s2,s3,s4,s5)。

3.1.2 創(chuàng)新點模板內部的語義關系

上述5個模塊之間構成了5種語義關系。這5種語義關系可描述為:問題由作者提出,作者采用了方法,方法解決了問題,問題得到了結論,結論驗證了方法。由此我們建立了由提出、采用、解決、得到、驗證5種特征詞組成的語義關系。

如果我們把V定義為語義,v1、v2、v3、v4、v5分別表示提出類、采用類、解決類、得到類、驗證類變量,我們就得到了創(chuàng)新點模版內部的語義關系函數(shù),V=(v1,v2,v3,v4,v5)。

其中,問題、作者、方法、結論這4個變量是關鍵變量。時間是依從變量,發(fā)生在關鍵變量的過程中。且問題、方法和結論是三個基本變量,具有直接關聯(lián)關系,而作者是間接關系。

通過以上結構和語義變量的分析,我們得到了創(chuàng)新點動態(tài)挖掘模板是一對由兩類特征詞組成的結構關系圖G:

G={S,V},其中S=(s1,s2,s3,s4,s5), V=(v1,v2,v3,v4,v5)。

其中,v1=(v11,v12,v13,v14…)。如v1又可以寫成:v11(提出了),v12(給出了),v13(設計了),v14(分析了)等。同樣,v2,v3,v4,v5都有各自的同義詞表示方式,因此,語義類型是由這五種語義特征詞匯的聚類。創(chuàng)新點動態(tài)挖掘模板的關聯(lián)關系如圖2所示。

3.2 創(chuàng)新點的動態(tài)挖掘模式

模式是基于模式邏輯抽取的核心,文本模式是一個實例概念的形式和一般定義,而模式元素又是在模式中可能應用的文本實體類型。我們采用的創(chuàng)新點動態(tài)挖掘模式是一種模式匹配方法。為確定模式的元素,我們對描述創(chuàng)新點的要素和判定的特征詞做了統(tǒng)計分析,統(tǒng)計結果表明[2]絕大多數(shù)科技論文的創(chuàng)新點都是由“提出”這樣的特征詞引導出的,占了統(tǒng)計結果的71.8%,其次經常出現(xiàn)的特征詞分別是“設計”、“研究”、“介紹”等,大約各占3.6%、3.6%和3.2%,這些特征詞出現(xiàn)的頻率和“提出”相比相差甚遠。統(tǒng)計結果還表明論文創(chuàng)新點有特征詞引導的大約占98.4%。統(tǒng)計結果證實了本文2.3.2提出的學術論文的文摘具有(1)問題說明、(2)創(chuàng)新點、(3)結果說明三個組成部分的基本規(guī)律,根據(jù)基本規(guī)律尋找相應特征詞的匹配模式,就是本文的創(chuàng)新點動態(tài)挖掘模式的基礎。

圖2 創(chuàng)新點兩類變量之間的關聯(lián)關系動態(tài)挖掘模板

3.3 科研關注點挖掘算法設計

基于創(chuàng)新點的科研點挖掘方法建立在創(chuàng)新點挖掘模式的基礎上,主要算法思想由三部分組成,如圖3所示。(1)點的搜索與確定,(2)創(chuàng)新點的識別與判定,(3)點的關聯(lián)關系推薦,(4)特征分類與子句提取,(5)語義關系的關聯(lián),(6)點的聚合,(7)報告生成。為了用戶獲取報告的方便性,報告的生成分為三部分:(1)文本格式,(2)表格格式,(3)參考文獻格式。

4 挖掘結果分析

4.1 挖掘結果的輸出格式

(1)挖掘結果的文本輸出格式如表1所示,所舉例子以“大數(shù)據(jù)”為關注點的挖掘結果的一個實例。

圖3 科研關注點挖掘算法流圖

表1 挖掘結果的文本輸出格式

(2)挖掘結果的列表格式輸出如表2所示。列表格式為將來的語義關聯(lián)推理建立了知識發(fā)現(xiàn)的基礎。

(3)挖掘結果的參考文獻輸出格式如表3所示,這里所謂的參考文獻是將挖掘出的關注點的文獻作為文獻來源,便于用戶作為參考文獻使用。

4.2 挖掘結果分析

4.2.1 計算領域的實驗結果分析

(1)實際數(shù)據(jù)庫特征詞統(tǒng)計分析

實驗選取幾個不同領域的用戶關注點,首先對實際數(shù)據(jù)庫中特征詞統(tǒng)計分析,對比檢驗表達創(chuàng)新點的特征詞在不同領域的響應,觀察其使用特征詞的規(guī)律。

表2 挖掘結果列表輸出格式

表3 挖掘結果的參考文獻輸出格式

表4 “云計算”實際數(shù)據(jù)庫特征詞統(tǒng)計結果

實驗關注點:“云計算”,通過標題挖掘,得到實際數(shù)據(jù)庫中文摘數(shù)1936條,總句數(shù)5692條,統(tǒng)計結果如表4所示?!敖y(tǒng)計結果”中關鍵詞即為我們采用的特征詞。

第一,分析表達提出創(chuàng)新點特征句所占總句子的比例:“提出,分析了,給出了,設計了,研究了”這幾個特征詞的句子數(shù)加起來,占總句子數(shù)的28.95%,如果把創(chuàng)新點的邊界范圍擴大,再加入“介紹了”,創(chuàng)新點的特征句與總句子數(shù)的比例達到32.23%。

第二,特征句占總文摘數(shù)的比例:“提出,分析了,給出了,設計了,研究了”這幾個特征詞句出現(xiàn)1648句次,占總文摘數(shù)1936條的85.12%,再加入“介紹了”,則會占總文摘數(shù)的94.93%.

第三,表現(xiàn)解決問題和結論的特征詞比例:“表明,證明,解決,得到,驗證,結論,采用”特征詞,出現(xiàn)的數(shù)量占總句子1936條的19.9%,占總文摘的58.52%。再加入“問題”,則會占總文摘數(shù)的77.1%。

(2)挖掘結果的統(tǒng)計分析

根據(jù)以上方案,若挖掘創(chuàng)新點的特征詞選取為“提出,設計了,研究了,給出了,介紹了,分析了”,得到的創(chuàng)新點1105條,與總文摘數(shù)1936條相比,挖掘率為1105/1936=57%。加入選擇的方面詞“表明,證明,解決,得到,驗證,結論,采用,方法,問題”,得到的創(chuàng)新點454條,占總文摘1936條的23.5%。

4.2.2 醫(yī)學領域挖掘結果的分析

(1)實際數(shù)據(jù)庫特征詞統(tǒng)計分析

實驗關注點:“基因重組”,實際數(shù)據(jù)庫中1489條。

按照“提出,分析了,給出了,設計了,研究了”特征詞和“表明,證明,解決,得到,驗證,結論,采用”方面詞,挖掘結果不理想。我們通過對“基因重組”實際數(shù)據(jù)庫統(tǒng)計分析得出結果如表5所示。

由統(tǒng)計結果可以看出,表達創(chuàng)新點的詞匯發(fā)生了變化,基于統(tǒng)計信息,我們修改挖掘策略。

表5 “基因重組”實際數(shù)據(jù)庫特征詞統(tǒng)計分析結果

(2)挖掘結果的統(tǒng)計分析

修改挖掘策略,第一,特征詞采用“構建,檢測,利用,通過,研究,分析”,方面詞采用“表明,采用,成果,得到,獲得,結果,結論,作用,驗證”。

由“提出方法”得到1249條,占總文摘數(shù)的1249/1489=83.8%,“結果表明”904條,占總文摘數(shù)的904/1489=60.7%。

4.2.3 期刊挖掘結果的分析

(1)實際數(shù)據(jù)庫特征詞統(tǒng)計分析

選擇中國電子學會主辦的高級學術刊物《電子學報》作為期刊論文創(chuàng)新點的統(tǒng)計分析實例?!峨娮訉W報》為中國自然科學核心期刊之一,刊登電子與信息科學及相鄰領域的原始性(Original)科研成果。1962年創(chuàng)刊,現(xiàn)每年來稿2000篇左右,刊登約500篇[11]。我們對《電子學報》的10,533條文摘進行表達創(chuàng)新點特征詞統(tǒng)計分析。統(tǒng)計分三步進行,第一步:對全部文摘進行分詞、詞頻統(tǒng)計、選取詞頻突出的特征詞;第二步:研究特征詞在文摘句中出現(xiàn)的句法結構;第三步:統(tǒng)計詞頻突出的特征詞的句子。表6給出部分統(tǒng)計數(shù)據(jù)。

可以看出,《電子學報》文摘表達創(chuàng)新點的用詞非常有規(guī)律?!峨娮訉W報》文摘10,533條,使用“提出”作為引導創(chuàng)新點的句子達10,024條,占總文摘數(shù)的95.1%,其文摘的平均句子長度為44903/10533=4.23,具有結構完整、層次清楚、信息量大、表達準確的特點。

(2)挖掘結果的統(tǒng)計分析

表6 《電子學報》部分特征詞的統(tǒng)計數(shù)據(jù)

數(shù)據(jù)經過本挖掘軟件處理后,得到10333條文摘。使用“提出,分析,通過,表明,結果,有效,獲得”作為引導創(chuàng)新點的特征詞,挖掘結果:“提出方法”得到9363條,占總文摘數(shù)的/10333=90.6%,“結果表明”7454條,占總文摘數(shù)的/103533=72.1%。

4.3 基于關聯(lián)規(guī)則的關鍵詞推薦

用戶關注點的確定是一個反饋實驗的過程,因此,基于關聯(lián)規(guī)則的關鍵詞推薦對用戶選擇關注點能起到幫助作用。系統(tǒng)以“大數(shù)據(jù)”為例,給出的關聯(lián)規(guī)則推薦的關鍵詞如表7和圖4所示。

表7的最小支持度大于3%,最小置信度大于10%。圖4顯示了關聯(lián)程度高的幾個節(jié)點的分布。

通過對不同領域創(chuàng)新點的挖掘實驗,證明我們建立的創(chuàng)造性學術成果的本體模型對科研關注點挖掘具有一定的指導意義,同時也證明我們提出的碎片化科研點挖掘,具有直接性、客觀性、簡便性。雖然正如我們對“大數(shù)據(jù),云計算,基因重組……”等關注點的各種統(tǒng)計分析、實驗和參數(shù)的調整,結果表明不同領域表達創(chuàng)新點的特征詞不盡相同,但一般文摘寫作格式為問題強調、方法提出、過程說明、結果表明四個層面。而真正的創(chuàng)新點就在于提出新方法和取得的結果。由此,圍繞方法和結果描述的特征詞和方面詞的各種聚類形式的軟件自適應統(tǒng)計分析將是優(yōu)化挖掘效率的關鍵,這方面的實驗我們已在進行。

表7 系統(tǒng)給出“大數(shù)據(jù)”的關聯(lián)規(guī)則推薦的關鍵詞

圖4 關聯(lián)程度高的幾個節(jié)點的分布

5 結語

本文的貢獻在于建立了創(chuàng)造性學術成果創(chuàng)新點的本體模型,該本體模型第一次展示了創(chuàng)造性學術成果的創(chuàng)新點的分布結構和表達方式,為提高創(chuàng)新點的挖掘提供了理論根據(jù)。根據(jù)這一理論基礎建立了科研創(chuàng)新點的知識挖掘系統(tǒng),系統(tǒng)提供了多個模板和模板之間的語義關系,為創(chuàng)新點報告的直接、準確、快速、簡練的生成提供了有效的方式。學術成果創(chuàng)新點的挖掘為非結構化文本的挖掘提供了一種方法,為科研關注點的挖掘服務提供了技術手段,為科技工作者在大數(shù)據(jù)中快速準確地獲得有用知識提供了幫助,同時也為信息檢索向知識挖掘服務開創(chuàng)了一種實驗方法,我衷心希望有更多的人加入探討和實驗。

[1] 溫有奎.基于碎片重組的動態(tài)數(shù)字出版模型研究[J].數(shù)字圖書館論壇,2014,119(4):2-8.

[2] 溫有奎,溫浩,徐端頤,等.基于創(chuàng)新點的知識元挖掘[J].情報學報,2005,24(6):663-668.

[3] 王昕紅,凌永祥.博士學位論文創(chuàng)新性評議書的調查分析[J].高等工程教育研究,2004,24(3):54-56.

[4] 周露陽.論審評學術論文創(chuàng)新因素的指標體系[J].編輯學報,2006,18(1):68-70.

[5] 李如森,彭彩紅,趙福榮.科研成果的創(chuàng)新性在科技論文中的表達[J].大連輕工業(yè)學院學報,2001,20(2):154-156.

[6] 李國杰.SCI不是評價科研成果的唯一標準:由論文數(shù)量高速增長引發(fā)的思考[EB/OL]. [2014-06-12]. http://www.cas.cn/html/Dir/2006/10/24/14/47/81.htm.

[7] 李懷祖.管理學科博士論文撰寫探討[J].學位與研究生教育,2000(3):21-27.

[8] 韓客松,王永成.中文全文標引的主題詞標引和主題概念標引方法[J].情報學報,2001,20(4):212-216.

[9] 李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012,27(6):647-657.

[10] 譚暑生.科學發(fā)現(xiàn)與理論創(chuàng)新成果評價標準[J].發(fā)明與創(chuàng)新綜合科技,2006(1):38-39.

[11] 電子學報[EB/OL]. [2014-03-12]. http://baike.sogou.com/v10747114.htm.

Dynamic Mining of Fragmented Scientific Research Innovation Points

WEN YouKui1, WU GuangYin2
(1. Beijing Wanfang Software Co., Ltd., Beijing 100038, China; 2. Institute of Scientific and Technical Information of China, BeiJing 100038, China)

Innovation fragments excavated from the mass of information in science and technology have become a key issue in large data mining and knowledge services, which remains a problem so far in unstructured knowledge discovery. This paper presents a fragmented innovation dynamic mining method. Through the analysis of the elements and conditions of academic achievement, we establish key variables and semantic relationships of innovative elements in academic achievements, and give an ontology model of innovation in academic achievement. Based on theoretical models, we achieve a dynamic mining system of science and technology research and innovation literature debris. This method is conducive to innovation filtration of massive scientific literature. We also find the association between knowledge of scientific literature, improve the efficiency of knowledge mining literature, and help researchers access dynamic information quickly and easily.

Fragmentation; Innovation; Ontology modeling; Dynamic mining

2014-06-20)

TP311

10.3772/j.issn.1673—2286.2014.07.005

*本研究得到國家科技支撐計劃課題“跨媒體科技文獻數(shù)字資產管理及內容復用關鍵技術研發(fā)與應用示范”(編號:2012BAH90F03)資助。

溫有奎,男,1951年生,管理學博士,教授,北京萬方軟件股份有限公司特聘專家,研究方向:文本挖掘、語義網推理。E-mail:wykui123@126.com。

吳廣印,男,1965年生,中國科學技術信息研究所研究員,研究方向:非結構數(shù)據(jù)庫管理系統(tǒng)和中文信息檢索。

猜你喜歡
特征詞學術論文文摘
學術論文征集啟事
學術論文征集啟事
學術論文征集啟示
學術論文征集啟事
IAPA文摘
基于改進TFIDF算法的郵件分類技術
產品評論文本中特征詞提取及其關聯(lián)模型構建與應用
文摘
寶藏(2017年2期)2017-03-20 13:16:46
面向文本分類的特征詞選取方法研究與改進
關于“方言特征詞”理論的回顧及思考
武陵學刊(2011年5期)2011-03-20 20:59:04
鄂托克旗| 上犹县| 唐海县| 响水县| 宁蒗| 佛山市| 二连浩特市| 大石桥市| 庆阳市| 响水县| 全州县| 赤峰市| 岳阳县| 永福县| 申扎县| 察哈| 永吉县| 通河县| 桦甸市| 辽宁省| 花莲县| 千阳县| 揭阳市| 永春县| 二连浩特市| 轮台县| 潼关县| 阿城市| 广水市| 五家渠市| 新丰县| 手游| 长丰县| 洱源县| 清水河县| 临高县| 田阳县| 璧山县| 云浮市| 含山县| 玉环县|