国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自動標(biāo)引技術(shù)的回顧與展望

2009-07-13 09:41
現(xiàn)代情報 2009年4期

張 靜

〔摘 要〕本文論述了在目前全文檢索廣泛應(yīng)用的背景下,自動標(biāo)引的重要性;把近五十年發(fā)展起來的自動標(biāo)引技術(shù)按照采用的理論依據(jù),分為統(tǒng)計分析方法、語言分析方法、人工智能法和混合方法,并闡述了每類自動標(biāo)引技術(shù)的特征及其優(yōu)劣勢;最后,總結(jié)分析了現(xiàn)有自動標(biāo)引技術(shù)的不足,并對其發(fā)展前景做出展望。

〔關(guān)鍵詞〕自動標(biāo)引;統(tǒng)計分析方法;語言分析方法;人工智能法;混合方法

〔中圖分類號〕G252 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2009)04-0221-05

Review and Prospect of Automatic IndexingZhang Jing1,2

(1.National Science Library,Chinese Academy of Sciences,Beijing 100190,China;

2.Graduate University of Chinese Academy of Sciences,Beijing 100190,China)

〔Abstract〕Firstly this paper explained why automatic indexing was also important when full text search was widely used.Then it classified automatic indexing as statistical analysis,language analysis,artificial intelligence and mixed approaches.The advantages and disadvantages of each approach were described.At last,the limitations of the existing automatic indexing were summarized,and the future research topics and applications were discussed.

〔Key words〕automatic indexing;statistical analysis;language analysis;artificial intelligence;mixed approaches

隨著互聯(lián)網(wǎng)的發(fā)展,人們生成、獲取信息的速度大大加快。面對海量的信息,人工標(biāo)引效率偏低,也不能滿足數(shù)據(jù)一致性的要求,自動標(biāo)引技術(shù)隨之發(fā)展起來。

自動標(biāo)引(Automatic indexing)是指利用計算機(jī)系統(tǒng)從擬存儲、檢索的事實情報或文獻(xiàn)(題目、文摘、正文)中抽取檢索標(biāo)志的過程[1]。1957年,美國人盧恩(H.P.Luhn)提出了基于詞頻統(tǒng)計的抽詞標(biāo)引法,由此開始了自動標(biāo)引的探索。從60年代后期到70年代末,自動標(biāo)引研究取得了很大進(jìn)展,提出了概率統(tǒng)計標(biāo)引法和各種加權(quán)模型等。80年代以來,研究人員開始從語言學(xué)角度研究標(biāo)引技術(shù)。近年來,自動標(biāo)引技術(shù)開始向人工智能方向發(fā)展。

1 全文檢索時代自動標(biāo)引的重要性

現(xiàn)在人們已經(jīng)可以實現(xiàn)全文檢索,但這并不意味著標(biāo)引的重要性降低了。與之相反,面對海量信息的檢索與挖掘,標(biāo)引反而顯得愈發(fā)重要:

1.1 標(biāo)引是信息過濾的必要方法

無論是電子環(huán)境還是印本環(huán)境,信息過濾都是非常必要的。尤其在充斥著大量信息的網(wǎng)絡(luò)環(huán)境下,對不同的信息價值進(jìn)行過濾與甄別是必然的,而標(biāo)引正是信息過濾的必要組成部分[2]。

1.2 標(biāo)引是對信息的精煉與提升,對信息本身有智能貢獻(xiàn)雖然Odlyzko在幾年前表示,圖書館和學(xué)術(shù)期刊至少在傳統(tǒng)模式上會過時[3],但他卻認(rèn)為標(biāo)引的前途是光明的。他表示,標(biāo)引能夠為信息提供重要智能貢獻(xiàn),而這種貢獻(xiàn)的成本并不高[3]。

1.3 標(biāo)引可以使檢索更有效率,更為準(zhǔn)確

Jacsó表示,全文數(shù)據(jù)庫通過文摘可以獲得更有效的使用[4]。顯而易見,瀏覽檢索列表的關(guān)鍵詞與文摘能更快的選出需要的文章。其次,檢索關(guān)鍵詞與文摘比檢索海量全文的結(jié)果更準(zhǔn)確,也更有效率,能更大程度的節(jié)省用戶獲取有用信息的所用的時間。

總之,人目前的全文檢索效率與質(zhì)量并不能很好的滿足人們準(zhǔn)確檢索的需求,關(guān)鍵詞自動標(biāo)引技術(shù)成為了必然的發(fā)展趨勢。

2 自動標(biāo)引技術(shù)的分類及其優(yōu)劣勢

2.1 自動標(biāo)引技術(shù)的分類

按照標(biāo)引詞的來源,自動標(biāo)引可以分為自動抽詞標(biāo)引和自動賦詞標(biāo)引。自動抽詞標(biāo)引即由計算機(jī)自動從文本中抽取詞或短語來表達(dá)信息資源的主題內(nèi)容。自動賦詞標(biāo)引就是從某種形式的受控詞表中選取詞語來表達(dá)文獻(xiàn)資源的主題內(nèi)容。自動抽詞標(biāo)引的標(biāo)引詞來自文獻(xiàn)資源本身;而自動賦詞標(biāo)引已經(jīng)超出了單純自然語言的范圍,是自然語言與受控語言的結(jié)合。目前絕大部分的自動標(biāo)引方法都是基于抽詞思想的。

按照標(biāo)引技術(shù)采用的理論依據(jù)來看,自動標(biāo)引可以分為統(tǒng)計分析方法、語言分析方法、人工智能法和混合方法。

2.1.1 統(tǒng)計分析方法

統(tǒng)計分析方法的基本原理在于術(shù)語具有一些顯著的統(tǒng)計特征,如共現(xiàn)、逆文檔詞頻、熵、互信息等[5]。統(tǒng)計分析方法是目前應(yīng)用最多的標(biāo)引方法。在這類方法中,可以分為一般統(tǒng)計法、加權(quán)統(tǒng)計法和分類判別統(tǒng)計法。

(1)一般統(tǒng)計法是指通過對文獻(xiàn)中詞的出現(xiàn)頻率、共現(xiàn)頻率等統(tǒng)計指標(biāo)進(jìn)行統(tǒng)計排序,找出處于臨界域(Critical Region)內(nèi)、能真正表達(dá)文獻(xiàn)主題內(nèi)容的詞,再根據(jù)情況選取適當(dāng)數(shù)量的詞作為標(biāo)引詞。

(2)加權(quán)統(tǒng)計法是在一般統(tǒng)計法的基礎(chǔ)上引入了加權(quán)的概念,以獲得更理想的標(biāo)引結(jié)果。換言之,人們不僅觀察詞在文獻(xiàn)的標(biāo)題、文摘或全文中出現(xiàn)的統(tǒng)計信息,而且考慮詞在文獻(xiàn)中出現(xiàn)的位置或含有該詞的文獻(xiàn)的長短等因素。加權(quán)統(tǒng)計法根據(jù)不同的加權(quán)辦法又可派生出不同的處理方法。

(3)概率統(tǒng)計法的原理有二:第一,標(biāo)引詞在文獻(xiàn)中的出現(xiàn)頻數(shù)的概率有規(guī)律可循;第二,標(biāo)引詞是否反映文獻(xiàn)主題內(nèi)容在檢索中可以通過概率表示。概率統(tǒng)計法通過分析整體文獻(xiàn)各類詞的概率分布,找到能表達(dá)主題內(nèi)容的標(biāo)引詞的概率分布狀況,從而判定標(biāo)引詞。概率統(tǒng)計法根據(jù)概率統(tǒng)計模型的不同可以派生出不同的處理方法。

(4)分類判別統(tǒng)計法的主要特點是以詞的頻數(shù)或權(quán)值為基點,然后利用統(tǒng)計學(xué)中的數(shù)值分類法(如聚類分析(Cluster Analysis)、因子分析(Factor Analysis),多維排列(Multidimensional Scaling))或判別分析法(Discriminate Analysis)確定詞在含義上的相近和疏遠(yuǎn)關(guān)系,同時也從統(tǒng)計的角度解決近義詞、同形異義詞、異形同義詞等問題。這類方法在自動賦詞標(biāo)引中用得較多,在對標(biāo)引文獻(xiàn)進(jìn)行語義分析時也有所應(yīng)用[6]。Stokolov在美國生物科學(xué)情報服務(wù)處(BIOSIS)采用分類統(tǒng)計法進(jìn)行了自動賦詞標(biāo)引試驗,發(fā)現(xiàn)自動標(biāo)引與手工標(biāo)引之結(jié)果的吻合程度可達(dá)80%~90%[7]。

統(tǒng)計方法不依賴標(biāo)引詞的領(lǐng)域特征,能夠比較方便地在不同領(lǐng)域使用。但其忽略的詞語的語義信息,主要關(guān)注多詞關(guān)鍵詞,容易忽略有意義的單詞關(guān)鍵詞,標(biāo)引效果不是太好[8]。

2.1.2 語言分析方法

標(biāo)引的對象是由自然語言構(gòu)成的文獻(xiàn),人們便從語言學(xué)的角度去探索自動標(biāo)引的方法。語言分析標(biāo)引法是對被標(biāo)引的對象從詞、句、語義、篇章等層次進(jìn)行語法分析,從而達(dá)到標(biāo)引的目的。語言分析法可以分為詞法分析(Lexical Analysis)、句法分析(Syntactical Analysis)、語義分析(Semantic Analysis)和篇章分析(Text Analysis)。

(1)詞法分析主要是詞性標(biāo)注和獲得詞匯的詳細(xì)特征,對中文來說,還包括詞匯切分的工作[9]。詞法分析的主要任務(wù)是把接收到的自然語言進(jìn)行切分,并為每個切分的詞加上詞性標(biāo)記。為了能夠達(dá)到快速準(zhǔn)確的自動分詞和詞性標(biāo)注,在詞法分析各環(huán)節(jié)中還要考慮以下問題:切分歧義的消除、未登錄詞的識別以及兼類詞性的消除。

(2)句法分析是從語法角度上確定句子中每個詞的作用(如主語還是謂語)和詞之間的相互關(guān)系(如是修飾還是被修飾)而實現(xiàn)的[6]。句法分析一般通過與事先準(zhǔn)備好的解析規(guī)則或語法相比較而實現(xiàn)。經(jīng)驗證明,這一自動標(biāo)引方法從整體上講效果欠佳。另外,句法分析本身很難消除詞義的模糊性。為此,Salton指出,所有的句法分析必須輔以語義分析,才能保證標(biāo)引效果的準(zhǔn)確性[10]。

(3)語義分析是分析詞在特定的上下文中的確切含義。和句法分析相比,語義分析在自動標(biāo)引的使用范圍和效果都強(qiáng)于前者。學(xué)術(shù)界對從語言學(xué)角度研究自動標(biāo)引的做法頗有爭議,反對者的主要理由包括:語法太復(fù)雜、使用限制多;語言學(xué)領(lǐng)域的研究成果對促進(jìn)自動發(fā)展幫助甚微。

(4)篇章分析是通過計算機(jī)找出篇章中內(nèi)容相關(guān)的片斷(詞、句、句群、段、篇等)并在它們之間建立各種索引,如超媒體和超文本結(jié)構(gòu)中鏈接索引,以便用戶能快速檢索出所需要的內(nèi)容,或者跳段瀏覽最感興趣的部分[11]。目前篇章分析已有許多理論和方法,如框架(Frame)理論、基于規(guī)劃的方法等。

總的來說,目前的語言分析法對設(shè)定的關(guān)鍵詞構(gòu)成模式依賴較大,識別效率有限,在詞間關(guān)系的識別上尚欠缺有力試驗的驗證。

2.1.3 人工智能法

人工智能(Artificial Intelligence,AI)是計算機(jī)科學(xué)的一個分支,它專門研究怎樣用機(jī)器理解和模擬人類特有的智能系統(tǒng)的活動,探索人們?nèi)绾芜\用已有的知識、經(jīng)驗和技能去解決問題。實現(xiàn)自動標(biāo)引的目的是讓機(jī)器從事標(biāo)引工作中的腦力勞動,即讓計算機(jī)模擬標(biāo)引員完成標(biāo)引文獻(xiàn)的工作[12],因此,人們把人工智能法運用于自動標(biāo)引研究既順應(yīng)自然,又帶來新的活力。有不少人認(rèn)為,人工智能法代表著自動標(biāo)引研究的未來。機(jī)器學(xué)習(xí)法可以分為一般機(jī)器學(xué)習(xí)法、集成學(xué)習(xí)法和專家系統(tǒng)。

(1)一般機(jī)器學(xué)習(xí)法采用數(shù)值建模的方法,通過對訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練獲得參數(shù),從而進(jìn)行自動標(biāo)引。

(2)如果將Madaline理解為多個線性分類器,則這個模型應(yīng)該是集成機(jī)器學(xué)習(xí)最早的雛形了。因此,集成學(xué)習(xí)法要構(gòu)建多分類器,來進(jìn)行自動標(biāo)引。

(3)專家系統(tǒng)是人工智能法應(yīng)用于自動標(biāo)引的具體體現(xiàn)。專家系統(tǒng)標(biāo)引法是讓一個智能計算機(jī)程序系統(tǒng),內(nèi)部含有大量標(biāo)引專家水平的知識與經(jīng)驗,能夠利用標(biāo)引員的知識和解決問題的方法來進(jìn)行標(biāo)引。也就是說,專家系統(tǒng)是一個具有大量的標(biāo)引專門知識與經(jīng)驗的程序系統(tǒng),它應(yīng)用人工智能技術(shù)和計算機(jī)技術(shù),根據(jù)標(biāo)引專家提供的知識和經(jīng)驗,進(jìn)行推理和判斷,模擬人類標(biāo)引員的決策過程,以進(jìn)行標(biāo)引。

人工智能法進(jìn)行標(biāo)引的效果取決于人工智能研究自身進(jìn)展。人工智能法實施的前提都是要建立數(shù)據(jù)量足夠大的訓(xùn)練庫或知識庫,其效果的提升有賴于于機(jī)器學(xué)習(xí)的能力與速度的提高。盡管人工智能法進(jìn)行自動標(biāo)引比其他方法要困難,但它能從標(biāo)引員的角度去了解標(biāo)引過程,模擬標(biāo)引員的行為??梢灶A(yù)見,隨著技術(shù)的進(jìn)步,人工智能標(biāo)引法會有長足的發(fā)展空間。

2.1.4 混合方法

上述方法各有缺陷,因此可以將上述幾種方法根據(jù)情況混合使用,或加入啟發(fā)式知識使用。可以先利用統(tǒng)計分析方法獲取初步標(biāo)引結(jié)果,再基于語言分析方法利于語法過濾器處理統(tǒng)計分析結(jié)果;也可以先用語言分析方法處理文本獲取候選標(biāo)引詞,再利用統(tǒng)計模型確定標(biāo)引詞。同時,各種抽詞算法也越來越多地采用人工智能的方式,來加強(qiáng)語義理解,提高標(biāo)引效果。

2.2 各類自動標(biāo)引技術(shù)的優(yōu)劣勢

下表描述了以上各種標(biāo)引方法的代表方法及其優(yōu)劣勢:

3 自動標(biāo)引技術(shù)存在問題與展望

3.1 自動標(biāo)引技術(shù)存在問題

信息標(biāo)引(Indexing),是根據(jù)文獻(xiàn)的特征,賦予文獻(xiàn)檢索標(biāo)識的過程,包括兩個主要環(huán)節(jié):一是主題分析,即在了解和確定文獻(xiàn)的內(nèi)容特征及某些外部特征的基礎(chǔ)上,提煉出主題概念;二是轉(zhuǎn)換標(biāo)識,即用專門的檢索語言(標(biāo)引語言)中的標(biāo)識表達(dá)主題概念[32]。

主題分析階段,自動標(biāo)引技術(shù)需要解決的難點就在于采用怎樣的過程能讓計算機(jī)形成一種類專家的主題判斷過程。理想的自動標(biāo)引技術(shù)主題分析階段應(yīng)該能夠形成類人的思維過程,同時也需要吸收專家判斷的經(jīng)驗,才能達(dá)到專家標(biāo)引的深度與廣度。目前自動標(biāo)引技術(shù)存在的問題有:

(1)分詞算法存在缺陷。找出各意義單元,是進(jìn)行思考和標(biāo)引判斷的第一步,而漢語的分詞問題一直存在,到目前為止各種分詞算法對歧義切分都還設(shè)有好的解決方法。這就導(dǎo)致進(jìn)行自動標(biāo)引基礎(chǔ)存在問題。

(2)分類主題詞表跟不上科學(xué)的發(fā)展?,F(xiàn)代社會各學(xué)科發(fā)展異常迅猛,分支學(xué)科、邊緣學(xué)科不斷涌現(xiàn)。詞表的編制總是落后于科學(xué)的發(fā)展。使得基于詞典的切分算法總會有一些新詞切分不出,也極大的影響了基于詞表進(jìn)行語詞控制的自動標(biāo)引系統(tǒng)的準(zhǔn)確性。

(3)語義分析應(yīng)用范圍狹窄。人工標(biāo)引的重要主題判斷過程是對各意義單元進(jìn)行語義判別,目前的計算機(jī)語義分析應(yīng)用范圍多局限于結(jié)構(gòu)化文檔,對自由文檔的分析準(zhǔn)確程度偏低,不足以支撐廣泛的語義判別。

(4)知識庫規(guī)模不夠。人工智能技術(shù)是將專家經(jīng)驗融入標(biāo)引過程的重要技術(shù),但目前尚未能從根本上解決知識學(xué)習(xí)的問題,知識庫更新慢,跟不上學(xué)科的發(fā)展。經(jīng)驗證明,開發(fā)一個適用的專家系統(tǒng)至少需5人/年[33]。而目前的自動標(biāo)引專家系統(tǒng)與這個要求尚有距離。

(5)標(biāo)引結(jié)果評價。人工標(biāo)引結(jié)束都會有一個判別、修正的過程,自動標(biāo)引同樣需要進(jìn)行相應(yīng)的評價。傳統(tǒng)的自動標(biāo)引評價是對照人工標(biāo)引結(jié)果判別或者由專家打分,這種方法主觀性大,一致性程度較差,成本也比較高。因此,構(gòu)建一個自動標(biāo)引的通用評價模型,以減少自動標(biāo)引的主觀性,節(jié)省評價成本,是一項有意義的工作。

而轉(zhuǎn)換標(biāo)識階段,只要轉(zhuǎn)換規(guī)則設(shè)定足夠細(xì)致,自動標(biāo)引的標(biāo)識轉(zhuǎn)換就能非常精準(zhǔn)。因此,此階段的主要問題與難點在轉(zhuǎn)換規(guī)則的設(shè)定上。

另外,自動標(biāo)引技術(shù)作為一種計算機(jī)的實際應(yīng)用,其應(yīng)用效果同樣受到程序本身的制約。各系統(tǒng)的研制者由于其個人知識、技術(shù)水平的限制,缺少合作,不能做到集思廣益,使得自動標(biāo)引系統(tǒng)局限性大,低水平重復(fù)現(xiàn)象比較普遍。

3.2 自動標(biāo)引技術(shù)展望

從上面的敘述可以看出,理想的自動標(biāo)引系統(tǒng)能夠形成類人的思維過程,同時也需要吸收專家判斷的經(jīng)驗。因此,自動標(biāo)引技術(shù)的發(fā)展方向必然是向著語言分析和專家系統(tǒng)的方向發(fā)展。另外,多種方法集成學(xué)習(xí),也將是今后自動標(biāo)引技術(shù)發(fā)展的方向。

(1)語言分析。這方面的研究可以解決3.1描述的前3個問題,在目前的計算機(jī)技術(shù)條件下,要把理解自然語言所需的“數(shù)量”眾多、同時在“度”的方面具有高度不確定性和模糊性的知識都用規(guī)則形式表達(dá)出來是不可能的。這也是語言分析只能在受限的領(lǐng)域獲得成功的原因。但是毋庸置疑,語言分析是取得良好標(biāo)引效果的必要條件,也是人工智能發(fā)展的必然階段。因此,尋求更加理想的語言分析方案,是今后自動標(biāo)引研究的趨勢之一。

(2)專家系統(tǒng)。完全不用或少用人工參與的自動標(biāo)引系統(tǒng)必然要能借鑒專家經(jīng)驗,而專家系統(tǒng)將是解決3.1第4個問題,并提高標(biāo)引準(zhǔn)確率與全面程度的解決方案。如何提高專家系統(tǒng)的學(xué)習(xí)能力,如何集成多學(xué)科專家系統(tǒng)都將是今后自動標(biāo)引研究的趨勢之一。

(3)多種標(biāo)引方法的集成學(xué)習(xí)。利弊總是相對的,因此各標(biāo)引方法也總會存在其優(yōu)劣勢,將多種標(biāo)引方法集成,進(jìn)行互補(bǔ)的集成學(xué)習(xí),將是提高標(biāo)引質(zhì)量的重要手段。目前還沒有一種方法能完全能模擬并達(dá)到標(biāo)引員的標(biāo)引能力。多種模型或方法的集成,能在一定程度上提高自動標(biāo)引的質(zhì)量。而如何進(jìn)行這種集成學(xué)習(xí),很好的將各種標(biāo)引方法的優(yōu)劣勢進(jìn)行互補(bǔ),將是今后自動標(biāo)引研究的重要趨勢之一。

4 結(jié) 語

總的來說,隨著網(wǎng)絡(luò)的發(fā)展,信息的無序狀態(tài)加劇,信息量成幾何級數(shù)增長,這都使得自動標(biāo)引不僅是圖書情報業(yè)需要,而是成為了一種廣泛而迫切的社會需求。計算機(jī)及信息技術(shù)的發(fā)展及應(yīng)用,將為自動標(biāo)引技術(shù)的研究帶來更大的變化,最終方便用戶,減少用戶獲取有用信息的時間和精力。

目前,雖然自動標(biāo)引技術(shù)多種多樣,但由于技術(shù)的限制,小規(guī)模試驗的效果較好,大規(guī)模應(yīng)用的標(biāo)引質(zhì)量還是不高,標(biāo)引過程中也少不了人的參與。正如Lancaster和Warner所說,自動標(biāo)引技術(shù)距離完全實際應(yīng)用仍有很長的距離,只有機(jī)器具有足夠智能,才能完全替代人類完成這項重要工作[34]。

參考文獻(xiàn)

[1]自動標(biāo)引[EB/OL].http:∥baike.baidu.com/view/853543.htm,2008-09-12.

[2]F.W.Lancaster.Do Indexing and Abstracting have a Future?[J].Anales de Documentación,2003,(6):137-144.

[3]Odlyzko,A.M.Tragic loss or good riddance?The impending demise of traditional schol-arly journals.International Journal of Human-Computer Studies,1995,42:71-122.

[4]Jacsó,P.Document-summarization software.Information Today,2002,19(2):22-23.

[5]Buitelaar P,Cimiano P,Grobelnik M.Ontology Learning from Text[C].In:the ECMI/PKDD 2005 Workshop on:Knowledge Discovery and Ontologies,Porto,Protugal,2005.

[6]儲荷婷.索引工作自動化:自動標(biāo)引的主要方法[J].情報學(xué)報,1993,(3):218-229.

[7]Vledutz-Stokolov,N.Concept Recognition in an Automatic Text Processing System for the Life Science[J].Journal of the American Society for Information Science,1987,(4):269-297.

[8]Alegia I,Arregi O,Balza I.Linguistic and Statistical Approsches to Basque Term Extraction[EB/OL].http:∥ixa.is.ehu.es,2008-05-13.

[9]耿騫,毛瑞.漢語自然語言檢索中的詞法分析處理[J].情報科學(xué),2004,(4):466-469.

[10]Salton,G.Automatic Text Proceesing:the Transformation,Analysis,and Retrieval of Information by Computer,Reading,MA,Addison-Wisley,1989:281-284.

[11]劉平蘭.數(shù)字圖書館中基于關(guān)系圖的篇章分析方法研究[J].情報雜志,2003,(12):88-92.

[12]顧敏,史麗萍,李春玲.自動標(biāo)引綜述[J].黑龍江水專學(xué)報,2000,(3):103-104.

[13]Luhn H P.A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J].IBM Journal of Research and Development,1957,(4):309-317.

[14]馬穎華,王永成,蘇貴洋,等.一種基于字同現(xiàn)頻率的漢語文本主題抽取方法[J].計算機(jī)研究與發(fā)展,2004,40(6):874-878.

[15]Chien L F.PAT-tree—based Keyword Extraction for Chinese Information Retrieval[A].In:Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR1997)[C].Philadelphia,PA,USA.1997:50-59.

[16]Edmundson H P,Oswald V A.Automatic Indexing and Abstracting of the Contents of Documents[R].Planning Research Corp,Document PRC R-126,ASTIA AD No.231606,Los Angeles,1959:1-142.

[17]Edmundson H P.New Methods in Automatic Abstracting Extracting[J].Journal of the Association for Computing Machinery,1969,16(2):264-285.

[18]Maron M E,Kuhns J L.On Relevance,Probabilistic Indexing and Information Retrieval[J].Journal of the Association for Computer Machinery,1960,7(3):216-244.

[19]A.Bookstein,D.Swanson.Probabilistic models for automatic indexing[J].Journal of the American Society for Information science,1974,25(5):312-318.

[20]韓客松,王永成.中文全文標(biāo)引的主題詞標(biāo)引和主題概念標(biāo)引方法[J].情報學(xué)報,2001,20(2):212-216.

[21]Hulth A.Improved Automatic Keyword Extraction Given More Linguistic Knowledge[A].In:Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing[C].Sapporo,Japan,2003:216-223.

[22]索紅光,劉玉樹,曹淑英.一種基于詞匯鏈的關(guān)鍵詞抽取方法[J].中文信息學(xué)報,2006,20(6):25-30.

[23]Salton G,Buckley C.Automatic Text Structuring and Retrieval—Experiments in Automatic Encyclopedia Searching[A].In:Proceedings of the Fourteenth SIGIR Conference[C].New York:ACM,1991:21-30.

[24]Frank E,Paynter G W,Witten I H.Domain——Specific Keyphrase Extraction[A].In:Proceedings of the 16th International Joint Conference on Artificial Intelligence[C].Stockholm,Sweden,Morgan Kaufmann,1999:668-673.

[25]李素建,王厚峰,俞士汶,等.關(guān)鍵瀏自動標(biāo)引的最大熵模型應(yīng)用研究[J].計算機(jī)學(xué)報,2004,27(9):1192-1197.

[26]hang K,Xu H,Tang J,et al.Keyword Extraction Using Support Vector Machine[A].In:Proceedings of the Seventh International Conference on Web—Age Information Management(WAIM2006)[C].Hong Kong,China,2006:85-96.

[27]Tumey P D.Learning to Extract Keyphrases from Text[R].NRC Technical Report ERB—1057,National Research Council,Canada,1999:1-43.

[28]Witten I H,Paynter G W,F(xiàn)rank E,et al.KEA:Practical Automatic Keyphrase Extraction[A].In:Proceedings of the 4th ACM Conference on Digital Library(DL99)[C].Berkeley,CA,SA,1999.

[29]Humphrey,S.M.MedlndEx System:Medical Indexing Expert System[J].Information Processing and Management,1986,(1):73-88.

[30]Driscoll,J.R.,et al.The Operation and Performance of an Artificially Intelligent Keywording System[J].Information Processing and Management,1991,(1):43-54.

[31]Lois L E.Experiments in Automatic Indexing and Extracting[J].Information Storage and Retrieval,1970,(6):313-334.

[32]葉鷹,潘有能,潘衛(wèi).情報學(xué)基礎(chǔ)教程[M].北京:科學(xué)出版社,2006:127-131.

[33]陸汝鈐.專家系統(tǒng)開發(fā)環(huán)境[M].北京:科學(xué)出版社,1994.

[34]Lancaster,F(xiàn).W.and Warner A.Intelligent Technologies in Library and Information Ser-vice Applications.Medford,NJ,Information Today,2001.

崇仁县| 岑溪市| 眉山市| 云南省| 丹江口市| 中阳县| 霍城县| 吉首市| 桃园市| 巴林左旗| 郴州市| 勐海县| 玉溪市| 嵩明县| 澎湖县| 花莲县| 区。| 林西县| 邯郸市| 手游| 秀山| 罗甸县| 百色市| 延寿县| 安庆市| 晋城| 马龙县| 长丰县| 玛纳斯县| 富锦市| 彰化县| 来凤县| 合水县| 济南市| 永德县| 南投县| 大同县| 逊克县| 晋城| 秀山| 红河县|