国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

醫(yī)學(xué)白色文獻知識元標(biāo)引實踐探討

2015-04-15 15:26:38張曾昱東北電力大學(xué)信息工程學(xué)院吉林吉林132001吉林醫(yī)藥學(xué)院吉林吉林132013
關(guān)鍵詞:標(biāo)引分詞吉林

張曾昱(1.東北電力大學(xué)信息工程學(xué)院,吉林 吉林 132001;2.吉林醫(yī)藥學(xué)院,吉林吉林 132013)

醫(yī)學(xué)白色文獻知識元標(biāo)引實踐探討

張曾昱1,2(1.東北電力大學(xué)信息工程學(xué)院,吉林 吉林 132001;2.吉林醫(yī)藥學(xué)院,吉林吉林 132013)

醫(yī)學(xué)白色文獻;知識元

醫(yī)學(xué)文獻資源根據(jù)信息來源的不同,可分為黑色、灰色和白色文獻三種。醫(yī)學(xué)白色文獻指經(jīng)過正式出版的、并在社會中公開流通的文獻,包括圖書、報紙、期刊等;灰色文獻尚屬于一種新型信息源,指非公開出版的文獻,包括非公開出版的政府文獻、學(xué)位論文、會議文獻、科技報告、技術(shù)檔案、內(nèi)部刊物、交換資料、試驗數(shù)據(jù)等;黑色文獻是指非公開出版發(fā)行或者發(fā)行范圍狹窄、內(nèi)容保密的文獻[1-3]。其中醫(yī)學(xué)白色文獻的內(nèi)容價值和影響力最為巨大,是醫(yī)務(wù)工作者最經(jīng)常使用的文獻種類,本文對此加以論述。

1 知識元標(biāo)引的目的

醫(yī)學(xué)文獻知識的組織方法與文獻載體是同步發(fā)展的,如紙質(zhì)文獻常用的知識組織方式為目錄組織。在電子文獻時代,知識的組織方式更為智能,目前主流的知識組織方式為信息元組織,如關(guān)鍵詞、作者、出版機構(gòu)、題名和摘要等均屬于信息元的組織方式。下一代的信息組織方式為知識元組織。所謂知識元,是指不可再分割的具有完備知識表達的知識單位,兩者比較,知識元組織方式具有劃時代的意義。首先知識元是顯性知識的最小可控單位,如一篇文章通過關(guān)鍵詞、作者等信息只能表現(xiàn)出該文章某一個方面,顯然不能代表文章的全部。與之比較,信息元能夠挖掘出文章更多有價值的信息;另外,知識元是具有一定結(jié)構(gòu)的,通過對知識元結(jié)構(gòu)人工或自動分析,可以導(dǎo)致知識價值的增值,甚至是催生新的知識,可見醫(yī)學(xué)文獻的知識元組織是目前最佳的知識方式,而對醫(yī)學(xué)文獻知識元的提取和標(biāo)引,是實現(xiàn)知識元組織的基礎(chǔ)和前提。

2 知識元標(biāo)引的實現(xiàn)過程

2.1 醫(yī)學(xué)白色文獻資源的分詞

中文文獻在正常情況下文獻的邏輯意義由句子表示,分詞的目的就是將以句為單位轉(zhuǎn)化為以詞為單位,縮小文獻的知識組織粒度,便于對文獻內(nèi)容進行深入的數(shù)據(jù)挖掘。目前常用的分詞算法主要包括基于理解的分詞方法、基于詞頻統(tǒng)計的分詞方法和基于字符串匹配的分詞方法三種,作者選擇字符串匹配算法實現(xiàn)醫(yī)學(xué)白色文獻的分詞,其原因在于:一方面醫(yī)學(xué)白色文獻的種類和數(shù)量非常龐大,字符串匹配算法是首選的分詞方法。另一方面從專業(yè)字典構(gòu)建的難易程度分析,白色文獻從編寫至文獻出版單位的審核、發(fā)表均經(jīng)過作者和編審仔細的閱讀和修改過程,基本保證了用詞規(guī)范和準(zhǔn)確,這極大降低了專業(yè)字典的構(gòu)建難度。

2.2 提取關(guān)鍵詞的目的

分詞后,由詞語直接作為文獻組織的基本單位仍然不是十分理想,主要缺陷為文獻組織粒度過于細小,如一篇1萬字的醫(yī)學(xué)白色文獻,可能劃分為三千個詞語,若100萬篇這樣的文獻,將會出現(xiàn)30億個詞,再由此產(chǎn)生的知識鏈接數(shù)量是不可想象的;最主要的是并不是每一個詞語均能表述文獻表述的重點,相應(yīng)的也就沒知識鏈接的價值和意義。因此需要從已有的分詞中找出關(guān)鍵詞,濃縮文獻有價值的信息。

2.3 向量空間模型

向量空間模型(Vector Space Mode,VSM)是于20世紀70年代由Salton等人提出的一種模型,是文獻資源的另一種表示方法,并成功地應(yīng)用于著名的SMART文本檢索系統(tǒng)[4]。VSM能夠?qū)⑽墨I內(nèi)容進行處理,簡化為向量空間中的向量運算。并且它以空間上的相似度表達語義的相似度,直觀易懂。VSM模型由以下幾部分組成,分別為:一、文檔。文檔就是文獻內(nèi)容的本身,如本論文就是一個文檔。二、特征項。特征項是表示文檔的語言單位,如上文的研究過程,將以句子作為醫(yī)學(xué)白色文獻的基本單位調(diào)整為詞語,每一個詞語就是一個特征項。三、特征項權(quán)重。特征權(quán)重項標(biāo)識特征項的重要程度,用來在眾多的特征項中,找到有價值有意義的特征項。實質(zhì)上就是從詞語中提取關(guān)鍵詞的過程。

特征項權(quán)重的計算方法。特征項權(quán)重的主要的計算方法包括布爾權(quán)重、特征頻率和TFIDF等幾種。其中布爾權(quán)重和TF權(quán)重計算機方法具有一定的局限性,如僅考慮了特征項在文檔出現(xiàn)的情況;TFIDF算法要優(yōu)于前兩者,卻忽略了詞語在文中位置所提供的參考價值,如不同的詞語出現(xiàn)在標(biāo)題、關(guān)鍵詞和正文等處,所內(nèi)涵的價值信息是不等的,因此對TFIDF算法進行修改,即在傳統(tǒng)TFIDF算法的基礎(chǔ)上,增加了詞語的位置權(quán)值系統(tǒng)K值[5-6],若同一詞語出現(xiàn)在多個位置上,按最大值計算。

2.4 知識元標(biāo)引

提取關(guān)鍵詞后,接下的工作就是將關(guān)鍵詞還原回文獻中所在的句子中,然后對句子進行特征分析,如判斷句子是否完整等等,得到句子即為關(guān)鍵句,至此實質(zhì)上意味著知識元提取的步驟已經(jīng)完成,知識元就包括在關(guān)鍵句中。最后按著知識元的結(jié)構(gòu)對關(guān)鍵句進行描述就完成了整個知識元標(biāo)引的過程。

3 未來的工作展望

知識元標(biāo)引完成后,實現(xiàn)了醫(yī)學(xué)白色文獻的知識元層面組織,降低了知識組織的粒度,但這并不是知識元標(biāo)引的終點,如以CNKI數(shù)據(jù)庫為例,筆者以HBV為檢索詞進行主題檢索,總計得到47 517個結(jié)果,若在知識元的組織情況下進行知識元檢索,必將得到更多的結(jié)果,醫(yī)護人員在海量的信息面前更將無從下手。因此在未來的工作中,設(shè)計合理醫(yī)學(xué)白色文獻知識元描述框架和知識元鏈接框架,為醫(yī)護人員信息的檢索和獲取提供便捷。

[1]梅玲.公共圖書館灰色文獻收集實踐與思考——以貴州省圖書館為例[J].圖書館學(xué)研究,2014(3):33-35.

[2]楊國華.灰色文獻的探索與研究[J].河南圖書館學(xué)刊,2002,22(4):6-8.

[3]楊振力,趙躍亮.灰色文獻數(shù)字化建設(shè)思考[J].四川圖書館學(xué)報,2012(1):44-47.

[4]曲立平.基于向量空間模型的方面挖掘方法研究[D].哈爾濱:哈爾濱工程大學(xué),2013.

[5]付蕾.知識元標(biāo)引系統(tǒng)的設(shè)計與實現(xiàn)[D].上海:華中師范大學(xué),2009.

[6]王春利.護理學(xué)理論和實踐知識的組織與映射研究[J].中國農(nóng)村衛(wèi)生事業(yè)管理,2014,34(8):1001-1003.

G254

B

10.13845/j.cnki.issn1673-2995.2015.04.015

1673-2995(2015)04-0270-02

張曾昱(1981-),男(漢族),館員,碩士在讀.

2014-10-26)

猜你喜歡
標(biāo)引分詞吉林
13.吉林卷
吉林卷
吉林卷
結(jié)巴分詞在詞云中的應(yīng)用
智富時代(2019年6期)2019-07-24 10:33:16
檔案主題標(biāo)引與分類標(biāo)引的比較分析
本刊對來稿中關(guān)鍵詞標(biāo)引的要求
值得重視的分詞的特殊用法
本刊對來稿中關(guān)鍵詞標(biāo)引的要求
吉林出版集團
全國新書目(2014年7期)2014-09-19 18:18:20
高考分詞作狀語考點歸納與疑難解析
迁安市| 霍山县| 大埔县| 新田县| 深州市| 阿勒泰市| 巩留县| 长乐市| 通江县| 沿河| 德安县| 麟游县| 历史| 手游| 巴林右旗| 绥棱县| 上思县| 周口市| 邓州市| 北安市| 龙游县| 江源县| 徐汇区| 敦煌市| 南充市| 通化县| 甘泉县| 莆田市| 左贡县| 东海县| 尉氏县| 刚察县| 开化县| 贵港市| 辽源市| 合川市| 汉中市| 察隅县| 云安县| 高唐县| 定远县|