国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

我國近十年知識組織技術(shù)研究進展分析*

2020-02-25 00:50賴璨陳雅
數(shù)字圖書館論壇 2020年12期
關(guān)鍵詞:詞表標引本體

賴璨 陳雅

(南京大學信息管理學院,南京 210023)

隨著信息社會的發(fā)展,人們逐漸湮沒在文獻與信息的海洋里,核心需求轉(zhuǎn)變?yōu)閮r值更高的、有序的知識。無論從速度、數(shù)量還是質(zhì)量方面考慮,依賴于人腦分析判斷的傳統(tǒng)知識組織與服務(wù)模式在互聯(lián)網(wǎng)時代顯然難以為繼,知識組織新模式受到研究者的關(guān)注,各類現(xiàn)代知識組織技術(shù)逐漸出現(xiàn)、迅速發(fā)展并投入應(yīng)用,但目前少見總結(jié)。在已有研究中,王蘭成等[1]于2008年發(fā)表《國外知識組織技術(shù)研究的現(xiàn)狀、實踐與熱點》一文,常娥等[2]于2016年對多種知識組織方法進行了比較,韓燕等[3]對2006—2016年我國傳統(tǒng)知識組織系統(tǒng)關(guān)聯(lián)化研究進行了內(nèi)容分析,以上都尚未涵蓋近幾年的新研究。

本文擬對近十年國內(nèi)知識組織技術(shù)研究進展與前沿進行探析,由于CSSCI來源期刊收錄學科相關(guān)文章較為集中,并且文章質(zhì)量相對較高,其中的研究較有代表性,故將其選擇為文獻源,數(shù)據(jù)庫篇名檢索“知識”并含“組織”,設(shè)定學科類別為“圖書館、情報與文獻學”,限定時間為2011—2020年,顯示共有198條結(jié)果,結(jié)合瀏覽題錄與細讀文本篩選出85篇技術(shù)相關(guān)文獻,從中將近十年國內(nèi)知識組織技術(shù)研究進展歸納為傳統(tǒng)知識組織改進技術(shù)與新興知識組織技術(shù)兩大部分。

1 傳統(tǒng)知識組織改進技術(shù)分析

1.1 知識組織自動化技術(shù)

以分類法、敘詞表等為代表的傳統(tǒng)知識組織手段,用等級結(jié)構(gòu)或聚類揭示概念間關(guān)系,人工組織更新緩慢,機器不能理解與處理,跟不上知識的增長速度,在這樣的背景下知識組織自動化技術(shù)應(yīng)運而生,主要包括術(shù)語自動抽取、詞表自動構(gòu)建與豐富、自動標引、自動分類、自動映射等方面。

術(shù)語是知識組織系統(tǒng)中的核心元素,術(shù)語自動抽取又稱術(shù)語自動識別,指從特定領(lǐng)域文本抽取核心概念詞匯,可分為基于規(guī)則、基于統(tǒng)計、規(guī)則與統(tǒng)計相結(jié)合3種方式。李智杰等[4]指出基于規(guī)則的方法主要利用術(shù)語詞典和規(guī)則模板,將基于統(tǒng)計的方法歸納為詞頻統(tǒng)計、TF-IDF、DCDR、互信息、統(tǒng)計機器學習、信息熵等,規(guī)則與統(tǒng)計結(jié)合的方法則包括C-Value、NC-Value及混合使用法等,使用結(jié)合法的術(shù)語自動抽取準確度更高。

詞表自動構(gòu)建與豐富,通過挖掘詞和詞間關(guān)聯(lián),實現(xiàn)詞匯聚類。李育嫦[5]歸納了當時應(yīng)用的多種詞表自動構(gòu)建方法,包括基于同現(xiàn)分析的方法,概念空間方法,貝葉斯網(wǎng)絡(luò)方法,基于互操作的方法,利用網(wǎng)絡(luò)鏈接結(jié)構(gòu)特征、通過語法分析的方法,利用用戶檢索策略等。在這些方法中,基于詞匯同現(xiàn)頻次的統(tǒng)計占據(jù)主流,普遍的不足在于識別的僅為相關(guān)關(guān)系,欠缺等級與等同關(guān)系的識別。將標引詞與標題中的關(guān)鍵詞進行同現(xiàn)分析,一定程度上可以發(fā)現(xiàn)并增添新詞,促進詞表更新。

自動標引可將作者語言自動轉(zhuǎn)換為標引語言,方便檢索系統(tǒng)語言匹配,與人工標引相比,在增量、組合、排序等方面應(yīng)加以優(yōu)化。自動標引可分為自動抽詞標引和自動賦詞標引,也可分為概率統(tǒng)計、語言分析和機器學習3類方法,統(tǒng)計法較為簡便易行,語言分析法需要利用算法產(chǎn)生標引詞,機器學習法需要提前訓練。分詞尤其是漢語分詞是標引的一大難點,漢語詞切分技術(shù)包括詞典法、單漢字標引法、語法分析標引法和神經(jīng)網(wǎng)絡(luò)分詞法等。李千駒等[6]對核反應(yīng)堆工程領(lǐng)域語料進行測試,依托關(guān)鍵詞詞表和敘詞表,通過字符串匹配法獲取候選標引關(guān)鍵詞,繞開了分詞過度問題。

自動分類目前分為基于機器學習和基于知識組織體系兩類方法,基于機器學習是主流技術(shù),貝葉斯分類、K-近鄰分類、支持向量機、神經(jīng)網(wǎng)絡(luò)算法等都較為成熟[5],但機器學習的自動分類局限在于必須依靠樣本數(shù)據(jù)、關(guān)鍵詞機械匹配,且較難解決多層分類問題,因此需要改造分類法(如壓縮等級結(jié)構(gòu)、合并稀疏類等),以便于機器學習?;谥R組織體系的自動分類加入了術(shù)語關(guān)系,即考慮了語義與層次關(guān)系,需要在分類前建立知識庫而無須樣本數(shù)據(jù),沈思等[7]提出以標引詞檢索關(guān)系表得到類主題詞,再得到類號與權(quán)值的分類算法,但基于知識組織體系的自動分類質(zhì)量依賴于知識組織體系的完善程度。

自動映射主要分為基于規(guī)則和基于統(tǒng)計兩類方法。曲建峰等[8]提出在收集并統(tǒng)計標引記錄的分類數(shù)據(jù)基礎(chǔ)上制定映射規(guī)則,建立分類法類目的統(tǒng)計映射表,運用人工干預(yù)對無映射關(guān)系的分類進行補充,以中圖法和杜威十進分類法為例建立了兩者的映射關(guān)系。李千駒等[9]提出以用戶檢索日志為語料,通過組配、拆分、抽取、同構(gòu)、加和、勘誤6種處理方式將用戶檢索用語向敘詞表映射,在映射規(guī)則中語義關(guān)系類型還需要細化擴展。與基于規(guī)則的方法相比,基于統(tǒng)計的方法無須對詞表進行語義對比分析,但反映的只是相關(guān)關(guān)系,準確性與樣本數(shù)據(jù)的大小與質(zhì)量密切相關(guān)。

另外,李曉瑛等[10]設(shè)計了英文同義關(guān)系自動發(fā)現(xiàn)算法,涉及詞形和語義歸并、多義術(shù)語傳遞控制及來源詞表顆粒度控制等方面,對中文術(shù)語同義關(guān)系發(fā)現(xiàn)也有借鑒意義。毛海波[11]設(shè)計了OA期刊知識自組織系統(tǒng),其中針對不同網(wǎng)站的異構(gòu)問題提出新的網(wǎng)絡(luò)蜘蛛自動收割OA期刊網(wǎng)站深層資源模式,自動標引分為直接標引和間接標引,前者基于中圖法與學科關(guān)系表,后者通過對題名進行分詞獲得特征詞,經(jīng)過篩選與TFGINI權(quán)重算法計算后進行學科標引,大幅提高了OA期刊庫的建設(shè)效率。

知識組織自動化技術(shù)可以實現(xiàn)知識的動態(tài)更新和管理,有助于人員從煩瑣的工作中解脫,集中精力解決知識庫的設(shè)計和優(yōu)化等更高層次的問題,降低成本并提高效率。在知識組織自動化技術(shù)中,基于規(guī)則的自動化知識組織在規(guī)則設(shè)定科學的情況下所得結(jié)果較為準確,專業(yè)性較強,但對規(guī)則設(shè)定者的經(jīng)驗提出了較高要求,結(jié)果容易受個人主觀性影響,也難以適應(yīng)復(fù)雜多變的術(shù)語構(gòu)詞規(guī)則。而基于統(tǒng)計的自動化知識組織相當于對語料的歸納,實用性更強,結(jié)合機器學習可以快速計算語料數(shù)據(jù)的規(guī)律,得出較為通用的結(jié)果,但由于術(shù)語具體關(guān)系識別欠缺、語料庫往往不能系統(tǒng)涵蓋各類語言現(xiàn)象等原因,知識組織結(jié)果的準確率有待提升。因此將規(guī)則與統(tǒng)計相結(jié)合是一種較好的策略,還可以再結(jié)合用戶反饋結(jié)果加以調(diào)整完善。目前知識組織自動化技術(shù)仍存在字面機械匹配的問題,在語義和語用知識的組織層面尚待提升。

1.2 用戶參與式知識組織技術(shù)

大眾分類法和網(wǎng)絡(luò)百科是Web2.0環(huán)境下出現(xiàn)的新型知識組織機制,面向用戶參與而不是專業(yè)群體,具有去中心化、簡易性、動態(tài)化等特點。

大眾分類法的原理是讓資源的創(chuàng)建者和使用者主動給資源貼上自定義標簽,對內(nèi)容進行描述予以分類,每個人可以使用不同的標簽,同一資源可以使用多個標簽,以完善補充網(wǎng)站原有的標準分類,共享于整個站點。大眾分類法的缺陷在于缺乏必要的語義,概念間缺乏關(guān)聯(lián),因此將其應(yīng)用于知識組織主要結(jié)合了概念格,概念格又稱形式概念分析,在知識發(fā)現(xiàn)領(lǐng)域概念格可以提取分類規(guī)則、蘊含規(guī)則和關(guān)聯(lián)規(guī)則等。如畢達天等[12]運用概念格對傳統(tǒng)AHP法初始評價結(jié)果進行關(guān)聯(lián)規(guī)則挖掘,動態(tài)實現(xiàn)合理配置垃圾標簽過濾指標權(quán)值。滕廣青等[13]運用概念格對關(guān)聯(lián)標簽進行聚類,呈現(xiàn)標簽“語義關(guān)聯(lián)詞”的關(guān)系,并通過關(guān)聯(lián)規(guī)則挖掘揭示了標簽“語義下位詞”關(guān)系。

網(wǎng)絡(luò)百科是協(xié)作開放式的在線百科全書,里面的條目稱為詞條,每個詞條獨立描述一個主題概念并從屬于至少一個分類,網(wǎng)絡(luò)百科通過豐富的層次分類體系與超鏈接將相關(guān)詞條聯(lián)系起來,形成一個巨大的網(wǎng)狀體系,供用戶查閱與充實。萬力勇等[14]介紹了維基百科知識組織關(guān)鍵技術(shù),包括文檔網(wǎng)絡(luò)和分類樹、文檔鏈接和分類鏈接、隨機頁面、重定向和消歧頁等,但維基百科在知識自組織方面存在不足,包括分類與鏈接的準確性等。

與傳統(tǒng)的知識組織體系相比,用戶參與式知識組織具有較高的自由度,用戶自主提供的標簽或分類既可能是主題,也可能是時間、人物等,從而實現(xiàn)知識的多維化描述,再借助鏈接技術(shù)形成知識間的關(guān)聯(lián)共享,這些標注的動態(tài)更新還可以反映詞匯與社會熱點的變遷。此類技術(shù)的不足之處在于隨意性強,導(dǎo)致標注的同義詞、冷僻詞乃至垃圾標簽激增,影響知識聚集與結(jié)構(gòu)形成,與概念格的結(jié)合一定程度上緩解了這一問題,如何提升概念分類與關(guān)聯(lián)的準確度仍需進一步研究,如為用戶引入術(shù)語庫詞匯、采用詞義計算技術(shù)等。

2 新興知識組織技術(shù)分析

語義網(wǎng)、本體、關(guān)聯(lián)數(shù)據(jù)、主題圖等是近年來蓬勃發(fā)展的知識組織技術(shù),可以建立數(shù)據(jù)間的聯(lián)系,從單純的顯性知識描述轉(zhuǎn)變?yōu)榻沂酒錆撛谏顚拥恼Z義關(guān)系,支持機器理解與推理。與傳統(tǒng)知識組織系統(tǒng)化構(gòu)建知識體系相比,這類知識組織技術(shù)更側(cè)重呈現(xiàn)知識間的多元關(guān)系,提供更多檢索入口,并促進知識組織對象向細粒度方向發(fā)展。

2.1 語義網(wǎng)

語義是對數(shù)據(jù)的解釋,語義網(wǎng)對萬維網(wǎng)進行了擴展,目標是利用元數(shù)據(jù)描述資源,使計算機能理解網(wǎng)上的信息和知識,并可以進行一定的自動處理和推理。語義網(wǎng)結(jié)構(gòu)整體分為7層,語義關(guān)系更為靈活,主要基于XML、RDF和本體技術(shù)實現(xiàn)。曾新紅[15]利用RDF、RDFS、OWL對SKOS進行了擴展,以實現(xiàn)傳統(tǒng)受控詞表全描述。

關(guān)聯(lián)知識聚合是語義網(wǎng)應(yīng)用的具體形式,關(guān)聯(lián)知識元數(shù)據(jù)可通過被動服務(wù)器端采集或數(shù)據(jù)端采集,知識元數(shù)據(jù)預(yù)處理可采用知識集成、知識清理、知識歸約等。張海濤等[16]基于自組織神經(jīng)網(wǎng)絡(luò)構(gòu)建知識聚合模型,引入模糊均值聚類算法,利用分布式計算系統(tǒng)進行知識抽取、知識映射,實現(xiàn)圖書館關(guān)聯(lián)知識聚合。馬曉悅[17]提出結(jié)合語義網(wǎng)和社會標注建立社會化語義網(wǎng)知識組織模型,實質(zhì)是組織反映內(nèi)容概念的知識文本,分類識別知識主題與類別,與一般語義網(wǎng)相比突出“用戶參與”核心,強調(diào)用戶理解的動態(tài)化和不同理解間的協(xié)調(diào)。

語義網(wǎng)將事物的屬性以及事物間的語義聯(lián)系明確而簡潔地表示出來,利用結(jié)構(gòu)化數(shù)據(jù)加快了數(shù)據(jù)流通,但尚須解決多源數(shù)據(jù)融合方面的問題,以實現(xiàn)高效信息共享。此外,由于RDF和OWL等語言邏輯性太強,對普通開發(fā)人員而言具有理解和掌握的門檻,語義網(wǎng)技術(shù)的發(fā)展速度面臨瓶頸。

2.2 本體

本體起源于哲學領(lǐng)域,在信息時代被應(yīng)用于人工智能領(lǐng)域,本體技術(shù)通過重用、集成、映射等方式將異構(gòu)數(shù)據(jù)集中到一個本體,以實現(xiàn)不同資源或概念的共享。

本體構(gòu)建方法可分為人工、半自動與自動3類。馬創(chuàng)新等[18]將當時人工方法總結(jié)為七步法、TOVE法、骨架法和METHONLOGY法等。王穎等[19]參考了七步法和骨架法等,結(jié)合文本挖掘與專家判斷,在國史本體的基礎(chǔ)上對國史知識和事實進行語義揭示,構(gòu)建了國史知識網(wǎng)絡(luò)。傳統(tǒng)知識組織系統(tǒng)是投入大量人力物力構(gòu)建而來的智力成果,包含豐富的術(shù)語和語義關(guān)系,完全可以加以改造用以本體構(gòu)建,以免另起爐灶導(dǎo)致資源浪費。何琳[20]提出通過映射分類體系、整合敘詞表,利用機器學習建立語義細分分類器,從而構(gòu)建領(lǐng)域本體。畢強等[21]將基于概念格的半自動化本體構(gòu)建方法概括為Obitko方法、Haav方法和Cimiano方法等,前兩種方法直接將概念格與本體中的概念等同,后者將本體中的概念匹配概念格中的屬性,并提出運用概念格構(gòu)建領(lǐng)域本體的技術(shù)路徑,分別構(gòu)建基于結(jié)構(gòu)化資源(如主題詞表等)和非結(jié)構(gòu)化資源(如文本等)的形式背景及相應(yīng)概念格,通過并疊置運算獲得新的概念格,最終轉(zhuǎn)化為目標領(lǐng)域本體。這種方法易于實現(xiàn)自動化,資源預(yù)處理環(huán)節(jié)可使用漢語詞法分析系統(tǒng),概念格構(gòu)建環(huán)節(jié)可使用ConExp、Lattice Miner等工具,本體構(gòu)建可使用Protégé、KOAN等工具。

白華[22]提出結(jié)合大眾分類本體與一般概念本體(知識組織系統(tǒng)),基于用戶標簽和浮出語義方法,構(gòu)建以概念為中心的用戶標簽集成本體,整合標簽和知識框架,形成適應(yīng)大數(shù)據(jù)環(huán)境的新本體。浮出語義是信息源多次交換協(xié)商資源和標簽的含義基礎(chǔ)上進化而來的統(tǒng)一本體,具有動態(tài)性和交互性,問題在于大眾分類標簽可能與知識組織系統(tǒng)中的概念不一致。張嫻等[23]以變量農(nóng)作機械專利為研究對象,基于語義TRIZ對專利技術(shù)進行建模,構(gòu)建領(lǐng)域本體、專利技術(shù)供給本體和需求本體,提出利用本體求解專利技術(shù)供需匹配的知識組織方案。

本體可以表達概念間的復(fù)雜關(guān)系,解決語義異構(gòu),實現(xiàn)分布式共享,但不能直接建立知識單元與資源實體的關(guān)聯(lián)。本體不僅關(guān)聯(lián)概念間顯性的關(guān)系,還具有推理功能,通過隱含關(guān)系推導(dǎo)出新知識,但本體構(gòu)建需要領(lǐng)域?qū)<覅⑴c,較為復(fù)雜,如何在高效構(gòu)建本體的同時降低成本是研究的重點。目前研究中的本體構(gòu)建多是基于特定領(lǐng)域,有助于用戶對某一領(lǐng)域的知識達成一致,但通用本體缺乏,且本體語言及構(gòu)造標準多元化,已構(gòu)建本體的擴展和共享性、本體的更新演化帶來的版本控制等是尚待研究的問題。

2.3 關(guān)聯(lián)數(shù)據(jù)

關(guān)聯(lián)數(shù)據(jù)的URI既是知識概念的唯一標識,也可以對資源實體進行導(dǎo)航定位,實現(xiàn)概念的規(guī)范控制與多元化表達。作為將數(shù)據(jù)鏈接起來的語義資源,關(guān)聯(lián)數(shù)據(jù)在異構(gòu)異質(zhì)知識資源的組織聚合中發(fā)揮日益重要的作用。關(guān)聯(lián)數(shù)據(jù)自身不具備語義功能,需要將詞表或本體作為其語義描述框架。關(guān)聯(lián)數(shù)據(jù)可以標注文本和多媒體等資源,進行知識描述與揭示,核心在于找到與待標注對象相匹配的數(shù)據(jù)集,如文本標注可以利用基于數(shù)據(jù)集內(nèi)部結(jié)構(gòu)的PageRank方法或基于數(shù)據(jù)集內(nèi)容描述的Context Similarity方法[24];也可以通過連接以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布后的知識資源實現(xiàn)知識單元間的互聯(lián);還可以對不同來源的知識進行網(wǎng)狀結(jié)構(gòu)組織序化。

董坤[25]基于關(guān)聯(lián)數(shù)據(jù)提出高校知識資源語義化組織框架,構(gòu)建了高校知識管理原型系統(tǒng),在資源描述本體的基礎(chǔ)上使用D2RQ平臺將關(guān)系數(shù)據(jù)庫語義映射至關(guān)聯(lián)數(shù)據(jù),改變了傳統(tǒng)高校知識組織系統(tǒng)的封閉狀態(tài),實現(xiàn)開放式語義檢索與獲取。曾子明等[26]基于關(guān)聯(lián)數(shù)據(jù)構(gòu)建數(shù)字人文視覺資源知識組織模型,分為資源采集層、語義描述層、知識關(guān)聯(lián)層和智慧服務(wù)層,以敦煌學為例在構(gòu)建本體的基礎(chǔ)上建立關(guān)系數(shù)據(jù)表實現(xiàn)關(guān)聯(lián)。

關(guān)聯(lián)數(shù)據(jù)將概念與實體置于統(tǒng)一的RDF框架下,可實現(xiàn)概念間、實體間、資源與實體間的語義關(guān)聯(lián)。關(guān)聯(lián)數(shù)據(jù)強調(diào)在不同的數(shù)據(jù)集之間創(chuàng)建鏈接,還能融合元數(shù)據(jù)與本體,讓用戶能更加方便地進行訪問、查詢和處理,可以有效實現(xiàn)語義推理和知識發(fā)現(xiàn)。知識組織應(yīng)用關(guān)聯(lián)數(shù)據(jù)技術(shù)面臨的問題在于,由于數(shù)據(jù)集存在內(nèi)容局限性,直接導(dǎo)致了語義標注的局限性,同時知識單元互聯(lián)與組織受到數(shù)據(jù)源開放共享程度與知識產(chǎn)權(quán)的限制。

2.4 主題圖與知識圖譜

主題圖可以從異構(gòu)庫中抽取關(guān)鍵數(shù)據(jù),通過主題、關(guān)聯(lián)及資源出處進行導(dǎo)航,揭示網(wǎng)狀-核心-邊緣的知識結(jié)構(gòu),基于XML Topic Maps和HyTM等語法實現(xiàn)功能。胡娟等[27]應(yīng)用主題圖技術(shù)構(gòu)建學術(shù)博客知識組織模型,主要分為主題關(guān)聯(lián)層和blog層,學術(shù)博客知識可以根據(jù)需要添加不同類型的主題來多方面分類揭示。陳婷等[28]將主題圖技術(shù)和社會化標簽相結(jié)合,將標簽轉(zhuǎn)換為主題,使用主題圖的“范圍”要素解決標簽一詞多義的問題,從而將扁平化的標簽轉(zhuǎn)化為網(wǎng)狀結(jié)構(gòu),并以超星數(shù)字圖書館為例,基于Ontopia引擎構(gòu)建了標簽主題圖。相較傳統(tǒng)主題圖,智能主題圖可采用全信息相似性算法進行聚類,匹配語法、語義和語用,并且擴展了知識元導(dǎo)航功能與推理功能,應(yīng)用基于規(guī)則引擎的推理機制,由內(nèi)部或自定義規(guī)則獲取隱性知識[29]。

知識圖譜有兩種含義,一類是谷歌公司提出的基于語義網(wǎng)的大規(guī)模知識庫,另一類是科學知識圖譜。后者將圖形學、計量學、引文分析和共現(xiàn)分析等結(jié)合,用于展示學科整體知識架構(gòu)、核心結(jié)構(gòu)與前沿領(lǐng)域等,揭示知識領(lǐng)域的動態(tài)發(fā)展情況。婁國哲等[30]基于前一類知識圖譜,將時間屬性添加至基本組成單元,形成實體、關(guān)系、時間區(qū)間、實體四元組和實體、屬性、時間、屬性值四元組,對網(wǎng)絡(luò)輿情進行知識組織,先創(chuàng)建網(wǎng)絡(luò)輿情本體后構(gòu)建網(wǎng)絡(luò)輿情知識圖譜,可直接通過內(nèi)容采集、文本處理與事件發(fā)現(xiàn)實現(xiàn)網(wǎng)絡(luò)輿情事件的抽取。

與語義網(wǎng)、本體的知識概念不同,主題圖將人、時間、動作等所有標引對象都視為主題,利用智能主題圖可以在網(wǎng)絡(luò)知識組織中實現(xiàn)知識表示、推理、導(dǎo)航、推送與可視化,但不能在網(wǎng)絡(luò)發(fā)布和獲取資源。由于用戶可以自由定義主題圖的分類詞匯,存在用詞不規(guī)范導(dǎo)致連接錯誤或遺漏信息等風險。知識圖譜規(guī)模大、語義豐富,能將分散的知識序化,用可視化方式展示知識的分布及關(guān)系,由顯性知識引導(dǎo)獲取隱性知識,還能向用戶提供信息智能查詢與深度問答服務(wù)等;缺點在于為了納入更多知識,在設(shè)計時允許模式定義不完善或缺失,從而帶來了數(shù)據(jù)質(zhì)量控制問題,進而影響知識圖譜的完整性與準確性,此外知識圖譜算法依賴現(xiàn)有數(shù)據(jù)集,如果要擴展則需修改數(shù)據(jù)結(jié)構(gòu)和業(yè)務(wù)邏輯,維護成本較高。

2.5 知識組織系統(tǒng)互操作與可視化技術(shù)

知識組織系統(tǒng)包括分類法、敘詞表、語義網(wǎng)、本體等,無論是同構(gòu)知識系統(tǒng),句法、術(shù)語或概念異構(gòu)知識系統(tǒng),還是跨語言、跨領(lǐng)域的知識組織系統(tǒng),實現(xiàn)多系統(tǒng)彼此間的兼容轉(zhuǎn)換互操作,讓詞匯與檢索式直接適用或轉(zhuǎn)換后適用于多個系統(tǒng),可以讓分布式資源實現(xiàn)統(tǒng)一組織與利用,是知識組織的一大目標。分類與主題語言互操作是實現(xiàn)跨語言檢索的有效手段,語義互操作是更高層次的互操作,目標是達到異構(gòu)系統(tǒng)語義層面的機器理解與交互,是最難實現(xiàn)的。

李育嫦[5]將知識組織系統(tǒng)互操作實現(xiàn)技術(shù)概括為演化建模、翻譯改編、映射、鏈接以及中心轉(zhuǎn)換;胡濱等[31]將知識組織系統(tǒng)互操作方法概括為推導(dǎo)/建模(派生法)、翻譯/轉(zhuǎn)譯、映射、轉(zhuǎn)換/中介詞典、衛(wèi)星子表、元敘詞表、集成詞表和鏈接;郭思成等[32]運用深度學習工具Word2Vec將詞條進行向量形式轉(zhuǎn)化,自動匹配篩選,建立醫(yī)學詞表間的語義映射,實現(xiàn)知識組織系統(tǒng)互操作,消除歧義、統(tǒng)一概念邏輯,并指出后續(xù)可以綜合使用TF-idf、SVM分類器等技術(shù),或結(jié)合相關(guān)詞對齊庫;李慧佳等[33]提出對智庫資源加以元數(shù)據(jù)規(guī)范,最大限度整合元數(shù)據(jù)標準,并且構(gòu)建元數(shù)據(jù)本體及關(guān)聯(lián)關(guān)系進行語義化描述,從而實現(xiàn)語義互操作,元數(shù)據(jù)本體可以通過集成或映射的方式構(gòu)建。

目前映射、鏈接和翻譯等是最常用的知識組織系統(tǒng)互操作技術(shù),映射建立了知識組織系統(tǒng)間的概念對照,也是一些互操作技術(shù)的基礎(chǔ),其復(fù)雜程度受系統(tǒng)結(jié)構(gòu)、概念定義等的異質(zhì)性影響,鏈接通過中介詞表建立間接關(guān)系,不改變原詞表的體系,翻譯有助于促進多語種知識組織系統(tǒng)間的互操作,但可能會導(dǎo)致語義的損耗或歧義的出現(xiàn)。知識組織系統(tǒng)互操作已拓展至語義互操作層面,如結(jié)合元數(shù)據(jù)標準,并有研究開始結(jié)合深度學習加以輔助實現(xiàn)互操作的自動化,較為依賴訓練語料的質(zhì)量,仍需結(jié)合專家意見與人工標注干預(yù)來保證互操作效果。

網(wǎng)絡(luò)環(huán)境下,傳統(tǒng)知識組織系統(tǒng)結(jié)構(gòu)無法全面、直觀、動態(tài)地顯示詞間關(guān)系,與單純的文本展示相比,可視化用圖像顯示多維數(shù)據(jù),可以加深用戶對數(shù)據(jù)含義的理解,增強用戶對抽象事物的認知。張運良等[34]總結(jié)了當時Web前端可視化技術(shù)包括Java Script、Flash、Java Applet、Silverlight等,將D3.js類庫應(yīng)用于知識組織系統(tǒng)動態(tài)交互的Web可視化,為了實現(xiàn)節(jié)點合理分布使用力定向布局功能。D3是數(shù)據(jù)驅(qū)動文檔,可以在文本對象模型上綁定任意數(shù)據(jù),應(yīng)用數(shù)據(jù)驅(qū)動轉(zhuǎn)換到文檔,利用HTML、級聯(lián)樣式表和可縮放矢量圖形實現(xiàn)可視化展示。知識組織系統(tǒng)可視化的常用方法包括縮進樹、節(jié)點樹、可縮放展示、焦點加上下文和3D展示等[35],但圖形可視化展現(xiàn)的是概念之間的關(guān)系,缺少對概念語義的展示,王福等[36]總結(jié)了可以通過可視化概念格、可視化聚類層次、可視化本體結(jié)構(gòu)和可視化關(guān)聯(lián)圖譜等形式展現(xiàn)知識聚合。

3 知識組織技術(shù)研究前沿

3.1 細粒度知識組織技術(shù)

粒度是對不同層次知識的度量,一本書或一篇論文包含許多知識,屬于粗粒度,而一個術(shù)語詞匯等則屬于細粒度知識?,F(xiàn)在知識組織已經(jīng)由粗粒度向細粒度轉(zhuǎn)變,但如何更好地實現(xiàn)對細粒度知識的抽取、挖掘與組織,仍然是值得研究的問題。研究者對細粒度知識的對象著眼于知識元、知識單元和單元信息等。

知識元是不能分割的最小的獨立知識單位[37]。劉杰等[38]通過抽取、標引、顯隱性鏈接和集成知識元,構(gòu)建了四層次六梯度的知識元映射,以組織科技文本資源內(nèi)容,實現(xiàn)知識的精準定位與拓展延伸。其局限在于由于中文語義語法的復(fù)雜性,知識元自動抽取技術(shù)結(jié)果準確性還不高,需要加入人工操作。

李禎靜等[39]將知識單元定義為深入資源內(nèi)部、能夠完整表達知識、具有相對獨立性的基本單元,是知識內(nèi)容本身。他們基于文本結(jié)構(gòu)的抽取方法將科技文獻劃分為以五元組表示的多個知識單元,采用基于文本集合關(guān)聯(lián)規(guī)則的算法自動生成語義鏈接網(wǎng)絡(luò),最后使用Cytoscape軟件實現(xiàn)網(wǎng)絡(luò)構(gòu)建與可視化。

張娟等[40]認為知識元的語義太零碎,知識單元又過于寬泛,提出知識組織對象是單元信息,即文獻中內(nèi)容意義完整的一個知識單元,如觀點、數(shù)據(jù)、方法等,綜合運用元數(shù)據(jù)、本體和關(guān)聯(lián)數(shù)據(jù)進行組織,如何識別、抽取及關(guān)聯(lián)異構(gòu)知識還有待進一步研究。

對細粒度知識的組織有助于實現(xiàn)更精準有效的檢索與挖掘,細粒度知識內(nèi)部根據(jù)單元大小也有層次劃分,組織的技術(shù)路徑主要為細粒度知識抽取與語義關(guān)聯(lián),知識抽取的準確度影響知識組織的質(zhì)量,現(xiàn)有研究主要面向科技文獻,未來有待改進自然語言處理和使用結(jié)合規(guī)則與統(tǒng)計的算法。

3.2 大規(guī)模語義知識組織技術(shù)

雖然新興知識組織技術(shù)有效彌補了傳統(tǒng)知識組織無法精準發(fā)現(xiàn)特定主題知識這一缺陷,發(fā)展了語義抽取、描述與組織方法,但仍然受到數(shù)據(jù)集規(guī)模和質(zhì)量的限制。大數(shù)據(jù)時代,各種大規(guī)模數(shù)據(jù)集涌現(xiàn),內(nèi)含知識密度低、關(guān)聯(lián)多,需要通過數(shù)據(jù)挖掘等手段發(fā)現(xiàn)。高效處理動態(tài)發(fā)展、海量增長的數(shù)據(jù)集,對其進行語義分析,將其中的知識資源實現(xiàn)有序化、系統(tǒng)化組織有賴于大規(guī)模語義知識組織技術(shù)的發(fā)展。

李旭暉等[41]提出基于語義數(shù)據(jù)管理進行知識組織,需設(shè)計合適的語義數(shù)據(jù)模型,數(shù)據(jù)結(jié)構(gòu)應(yīng)支持大量歸納計算,并提供原子計算,將人工智能技術(shù)應(yīng)用于自主、自動對海量知識數(shù)據(jù)的循環(huán)迭代挖掘,同時知識庫在本體驅(qū)動下自主歸納知識內(nèi)容和結(jié)構(gòu)演化模式。在人工智能時代,還可以將基于神經(jīng)網(wǎng)絡(luò)算法的深度學習技術(shù)應(yīng)用于知識組織。孫坦等[42]提出將知識組織與認知計算相融合的開放知識服務(wù)系統(tǒng)改進思路,其中需要突破大規(guī)模語義知識庫構(gòu)建技術(shù)等。

大規(guī)模語義知識組織可以適應(yīng)知識的動態(tài)演化,進行知識重組織與服務(wù),實現(xiàn)知識發(fā)現(xiàn)與增值,已有研究主要聚焦在基于新興技術(shù)的知識計算,提高知識組織效率,而如何與傳統(tǒng)知識組織相結(jié)合,統(tǒng)一表現(xiàn)處理非結(jié)構(gòu)化與結(jié)構(gòu)化語義信息,提升語義組織的準確度尚待探索。此外,由于數(shù)據(jù)集體量龐大,還要加強對數(shù)據(jù)存儲結(jié)構(gòu)和索引機制的設(shè)計研究。

3.3 視聽資源知識組織技術(shù)

如今視聽資源數(shù)據(jù)規(guī)模日益大幅增長,已有文獻大多數(shù)是對文本資源的知識組織技術(shù)進行研究,較為成熟,而傳統(tǒng)對圖像、音頻、視頻等形式的資源多是簡單著錄,轉(zhuǎn)換成基于關(guān)鍵詞或文本標注模式,對其具體知識內(nèi)容的組織技術(shù)的專門研究很少,特別是其中的語義如何識別并深度描述、知識間如何關(guān)聯(lián)、實時編輯等問題亟待研究。

視聽資源的知識組織方式大致分為基于人工、基于圖像匹配和基于上下文3類。莊文杰等[43]認為非遺視頻知識元一般只能采用人工提取,借鑒DC、CDWA和VRA,從基本信息、視頻屬性、非遺屬性、知識元屬性和可擴展屬性五方面進行元數(shù)據(jù)描述,再進行鏈接與可視化表示,這種方法可以保證較高的準確性,但人力與時間成本較高。張興旺等[44]以平面圖結(jié)構(gòu)算法描述非遺視覺資源,并采用基于鄰居向量的近似子圖匹配算法,在視覺知識庫中搜索非遺視覺資源局部特征相似的資源,通過與其他物體間的位置與出現(xiàn)概率比較計算得出彼此關(guān)聯(lián)關(guān)系,這種方式的挑戰(zhàn)在于如何實現(xiàn)繪制畫面與實景的相似性判斷。曾子明等[26]以敦煌學視覺資源為例,通過采集相關(guān)文本,抽取上下文的語義信息來進行資源描述與標引,將文本與圖像關(guān)聯(lián)起來;李建偉[45]利用口述歷史元數(shù)據(jù)同步器功能插件,實現(xiàn)關(guān)聯(lián)檢索多媒體語義內(nèi)容與上下文,提供口述記錄與同步轉(zhuǎn)錄文本,完成信息資源多維度揭示,這種方式難以涵蓋圖像或畫面的方方面面,如人物的服飾、神態(tài)等細節(jié),仍需要人工補充。

視聽資源的知識組織在語義層面要深入至資源的時空背景、資源內(nèi)的主體客體、動作神態(tài)等,對視覺資源而言,綜合圖像與文本描述的知識組織更為全面,音頻資源則主要結(jié)合語音識別轉(zhuǎn)錄與傳統(tǒng)的描述方式。隨著人工智能技術(shù)的應(yīng)用,基于機器學習的圖像識別對比與資源標注等將在視聽資源知識組織中發(fā)揮更大的作用,未來還要加強對視聽資源知識推理機制以及與其他類型知識的關(guān)聯(lián)研究。

4 結(jié)語

21世紀以來,人們對知識的需求日益強烈,并向精細化發(fā)展,不再滿足于一本書、一篇文章、一段視頻等檢索結(jié)果,而是尋求其中更深度相關(guān)的片段,推動知識組織技術(shù)的研究與實踐應(yīng)用。本文對近十年CSSCI收錄的知識組織技術(shù)代表文獻進行了閱讀分析,發(fā)現(xiàn)已有研究在自動化、語義化和關(guān)聯(lián)化知識組織技術(shù)等方面都取得了較大進展,并出現(xiàn)部分對技術(shù)的組合應(yīng)用研究,前沿研究領(lǐng)域細粒度知識組織技術(shù)、大規(guī)模語義知識組織技術(shù)和視聽資源知識組織技術(shù)等仍需深入探索,未來還要重點攻克知識組織系統(tǒng)的擴展和共享、多源數(shù)據(jù)的歧義和噪聲、用戶參與知識組織的規(guī)范控制等問題,為向用戶提供更全面更精準的知識服務(wù)奠定基礎(chǔ)。

猜你喜歡
詞表標引本體
眼睛是“本體”
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
學術(shù)英語詞表研究管窺
——三份醫(yī)學英語詞表比較分析
檔案主題標引與分類標引的比較分析
基于本體的機械產(chǎn)品工藝知識表示
大數(shù)據(jù)時代數(shù)字資源的主題標引研究
關(guān)于關(guān)鍵詞標引的要求
關(guān)于關(guān)鍵詞標引的要求
專題
Care about the virtue moral education
家居| 乐陵市| 道真| 奉化市| 青州市| 东宁县| 二连浩特市| 光泽县| 宁晋县| 英德市| 托克托县| 屯昌县| 大厂| 定南县| 金川县| 普洱| 格尔木市| 葫芦岛市| 肥乡县| 崇礼县| 铁岭市| 会昌县| 繁峙县| 通州区| 水城县| 壤塘县| 金溪县| 滦南县| 弥渡县| 永顺县| 青龙| 鄂州市| 开原市| 涞源县| 垫江县| 磴口县| 洞口县| 东丽区| 三河市| 新平| 曲周县|