劉曉影
一、知識圖譜及其發(fā)展現(xiàn)狀
知識圖譜(Knowledge Graph)2012年由谷歌正式提出,其本質(zhì)是語義網(wǎng)絡(luò)知識庫,關(guān)注數(shù)據(jù)的本體和語義,強調(diào)的是實體、以及實體之間的關(guān)聯(lián),它是一種以語義三元組為結(jié)構(gòu)的知識庫,以圖模型描述語義關(guān)系,其中的結(jié)點代表實體或者概念,連接的邊則代表各種語義關(guān)系。知識圖譜獲取大量計算機可讀的知識,對從不同來源收集到的數(shù)據(jù)進行融合并利用清洗技術(shù)進行再加工,然后將其表達成更接近人類認知的形式,以便用者能夠更好地組織管理和利用海量信息。隨著知識圖譜的研究深入和各種工具的出現(xiàn),知識圖譜作為一種信息分析工具,已經(jīng)成為一種新的知識管理思路,在搜索引擎、各種智能系統(tǒng)以及數(shù)據(jù)存儲領(lǐng)域都有應用。知識圖譜已經(jīng)成為互聯(lián)網(wǎng)基于知識的智能服務的基礎(chǔ)設(shè)施,成為推動人工智能發(fā)展的核心驅(qū)動力之一。
二、知識圖譜應用在人物檔案利用中的可行性
1.優(yōu)勢
知識圖譜具有直觀、定量、高效等諸多優(yōu)點。對人物檔案加以更好的利用,首先要將其變?yōu)闄C器可識別、可讀的數(shù)據(jù),在此可以借助知識圖譜來進行人物檔案的中文實體識別。知識圖譜可以將來自不同檔案來源的數(shù)據(jù)整合,打通人物相關(guān)聯(lián)的數(shù)據(jù)脈絡(luò),將復雜的人物檔案有序化,可以有效地提高對人物特征提取,分析人物關(guān)系,解決實際的問題需求,提高人物檔案的利用率,推動檔案公眾化服務進程的加快。知識圖譜對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的良好處理能力,可幫助高效地實現(xiàn)檔案中人物信息的分類和完善標簽,同時,知識圖譜還具有非常多的優(yōu)勢,它的規(guī)模巨大、語義關(guān)系豐富、結(jié)構(gòu)友好,比如常用RDF來表示等等,可以用于輔助深度理解語言和支持推理,幫助機器識別人物檔案的各種記載,將各個人物檔案進行深度關(guān)系的推理。
2.解決的問題
知識圖譜可以用來改善檢索結(jié)果,為搜索提供結(jié)構(gòu)化結(jié)果。比如檢索人物檔案中關(guān)于北京大學的內(nèi)容,不僅顯示涉及北京大學的檔案內(nèi)容,也會檢索到可相關(guān)人物,相關(guān)高校內(nèi)容。知識圖譜可以幫助進行人物檔案標準化利用,將各種類型的記載用統(tǒng)一的規(guī)范進行錄入和整理,形成有分類的人物檔案數(shù)據(jù)源,方便之后的使用。還可以進行人物關(guān)系抽取,促進相關(guān)人物的檔案共同研究。檔案使用者可以以自然語言提問的形式提出信息查詢需求,問題輸入進去以后會先進行解析,分析使用者的真實意圖,然后根據(jù)理解到的意圖去從各種人物檔案數(shù)據(jù)資源中進行查詢和檢索,然后對查詢和檢索的結(jié)果做一個排序篩選,從而進行最終結(jié)果的輸出,這就需要依托大量高質(zhì)量的數(shù)據(jù)和知識,還需要強大的自然語言處理系統(tǒng)。在人物檔案的電子數(shù)據(jù)錄入中應用知識圖譜還可以減少人力成本,替代非常大的工作量。再者,知識圖譜還能夠?qū)θ宋餀n案進行圖結(jié)構(gòu)的分析,用原生態(tài)的語義網(wǎng)絡(luò)形式進行描述,能夠清晰的展示對使用者需求的人物檔案信息。
3.比較傳統(tǒng)的工具
采用人工進行人物檔案的整理,在檔案電子化環(huán)節(jié)中需要非常大的工作量,而且還可能有錯誤并進行另外的人工校對。人類思維對人物檔案可以進行分析,進行演繹、推理、類比、歸納等,人類擁有的情感、想象力、猜想方式、教育背景等會影響分析的全面性和深入性,不同的人對信息有不同的解讀和推測,會產(chǎn)生歧義;之前使用計算機進行人物檔案開發(fā)利用,多采用統(tǒng)計的方法,對收集到的數(shù)據(jù)進行簡單的分類、排序,存儲以及計算,對人物信息進行描述。而采用知識圖譜,是計算機模擬人類的行為進行語義分析,可以進行垂直領(lǐng)域的語義理解。知識圖譜通過可視化的表現(xiàn)方式,更直觀、鮮活的展示人物關(guān)聯(lián),將復雜檔案來源處理成簡便易懂的方式,知識圖譜比傳統(tǒng)的統(tǒng)計工具更好更精準的分析,比起人工的分析也更方便快捷,節(jié)省時間精力人力,不容易遺漏一些細節(jié)方面,還可以輔助進行決策分析,幫助使用者確定需要閱讀的檔案和展示需要的內(nèi)容。
三、知識圖譜在人物檔案利用中的應用場景
1.檢索人物檔案
利用知識圖譜將人物檔案資源按知識利用的要求組織起來,推動檔案智能檢索研究與應用的發(fā)展。用戶檢索人物檔案,將傳統(tǒng)的基于關(guān)鍵字的檢索推進到基于語義的實體搜索,可解釋的人工智能不僅反饋問題的答案,還反饋這個答案是怎么來的,只有具備解釋性,用戶才會相信這個模型。用戶進行檔案的搜索時,機器會根據(jù)他的檢索詞,最大程度地還原用戶的使用偏好及業(yè)務需求,在此基礎(chǔ)上進行精準推薦,推薦需要閱讀的檔案內(nèi)容。在現(xiàn)代智能檢索系統(tǒng)的幫助下,根據(jù)用戶的要求,自動搜尋相關(guān)知識,最大限度地滿足用戶利用需求,從而為用戶創(chuàng)造更多、更大的價值。使用知識圖譜進行人物檔案檢索,可以使用戶體驗得到提升、降低用戶的使用成本。對于進行科學研究的經(jīng)常查閱同一類型檔案的人員,可以通過其基礎(chǔ)信息和行為數(shù)據(jù)進行更為快速的檢索和反饋。當用戶搜索某個名人時,系統(tǒng)會自動根據(jù)圖譜中的人物關(guān)系向用戶推薦關(guān)聯(lián)性較強的人物或事。還可以用知識圖譜做一個間接的匹配,用中間實體概念和概念橋接兩個完全不相關(guān)的事件或人物,把兩個看上去語言描述完全不一樣的東西進行匹配。
2.人物關(guān)聯(lián)分析
知識圖譜將大量數(shù)據(jù)放在一起,可以作為讓機器理解語言的背景知識庫。機器理解語言是一件非常復雜的事情,進行自然語言的處理往往需要上下文,很多語言的表達是隱形的,委婉的,還具有語義的多樣性等等,這都讓機器對語言的處理困難重重。知識圖譜將自己知識庫里的人物檔案分析出主題以及分類,將語義關(guān)系聯(lián)系到一起,進行深層關(guān)系推理,不僅僅進行簡單的關(guān)系表示。上海圖書館名人手稿檔案關(guān)聯(lián)開放數(shù)據(jù)集,包括上海圖書館館藏的24萬余種手稿及檔案的元數(shù)據(jù),數(shù)據(jù)經(jīng)過語義化的清洗、加工、轉(zhuǎn)換進行知識組織之后,不再是簡單的關(guān)于文獻的描述性元數(shù)據(jù),而存在著豐富的人與人、人與文獻、文獻與文獻間的關(guān)聯(lián)關(guān)系,可以通過時間軸關(guān)聯(lián)同一時期同一年份的人物手稿,還可以通過地域的不同對名人手稿進行分類,是研究近現(xiàn)代歷史、人文、經(jīng)濟、社會等問題的寶貴資料。
3.不一致性檢驗
知識圖譜經(jīng)過眾包和多源校驗,使得其質(zhì)量較高。采用單一數(shù)據(jù)源的人物檔案信息分析有可能會由于數(shù)據(jù)的片面性而導致分析的偏差、失誤與孤證難立。知識圖譜融合各個領(lǐng)域中的結(jié)構(gòu)化數(shù)據(jù)如各種關(guān)系數(shù)據(jù)庫、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)如文本資料數(shù)據(jù),可能使用多個知識抽取工具為每個數(shù)據(jù)項從每個數(shù)據(jù)源中抽取相應的值,對出現(xiàn)不一致性的地方進行自動標注,減少人工的工作量。在人物檔案利用中,可以綜合利用不同層面、不同平臺、不同類型的多種人物檔案數(shù)據(jù)源,相互補充、相互關(guān)聯(lián),充分利用數(shù)量眾多的文字、實物等記錄,以進行多角度知識發(fā)現(xiàn),從而實現(xiàn)更全面、深入的分析;還可根據(jù)同一歷史事件、同一人物分析結(jié)果的一致性對結(jié)論的可靠性進行交叉驗證,以此來真正提高人物檔案電子化的科學性、準確性與可靠性。
四、知識圖譜在人物檔案利用中的應用方法
1.數(shù)據(jù)挖掘
目前,人物檔案資源并非憑借現(xiàn)代化的技術(shù)和設(shè)備就能很好地被利用,即使利用,在很大程度上也已難達到預期的效果。從人物檔案海量的文本、圖像等各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中抽取實體、實體屬性、實體之間的關(guān)系,由此來構(gòu)建知識圖譜,一般以圖模型來描述語義關(guān)系,其中的節(jié)點表示實體,而鏈接節(jié)點之間的線條來刻畫屬性或關(guān)系,顯示真實的相關(guān)信息。通過數(shù)據(jù)挖掘,發(fā)現(xiàn)蘊藏在人物檔案資源中的各類隱性知識因子,將人物檔案中的知識盡量顯性化,為廣大用戶利用這些知識創(chuàng)造條件。在檔案中提取涉及的實體和概念,然后在知識圖譜中查找相關(guān)的實體和屬性值,也就是將人物檔案與知識圖譜中已經(jīng)有的相關(guān)的實體和概念相匹配,同時將該實體的其他屬性以及周邊有關(guān)系的實體一并記錄。將分散的記錄關(guān)聯(lián)起來,有利于知識聚合的實現(xiàn),發(fā)掘出新的知識,從而達到對人物檔案進行深層次開發(fā)的目的。
2.實體識別
識別文本中的實體,并將它們連接到知識庫中是讓機器理解語言的第一步。實體識別出來的實體名通常是有歧義的,比如北京一詞,它可能是在說古代時的太原,也可能是在說現(xiàn)在的首都,還可能是一本小說的名稱,一首歌曲。解決這個問題的關(guān)鍵是有效地利用實體本身屬性以及實體名出現(xiàn)時上下文的信息。采用啟發(fā)式方法與知識圖譜的分析形成互補和驗證,數(shù)據(jù)數(shù)量不夠、缺少知識背景時,利用人的經(jīng)驗在解決問題時采用已經(jīng)行之有效的方法。中文相較于英文有一個很大的特點是中心詞在后面,因此在對人物檔案進行信息匹配時應從后向前進行匹配,以提高工作的效率,這樣的疊加匹配也可以提高人物識別的準確率。
3.知識推理
知識推理是按照某種策略由已知判斷推出新的判斷的思維過程。知識圖譜補全和去噪是知識推理的兩大基礎(chǔ)應用,現(xiàn)有的知識圖譜由于數(shù)據(jù)來源的不全面以及知識獲取的遺漏,不可能構(gòu)建完備的知識圖譜,利用知識圖譜中已有的知識去推理出新的事實,從而盡可能地對知識圖譜進行補全。知識圖譜的知識推理不僅僅局限于以基于邏輯和規(guī)則為主的傳統(tǒng)知識推理,還可以有更多樣化的推理方法。知識圖譜關(guān)注大量的具體實例三元組,以中立的方式描述概念,概念之間的關(guān)系和它們的屬性,由于知識圖譜自身實例為主導的特征,不局限于本體主要的概念層面的抽象推理,通過知識圖譜的語義關(guān)系網(wǎng),可以用關(guān)系來推斷一些人物檔案之間的聯(lián)系。對于描述同一個人、同一事件的同一詞進行相似判斷,兩個詞可能是同一種描述的不同表達,但語義上的相似可以將兩個詞,兩個檔案內(nèi)容聯(lián)系起來。
(作者單位:上海大學圖書情報檔案系)