孫浩洋 沈固朝
(1.南京大學(xué)信息管理學(xué)院 南京 210046;2.中國(guó)南海研究協(xié)同創(chuàng)新中心 南京 210046)
文獻(xiàn)資源是史地研究的基礎(chǔ),傳統(tǒng)研究對(duì)于文獻(xiàn)的運(yùn)用主要是基于研究者自己對(duì)其知識(shí)內(nèi)容進(jìn)行人工挖掘和展示,但隨著文獻(xiàn)數(shù)量的激增和用戶(hù)對(duì)知識(shí)獲取精準(zhǔn)、便捷和高效的需求,要求文獻(xiàn)工作者深入文獻(xiàn)內(nèi)部,對(duì)海量、細(xì)粒度、半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行深入研究,挖掘其內(nèi)在特征和潛在聯(lián)系,將文獻(xiàn)內(nèi)容元素特征及相互關(guān)系以一種更直觀和可視化的方式呈現(xiàn)出來(lái),便于計(jì)算機(jī)進(jìn)行數(shù)據(jù)層面而非傳統(tǒng)的文獻(xiàn)層面的處理,也就是說(shuō),從過(guò)去以篇為單位展開(kāi)的檢索語(yǔ)言研究轉(zhuǎn)向到從段落、句子等更細(xì)?;R(shí)內(nèi)容進(jìn)行探索。知識(shí)元(Knowledge Element)的概念就是在這樣的背景下提出的,它是不可再分最小知識(shí)單元,是包含了描述型語(yǔ)言及相關(guān)屬性的集合。本文引入知識(shí)元對(duì)南海歷史文獻(xiàn)知識(shí)元內(nèi)容標(biāo)引與抽取規(guī)則進(jìn)行探索性研究,對(duì)不同維度的知識(shí)粒度量化進(jìn)行探討,以期構(gòu)造出歷史文獻(xiàn)中南海問(wèn)題知識(shí)元模型,利用知識(shí)元關(guān)聯(lián)爭(zhēng)端事件演變過(guò)程,提高知識(shí)利用和挖掘效率。
在認(rèn)知體系中,知識(shí)元構(gòu)成知識(shí)及新知識(shí)單元的基礎(chǔ)是其知識(shí)結(jié)構(gòu)的最小元素(基元)[1],故知識(shí)單元包含了知識(shí)元。王渝麗將知識(shí)元定義為知識(shí)組成的結(jié)構(gòu)要素,用來(lái)表示知識(shí)元的描述就是內(nèi)容概括的關(guān)鍵詞或詞組,在人類(lèi)認(rèn)知體系中包括概念、定律、規(guī)則等[2]。孫成江認(rèn)為知識(shí)元是可以根據(jù)用戶(hù)需求、描述知識(shí)存取與組織、檢索和利用的,能夠自由切分的描述知識(shí)內(nèi)容的最小知識(shí)單位[3]。
常見(jiàn)的文獻(xiàn)資源知識(shí)元內(nèi)容抽取方法是基于規(guī)則的抽取方法,借助句式結(jié)構(gòu)、語(yǔ)言描述框架,對(duì)文獻(xiàn)資源中的知識(shí)元進(jìn)行識(shí)別和抽取,需要依賴(lài)專(zhuān)家對(duì)大量文本進(jìn)行人工標(biāo)注,并總結(jié)各類(lèi)知識(shí)元的描述規(guī)則[4]。胡昌平提出用半自動(dòng)化技術(shù)進(jìn)行抽取,由專(zhuān)家進(jìn)行少量知識(shí)元內(nèi)容抽取,通過(guò)自然語(yǔ)言處理獲得標(biāo)識(shí)詞,對(duì)標(biāo)識(shí)詞位置、語(yǔ)法特征等建立映射規(guī)則,結(jié)合專(zhuān)家經(jīng)驗(yàn)對(duì)抽取規(guī)則進(jìn)行完善[5]?;亓植捎脙?nèi)容分析法,分析大量文獻(xiàn),識(shí)別出科技文獻(xiàn)中的方法知識(shí)元,將其定義為“定義、關(guān)系、特點(diǎn)、流程、功能”5個(gè)維度,并分別進(jìn)行抽取[6]。趙蓉英基于主題詞表對(duì)中文智庫(kù)成果進(jìn)行知識(shí)元抽取,歸納了知識(shí)元的描述規(guī)則,包括方法說(shuō)明型和研究思路型兩種規(guī)則[7]。畢崇武根據(jù)方法知識(shí)元在描述知識(shí)步驟、特征、關(guān)系等屬性,構(gòu)建了基于知識(shí)標(biāo)識(shí)、基于知識(shí)描述和基于知識(shí)關(guān)系3個(gè)層面的知識(shí)元描述框架,并依據(jù)框架對(duì)方法知識(shí)元進(jìn)行抽取[8]。
綜上所述,不同領(lǐng)域?qū)χR(shí)元的認(rèn)知與研究角度不同,應(yīng)用于文獻(xiàn)與知識(shí)組織的模型也不一致。本文將完整描述民國(guó)南海文獻(xiàn)中相關(guān)知識(shí)與概念的最小知識(shí)單元,定義為南海文獻(xiàn)知識(shí)元,并借鑒上述研究提出一種從文獻(xiàn)抽取知識(shí)元內(nèi)容描述的方法:先識(shí)別知識(shí)元內(nèi)容描述的動(dòng)詞,對(duì)動(dòng)詞在文本中的位置和語(yǔ)法特征進(jìn)行規(guī)則組配,形成知識(shí)元內(nèi)容描述規(guī)則,然后通過(guò)規(guī)則識(shí)別文本序列中的其他標(biāo)識(shí)詞,同時(shí)抽象規(guī)則;再利用規(guī)則匹配文獻(xiàn)資源的文本內(nèi)容,抽取滿(mǎn)足條件的內(nèi)容描述,最后進(jìn)行人工校對(duì),保留滿(mǎn)足規(guī)則且符合內(nèi)容描述的知識(shí)元入庫(kù)。
民國(guó)時(shí)期中國(guó)南海問(wèn)題的文獻(xiàn)資源具有當(dāng)時(shí)的時(shí)代特性,反映著當(dāng)時(shí)外交、民生、社會(huì)、學(xué)術(shù)領(lǐng)域最真實(shí)最前沿的問(wèn)題和探討,是佐證南海問(wèn)題主權(quán)歸屬的重要環(huán)節(jié)。南海文獻(xiàn)知識(shí)元的內(nèi)容由對(duì)知識(shí)內(nèi)容描述的完整語(yǔ)句、段落或者篇章組成。知識(shí)元的名稱(chēng)是基于知識(shí)元標(biāo)識(shí)詞——規(guī)范化文獻(xiàn)資源的標(biāo)題(檔案資源中標(biāo)為“事由”)與知識(shí)元屬性如背景、關(guān)系、結(jié)論等組合而成,這些屬性在知識(shí)元來(lái)源中并非都有直接的、顯在的表示,但卻可以通過(guò)對(duì)知識(shí)內(nèi)容描述分析后得到,可稱(chēng)為隱性屬性。由于南海文獻(xiàn)內(nèi)容多樣而復(fù)雜,基于前文對(duì)知識(shí)元的描述,現(xiàn)提出基于規(guī)則的民國(guó)南海史地文獻(xiàn)知識(shí)元提取方法,其規(guī)則提取模型如圖1所示。
圖1 基于規(guī)則的知識(shí)元提取模型
首先,對(duì)民國(guó)南海文獻(xiàn)類(lèi)型進(jìn)行確定,其中包括政府文件和公開(kāi)資料(如論文、剪報(bào)、地圖等),根據(jù)獲取文獻(xiàn)信息的元數(shù)據(jù),確定類(lèi)型的文獻(xiàn)文本,直接獲取知識(shí)元的來(lái)源。其次,對(duì)文獻(xiàn)的文本進(jìn)行分句,利用主題詞構(gòu)建知識(shí)元標(biāo)識(shí)詞表,結(jié)合句法匹配規(guī)則提取出對(duì)知識(shí)元內(nèi)容進(jìn)行描述的候選句,對(duì)候選語(yǔ)句歸納總結(jié),形成術(shù)語(yǔ)句式,采用人工校對(duì)與分類(lèi),對(duì)知識(shí)元內(nèi)容描述規(guī)則進(jìn)行提煉,形成規(guī)則模板;對(duì)于候選語(yǔ)句中無(wú)法形成術(shù)語(yǔ)句式的句子,識(shí)別謂詞擴(kuò)展補(bǔ)充知識(shí)元標(biāo)識(shí)詞表。再次,將南海文獻(xiàn)分句與知識(shí)元內(nèi)容描述規(guī)則進(jìn)行匹配,通過(guò)人工干預(yù)確定知識(shí)元的內(nèi)容。最后,將獲取的知識(shí)元內(nèi)容信息,與文獻(xiàn)元數(shù)據(jù)結(jié)合,獲取文獻(xiàn)資源中對(duì)南海爭(zhēng)端問(wèn)題內(nèi)容描述的完整知識(shí)元信息,并將其抽取后存入知識(shí)元數(shù)據(jù)庫(kù)中,方便將來(lái)南海維權(quán)數(shù)據(jù)內(nèi)容獲取。
為了能在計(jì)算機(jī)中實(shí)現(xiàn)對(duì)知識(shí)元內(nèi)容提取,需要建立一系列提取規(guī)則,并進(jìn)行規(guī)則描述。構(gòu)建完善的抽取規(guī)則是知識(shí)元抽取的關(guān)鍵。正如前述,化柏林通過(guò)對(duì)大量文獻(xiàn)進(jìn)行內(nèi)容分析,人工審核與合并歸類(lèi),研究了基于模式的規(guī)則,利用已定義的3種知識(shí)元類(lèi)型,使用規(guī)則對(duì)方法知識(shí)元進(jìn)行抽取[6]。譚熒等則利用命名實(shí)體識(shí)別和事件抽取的模式,通過(guò)命名實(shí)體與觸發(fā)詞表的匹配規(guī)則實(shí)現(xiàn)事件知識(shí)元的抽取,并對(duì)于識(shí)別命名實(shí)體不同部分進(jìn)行規(guī)則制定[9]。
研究民國(guó)南海問(wèn)題的文獻(xiàn)具有描述事件背景突出、聚焦問(wèn)題前沿、語(yǔ)言豐富、學(xué)者各抒己見(jiàn)等特點(diǎn),因而本文把民國(guó)文獻(xiàn)內(nèi)容描述的知識(shí)元分為陳述型和程序型,前者包括背景知識(shí)元、事實(shí)知識(shí)元等陳述型文字內(nèi)容,后者包括方法知識(shí)元和過(guò)程知識(shí)元,具有內(nèi)在邏輯的文字內(nèi)容。見(jiàn)表1。
表1 民國(guó)南海文獻(xiàn)知識(shí)元分類(lèi)
陳述型知識(shí)元描述的是南海文獻(xiàn)中對(duì)已存在的事實(shí)描述或者對(duì)爭(zhēng)端事件進(jìn)行背景介紹以及對(duì)于相關(guān)術(shù)語(yǔ)或者知識(shí)進(jìn)行定義,或者對(duì)事件的評(píng)述、解決方案或事件結(jié)果直接進(jìn)行內(nèi)容描述,是知識(shí)元抽取的重要部分。通過(guò)對(duì)民國(guó)文獻(xiàn)歸納,將南海問(wèn)題描述的陳述型知識(shí)元分為背景、事實(shí)、定義和結(jié)論。
3.1.1背景知識(shí)元
背景知識(shí)元是研究者對(duì)南海問(wèn)題發(fā)生的背景環(huán)境、現(xiàn)存問(wèn)題以及已有認(rèn)知情況進(jìn)行的文字化描述。本研究通過(guò)對(duì)民國(guó)文獻(xiàn)的整理,提煉出3種類(lèi)型的背景知識(shí)元描述規(guī)則,分別由不同涵義的謂語(yǔ)代表直述型、觀點(diǎn)型。見(jiàn)表2。
表2 背景知識(shí)元描述規(guī)則
直述型即直接敘述型語(yǔ)句,對(duì)南海文獻(xiàn)中的人、事、物等直接進(jìn)行語(yǔ)言描述和表示,不具備典型的規(guī)則標(biāo)引語(yǔ)句,一般情況是由標(biāo)識(shí)詞表示知識(shí)元內(nèi)容的主語(yǔ),通過(guò)謂語(yǔ)銜接描述內(nèi)容,由于直述型描述是對(duì)背景知識(shí)的介紹,沒(méi)有句式上的修辭。觀點(diǎn)型是描述者對(duì)文獻(xiàn)內(nèi)容背景介紹的理解描述,指示民國(guó)南海文獻(xiàn)中背景描述的觀點(diǎn)信息,其句式結(jié)構(gòu)特點(diǎn)簡(jiǎn)單,規(guī)則架構(gòu)一般銜接觀點(diǎn)發(fā)出者,評(píng)述背景的觀點(diǎn)內(nèi)容或者作者對(duì)觀點(diǎn)的釋義,廣泛存在于文獻(xiàn)資源的綜述研究、前期研究或?qū)Ρ尘爸R(shí)介紹后的作者評(píng)述,立場(chǎng)聲明等內(nèi)容之中。
3.1.2事實(shí)知識(shí)元
事實(shí)知識(shí)元是對(duì)南海爭(zhēng)端發(fā)生的既定事實(shí)或事件信息的描述。本文將事實(shí)知識(shí)元分為觀點(diǎn)型、事件型、序列型。見(jiàn)表3。
表3 事實(shí)知識(shí)元描述規(guī)則
觀點(diǎn)型是對(duì)文獻(xiàn)中觀點(diǎn)的事實(shí)信息進(jìn)行描述,其句式結(jié)構(gòu)簡(jiǎn)單與背景知識(shí)元中的觀點(diǎn)型描述規(guī)則類(lèi)似,表述南海爭(zhēng)議的立場(chǎng)和觀點(diǎn),廣泛存在于前期研究成果或作者評(píng)述、國(guó)際立場(chǎng)聲明等內(nèi)容中。事件型是對(duì)南海事件的客觀描述,具有明顯的時(shí)間、地點(diǎn)或時(shí)間地點(diǎn)組合信息,通過(guò)標(biāo)識(shí)詞對(duì)事件概括,銜接事件的內(nèi)容等信息的描述。序列型是一種形式化的描述,其句式通過(guò)序列連詞與事實(shí)知識(shí)結(jié)合構(gòu)成,既可以是描述順序的第一、第二、第三等數(shù)字連詞,也可以是首先,其次,再次等關(guān)系連詞,在文獻(xiàn)中大量的事實(shí)分類(lèi)描述是通過(guò)序列型表達(dá),對(duì)于事實(shí)知識(shí)元描述的內(nèi)容具有表達(dá)明確,邏輯清晰,條理分明,結(jié)構(gòu)清楚的特點(diǎn)。
在民國(guó)南海文獻(xiàn)內(nèi)容研究中,背景知識(shí)元和事實(shí)知識(shí)元數(shù)量龐大,構(gòu)成了南海知識(shí)元的重要知識(shí)元資源庫(kù),利用上述規(guī)則識(shí)別、標(biāo)引出南海知識(shí)元,使得以篇為單位的文章簡(jiǎn)化為以片段為單位的知識(shí)元,結(jié)合時(shí)空信息構(gòu)成專(zhuān)屬事實(shí)、背景知識(shí)元庫(kù),為后續(xù)研究提供客觀資料。同時(shí)半結(jié)構(gòu)化規(guī)則的歸納與制定也成為知識(shí)細(xì)?;馁Y源結(jié)構(gòu),為南海知識(shí)元檢索提供了方法。
3.1.3定義知識(shí)元
定義知識(shí)元多是對(duì)南海事件或爭(zhēng)端問(wèn)題中的政策概念、法律術(shù)語(yǔ)等概念和原理的解釋。包括內(nèi)涵解釋型和外延解釋型描述規(guī)則,前者對(duì)其概念原理的說(shuō)明,后者描述其概念或原理的包含范疇,見(jiàn)表4。
表4 定義知識(shí)元描述規(guī)則
內(nèi)涵型和外延型分別對(duì)應(yīng)民國(guó)南海文獻(xiàn)法理、命名等概念和原理內(nèi)涵與外延的釋義,內(nèi)涵型是對(duì)描述的南海相關(guān)內(nèi)容本身進(jìn)行釋義,一般標(biāo)引出民國(guó)南海文獻(xiàn)中的政策、原理、法律概念的解讀。外延型是對(duì)釋義的補(bǔ)充或所含有實(shí)例的解讀,對(duì)同一定義的描述,其內(nèi)涵型與外延型的描述規(guī)則共同構(gòu)成對(duì)此知識(shí)元定義概念的描述。
定義知識(shí)元所描述的是已有或已研究或社會(huì)共識(shí)性已認(rèn)可的概念定義知識(shí)。在維護(hù)南海主權(quán)層面,多為國(guó)際社會(huì)共同認(rèn)可的法律概念或國(guó)家政策、法律法規(guī)的定義等。這些概念性知識(shí)描述對(duì)于南海維權(quán)中的理論學(xué)習(xí)、定義檢索有直接的輔助作用。
3.1.4結(jié)論知識(shí)元
結(jié)論知識(shí)元是對(duì)南海歷史事實(shí)或爭(zhēng)端事件的客觀事實(shí)、作用、推斷等內(nèi)容的描述,但具有明顯的現(xiàn)在時(shí)或?qū)?lái)時(shí)的時(shí)間信息特點(diǎn)。與背景和事實(shí)知識(shí)元描述的最大區(qū)別就是時(shí)效性,背景/事實(shí)知識(shí)元都是在過(guò)去的時(shí)間點(diǎn)或時(shí)間段中對(duì)南海問(wèn)題進(jìn)行的描述,即對(duì)既成事實(shí)的客觀描述,有明顯的過(guò)去時(shí)表達(dá)特點(diǎn)。結(jié)論知識(shí)元同樣分為直述型、序列型、觀點(diǎn)型,與前者區(qū)別在于結(jié)論知識(shí)元描述南海相關(guān)內(nèi)容的時(shí)間節(jié)點(diǎn)在選用事件主題詞所表達(dá)的時(shí)間段之后。同時(shí)結(jié)論知識(shí)元還包括歸納推斷型,共4種描述規(guī)則類(lèi)型,見(jiàn)表5。
表5 結(jié)論知識(shí)元描述規(guī)則
歸納推斷型是在民國(guó)南海文獻(xiàn)中對(duì)內(nèi)容描述歸納性結(jié)論型語(yǔ)句的表達(dá),有兩種表達(dá)類(lèi)型,一類(lèi)是用“由……可見(jiàn)/從……來(lái)看/通過(guò)……可知”等形式的語(yǔ)義描述規(guī)則將被歸納的對(duì)象與文本的結(jié)論信息進(jìn)行連接;一類(lèi)是通過(guò)“綜上以觀/由此觀之……”等形式規(guī)則直接對(duì)上文中的內(nèi)容描述進(jìn)行歸納,并連接結(jié)論內(nèi)容。
結(jié)論知識(shí)元是對(duì)民國(guó)南海文獻(xiàn)研究?jī)?nèi)容的總結(jié),用于指導(dǎo)、決策或建議,是組成南海知識(shí)元庫(kù)的重要組分。其描述的內(nèi)容是當(dāng)時(shí)時(shí)事分析、研究討論結(jié)果中知識(shí)價(jià)值最突出的知識(shí)資源,也是表達(dá)作者觀點(diǎn)的重要依據(jù)。歸納推斷型是對(duì)前期南海問(wèn)題研究的深層總結(jié),歸納性強(qiáng)。對(duì)已有的南海問(wèn)題的探討及研究得到的結(jié)論知識(shí)元,是從現(xiàn)實(shí)層面衡量民國(guó)南海文獻(xiàn)價(jià)值的重要依據(jù),也為后續(xù)研究提供了理論基礎(chǔ)知識(shí)資源。
程序型知識(shí)元說(shuō)明在民國(guó)南海文獻(xiàn)內(nèi)容描述中存在事件間或者內(nèi)容間的內(nèi)在聯(lián)系,這種聯(lián)系既可以是文本內(nèi)容對(duì)研究方法的說(shuō)明,也可以是對(duì)研究?jī)?nèi)容流程或文本描述過(guò)程的內(nèi)在關(guān)系的表示,分為方法知識(shí)元和過(guò)程知識(shí)元。
3.2.1方法知識(shí)元
方法知識(shí)元在民國(guó)南海文獻(xiàn)中的描述并不是直述式的表達(dá),常常是文中段首概括性的描述,定為方法類(lèi)型。方法類(lèi)型是對(duì)文章的研究方法或者文獻(xiàn)內(nèi)容的詳細(xì)情況摘要說(shuō)明。如“……欲研究此問(wèn)題,(進(jìn)而/然后)……”對(duì)后文的方法知識(shí)描述進(jìn)行概括,見(jiàn)表6。
表6 方法知識(shí)元描述規(guī)則
3.2.2過(guò)程知識(shí)元
過(guò)程知識(shí)元是民國(guó)南海文獻(xiàn)邏輯上程序式的表達(dá),是對(duì)文章內(nèi)容撰寫(xiě)的步驟說(shuō)明,是對(duì)文章中提出的研究問(wèn)題做出應(yīng)對(duì)的反饋,描述的是研究者對(duì)解決問(wèn)題的研究過(guò)程,定為因果型,見(jiàn)表7。
表7 過(guò)程知識(shí)元描述規(guī)則
研究者對(duì)于南海問(wèn)題事實(shí)的描述,更多的是對(duì)于事件內(nèi)容以及研究過(guò)程的描述,揭示南海事件內(nèi)容的內(nèi)部關(guān)系,通過(guò)對(duì)過(guò)程的客觀因果描述,引出研究者的觀點(diǎn)和建議,內(nèi)容描述服務(wù)于研究結(jié)論。
基于數(shù)據(jù)的民國(guó)南海文獻(xiàn)知識(shí)元在“規(guī)則”的引導(dǎo)下進(jìn)行內(nèi)容抽取,具有細(xì)粒化文獻(xiàn)內(nèi)容、多維度語(yǔ)義關(guān)聯(lián)的優(yōu)勢(shì),對(duì)于民國(guó)南海維權(quán)內(nèi)容研究、南海資料的數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)以及南海文獻(xiàn)數(shù)字化研究有重要的應(yīng)用價(jià)值。
前文中將南海文獻(xiàn)不同類(lèi)型知識(shí)元通過(guò)具體描述內(nèi)容的不同分為了背景知識(shí)元、事實(shí)知識(shí)元、定義知識(shí)元、結(jié)論知識(shí)元、方法知識(shí)元和過(guò)程知識(shí)元,分別對(duì)每種知識(shí)元描述的語(yǔ)法規(guī)則與常用句式結(jié)合,歸納出知識(shí)元內(nèi)容的抽取規(guī)則。根據(jù)上文知識(shí)元描述規(guī)則句法表達(dá)示例,可知不同知識(shí)元間有重復(fù)的類(lèi)型描述,如直述型、觀點(diǎn)型、序列型,不同的類(lèi)型描述擁有固定的句式,這些句式中包括其固有的詞組或固定的描述語(yǔ)序。利用上述描述的固定句式,歸納總結(jié)并提取一個(gè)規(guī)則模型,通過(guò)模型對(duì)不同類(lèi)型的南海知識(shí)元描述進(jìn)行提取。
上文對(duì)知識(shí)元描述規(guī)則做了詳細(xì)的分析說(shuō)明,根據(jù)其句式結(jié)構(gòu),語(yǔ)義描述特征,以及描述規(guī)則關(guān)鍵詞和標(biāo)識(shí)詞的位置問(wèn)題,將前文中方法類(lèi)型的描述規(guī)則并入序類(lèi)型,因果型并入歸納型。以此歸納出6種描述規(guī)則,用于形成知識(shí)元提取描述規(guī)則集合,分別是直述型、觀點(diǎn)型、事件型、序列型、定義型、歸納型。
定義提取規(guī)則是多個(gè)知識(shí)元描述句句法規(guī)則的集合,在中文文本信息描述中,句法規(guī)則包含實(shí)體、詞性、觸發(fā)詞(標(biāo)識(shí)詞)等幾個(gè)組成部分,歸納總結(jié)其具體描述如下:
知識(shí)元抽取規(guī)則={ SR1,SR2,SR3,……SRi};
(SRi表示知識(shí)元描述句法規(guī)則)
SRi= <知識(shí)元屬性><描述類(lèi)型><知識(shí)元標(biāo)識(shí)詞><觸發(fā)詞><觸發(fā)詞詞性><位置>,其中知識(shí)元屬性包括前文中提到的背景、事實(shí)、定義、結(jié)論、過(guò)程、方法、建議、評(píng)價(jià),描述類(lèi)型包括直述型、序列型、觀點(diǎn)型等。知識(shí)元標(biāo)識(shí)詞(Wi)是指相應(yīng)知識(shí)元屬性所描述的主題詞匯或命名實(shí)體。觸發(fā)詞(Tw)描述知識(shí)元標(biāo)識(shí)詞即將鏈接的內(nèi)容的主要謂詞,是對(duì)知識(shí)元屬性和描述類(lèi)型確定的標(biāo)識(shí),例如定義型的用詞常常是“所謂……”或“……是/包含……”。觸發(fā)詞詞性(Tp)表示標(biāo)識(shí)的觸發(fā)詞的詞性。位置(pos)標(biāo)識(shí)知識(shí)元的標(biāo)識(shí)詞與觸發(fā)詞的位置關(guān)系以及兩者間的詞距,有兩種形式位置關(guān)系,即在標(biāo)識(shí)詞位置之前(pre)和標(biāo)識(shí)詞位置之后(sub),其詞距步長(zhǎng)設(shè)置為正整數(shù),故而pre1則表示標(biāo)識(shí)詞與觸發(fā)詞之間的距離為1,說(shuō)明兩者是緊鄰關(guān)系,sub1亦然。當(dāng)描述的知識(shí)元標(biāo)識(shí)詞與觸發(fā)詞之間的距離小于2,則定義為兩者是緊鄰關(guān)系,沒(méi)有數(shù)值時(shí),則表示非緊鄰關(guān)系。
在定義句法規(guī)則后,可以為前文歸納匯總的每一類(lèi)知識(shí)元描述規(guī)則建立相應(yīng)的句法提取規(guī)則,具體提取規(guī)則如表8所示。
表8 知識(shí)元抽取句法規(guī)則示例
根據(jù)上節(jié)中歸納的知識(shí)元抽取句法規(guī)則,將規(guī)則與標(biāo)識(shí)詞和文章描述內(nèi)容的主題詞結(jié)合,獲取映射匹配結(jié)果,分析民國(guó)南海文獻(xiàn)內(nèi)容,匹配句法規(guī)則與文本內(nèi)容的句法結(jié)構(gòu),利用匹配算法獲取滿(mǎn)足知識(shí)元抽取句法規(guī)則且包含有相應(yīng)標(biāo)識(shí)詞及南海相關(guān)主題詞的分句。根據(jù)知識(shí)元的內(nèi)容描述規(guī)則提取民國(guó)南海文獻(xiàn)中的知識(shí)元內(nèi)容,將結(jié)果存入知識(shí)元標(biāo)引數(shù)據(jù)庫(kù)中。本節(jié)對(duì)知識(shí)元內(nèi)容描述進(jìn)行抽取,基于規(guī)則的時(shí)空角度民國(guó)南海文獻(xiàn)知識(shí)元抽取流程如圖1所示。
本文數(shù)據(jù)來(lái)源為教育部重大項(xiàng)目“民國(guó)時(shí)期中國(guó)政府維護(hù)南海主權(quán)的檔案資料整理與研究”結(jié)項(xiàng)成果民國(guó)資料部分,共收集209篇民國(guó)時(shí)期的資料,包括報(bào)紙、報(bào)告、論文,全文化處理后共計(jì)約20萬(wàn)字,為了便于過(guò)程描述,本節(jié)選取《法占華南九小島事》[10]第五節(jié)的一段內(nèi)容進(jìn)行說(shuō)明,見(jiàn)圖2。
圖2 《法占華南九小島事》第五節(jié)“理論上之推究”的知識(shí)元示意圖
上述文檔材料中雙下劃線的表示歸納型知識(shí)元,曲下劃線的表示觀點(diǎn)型知識(shí)元,點(diǎn)下劃線的表示定義型知識(shí)元。據(jù)表8中的實(shí)例描述基于規(guī)則的知識(shí)元提取實(shí)現(xiàn)過(guò)程。表9則是從實(shí)例中提取的知識(shí)元句法規(guī)則組合及知識(shí)元名稱(chēng)及屬性類(lèi)型。
表9 知識(shí)元提取規(guī)則組合示例
根據(jù)文檔《法占華南九小島事》說(shuō)明知識(shí)元內(nèi)容抽取的實(shí)現(xiàn)過(guò)程,為了便于理解,此處對(duì)文檔中定義知識(shí)元進(jìn)行介紹。
a.參照上文總結(jié)的知識(shí)元描述規(guī)則,在計(jì)算機(jī)中構(gòu)建知識(shí)元各屬性的基于知識(shí)元描述規(guī)則的句法抽取規(guī)則表,構(gòu)建定義知識(shí)元句法描述規(guī)則,其規(guī)則描述如表10所示。
表10 定義知識(shí)元提取規(guī)則句法描述
b.抽取文本描述標(biāo)識(shí)詞:“法占華南九小島”,及文本主題詞:“先占”。利用民國(guó)南海文獻(xiàn)的標(biāo)識(shí)詞與句法抽取規(guī)則進(jìn)行組配(標(biāo)注標(biāo)識(shí)詞或主題詞出現(xiàn)的位置),獲取滿(mǎn)足知識(shí)元內(nèi)容提取規(guī)則的句法規(guī)則組合。如[標(biāo)識(shí)詞]+[句法規(guī)則]。
c.句法規(guī)則組配,得到知識(shí)元描述規(guī)則句法結(jié)構(gòu)組合表,如表11所示。
表11 定義知識(shí)元描述規(guī)則句法組合
d.句法描述規(guī)則組合與分句結(jié)果進(jìn)行匹配,提取候選語(yǔ)句。
分句結(jié)果:
①五 理論上之推究
②根據(jù)國(guó)際公法而推究此次法國(guó)占領(lǐng)九小島事,法國(guó)并無(wú)充分之理由,查國(guó)際公法本有先占之原則,其客體須為國(guó)際法上無(wú)主之地。
③ 這就是說(shuō)“惟沒(méi)有國(guó)家領(lǐng)有之土地,方得為先占之客體,此項(xiàng)土地,猶如荒島,無(wú)人類(lèi)居住于該島上,或?yàn)橥寥怂幼?,而其社?huì)之組織不能認(rèn)為國(guó)家者,十人所居住之地域,部落之組織不得視為國(guó)家”。
④又“凡屬于一國(guó)之土地而該國(guó)拋棄之,亦得為先占之標(biāo)的地”。
⑤今此項(xiàng)島嶼在我中國(guó)海之內(nèi)為中國(guó)漁民歷來(lái)居住,往來(lái)漁獵之所、且西南政府曾一度派員測(cè)勘,則此等島嶼不得視為無(wú)主之土地,蓋已彰明昭著矣。
⑥且巴黎八月廿一日電稱(chēng)關(guān)于此次法國(guó)占領(lǐng)九島中,內(nèi)有二島住有中國(guó)漁民。
⑦由此可知,法國(guó)所占領(lǐng)之九島中,至少二島有華人居住,有人居住之土地,豈能稱(chēng)為無(wú)主之土地乎?
⑧ 更進(jìn)而言之:此項(xiàng)法國(guó)宣布先占之土地,即系中國(guó)所有,則法國(guó)當(dāng)然無(wú)攘奪之可能。
⑨蓋先占之成立必須為有效之占領(lǐng),所謂有效之占領(lǐng)者須包含占有與管理(Possession and administration)之現(xiàn)象。
⑩ 而“占有須經(jīng)公告,懸旗,惟此種形式之行為,除在其七地上有行政之設(shè)備,則其本身僅能成假定之先占。
獲得候選知識(shí)元描述語(yǔ)句:②,③,④,⑥,⑦,⑧,⑨,⑩,,
e.人工選擇,確定知識(shí)元(保留候選語(yǔ)句②,③,⑦,⑧,⑨,,)。
f.根據(jù)知識(shí)元各元數(shù)據(jù)提取規(guī)則,獲得其屬性信息,構(gòu)成南海知識(shí)元,如表12所示。
表12 定義知識(shí)元示例
續(xù)表12 定義知識(shí)元示例
g.將步驟5與步驟6中獲取的知識(shí)元的描述信息存入民國(guó)南海文獻(xiàn)知識(shí)元庫(kù),并規(guī)范化南海知識(shí)元元數(shù)據(jù)信息。
為了實(shí)現(xiàn)民國(guó)南海文獻(xiàn)知識(shí)元內(nèi)容的準(zhǔn)確抽取,提高知識(shí)元內(nèi)容描述完整性,本文提出了基于描述規(guī)則的知識(shí)元抽取方法,實(shí)現(xiàn)從以篇幅為單位的主題詞關(guān)鍵詞抽取到以句為單位的知識(shí)元數(shù)據(jù)級(jí)抽取。首先將文獻(xiàn)內(nèi)容描述根據(jù)知識(shí)元分類(lèi)分為陳述型和程序型,歸納總結(jié)多種方法對(duì)不同知識(shí)元內(nèi)容進(jìn)行抽取的規(guī)則模板,分別對(duì)其進(jìn)行詳細(xì)說(shuō)明。然后根據(jù)歸納的規(guī)則模板,對(duì)民國(guó)南海文獻(xiàn)進(jìn)行匹配映射,獲取滿(mǎn)足規(guī)則模板的文本片段,通過(guò)人工篩選校對(duì),保留既滿(mǎn)足規(guī)則又能準(zhǔn)確描述文本內(nèi)容的知識(shí)元。最后對(duì)知識(shí)元抽取規(guī)則進(jìn)行了驗(yàn)證,結(jié)果表明這種基于句法描述規(guī)則的知識(shí)元抽取方法能夠較好地完成從民國(guó)南海文獻(xiàn)中對(duì)知識(shí)元的抽取。
本文重點(diǎn)關(guān)注的是如何歸納總結(jié)知識(shí)元內(nèi)容描述規(guī)則以完整地抽取民國(guó)南海文獻(xiàn)中的知識(shí)元。在研究過(guò)程中發(fā)現(xiàn)這些類(lèi)型中知識(shí)元的描述句法結(jié)構(gòu)有獨(dú)特的特征,利用其特征提取相應(yīng)的知識(shí)元內(nèi)容會(huì)出現(xiàn)冗余信息,增加人工校對(duì)工作量,因此如何降低冗余內(nèi)容描述抽取結(jié)果需要進(jìn)一步探索。同時(shí),知識(shí)元內(nèi)容抽取結(jié)果壓縮了研究者對(duì)民國(guó)南海文獻(xiàn)的閱讀量,但提高了細(xì)粒度知識(shí)的獲取質(zhì)量和效率,為更準(zhǔn)確地獲取南海維權(quán)證據(jù)性材料提供了數(shù)據(jù)支持。