趙江江 秦兵
0引言
事件抽取任務(wù)隨著互聯(lián)網(wǎng)信息爆炸式的增長(zhǎng)越來(lái)越凸顯其重要性,而事件元素抽取又是事件抽取中至關(guān)重要的-個(gè)研究點(diǎn)。該研究旨在將無(wú)結(jié)構(gòu)化文本中人們感興趣的事件以結(jié)構(gòu)化的形式存儲(chǔ)下來(lái),以供自動(dòng)文摘、自動(dòng)問(wèn)答、話題檢測(cè)等自然語(yǔ)言處理上層技術(shù)的使用和用戶方便的查看。早期的事件抽取研究一般采取模式匹配的方法,這種方法準(zhǔn)確率較高,但是模板的獲取是實(shí)現(xiàn)的瓶頸,后來(lái)人們逐漸采用機(jī)器學(xué)習(xí)的方法,這種方法靈活性好,不需要太多的人工參與,但是由于構(gòu)建的語(yǔ)料庫(kù)規(guī)模不是很大,會(huì)引起嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,準(zhǔn)確率比模式匹配的方法低。因此針對(duì)這兩種方法的優(yōu)缺點(diǎn),采用結(jié)合背景知識(shí)庫(kù)的半指導(dǎo)方法可能解決上述問(wèn)題。本文采用基于Bootstrapping方法獲取模式的事件元素抽取,由于Bootstrapping方法的引入,儀需從一個(gè)或少數(shù)幾個(gè)初始事件種子出發(fā),通過(guò)檢索WEB,即可自動(dòng)學(xué)習(xí)出大量高準(zhǔn)確率的模板用于事件元素抽取。同時(shí)引入模板泛化的概念,以進(jìn)一步提高模板對(duì)語(yǔ)言現(xiàn)象的覆蓋率,并最終提高抽取的準(zhǔn)確率與召回率。