曹聰,曹存根,臧良軍,王石
(1. 中國科學(xué)院 計算技術(shù)研究所 智能信息處理重點實驗室,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049;3. 中國科學(xué)院 信息工程研究所,北京 100093)
一種交互式事件常識知識的獲取方法
曹聰1,2,3,曹存根1,臧良軍3,王石1
(1. 中國科學(xué)院 計算技術(shù)研究所 智能信息處理重點實驗室,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049;3. 中國科學(xué)院 信息工程研究所,北京 100093)
賦予機器常識知識是使機器具有真正智能的必備條件之一,而獲得這些常識一直是人工智能研究的一個重要課題。該文提出了一種通過交互的方式來引導(dǎo)知識貢獻者給出關(guān)于事件的常識知識的方法。方法獲取過程是一個機器與貢獻者的交互過程: 機器動態(tài)地生成問題,對知識貢獻者進行提問;知識貢獻者通過回答問題給出常識知識。交互過程通過包含提示信息的提問問題對知識貢獻者進行提示,運用七種類型問題層層遞進地引導(dǎo)知識貢獻者思考,以此喚醒他們大腦中的常識知識;通過動態(tài)變化的問題改善知識貢獻者貢獻常識知識過程的趣味性。同時,該文還引入可接受性和有效性兩個定量標準評價提問問題,用于進一步改善交互過程。實驗結(jié)果表明,知識貢獻者運用此方法給出的知識量增加了451.61%,同時知識的正確率也達到了92.5%。
常識知識獲??;事件常識;交互過程
自從McCarthy[1]開展了第一個常識知識項目,常識知識問題已經(jīng)成為人工智能界核心的研究課題,其中常識知識獲取是常識知識問題的基礎(chǔ)。
由于常識知識具有隱含性和多樣性[2-3],從文本中自動抽取常識知識變得非常困難,因此,常識知識獲取最可靠的方法是人工獲取。人工參與的常識知識獲取面臨的一個困難是知識貢獻者在給出常識知識的過程中非??菰餆o趣,造成知識貢獻者流失。同時又由于常識知識的基礎(chǔ)性[2]導(dǎo)致很多人會忽略常識知識,這樣就會導(dǎo)致知識貢獻者思考給出常識知識過程非常費力并且經(jīng)過長時間思考還是想不出常識知識。以往的方法要么忽視存在的問題,要么用金錢來刺激知識貢獻者,不能很好地解決上述兩個問題。
本文介紹一種基于交互式提問引導(dǎo)知識貢獻者的方法。機器通過提問的方式與知識貢獻者進行交互,引導(dǎo)知識貢獻者給出一類重要的常識知識——事件的常識性前提知識和后果知識。
交互過程借助于一個交互腳本,根據(jù)知識貢獻者對當(dāng)前問題的反饋來影響下一個問題的生成。知識貢獻者看到動態(tài)變化的問題,會感覺常識知識輸入的過程不再枯燥乏味。
提問問題基于問題模板自動生成。生成的問題包含提示信息,對知識貢獻者起到刺激和提示的作用。提問問題會讓知識貢獻者得到一個明確具體的目標,以此來減輕知識貢獻者的負擔(dān),進而有效地喚醒大腦中的常識知識。同時對于生成的問題我們會給出定量的衡量標準并將此用于改善提問交互的過程。
當(dāng)前流行的常識知識獲取方法可以分為兩類: 一種是人工編撰常識知識,另一種是自動獲取。較為著名的項目是Cyc[4]和OpenMind[5]。Cyc是知識工程師手工編輯常識知識。他們將屬性、動作、時空、事件等常識手工編輯入庫。但是Cyc雇傭的知識工程師要熟悉Cyc自己定義的一門語言,這會給常識知識輸入過程增加負擔(dān)。OpenMind為非專家的網(wǎng)絡(luò)用戶提供了常識知識輸入平臺。但是OpenMind缺乏有效的刺激方法,并且網(wǎng)絡(luò)用戶多是非職業(yè)人士,因此知識貢獻者思考給出常識知識的過程負擔(dān)較重。
為了減輕人工給出常識知識過程負擔(dān)并增加趣味性,與知識貢獻者交互獲取常識知識的方法相繼出現(xiàn)。LEARNER[6]基于已有關(guān)于實體的知識庫,實現(xiàn)類比推理,得到一些候選的知識,然后通過人工機械式地判斷,以此獲取常識知識。此方法缺乏交互,知識工程師效率低下。Common Consensus[7]通過詢問兩個知識貢獻者完成一個目標需要些什么,知識貢獻者通過兩人給出一致性的答案來獲取高積分,高一致性帶來高質(zhì)量的常識知識。Open Mind Commons[8]利用知識庫中已有的知識進行推理,然后產(chǎn)生問題讓知識貢獻者進行回答,以此來填補知識庫中的空缺。如果知識貢獻者拒絕某一條知識還可以修改知識。
游戲20Q[9]利用知識庫自動地產(chǎn)生20個問題,這些問題由游戲參與者回答。根據(jù)參與者的回答,機器去猜測出游戲參與者腦海中想象的實體,進而從答案中抽取常識知識。Verbosity[10]需要兩個知識貢獻者參與,其中一個描述概念,另一個猜測概念是什么。對概念的描述就是常識知識的來源。實驗結(jié)果表明Verbosity有一定的趣味性,獲得知識的正確率為85%。Concept Game[11]是一個facebook游戲,它的輸入是通過文本挖掘方法得到的候選斷言,知識貢獻者為了獲得積分來驗證隨機呈現(xiàn)給他們的斷言。
為了降低人工獲取常識的高成本,自動獲取的方法相繼出現(xiàn)。Matusz等人[12]利用Cyc中已有的知識作為種子,通過構(gòu)造查詢項,從Google的返回結(jié)果中抽取、驗證新知識。Shah等人[13]也是利用Cyc中已有知識作為種子,在Web網(wǎng)頁中抽取關(guān)于命名實體的信息。ConceptMiner[14]以ConceptNet[15]作為背景知識庫,以搜索引擎為工具,利用信息抽取技術(shù)發(fā)現(xiàn)web中存在的常識。自動化的方法不能解決常識知識隱含性的問題,因此它只能作為人工獲取常識知識方法的一種補充。
多年來,國內(nèi)一批學(xué)者在常識知識研究方面也做出許多工作。HowNet[16]是最大的中英雙語常識知識庫,Zhishi.me[17]、Tsinghua-ChineseKB[18]、CASIA-KB[19]是另外三個規(guī)模較大的中文常識知識庫。計算所NKI[20]課題組利用自動化的方法獲取概念屬性類常識[21]、因果常識知識[22]、簡單事件常識知識[23]等,同時還提出了一種從多個視角人工分析獲取事件的前提和后果知識的方法[24]。
有很多科研工作者針對工作的需要提出自己的事件表示模型[25-27]。本文采用中國科學(xué)院計算技術(shù)研究所NKI課題組基于魯川的26類句模[28]修改和擴充的事件體系[24]表示事件,這里事件定義為由特定參與者參與的,在滿足一定條件下發(fā)生的,并能對參與者或其周圍世界造成一定影響的行為。事件模型被表示成一個五元組<句意,角色,語言模式,詞類,例句>。 我們這里希望給五元組補充事件發(fā)生前后需要滿足的條件和產(chǎn)生的后果,這是一種重要的常識知識——事件的常識性前提和后果知識。
為了獲取知識,本工作呈現(xiàn)給知識貢獻者的事件是五元組中事件的實例化例句,同時我們利用事件體系中的語言模式來識別實例化例句中的各種語義元素。實例化的例句呈獻給知識貢獻者有兩個好處: 一是給獲取到的常識知識提供上下文;另一個是實例化的例句不會抽象,這有利于知識貢獻者思考常識知識,減輕知識貢獻者負擔(dān)。更長遠的目標是通過對關(guān)于例句的常識性前提和后果知識抽象來獲得關(guān)于事件的常識性前提和后果知識。
表1中給出了部分關(guān)于例句“爸爸迎娶了寡婦”的前提知識和后果知識。
表1 “爸爸迎娶了寡婦”前提和后果知識示例
與知識貢獻者的交互過程是基于七種類型的問題驅(qū)動的,七種類型的問題從知識貢獻者給出常識知識過程中總結(jié)得到。這七種類型的問題會根據(jù)當(dāng)前的例句和知識貢獻者的回答填充自己的缺失內(nèi)容,同時還會根據(jù)知識貢獻者的回答情況在不同類型間的問題之間進行變換。
4.1 交互問題類型
類型A 為了不影響知識貢獻者的思考過程,解決提示信息會有偏向性引導(dǎo)的問題,我們只給出少量的提示信息,只提示讓知識貢獻者給出前提知識和后果知識。此類型問題模板如下:
<前提提問>∷=<例句>發(fā)生之前,應(yīng)具備什么樣的前提條件?
<后果提問>∷=<例句>發(fā)生之后,會產(chǎn)生什么樣的結(jié)果?
其中,“<例句>”就是指知識貢獻者看到的當(dāng)前例句,例如“爸爸迎娶了寡婦”。在生成問題時就會用當(dāng)前例句替換問題模板中的“<例句>”。
從問題類型A中的定義可以看到在問題中幾乎沒有任何提示信息。但是由于常識知識具有基礎(chǔ)性,所以在沒有任何提示信息的情況下知識貢獻者要給出大量的常識知識是非常困難的。因此,我們需要在問題中加入提示性信息。
我們在彭會亮工作[23]的基礎(chǔ)上總結(jié)了反映人們認知世界的生理、心理、社會、物理世界四個大類的常識知識角度[24],如圖1所示。常識知識角度總體上分為四個大角度,每個大類角度下又分為若干個常識知識小角度。
圖1 常識知識角度結(jié)構(gòu)圖
我們將常識知識角度作為提示性信息用來引導(dǎo)知識貢獻者給出常識知識。對于知識貢獻者,常識知識角度還是相對抽象一些,因此這里采用基于常識知識角度進行提問的方式來提示知識貢獻者。由此我們定義問題類型B、C、D。
類型B 此類型的問題是當(dāng)知識貢獻者在想象不到常識知識后,將基于常識知識小角度(第三層的角度)生成的問題提供給他們,讓知識貢獻者有非常明確的目標,以此提示引導(dǎo)他們給出常識知識。此類型的問題是給每個常識知識角度整理屬于自己的問題模板,結(jié)合當(dāng)前的例句,動態(tài)地生成問題。下面給出“情緒”角度的問題模板:
<前提提問>∷=<例句>發(fā)生之前,<角色>的心情會怎么樣?
<前提提問>∷=<例句>發(fā)生之前,和<角色>有關(guān)系的某個人的心情會怎么樣?
<后果提問>∷=<例句>發(fā)生之后,<角色>的心情會怎么樣?
<后果提問>∷=<例句>發(fā)生之后,和<角色>有關(guān)系的某個人的心情會怎么樣?
其中,“<角色>”就是參與事件的事元,例如“施事”、“同事”等。問題模板實例化會用例句中的實例化事元替換“<角色>”。以“爸爸 迎娶了 寡婦”為例,上面問題模板中“<角色>”可以替換為“爸爸”或“寡婦”。篇幅的限制,后續(xù)問題介紹葉本文只給出后果知識的模板示例。
類型C 為了獲取更多關(guān)于某一個常識知識小角度方面的常識知識,同時減少提示過程中的偏向性引導(dǎo),這里不限制事元。以“情緒”角度為例給出問題模板:
<后果提問>∷=<例句>發(fā)生之后,還有其他角色心情會比較特殊嗎,不是平靜的心情?
C類型問題一般放在B類型問題之后,因為此類型問題相對B類型問題會抽象一些,先進行了B類型的問題提問后,有助于理解C類型問題,減輕知識貢獻者的負擔(dān)。
類型D 為了獲取更多關(guān)于某一常識知識角度大類的常識知識,進一步減少提示過程中的偏向性引導(dǎo),我們基于常識知識角度大類進行提問。以“心理”角度為例給出問題模板:
<后果提問>∷=<例句>發(fā)生之后,還有其他角色會有比較特殊的心理活動嗎?可以從情緒、目標、態(tài)度、記憶等方面進行考慮。
D類型的問題要放在B、C類型問題之后,同樣為了便于知識貢獻者理解。
類型E 為了提高知識的準確性,需要反問知識貢獻者。此類型問題是讓知識貢獻者反思給出的常識知識。
<后果提問>∷=<例句>發(fā)生之后,“<知識>”,是否加上一些條件后,會讓“<知識>”發(fā)生或存在的可能性更大?如果想象到,請給出帶有條件的后果。
其中,“<知識>”是知識貢獻者已經(jīng)給出的一條知識?!?知識>”可能是錯誤的也可能是不準確的,用E類型問題讓知識貢獻者進一步思考,進而獲取更多、更準確的常識知識。例如“爸爸迎娶了寡婦之后,女方父母會高興”。如果加上“女方父母贊成這門婚事”這個條件,此條知識會更準確。
類型F 為了利用已有知識獲取更多的知識,根據(jù)當(dāng)前知識的結(jié)果,問一下是否會有其他結(jié)果。此問題類型根據(jù)已有的知識,來產(chǎn)生一個問題。
<后果提問>∷=<例句>發(fā)生之后,一定會有“<知識>”的后果嗎?是否可以在此后果的條件上增加或者更換一些內(nèi)容,得到不同于“<知識結(jié)果>”的后果?如果想象到,請給出新的后果。
其中,“<知識結(jié)果>”是知識貢獻者給出知識的結(jié)果部分。例如知識“如果父母不贊成這門婚事,父母會不高興”,那么“父母會不高興”就是“<知識結(jié)果>”的實例。
類型G 為了再次不限制知識貢獻者的思路,解決引導(dǎo)偏向性問題,同時獲取知識貢獻者通過以上提示思考出新的常識知識。在經(jīng)過所有提示方法后,再次在沒有任何提示的情況下讓知識貢獻者給出前提知識和后果知識。
<后果提問>∷=經(jīng)過以上的提示,<例句>發(fā)生之后,你能再給出一些其他的結(jié)果嗎?請給出后果。
A、D、F、G這四種基本上沒有偏向性引導(dǎo)的問題類型,不僅可以獲取常識知識,而且還可以幫助我們獲取更多地常識知識角度。因為這四種類型的問題最多只是含有少量的提示信息,特別是通過D、F、G這三種類型的問題獲取到的常識知識,它們是通過前面B、C類型問題的提示引導(dǎo),知識貢獻者在思路打開之后通過自我想象給出的常識知識。知識貢獻者在此種情況下有很大的可能給出其他不在常識知識角度規(guī)定類型下的常識知識,通過對這些新類型的知識進行總結(jié),我們就可以得到新的常識知識角度。這樣循環(huán)迭代下去,我們就能夠有更多的提示信息,進而更多地減輕知識貢獻者的負擔(dān),獲取更多更豐富的常識知識。
4.2 交互過程
交互過程借用一個交互提問腳本,提問的整體過程分為三個階段: 首先進行無偏向性A類型問題提問。如果知識貢獻者給不出常識知識,再進行B、C、D類型問題的提問。B、C、D三種類型的問題按照其含有信息量由多到少進行提問,問題的偏向性也從大到小。這種由簡單到困難的逐層深入的過程,也有助于引導(dǎo)知識貢獻者進行深入思考,由此獲取更好更多的常識知識。最后,在經(jīng)過所有的提示后再進行G類型問題的提問。交互腳本如表2所示。
E類型的問題目標是為了提高知識的準確性,因此在交互過程中在知識貢獻者給出一條常識知識后就會進行一次E類型問題的提問,讓知識貢獻者反思自己給出知識的準確程度。F類型的問題是為了通過已有知識獲取更多的知識,我們將此種類型的問題隨機的放在知識貢獻者給出知識之后,在獲取更多知識的同時也讓提問過程具有變化性,改善提問過程的趣味性。
為了提高提問過程的變化性,我們在提問過程中都會采用一些隨機性的選擇,例如,隨機選擇常識知識角度(表2(5)),某一類型問題數(shù)目隨機產(chǎn)生(表2(6)),隨機進行F類型問題的提問等。
表2 交互過程腳本
為進一步論證上一節(jié)的提問交互過程的合理性,我們需要引入必要的度量指標。
本文提出了兩個指標。一是交互問題的可接受性,它用于衡量呈現(xiàn)給知識貢獻者的問題是否符合自然語言語法和語義,如果一個問題不符合自然語言語法和語義,那么知識貢獻者是看不懂問題的;另一個指標是有效性,它用于衡量問題能不能引導(dǎo)知識貢獻者給出常識知識。如果用于提問的問題大部分都是不可接受或者無效的,整個交互過程中就會充斥著太多的冗余,這樣就會讓知識貢獻者感到煩躁和無聊。
5.1 可接受性
可接受性是指系統(tǒng)自動生成的問題符合自然語言語法和語義的程度。這里我們讓知識貢獻者在看到問題后,對問題進行一個標注投票: 接受和不接受。如果知識貢獻者看不懂提問問題就將此問題標記為不接受。利用知識貢獻者標記的統(tǒng)計數(shù)據(jù)來衡量一個提問問題的可接受性。
這里我們可以利用知識貢獻者標記的頻率來作為問題可接受性的衡量標準,但是這種方法存在缺陷。因為如果一個問題被很多知識貢獻者評價,另一個問題被很少的知識貢獻者評價,那么前一問題的評價結(jié)果置信度更高。這里我們建立一個模型綜合考慮頻率和頻度兩個方面的因素。這個模型不僅和知識貢獻者的投票比例成正比而且還考慮到這個比例的置信度。
模型中我們用sc(q)表示問題q被知識貢獻者標記為接受的數(shù)目,nsc(q)表示問題q被知識貢獻者標記為不接受的數(shù)目。m(q)表示知識貢獻者對問題q的投票次數(shù),即表示一個問題q被知識貢獻者標記成接受和不接受的數(shù)目之和,即m(q)=sc(q)+nsc(q)。
定義1Pδ(q)表示知識貢獻者投票問題接受的比率,如式(1)所示。
(1)
假設(shè)知識貢獻者標記每個問題是獨立的,我們可以把每一次標記當(dāng)成一個伯努利實驗。Pδ(q)表示知識貢獻者能看懂問題的比率。
我們假設(shè)每個知識貢獻者投票都是隨機的。因此知識貢獻者把問題分成接受和不接受的概率都是0.5。真實中的選擇肯定不是0.5。如果我們不能拒絕假設(shè),我們需要更多的信息(需要更多的人來評估當(dāng)前問題)來判斷當(dāng)前問題能否讓知識貢獻者理解。
定義2ens(q)是效應(yīng)值,表示問題被標記為不可接受的實際值和理想值之間的差距,即式(2)。
(2)
如果認為當(dāng)前知識貢獻者的選擇是隨機的,當(dāng)前關(guān)于問題q的計數(shù)的概率可以用ps(q)來表示,如果ps(q)的值越低,當(dāng)前計數(shù)的置信度越高。
定義3ps(q)表示二項分布假設(shè)檢驗的p-value,那么觀察值和隨機情況下相差ens(q)的概率為式(3)。
(3)
其中:
(5)
定義4ds(q)表示一個問題有意義能被知識貢獻者看得懂的度量,也就是可接受性的度量如式(6)所示。
(6)
為了區(qū)分一個問題是否可接受,設(shè)定一個閾值α(α<0.5)。如果ds(q)<α,有1-α的置信度相信問題是不可接受的;如果ds(q)>1-α,有1-α的置信度相信問題是可接受的;如果有α 5.2 有效性 有效性是指系統(tǒng)自動生成的問題引導(dǎo)給出常識知識的效用程度。我們利用知識貢獻者回答的次數(shù)和沒有回答的次數(shù)來衡量問題的有效性。利用知識貢獻者的回答與否這個數(shù)據(jù)建立模型來衡量問題是否能夠有效獲取常識知識。 同理我們應(yīng)用上面的對問題可接受性進行度量的方法來衡量問題的有效性。 假設(shè)知識貢獻者回答每個問題是獨立的,我們可以把每一次回答當(dāng)成一個伯努利實驗。假設(shè)每個知識貢獻者是否回答一個問題都是隨機的。因此知識貢獻者回答一個問題和不回答一個問題的概率都是0.5,真實中肯定不是0.5。同理,如果我們不能拒絕假設(shè),我們需要更多的信息來判斷當(dāng)前這個問題是否是有效的。 參考可接受性的定義,最終我們會定義dv(q)。dv(q)表示一個問題的有效性的程度,這是一個定量度量。通過這個值可以判斷一個問題是否有效,是否需要更多的信息來進一步判斷。為了區(qū)分一個問題的有效性,同樣需要設(shè)定一個閾值β(β<0.5)。 知識貢獻者給出知識的過程中,利用可接受性和有效性來衡量一個提問問題,篩選出可接受性低的問題修改問題的生成方法,選擇有效性低的提問將其去掉。當(dāng)然還有一些問題需要進一步進行判斷,我們會在知識貢獻者的使用過程搜集更多的信息來進一步判斷。迭代下去,高可接受性和有效性的提問問題會不斷提高,提問交互過程會被不斷改善。 為了評估我們的方法是否能夠有效地刺激知識貢獻者給出大腦中的常識知識,我們統(tǒng)計了通過各種類型提問問題獲取常識知識的數(shù)目,如表4所示。A類型的問題不采用任何方法讓知識貢獻者去給出知識,B、C、D、E、F、G類型的問題都會給出不同程度的提示以及組合引導(dǎo)。將這兩大類型的實驗結(jié)果進行比較,結(jié)果表明本文方法能夠引導(dǎo)獲取更多的常識知識。 表4 未引導(dǎo)提示和有引導(dǎo)提示對比實驗結(jié)果 表4中第一行和第二、三、四行分別列出了通過A類型問題和其他六種類型問題獲得前提和后果知識的數(shù)目,可以看到通過A類型的問題得到62條知識,通過B、C、D、E、F、G類型的問題獲得280條知識。我們可以看出知識的數(shù)目增加了451.61%。通過表中第四行中提示信息很少的問題類型D、F、G得到常識知識的數(shù)目可以看出,經(jīng)過其他幾種有提示信息類型問題的引導(dǎo),知識貢獻者能夠進行思考,進而不用提示信息也能給出常識知識。通過上述結(jié)果可以看出交互式提問引導(dǎo)的方法能夠獲取更多的知識。 為了分析已獲取到常識知識的正確率,我們從已獲取的342條知識中隨機選取40條知識,并召集五個具有較好常識知識背景的常識知識貢獻者(不同前述的11個知識貢獻者)對這40條知識進行判斷分類。五個知識貢獻者對這40條知識分別進行單獨標記,將知識標記為“真”、“不知道”和“無意義”。如果五個人當(dāng)中有三個人將一條知識賦予相同標記S,我們就認為當(dāng)前知識的標記為S,如果關(guān)于一條知識沒有一個標記得到投票次數(shù)超過3,我們就標記它為“無意義”。最終實驗結(jié)果表明,最后標記為“真”的知識占總知識的數(shù)量的92.5%。 表5給出了其他方法和本方法獲取知識正確率的結(jié)果比較。OpenMind評估知識標準時給每條知識賦予一個1~5的分值,最后其獲取知識的平均得分是3.26,這里我們可以理解其正確率為60%左右。Verbosity標記知識為正確或不正確,其標記為正確的知識所占比例為85%。learner2的衡量方法和本文方法相似,其知識的正確率為89.8%。雖然這幾個方法正確率衡量方法不同,但是從上面的描述可知,本文方法的效果明顯高于其他方法。 表5 知識正確率結(jié)果比較 由表5可以看到我們的方法獲取知識的正確率最高,這是因為本方法的提示引導(dǎo)策略。本方法能給知識貢獻者有效的刺激和提示,能夠讓知識貢獻者得到明確目標并進行思考,進而給出正確的知識。綜上可以看出我們的方法在獲取高質(zhì)量的常識知識上是非常有效的。 常識知識是機器走向智能必不可少的一部分。本文提出了一種基于交互式提問引導(dǎo)獲取事件常識知識的方法。方法基于常識知識角度等提示信息,對知識貢獻者輸入常識知識的過程進行引導(dǎo)和提示。通過提示和引導(dǎo),知識貢獻者獲得明確的目標后進行深入的思考,最終給出更多更準確的常識知識。實驗表明,提示引導(dǎo)過程能帶來451.61%的知識增加量,且知識的正確率達到了92.5%。 雖然實驗結(jié)果表明本文的方法是有效的,但是還有一些地方需要改進。其中交互腳本要具有更多的變化性和靈活性,因此下一步工作可以多設(shè)計幾種交互過程,提高交互過程的變化性。下一步工作還要將獲取到的自然語言形式的常識知識轉(zhuǎn)化成計算機可以理解的結(jié)構(gòu)化的形式,同時將關(guān)于例句的常識知識抽象到事件上。 [1] McCarthy,John. Programs with common sense[C]//Proceedings of the Teddington Conference onthe Mechanization of Thought Processes. 1958. [2] Liang-Jun Zang,Cong Cao,Ya-Nan Cao,et al. A Survey of Commonsense Knowledge Acquisition[J]. Journal of Computer Science and Technology,2013,28(4): 689-719. [3] Lenhart Schubert. Can we derive general world knowledge from texts?[C]//Proceedings of the second international conference on Human Language Technology Research. San Francisco: Morgan Kaufmann Publishers Inc.2002: 94-97. [4] Douglas B Lenat. CYC: A large-scale investment in knowledge infrastructure[J]. Communications of the ACM,1995,38(11): 33-38. [5] Singh P. The public acquisition of commonsense knowledge[C]//Proceedings of AAAI Spring Symposium: Acquiring (and Using) Linguistic (and World) Knowledge for Information Access. 2002. [6] Chklovski T. Learner: a system for acquiring commonsense knowledge by analogy[C]// Proceedings of the 2nd international conference on Knowledge capture. New York: ACM,2003: 4-12. [7] Lieberman H,D Smith,A Teeters. Common Consensus: a web-based game for collecting commonsense goals[C]//Proceedings of ACM Workshop on Common Sense for Intelligent Interfaces. 2007. [8] Robert Speer. Open mind commons: An inquisitive approach to learning common sense[C]//Proceedings of Workshop on Common Sense and Intelligent User Interfaces. 2007. [9] Robert Speer,Catherine Havasi,Dustin Smith. An interface for targeted collection of common sense knowledge using a mixture model[C]//Proceedings of the 14th international conference on Intelligent user interfaces. ACM,2009: 137-146. [10] Von Ahn L,M Kedia,M Blum. Verbosity: a game for collecting common-sense facts[C]// Proceedings of the SIGCHI conference on Human Factors in computing systems. New York: ACM,2006: 75-78. [12] Cynthia Matuszek,Michael Witbrock,Robert C Kahlert,et al. Searching for common sense: populating CycTMfrom the web[C]//Proceedings of the National Conference on Artificial Intelligence. London: AAAI Press,2005: 1430-1435. [13] Purvesh Shah,David Schneider,Cynthia Matuszek,et al. Automated population of Cyc: extracting information about named-entities from the web[C]//Proceedings of the Nineteenth International FLAIRS Conference. Melbourne Beach,2006: 153-158. [14] Ian Scott Eslick.Searching for commonsense[D].Cambridge,MA: Massachusetts Institute of Technology,2006. [15] Liu H,P Singh. ConceptNet—a practical commonsense reasoning tool-kit[J]. BT technology journal,2004,22(4): 211-226. [16] L Dong Z,Dong Q. HowNet and the Computation of Meaning[M]. Singapore: World Scientific Publishing Company,2006. [17] Niu X,Sun X,Wang H,et al. Zhishi.me: Weaving Chinese linking open data[C]//Proceedings of Proceedings of the 10th international conference on The semantic web. Berlin,Heidelberg. 2011: 205-220. [18] Wang Z C,Wang Z G,Li J Z,et al. Knowledge extraction from Chinese wiki encyclopedias[J]. Journal of Zhejiang University—Science C,2012,13(4): 268-280. [19] Zeng Y. Extracting,linking and analyzing the Web of structured Chinese data[R]. Beijing: Institute of Automation,Chinese Academy of Sciences,2012. [20] CAO Cungen,FENG Qiangze,GAO Ying,et al. Progress in the development of national knowledge infrastructure[J]. Journal of Computer Science and Technology,2002,17(5): 523-534. [21] Ya-nan Cao,Cungen Cao,Liangjun Zang,et al. Acquiring commonsense knowledge about properties of concepts from text[C]//Proceedings of Fifth International Conference on Fuzzy Systems and Knowledge Discovery. IEEE,2008: 155-159. [22] 曹亞男. 面向web語料的因果知識獲取研究[D]. 北京: 中國科學(xué)院計算技術(shù)研究所,2012. [23] 彭會良. 人物相關(guān)事件的常識知識獲取方法研究[D]. 北京: 首都師范大學(xué),2010. [24] 李閃閃,曹存根. 事件前提和后果常識知識分析方法研究[J]. 計算機科學(xué),2013,40(4): 185-192. [25] 王寅. 事件域認知模型及其解釋力[J]. 現(xiàn)代外語,2005,28(1): 17-26. [26] 吳平博,陳群秀,馬亮. 基于事件框架的事件相關(guān)文檔的智能檢索研究[J]. 中文信息學(xué)報,2003,17(6): 25-30. [27] 梁晗,陳群秀,吳平博. 基于事件框架的信息抽取系統(tǒng)[J]. 中文信息學(xué)報,2006,20(2): 40-46. [28] 魯川,緱瑞隆,董麗萍. 現(xiàn)代漢語基本句模[J]. 世界漢語教學(xué),2000,4: 11-24. An Interactive Method for Acquiring Event-Based Commonsense Knowledge CAO Cong1,2,3,CAO Cungen1,ZANG Liangjun3,WANG Shi1 (1. Key Laboratory of Intelligent Information Processing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China;2. University of Chinese Academy of Sciences,Beijing 100049,China;3. Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China) A large-scale commonsense knowledge is indispensible for intelligent machine,and commonsense knowledge acquisition has always been an important research area of artificial intelligence. This paper presents an interactive method to guide the contributors to give event-based commonsense knowledge. The process of knowledge acquisition is interactive: machine dynamically generates questions to a contributor,and the human presents commonsense knowledge by his answeres. In addition to the prompt information,seven types of questions are presented in a progressive order to guide the knowledge contributors to think,which also brings more interest to the contributing process. The results show that the interactive method increases the number of knowledge by 451.61% with accuracy of 92.5%. commonsense knowledge acquisition;event commonsense;interaction process 曹聰(1987—),博士,主要研究領(lǐng)域為知識獲取,數(shù)據(jù)挖掘。E?mail:caocong@iie.a(chǎn)c.cn曹存根(1964—),研究員,主要研究領(lǐng)域為大規(guī)模知識獲取與管理。E?mail:cgcao@ict.a(chǎn)c.cn臧良俊(1981—),博士,主要研究領(lǐng)域為知識的獲取、表示與推理,機器學(xué)習(xí)。E?mail:zangliangjun@iie.a(chǎn)c.cn 2014-02-08 定稿日期: 2014-06-11 國家自然科學(xué)基金(30973713,61035004,61173063,61203284,91224006);國家社科基金重點資助項目(10AYY003);科技部項目(201303107)。 1003-0077(2016)03-0125-086 實驗結(jié)果及分析
7 總結(jié)與展望