潘云鶴
a Institute of Artificial Intelligence, Zhejiang University, Hangzhou 310027, China b Zhejiang Lab, Hangzhou 311121, China
20世紀(jì)70年代認(rèn)知心理學(xué)已經(jīng)認(rèn)識(shí)到,長(zhǎng)期記憶的內(nèi)容應(yīng)為語(yǔ)義和情景的集成[1],并被分別編碼為言語(yǔ)和心象的表征[2]。1991年,筆者在論文《形象思維中的形象信息模型的研究》[3]中指出,并非所有言語(yǔ)命題都能從言語(yǔ)系統(tǒng)中推理而獲得,很多只能從形象系統(tǒng)中轉(zhuǎn)化而來。兩個(gè)月前,筆者在論文《論視覺知識(shí)》[4]中提出了視覺知識(shí)(VK)的概念,它包括視覺概念、視覺命題和視覺述事。視覺知識(shí)可以模擬人在大腦中能對(duì)心象進(jìn)行的各種時(shí)空操作,如設(shè)計(jì)過程就充滿了此類操作[5]。
而且,令人可喜的是,現(xiàn)有的計(jì)算機(jī)技術(shù)也已經(jīng)提供了表達(dá)和推演視覺知識(shí)的有關(guān)技術(shù)基礎(chǔ)。為此,當(dāng)今AI的研究者需要把視野從傳統(tǒng)的AI領(lǐng)域(包括深度學(xué)習(xí)),擴(kuò)大到計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺等密切相關(guān)的技術(shù)領(lǐng)域,這三個(gè)領(lǐng)域的研究者特別需要聯(lián)手研究視覺知識(shí)。當(dāng)視覺知識(shí)在AI中登堂入室之后,原先那些大量無法用言語(yǔ)系統(tǒng)的推理得出的言語(yǔ)命題,就可能從視覺知識(shí)轉(zhuǎn)化而來。所以,用言語(yǔ)知識(shí)和視覺知識(shí)的雙重表達(dá),能更完整地描述世界的存在與發(fā)展,解決更復(fù)雜的智能計(jì)算問題。由此觀之,視覺知識(shí)的表達(dá)與推演是AI走向2.0的重要技術(shù)[6]。
建立視覺知識(shí)之后,在AI 2.0中的知識(shí)就有了三種表達(dá)?,F(xiàn)列出這三種知識(shí)的表達(dá)與處理方法如下。
(1)知識(shí)的言語(yǔ)表達(dá)。其特點(diǎn)是使用符號(hào)數(shù)據(jù),結(jié)構(gòu)清晰,語(yǔ)義可理解,知識(shí)可推理。其典型例子如語(yǔ)義網(wǎng)絡(luò)、知識(shí)圖譜等。
(2)知識(shí)的深度神經(jīng)網(wǎng)絡(luò)表達(dá)。其特點(diǎn)是適用于圖像、音頻等非結(jié)構(gòu)化數(shù)據(jù)的分類與識(shí)別。缺點(diǎn)是語(yǔ)義解釋困難。其典型例子如深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)等。
(3)知識(shí)的形象表達(dá)。其特點(diǎn)是適用于圖形、動(dòng)畫等形狀、空間、運(yùn)動(dòng)的數(shù)據(jù)。知識(shí)的結(jié)構(gòu)清晰,語(yǔ)義可解釋,知識(shí)可推演。其典型如視覺知識(shí)等。
這三種知識(shí)表達(dá)之間的關(guān)系和傳統(tǒng)AI中已經(jīng)出現(xiàn)過的多種知識(shí)表達(dá)技術(shù),如規(guī)則、框架、語(yǔ)義網(wǎng)絡(luò)等之間的關(guān)系,有著本質(zhì)的不同。因?yàn)锳I的這三種表達(dá)是針對(duì)人類記憶中的三種不同的內(nèi)容,現(xiàn)說明如下:
(1)知識(shí)圖譜——語(yǔ)義的記憶內(nèi)容,宜用于字符檢索與推理;
(2)視覺知識(shí)——情景的記憶內(nèi)容,宜用于時(shí)空推演與顯示;
(3)深度神經(jīng)網(wǎng)絡(luò)——感覺的記憶內(nèi)容,宜用于對(duì)原始數(shù)據(jù)作逐層抽象的分類。
其中,(1)和(2)與人類長(zhǎng)期記憶中的兩大內(nèi)容——言語(yǔ)的和心象的編碼方式相對(duì)應(yīng)。其中,(3)與人類短期記憶中的感知內(nèi)容相對(duì)應(yīng)。因此,上述三種知識(shí)表達(dá)具有如同人類記憶中的信息特點(diǎn)一樣,具有內(nèi)容系統(tǒng)互補(bǔ)的特點(diǎn),它們是需要被同時(shí)使用的,因此組成為三重知識(shí)表達(dá)。
除了信息內(nèi)容與使用的互補(bǔ)之外,上述三重表達(dá)的另一重要性質(zhì)是它們之間的相互聯(lián)系與相互支持。視覺知識(shí)通過投影變換可以將三維圖形或動(dòng)畫信息轉(zhuǎn)化為圖像或視頻信息。反之,通過3D重建技術(shù),也可以將圖像或視頻信息轉(zhuǎn)化為3D圖形或動(dòng)畫信息。
視覺知識(shí)的語(yǔ)義是很清晰的,因此,可以用符號(hào)檢索與匹配等技術(shù)把視覺知識(shí)與知識(shí)圖譜進(jìn)行語(yǔ)義的對(duì)應(yīng),從而實(shí)現(xiàn)轉(zhuǎn)化。也就是說,視覺知識(shí)與知識(shí)圖譜中的情景信息與語(yǔ)義信息的聯(lián)系,可以通過表達(dá)的結(jié)構(gòu)(指針)模型來實(shí)現(xiàn);視覺知識(shí)與深度神經(jīng)網(wǎng)絡(luò)所用的圖像與視頻數(shù)據(jù)的聯(lián)系可以用重建與變換計(jì)算來實(shí)現(xiàn)。
上述三重知識(shí)表達(dá)之間的互相聯(lián)系與支持關(guān)系,以“貓”為例,如圖1所示。
圖1中的知識(shí)圖譜表達(dá)了貓的種屬上下關(guān)系;視覺知識(shí)表達(dá)了貓的形體、結(jié)構(gòu)和動(dòng)作等時(shí)空特征;深度神經(jīng)網(wǎng)絡(luò)表達(dá)了對(duì)所提供的貓的正負(fù)樣本圖像判別的一種抽象。
其實(shí),當(dāng)貓的圖像符合其某種系統(tǒng)要求時(shí)(如同一貓的不同觀察視角),這些圖像也可以重建為視覺知識(shí)。視覺知識(shí)可以通過變換(幾何、投影、動(dòng)作變換等)生成各種貓的圖像供DNN學(xué)習(xí)。通過視覺知識(shí)與知識(shí)圖譜聯(lián)系可推知,因?yàn)樨垺⒒?、豹同屬貓科?dòng)物,所以具有類似的形體、結(jié)構(gòu)與動(dòng)作。因此,貓的視覺知識(shí)可通過合適的修改而形成虎、豹的視覺知識(shí),這就以容易理解的方式實(shí)現(xiàn)了遷移學(xué)習(xí)的功能,也為小數(shù)據(jù)下的知識(shí)學(xué)習(xí)(如少樣本、零樣本學(xué)習(xí))的小數(shù)據(jù)與模型的通用化打開了一扇大門。
本文提出由知識(shí)圖譜、視覺知識(shí)和深度神經(jīng)網(wǎng)絡(luò)等構(gòu)成的AI三重知識(shí)表達(dá)的結(jié)構(gòu)。其中的知識(shí)圖譜、視覺知識(shí)分別擅長(zhǎng)于處理字符性內(nèi)容和形象性內(nèi)容,DNN擅長(zhǎng)對(duì)感性數(shù)據(jù)作層次抽象,并分別對(duì)應(yīng)于模擬人類大腦中對(duì)長(zhǎng)期記憶和短期記憶中的信息加工與處理。它們彼此能相互銜接、相互支持,從而有利于知識(shí)表達(dá)與推理等智能計(jì)算的可解釋性、可推演性和可遷移性的實(shí)現(xiàn)。
圖1 . 貓的三元知識(shí)表達(dá)及其關(guān)系。
致謝
莊越挺、吳飛、耿衛(wèi)東、湯斯亮等教授為本文提供寶貴意見,特此表示感謝。