鄒曉輝 王肖群 鄒順鵬
1(中美塞爾研究中心學科組 北京 100871)2(北京大學教師教學發(fā)展中心 北京 100871)3(中美塞爾研究中心高教組 北京 100083)
本文的目的是介紹一種必須涵蓋所有言語(話語或術(shù)語)的新方法。因此,人們學習說話的教育過程就像在語言的超級棋盤或形式化字符組成的單詞矩陣中做出各種選擇。
從背景知識來看,最接近大數(shù)據(jù)技術(shù)應(yīng)用前沿和教育教學前沿的前沿科技可從最典型的應(yīng)用實例[1-3]開始,這是普通教師和學生的捷徑。我們不能從學術(shù)前沿的最新探索開始[4-9](否則大多數(shù)教師和學生將撤退),圍棋軟件擊敗人類的職業(yè)國際圍棋選手(甚至橫掃歐洲和世界冠軍)僅依靠基于大數(shù)據(jù)的新一代人工智能,涵蓋了基于統(tǒng)計的機器學習[10]和基于神經(jīng)網(wǎng)絡(luò)的深度學習[11]。對于普通人甚至大多數(shù)專家來說這些都是不可想象的。如何將這些大數(shù)據(jù)(前沿技術(shù))與教育(日常教學)聯(lián)系起來(制作出原創(chuàng)成果),對許多大學教師來說是一個巨大的挑戰(zhàn)。因此,本文從最簡單的算術(shù)二進制數(shù)和語言(僅以0和1兩個單音節(jié)符號作為基本成員)開始,回到圖靈機[12]、圖靈測試[13]和塞爾中文屋[14-15],及最新的間接形式化方法和間接計算模型[16]。新近發(fā)現(xiàn)并且宣布的形式化理解模型的一系列基本原理[17],探討適合不同學科知識背景的兩大類形式化方略[18],是另一種方便的大數(shù)據(jù)處理方式(相當于流行的基于統(tǒng)計的機器學習),基于神經(jīng)網(wǎng)絡(luò)的深度學習,可以在這個干凈的云平臺上發(fā)揮更好的作用(例如,做大數(shù)據(jù)采集、存儲和分類計算或統(tǒng)計,都更容易)。最重要的是,教師和學生能夠盡早開始參與“教育、管理、學習和應(yīng)用”結(jié)合的社會化系統(tǒng)工程[19]。比較圍棋和數(shù)字化字符棋即雙字棋的異同,這是本文選擇實現(xiàn)其目標的方式。
首先構(gòu)建語言集合即字符棋盤或形式詞匯表;然后,通過人機交互協(xié)作,生成大量的言語(話語或術(shù)語)大數(shù)據(jù),涵蓋代表知識本體的話語和術(shù)語;最后,通過機器學習和人機交互過程,比較、查詢或重用這些話語或術(shù)語。它們共同遵循的基本原理和形式化理解模型,這是其大前提。上述三個步驟涉及的則是其一系列具體的小前提。
圖1為三種形式化理解模型及各自的特點。模型A是在兩個相同的圖靈機之間建立全等關(guān)系,其統(tǒng)一的輸出輸入基礎(chǔ)是二進制數(shù)及其變體均遵循序位邏輯而可物理實現(xiàn)的測序定位法則。模型B從數(shù)字系統(tǒng)擴展到符號系統(tǒng)(廣義文本的基本單位),它們?nèi)栽趦蓚€相同的圖靈機(數(shù)字計算機)之間運行,所不同的僅僅是廣義文本的符號系統(tǒng)雖然也只是人機之間的轉(zhuǎn)換,但是,其所遵循的規(guī)則增加了用戶協(xié)議,至少涵蓋兩套形式信息和內(nèi)容信息,在同意和不同意的理解方式之間由于主體的介入而存在差異。模型C只是對漢字系統(tǒng)進行間接正式化理解,可視為前者的收斂模型。必須特別說明的是三類模型都只是形式化理解模型(僅僅涉及棋法、棋盤和棋子的測序和定位、計算和統(tǒng)計,不涉及對“是什么”和“為什么”的解釋,而只涉及怎么做暨形式化理解模型作為人機操作工具如何發(fā)揮其作用的特定角色含義,一句話,物理與數(shù)理一致)。
圖1 ABC三類形式化理解模型
第一組選擇是由一個用戶(通常是專家)與系統(tǒng)交互過程中設(shè)訂的(不排除基于統(tǒng)計的機器學習和基于神經(jīng)網(wǎng)絡(luò)的深度學習也介入其中)。隨后可由機器識別進行相應(yīng)的重復(fù)選擇(其關(guān)鍵是:如何明確告訴機器如何為用戶做出特定的選擇)。機器可以進行基于統(tǒng)計的學習、分析和形式化理解和基于神經(jīng)網(wǎng)絡(luò)的深度學習。也就是說,可開發(fā)基于統(tǒng)計的機器學習軟件以及基于神經(jīng)網(wǎng)絡(luò)的深度學習軟件植入其中的相應(yīng)部分,基本前提是擁有大數(shù)據(jù)和相應(yīng)的計算資源及硬盤存儲空間。該形式化理解模型有別于以前的現(xiàn)有信息處理范式,可以看作是大數(shù)據(jù)介入之后的新一代人工智能的形式化解釋。為此,有必要回顧信息處理、人工智能和大數(shù)據(jù)以及它們之間的相互關(guān)系及其發(fā)展變化趨勢[20]。
以下是以論文發(fā)表的主題信息處理、人工智能和大數(shù)據(jù)三方面做的三類可檢驗的調(diào)查結(jié)果及分析。
(1) 第一類可驗證的結(jié)果及其分析。圖2為信息處理(IP)主題研究的發(fā)展變化趨勢。從標題包含信息處理這一主題詞語而發(fā)表論文的數(shù)量及其發(fā)展變化趨勢,以及每年發(fā)表的論文數(shù)量,可以看出1960年是一個起點,而2016年則是一個具有很大波動起伏的轉(zhuǎn)折點。它究竟是怎么回事呢?如果孤立來看,是很難解釋得通的。盡管如此,人們還是可從圖2所示IP趨勢及其對應(yīng)的年份和發(fā)表的代表論著的研讀來做判斷。如果沒有人工智能(AI)和大數(shù)據(jù)(BD)的相繼發(fā)展,那么,人們也就只能根據(jù)圖2所示IP趨勢做與其相關(guān)的一系列研究了。但事實上,不僅有人工智能(AI),而且還有大數(shù)據(jù)(BD)的發(fā)展和相繼伴隨。
圖2 信息處理(IP)發(fā)展變化的趨勢
(2) 第二類可驗證的結(jié)果及其分析。圖3為人工智能(AI)主題研究的發(fā)展變化趨勢。從標題包含人工智能這一主題詞語而發(fā)表論文的數(shù)量及其發(fā)展變化趨勢,以及每年發(fā)表的論文數(shù)量,可以看出1978年是一個起點,2016年則是一個十分明顯而巨大的轉(zhuǎn)折點。圖3與圖2的表現(xiàn)有巨大的反差?;诖?,我們發(fā)現(xiàn)以往人工智能(AI)主題研究的發(fā)展變化曲線長期走低的可視化表現(xiàn);還發(fā)現(xiàn)以往信息處理(IP)主題研究的發(fā)展變化曲線的一路逐漸高漲的可視化表現(xiàn)(雖然也有些許波動)。但是,令人費解的是:為什么IP曲線和AI曲線都在2016年不約而同地出現(xiàn)了大轉(zhuǎn)折點?
圖3 人工智能(AI)發(fā)展變化的趨勢
(3) 第三類可驗證的結(jié)果及其分析。圖4為大數(shù)據(jù)(BD)主題研究的發(fā)展變化趨勢。從標題包含大數(shù)據(jù)這一主題詞語而發(fā)表論文的數(shù)量及其發(fā)展變化趨勢,以及每年發(fā)表的論文數(shù)量,可以看出1985年是一個起點,2012至2016年出現(xiàn)了幾個轉(zhuǎn)折點。此時我們把BD曲線與前面的IP曲線和AI曲線放在一起來觀察,可以發(fā)現(xiàn)2016年是一個大轉(zhuǎn)折點,它在IP曲線、AI曲線和BD曲線的走勢十分接近。
圖4 大數(shù)據(jù)(BD)發(fā)展變化的趨勢
只要認真觀察IP曲線、AI曲線和BD曲線的走勢變化就可發(fā)現(xiàn)它們的異同?;仡櫺畔⑻幚?IP)和人工智能(AI)及大數(shù)據(jù)(BD)這三大科技領(lǐng)域的發(fā)展歷程,就不難發(fā)現(xiàn)相應(yīng)的這三條發(fā)展變化曲線蘊含的深刻意義。
形式化理解模型與上述三方面的發(fā)展變化趨勢有怎樣的相互關(guān)系,是以往的科學范式及其配套的形式化技術(shù)忽略的。新的科學范式及其配套的形式化技術(shù)雖然已經(jīng)公開,但是,其推廣和普及還需要時間。
從圖5可以看出,美國信息交換標準碼(ASCII)是基于小字符集,而國際統(tǒng)一編碼(Unicode)覆蓋了采用統(tǒng)一字符編碼標準(GB)的大字符集,對雙字節(jié)字符進行編碼,僅限于狹義的文本范圍。本研究中的中國標準(Z)指廣義文本(字符、公式、圖形、表格、聲音、圖像、立體、活體)。因此,信息處理的新舊融合標準(Z-ASCII)是中美融合標準,它涵蓋所有類型的狹義和廣義的文本及其(直接和間接)形式化表達的元素。構(gòu)建全球語言定位系統(tǒng)(GLPS)的廣義文本語境是其最終目標,含跨&多學科(領(lǐng)域或行業(yè))的全球知識定位系統(tǒng)(GKPS)。這就為形式化理解模型及其實際應(yīng)用奠定了堅實的基礎(chǔ)(特別是在人機交互智能系統(tǒng)的背景下)。
圖5 信息處理新舊標準(Z-ASCII)[21]
用以下三個步驟的聚集可銜接GLPS與大小前提:
(1) 基于孿生圖靈機(具有自動學習能力和形式化理解能力的新型智能機)的發(fā)現(xiàn)和發(fā)明,構(gòu)建一對數(shù)字棋盤。例如:字符的智能化文本分析示例,英語的詞形式組合的智能化文本分析示例。由此可顯示人際和人機的雙重形式化方略的協(xié)同機制。
這不僅揭示了語言學和語言哲學通過間接形式化途徑如何進入語言科學殿堂的短程線,而且還發(fā)現(xiàn)了信息學和信息哲學通過間接形式化途徑如何進入信息科學殿堂的短程線,甚至也發(fā)現(xiàn)了教育學和教育哲學通過間接形式化途徑如何進入教育科學殿堂的短程線。
(2) 基于形式化理解模型而生成的大數(shù)據(jù)與過去舊范式獲得方式生成的大數(shù)據(jù),形成了鮮明對比?;跀?shù)字棋盤產(chǎn)生的大數(shù)據(jù)和基于網(wǎng)絡(luò)爬蟲所獲取的大數(shù)據(jù),雖然都是大數(shù)據(jù),但是存在可控性的區(qū)別。例如,雖然都是基于美國標準信息交換代碼的技術(shù)來調(diào)用字母符號,但是卻不能直接調(diào)用筆畫符號,更不能同時直接調(diào)用廣義文本的所有符號(Z卻可以)。
可以說同樣是大數(shù)據(jù),其效率卻大不相同。例如:谷歌的圍棋軟件和深度學習的結(jié)合帶來了快速發(fā)展;數(shù)字棋盤和文字棋盤結(jié)合構(gòu)成的孿生圖靈機卻可發(fā)揮協(xié)同智能系統(tǒng)的作用。由于邏輯、數(shù)學和物理三方面存在秩序和位置的一致性,如{真,假}、{0,1}和{開,關(guān)},因此,它們只是純形式的計算、統(tǒng)計和變換,棋盤、棋譜和棋法不受周期和概率的控制,棋理也一樣。這對于人腦和電腦(好比硬件)用的軟件、知識和語言而言,是一個更好的靈感。通過實際示例介紹棋理,可以發(fā)現(xiàn)人腦擅長的棋譜應(yīng)用與電腦擅長的機器學習都是獨一無二的。
(3) 機器的批處理和人機交互的啟發(fā)式,在基于寬度的搜索和基于深度的搜索以及基于遺傳算法的搜索中,都具有其自身特征。人機結(jié)合的意義和選擇,僅在術(shù)語處理和學習方面有所不同(涉及:分析、比較、查詢和重用)。受限于在間接形式化的數(shù)字和文本的雙列表,人機雙腦的協(xié)同操作,可實現(xiàn)人機協(xié)作甚至協(xié)同即有針對性的雙腦大協(xié)作。
大數(shù)據(jù)與教育之間的關(guān)系反映了計算機第一步的優(yōu)勢;第二步反映人機交替的優(yōu)勢;第三步則展示了人機之間的(高度)分工與合作的雙重優(yōu)勢。由此,才發(fā)現(xiàn)了其巨大的潛力。
圖6為可間接計算的雙字棋盤示例。
圖6 可間接計算的雙字棋盤示例(英文版的)
從圖6可以看見,文本是2017年2月19日星期日在AAAS科學年會上塞爾研究中心主任研究員鄒曉輝在展覽廳(Hynes會議中心)展示的論文方法的純文本部分。文本框下方的數(shù)字和字符即詞形式。
用戶選出的術(shù)語是在雙棋盤上調(diào)用的字符組合。示例如表1所示。
表1 在此三對知識模塊由六組術(shù)語構(gòu)成
將表1與圖6結(jié)合可以看出兩者的內(nèi)在聯(lián)系。圖6英語文本的中文翻譯如下:
基于數(shù)字和文本的雙矩陣方法涉及以下步驟:
首先,亞里士多德基于語言的形式邏輯和弗雷格基于算術(shù)的數(shù)學邏輯,為基于序和位的廣義雙語邏輯奠定了基礎(chǔ)。同時,圖靈基于數(shù)字計算的強人工智能觀點和塞爾基于自然語言的弱人工智能觀點,為基礎(chǔ)數(shù)字和文本雙矩陣之間的聯(lián)動函數(shù)關(guān)系奠定了基礎(chǔ)。然后,在常識和跨學科、跨領(lǐng)域和跨行業(yè)的專業(yè)知識基礎(chǔ)上建立另類雙語,索緒爾普通語言觀和喬姆斯基形式語言觀結(jié)合,在英漢狹義雙語的基礎(chǔ)上,再結(jié)合廣義雙語,建立三類雙語的廣義翻譯系統(tǒng)的基礎(chǔ)。其特點是基于知識本體的廣義翻譯,與聯(lián)動函數(shù)關(guān)系及序位邏輯結(jié)構(gòu)一道,共同構(gòu)成了人機雙腦協(xié)作的基礎(chǔ)。
圖7為中文雙字棋盤可間接計算的《棄》示例,可以看出,僅在漢字棋盤上選出“終、不、迷、胡”四個字即可起到畫龍點睛的理解效果(在此內(nèi)容與形式結(jié)合得很好)。
圖7 中文雙字棋盤可間接計算的《棄》示例
圖8為示例《存》,就這首詩而言,一旦找出“已、真、待、巧”四個字,再說明要重構(gòu)的“基因”不是生物的,而是文化的,即形式化廣義文本的基因,幾乎瞬間就可表達其特定的含義和用意。
圖8 中文雙字棋盤可間接計算的《存》示例
圖7和圖8的中文雙字棋盤及其蘊涵的序位邏輯和聯(lián)動函數(shù)結(jié)合廣義翻譯可將知識棋譜和原創(chuàng)棋魂代表的知識模塊精加工示例與英文雙字棋盤的術(shù)語即知識模塊的示例揭示出語言棋盤蘊涵的深刻棋理。棋理在此具通用性,如二進制的圍棋與多進制的雙字棋。這樣的廣義文本的棋理可作為統(tǒng)一參照系統(tǒng)理解廣義語言。將漢字版的雙字棋盤作為統(tǒng)一參照系統(tǒng),不僅可以從原文中得到更好的支持,而且,是智能化文本分析和知識模塊精加工的工具。話語或術(shù)語的選取都可通過雙語或多語轉(zhuǎn)換以多種方式一系列的雙字棋盤后臺自動查詢。
無論是雙音節(jié)及多音節(jié)的語(漢語的字組)還是混音節(jié)的詞語(不限于漢語的語),都是單音節(jié)的言(漢語的字)構(gòu)成的超級棋盤或矩陣里被用戶選用的(某種組合),它們都是形式化的[22-25]。
其意義在于該方法及結(jié)果不僅可用于創(chuàng)建大數(shù)據(jù)與人機對話環(huán)境,而且,還可用于智能化文本分析和知識模塊精加工,從而,搭起大數(shù)據(jù)與知識大生產(chǎn)的橋梁。例如,基于課堂特定學科領(lǐng)域的知識本體建構(gòu)過程中產(chǎn)生的大數(shù)據(jù),不僅可通過傳統(tǒng)技術(shù)處理,還可通過雙字棋盤這樣的創(chuàng)新技術(shù)處理?;谛g(shù)語知識本體的智能系統(tǒng)可直接用于知識大生產(chǎn)。
形式化理解模型及其蘊含的三大原理(序位結(jié)構(gòu)遵循的雙語邏輯、聯(lián)動函數(shù)遵循的P進制原理和三類雙語示例蘊含的基于知識本體的廣義翻譯原理)和雙字棋盤蘊涵的三類孿生圖靈機原理,為基于潔凈大數(shù)據(jù)協(xié)同智能系統(tǒng)的研究與應(yīng)用奠定了基礎(chǔ)。具體表現(xiàn)是:自然語言處理和形式化理解,專家知識獲取和形式化表達,軟件編程建模和形式化模擬,都可得到序位結(jié)構(gòu)(邏輯)和聯(lián)動函數(shù)(數(shù)學)在理解(知)上的支持,還可得到人工(標準化技術(shù))和人類(個性化藝術(shù))在操作(行)上的支持。
可視化的模式識別可先建模再模擬,軟件工程和模式識別的許多問題及其解決方案也蘊涵在其中。
這種有益效果表明:過去語言、知識和軟件三種工程技術(shù),不僅可揭示其連貫的機理,而且還可獲得意料之外理情之中的創(chuàng)新發(fā)展(語言、知識和軟件的三大系統(tǒng)工程技術(shù)的發(fā)明創(chuàng)造,及信息、智能和數(shù)據(jù)三大科學原理的發(fā)現(xiàn)創(chuàng)新)。簡而言之,它是對智能系統(tǒng)研究(科學)及其應(yīng)用(技術(shù))進一步發(fā)展的基礎(chǔ)。
新方法有效的原因在于它充分發(fā)揮了人機合作的優(yōu)勢。其具體表現(xiàn)是:首先,不僅頂級人類專家的創(chuàng)造力已獲得了優(yōu)越的環(huán)境,而且教師和學生也獲得了相同的環(huán)境。其次,不僅可以使用間接形式化方法和間接計算模型,還可建構(gòu)并使用英語和其他語言的雙字棋盤。最后,不僅間接形式化方法和字符間接計算模型很受歡迎,而且圖形圖像和各種類型的媒體也會流行。
這三方面的結(jié)合意味著在解決大數(shù)據(jù)和教育中的有趣問題時,不僅可討論最新解決方案、科學的結(jié)果和方法,還可討論人機之間分工和合作的可能性。這是最吸引人的。人機交互的優(yōu)勢互補和優(yōu)化互動才是信息處理、人工智能和大數(shù)據(jù)發(fā)展之后最具競爭力的綜合技術(shù)創(chuàng)新,即智能系統(tǒng)研究及其應(yīng)用。由于教育最重要的作用是啟迪智慧,而基于潔凈大數(shù)據(jù)的智能系統(tǒng)的研究和應(yīng)用則在教育、管理、學習和應(yīng)用結(jié)合的社會化系統(tǒng)工程方面,與語言、知識、軟件和硬件結(jié)合的形式化系統(tǒng)工程遙相呼應(yīng),且具有獨特性。