通用智能本體

2020-09-03 08:15盧策吾王世全

工程 2020年3期

盧策吾，王世全

a Department of Computer Science and Engineering, Shanghai Jiao Tong University , Shanghai 200240, China b Flexiv Ltd., Shanghai 201105, China

1. 引言

在日常的工作和生活中，我們希望智能設備能幫助我們完成各種各樣的任務。因此，我們經常需要根據不同的任務和場景設計各種機器人和相應算法。但是，這樣遠遠達不到我們對智能的期望，也滿足不了現(xiàn)實中對任務和場景自適應的需求。而反觀我們人本身，如果將人類看作一個“智能本體”，用這樣一個本體（加上適當工具），我們可以做不同的操作任務適應不同的場景。這也啟發(fā)我們，我們需要一個通用的智能本體（generalpurpose intelligent agent, GIA），大部分任務可以在同一個本體上執(zhí)行，從而大大提高產業(yè)和生活的智能程度。我們還認為，為了接近通用人工智能的目標[1]，一個強大的、標準的通用智能本體是必要的。

所以，本文探討了通用智能本體所需要的體系結構，我們從以下兩個角度討論。類人性（human-like）：我們希望通用智能本體能和人類一樣有完整的感知能力[2]、決策能力[3]，同時能不斷接收新知識[4]，積累經驗，適應新的環(huán)境，并且能驅動本體正確實施各種操作，最終完成任務。類計算機性（computer-like）：我們希望通用智能本體在體系結構設計上能參照計算機的設計思想[5]，比如，我們需要有清晰的模塊和模塊之間的協(xié)議，模塊自身可升級，同時用戶能通過高級語義編程方式低成本地面向任務描述，而無需關心底層設計。在充分考慮功能的類人性和設計的類計算機性后，我們提出了元操作流模型，提取跨任務間的元操作共性，盡量用最簡單的結構完成盡可能多的任務。本文建議通用智能本體應該有五大基本模塊：執(zhí)行模塊、中央GIA處理器、感知模塊、知識引擎和任務編譯器。在下文中，我們將討論這些模塊如何協(xié)同地實現(xiàn)在功能上與人類可類比（具有智能性），也同時在設計思路上與計算機可類比（具有可操作性）。我們希望設計的體系機構能實現(xiàn)以下的三大特性。

（1）可遷移性：在執(zhí)行大多數任務時，無需更換本體，用戶只需提供簡單地任務描述，無需重新設計底層通用硬件，協(xié)議和操作系統(tǒng)；

（2）可擴展性：和通用計算機的模塊（CPU, RAM）一樣，各個基本模塊相對獨立，且可升級；

（3）可群智性：面向群體智能，知識可增長，經驗可共享。隨著通用智能本體群完成任務的增加，知識體系得到擴展，學習新任務所需的時間減少。

我們還進一步討論了如何量化衡量一個本體的智能程度。我們認為任務遷移能力是衡量一個本體智能的最重要標準，所以，提出了機器人類學習成本比（agenthman cost ratio, AHCR）的衡量指標，即對于一項新的任務，一個本體需要人類的多少倍時間學會該任務，這個指標可以很好地衡量一個本體在通用智能方面的綜合能力。必須注意的是，本文中通用智能本體的概念不是要苛求完成所有人類的操作任務，而是追求盡可能多的任務能在一個統(tǒng)一的本體上完成。因為根據某些特定場景的需要，特制機器人會有更高的效率，比如掃地機器人。這個正如通用計算機和特殊功能計算機的關系，雖然絕大多數人使用通用計算機體系結構，但是某些特殊計算需要使用特殊體系結構的計算機。

文中我們先介紹通用智能本體的基本體系結構和評價指標，以及對智能科學的影響，之后討論在各個行業(yè)中的應用。最后做出總結。

2. 元操作流模型

各種行業(yè)、各種環(huán)境下有著各種各樣需要完成的操作任務。通用智能本體的核心就是要用一個簡單模型來統(tǒng)一描述這樣近乎無窮數目的操作任務。因此，我們提出了元操作流模型。任何一個人類操作任務都可以分解為多個步驟。比如任務“擰開螺絲”，會分解成為抓起螺絲刀，移動螺絲刀對準螺釘，擰動螺絲刀，取出螺絲刀。

我們沿著這一思路，探討如何把一個大的操作分解成為多個小操作。為了讓一個任務的分解更明確，我們定義“可不再向下分解的通用操作”為元操作，比如抓、擰、插入、揉壓等。我們要求這些元操作需要具有足夠廣泛的遷移共性，這些共性是跨任務、跨操作對象的。

比如，我們在醫(yī)療行業(yè)扭開一個藥瓶蓋和在家用行業(yè)扭開一個牛奶瓶蓋具有很強的共性。而且可預期的是，人類的元操作集合是有限的。因此，在定義好元操作集合后，人類的任何操作任務，都可以解析為一個元操作流，也就是一串元操作序列。接下來，我們更加深入地討論元操作的完備定義和元操作流的構建。

2.1. 元操作三要素

一個完備的元操作定義，除了元操作類型P（比如抓、擰、插入），需要考慮操作對象O、元操作完成后的最終狀態(tài)S集合。某些操作任務最終完成狀態(tài)S可能有多種可能性，比如敲碎玻璃，最終結果敲碎可能有普通玻璃的碎裂狀態(tài)或鋼化玻璃的顆粒狀粉碎狀態(tài)等。所以我們認為S是一個集合，元操作P針對操作對象O順利執(zhí)行后，客觀環(huán)境狀態(tài)轉變至最終狀態(tài)集合S中的一種。我們簡稱這幾個要素為自適應元操作三要素{P,O, S}。

當本體獲取三要素{P, O, S}后，本體啟動元操作P的知識，提取物體O的狀態(tài)（視覺、力覺）與屬性，做出自適應操作，指導達到完成狀態(tài)S。這需要依賴一個好的知識引擎，細節(jié)會在后面介紹。我們從概念上定義S集合，但是實際中，如果S集合過于龐大無法枚舉，我們將設計（或者訓練）一個判別函數來反饋當前狀態(tài)是否為完成狀態(tài)，以及該狀態(tài)的具體情況。

2.2. 元操作流構建

在元操作集合確定后，如何動態(tài)地根據當前環(huán)境選擇元操作是一個開放的學術問題。我們需要一個元操作選擇函數T()來決定當前時刻的元操作選擇，從而形成元操作流。另外，如何基于通用智能本體的基本架構設計更加智能、更加通用的元操作，也是一個開放的學術問題。這些都需要群體智慧來共同推進。

意義：元操作流模型可以使各種復雜的任務的描述和操作簡單化?？紤]到人類元操作種類有限，很多復雜的任務描述可以變成元操作的組合問題。而同一個元操作，即使面對不同的物體，也會有很強的共性，這使得我們有可能抽取其中的共性，編輯成元操作知識，實現(xiàn)非常強的復用性和任務可遷移性。

3. 通用智能本體體系結構

如圖1所示，我們探討通用智能本體的基本模塊：執(zhí)行模塊、中央GIA處理器、感知模塊、知識引擎、任務編譯器。這些模塊作為一個整體在統(tǒng)一的協(xié)議下，完成各種任務，不需要為某個特定任務重新設計新的軟硬件體系結構。

接下來我們以元操作流模型為邏輯基礎，簡單介紹五大基本模塊。

執(zhí)行模塊。該部分主要由移動平臺與操作平臺兩大硬件體系組成。

（1）移動平臺。通過移動平臺空間上的移動，靠近被操作對象，使得被操作對象處于操作平臺的工作空間內。常見的移動平臺包括滑軌、輪式、四足、雙足等系統(tǒng)，移動局限和靈活性依次降低，控制難度依次提升。如何提升控制穩(wěn)定性、靈活性及運行效率，仍是機器人領域重要的研究方向。

（2）操作平臺。通過對操作對象施加空間上不同位置、不同維度的施力，使得操作對象產生所預期規(guī)劃的結果。常見的操作平臺包括并行、串聯(lián)等機構類型的機器臂及其末端執(zhí)行器，驅動方式包括電驅、氣動、液壓等驅動類型。如何兼顧操作力的精度和靈活度，操作平臺的速度、穩(wěn)定性、負載和能效，是執(zhí)行模塊進一步進化的關鍵課題。

圖1 . 通用智能本體的五個基本模塊。

感知模塊。感知模塊接收外界信號，包括采集視覺信號、力覺信號、聲音信號等，同時解析環(huán)境中的視覺、力覺、聽覺等語義。其中，解析視覺語義和聽覺語義分別需要使用計算機視覺技術和語音識別。

學術問題：視覺聽覺信號采集為相對成熟的技術，其中視覺信息可能包括精確三維信息與熱感信息。而目前，基于深度學習的計算機視覺技術對于未在訓練集中出現(xiàn)的物體識別能力有限，如何融合環(huán)境交互提高對新物體的識別也是一個開放性的學術問題。力覺感知器的反饋信息可能包含低頻的六維力覺信號（三維接觸力和三維接觸扭矩）、高頻的觸覺信號（接觸面的震動狀態(tài)，可用來辨識接觸物體的物理特性和操作狀態(tài)特性）以及觸覺空間信息（力覺信號的空間分布，一般通過陣列形式的傳感器獲取，類圖像特征）。目前，力覺感知器的設計與解析方法在研究上仍處于不斷發(fā)展的階段，同時如何更準確全面、成本更低地獲取合適的力覺信息并與其他感知維度進行有效融合，是一個開放性的學術課題。

任務編譯器。任務編譯器是用戶向通用智能本體布置任務的統(tǒng)一界面。具體講，我們提出開發(fā)一種“面向任務的高級語言”，用戶使用該語言，通過執(zhí)行模塊、感知模塊及編譯專用設備等媒介進行任務描述，在實際應用中能進行元操作流生成。具體地說，任務編譯器負責編譯成可以執(zhí)行的元操作選擇函數Z()。該函數能根據感知模塊所反饋的信息，結合知識引擎提供知識，從有限的元操作庫中選擇當前最佳的元操作。和傳統(tǒng)計算機編程語言不同，用戶不止能通過編寫程序代碼的形式，甚至能通過動作示教、自然語言等多種方式實現(xiàn)任務描述。

學術問題：如何描述一個任務（特別是復雜操作任務）從而生成（或者學習出）一個機器可執(zhí)行的元操作選擇函數Z()，也將是一個嶄新的科學問題。通過演示學習是一個直接的解決方案，并已研究了很長時間[6]，但它通常是特定于機器人的，而且成本高昂，無法記錄復雜任務的每一個可能的成功路徑?？紤]到自然語言處理（NLP）技術最近已取得了相當大的進步[7]，通過自然語言向機器人布置任務也是很有前途的方案；然而，自然語言是開放的，而我們更容易從閉合詞匯集中學習到技能。

進一步我們要思考機器教學（machine teaching），而不只是是機器學習（machine learning）。之前，大家關注機器學習是因為，機器教學問題相對簡單，只需要做樣本標注就可以，而如何讓機器理解任務則是一個更加有難度的問題。

技術展望：對于有固定步驟的任務（比如工業(yè)場景），我們可以直接編寫元操作順序。而對于每一步都需要動態(tài)決策使用什么樣的元操作，目前比較可探索的方法需要觀察人類的決策行為，采用模仿學習。這一過程中，“未來預測”，也是一個關鍵的技術點，人類在選擇元操作流不需要大規(guī)模試錯，而是基于對未來的基本預判，這將大大地提升決策成功的可能性。

知識引擎。在統(tǒng)一的協(xié)議下，不同用戶可以對物體和物體操作進行知識編輯，對知識庫進行擴展。比如，微波爐廠商生產微波爐，可以對其操作知識進行知識編輯，這些知識通過統(tǒng)一格式上傳到云端的中央AIG知識引擎。通用智能本體對環(huán)境進行解析識別，在知識庫中找到對應知識，或者找到最相似的知識集合，對當前案例所需要的操作進行推理。

學術問題：①如何定義物體知識以及物體操作知識的編輯協(xié)議；②面對大量動態(tài)知識（比如各種元操作知識）如何使用人機交互完成；③當知識庫中沒有絕對匹配知識時，如何依靠相近知識進行推理。

技術展望：我們希望構建一個全方位的知識庫，包括：

（1）基于物體屬性的知識引擎：收集大量三維物體信息，并編輯物體屬性，包括物體各個部分的功能、使用方式和物理屬性等。目前，沒有一個包含所有標注信息的物體數據庫。作為當前最大的物體數據集，Shape-Net [8]標注了一些屬性，但是對象和屬性的覆蓋都不完整。然而，如何建立物體屬性標注的有效協(xié)議也是一件重要的事情。當我們建立了物體屬性空間后，對物體的理解會有更強的泛化性。當遇到新的未見物體，雖然沒見過，在通過多次交互與識別獲得其屬性后，我們仍然能較好地理解該物體，并且將這些理解運用到操作上。這樣的設置是ShapeNet無法滿足的。

（2）自適應元操作知識引擎：對于每一個特定元操作，在處理不同物體對象時具有一定共性，并且這種共性是跨任務的。我們希望能抽取同一元操作下的共同操作知識，面對不同處理對象能非常好地完成操作任務。具體講，需要設計（或者學習）一個M函數。對于第i個操作元，給定操作對象物體集合O（可能包括對象物體、工具等）、最終狀態(tài)S，Mi輸出一個可執(zhí)行的指令u來完成元操作，數學上可以寫為u = Mi(O, S)。函數M的構建需要結合實時的力覺、視覺等感知信息及引擎中的相關知識。u為基于特定控制策略和感知信息的一段機器執(zhí)行動作。要注意的是，物體屬性知識會是操作O的主要依據（比如插入前需要判斷物體的哪些特征可插、材質屬性對插入力的影響等）。操作元的概念有兩種：顯式的（即基于規(guī)則的）[9]和隱式的（即數據驅動的）[10]。傳統(tǒng)上，顯式方案從未嘗試將所有日常操作聯(lián)合起來，并將注意力集中在幾個特定的小任務上，如抓取、移動和清掃[11]。很難將規(guī)則定義的原語組合成相當復雜的任務。相反，隱式方案的目標是完全通過數據來學習操作模式?？紤]到任務拓撲的復雜性，可能無法收集所需的適當數據量。我們的想法與顯式方案密切相關，因為我們?yōu)槊總€原語分配一個人類可識別的名稱。

（3）任務知識引擎：當我們建立和完善元操作知識引擎時，我們需要根據任務確定元操作的組合步驟，其中也存在許多步驟次序不固定的任務。目前，人類的行為被海量的視頻所記錄，我們可以解析這些行為在各種環(huán)境和操作物體下的元操作序列[12]，來獲得任務知識引擎[13]。這可以很大程度提高用戶使用任務編輯器描述任務的效率。任務解析具有挑戰(zhàn)性，因為任務通常可以通過不同的例程來完成。換句話說，常規(guī)任務的任務拓撲是復雜的，模型參數無法捕獲如此巨大的空間。這就是為什么數據驅動方法對于這樣一個問題是不可行的主要原因[14]。但是，我們的操作元知識引擎將優(yōu)先處理任務解析問題。

中央GIA處理器。解析任務編譯器的任務之后，中央GIA處理器讀取感知模塊信號，并調用知識引擎中的知識做出綜合決策，并向執(zhí)行模塊發(fā)出指令。該模塊為整個系統(tǒng)的中心計算模塊，涉及如何快速提取云端知識引擎，以及實時決策，對計算設計模型提出了一定的要求。

該體系架構有三大特點：

（1）面向任務語義編輯。用戶可以通過任務編譯器向通用智能本體發(fā)放任務描述。與此配合的，我們提議一套面向任務的高級編程語言，用戶無需設計智能本體底層結構。正如我們使用高級語言計算機編程時，不需要設計處理計算機CPU、內存等各種細節(jié)。

（2）標準協(xié)議下的可升級模塊。感知模塊、執(zhí)行模塊和中央GIA處理器都有統(tǒng)一的運行協(xié)議，以及各模塊之間通訊協(xié)議，無論是硬件還是軟件都可以獨立升級。

（3）知識與經驗可增長。在建立一定物體和操作知識編輯協(xié)議后，知識引擎是對全體用戶開放的，可以在統(tǒng)一規(guī)范下提交物體、元操作、任務等知識模塊，實現(xiàn)知識不間斷增長。

討論：我們提出通用智能本體既要從智能功能上與人類類比，又要從設計上與計算機類比（表1）。

類比人類：中央GIA處理器可類比大腦負責邏輯區(qū)域，負責綜合處理；感知模塊可類比眼睛、耳朵、觸覺神經，大腦視覺聽覺觸覺理解模塊獲取環(huán)境信息；知識引擎可類比大腦記憶區(qū)間，執(zhí)行模塊類比人的手和腳；而任務編譯器類似大腦中的語言理解區(qū)間，用于理解用戶任務描述。

類比計算機：任務編譯器類似計算機中的編譯器，使得各種程序可以執(zhí)行在中央GIA處理器（類比CPU）上。而知識引擎可以類比存儲器。而感知模塊自然可以類比計算機的輸入設備、鍵盤、鼠標。但是，計算機沒有辦法影響外部物理世界，所以執(zhí)行模塊沒有對應計算機模塊。我們列出類比表格，如表1所示。

4. 標準

我們需要一個可量化指標來衡量智能通用本體的性能?？蛇w移性是直接衡量一個本體的通用智能程度的標準，即完成一項新任務所需要的學習成本是多少。這也是當前以深度學習為基礎的人工智能技術的瓶頸所在[15]?；诖?，我們提出以AHCR作為衡量指標（單位是小時），我們定義如下。

表1 人類功能器官與計算機設計模塊類比表

對于某一任務A，我們令：

Tagent：從用戶開始編寫任務A描述程序起，到本體學會任務A為止所需的平均時間；

Thuman：人類學習者從學習任務A起，到學會任務為止所需的平均時間。

因此，我們可以計算任務A的AHCR如下：

AHCR =Tagent/Thuman

Tagent也稱為“本體教學總成本”。這里用“平均時間”是考慮到每個人使用的時間會有所偏差。AHCR的概念是一個本體需要人類的多少倍時間完成一個新任務的學習。我們希望這個數值接近1或者小于1。

這一指標能全面地衡量一個本體的通用智能能力。因為“教學完成時間”涉及兩個因素：①任務編程器的成熟程度，屬于“教”所需要的時間，如果我們描述一個任務需要大量的時間，比如大量的硬規(guī)則（hard-coding）編寫時間，那么將會增大“教學總時間”，而最理想的情況，我們能用自然語言或肢體語言描述任務；②本體學習需要的時間，比如模型訓練。要特別注意的，預計大部分任務需要多輪人機交互（human in loop），用戶要根據任務反饋結果重新編程，這也考驗本體與人的交互學習（active learning）效率。另外，當本體的知識引擎越強大和基于知識引擎的推理能力越強大時，所需要的時間也就越少。

任務庫（scalable task zoo）。由于用單個任務來衡量一個本體的遷移能力會有一定偏差，我們需要建立一個任務庫（task zoo）來綜合衡量，而且其中的難度和任務種類要有一定多樣性和代表性。這樣能防止對智能本體的衡量的偏差（bias）。我們將平均task zoo上的所有AHCR結果（average AHCR）來衡量一個智能本體的標準。我們希望的情況是，隨著任務數增加，學習總時間會減少。這里將會涉及一個嶄新的學術問題，就是在task zoo里哪一些任務應該先學，哪一些需要慢學的策略問題。因為人類學習任務也有一個從易到難的過程，這樣的總學習成本最小。

5. 群體智能

我們提出的通用智能本體的進步依賴于群體智能（swarm intelligent）的發(fā)展。即我們需要建立可持續(xù)的學術與商業(yè)社群（community）和有效的組織方式。我們期待以下社群的出現(xiàn)。

知識引擎社群：社群成員提交和審核各種元操作、物體和任務知識。

感知模型社群：社群成員提交和審核各種感知模型，用于比如各種物體檢測識別器。

Task zoo社群：我們希望task zoo是可擴展的，所有成員都可以提交新的任務，而我們也需要成立一個審核委員會審核提交的測試任務是否可以加入task zoo。測試委員會則是組織對多個本體的測試。

任務編譯器社群：我們鼓勵多種“高級任務編程語言”共存與競爭，經過一定時間后，出現(xiàn)被用戶普遍認可的語言，這也需要一個任務編譯器社群的支撐。

6. 對人工智能的影響

我們認為通用智能本體不能簡單地看作AI賦能設備。我們相信這樣一個本體會大大推進智能科學的發(fā)展。目前，主流的深度學習面臨的問題是，對于新的任務，沒有訓練過的數據性能會大大下降，換句話說就是可遷移性較弱。通用智能本體的提出可以很大程度上提高機器對任務的可遷移性。

對環(huán)境的深刻理解：智能體需要對其所在環(huán)境（特別是操作對象）有深度理解?；谟蟹夯芰Φ脑僮骷?，通過與物體交互操作，智能體對物理世界產生更加深刻的理解，能更好地表征物體各種概念，比如，物體功能、操作方式、材質等。人類也正是通過與物體的交互，實現(xiàn)對物體屬性層面的深刻理解。比如，我們理解剪刀這個概念，我們通過交互判斷它是否能剪斷物體。如圖2所示，即使訓練數據中沒有這樣的圖片，也能判斷這是剪刀。而傳統(tǒng)深度學習算法（如果沒有事先訓練過類似圖片）無法識別。

通用智能本體提供了和世界交互的基礎，可以獲得更多的物體屬性概念，這將有別于傳統(tǒng)的深度學習?；诶斫馕矬w屬性，系統(tǒng)會對未訓練的物體也能很好地理解。從某種程度講，借助元操作構建，本體實現(xiàn)了從模式識別到物體理解，對于沒有見過的物體有很好的泛化能力。

可增長群體智能：雖然群體智能被提出來已經有20年的歷史，但是要跨任務比較困難[16]。而通用智能本體的推出提供了一個很好的機會。因為我們的邏輯基礎是元操作，而元操作在不同任務下具有很強共性。隨著大量操作被（通用智能本體）群體各個成員所創(chuàng)造和記錄，這種跨任務共性會被提取出來進一步支持任務可遷移。另外，通用智能本體有統(tǒng)一的協(xié)議，當人類社會廣泛使用同一個通用智能本體，經驗共享變得更加容易，對未知任務的遷移能力越來越強。再次，每個元動作具有很強的通用性和層級性，能夠對海量的智能空間進行更加高效的結構化索引，為多維遠距的共性語義創(chuàng)建合理鏈接。

7. 通用智能本體的應用

通用智能本體將會提高各個領域的效率，預期會在工業(yè)制造、醫(yī)療、餐飲、農業(yè)、家用等很多領域產生巨大影響。比如，在家用領域，我們不可能對每個家庭特殊環(huán)境的每個任務重新設計硬件、軟件或學習模型，這也是阻礙家用機器發(fā)展的重要原因。考慮到各個領域的難易程度，通用智能本體在實際應用中的產業(yè)落地在時間上會有先后，我們可以粗略分成四個程度（Level）（表 2）。

我們認為操作步驟未知，每次要決策使用什么元操作，對智能程度要求較高，比如修理物品等。而操作環(huán)境和操作物體在知識引擎的幫助下，即使有所變化也能相對簡單地進行自適應和處理。所以，我們可以大致給出各個行業(yè)在各Level上的分布（圖3）。每個行業(yè)很難說絕對處于哪個Level上，而是跨Level的。其中，工業(yè)通用智能本體是相對簡單的階段，因為任務確定后，大部分操作屬于操作對象與環(huán)境變化不大、操作步驟已知的情況。到了家用通用智能本體，需要和人（一個變化很大的物體）交互，而且步驟也是不確定的（比如照顧老人）。

所以，我們建議第一步先完成工業(yè)通用智能本體，因為這是近期可實現(xiàn)的，也可以非常好地形成一個通用智能本體的基本雛形。后面各個行業(yè)的智能本體可以在這個雛形上升級，最終實現(xiàn)跨行業(yè)的通用智能本體。

執(zhí)行模塊。由于大多數集中于裝配的工人都固定在前方，因此我們提出的工業(yè)通用智能本體的執(zhí)行模塊可以是一對機器人手臂，其7個自由度與人類的7個自由度相匹配。在裝配復雜的零件時，人類通常依靠觸覺和力來感知是否裝配成功，這是一個在零件上施加不同維度的力和力矩（共6個自由度）的過程。因此，手臂需要能夠靈活地對零件施加不同的力和力矩組合，這意味著機器人手臂也應該具有較高的6個自由度的控制性能。

感知模塊。要有一個對力具有高控制性能的手臂，一個高質量的力/力矩傳感器是必需的。它可以嵌入手臂關節(jié)或末端執(zhí)行器。除了觸覺，還需要視覺來識別物體，定位每個物體的位置和方向，以及在每個物體上裝配特征以支持復雜的手眼協(xié)調?？煽紤]采用RGB-D深度相機來實現(xiàn)三維視覺。

圖2 . 我們可以識別傳統(tǒng)深度學習算法無法識別的沒有事先訓練過的圖片。

表2 通用智能本體的四級應用難度

圖3 . 各產業(yè)通用智能本體在不同難易程度的分布。

任務編譯器。在生產線上，編制完善的標準操作規(guī)程（SOP）和作業(yè)指導書對工人執(zhí)行任務是非常必要的。因此，最直接的任務編譯器是能夠解析標準操作規(guī)程并將其轉換為正確的元操作序列，并從標準操作規(guī)程中的圖片中學習對象，從而鏈接每個元操作。與通用智能本體在其他領域的應用相比，工業(yè)通用智能本體的元操作集相對較小，因此另一個更簡單的編譯器可以是字段工程編輯元操作流的編程板。

知識引擎。我們在這里提出了一組常規(guī)組裝過程所需的元操作，這些元操作可能并不是所有組裝任務的完整集合。

（1）插入、夾緊A部件并將其外/內特性滑動到B部件的內/外特性上?？赡艿奶卣靼ㄟB接器、軸/孔、螺釘/孔。

（2）墊料，將A部件壓在B部件的上面，在A部件的表面來回移動，使具有緊密公差A和B可以配合在一起。可能的特征包括使彼此配合過渡或沖壓配合的零件幾何形狀。

（3）將A部件擰緊、車削、安裝到B部件，特征包括螺紋、管螺紋等。

工業(yè)通用智能本體。與實現(xiàn)在各個領域廣泛應用所需的通用智能本體能力相比，通用智能本體應用于工業(yè)自動化是在一個更結構化的環(huán)境中運行，具有更明確的過程，因此實現(xiàn)起來沒有那么困難。

如今，經過了幾十年的技術發(fā)展，各種類型的機器人和定制的設備已經在現(xiàn)代化的生產線上得到了有效的利用。成熟的自動化工作包括焊接、噴漆、裝料等。然而，有一些程序需要更復雜的材料處理，去適應零件的符合性和組件的非完美扭矩控制，如復雜的裝配，這些程序仍然只能依靠人類完成。我們提出了一種工業(yè)通用智能本體的可能形式，能夠進行上述類型的工作。

8. 總結

本文我們提出了一種新的概念，通用智能本體，即追求各種任務間的通用可轉移性，并提出了通用智能本體的核心元操作流模型和體系結構。我們相信如果通用智能本體的概念能實現(xiàn)，不僅將極大地改進人類生活和生產，而且會促進智能科學的發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡