又一通用模型發(fā)布SAM是如何做到“分割一切”的

2023-04-20 17:40:31裴宸緯

科學(xué)導(dǎo)報(bào) 2023年25期

裴宸緯

SAM是一類處理圖像分割任務(wù)的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同，SAM可以處理所有類型的圖像。相比于以往的圖像分割模型，SAM可以識別各種輸入提示，確定圖像中需要分割的內(nèi)容，還可以靈活集成到虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)等其他系統(tǒng)中，且目前對于一些它未見過或相對模糊的場景，也能實(shí)現(xiàn)較好的圖像分割效果。

最近一段時(shí)間，人工智能通用模型領(lǐng)域頻現(xiàn)“爆款”。4月，Meta公司發(fā)布了一款名為“Segment Anything Model”（SAM）的通用模型，號稱可以“零樣本分割一切”。也就是說，SAM能從照片或視頻圖像中對任意對象實(shí)現(xiàn)一鍵分割，并且能夠零樣本遷移到其他任務(wù)中。

在相關(guān)展示頁面中，科技日報(bào)記者看到，在一張包含水果、案板、刀具、綠植、儲物架等眾多物體、背景雜亂的廚房照片中，該模型可迅速識別出不同的物體，以粗線條勾勒出物體輪廓，并用不同顏色對不同物體進(jìn)行區(qū)分。“這就是SAM最重要的功能——圖像分割?！敝袊茖W(xué)院自動(dòng)化研究所多模態(tài)人工智能系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室研究員、中國科學(xué)院大學(xué)人工智能學(xué)院教授楊戈向記者表示。

那么，SAM的技術(shù)原理是什么？相比于此前的圖像分割模型，該模型有何不同？未來又有可能在哪些方面應(yīng)用？

楊戈向記者解釋道，像SAM這樣可以處理多種不同類型任務(wù)的人工智能模型，叫作通用模型。與之相對，那些專門處理一種類型任務(wù)的人工智能模型，叫作專有模型。

打個(gè)形象的比喻，通用模型就好比是一個(gè)“多面手”。它具有處理一般事務(wù)的能力，但是在精度等性能上往往會(huì)遜色于只處理一種類型任務(wù)的專有模型。

既然通用模型可能會(huì)在精度上低于專有模型，為什么還要費(fèi)盡心力地開發(fā)通用模型？對此，楊戈表示，通用模型與專有模型定位不同。通用模型帶來的，是解決分割問題的新范式，特別是幫助科研人員提升在解決專有任務(wù)時(shí)的效率，“以前，面對不同的任務(wù)需求，科研人員往往需要開發(fā)不同的專有模型來應(yīng)對。這樣開發(fā)出的模型精度確實(shí)會(huì)更高，但是往往也會(huì)付出較大的研發(fā)成本，而且研發(fā)的模型通用性不強(qiáng)?！睏罡暾f。

通用模型能夠?qū)⑺腥蝿?wù)都處理得“八九不離十”，因此科研人員往往只需在通用模型的基礎(chǔ)上進(jìn)行優(yōu)化，使之更加符合任務(wù)需求即可，而不需要費(fèi)盡心力地從零開始搭建專有模型。因此，通用模型的初始開發(fā)成本可能會(huì)高，但隨著使用通用模型的次數(shù)越來越多，其應(yīng)用成本也會(huì)越來越低。

SAM就是一類處理圖像分割任務(wù)的通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同，SAM可以處理所有類型的圖像。“在SAM出現(xiàn)前，基本上所有的圖像分割模型都是專有模型?！睏罡暄a(bǔ)充道，“打個(gè)比方，在醫(yī)學(xué)領(lǐng)域，有專門分割核磁圖像的人工智能模型，也有專門分割CT影像的人工智能模型。但這些模型往往只在分割專有領(lǐng)域內(nèi)的圖像時(shí)，才具有良好性能，而在分割其他領(lǐng)域的圖像時(shí)往往性能不佳?！?/p>

有業(yè)內(nèi)專家表示，相比于以往的圖像分割模型，SAM可以識別各種輸入提示，確定圖像中需要分割的內(nèi)容，還可以靈活集成到虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)等其他系統(tǒng)中，且目前對于一些它未見過或相對模糊的場景，也能實(shí)現(xiàn)較好的圖像分割效果；同時(shí)，SAM建立了一套圖像分割的通用模型，降低了對于特定場景建模知識、訓(xùn)練計(jì)算、數(shù)據(jù)標(biāo)記的需求，有望在統(tǒng)一框架下完成圖像分割任務(wù)。目前Meta公司已經(jīng)開放共享SAM的代碼和訓(xùn)練數(shù)據(jù)集。

那么，SAM是通過什么技術(shù)手段，實(shí)現(xiàn)對物體的識別與分割？尤其是在面對復(fù)雜環(huán)境、甚至沒遇到過的物體和圖像時(shí)，SAM又是怎么做到準(zhǔn)確識別與分割的？

“根據(jù)Meta發(fā)布的相關(guān)論文，SAM的模型結(jié)構(gòu)其實(shí)并不是特別復(fù)雜?！睏罡旮嬖V記者，“它用到了一個(gè)叫作‘編碼解碼器’的構(gòu)架?！?/p>

記者了解到，SAM先通過圖像編碼器為圖像生成編碼，同時(shí)用一個(gè)輕量級編碼器將用戶的文字提示轉(zhuǎn)換為提示編碼。然后，SAM將圖像編碼分別和提示編碼信息源組合在一起，輸送到一個(gè)輕量級解碼器中，用于預(yù)測分割掩碼。這樣一來，一旦使用者給出提示，則每個(gè)提示只需要幾毫秒就能在瀏覽器中得到結(jié)果響應(yīng)。

楊戈用了一個(gè)生動(dòng)的例子解釋SAM的運(yùn)行原理?！氨热缯f，給你一張帶有貓和狗的圖片?！畬⒄掌械呢垬?biāo)注出來’這就是提示；但是對于機(jī)器來說，它并不能直接‘明白’這種文字性提示，因此就需要將文字性提示轉(zhuǎn)換為機(jī)器能夠理解的提示編碼?！蓖恚瑢τ谡掌械呢埡凸?，機(jī)器實(shí)際上并不能直接“明白”什么是貓、什么是狗，而是將照片中的貓和狗與圖片編碼對應(yīng)起來。SAM通過訓(xùn)練學(xué)習(xí)提示編碼與圖片編碼的不同結(jié)合，理解人類在文字提示中表述的希望如何分割這張圖片。一旦“將照片中的貓標(biāo)注出來”這句提示被輸入時(shí)，SAM就能快速運(yùn)行，得到人類想要的結(jié)果。

既然SAM并沒有真正理解什么是貓、什么是狗，它又是如何準(zhǔn)確地執(zhí)行人類賦予的任務(wù)的呢？

“雖然SAM并沒有完全理解人類的語言和視覺的能力，但是通過對海量數(shù)據(jù)的學(xué)習(xí)，SAM仍然能夠做到準(zhǔn)確執(zhí)行任務(wù)?！睏罡杲忉尩?，用于訓(xùn)練SAM的數(shù)據(jù)集的數(shù)據(jù)量，是以往最大數(shù)據(jù)集的6倍。在這個(gè)數(shù)據(jù)集中，包括1100萬張圖像，和11億個(gè)標(biāo)注（可簡單理解為11億個(gè)物體）。這是一個(gè)“走量”的過程，數(shù)據(jù)量越大，機(jī)器分割圖像的能力就越準(zhǔn)確；即使在某張圖中出現(xiàn)了這11億個(gè)物體之外的物體，機(jī)器也往往能夠根據(jù)以往經(jīng)驗(yàn)以較高的準(zhǔn)確率“推斷”出它是什么物體，并將其納入自己的數(shù)據(jù)庫，這就是為什么SAM對于從未見過的物體，也能有很好的識別與分割效果。

“需要注意的是，這11億個(gè)標(biāo)注也不是純手工完成的，而是通過漸進(jìn)的方式自動(dòng)完成標(biāo)注的。一開始，這個(gè)數(shù)據(jù)集中只有相對少量的標(biāo)注數(shù)據(jù)?？蒲腥藛T先用這些數(shù)據(jù)訓(xùn)練出一個(gè)模型，然后再讓這個(gè)模型自動(dòng)標(biāo)注數(shù)據(jù)，并通過人工對標(biāo)注結(jié)果進(jìn)行改進(jìn)，這就得到了比上一個(gè)數(shù)據(jù)集更大一些的數(shù)據(jù)集。如此循環(huán)往復(fù)，就能得到海量標(biāo)注數(shù)據(jù)集?！睏罡暄a(bǔ)充道。

功能如此強(qiáng)大的圖像分割通用模型，將給計(jì)算機(jī)視覺領(lǐng)域帶來哪些改變？

“我認(rèn)為，SAM的出現(xiàn)將為計(jì)算機(jī)視覺領(lǐng)域的科研人員帶來工作范式上的變化?！睏罡陮τ浾哒f道，“SAM的出現(xiàn)確實(shí)會(huì)對目前一些與機(jī)器人視覺相關(guān)的研究領(lǐng)域造成沖擊，但從總體上看，SAM的出現(xiàn)會(huì)提升相關(guān)科研人員的效率?！?/p>

楊戈解釋道，以往科研人員構(gòu)建圖像分割模型，是一個(gè)“從下到上、從零開始”的過程；而圖像分割通用模型則將模型構(gòu)建方式變成了“從上到下”，即在已有性能和泛化能力更強(qiáng)的模型基礎(chǔ)上繼續(xù)修改、優(yōu)化，“這可能確實(shí)會(huì)取代某些專有模型，但從總體上看它將有利于整個(gè)領(lǐng)域的發(fā)展?！?/p>

此外，在具體應(yīng)用上，圖像分割通用模型前景十分廣闊。

工業(yè)中的機(jī)器視覺、自動(dòng)駕駛、安防等一些原來采用計(jì)算機(jī)視覺技術(shù)的行業(yè)，因?yàn)殚L尾場景多，需要大量標(biāo)簽數(shù)據(jù)，因此訓(xùn)練成本較高。有了圖像分割通用模型后，這些領(lǐng)域內(nèi)定制化開發(fā)產(chǎn)品的成本可能會(huì)降低，由此帶來毛利率的提升；還有一些領(lǐng)域，過去因?yàn)闃颖玖可俣y以應(yīng)用深度學(xué)習(xí)等人工智能算法?，F(xiàn)在，由于SAM在零樣本或者少量樣本上表現(xiàn)優(yōu)異，一些新的應(yīng)用領(lǐng)域?qū)⒈煌卣?，比如從代碼驅(qū)動(dòng)變?yōu)橐曈X驅(qū)動(dòng)的機(jī)器人、流程工業(yè)場景等。

同時(shí)，由于SAM可以接受來自其他系統(tǒng)的輸入提示，因此科幻片中根據(jù)用戶視覺焦點(diǎn)信息來識別并選擇對應(yīng)物體或?qū)⒊蔀榭赡堋?/p>

SAM不僅將在上述這些前沿領(lǐng)域發(fā)揮作用，同樣或?qū)?huì)用于人們的日常生活?！氨热缭卺t(yī)學(xué)影像診斷領(lǐng)域，SAM可能會(huì)催生出精度更高的醫(yī)學(xué)影像模型，提升醫(yī)療水平；在拍照過程中，SAM的加入或?qū)?shí)現(xiàn)更快更智能的人臉識別?！睏罡暾f道。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

又一通用模型發(fā)布SAM是如何做到“分割一切”的