人工智能時(shí)代對(duì)移動(dòng)終端的計(jì)算能力提出了更高要求,高通、蘋果、華為等廠商引入AI芯片為手機(jī)賦能。2017年AI芯片在手機(jī)終端開始商用[1],這些芯片的實(shí)際表現(xiàn)和能力對(duì)比引起業(yè)界廣泛關(guān)注,一些評(píng)測(cè)工具從多個(gè)維度對(duì)AI芯片能力進(jìn)行評(píng)估,給產(chǎn)業(yè)鏈廠商和消費(fèi)者帶來(lái)便利。同時(shí),這些評(píng)測(cè)工具尚不成熟,市場(chǎng)上對(duì)如何全面反映AI芯片能力未形成一致意見(jiàn),基于此,本文研究了幾款國(guó)內(nèi)外的AI芯片評(píng)測(cè)工具,分析發(fā)展趨勢(shì),為規(guī)范手機(jī)AI芯片評(píng)測(cè)方法提供參考,助力行業(yè)發(fā)展。
目前,移動(dòng)終端集成AI能力,如人臉識(shí)別和語(yǔ)音識(shí)別等,滿足大規(guī)模的用戶需求,為消費(fèi)者提供一對(duì)一的個(gè)性化體驗(yàn)服務(wù)。AI應(yīng)用的運(yùn)算量高達(dá)億每秒數(shù)量級(jí),傳統(tǒng)的處理器解決方案已不適用,由此產(chǎn)生了AI芯片。AI芯片能夠以更快的速度、更低的功耗完成機(jī)器學(xué)習(xí)運(yùn)算,成為手機(jī)的重要賣點(diǎn)和核心競(jìng)爭(zhēng)力。
用于手機(jī)的AI芯片解決方案大致分兩類[2],一類是內(nèi)置獨(dú)立AI運(yùn)算單元,在芯片中集成專門用于執(zhí)行AI算法的處理核心,另一類是通過(guò)SDK調(diào)度傳統(tǒng)硬件單元為芯片提供AI計(jì)算能力。兩種技術(shù)路線在功耗效率和研發(fā)成本上存在差異,集成專用AI模塊雖然成本略高,但是便于發(fā)揮平臺(tái)優(yōu)勢(shì),減少硬件單元間切換頻率,提升功耗效率,成為眾多芯片廠商的解決方案。
在專用AI模塊出現(xiàn)之前,高通憑借加強(qiáng)的GPU和DSP在Android平臺(tái)的AI芯片中占據(jù)有利地位,2017年海思發(fā)布全球首款內(nèi)置獨(dú)立NPU的麒麟970,隨后出現(xiàn)多種用于處理AI算法的移動(dòng)SoC,手機(jī)AI芯片市場(chǎng)呈現(xiàn)百花齊放的繁榮景象[3]。目前,蘋果A13支持在設(shè)備端訓(xùn)練機(jī)器學(xué)習(xí)模型,麒麟990集成晶體管數(shù)量達(dá)到百億級(jí)別,虎賁T7520實(shí)現(xiàn)6 nm制程,手機(jī)AI芯片得到“跨越式”發(fā)展。
AI芯片的功能日益多樣化、復(fù)雜化,各方都對(duì)衡量芯片的能力有著迫切的需求[4],芯片廠商依據(jù)不同的衡量標(biāo)準(zhǔn),聲稱其產(chǎn)品在計(jì)算性能、單位能耗等方面處于行業(yè)領(lǐng)先水平;需求方則關(guān)心如何能從廠商給出的信息中判斷出芯片是否能滿足其應(yīng)用場(chǎng)景的計(jì)算需求。因此,迫切需要建立一個(gè)與應(yīng)用場(chǎng)景緊密相關(guān)、可跨產(chǎn)品對(duì)比的測(cè)試評(píng)估方案,以降低芯片廠商、需求方的溝通成本,規(guī)范AI芯片市場(chǎng)競(jìng)爭(zhēng),同時(shí),我國(guó)龐大的消費(fèi)市場(chǎng)對(duì)底層芯片需求巨大,本土AI芯片產(chǎn)業(yè)尚處于起步階段,衡量AI芯片能力的評(píng)測(cè)方案也將為我國(guó)芯片產(chǎn)業(yè)發(fā)展指明前進(jìn)的方向。
AI芯片在工業(yè)界的應(yīng)用包括訓(xùn)練和推斷兩部分,訓(xùn)練階段對(duì)存儲(chǔ)和算力要求較高,主要在云端實(shí)現(xiàn),推斷階段計(jì)算量較小,手機(jī)端主要執(zhí)行推斷任務(wù)。AI芯片評(píng)測(cè)工具模擬手機(jī)應(yīng)用場(chǎng)景,輸入測(cè)試數(shù)據(jù)到機(jī)器學(xué)習(xí)模型執(zhí)行推斷任務(wù),根據(jù)推斷速度、功耗和推斷結(jié)果等指標(biāo)量化芯片的AI能力。
各家芯片廠商的底層軟硬件AI加速方案存在差異[5],iOS開發(fā)者可以使用Core ML框架調(diào)用機(jī)器學(xué)習(xí)模型,但在Android平臺(tái),開發(fā)者面臨AI能力開放平臺(tái)“碎片化”困局,如高通的SNPE平臺(tái)、聯(lián)發(fā)科的NeuroPilot平臺(tái)、華為的HiAI平臺(tái)等,給芯片評(píng)測(cè)帶來(lái)困難。評(píng)測(cè)工具需要適配各家廠商提供的AI能力開放平臺(tái),以便發(fā)揮出芯片的實(shí)際能力,另外,也可以使用第三方開源的平臺(tái),如谷歌發(fā)布的移動(dòng)AI架構(gòu)TensorFlow Lite,調(diào)用手機(jī)硬件單元。目前,TensorFlow Lite與各芯片平臺(tái)未完全兼容,不能充分發(fā)揮出芯片的AI能力。
國(guó)產(chǎn)手機(jī)在全球的市場(chǎng)占有率逐年提高,手機(jī)評(píng)測(cè)企業(yè)、軟件聯(lián)盟、中國(guó)電信也在跟進(jìn)相關(guān)評(píng)測(cè)工作。
(1)安兔兔AI評(píng)測(cè)
安兔兔于2019年1月上線芯片評(píng)測(cè)軟件“安兔兔AI評(píng)測(cè)”[6],與高通、聯(lián)發(fā)科、海思、NVIDIA、三星開展合作,在統(tǒng)一標(biāo)準(zhǔn)下進(jìn)行AI芯片能力測(cè)試,測(cè)試項(xiàng)目包括圖像分類和目標(biāo)檢測(cè),測(cè)試結(jié)果與推斷速度和準(zhǔn)確率相關(guān),并設(shè)置防作弊機(jī)制,當(dāng)速度和準(zhǔn)確率不匹配時(shí)會(huì)有罰分措施。
安兔兔官網(wǎng)推出Android SoC AI性能榜,涵蓋市面上的多款手機(jī)芯片,榜單分?jǐn)?shù)為SoC當(dāng)月的跑分平均分。安兔兔AI評(píng)測(cè)軟件的最新版本是V1.2.3,它的軟件版本更新頻繁,主要是更換合作廠商的AI芯片SDK版本和修復(fù)舊版本的遺留問(wèn)題,網(wǎng)絡(luò)模型和芯片評(píng)測(cè)細(xì)則基本沒(méi)有變化,因此,能夠?qū)Ω鲝S商的AI能力開放平臺(tái)提供較好支持,但該軟件的評(píng)測(cè)場(chǎng)景較少,無(wú)法滿足當(dāng)前AI應(yīng)用的需求,需要拓展指標(biāo)維度。
(2)魯大師AImark
2018年5月魯大師推出“AImark”軟件[7]用于評(píng)測(cè)手機(jī)的AI性能,支持對(duì)ARM、高通、海思、聯(lián)發(fā)科和三星等供應(yīng)商的芯片進(jìn)行測(cè)試。相比較安兔兔AI評(píng)測(cè)軟件,AImark在圖像分類任務(wù)中增加Resnet34模型,測(cè)試場(chǎng)景中增加圖像分割任務(wù),并強(qiáng)化了準(zhǔn)確率與最終成績(jī)的關(guān)聯(lián)度,若準(zhǔn)確率過(guò)低,成績(jī)會(huì)相對(duì)降低,即速度再快,準(zhǔn)確率較低,得分仍會(huì)大幅下降。
AImark可以評(píng)測(cè)安卓和蘋果手機(jī)的AI芯片,Android平臺(tái)的版本更新較快,最新版本是V2.11。AImark的評(píng)測(cè)榜單中包含了蘋果平臺(tái)的數(shù)據(jù),另外,它豐富了評(píng)測(cè)模型和場(chǎng)景,在反作弊方面,重視推斷結(jié)果的準(zhǔn)確性。
(3)AIIA DNN Benchmark
AIIA(中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟)下設(shè)的AI計(jì)算架構(gòu)及芯片推進(jìn)組聯(lián)合多家芯片廠商和互聯(lián)網(wǎng)企業(yè)發(fā)起DNN Benchmark項(xiàng)目[8],該項(xiàng)目測(cè)試具有AI能力的加速器在云端和終端的推斷情況,提供選型參考和第三方評(píng)測(cè)結(jié)果。
DNN Benchmark是一個(gè)開源基準(zhǔn)測(cè)試平臺(tái),該平臺(tái)制定AI芯片評(píng)測(cè)標(biāo)準(zhǔn),企業(yè)可以運(yùn)行平臺(tái)指定的模型、測(cè)試數(shù)據(jù)集、預(yù)處理方式和單線程推理任務(wù)參與刷榜,也可以自主增加測(cè)試場(chǎng)景,提交原始FP32模型文件、前處理、精度數(shù)據(jù)集和后處理腳本。平臺(tái)審核企業(yè)提交的測(cè)試數(shù)據(jù),發(fā)布芯片在端側(cè)推斷的性能和精度Top1榜單。工作組于2019年3月和6月分別發(fā)布了兩輪端側(cè)推斷任務(wù)基準(zhǔn)測(cè)試報(bào)告,適用于手機(jī)終端的基準(zhǔn)測(cè)試含有圖像分類、目標(biāo)檢測(cè)、圖像超分、圖像分割,共四類場(chǎng)景的10種機(jī)器學(xué)習(xí)模型,模型區(qū)分整型和浮點(diǎn)型,主要關(guān)注推斷速度和推斷結(jié)果準(zhǔn)確率。
DNN Benchmark的評(píng)測(cè)場(chǎng)景和模型更加豐富,為企業(yè)貢獻(xiàn)自測(cè)數(shù)據(jù)和增加測(cè)試場(chǎng)景提供了一套完整的標(biāo)準(zhǔn)。從已發(fā)布的測(cè)試報(bào)告來(lái)看,參與評(píng)測(cè)的手機(jī)芯片有海思麒麟980、紫光虎賁T710和高通驍龍855,還需要芯片廠家提供更多的數(shù)據(jù)支持,評(píng)測(cè)結(jié)果以單一指標(biāo)Top1榜單的形式呈現(xiàn),便于客觀反應(yīng)具有AI能力的加速器現(xiàn)狀,缺少單款芯片的綜合成績(jī),無(wú)法直觀比較芯片間的AI能力。
(4)中國(guó)電信AIT
中國(guó)電信研究院智能終端研究所關(guān)注終端領(lǐng)域前沿科技趨勢(shì),于2018年在GSMA牽頭立項(xiàng)一份AI手機(jī)國(guó)際標(biāo)準(zhǔn),作為這項(xiàng)標(biāo)準(zhǔn)的支撐項(xiàng)目,啟動(dòng)手機(jī)AI芯片評(píng)測(cè)工作,推出自主研發(fā)評(píng)測(cè)工具AIT(AI Chip Testing),探索手機(jī)AI芯片能力評(píng)估方案。
截至目前,AIT獲得海思、高通、聯(lián)發(fā)科的認(rèn)可和支持,評(píng)測(cè)工作已經(jīng)開展三輪,測(cè)試芯片有海思麒麟810、980、990等,高通驍龍845、855等,聯(lián)發(fā)科P70、P90等,同時(shí)自主開發(fā)蘋果平臺(tái)的芯片評(píng)測(cè)軟件,完成A12、A13芯片的測(cè)試,評(píng)測(cè)結(jié)果在“中國(guó)電信2019年終端洞察報(bào)告”[9]中發(fā)布。AIT 3.0版本的評(píng)測(cè)場(chǎng)景包括圖像分類、目標(biāo)檢測(cè)、圖像超分和圖像分割,針對(duì)網(wǎng)絡(luò)的性能、能效和耐久模式進(jìn)行多模式調(diào)校,重點(diǎn)關(guān)注浮點(diǎn)性能和硬件算力。中國(guó)電信AIT覆蓋主流網(wǎng)絡(luò)模型,結(jié)合多模式調(diào)校,能夠客觀反映手機(jī)芯片的綜合AI能力。當(dāng)前,中國(guó)電信正在與紫光展銳和三星進(jìn)行溝通,希望在AIT中加入這兩家的芯片測(cè)試。
國(guó)外芯片測(cè)試工作大多是從單個(gè)硬件單元或機(jī)器學(xué)習(xí)算子的性能出發(fā),本文主要研究手機(jī)AI芯片整體能力的評(píng)估,因此將介紹AI芯片評(píng)測(cè)軟件AI Benchmark[10]和AI系統(tǒng)評(píng)測(cè)基準(zhǔn)MLPerf[11]。
(1)AI Benchmark
AI Benchmark是由蘇黎世聯(lián)邦理工學(xué)院開發(fā)的一款A(yù)PP,用來(lái)評(píng)測(cè)不同Android設(shè)備和芯片的AI能力,最新軟件版本V3.0.2的測(cè)試項(xiàng)目拓展到11個(gè)部分,包含對(duì)圖像、視頻、游戲、內(nèi)存的處理,按模型數(shù)據(jù)類型和調(diào)用的硬件單元細(xì)分為21個(gè)測(cè)試內(nèi)容,測(cè)試元組包括機(jī)器學(xué)習(xí)模型、模型精度、底層硬件3個(gè)維度。該款軟件的打分系統(tǒng)是對(duì)AI加速單元整型和浮點(diǎn)型性能、CPU單線程和多線程性能、單次和吞吐量推斷時(shí)間、內(nèi)存和RAM性能、初始化時(shí)間、推斷結(jié)果準(zhǔn)確率的綜合考量,測(cè)試成績(jī)與推斷速度成正比。
AI Benchmark官網(wǎng)發(fā)布的跑分排行榜單,包含高通、海思、聯(lián)發(fā)科、三星、NVIDIA等芯片商的多款產(chǎn)品以及這些產(chǎn)品在不同手機(jī)上的得分情況,受到產(chǎn)業(yè)界和消費(fèi)者的廣泛關(guān)注。AI Benchmark涵蓋的評(píng)測(cè)場(chǎng)景最為廣泛,打分細(xì)則中更關(guān)注手機(jī)處理浮點(diǎn)型數(shù)據(jù)的能力,這與當(dāng)前手機(jī)AI芯片多在浮點(diǎn)運(yùn)算發(fā)力是相適應(yīng)的。
(2)MLPerf
MLPerf源自哈佛大學(xué)、斯坦福的研究項(xiàng)目,作為一套通用的基準(zhǔn)測(cè)試規(guī)范受到業(yè)界的廣泛關(guān)注。Mlperf分為訓(xùn)練和推斷兩個(gè)部分,推斷測(cè)試適用于從移動(dòng)設(shè)備到服務(wù)器的各種系統(tǒng),對(duì)衡量手機(jī)芯片AI能力也具有指導(dǎo)作用?;鶞?zhǔn)測(cè)試包含四種方案,單路、多路、服務(wù)器和離線方案,手機(jī)專注于一次從一個(gè)流中讀取數(shù)據(jù),強(qiáng)調(diào)低延遲,適用于單路推斷基準(zhǔn)測(cè)試,可使用基準(zhǔn)中的圖像分類和目標(biāo)檢測(cè)模型評(píng)測(cè)手機(jī)芯片。MLPerf論壇分為封閉組和開放組,封閉組對(duì)評(píng)測(cè)的模型參數(shù)和數(shù)據(jù)集有嚴(yán)格規(guī)定,開放組允許更多創(chuàng)新,參與者可以提交自定義測(cè)試用例。
MLPerf論壇于2019年6月公布推斷結(jié)果V0.5,包括了麒麟960、麒麟970和高通855在傳統(tǒng)加速單元上的測(cè)試數(shù)據(jù),沒(méi)有在AI加速單元的測(cè)試數(shù)據(jù),另外,工作組的數(shù)據(jù)貢獻(xiàn)者大多是云側(cè)廠商,終端芯片廠商不多,測(cè)試結(jié)果發(fā)布周期較長(zhǎng),手機(jī)芯片商用周期縮短,基準(zhǔn)測(cè)試數(shù)據(jù)滯后。
表1 手機(jī)AI芯片能力評(píng)測(cè)工具
基于上文各評(píng)測(cè)工具的基本情況,通過(guò)表1開展對(duì)手機(jī)AI芯片評(píng)測(cè)工具的分析(數(shù)據(jù)統(tǒng)計(jì)截至2020年5月24日)。
評(píng)測(cè)工具組織方多為業(yè)界有影響力的企業(yè)和評(píng)測(cè)機(jī)構(gòu),其憑借自身的號(hào)召力和技術(shù)水平,與芯片廠商協(xié)作發(fā)布相關(guān)芯片評(píng)測(cè)結(jié)果。從市場(chǎng)來(lái)看,是一種雙贏的合作。不過(guò)由于芯片廠商與部分機(jī)構(gòu)對(duì)接不完全,相應(yīng)的測(cè)試結(jié)果只是在CPU或GPU的跑分?jǐn)?shù)據(jù),尚不能充分體現(xiàn)各家獨(dú)有的AI硬件單元的真實(shí)水平。
當(dāng)前的評(píng)測(cè)工具多以推斷速度和結(jié)果準(zhǔn)確率作為基準(zhǔn)評(píng)測(cè)指標(biāo),并給出相應(yīng)的跑分榜單。也有如中國(guó)電信AIT,針對(duì)芯片的上市時(shí)間和品牌,給出對(duì)應(yīng)的橫向和縱向比較,不僅讓消費(fèi)者更好的感知芯片性能的提升,同時(shí)對(duì)市場(chǎng)不同品牌的芯片性能競(jìng)爭(zhēng)起到良性的促進(jìn)作用。
手機(jī)AI芯片評(píng)測(cè)工具從評(píng)測(cè)場(chǎng)景出發(fā),選擇相應(yīng)的模型執(zhí)行推斷任務(wù),根據(jù)推斷過(guò)程和結(jié)果的指標(biāo)數(shù)據(jù)評(píng)估芯片的能力,因此評(píng)測(cè)思路與應(yīng)用相關(guān),能夠反映手機(jī)的實(shí)際使用情況。各芯片平臺(tái)可支持的模型種類和數(shù)量越來(lái)越多,不再局限于圖像分類、目標(biāo)檢測(cè),評(píng)測(cè)工具的測(cè)試場(chǎng)景也愈加豐富,逐漸向圖像分割、超分等新領(lǐng)域拓展。從表1可以看到中國(guó)電信AIT和AI Benchmark在測(cè)試場(chǎng)景、模型數(shù)量和測(cè)試的手機(jī)芯片數(shù)量上的綜合表現(xiàn)最佳。
對(duì)AI芯片能力的測(cè)試,關(guān)鍵在于選擇評(píng)測(cè)場(chǎng)景和評(píng)測(cè)指標(biāo)。本章從場(chǎng)景和指標(biāo)出發(fā),分析當(dāng)前AI芯片評(píng)測(cè)工具的發(fā)展情況,并給出評(píng)測(cè)建議。
手機(jī)上的應(yīng)用程序越來(lái)越多,諸如拍照、人臉識(shí)別、語(yǔ)音交互等是必然要支持的功能,這些應(yīng)用程序的使用效果會(huì)影響用戶體驗(yàn)。手機(jī)AI芯片評(píng)測(cè)工具模擬手機(jī)的使用場(chǎng)景進(jìn)行推斷,具體分為以下幾類。
①圖像處理:評(píng)測(cè)場(chǎng)景包括圖像分類、圖像去模糊、圖像超分、背景虛化、圖像分割、圖像增強(qiáng)和目標(biāo)檢測(cè),其中分類、檢測(cè)、分割和超分是測(cè)試的重點(diǎn),這與卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程是相符合的。值得注意的是,通常會(huì)在一個(gè)場(chǎng)景中測(cè)試多個(gè)主流模型,如用于圖像分類的重量級(jí)模型VGG16和更適合移動(dòng)設(shè)備的輕量級(jí)模型Resnet50。
②人臉識(shí)別:輸入要識(shí)別人物的面部照片,模型比對(duì)已知人臉數(shù)據(jù)庫(kù),輸出與給定照片中最相似的人臉信息。
③玩游戲:AI Benchmark通過(guò)集成DeepMind訓(xùn)練的LSTM RNN模型玩Atari游戲,目前,該模型只用于測(cè)試CPU性能。
④內(nèi)存測(cè)試:不斷增加輸入圖像分辨率,直到內(nèi)存溢出,芯片評(píng)測(cè)得分與內(nèi)存溢出時(shí)的圖像分辨率成正比。
手機(jī)的使用場(chǎng)景、芯片的硬件加速方案各異,單一的評(píng)測(cè)指標(biāo)無(wú)法全面反映芯片的AI能力,因此手機(jī)AI芯片評(píng)測(cè)工具從多個(gè)維度給出一個(gè)整體評(píng)分,評(píng)測(cè)維度包含以下幾個(gè)方面。
①推斷速度:集成AI芯片很重要的一點(diǎn)就是為了提升手機(jī)的運(yùn)算速度,給用戶帶來(lái)更快的使用體驗(yàn),因此,芯片評(píng)測(cè)的首要關(guān)注點(diǎn)也是運(yùn)算時(shí)間,有兩種統(tǒng)計(jì)方法,一種只取模型的推斷時(shí)間作為運(yùn)算時(shí)間,又可分為單次推斷時(shí)間和吞吐量推斷時(shí)間,另一種是將運(yùn)算時(shí)間細(xì)化為模型加載時(shí)間和模型推斷時(shí)間,如中國(guó)電信AIT和AI Benchmark。
②結(jié)果校驗(yàn):如果只將推斷速度作為評(píng)估依據(jù),不對(duì)推斷結(jié)果進(jìn)行校驗(yàn),芯片廠商可能會(huì)針對(duì)評(píng)測(cè)模型做特定優(yōu)化,以犧牲推斷準(zhǔn)確率為代價(jià)換取芯片速度的提升,這種做法顯然違背了評(píng)測(cè)的初衷,不能真實(shí)反映芯片的AI能力。不同場(chǎng)景的推斷結(jié)果準(zhǔn)確率評(píng)估指標(biāo)也不相同,這與模型輸出結(jié)果的展現(xiàn)形式有關(guān),如圖像分類以Top1和Top5表示、而圖像分割則是計(jì)算mIoU。
③模型精度:模型精度影響評(píng)測(cè)結(jié)果數(shù)據(jù),浮點(diǎn)型性能低,推斷結(jié)果準(zhǔn)確率高,整型性能高,推斷結(jié)果準(zhǔn)確率低,各廠家的AI芯片解決方案對(duì)不同精度機(jī)器學(xué)習(xí)模型的支持情況也存在差異,高通的SNPE平臺(tái)目前只支持整型運(yùn)算,華為的HiAI平臺(tái)對(duì)整型和浮點(diǎn)型運(yùn)算都能提供較好支持,因此應(yīng)該注明用于評(píng)測(cè)的模型精度。AI Benchmark分別評(píng)估了Float32、Float16和Int8的性能,在計(jì)算綜合得分時(shí)對(duì)3種精度的性能賦予不同的權(quán)重。
④硬件單元:手機(jī)芯片加速單元種類繁多,傳統(tǒng)的有CPU和GPU,提升AI算力的有NPU、APU、DSP等,芯片廠家推出的AI能力開放平臺(tái)提供了調(diào)用不同硬件單元的函數(shù),因此可以對(duì)比芯片在不同硬件單元的性能。
經(jīng)過(guò)兩年多時(shí)間的發(fā)展,各方積累了一些測(cè)試數(shù)據(jù)和評(píng)測(cè)經(jīng)驗(yàn),但芯片評(píng)測(cè)仍處于探索階段,市場(chǎng)上對(duì)于如何才能真實(shí)反映AI芯片能力尚未達(dá)成一致意見(jiàn),現(xiàn)有的評(píng)測(cè)工具也還有需要完善的地方,對(duì)此本文提出以下優(yōu)化建議。
①規(guī)范測(cè)試場(chǎng)景:當(dāng)前用于測(cè)試的場(chǎng)景還不統(tǒng)一,圖像分類、圖像檢測(cè)、圖像分割和圖像超分被使用的頻率最高,建議將這四種場(chǎng)景作為基準(zhǔn)評(píng)測(cè)場(chǎng)景,評(píng)測(cè)工具需對(duì)這四類場(chǎng)景進(jìn)行測(cè)試,后續(xù)的場(chǎng)景可以在此基礎(chǔ)上增加。
②拓展測(cè)試場(chǎng)景:圖像、視頻和游戲,本質(zhì)上都是對(duì)圖像的處理,因此,當(dāng)前的芯片評(píng)測(cè)工具事實(shí)上也都是基于圖像的能力測(cè)試。語(yǔ)音通話、語(yǔ)音轉(zhuǎn)文字、文字識(shí)別等是手機(jī)的基礎(chǔ)功能,現(xiàn)在與語(yǔ)音、文字處理相關(guān)的機(jī)器學(xué)習(xí)模型發(fā)展比較成熟,因此建議增加針對(duì)語(yǔ)音和文字的測(cè)試任務(wù),拓展RNN模型的測(cè)試用例。
③規(guī)范測(cè)試模型:在圖像分類中,使用了不同重量級(jí)的模型進(jìn)行測(cè)試,模型大小可能會(huì)影響測(cè)試結(jié)果,因此建議每一種測(cè)試場(chǎng)景選擇兩個(gè)存在明顯區(qū)別的主流模型進(jìn)行評(píng)測(cè),如不同重量級(jí)的模型等,使得評(píng)測(cè)結(jié)果更加有說(shuō)服力。
④完善打分體系:芯片廠商對(duì)各款評(píng)測(cè)工具的支持力度不同,評(píng)測(cè)工具的打分權(quán)重各有偏重,這些都會(huì)影響芯片的得分和排名,因此建議在跑分榜單和評(píng)測(cè)報(bào)告中說(shuō)明對(duì)芯片廠商的AI能力開放平臺(tái)的支持情況,并均衡賦分規(guī)則,避免有所側(cè)重,確保公平、合理地反應(yīng)芯片的真實(shí)能力。
AI芯片已成為手機(jī)行業(yè)的關(guān)注點(diǎn)和賣點(diǎn),評(píng)估芯片能力的方案仍在探索之中,評(píng)測(cè)企業(yè)、研究機(jī)構(gòu)等推出了幾款手機(jī)AI芯片評(píng)測(cè)工具,使用這些工具可以定量評(píng)估手機(jī)芯片的AI能力,并與其他款芯片進(jìn)行對(duì)比。本文研究了幾款國(guó)內(nèi)外的芯片評(píng)測(cè)工具,分析評(píng)測(cè)場(chǎng)景和評(píng)測(cè)指標(biāo),給出評(píng)測(cè)建議。
當(dāng)前手機(jī)AI芯片能力的評(píng)測(cè)方案還不統(tǒng)一,評(píng)測(cè)工具的打分體系也存在較大差異,規(guī)范測(cè)評(píng)方案,完善打分系統(tǒng),還需要社會(huì)各界的共同努力。2020年上半年,5G手機(jī)相繼發(fā)布,新一輪換機(jī)潮來(lái)臨,國(guó)際半導(dǎo)體市場(chǎng)競(jìng)爭(zhēng)激烈,對(duì)于相關(guān)領(lǐng)域從業(yè)者而言,評(píng)測(cè)手機(jī)AI芯片能力將有助于增強(qiáng)“新基建”帶動(dòng)性,釋放經(jīng)濟(jì)發(fā)展新動(dòng)能。