超強(qiáng)通用編譯器優(yōu)化工具準(zhǔn)確率是傳統(tǒng)方法的5倍

2020-04-20 06:24朱建

計(jì)算機(jī)與網(wǎng)絡(luò) 2020年2期

朱建

新代碼在自家芯片上運(yùn)行狀況如何？英特爾自己都沒有別人家的新工具清楚。這就是MIT耗時(shí)一年提出的研究成果，名為Ithemal，核心功能也非常簡(jiǎn)單：能夠分析數(shù)以百萬(wàn)計(jì)自動(dòng)描述的基本塊（計(jì)算指令的基本片段），來(lái)確切了解不同的芯片機(jī)構(gòu)如何執(zhí)行計(jì)算，效果也非常驚艷。

MIT News透露，傳統(tǒng)基于人工設(shè)計(jì)的模型，預(yù)測(cè)代碼在芯片上的運(yùn)行速度，與實(shí)際運(yùn)行速度之間的錯(cuò)誤率高達(dá)50 %。就算是芯片供應(yīng)商，比如英特爾預(yù)測(cè)代碼在自己芯片上的運(yùn)行速度，錯(cuò)誤率也達(dá)到20 %。而Ithemal，錯(cuò)誤率僅為10 %，性能是傳統(tǒng)方法的5倍，英特爾的2倍。

整個(gè)過(guò)程都是自動(dòng)化的，不需要人為干預(yù)，就能夠快速分析數(shù)十萬(wàn)或數(shù)百萬(wàn)個(gè)基本塊，并且通用它可以快速學(xué)習(xí)代碼在任何新的芯片架構(gòu)的性能速度，無(wú)論是機(jī)器學(xué)習(xí)，還是加密技術(shù)上鏈或者編譯器優(yōu)化等，都能分析。

研究人員分享了這樣的一個(gè)使用場(chǎng)景：

如果想在一個(gè)新的芯片架構(gòu)上訓(xùn)練一個(gè)模型，比如谷歌的TPU，只需要從這個(gè)架構(gòu)中收集數(shù)據(jù)，經(jīng)過(guò)分析器運(yùn)行后，去訓(xùn)練Ithemal，可得到一個(gè)可以預(yù)測(cè)其性能的模型?！睂?duì)于充分發(fā)揮芯片性能，讓代碼運(yùn)行更有效率，這是具有突破性意義的一項(xiàng)進(jìn)展。

基于神經(jīng)網(wǎng)絡(luò)，避開“盲人摸象”

通常情況下，為了讓代碼能夠在芯片上高效運(yùn)行，開發(fā)者會(huì)結(jié)合編譯器設(shè)計(jì)一個(gè)性能模型，模擬代碼在芯片架構(gòu)上的運(yùn)行情況。開發(fā)者會(huì)根據(jù)這些信息進(jìn)一步優(yōu)化代碼，進(jìn)一步提高代碼運(yùn)行效率，突破芯片的性能瓶頸。這種思路雖然沒什么問(wèn)題，麻煩出在如何設(shè)計(jì)性能模型上，傳統(tǒng)的方法是一小部分專家來(lái)人工設(shè)計(jì)。

面對(duì)錯(cuò)綜復(fù)雜的芯片架構(gòu)，這多少有些“盲人摸象”的感覺，就英特爾一家，描述芯片架構(gòu)的文檔，多達(dá)3 000頁(yè)。而且這些內(nèi)容也不一定完整，基于商業(yè)競(jìng)爭(zhēng)以及技術(shù)保密上的考慮，英特爾也會(huì)去刻意忽略一些內(nèi)容，這無(wú)疑又加大了困難———盲人摸到的象，但可能缺胳膊少腿。更別提現(xiàn)代芯片架構(gòu)設(shè)計(jì)了，不僅不透明，而且及其復(fù)雜，難以理解。想要得到一個(gè)性能模型，很難；想要得到一個(gè)更精確的性能模型，更難。

MIT的方法中，一開始就繞開了“盲人摸象”的困境，而是建立神經(jīng)網(wǎng)路，從“數(shù)據(jù)”中學(xué)習(xí)。

這個(gè)數(shù)據(jù)，就是芯片執(zhí)行“基本塊”所需的平均周期數(shù)，不需要手動(dòng)添加任何特征。就算輸入之前沒有“看到”過(guò)的基本塊和芯片架構(gòu)，訓(xùn)練好的模型也能給出數(shù)字，更準(zhǔn)確地預(yù)測(cè)芯片執(zhí)行代碼的速度。

正所謂冰凍三尺，并非一日之寒，MIT這款強(qiáng)大工具的誕生也是Step by Step。

第一步：用“基本塊”訓(xùn)練標(biāo)記數(shù)據(jù)

首先，研究人員提出了一種神經(jīng)網(wǎng)絡(luò)工具———以“基本塊”的形式訓(xùn)練標(biāo)記數(shù)據(jù)。這樣做的目的可以自動(dòng)預(yù)測(cè)給定芯片中，執(zhí)行基本塊所需要的時(shí)間。結(jié)果表明，比起傳統(tǒng)的手工調(diào)整模型，精確度上要高得多。

這個(gè)工具叫做Ithemal，研究還發(fā)表在了ICML 2019上。Ithemal的全名叫做“Instruction THroughput Estimator using MAchine Learning”。

受深度神經(jīng)網(wǎng)絡(luò)的靈感，它采用了一種新型的數(shù)據(jù)驅(qū)動(dòng)方法來(lái)預(yù)測(cè)一條指令塊的吞吐量。Ithemal將吞吐量估計(jì)問(wèn)題建模為一個(gè)回歸任務(wù)，并利用DNN使用大量標(biāo)記數(shù)據(jù)集將序列映射為實(shí)際值的吞吐量，以此來(lái)學(xué)習(xí)如何預(yù)測(cè)。更具體點(diǎn)來(lái)說(shuō)，Ithemal使用分層多尺度RNN，讓每條指令生成一個(gè)獨(dú)立的嵌入，然后依次結(jié)合指令嵌入來(lái)預(yù)測(cè)吞吐量。

在所有基準(zhǔn)測(cè)試中，平均絕對(duì)百分誤差（MAPE）降低了50 %以上，同時(shí)仍然提供了較快的估計(jì)速度。在生成高質(zhì)量的預(yù)測(cè)時(shí)，Ithemal只需要訓(xùn)練數(shù)據(jù)和ISA的規(guī)范，包括指令規(guī)范及其顯式和隱式操作數(shù)。與分析模型不同，Ithemal不需要任何明確的規(guī)范或建模，只需要學(xué)習(xí)有助于提高吞吐量的任何顯著的微體系結(jié)構(gòu)細(xì)節(jié)即可。

第二步：推出性能模型驗(yàn)證套件

接著，在2019年11月的IEEE International Symposium on Workload Characterization大會(huì)上，研究人員提出了一個(gè)基準(zhǔn)測(cè)試套件。這個(gè)套件由來(lái)自不同領(lǐng)域的基本塊組成，包括機(jī)器學(xué)習(xí)、編譯器、密碼學(xué)和圖形，可以用來(lái)驗(yàn)證性能模型。值得注意的是，這項(xiàng)研究是和谷歌合力完成。他們將30多萬(wàn)個(gè)數(shù)據(jù)塊匯集到了BHive，這是對(duì)x86-64基本塊的性能模型進(jìn)行系統(tǒng)驗(yàn)證的基準(zhǔn)。

研究人員使用BHive評(píng)估了4個(gè)現(xiàn)有的性能模型：IACA，llvm-mca，Ithemal，OSACA。

在他們的評(píng)估中，Ithemal預(yù)測(cè)英特爾芯片運(yùn)行代碼的速度，要比英特爾自己建立的性能模型還要快。并且，研究人員的數(shù)據(jù)集很好地捕捉了2個(gè)Google應(yīng)用程序的基本屬性：Spanner和Dremel。

到了這一步，開發(fā)人員和編譯器可以使用該工具來(lái)生成代碼，這些代碼可以在多樣化“黑盒子”芯片設(shè)計(jì)上更快、更高效地運(yùn)行。

電子工程與計(jì)算機(jī)科學(xué)（EECS）系助理教授Michael Carbin表示：現(xiàn)代的計(jì)算機(jī)處理器不透明，復(fù)雜得可怕、難以理解。編寫對(duì)這些處理器執(zhí)行盡可能快的計(jì)算機(jī)代碼也面臨巨大的挑戰(zhàn)。

這個(gè)工具是朝著對(duì)這些芯片的性能進(jìn)行完全建模，以此來(lái)提高效率的重要一步。

第三步：自動(dòng)生成編譯器優(yōu)化

最后，在NeurIPS會(huì)議上，研究人員提出了一種自動(dòng)生成編譯器優(yōu)化的新技術(shù)。具體來(lái)說(shuō)，他們自動(dòng)生成一個(gè)算法，稱為Vemal，將特定的代碼轉(zhuǎn)換為向量，可用于并行計(jì)算。相對(duì)于LLVM編譯器（業(yè)界流行的編譯器）中使用的手工矢量化算法，Vemal的性能要更好。這主要是探討了擬合一個(gè)圖神經(jīng)網(wǎng)絡(luò)策略來(lái)模擬由其整數(shù)線性規(guī)劃（LP）解所做出的最優(yōu)決策是否可行。

結(jié)果表明，該策略生成的矢量化方案在靜態(tài)度量和運(yùn)行時(shí)，性能上都優(yōu)于行業(yè)標(biāo)準(zhǔn)的編譯啟發(fā)式算法。

來(lái)自MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室

這3篇論文，均出自MIT人工智能研究重地———計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室，簡(jiǎn)稱CSAIL。核心人物為Charith Mendis，他出生于斯里蘭卡，讀碩士的時(shí)候來(lái)到麻省理工，是ACM Fellow，CSAIL學(xué)術(shù)帶頭人Saman Amarasinghe的關(guān)門弟子。

CharithMendis 2015年在微軟雷蒙德研究院實(shí)習(xí)，主要的研究方向就是編譯器、程序分析與機(jī)器學(xué)習(xí)。

他希望，未來(lái)大多數(shù)編譯器優(yōu)化將自動(dòng)生成和學(xué)習(xí)，而不是手動(dòng)編寫。它們不僅會(huì)產(chǎn)生更快的代碼，而且將更易于開發(fā)和維護(hù)。現(xiàn)在一系列的工作，就是在朝著這個(gè)方向發(fā)展。而眼前的下一步，他們將會(huì)著力研究使模型可解釋的方法，弄清楚為什么特定的模型會(huì)做出預(yù)測(cè)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

超強(qiáng)通用編譯器優(yōu)化工具準(zhǔn)確率是傳統(tǒng)方法的5倍