關(guān)于AI算力問題的思考

2019-10-18 09:43:57胡劍浩陳杰男

移動(dòng)通信 2019年8期

胡劍浩陳杰男

【摘? 要】人工智能技術(shù)已經(jīng)成為國(guó)家發(fā)展戰(zhàn)略。目前人工智能技術(shù)對(duì)算力需求與集成電路所能提供支持的差距日益加大，人工智能信息處理平臺(tái)需要在處理速度、復(fù)雜度和功耗等方面有數(shù)量級(jí)的改善，才能滿足人工智能技術(shù)在軍民領(lǐng)域的應(yīng)用，因而需要尋求新穎的技術(shù)路線解決人工智能的算力問題。介紹了一種顛覆性的技術(shù)——概率計(jì)算方法，該技術(shù)采用了一種類腦的非精確的模糊計(jì)算模式。相關(guān)研究工作表明，在現(xiàn)有工藝條件下該技術(shù)能夠滿足人工智能系統(tǒng)對(duì)處理速度、復(fù)雜度和功耗的要求，可以支持未來人工智能系統(tǒng)應(yīng)用的要求。

【關(guān)鍵詞】人工智能;計(jì)算能力;概率計(jì)算

doi：10.3969/j.issn.1006-1010.2019.08.001? ? ? 中圖分類號(hào)：TN929.5

文獻(xiàn)標(biāo)志碼：A? ? ? 文章編號(hào)：1006-1010（2019）08-0002-06

引用格式：胡劍浩，陳杰男. 關(guān)于AI算力問題的思考[J]. 移動(dòng)通信， 2019，43（8）： 2-7.

Artificial intelligence （AI） technology is an important support of national development strategy. At present， the gap between the computing demand of AI technology and the capability of integrated circuits is increasing. The information processing platform based on AI technology should be improved by orders of magnitude in terms of the processing speed， complexity and power consumption for meeting future military and civilian application requirements. Hence， it is necessary to seek a novel technology roadmap to solve the problem of computing power of AI. This paper introduces a subversive technique， i.e.， probability calculation method， which adopts a brain-like inaccurate fuzzy computing model. Relevant research shows that it can meet the requirements of processing speed， complexity and power consumption of AI systems under the current technological conditions， and can support the requirements of future applications of AI systems.

artificial intelligence; computation power; stochastic computation

1? ?引言

人類世界的信息業(yè)務(wù)量正在呈爆發(fā)式的增長(zhǎng)，傳統(tǒng)的數(shù)字信號(hào)處理和統(tǒng)計(jì)方式已經(jīng)難以滿足未來的數(shù)據(jù)和信息處理的需求[1]。在此背景下，出現(xiàn)了一批以機(jī)器學(xué)習(xí)算法為代表的處理算法和系統(tǒng)，來協(xié)助人類處理“大數(shù)據(jù)”時(shí)代下的海量信息與數(shù)據(jù)[2]。同時(shí)，隨著機(jī)器算法的不斷發(fā)展優(yōu)化，計(jì)算機(jī)處理能力的突飛猛進(jìn)，機(jī)器學(xué)習(xí)算法的能力越來越強(qiáng)，完成的功能越來越強(qiáng)大。最近有關(guān)機(jī)器學(xué)習(xí)最出名的案例就是Google的AlphaGo與人類進(jìn)行的圍棋人機(jī)大戰(zhàn)，AlphaGo完勝了人類頂尖棋手，展現(xiàn)出了機(jī)器學(xué)習(xí)算法和系統(tǒng)的強(qiáng)大分析和處理能力[3-4]。因此，將機(jī)器學(xué)習(xí)算法應(yīng)用到目前的數(shù)字信號(hào)處理系統(tǒng)中，這將是未來重要的一個(gè)發(fā)展和研究方向[5-6]，有很高的實(shí)用價(jià)值和戰(zhàn)略價(jià)值。

而基于機(jī)器學(xué)習(xí)的大數(shù)據(jù)處理算法和系統(tǒng)需要極高的計(jì)算復(fù)雜度，因此對(duì)后摩爾時(shí)代的計(jì)算處理器和芯片提出了巨大的挑戰(zhàn)。當(dāng)前，隨著集成電路工藝的發(fā)展，芯片的特征尺寸已經(jīng)接近1 nm的界限[7]。這個(gè)界限在工業(yè)界看來是基于硅工藝的芯片發(fā)展的極限，如若不能突破這個(gè)極限，未來的芯片生產(chǎn)和制造將舉步維艱。同時(shí)一些新興的技術(shù)，如量子計(jì)算、碳納米管等，真正進(jìn)入實(shí)用還有很長(zhǎng)的路需要探索[8]。

推動(dòng)AI技術(shù)發(fā)展和應(yīng)用的三大助力是：大數(shù)據(jù)、算法和算力。很多企業(yè)和高校的研究重點(diǎn)都集中在大數(shù)據(jù)和算法上面，只有Intel、Nvidia等芯片供應(yīng)商和HP、浪潮等服務(wù)器供應(yīng)商在對(duì)算力問題進(jìn)行研究。本文將簡(jiǎn)單分析一下對(duì)AI算力研究的思考。

2? ?算力問題目前的技術(shù)路線

近年來深度學(xué)習(xí)的處理芯片蓬勃發(fā)展。大致來看可以分為以下幾種：

（1）GPU：英偉達(dá)以其大規(guī)模的[23]并行GPU和專用GPU編程框架CUDA主導(dǎo)著當(dāng)前的深度學(xué)習(xí)市場(chǎng)[24]。GPU在處理圖形的時(shí)候，從最初的設(shè)計(jì)就能夠執(zhí)行并行指令，從一個(gè)GPU核心收到一組多邊形數(shù)據(jù)，到完成所有處理并輸出圖像可以做到完全獨(dú)立[25]。由于最初GPU就采用了大量的執(zhí)行單元，這些執(zhí)行單元可以輕松地加載并行處理，而不像CPU那樣的單線程處理。另外，現(xiàn)代的GPU也可以在每個(gè)指令周期執(zhí)行更多的單一指令。所以GPU比CPU更適合深度學(xué)習(xí)的大量矩陣、卷積運(yùn)算的需求[26]。

（2）NPU：中科院研制的人工智能芯片——寒武紀(jì)1號(hào)（DianNao，面向神經(jīng)網(wǎng)絡(luò)的原型處理器結(jié)構(gòu)）、寒武紀(jì)2號(hào)（DaDianNao，面向大規(guī)模神經(jīng)網(wǎng)絡(luò)）、寒武紀(jì)3號(hào)（PuDianNao，面向多種機(jī)器學(xué)習(xí)算法）[27]。CPU、GPU與NPU相比，會(huì)有百倍以上的性能或能耗比差距，以寒武紀(jì)團(tuán)隊(duì)和Inria聯(lián)合發(fā)表的DianNao論文為例，DianNao為單核處理器，主頻為0.98 GHz，峰值性能達(dá)每秒4 520億次神經(jīng)網(wǎng)絡(luò)基本運(yùn)算，65 nm工藝下功耗為0.485 W，面積3.02 mm2。在若干代表性神經(jīng)網(wǎng)絡(luò)上的實(shí)驗(yàn)結(jié)果表明[28]：DianNao的平均性能超過主流CPU核的100倍，但是面積和功耗僅為1/10，效能提升可達(dá)三個(gè)數(shù)量級(jí);DianNao的平均性能與主流GPU相當(dāng)，但面積和功耗僅為主流GPU百分之一量級(jí)。另有IBM主導(dǎo)的SyNAPSE巨型神經(jīng)網(wǎng)絡(luò)芯片（類人腦芯片）TrueNorth，在70 mW的功率上提供100萬個(gè)神經(jīng)元內(nèi)核、2.56億個(gè)突觸內(nèi)核以及4 096個(gè)神經(jīng)突觸內(nèi)核，神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)負(fù)載超越了馮·諾依曼架構(gòu)[29]。

（3）TPU：張量處理單元（Tensor Processing Unit， TPU）。這是一款由Google開發(fā)的，為了機(jī)器學(xué)習(xí)而定制的ASIC，并且經(jīng)過了TensorFlow的調(diào)教。TPU已經(jīng)在Google數(shù)據(jù)中心運(yùn)行了一年多，實(shí)踐表明它可以為機(jī)器學(xué)習(xí)帶來相當(dāng)出色的每瓦特性能表現(xiàn)。TPU是專為機(jī)器學(xué)習(xí)應(yīng)用而定制的，它的寬容度更高，可以降低計(jì)算的精度（所需的晶體管操作也更少）[30]。

（4）FPGA：在2017現(xiàn)場(chǎng)可編程門陣列國(guó)際大會(huì)（ISFPGA）上，來自英特爾加速器架構(gòu)實(shí)驗(yàn)室（AAL）的Eriko Nurvitadhi博士展示了有關(guān)“在加速新一代深度神經(jīng)網(wǎng)絡(luò)方面，F(xiàn)PGA可否擊敗GPU”的研究。該項(xiàng)研究使用最新的DNN算法在兩代英特爾FPGA（Arria 10與Stratix 10）與目前最高性能的英偉達(dá)Titan X Pascal GPU之間做了對(duì)比評(píng)估。和高端GPU相比，F(xiàn)PGA的能量效率（性能/功率）會(huì)更好，而且它們還可以提供頂級(jí)的浮點(diǎn)運(yùn)算性能（Floating-Point Performance）。FPGA技術(shù)正在快速發(fā)展。即將上市的Intel Stratix 10 FPGA能提供超過5 000個(gè)硬浮點(diǎn)單元（DSP），超過28 MB的片上內(nèi)存（M20K），同時(shí)整合了高帶寬內(nèi)存（最高可達(dá)4×250 GB/s/stack或1 TB/s），以及由新的HyperFlex技術(shù)改善了的頻率。英特爾FPGA能提供全面的軟件生態(tài)系統(tǒng)——從低級(jí)硬件描述語言到OpenCL、C和C++的高級(jí)軟件開發(fā)環(huán)境。使用MKL-DNN庫(kù)，英特爾將進(jìn)一步將FPGA與英特爾機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)和諸如Caffe這樣的傳統(tǒng)架構(gòu)結(jié)合起來。Intel Stratix 10基于英特爾的14 nm技術(shù)開發(fā)，擁有FP32吞吐量上9.2 TFLOP/s的峰值速度。相比之下，最新的Titan X Pascal GPU提供FP32吞吐量11 TLOP/s的速度[31]。

綜上所述，目前工業(yè)界解決AI算力有三個(gè)方法，通用平臺(tái)、半定制平臺(tái)和定制平臺(tái)。這三種平臺(tái)的特性對(duì)比如表1所示。

從表1可以看出，通用平臺(tái)在開發(fā)軟件環(huán)境支撐和大規(guī)模部署方面有得天獨(dú)厚的優(yōu)勢(shì)，成為AI應(yīng)用落地和云端部署的主力。因此，當(dāng)今絕大多數(shù)的AI示范工程和云端部署都采用GPU和CPU服務(wù)器或服務(wù)器陣列完成。然而通用平臺(tái)在計(jì)算效率和功率效率與半定制平臺(tái)、定制平臺(tái)有數(shù)量級(jí)的差距。面向嵌入式應(yīng)用、移動(dòng)設(shè)備應(yīng)用，通用平臺(tái)則難以支撐。對(duì)于云端應(yīng)用，當(dāng)越來越多的AI應(yīng)用被部署到云端，功率保障可能會(huì)成為其瓶頸。如正在研發(fā)的“天河3”超算平臺(tái)（該平臺(tái)依然采用CPU+GPU架構(gòu)），其功率可能達(dá)到百萬千瓦量級(jí)。CMOS工藝已經(jīng)接近理論極限，而以量子計(jì)算為代表的新型計(jì)算平臺(tái)距實(shí)際應(yīng)用還有很長(zhǎng)的道路。因此，通過工藝和計(jì)算介質(zhì)進(jìn)步解決目前通用平臺(tái)功率效率問題不是十分現(xiàn)實(shí)，未來可能會(huì)出現(xiàn)發(fā)電量不足以支持全社會(huì)大規(guī)模AI應(yīng)用的困境。

半定制和定制平臺(tái)對(duì)于嵌入式應(yīng)用和移動(dòng)設(shè)備應(yīng)用非常友好，可以成為未來在嵌入式或移動(dòng)設(shè)備實(shí)現(xiàn)本地AI應(yīng)用的主力。由于這些平臺(tái)在功率效率和計(jì)算效率方面的優(yōu)勢(shì)，在大規(guī)模云端部署也有一定的空間。如阿里云和亞馬遜都采用了以FPGA陣列為核心的計(jì)算平臺(tái)。面向半定制和定制平臺(tái)的大規(guī)模部署需要解決軟件開發(fā)環(huán)境支持的問題?，F(xiàn)在的AI應(yīng)用開發(fā)已經(jīng)形成以開源的開發(fā)環(huán)境為主流的情況，而且這些開發(fā)環(huán)境支持GPU、CPU平臺(tái)以及陣列平臺(tái)。因此，需要解決通用開發(fā)環(huán)境面向FPGA陣列部署的軟件中間件問題，即利用Python設(shè)計(jì)的AI應(yīng)用可以一鍵部署到FPGA陣列平臺(tái)上，而不需要AI設(shè)計(jì)者面對(duì)硬件描述語言的開發(fā)問題。這樣才能夠很好地解決AI應(yīng)用在以FPGA陣列為代表的半定制平臺(tái)上大規(guī)模部署的問題。

3? ?基于概率計(jì)算方法的解決方法

計(jì)算效率和功率效率是AI算力面臨的永恒的挑戰(zhàn)，AI應(yīng)用對(duì)算力的需求每3.5個(gè)月增加一倍，而基礎(chǔ)電路工藝已經(jīng)進(jìn)入后摩爾時(shí)代，AI系統(tǒng)應(yīng)用在算力上的“鴻溝”將越來越大。隨著集成電路工藝的發(fā)展，芯片的特征尺寸已經(jīng)接近1 nm的界限，如若突破這個(gè)極限，未來的芯片生產(chǎn)和制造將舉步維艱。同時(shí)一些新興的技術(shù)，如量子計(jì)算、碳納米管等，真正進(jìn)入實(shí)用還有很長(zhǎng)的路需要探索。因此，目前迫切需求一種新穎數(shù)值系統(tǒng)，即數(shù)的表征和計(jì)算模式來打破傳統(tǒng)密集計(jì)算的不足，同時(shí)該方法可以在現(xiàn)有的集成電路工藝條件下實(shí)現(xiàn)且兼容未來的集成電路工藝。

在此背景下，基于概率計(jì)算的新型計(jì)算方式應(yīng)運(yùn)而生。2010年，當(dāng)基于概率計(jì)算的圖像處理芯片橫空出世后，概率計(jì)算的發(fā)展就開始突飛猛進(jìn)了，并且于當(dāng)年被《美國(guó)科技評(píng)述》評(píng)為未來十大最有前景的技術(shù)。此后，MIT的研究團(tuán)隊(duì)更是提出了概率計(jì)算是繼云計(jì)算之后最有潛力的一項(xiàng)技術(shù)。概率計(jì)算中最基本的運(yùn)算單元采取一種非精確的近似計(jì)算的模式打破了傳統(tǒng)電路的實(shí)現(xiàn)方式，可以對(duì)傳統(tǒng)的算法進(jìn)行向概率域的重新映射，使其符合滿足概率計(jì)算的模式。概率計(jì)算再通過誤差分析和建模，設(shè)計(jì)各種系統(tǒng)參數(shù)，使其滿足系統(tǒng)的需求，最后根據(jù)設(shè)計(jì)的算法映射到實(shí)際的電路架構(gòu)中，完成算法的最終實(shí)現(xiàn)。其基本的原理就是利用大量的非精確計(jì)算模擬出復(fù)雜的系統(tǒng)功能，這其實(shí)和人類強(qiáng)大的大腦工作原理不謀而合。人類大腦就是基于大量的直觀和非精確的計(jì)算方式來處理當(dāng)今信息社會(huì)的海量數(shù)據(jù)。而AI的算法也是模擬人類的大腦，在此環(huán)境下概率計(jì)算應(yīng)運(yùn)而生，因此概率計(jì)算能夠非常好地乘載復(fù)雜的AI算法。據(jù)悉，Google AlphaGo所使用的處理器就是基于一種非精確的概率計(jì)算模式。相信基于概率計(jì)算和AI的結(jié)合能夠使得未來的數(shù)據(jù)處理和信息分析達(dá)到一個(gè)新的高度。如今人工智能的一個(gè)關(guān)鍵障礙是——給計(jì)算機(jī)提供的自然數(shù)據(jù)大多是非結(jié)構(gòu)化和“嘈雜”的數(shù)據(jù)。Intel公司認(rèn)為，概率計(jì)算可以使計(jì)算機(jī)在處理大規(guī)模的概率時(shí)更有效率，這是將當(dāng)前系統(tǒng)和應(yīng)用程序從先進(jìn)的計(jì)算輔助工具轉(zhuǎn)變?yōu)槔斫夂蜎Q策的智能合作伙伴的關(guān)鍵。

2018年5月，英特爾人工智能實(shí)驗(yàn)室決定對(duì)概率計(jì)算（Probabilistic Computing）方面的研究增加投資，并呼吁學(xué)術(shù)界與產(chǎn)業(yè)界與其合作，將概率計(jì)算從實(shí)驗(yàn)室引入現(xiàn)實(shí)應(yīng)用，包括基準(zhǔn)程序測(cè)試（Benchmark Applications）、概率框架（Probabilistic Frameworks）以及軟硬件優(yōu)化（Software and Hardware Optimization）等[13]。英特爾的人工智能實(shí)驗(yàn)負(fù)責(zé)人Mayberry在接受IEEE Spectrum的采訪中提到了MIT的概率計(jì)算研究團(tuán)隊(duì)，MIT的概率計(jì)算團(tuán)隊(duì)正在構(gòu)建新一代概率計(jì)算系統(tǒng)，將概率和隨機(jī)性集成到軟件和硬件的基本構(gòu)建模塊中，MIT的PC研究團(tuán)隊(duì)，近些年來致力于概率程序語言（Probabilistic Programming）與系統(tǒng)的開發(fā)[18]。概率程序語言或稱為概率編程為人工智能提供了一個(gè)編程語言，并提供了知識(shí)如何表示的基礎(chǔ)方法，可以對(duì)不確定性建模，為不同研究領(lǐng)域的人提供一個(gè)工具，在這基礎(chǔ)上進(jìn)行自動(dòng)推理。國(guó)內(nèi)外各大高校和公司也推出概率編程的工具和庫(kù)，達(dá)到應(yīng)對(duì)不同領(lǐng)域下的智能化與通用化建模與推理。

電子科技大學(xué)研究團(tuán)隊(duì)從2010年開始嘗試?yán)眠@種顛覆性的技術(shù)，將概率計(jì)算方法應(yīng)用于通信信號(hào)處理系統(tǒng)的電路實(shí)現(xiàn)上，設(shè)計(jì)了基于概率計(jì)算方法的濾波器、信道譯碼器、MIMO信號(hào)檢測(cè)器、非正交接入信號(hào)檢測(cè)器等單元模塊，在保證這些模塊的信號(hào)處理性能的前提下，大幅度降低了電路的復(fù)雜度。電子科技大學(xué)研究團(tuán)隊(duì)目前正在探索基于概率計(jì)算方法的新型數(shù)值表征和計(jì)算技術(shù)在人工智能系統(tǒng)中應(yīng)用的特點(diǎn)，研究典型人工智能算法到概率計(jì)算空間的算法映射方法，設(shè)計(jì)關(guān)鍵模塊及其電路架構(gòu)，突破可配置概率計(jì)算人工智能硬件加速器設(shè)計(jì)方法和集成電路實(shí)現(xiàn)技術(shù)。目前利用FPGA完成的支持100維的支持向量機(jī)（SVM）特征分類器實(shí)現(xiàn)，其速度較GPU服務(wù)器提高30倍，同時(shí)功耗降低了100倍。這表明概率計(jì)算方法在解決AI應(yīng)用算力問題是有前途的。

4? ?基于概率計(jì)算方法的AI芯片面臨的挑戰(zhàn)

隨著信息技術(shù)的發(fā)展，人們對(duì)數(shù)據(jù)的需求也日益增長(zhǎng)，人類將逐步跨入大數(shù)據(jù)時(shí)代，而作為大數(shù)據(jù)時(shí)代的一個(gè)重要支撐就是人工智能技術(shù)（AI）。然而隨著AI算法的復(fù)雜度呈指數(shù)增加，這會(huì)對(duì)基于AI的系統(tǒng)帶來巨大的壓力，因此必須利用顛覆性的方案來設(shè)計(jì)和實(shí)現(xiàn)面向未來的AI芯片，以使得其所帶來的巨大優(yōu)勢(shì)能夠真正得以實(shí)現(xiàn)和應(yīng)用。概率計(jì)算方法是解決這一技術(shù)難題的途徑之一，同時(shí)面臨如下的技術(shù)挑戰(zhàn)：

（1）基于AI算法的概率計(jì)算基本計(jì)算單元設(shè)計(jì)與實(shí)現(xiàn)

當(dāng)前的人工智能算法主要利用了類腦的計(jì)算，而這種計(jì)算的概率性質(zhì)允許數(shù)量級(jí)的加速和減少電力的大量消耗。計(jì)算以偏離而不是采用直接的方式來建模，隨后可以通過嘈雜自然數(shù)據(jù)（異同甚至相互矛盾的信息）分析技術(shù)提高計(jì)算精度，其目的是在需要高智能、認(rèn)知等場(chǎng)景中協(xié)助人類的選擇行為達(dá)到期望的水平，同時(shí)將能源的成本節(jié)省到忽略不計(jì)的程度。其核心思想是基本算子映射、概率框架、軟件和硬件優(yōu)化。因此，需要研究一種適用于AI芯片設(shè)計(jì)的基本計(jì)算單元設(shè)計(jì)與實(shí)現(xiàn)方法。

（2）基于人工智能的概率計(jì)算算法映射方法

首先將AI算法映射到概率域中，稱之為規(guī)則的映射，其次將構(gòu)建概率算子并使其能夠產(chǎn)生所需的結(jié)果稱之為目標(biāo)的映射，最后將信號(hào)處理與學(xué)習(xí)搜索網(wǎng)絡(luò)相對(duì)應(yīng)和加工，使得其能夠高效完成所指定的目標(biāo)。由此可得在傳統(tǒng)AI中，物理參數(shù)模型都是人為構(gòu)建的，這在特定場(chǎng)景設(shè)計(jì)下的AI芯片必定是最優(yōu)的。但如前面所述，隨著AI算法的發(fā)展，這種模式將難以為繼。因此只要基于概率計(jì)算將映射規(guī)則和基本算子等定義清楚，就能輔助完成AI芯片的設(shè)計(jì)。為了適應(yīng)AI算法快速變化的需求，本項(xiàng)目采用的認(rèn)知計(jì)算的模型和算法具有高效和快速收斂的特征;同時(shí)該方法具有低復(fù)雜度的特點(diǎn)，從而可以保障在工程實(shí)踐中的應(yīng)用。前期的研究表明，在典型的AI算法環(huán)境中，基于概率計(jì)算的AI設(shè)計(jì)法可以在保證檢測(cè)性能的條件下滿足“在線”實(shí)時(shí)處理的要求，且硬件實(shí)現(xiàn)效率優(yōu)于傳統(tǒng)檢測(cè)方法。因此，需要研究一種基于人工智能的概率計(jì)算算法映射方法。

（3）高性能的概率AI芯片的實(shí)現(xiàn)設(shè)計(jì)方法

對(duì)AI的概率計(jì)算基本運(yùn)算模塊進(jìn)行硬件架構(gòu)設(shè)計(jì)，并且針對(duì)當(dāng)前的工藝，給出設(shè)計(jì)和實(shí)現(xiàn)方案。根據(jù)之前形成的映射方法和基本單元的設(shè)計(jì)，形成一套完整的芯片架構(gòu)設(shè)計(jì)和實(shí)現(xiàn)方案。最后制作一套針對(duì)所設(shè)計(jì)人工智能芯片的測(cè)試平臺(tái)，來驗(yàn)證所設(shè)計(jì)芯片的正確性。

5? ?結(jié)束語

滿足未來的新型人工智能裝備及產(chǎn)業(yè)的需求，不能簡(jiǎn)單地認(rèn)為僅僅依靠硬件平臺(tái)就可以解決所有問題。原來依賴集成電路技術(shù)進(jìn)步來適應(yīng)系統(tǒng)需求增長(zhǎng)的“老路”已經(jīng)走到頭了。而系統(tǒng)和裝備依然需要不斷的更新和升級(jí)，因此需要從算法、算法架構(gòu)、算法的表征和實(shí)現(xiàn)技術(shù)、系統(tǒng)優(yōu)化等方面開展深入的研究，才能在新的時(shí)代條件下，支持人工智能裝備及產(chǎn)業(yè)快速發(fā)展的需求。因此，概率計(jì)算將為人工智能爆發(fā)式的增長(zhǎng)提供有力的支持;需要研究以概率計(jì)算方法在人工智能系統(tǒng)應(yīng)用為核心，研究面向人工智能系統(tǒng)的概率計(jì)算方法及其集成電路的實(shí)現(xiàn)技術(shù)，為未來人工智能系統(tǒng)應(yīng)用提供新穎的技術(shù)路線和保障。

參考文獻(xiàn)：

[1] Glorol X， Bonles A， Bengio Y. Deep sparee rectifier neural networks[C]//International Conference on Artificial Intelligence and Statistics. Piscalaway， NJ， USA： IEEE， 2011： 315-323.

[2] Deng J， Dong W， Socher R， et al. ImageNet： A large-scale hierarchical image database[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ， USA： IEEE， 2009.

[3] 張榮，李偉平，莫同. 深度學(xué)習(xí)研究綜述[J]. 信息與控制， 2018，47（4）.

[4] Lecun Y， Bengio Y， Hinton G. Deep learning[J]. Nature， 2015，521（7553）： 436.

[5] Ghahramani， Zoubin. Probabilistic machine learning and artificial intelligence[Z].

[6] Wang S， Zhang X， Li Y， et al. Accelerating Markov Random Field Inference Using Molecular Optical Gibbs Sampling Units[C]//ACM IEEE International Symposium on Computer Architecture. IEEE， 2016.

[7] Zhang X， Bashizade R， Laboda C， et al. Architecting a Stochastic Computing Unit with Molecular Optical Devices[C]//ACM IEEE International Symposium on Computer Architecture. IEEE Computer Society， 2018.

[8] Cusumano Towner， M F， Mansinghka， et al. A design proposal for Gen： Probabilistic programming with fast custom inference via code generation[C]//In Workshop on Machine Learning and Programming Languages （MAPL， co-located with PLDI）. 2018： 52-57.

[9] Cusumano Towner， M F， Mansinghka， et al. Using probabilistic programs as proposals[C]//Workshop on Probabilistic Programming Languages， Semantics， and Systems （PPS， co-located with POPL）. 2018.

[10] Cusumano Towner， M F， Bichsel， et al. Incremental inference for probabilistic programs[C]//Proceedings of the 39th ACM SIGPLAN Conference on Programming Language Design and Implementation （PLDI）. ACM， 2018： 571-585.

[11] Saeedi A， Kulkarni T D， Mansinghka V K， et al. Variational particle approximations[J]. Journal of Machine Learning Research， 2014.

[12] Cusumano Towner M F， Mansinghka V K. AIDE： An algorithm for measuring the accuracy of probabilistic inference algorithms[Z]. 2017.

[13] Nepal K， Hashemi S， Tann H， et al. Automated High-Level Generation of Low-Power Approximate Computing Circuits[J]. IEEE Transactions on Emerging Topics in Computing， 2019（1）： 18-30.

[14] Cusumano Towner M F， Radul A， Wingate D， et al. Probabilistic programs for inferring the goals of autonomous agents[Z]. 2017.

[15] Schaechtle U， Saad F， Radul A， et al. Time Series Structure Discovery via Probabilistic Program Synthesis[Z]. 2017.

[16] Saad F， Casarsa L， Mansinghka V. Probabilistic Search for Structured Data via Probabilistic Programming and Nonparametric Bayes[J]. 2017.

[17] Saad F， Mansinghka V. Detecting Dependencies in Sparse， Multivariate Databases Using Probabilistic Programming and Non-parametric Bayes[J]. Proceedings of the 20th International Conference on Artificial Intelligence and Statistics， 2017（54）： 632-641.

[18] Chien C， Longinotti L， Steimer A， et al. Hardware Implementation of an Event-Based Message Passing Graphical Model Network[J]. IEEE Transactions on Circuits and Systems I： Regular Papers， 2018，65（9）： 2739-2752.

[19] Yi Wu， Lei Li， Stuart Russell， et al. Swift： Compiled Inference for Probabilistic Programming Languages[Z]. 2016.

[20] Shi J， Chen J， Zhu J， et al. ZhuSuan： A Library for Bayesian Deep Learning[Z]. 2017.

[21] Tran D， Hoffman M D， Saurous R A， et al. Deep Probabilistic Programming[Z]. 2017.

[22] Bingham E， Chen J P， Jankowiak M， et al. Pyro： Deep Universal Probabilistic Programming[Z].

[23] Coyle P. Probabilistic Programming and PyMC3[Z]. 2016.

[24] Rejimon T， Bhanja S. Scalable probabilistic computing models using Bayesian networks[C]//Symposium on Circuits & Systems. IEEE， 2005.

[25] Davies M， Srinivasa N， Lin T H， et al. Loihi： A Neuromorphic Manycore Processor with On-Chip Learning[J]. IEEE Micro， 2018： 1.

[26]? Sze V， Chen Y， Yang T， et al. Efficient Processing of Deep Neural Networks： A Tutorial and Survey[J]. Proceedings of the IEEE， 2017（12）： 2295-2329.

[27] Xu J， Huan Y， Yang K， et al. Optimized Near-Zero Quantization Method for Flexible Memristor Based Neural Network[J]. IEEE Access， 2018： 29320-29331.

[28] Ren L， Fletcher C W， A Kwon， et al. Design and Implementation of the Ascend Secure Processor[J]. IEEE Transactions on Dependable and Secure Computing， 2019，16（2）： 204-216.

[29] Knag P， Kim J K， Chen T， et al. A Sparse Coding Neural Network ASIC With On-Chip Learning for Feature Extraction and Encoding[J]. IEEE Journal of Solid-State Circuits， 2015，50（4）： 1070-1079.

[30] Shin D， Lee J， Yoo H. DNPU： An Energy-Efficient Deep-Learning Processor with Heterogeneous Multi-Core Architecture[J]. IEEE Microwave， 2018，38（5）： 85-93.

[31] Lee J， Kim C， Kang S， et al. UNPU： An Energy-Efficient Deep Neural Network Accelerator With Fully Variable Weight Bit Precision[J]. IEEE Journal of Solid-State Circuits， 2019，54（1）： 173-185.★

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

關(guān)于AI算力問題的思考