基于多FPGA的片上網(wǎng)絡(luò)模擬平臺(tái)設(shè)計(jì)和實(shí)現(xiàn)＊

2013-07-13 10:51:54梁利平

湖南大學(xué)學(xué)報(bào)（自然科學(xué)版） 2013年6期

趙淳，梁利平

（中國(guó)科學(xué)院微電子研究所，北京 100029）

隨著應(yīng)用的發(fā)展和芯片制造水平的提高，片上系統(tǒng)單位面積上計(jì)算核心的數(shù)量呈現(xiàn)出近似指數(shù)的增長(zhǎng)趨勢(shì)[1］.進(jìn)入65nm工藝后，片上連線延時(shí)的比重迅速上升，甚至超過邏輯延時(shí)，這導(dǎo)致基于總線的傳統(tǒng)互連結(jié)構(gòu)無法滿足復(fù)雜系統(tǒng)芯片的設(shè)計(jì)需求[2］.高性能的系統(tǒng)級(jí)芯片強(qiáng)調(diào)良好的邏輯和物理局部性，以降低芯片的全局連線延時(shí).片上網(wǎng)絡(luò)（Networks－on－Chip）相對(duì)于總線具有良好的伸縮性和能量效率，能夠有效地緩解全局連線在深亞微米工藝條件下所引入的延時(shí)和功耗等問題，因而被認(rèn)為是一種適合未來多核系統(tǒng)芯片大規(guī)模擴(kuò)展的片上互連和通信結(jié)構(gòu)[3］.

片上網(wǎng)絡(luò)擁有龐大的設(shè)計(jì)空間，其研發(fā)周期覆蓋拓?fù)浣Y(jié)構(gòu)、路由算法、交換策略、流控制機(jī)制、服務(wù)質(zhì)量、通信協(xié)議和網(wǎng)絡(luò)接口等多個(gè)方面的設(shè)計(jì)和實(shí)現(xiàn)問題[4］.因此如何快速地驗(yàn)證片上網(wǎng)絡(luò)硬件結(jié)構(gòu)的功能，并準(zhǔn)確地評(píng)估其性能和實(shí)現(xiàn)開銷成為設(shè)計(jì)者面臨的嚴(yán)峻挑戰(zhàn).基于FPGA的硬件模擬技術(shù)[5－7］相對(duì)于典型的軟件仿真技術(shù)[8－9］具有明顯的速度優(yōu)勢(shì)，尤其適合大規(guī)模片上網(wǎng)絡(luò)設(shè)計(jì)空間的深度搜索.

現(xiàn)有的片上網(wǎng)絡(luò)FPGA模擬平臺(tái)大多采用片上微處理器，配合專用的硬件功能單元，為目標(biāo)網(wǎng)絡(luò)產(chǎn)生模擬環(huán)境中所需要的各種流量模型[5］.這種方法實(shí)現(xiàn)復(fù)雜，硬件資源開銷較大，且模擬平臺(tái)的性能往往受到流量模型的制約[6］，缺乏設(shè)計(jì)和移植的靈活性.針對(duì)這一點(diǎn)，本文提出并實(shí)現(xiàn)了一種基于多FPGA的高性能片上網(wǎng)絡(luò)模擬平臺(tái)結(jié)構(gòu)，采用了層次化設(shè)計(jì)和軟件可重構(gòu)的分布式流量管理器等技術(shù)，降低了系統(tǒng)硬件設(shè)計(jì)的復(fù)雜度，減小了流量管理系統(tǒng)與片上網(wǎng)絡(luò)內(nèi)核的耦合度，大大提高了片上網(wǎng)絡(luò)功能驗(yàn)證和性能評(píng)估的靈活性.

1 片上網(wǎng)絡(luò)模擬平臺(tái)

片上網(wǎng)絡(luò)模擬平臺(tái)的系統(tǒng)結(jié)構(gòu)框架如圖1所示，包括上位機(jī)和基于多FPGA的原型驗(yàn)證引擎兩大部分，兩者之間可以通過PCIe，Ethernet等接口實(shí)現(xiàn)高速的數(shù)據(jù)交換.模擬平臺(tái)自頂向下可以劃分為系統(tǒng)軟件層、軟/硬件接口層和硬件結(jié)構(gòu)層3個(gè)抽象層次，為結(jié)構(gòu)設(shè)計(jì)者提供一套完整的多目標(biāo)、自動(dòng)化片上網(wǎng)絡(luò)功能驗(yàn)證和性能評(píng)估環(huán)境.

圖1 片上網(wǎng)絡(luò)模擬平臺(tái)結(jié)構(gòu)框架Fig.1 NoC emulation platform framework

硬件結(jié)構(gòu)層主要包括多片多種形式互連（普通單端、LVDS和千兆級(jí)高速串行總線等）的大容量FPGA芯片，為系統(tǒng)中的硬件功能單元提供充足的實(shí)現(xiàn)空間.完整的片上網(wǎng)絡(luò)硬件原型包括網(wǎng)絡(luò)內(nèi)核、片間網(wǎng)絡(luò)接口、分布式片上流量管理器和中央控制器等模塊.用戶可以通過每顆FPGA芯片上實(shí)現(xiàn)的中央控制器，利用系統(tǒng)應(yīng)用層的軟件服務(wù)，直接對(duì)流量管理器進(jìn)行讀/寫操作，完成對(duì)其功能的軟重構(gòu).軟/硬件接口層由設(shè)備（PCIe、Ethernet）驅(qū)動(dòng)程序構(gòu)成，為上層軟件提供了一組可擴(kuò)展的專用API，將上層的軟件服務(wù)映射為對(duì)底層硬件的訪問操作，保證系統(tǒng)軟件層和硬件結(jié)構(gòu)層之間的正確交互.系統(tǒng)應(yīng)用層包括在上位機(jī)運(yùn)行的基于高級(jí)語言（SystemC）的仿真引擎[10］和基于腳本語言的控制引擎.其中仿真引擎用于產(chǎn)生下載到流量管理器的模型信息，以及分析處理由流量管理器讀回的統(tǒng)計(jì)信息；控制引擎則用于控制整個(gè)模擬流程，協(xié)調(diào)和管理各部分系統(tǒng)應(yīng)用軟件功能，以及發(fā)起和終止用戶對(duì)底層硬件的訪問操作等.

2 流量管理器軟/硬件實(shí)現(xiàn)

在片上網(wǎng)絡(luò)的功能驗(yàn)證和性能評(píng)估過程中，流量的產(chǎn)生、收集和分析處理一直都是設(shè)計(jì)者所面臨的最棘手的問題.如何設(shè)計(jì)結(jié)構(gòu)簡(jiǎn)單，靈活度高的片上流量管理器，以實(shí)現(xiàn)對(duì)片上網(wǎng)絡(luò)全面的功能覆蓋和大范圍的設(shè)計(jì)空間搜索，成為整個(gè)模擬平臺(tái)的設(shè)計(jì)重點(diǎn)和難點(diǎn).為了提高平臺(tái)的效率和靈活性，避免網(wǎng)表文件的反復(fù)生成和下載，本文設(shè)計(jì)了軟件可重構(gòu)的分布式片上流量管理器，通過軟件配置和控制指令解析的方式為片上網(wǎng)絡(luò)提供豐富的流量模型.

2.1 流量管理器和中央控制器

流量管理器作為片上網(wǎng)絡(luò)的終端功能單元，模擬實(shí)際系統(tǒng)中的計(jì)算資源節(jié)點(diǎn)，按照一定的時(shí)間和空間分布規(guī)律產(chǎn)生并向網(wǎng)絡(luò)注入數(shù)據(jù)，同時(shí)接收并校驗(yàn)由其他終端發(fā)往本地的數(shù)據(jù).流量管理器包括兩組單向的總線接口.其中用戶接口用于連接片上網(wǎng)絡(luò)中央控制器，為用戶提供“控制指令”的下載和“狀態(tài)數(shù)據(jù)”回傳服務(wù)，接口滿足簡(jiǎn)單的存儲(chǔ)器讀寫規(guī)范.系統(tǒng)接口用于連接路由節(jié)點(diǎn)，接口滿足片上網(wǎng)絡(luò)物理鏈路的通信規(guī)范.每個(gè)路由節(jié)點(diǎn)可以根據(jù)其空閑物理鏈路的數(shù)量連接一個(gè)或多個(gè)流量管理器.流量管理器內(nèi)部用于存儲(chǔ)控制指令和狀態(tài)數(shù)據(jù)的存儲(chǔ)空間被線性地映射到64位地址所覆蓋的空間范圍內(nèi)，允許系統(tǒng)軟件層以直接映射的方式對(duì)其進(jìn)行訪問.整個(gè)硬件系統(tǒng)結(jié)構(gòu)如圖2所示.

流量管理器發(fā)送和接收通道的結(jié)構(gòu)如圖3所示，其結(jié)構(gòu)劃分為發(fā)送通道和接收通道，分別處理網(wǎng)絡(luò)通信事務(wù)的發(fā)送和接收.其中發(fā)送通道由一塊用戶只寫、網(wǎng)絡(luò)只讀的指令存儲(chǔ)器和一個(gè)發(fā)送控制狀態(tài)機(jī)構(gòu)成.指令存儲(chǔ)器的每一項(xiàng)存儲(chǔ)一條流量控制指令，對(duì)應(yīng)一項(xiàng)網(wǎng)絡(luò)發(fā)送事務(wù)，其內(nèi)容由目標(biāo)地址、事務(wù)類型、負(fù)載長(zhǎng)度、事務(wù)編號(hào)、發(fā)送時(shí)間等字段構(gòu)成.發(fā)送控制狀態(tài)機(jī)每次從指令存儲(chǔ)器中讀出一條流量控制指令，對(duì)其進(jìn)行解析并完成一個(gè)完整網(wǎng)絡(luò)數(shù)據(jù)包的重建，同時(shí)在其結(jié)尾添加校驗(yàn)信息，在流控機(jī)制的約束下，將數(shù)據(jù)包有序地注入到片上網(wǎng)絡(luò)中.接收通道由一塊用戶只讀、網(wǎng)絡(luò)只寫的數(shù)據(jù)存儲(chǔ)器和一個(gè)接收控制狀態(tài)機(jī)構(gòu)成.當(dāng)流量管理器接收到一個(gè)來自其他終端的網(wǎng)絡(luò)數(shù)據(jù)包時(shí)，接收控制狀態(tài)機(jī)首先對(duì)整個(gè)數(shù)據(jù)包的內(nèi)容進(jìn)行解析和校驗(yàn)，從中還原出其基本控制信息如源地址、事務(wù)類型、負(fù)載長(zhǎng)度和事務(wù)編號(hào)等，并記錄下其到達(dá)時(shí)間，然后將這些信息合并為一項(xiàng)狀態(tài)數(shù)據(jù)存儲(chǔ)到接收通道內(nèi)的數(shù)據(jù)存儲(chǔ)器中，供系統(tǒng)軟件層讀取.

圖2 硬件系統(tǒng)結(jié)構(gòu)框圖Fig.2 Block diagram of hardware system architecture

圖3 流量管理器結(jié)構(gòu)框圖Fig.3 Block diagram of traffic manager architecture

中央控制器為流量管理器提供通用的總線訪問接口，用于對(duì)其內(nèi)部存儲(chǔ)資源的讀/寫訪問，從而實(shí)現(xiàn)系統(tǒng)軟件層對(duì)底層硬件的控制和觀測(cè).中央控制器本質(zhì)上是一個(gè)總線譯碼單元，通過對(duì)輸入地址總線的三級(jí)譯碼選擇其所要訪問的片上存儲(chǔ)空間.相對(duì)于其他平臺(tái)實(shí)現(xiàn)中的微處理器[5－6］，中央控制器的資源開銷只有不足其1/10，不僅功能簡(jiǎn)單易于實(shí)現(xiàn)，同時(shí)減小了硬件的開銷.

2.2 系統(tǒng)軟件服務(wù)

模擬平臺(tái)的系統(tǒng)軟件層為用戶提供了大量抽象的參數(shù)配置和控制接口，大大提高了系統(tǒng)的效率和靈活性，避免了硬件代碼的反復(fù)修改，使平臺(tái)可以一次性地完成對(duì)目標(biāo)平臺(tái)的驗(yàn)證和評(píng)估.系統(tǒng)軟件層中的仿真引擎可以自動(dòng)地為系統(tǒng)中每個(gè)流量管理器產(chǎn)生一定約束條件下的流量控制指令序列，并通過控制引擎將其下載到相應(yīng)的指令存儲(chǔ)器中；同時(shí)，控制引擎也可以將保存在流量管理器內(nèi)部的狀態(tài)數(shù)據(jù)讀回給仿真引擎，供其快速地考察片上網(wǎng)絡(luò)在不同流量模式下的性能指標(biāo).

仿真引擎采用SystemC事務(wù)級(jí)建模（TLM）的方法實(shí)現(xiàn)，其核心是一套參數(shù)化的片上網(wǎng)絡(luò)軟件仿真程序，同時(shí)具備周期精確的仿真粒度和較快的仿真速度等特點(diǎn).模擬平臺(tái)利用仿真引擎構(gòu)造一個(gè)和硬件平臺(tái)結(jié)構(gòu)相同的軟件仿真框架，但這個(gè)框架只為每個(gè)流量管理器產(chǎn)生單獨(dú)的網(wǎng)絡(luò)通信事務(wù)隊(duì)列，并不進(jìn)行實(shí)際的軟件仿真.通信事務(wù)隊(duì)列的數(shù)據(jù)結(jié)構(gòu)與流量管理器中指令存儲(chǔ)器的存儲(chǔ)結(jié)構(gòu)一致，以二進(jìn)制文件的形式保存在上位機(jī)的文件系統(tǒng)中，由控制引擎將其下載到相應(yīng)的流量管理器中.用戶可以調(diào)整流量模型參數(shù)，不斷地產(chǎn)生新的二進(jìn)制文件，從而改變片上網(wǎng)絡(luò)流量的通信特點(diǎn)，以獲得全面的性能統(tǒng)計(jì)信息.仿真引擎內(nèi)嵌了性能分析模塊，可以處理從流量管理器中讀回的狀態(tài)數(shù)據(jù)文件.性能分析模塊根據(jù)狀態(tài)數(shù)據(jù)文件和先前產(chǎn)生的控制指令序列文件，精確匹配每一組通信流量，計(jì)算其延時(shí)，從而得到整個(gè)網(wǎng)絡(luò)的平均延時(shí)和吞吐性能.

控制引擎采用腳本語言實(shí)現(xiàn)，主要用于模擬流程中各軟件模塊的控制.模擬流程中的每一步操作都由控制引擎直接發(fā)起，通過調(diào)用相應(yīng)的應(yīng)用程序驅(qū)動(dòng)整個(gè)流程向下進(jìn)行.直接受控制引擎調(diào)度的程序包括FPGA綜合和后端實(shí)現(xiàn)工具、仿真引擎和軟/硬件接口API等.

2.3 基于流量管理的系統(tǒng)模擬流程

片上網(wǎng)絡(luò)模擬流程分為結(jié)構(gòu)定義和設(shè)計(jì)空間搜索2個(gè)階段，共7個(gè)步驟，由系統(tǒng)軟件層中的控制引擎進(jìn)行集中控制和調(diào)度.控制引擎對(duì)已有的可執(zhí)行程序進(jìn)行高效地集成和封裝，使整個(gè)模擬流程無須用戶干預(yù)，自動(dòng)地完成流程中的所有步驟.

片上網(wǎng)絡(luò)的模擬流程如圖4所示.其中第1步和第2步為結(jié)構(gòu)定義階段.在這個(gè)階段里，控制引擎首先根據(jù)用戶設(shè)定的結(jié)構(gòu)參數(shù)，從結(jié)構(gòu)單元庫中實(shí)例化基本結(jié)構(gòu)單元，快速構(gòu)建目標(biāo)片上網(wǎng)絡(luò)平臺(tái)，并調(diào)用FPGA開發(fā)工具，生成可直接下載的FPGA網(wǎng)表，通過軟/硬件接口服務(wù)程序，將網(wǎng)表下載到驗(yàn)證板的FPGA芯片上.第3步到第7步為設(shè)計(jì)空間搜索階段，這一階段往往要進(jìn)行多次循環(huán)迭代，以考察片上網(wǎng)絡(luò)在各種流量模型下的通信狀況和性能指標(biāo).在一次迭代過程里，控制引擎首先根據(jù)用戶設(shè)定的流量模型參數(shù)，調(diào)用仿真引擎，為每個(gè)流量管理器產(chǎn)生流量控制指令文件，隨后通過軟/硬件接口服務(wù)程序，將其下載到對(duì)應(yīng)流量管理器的指令存儲(chǔ)器中.當(dāng)全部文件下載結(jié)束后，控制引擎向底層硬件發(fā)送一個(gè)啟動(dòng)命令，片上網(wǎng)絡(luò)進(jìn)入正常工作狀態(tài).系統(tǒng)中全部的流量到達(dá)其目標(biāo)后，控制引擎向底層硬件發(fā)送一個(gè)暫停命令，并調(diào)用軟/硬件接口服務(wù)程序，將每個(gè)流量控制器數(shù)據(jù)存儲(chǔ)器中的狀態(tài)數(shù)據(jù)讀回上位機(jī)，并保存在文件系統(tǒng)中.最后，控制引擎調(diào)用仿真引擎，對(duì)接收到的數(shù)據(jù)文件進(jìn)行分析處理，得到本次迭代的平均通信延時(shí)和吞吐率等性能參數(shù).

圖4 片上網(wǎng)絡(luò)模擬流程Fig.4 Emulation flow of NoC emulation

3 實(shí)驗(yàn)結(jié)果分析

本文提出的片上網(wǎng)絡(luò)模擬平臺(tái)采用通用PC和DINI公司的 DN－DualV6－PCIe－4原型驗(yàn)證引擎共同構(gòu)建實(shí)現(xiàn).其中，驗(yàn)證引擎既可以通過PCIe接口插放在PC機(jī)的主板上，也可以在作為Ethernet終端供局域網(wǎng)內(nèi)的其他PC進(jìn)行訪問.模擬過程中的全部軟硬件交互均通過PCIe或Ethernet實(shí)現(xiàn).引擎上包括兩個(gè)大容量的FPGA芯片（Xilinx XC6VSX475T）并通過千兆級(jí)高速串行總線互連，為片上網(wǎng)絡(luò)提供基本的硬件實(shí)現(xiàn)空間.

實(shí)驗(yàn)中的路由節(jié)點(diǎn)模塊采用了六端口蟲孔交換虛通道路由器，二維Mesh拓?fù)浣Y(jié)構(gòu)下可以連接2個(gè)流量管理器.每個(gè)輸入端口包括4條虛通道，每條虛通道的深度為8個(gè)微片（flit），采用兩級(jí)輪轉(zhuǎn)優(yōu)先的仲裁機(jī)制進(jìn)行虛通道分配和交換分配.片間網(wǎng)絡(luò)接口支持RapidIO高速串行通信，飽和通信帶寬可達(dá)10Gbps.每個(gè)FPGA芯片上實(shí)現(xiàn)一個(gè)4×4的Mesh片上網(wǎng)絡(luò)，網(wǎng)絡(luò)內(nèi)核的時(shí)鐘頻率可以達(dá)到100 MHz.

文獻(xiàn)[6］提出的片上網(wǎng)絡(luò)FPGA模擬平臺(tái)AcENoCs在模擬速度上受到目標(biāo)網(wǎng)絡(luò)的規(guī)模和流量注入率的制約，使其在設(shè)計(jì)空間搜索的深度和廣度上具有一定的局限性.本文所提出的模擬平臺(tái)不受流量注入模型的約束，且受網(wǎng)絡(luò)規(guī)模的影響很小，在6×6的Mesh網(wǎng)絡(luò)下主頻仍可達(dá)到80MHz，這使模擬平臺(tái)的工作效率得到顯著提高.圖5為2種平臺(tái)在模擬速度上的對(duì)比結(jié)果，均采用2×2的Mesh網(wǎng)絡(luò)實(shí)現(xiàn).由圖5可知，本文實(shí)現(xiàn)的平臺(tái)結(jié)構(gòu)工作在較低主頻條件下，在性能上仍然具有較大優(yōu)勢(shì).在目標(biāo)網(wǎng)絡(luò)規(guī)模增大和流量注入率升高時(shí)，這種優(yōu)勢(shì)體現(xiàn)得更加明顯.

圖5 模擬平臺(tái)性能對(duì)比Fig.5 Performance comparison between the platform and AcENoCs[6］

表1反映了目標(biāo)片上網(wǎng)絡(luò)在相同配置條件下，分別使用模擬平臺(tái)，高級(jí)語言仿真器和RTL仿真進(jìn)行設(shè)計(jì)空間搜索的時(shí)間開銷.從表中可以看出，模擬平臺(tái)與基于SystemC語言的仿真器相比，速度提高了近500倍，與基于Verilog的RTL仿真相比，速度提高了10 000倍以上.

表1 片上網(wǎng)絡(luò)模擬－仿真性能對(duì)比表Tab.1 Performance comparison between NoC emulation and simulation

圖6為片上網(wǎng)絡(luò)各部分硬件資源所占的比例.從圖中可以看出，片上網(wǎng)絡(luò)內(nèi)核占據(jù)了硬件系統(tǒng)的絕大部分資源開銷，流量管理器，中央控制器等輔助功能模塊的硬件開銷則相對(duì)較小，這符合模擬平臺(tái)的設(shè)計(jì)原則，以較小的實(shí)現(xiàn)代價(jià)換取了系統(tǒng)的靈活性，同時(shí)最大限度地提高了硬件系統(tǒng)的可控制性和可觀測(cè)性.

圖6 4×4片上網(wǎng)絡(luò)各部分資源分布Fig.6 Resource utilization of a 4×4NoC emulation

圖7為uniform流量下，不同負(fù)載長(zhǎng)度的流量對(duì)片上網(wǎng)絡(luò)平均延時(shí)性能的影響.當(dāng)流量的有效負(fù)載長(zhǎng)度增大時(shí)，網(wǎng)絡(luò)的飽和注入率略有降低，網(wǎng)絡(luò)負(fù)載的平均延時(shí)顯著增大.這是由于隨著負(fù)載注入率的升高，較長(zhǎng)負(fù)載的數(shù)據(jù)包對(duì)網(wǎng)絡(luò)的阻塞更加敏感，從而導(dǎo)致其排隊(duì)延時(shí)的急劇增大，此外，長(zhǎng)負(fù)載本身的串行延時(shí)也是導(dǎo)致平均延時(shí)增大的因素之一.

圖7 平均延時(shí)隨負(fù)載長(zhǎng)度變化特性Fig.7 Average packet delay divided by packet length versus normalized accepted traffic for uniform traffic

4 結(jié) 論

本文提出了一種基于多FPGA的高性能片上網(wǎng)絡(luò)模擬平臺(tái)，用于解決大規(guī)模片上網(wǎng)絡(luò)設(shè)計(jì)空間搜索的效率問題.模擬平臺(tái)通過對(duì)分布式片上流量管理器的軟件重構(gòu)為目標(biāo)網(wǎng)絡(luò)提供豐富的流量模型，避免硬件代碼的反復(fù)修改和下載，大大縮短了驗(yàn)證和調(diào)試周期.該平臺(tái)不依賴于網(wǎng)絡(luò)的規(guī)模和具體實(shí)現(xiàn)，可以完成對(duì)多種結(jié)構(gòu)參數(shù)下片上網(wǎng)絡(luò)的功能驗(yàn)證和性能評(píng)估.實(shí)驗(yàn)結(jié)果表明，該平臺(tái)硬件開銷小，靈活性高，可以快速、準(zhǔn)確地給出網(wǎng)絡(luò)的性能指標(biāo).與同類型的FPGA模擬平臺(tái)相比，該平臺(tái)不受流量模型的制約，大大提高了整個(gè)系統(tǒng)的模擬性能.與基于軟件的仿真相比，該平臺(tái)具有500～10 000倍的加速，能夠高效率地實(shí)現(xiàn)片上網(wǎng)絡(luò)設(shè)計(jì)空間的深度搜索.

[1]GEER D.Chip makers turn to multicore processors[J］.IEEE Computer，2005，38（5）：11－13.

[2]PULLINI A，ANGIOLINI F，MURALI S，etal.Bringing NoCs to 65nm[J］.IEEE Micro，2007，27（5）：75－85.

[3]DALLY W J，TOWLES B.Route packets，not wires：on－chip interconnection networks[C］//Design Automation Conference.Las Vegas：IEEE Press，2001：684－689.

[4]MARCULESCU R，OGRAS U Y，PEH L S，etal.Outstanding research problems in NoC design：system，microarchitecture，and circuit perspectives[J］.IEEE Transactions on Computer－Aided Design of Integrated Circuits and Systems，2009，28（1）：3－21.

[5]GENKO N，ATIENZA D，DE－MICHELI G，etal.NoC emulation：a tool and design flow for MPSoC[J］.IEEE Circuits and Systems Magazine，2007，7（4）：42－51.

[6]LOTLIKAR S，PAI V，GRATZ P V.AcENoCs：a configurable HW/SW platform for FPGA accelerated NoC emulation[C］//24th International Conference on VLSI Design.Madras：IEEE Press，2011：147－152.

[7]WANG Dan－yao，JERGER N E，STEFFAN J G.DART：a programmable architecture for NoC simulation on FPGAs[C］//Fifth IEEE/ACM International Symposium on Networks on Chip.Pittsburgh：IEEE Press，2011：145－152.

[8]REN Peng－ju，LIS M，MYONG H C，etal.HORNET：a cycle－level multicore simulator[J］.IEEE Transactions on Computer－Aided Design of Integrated Circuits and Systems，2012，31（6）：890－903.

[9]BEN－ITZHAK Y，ZAHAVI E，CIDON I，etal.NoCs simulation framework for OMNeT＋＋[C］//Fifth IEEE/ACM International Symposium on Networks on Chip.Pittsburgh：IEEE Press，2011：265－266.

[10］李燁挺，梁利平.一種基于SystemC的片上網(wǎng)絡(luò)建模與仿真方法[J］.微電子學(xué)與計(jì)算機(jī)，2010，27（3）：78－82.LI Ye－ting，LIANG Li－ping.An NoC modeling and simulating method with systemC[J］.Microelectronics ＆ Computer，2010，27（3）：78－82.（In Chinese）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡