雷少波,黃 民
(北京信息科技大學(xué) 機(jī)電工程學(xué)院,北京 100192)
隨著微電子及EDA技術(shù)的高速發(fā)展,可編程邏輯器件的研發(fā)與應(yīng)用也取得了長足的進(jìn)步。其中,基于現(xiàn)場可編程門陣列(FPGA)的片上系統(tǒng)(System on Chip)在嵌入式系統(tǒng)中得到了廣泛的應(yīng)用。與傳統(tǒng)的專用集成電路(ASIC)相比,其具有開發(fā)周期短、設(shè)計(jì)簡單靈活等特點(diǎn)。
本文描述了基于FPGA的16 bit嵌入式微處理器的結(jié)構(gòu)設(shè)計(jì)。該處理器采用程序存儲(chǔ)器與數(shù)據(jù)存儲(chǔ)器分離的哈佛型結(jié)構(gòu),采用精簡指令集(RISC),指令面向寄存器操作,加快了運(yùn)行速度,簡化了控制邏輯。
該處理器執(zhí)行指令時(shí)按照取指(IF)、譯碼(ID)、執(zhí)行(EX)和結(jié)果保存(WR)4個(gè)階段依次進(jìn)行。由于采用4級(jí)流水線結(jié)構(gòu),每個(gè)時(shí)鐘周期能完成一條指令的執(zhí)行。
該處理器采用RISC型指令,設(shè)置了數(shù)據(jù)傳送、算術(shù)邏輯運(yùn)算和程序控制3大類共21條指令,指令格式固定,每條指令長度為32 bit。
該處理器共有4級(jí)流水線,因此可將硬件基本劃分為取指、譯碼、執(zhí)行和結(jié)果保存4部分。
1.2.1 取指
取指部分結(jié)構(gòu)如圖1所示。與參考文獻(xiàn)[1]中提及的處理器取指部分相比,其增加了PC選擇生成器G_PC,通過它實(shí)現(xiàn)了無延遲的程序轉(zhuǎn)移指令。
G_PC是本部分的核心,其部分Verilog HDL實(shí)現(xiàn)代碼如下:
圖1 處理器取指部分結(jié)構(gòu)
優(yōu)先編碼器coder則從硬件電路上實(shí)現(xiàn)了中斷源的優(yōu)先級(jí),即3號(hào)中斷優(yōu)先級(jí)最高,然后依次遞減(3號(hào)中斷的優(yōu)先級(jí)值為 4,2號(hào)中斷的優(yōu)先級(jí)值為 3,1號(hào)中斷為2,0號(hào)中斷為 1)。coder的輸出信號(hào) s0既代表了中斷的優(yōu)先級(jí),又起到了選擇中斷入口地址的作用。
取指部分的具體工作流程如下。
(1)假設(shè)此時(shí)指令地址add_pc在ROM中對(duì)應(yīng)的指令inst為sub r0,r1,r2,此類語句不會(huì)使下一條指令地址發(fā)生轉(zhuǎn)移。同時(shí)假設(shè)沒有中斷信號(hào)產(chǎn)生,于是當(dāng)下一個(gè)時(shí)鐘上升沿到達(dá)時(shí),由G_PC生成的控制信號(hào)s1將add_pc+4選通送入PC寄存器中,即取出物理地址相鄰的下一條指令 (加4是因?yàn)橐粭l指令有 32 bit,共4 B)。
假設(shè) add_pc在 ROM中對(duì)應(yīng)的指令 inst為 sub r0,r1,r2,且中斷狀態(tài)棧 status頂部單元數(shù)據(jù)為 0。此時(shí)有中斷信號(hào)0和中斷信號(hào)2產(chǎn)生,優(yōu)先編碼器coder生成的s0為 2號(hào)中斷的優(yōu)先級(jí) 3(大于status頂部數(shù)據(jù) 0),于是中斷請(qǐng)求信號(hào)inta有效。當(dāng)下一個(gè)時(shí)鐘上升沿到達(dá)時(shí),G_PC生成的 s2信號(hào)和epc_down信號(hào)將add_pc+4壓入返回地址棧EPC中,s0和由G_PC產(chǎn)生的信號(hào)s1將2號(hào)中斷的入口地址v2送入PC寄存器中(0號(hào)中斷被忽略掉),同時(shí)將s0的值 3(即2號(hào)中斷的優(yōu)先級(jí))壓入中斷狀態(tài)棧status頂部。
(2)假設(shè)此時(shí)add_pc在 ROM中對(duì)應(yīng)的指令 inst為絕對(duì)跳轉(zhuǎn)jump 100,即程序轉(zhuǎn)移到地址100處開始執(zhí)行,且沒有中斷信號(hào)產(chǎn)生。則當(dāng)下一個(gè)時(shí)鐘上升沿來臨時(shí),由 G_PC產(chǎn)生的 s1等控制信號(hào)將 inst[23:16](此時(shí)為100)送入PC寄存器中開始執(zhí)行。
假設(shè)此時(shí)add_pc在ROM中對(duì)應(yīng)的指令inst為絕對(duì)跳轉(zhuǎn)jump 100,但此時(shí)有中斷信號(hào)1產(chǎn)生(且假設(shè)此時(shí)status頂部值小于 2),則 inta為 1。于是 G_PC產(chǎn)生的控制信號(hào)將 inst[23:16](即 100)壓入 EPC頂,將中斷 1的優(yōu)先級(jí)(即s0的值2)壓入 status頂部,將中斷1的入口地址送入PC寄存器中,開始響應(yīng)中斷。如果之后又產(chǎn)生優(yōu)先級(jí)大于2的中斷,則將相關(guān)數(shù)據(jù)壓棧后響應(yīng)中斷,若產(chǎn)生中斷的優(yōu)先級(jí)小于或等于2,則被忽略不執(zhí)行。
條件轉(zhuǎn)移jz、jnz與jump指令類似,只是當(dāng)譯碼階段產(chǎn)生的Z信號(hào)為1時(shí),jz跳轉(zhuǎn),Z為0時(shí)jnz跳轉(zhuǎn)。通常比較指令comp后面緊跟條件轉(zhuǎn)移指令來實(shí)現(xiàn)程序轉(zhuǎn)移控制。
(3)假設(shè)此時(shí)add_pc在 ROM中對(duì)應(yīng)的指令 inst為調(diào)用指令call 100,執(zhí)行此條指令時(shí)忽略所有中斷請(qǐng)求信號(hào),將 add_pc+4壓入 EPC中后,將 inst[23:16](即100)送入PC寄存器中開始執(zhí)行調(diào)用程序。
(4)假設(shè)此時(shí)add_pc在 ROM中對(duì)應(yīng)的指令 inst為中斷返回指令int_ret,且沒有高優(yōu)先級(jí)的中斷產(chǎn)生,則EPC頂部的數(shù)據(jù)add_ret送入PC寄存器中,同時(shí),EPC和status中的頂部數(shù)據(jù)彈出,其余數(shù)據(jù)依次上移一位。
假設(shè)此時(shí)add_pc在ROM中對(duì)應(yīng)的指令inst為中斷返回指令int_ret,但有優(yōu)先級(jí)比status頂部單元數(shù)據(jù)高的中斷信號(hào)產(chǎn)生,則G_PC產(chǎn)生的cover信號(hào)有效,status頂部數(shù)據(jù)被新的中斷優(yōu)先級(jí)值所覆蓋,EPC維持不變,同時(shí)響應(yīng)新中斷。
(5)調(diào)用返回指令call_ret與中斷返回指令 int_ret類似,不過執(zhí)行時(shí)status中的數(shù)據(jù)不彈出。
1.2.2 譯碼
譯碼部分結(jié)構(gòu)如圖2所示。
圖2 處理器譯碼部分結(jié)構(gòu)
譯碼部分核心是控制單元ctrl。為了解決流水線的數(shù)據(jù)相關(guān),采用了內(nèi)部前推的方法,將執(zhí)行部分產(chǎn)生的數(shù)據(jù)result回送至本部分。將比較單元comp產(chǎn)生的信號(hào)Z送至譯碼部分,使得條件跳轉(zhuǎn)指令(jz、jnz)在取指階段就能實(shí)現(xiàn),從而實(shí)現(xiàn)無延遲跳轉(zhuǎn)。
本部分中的寄存器堆reg_file在時(shí)鐘下降沿且寫信號(hào)l_e_w_reg有效時(shí)執(zhí)行寫數(shù)據(jù)操作(實(shí)現(xiàn)結(jié)果保存WR這一部分的功能)。ctrl產(chǎn)生的一部分控制信號(hào)通過執(zhí)行控制寄存器EXR送至下一級(jí)使用。
1.2.3 執(zhí)行
執(zhí)行部分的結(jié)構(gòu)如圖3所示。此部分核心是算術(shù)邏輯運(yùn)算單元ALU,前面譯碼部分的ctrl產(chǎn)生的運(yùn)算控制碼alu_code指定運(yùn)算操作,運(yùn)算結(jié)果c_out送入5/1選擇器mux6。關(guān)于mux6的其余4路數(shù)據(jù)對(duì)應(yīng)的指令為:dout對(duì)應(yīng)load ra,imme即將數(shù)據(jù)存儲(chǔ)器中指定地址單元M[imme]的數(shù)據(jù)送入 ra號(hào)寄存器中;ds對(duì)應(yīng) pop ra,即將數(shù)據(jù)堆棧stake棧頂?shù)臄?shù)據(jù)彈入ra號(hào)寄存器中;e_imme對(duì)應(yīng)指令 val ra,imme送立即數(shù) imme入 ra號(hào)寄存器;e_db對(duì)應(yīng)mov ra,rb即將rb號(hào)寄存器中的數(shù)據(jù)送入ra號(hào)寄存器中。
圖3 處理器執(zhí)行部分結(jié)構(gòu)
1.2.4 結(jié)果保存
這里的結(jié)果保存是針對(duì)目的地址為寄存器的指令,如算術(shù)邏輯運(yùn)算指令、寄存器之間的數(shù)據(jù)傳輸指令等。工作流程即將圖3中 RSR的 l_e_ra、l_e_w_reg、l_result信號(hào)送入圖2中的reg_file。當(dāng)時(shí)鐘下降沿到達(dá)且l_e_w_reg有效時(shí),數(shù)據(jù)l_result被寫入l_e_ra號(hào)寄存器中。
為了驗(yàn)證該設(shè)計(jì),利用Altera公司的Quartus II軟件進(jìn)行仿真驗(yàn)證。仿真時(shí)設(shè)計(jì)在取地址為32的指令時(shí)出現(xiàn)0號(hào)中斷,在取地址為52的指令時(shí)出現(xiàn)1號(hào)中斷。實(shí)際執(zhí)行時(shí),1號(hào)中斷嵌套在0號(hào)中斷之中。對(duì)應(yīng)中斷的入口地址分別為48、68。仿真結(jié)果如圖4所示。
圖4中a0~a6分別顯示的是r0~r6號(hào)寄存器中的數(shù)據(jù);v0、v1分別是0號(hào)中斷、1號(hào)中斷的入口地址;pc_num是處在取指階段的指令的地址;ints是中斷輸入信號(hào),ints=1、ints=2分別表示外設(shè)請(qǐng)求 1號(hào)中斷、外設(shè)請(qǐng)求2號(hào)中斷。從圖4中可以看出:
(1)幾乎每條處在取指階段的指令都要經(jīng)過3個(gè)時(shí)鐘上升沿和一個(gè)時(shí)鐘下降沿后才執(zhí)行完畢。這是因?yàn)橹噶钊≈竿瓿珊?,還要經(jīng)過譯碼、執(zhí)行和結(jié)果保存3個(gè)階段,并且結(jié)果保存是在時(shí)鐘下降沿完成的。但由于是流水線結(jié)構(gòu),故等效于每一個(gè)時(shí)鐘執(zhí)行一條指令。
(2)當(dāng)取到地址為 pc_num=32的指令時(shí),中斷信號(hào)1產(chǎn)生,于是下條指令的取指地址為1號(hào)中斷入口地址48。執(zhí)行1號(hào)中斷的子程序到52時(shí),中斷信號(hào)2產(chǎn)生,于是響應(yīng)2號(hào)中斷,下條指令地址為2號(hào)中斷入口地址68(2號(hào)中斷子程序就一條返回指令)。
(3)當(dāng)執(zhí)行地址為 24的 jump 0指令時(shí),下條指令地址為0,實(shí)現(xiàn)了無延遲轉(zhuǎn)移。
綜上所述,經(jīng)初步驗(yàn)證,該設(shè)計(jì)能實(shí)現(xiàn)4級(jí)流水線結(jié)構(gòu),并具備中斷及其嵌套、無延遲轉(zhuǎn)移等功能。
本文設(shè)計(jì)了一種基于FPGA的16 bit嵌入式RISC微處理器。該處理器主要特點(diǎn)是通過增加硬件結(jié)構(gòu)實(shí)現(xiàn)了對(duì)轉(zhuǎn)移指令的無延遲實(shí)現(xiàn)以及對(duì)中斷及調(diào)用指令的支持。在下一步工作中將優(yōu)化結(jié)構(gòu)設(shè)計(jì),增加外圍設(shè)備,逐步構(gòu)成一個(gè)高性能的單片系統(tǒng)。
[1]李亞民.計(jì)算機(jī)原理與設(shè)計(jì)[M].北京:清華大學(xué)出版社,2011.
[2]鄭緯民,湯志忠.計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1998.
[3]夏宇聞.Verilog數(shù)字系統(tǒng)設(shè)計(jì)教程[M].北京:北京航空航天大學(xué)出版社,2008.
[4]于洋,肖鐵軍,丁偉.面向教學(xué)的 16位 CISC微處理器的設(shè)計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(16):3584-3587.
[5]張英武,袁國順.32位嵌入式RISC處理器的設(shè)計(jì)與實(shí)現(xiàn)[J].微電子學(xué)與計(jì)算機(jī),2008,25(6):14-17.
[6]曾舒婷,楊志家.高性能PLC專用指令集處理器設(shè)計(jì)與仿真[J].微電子學(xué)與計(jì)算機(jī),2011,28(7):76-81.