李 煒,周明政
(中電海康集團(tuán)有限公司,浙江 杭州 310012)
隨著大數(shù)據(jù)和云計算的發(fā)展,海量數(shù)據(jù)需要進(jìn)行存儲。另一方面,隨著新型存儲介質(zhì)技術(shù)的發(fā)展,NAND閃存(NAND FLASH)工藝的進(jìn)步和良率的不斷提升,固態(tài)硬盤(Solid State Disk,SSD)的成本已經(jīng)下降至接近企業(yè)級機(jī)械硬盤 (Hard Disk Drive)的水平,SSD在服務(wù)器、數(shù)據(jù)中心、存儲系統(tǒng)以及日常消費(fèi)電子中的應(yīng)用越來越廣泛。
傳統(tǒng)的SSD控制器,為了節(jié)省芯片面積,降低成本、功耗,通常會在設(shè)計時采用單核CPU方案,CPU主要用來控制前端與主機(jī)側(cè)的接口和通信,F(xiàn)TL表項(xiàng)的分配和管理以及后端介質(zhì)控制器與NAND存儲顆粒中的通信。除此之外,CPU還需要處理日志記錄、異常處理流程、FW在線升級等任務(wù)。
隨著承載的存儲數(shù)據(jù)量的急劇增加,SSD主控芯片計算能力的瓶頸問題越來越凸顯,控制器芯片廠家都在設(shè)法解決額外的計算任務(wù)帶來的CPU負(fù)載過重問題。如果采用性能更強(qiáng)的CPU,勢必造成成本、面積、功耗的上升,同時市場競爭力下降,如果采用多顆性能較弱的CPU來替代,又面臨核間通信效率低的問題。
本文采用異構(gòu)計算的理念,在控制器芯片設(shè)計中引入一顆小型 DSP(Cadence Tensilica),應(yīng)用于SSD控制器芯片架構(gòu)設(shè)計中,能夠在不增加過多面積、功耗、成本的同時,分流主CPU的部分計算開銷,在提升系統(tǒng)讀寫性能的同時擁有一定的靈活性。
圖1為當(dāng)前主流企業(yè)級固態(tài)硬盤架構(gòu)方案示意圖。
圖1 主流SSD控制器芯片架構(gòu)圖
當(dāng)前的固態(tài)硬盤控制器芯片分為以下幾個主要的部分:前端主機(jī)接口模塊、系統(tǒng)管理模塊、后端NAND介質(zhì)管理接口模塊。
前端主機(jī)接口模塊主要負(fù)責(zé)接收和處理主機(jī)側(cè)下發(fā)的讀寫命令并將數(shù)據(jù)接收下來存到DRAM中。企業(yè)級SSD中,由于對性能要求高,前端主機(jī)接口基本上選用基于NVMe(Non-Volatile Memory Express)協(xié)議的第三代甚至第四代PCIe(PCI Express)的接口。除此之外,SAS12G(Serial Attached SCSI 12G)和SATA(Serial ATA)接口也是當(dāng)前SSD前端主機(jī)接口的主流協(xié)議。
系統(tǒng)管理模塊(SYSTEM OM)是SSD控制器芯片的最核心單元,包括閃存地址映射表(Flash Translate Layer,F(xiàn)TL)管理、元數(shù)據(jù)管理、日志管理、異常處理、讀寫流程控制、磨損均衡、垃圾回收等。其中FTL表項(xiàng)管理是其中最重要的部分。
FTL主要處理主機(jī)下發(fā)的邏輯地址(Logic Block Address,LBA)到介質(zhì)顆粒中存儲的物理地址(Physical Block Address,PBA)之間的映射表,是用閃存完全模擬傳統(tǒng)硬盤操作的軟件層,有了FTL層,閃存設(shè)備才能使用,F(xiàn)TL層的效率直接影響設(shè)備的性能表現(xiàn)。
系統(tǒng)管理模塊的主要作用包括下面幾點(diǎn):
·FTL表項(xiàng)管理;
·垃圾回收的處理;
·增量空間的供給;
·冷/熱數(shù)據(jù)的交換處理;
·Plane、芯片、通道間的并行處理;
·任務(wù)請求的排序;
·緩沖區(qū)的管理;
·壞塊的管理;
·磨損平衡的處理;
·掉電恢復(fù)的處理;
·ECC的處理。
NFI(NAND FLASH Interface)主要負(fù)責(zé)處理跟NAND FLASH顆粒的數(shù)據(jù)與命令交換。NFI負(fù)責(zé)把主機(jī)側(cè)的讀寫命令轉(zhuǎn)化成兼容ONFI和Toggle的標(biāo)準(zhǔn)NAND接口協(xié)議,并在NAND顆粒和控制器數(shù)據(jù)緩存之間做數(shù)據(jù)的讀寫交互。
ARM系列CPU是當(dāng)前SSD控制器廠商應(yīng)用最廣泛的CPU種類,其基于RISC精簡指令集設(shè)計,在功耗方面有著比X86指令集明顯的優(yōu)勢,廣泛應(yīng)用在移動端、手持供電系統(tǒng)和對功耗要求較高的產(chǎn)品設(shè)計中。
在主流SSD控制器廠商的產(chǎn)品中,ARM 9系列是應(yīng)用比較廣泛的處理器之一。除此之外,有些廠家也采用國產(chǎn)自研CPU如中天微CSKY-CORE等產(chǎn)品來設(shè)計自己的控制器芯片。
傳統(tǒng)SSD控制器芯片架構(gòu)的痛點(diǎn)有以下幾點(diǎn):
一是工藝技術(shù)的不斷進(jìn)步和成本不斷上升的矛盾。隨著半導(dǎo)體工藝的不斷進(jìn)步,工藝節(jié)點(diǎn)開始下降到16nm、14nm、10nm甚至7nm,在制造過程中的復(fù)雜度和光罩成本也越來越高,16nm工藝投片的一次光罩成本就接近350萬美元,對于固態(tài)存儲控制器硬盤的成本來講,需要大量的出貨才能支撐如此之高的MASK費(fèi)用。因此,為了追求成本和性能的平衡,大部分SSD主控廠商選擇28nm工藝作為主流的工藝節(jié)點(diǎn)。
二是工藝節(jié)點(diǎn)和性能的不匹配。受限于工藝節(jié)點(diǎn),在CPU的選型和CPU運(yùn)行的主頻上,設(shè)計人員只能選擇中端的CPU種類,而且運(yùn)行頻率受限于工藝,無法提頻以提供更高的性能。因此,在數(shù)據(jù)中心、服務(wù)器等高端應(yīng)用場景中,當(dāng)前的CPU負(fù)載相當(dāng)重,導(dǎo)致實(shí)際應(yīng)用中帶寬和IOPS的波動較大,無法達(dá)到企業(yè)級應(yīng)用場景中嚴(yán)格的QoS(Quality of Service)要求。
采用EpiData3.1軟件建立數(shù)據(jù)庫并進(jìn)行數(shù)據(jù)錄入。采用SPSS 22.0軟件進(jìn)行統(tǒng)計學(xué)分析。定量資料組間比較采用單因素方差分析,定性資料組間比較采用χ2 檢驗(yàn),以 P< 0.05為差異有統(tǒng)計學(xué)意義。
Tensilica IP/DSP系列是Cadence公司開發(fā)的一種高性能、低功耗、算法可定制的DSP處理核心。Cadence為其開發(fā)了一系列基于特定應(yīng)用場景的IP,其廣泛地應(yīng)用在音視頻處理、汽車電子、高端手機(jī)應(yīng)用處理器、存儲設(shè)備等。
Tensilica DSP的最大特點(diǎn)在于算法和指令的可定制和可拓展性,從指令集、微結(jié)構(gòu)、接口等方面都提供一些可配置的選項(xiàng)。設(shè)計者可以通過菜單選擇的方式定制適合自己應(yīng)用的處理器;在拓展性方面,使用 Tensilica Instruction Extension(TIE)的方法,增加用戶的指令、寄存器、寄存器堆等。用戶可以使用和verilog類似的TIE語言來描述自己的datapath單元的功能,而相應(yīng)的RTL代碼和工具鏈自動生成。
基于以上特點(diǎn),Cadence Tensilica處理器和DSP廣泛應(yīng)用在當(dāng)前需要異構(gòu)計算的應(yīng)用場景中。
如圖2所示,為應(yīng)用Tensilica DSP之后的SSD控制器芯片架構(gòu)示意圖。
本方案的技術(shù)特征在于:
硬件層面,在總線上集成Cadence Tensilica DSP的IP核,形成CPU+DSP的雙核異構(gòu)計算架構(gòu)。
圖2 基于Tensilica DSP的SSD控制器芯片架構(gòu)圖
固件層面,基于功能和應(yīng)用場景對FW進(jìn)行分類管理。主CPU主要用來處理主機(jī)接口的數(shù)據(jù)命令接收和下發(fā)、FTL表項(xiàng)的創(chuàng)建和管理、NAND FLASH介質(zhì)的讀寫控制和管理,以及磨損均衡、垃圾回收等介質(zhì)可靠性算法管理。
Tensilica DSP的主要作用在于:承擔(dān)部分系統(tǒng)管理模塊的功能,如SSD控制器在數(shù)據(jù)讀寫過程中,需要記錄一些關(guān)鍵狀態(tài)作為系統(tǒng)日志,在這種經(jīng)常性需要CPU介入的場景,把日志管理的功能轉(zhuǎn)移到DSP進(jìn)行處理。
圖3顯示了采用Tensilica DSP的SSD固件算法內(nèi)容。
圖3 基于Tensilica DSP的固件算法示意圖
對于一些近數(shù)據(jù)處理的應(yīng)用場景,比如MySQL數(shù)據(jù)庫查詢,采用如圖3所示的芯片架構(gòu)和固件方案。
MySQL數(shù)據(jù)庫查詢業(yè)務(wù),需要SSD主控和跟主機(jī)進(jìn)行頻繁的數(shù)據(jù)和命令交互,并且有大量的主機(jī)計算開銷。通過改寫FW程序,把主機(jī)需要處理的SQL查詢命令直接下發(fā)至SSD主控內(nèi)的DSP,當(dāng)待處理的數(shù)據(jù)信息從NAND FLASH讀取到主控緩存后,DSP執(zhí)行數(shù)據(jù)庫的查詢命令直接在片內(nèi)完成MySQL查詢過程,將數(shù)據(jù)結(jié)果存放在主控緩存的OOB空間,然后通知主CPU將其結(jié)果返回給主機(jī)。在此過程中,實(shí)現(xiàn)了將數(shù)據(jù)庫在線計算的業(yè)務(wù)由主機(jī)卸載至SSD主控的Tensilica DSP的過程。
使用固定的讀寫IO比例數(shù)據(jù)庫基準(zhǔn)測試工具BenchmarkSQL在如下兩種場景下進(jìn)行了測試:
第一種,采用市面上已售的SSD盤,其主控芯片為Marvell,主機(jī)接口為PCIe GEN3 X 4 lane;
第二種,在FPGA開發(fā)板上進(jìn)行模擬仿真,由于FPGA頻率無法和ASIC芯片相比較,因此在性能評估中采取了等比例折算的方法,進(jìn)行20倍降頻,F(xiàn)PGA上的主CPU采用50MHz的工作頻率。
圖4顯示了在兩種場景下的CPU負(fù)載和讀寫業(yè)務(wù)性能對比情況。
由此可見,如果我們把MySQL的查詢放在DSP中處理的話,主機(jī)負(fù)載和盤控負(fù)載均能夠下降10%以上,也能夠保證主要數(shù)據(jù)通路上的QoS質(zhì)量,讀寫性能有了10%左右的提升;同時,由于主CPU的負(fù)載減輕,F(xiàn)W可以更主動地啟動垃圾回收和磨損均衡,有助于SSD盤片壽命和數(shù)據(jù)可靠性的提升。
故,采用了本方案的異構(gòu)計算SSD控制器芯片方案,在NDP(近數(shù)據(jù)端處理)的應(yīng)用中有著顯著的優(yōu)勢和性能提升,同時又不會引入相比高端CPU更多的面積、功耗和成本開銷。
圖4 兩種場景下的CPU負(fù)載和讀寫業(yè)務(wù)性能對比
本文提出一種新型的固態(tài)硬盤控制器芯片架構(gòu),能夠在數(shù)據(jù)庫查詢等NDP應(yīng)用場景中降低主機(jī)負(fù)載,提升系統(tǒng)讀寫性能,保持QoS的穩(wěn)定。本芯片架構(gòu)在固態(tài)存儲領(lǐng)域具備廣泛的應(yīng)用前景。