一種新型的固態(tài)硬盤控制器芯片架構(gòu)研究

2019-01-10 06:26周明政

智能物聯(lián)技術(shù) 2018年3期

李煒，周明政

（中電海康集團(tuán)有限公司，浙江杭州 310012）

0 引言

隨著大數(shù)據(jù)和云計算的發(fā)展，海量數(shù)據(jù)需要進(jìn)行存儲。另一方面，隨著新型存儲介質(zhì)技術(shù)的發(fā)展，NAND閃存（NAND FLASH）工藝的進(jìn)步和良率的不斷提升，固態(tài)硬盤（Solid State Disk，SSD）的成本已經(jīng)下降至接近企業(yè)級機(jī)械硬盤（Hard Disk Drive）的水平，SSD在服務(wù)器、數(shù)據(jù)中心、存儲系統(tǒng)以及日常消費(fèi)電子中的應(yīng)用越來越廣泛。

傳統(tǒng)的SSD控制器，為了節(jié)省芯片面積，降低成本、功耗，通常會在設(shè)計時采用單核CPU方案，CPU主要用來控制前端與主機(jī)側(cè)的接口和通信，F(xiàn)TL表項(xiàng)的分配和管理以及后端介質(zhì)控制器與NAND存儲顆粒中的通信。除此之外，CPU還需要處理日志記錄、異常處理流程、FW在線升級等任務(wù)。

隨著承載的存儲數(shù)據(jù)量的急劇增加，SSD主控芯片計算能力的瓶頸問題越來越凸顯，控制器芯片廠家都在設(shè)法解決額外的計算任務(wù)帶來的CPU負(fù)載過重問題。如果采用性能更強(qiáng)的CPU，勢必造成成本、面積、功耗的上升，同時市場競爭力下降，如果采用多顆性能較弱的CPU來替代，又面臨核間通信效率低的問題。

本文采用異構(gòu)計算的理念，在控制器芯片設(shè)計中引入一顆小型 DSP（Cadence Tensilica），應(yīng)用于SSD控制器芯片架構(gòu)設(shè)計中，能夠在不增加過多面積、功耗、成本的同時，分流主CPU的部分計算開銷，在提升系統(tǒng)讀寫性能的同時擁有一定的靈活性。

1 當(dāng)前固態(tài)硬盤控制器架構(gòu)方案簡介

圖1為當(dāng)前主流企業(yè)級固態(tài)硬盤架構(gòu)方案示意圖。

圖1 主流SSD控制器芯片架構(gòu)圖

當(dāng)前的固態(tài)硬盤控制器芯片分為以下幾個主要的部分：前端主機(jī)接口模塊、系統(tǒng)管理模塊、后端NAND介質(zhì)管理接口模塊。

前端主機(jī)接口模塊主要負(fù)責(zé)接收和處理主機(jī)側(cè)下發(fā)的讀寫命令并將數(shù)據(jù)接收下來存到DRAM中。企業(yè)級SSD中，由于對性能要求高，前端主機(jī)接口基本上選用基于NVMe（Non-Volatile Memory Express）協(xié)議的第三代甚至第四代PCIe（PCI Express）的接口。除此之外，SAS12G（Serial Attached SCSI 12G）和SATA（Serial ATA）接口也是當(dāng)前SSD前端主機(jī)接口的主流協(xié)議。

系統(tǒng)管理模塊（SYSTEM OM）是SSD控制器芯片的最核心單元，包括閃存地址映射表（Flash Translate Layer，F(xiàn)TL）管理、元數(shù)據(jù)管理、日志管理、異常處理、讀寫流程控制、磨損均衡、垃圾回收等。其中FTL表項(xiàng)管理是其中最重要的部分。

FTL主要處理主機(jī)下發(fā)的邏輯地址（Logic Block Address，LBA）到介質(zhì)顆粒中存儲的物理地址（Physical Block Address，PBA）之間的映射表，是用閃存完全模擬傳統(tǒng)硬盤操作的軟件層，有了FTL層，閃存設(shè)備才能使用，F(xiàn)TL層的效率直接影響設(shè)備的性能表現(xiàn)。

系統(tǒng)管理模塊的主要作用包括下面幾點(diǎn)：

·FTL表項(xiàng)管理；

·垃圾回收的處理；

·增量空間的供給；

·冷/熱數(shù)據(jù)的交換處理；

·Plane、芯片、通道間的并行處理；

·任務(wù)請求的排序；

·緩沖區(qū)的管理；

·壞塊的管理；

·磨損平衡的處理；

·掉電恢復(fù)的處理；

·ECC的處理。

NFI（NAND FLASH Interface）主要負(fù)責(zé)處理跟NAND FLASH顆粒的數(shù)據(jù)與命令交換。NFI負(fù)責(zé)把主機(jī)側(cè)的讀寫命令轉(zhuǎn)化成兼容ONFI和Toggle的標(biāo)準(zhǔn)NAND接口協(xié)議，并在NAND顆粒和控制器數(shù)據(jù)緩存之間做數(shù)據(jù)的讀寫交互。

ARM系列CPU是當(dāng)前SSD控制器廠商應(yīng)用最廣泛的CPU種類，其基于RISC精簡指令集設(shè)計，在功耗方面有著比X86指令集明顯的優(yōu)勢，廣泛應(yīng)用在移動端、手持供電系統(tǒng)和對功耗要求較高的產(chǎn)品設(shè)計中。

在主流SSD控制器廠商的產(chǎn)品中，ARM 9系列是應(yīng)用比較廣泛的處理器之一。除此之外，有些廠家也采用國產(chǎn)自研CPU如中天微CSKY-CORE等產(chǎn)品來設(shè)計自己的控制器芯片。

傳統(tǒng)SSD控制器芯片架構(gòu)的痛點(diǎn)有以下幾點(diǎn)：

一是工藝技術(shù)的不斷進(jìn)步和成本不斷上升的矛盾。隨著半導(dǎo)體工藝的不斷進(jìn)步，工藝節(jié)點(diǎn)開始下降到16nm、14nm、10nm甚至7nm，在制造過程中的復(fù)雜度和光罩成本也越來越高，16nm工藝投片的一次光罩成本就接近350萬美元，對于固態(tài)存儲控制器硬盤的成本來講，需要大量的出貨才能支撐如此之高的MASK費(fèi)用。因此，為了追求成本和性能的平衡，大部分SSD主控廠商選擇28nm工藝作為主流的工藝節(jié)點(diǎn)。

二是工藝節(jié)點(diǎn)和性能的不匹配。受限于工藝節(jié)點(diǎn)，在CPU的選型和CPU運(yùn)行的主頻上，設(shè)計人員只能選擇中端的CPU種類，而且運(yùn)行頻率受限于工藝，無法提頻以提供更高的性能。因此，在數(shù)據(jù)中心、服務(wù)器等高端應(yīng)用場景中，當(dāng)前的CPU負(fù)載相當(dāng)重，導(dǎo)致實(shí)際應(yīng)用中帶寬和IOPS的波動較大，無法達(dá)到企業(yè)級應(yīng)用場景中嚴(yán)格的QoS（Quality of Service）要求。

采用EpiData3.1軟件建立數(shù)據(jù)庫并進(jìn)行數(shù)據(jù)錄入。采用SPSS 22.0軟件進(jìn)行統(tǒng)計學(xué)分析。定量資料組間比較采用單因素方差分析，定性資料組間比較采用χ2 檢驗(yàn)，以 P< 0.05為差異有統(tǒng)計學(xué)意義。

2 Cadence Tensilica DSP的特點(diǎn)

Tensilica IP/DSP系列是Cadence公司開發(fā)的一種高性能、低功耗、算法可定制的DSP處理核心。Cadence為其開發(fā)了一系列基于特定應(yīng)用場景的IP，其廣泛地應(yīng)用在音視頻處理、汽車電子、高端手機(jī)應(yīng)用處理器、存儲設(shè)備等。

Tensilica DSP的最大特點(diǎn)在于算法和指令的可定制和可拓展性，從指令集、微結(jié)構(gòu)、接口等方面都提供一些可配置的選項(xiàng)。設(shè)計者可以通過菜單選擇的方式定制適合自己應(yīng)用的處理器；在拓展性方面，使用 Tensilica Instruction Extension（TIE）的方法，增加用戶的指令、寄存器、寄存器堆等。用戶可以使用和verilog類似的TIE語言來描述自己的datapath單元的功能，而相應(yīng)的RTL代碼和工具鏈自動生成。

基于以上特點(diǎn)，Cadence Tensilica處理器和DSP廣泛應(yīng)用在當(dāng)前需要異構(gòu)計算的應(yīng)用場景中。

3 基于Tensilica DSP的SSD控制器架構(gòu)方案

如圖2所示，為應(yīng)用Tensilica DSP之后的SSD控制器芯片架構(gòu)示意圖。

本方案的技術(shù)特征在于：

硬件層面，在總線上集成Cadence Tensilica DSP的IP核，形成CPU+DSP的雙核異構(gòu)計算架構(gòu)。

圖2 基于Tensilica DSP的SSD控制器芯片架構(gòu)圖

固件層面，基于功能和應(yīng)用場景對FW進(jìn)行分類管理。主CPU主要用來處理主機(jī)接口的數(shù)據(jù)命令接收和下發(fā)、FTL表項(xiàng)的創(chuàng)建和管理、NAND FLASH介質(zhì)的讀寫控制和管理，以及磨損均衡、垃圾回收等介質(zhì)可靠性算法管理。

Tensilica DSP的主要作用在于：承擔(dān)部分系統(tǒng)管理模塊的功能，如SSD控制器在數(shù)據(jù)讀寫過程中，需要記錄一些關(guān)鍵狀態(tài)作為系統(tǒng)日志，在這種經(jīng)常性需要CPU介入的場景，把日志管理的功能轉(zhuǎn)移到DSP進(jìn)行處理。

圖3顯示了采用Tensilica DSP的SSD固件算法內(nèi)容。

圖3 基于Tensilica DSP的固件算法示意圖

對于一些近數(shù)據(jù)處理的應(yīng)用場景，比如MySQL數(shù)據(jù)庫查詢，采用如圖3所示的芯片架構(gòu)和固件方案。

MySQL數(shù)據(jù)庫查詢業(yè)務(wù)，需要SSD主控和跟主機(jī)進(jìn)行頻繁的數(shù)據(jù)和命令交互，并且有大量的主機(jī)計算開銷。通過改寫FW程序，把主機(jī)需要處理的SQL查詢命令直接下發(fā)至SSD主控內(nèi)的DSP，當(dāng)待處理的數(shù)據(jù)信息從NAND FLASH讀取到主控緩存后，DSP執(zhí)行數(shù)據(jù)庫的查詢命令直接在片內(nèi)完成MySQL查詢過程，將數(shù)據(jù)結(jié)果存放在主控緩存的OOB空間，然后通知主CPU將其結(jié)果返回給主機(jī)。在此過程中，實(shí)現(xiàn)了將數(shù)據(jù)庫在線計算的業(yè)務(wù)由主機(jī)卸載至SSD主控的Tensilica DSP的過程。

使用固定的讀寫IO比例數(shù)據(jù)庫基準(zhǔn)測試工具BenchmarkSQL在如下兩種場景下進(jìn)行了測試：

第一種，采用市面上已售的SSD盤，其主控芯片為Marvell，主機(jī)接口為PCIe GEN3 X 4 lane；

第二種，在FPGA開發(fā)板上進(jìn)行模擬仿真，由于FPGA頻率無法和ASIC芯片相比較，因此在性能評估中采取了等比例折算的方法，進(jìn)行20倍降頻，F(xiàn)PGA上的主CPU采用50MHz的工作頻率。

圖4顯示了在兩種場景下的CPU負(fù)載和讀寫業(yè)務(wù)性能對比情況。

由此可見，如果我們把MySQL的查詢放在DSP中處理的話，主機(jī)負(fù)載和盤控負(fù)載均能夠下降10%以上，也能夠保證主要數(shù)據(jù)通路上的QoS質(zhì)量，讀寫性能有了10%左右的提升；同時，由于主CPU的負(fù)載減輕，F(xiàn)W可以更主動地啟動垃圾回收和磨損均衡，有助于SSD盤片壽命和數(shù)據(jù)可靠性的提升。

故，采用了本方案的異構(gòu)計算SSD控制器芯片方案，在NDP（近數(shù)據(jù)端處理）的應(yīng)用中有著顯著的優(yōu)勢和性能提升，同時又不會引入相比高端CPU更多的面積、功耗和成本開銷。

圖4 兩種場景下的CPU負(fù)載和讀寫業(yè)務(wù)性能對比

4 結(jié)語