劉毅 ,王浩,李澍,張威,樊瑜波
1 北京航空航天大學(xué) 生物與醫(yī)學(xué)工程學(xué)院,北京市,100191
2 北京北鈴專用汽車有限公司,北京市,101500
3 中國食品藥品檢定研究院 醫(yī)療器械檢定所,北京市,102629
4 中國醫(yī)療器械有限公司,北京市,100028
5 北京航空航天大學(xué) 生物醫(yī)學(xué)工程高精尖創(chuàng)新中心 生物力學(xué)與力學(xué)生物學(xué)教育部重點實驗室,北京市,100191
6 北京航空航天大學(xué) 醫(yī)學(xué)科學(xué)與工程學(xué)院,北京市,100191
人工智能(artificial intelligence,AI)自1956年在達(dá)特茅斯會議上被首次提出[1]。隨著深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),AI在多個不同領(lǐng)域展現(xiàn)出了超越人類的表現(xiàn)[2]。以獨立的醫(yī)療軟件、軟件組件、醫(yī)療信息化系統(tǒng)(云醫(yī)療)、AI賦能醫(yī)療設(shè)備等狀態(tài)存在的人工智能醫(yī)療器械(artificial intelligence medical device,AIMD),為傳統(tǒng)醫(yī)療活動插上了一對強有力的翅膀。自2016年以來,隨著相關(guān)技術(shù)的發(fā)展,AI技術(shù)的發(fā)展開始突飛猛進(jìn),世界各國各地區(qū)紛紛出臺AI國家戰(zhàn)略,并紛紛在本國本地區(qū)進(jìn)行AIMD的布局[3]。經(jīng)過不斷的技術(shù)突破和產(chǎn)品迭代,AIMD已經(jīng)在語音識別[4]、緊急救援[5]、輔助診斷[6]、輔助治療[7]、健康管理[8]等方面對人類的生活帶來了巨大的影響。
目前,人工智能的發(fā)展已經(jīng)上升到國家戰(zhàn)略,醫(yī)療健康從信息化走向智能化也將是必然趨勢[9]。政策紅利與科研創(chuàng)新加速的雙重驅(qū)動下,我國AIMD產(chǎn)品的審批上市迎來重大突破,截至2020年底,隨著“肺結(jié)節(jié)CT影像輔助檢測軟件”的注冊,我國獲批上市的AIMD企業(yè)已達(dá)9家[10]。醫(yī)療器械產(chǎn)品的質(zhì)量可靠是確保產(chǎn)品真正服務(wù)于臨床的重要保證,Xavier于2018年發(fā)布了《Xavier GMLP報告》,積極推動AIMD產(chǎn)品質(zhì)量管理體系的構(gòu)建[11];美國FDA在2019年發(fā)布了有關(guān)機器學(xué)習(xí)/人工智能醫(yī)療器械軟件的產(chǎn)品變更監(jiān)管框架討論文件,聚焦產(chǎn)品迭代后的快速評價路徑。2018年12月,由中國食品藥品檢定研究院牽頭的電氣和電子工程師協(xié)會(IEEE)人工智能工作組成立,率先推動AIMD性能與安全評價術(shù)語、數(shù)據(jù)集質(zhì)量管理與評價兩個方面國際標(biāo)準(zhǔn)的制訂[12],《人工智能醫(yī)療器械質(zhì)量要求與評價 第1部分:術(shù)語》和《人工智能醫(yī)療器械質(zhì)量要求與評價 第2部分:數(shù)據(jù)集通用要求》兩個醫(yī)療器械行業(yè)標(biāo)準(zhǔn)日前已進(jìn)入報批階段[13]。但是,我國AIMD產(chǎn)品應(yīng)用評估和質(zhì)量控制體系總體處于起步與探索階段,AIMD產(chǎn)品的質(zhì)量管理體系尚不夠完備。在YY/T 0287—2017《醫(yī)療器械質(zhì)量管理體系用于法規(guī)的要求》[14]的醫(yī)療器械通用法規(guī)的基礎(chǔ)上,2019年7月,國家藥品監(jiān)督管理局醫(yī)療器械技術(shù)審評中心發(fā)布《深度學(xué)習(xí)輔助決策軟件審評要點》[15],同時主持完成《醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范獨立軟件附錄》[16](以下簡稱軟件附錄)。
本研究主要參考上述文件,針對我國的代表性AIMD企業(yè),對其產(chǎn)品設(shè)計研發(fā)過程中的質(zhì)量管理情況進(jìn)行問卷調(diào)研,并對調(diào)研結(jié)果進(jìn)行深度分析,旨在為AIMD企業(yè)內(nèi)部質(zhì)量管理體系的構(gòu)建和完善提供參考依據(jù)。
(1)研究對象:據(jù)不完全統(tǒng)計,目前我國AIMD各個方向主要生產(chǎn)研發(fā)企業(yè)共有40家左右,此次調(diào)研受訪的企業(yè)一共為32家,覆蓋了絕大多數(shù)主要 AIMD產(chǎn)品生產(chǎn)研發(fā)企業(yè)。32家企業(yè)產(chǎn)品應(yīng)用情況,如圖1所示。
(2)問卷的設(shè)立和確定:將YY/T 0287—2017《醫(yī)療器械質(zhì)量管理體系用于法規(guī)的要求》中的5個一級指標(biāo)、22個二級指標(biāo)、60個三級指標(biāo)經(jīng)過兩輪專家咨詢和頭腦風(fēng)暴之后,篩選得到與AIMD企業(yè)質(zhì)量管理體系相關(guān)的5個一級指標(biāo)、12個二級指標(biāo),36個三級指標(biāo)(權(quán)重打分≥3分),這些指標(biāo)是專家認(rèn)為AIMD產(chǎn)品具有一定特殊性,在生產(chǎn)過程中應(yīng)當(dāng)重點關(guān)注的。將篩選得到的36個三級指標(biāo)與軟件附錄以及《獨立軟件檢查指導(dǎo)原則》的各項條款進(jìn)行一一對應(yīng),結(jié)合《Xavier GMLP報告》中的AI_GmLPChecklist,并根據(jù)AIMD的實際生產(chǎn)研發(fā)過程質(zhì)量管理體系可能存在的問題,系統(tǒng)化設(shè)計相關(guān)的問題,形成調(diào)研問卷。問卷一共55道題,題型分為單選、多選和簡答題。
圖1 受訪企業(yè)產(chǎn)品應(yīng)用情況Fig.1 The application of the interviewed enterprises’ products
(3)問卷的填寫:將問卷錄入問卷星系統(tǒng),通過微信消息的形式召集具有代表性的生產(chǎn)研發(fā)企業(yè),在手機端進(jìn)行問卷的填寫。
(4)數(shù)據(jù)分析方法:調(diào)研結(jié)束之后,從問卷星后臺導(dǎo)出原始數(shù)據(jù),利用Excel 2016對問卷結(jié)果進(jìn)行分析,主要進(jìn)行描述性統(tǒng)計分析。
此次調(diào)研,主要針對AIMD企業(yè)設(shè)計研發(fā)生產(chǎn)過程中的關(guān)鍵問題進(jìn)行調(diào)研,主要分為4個大的模塊:產(chǎn)品的策劃和設(shè)計、產(chǎn)品的質(zhì)控、結(jié)果輸出和產(chǎn)品的變更,具體的調(diào)研結(jié)果如下。問卷一共發(fā)出32份,回收32份,回收率為100%。
2.1.1 訓(xùn)練集來源
AIMD產(chǎn)品訓(xùn)練集的來源情況為:32家(100%)受訪企業(yè)均從醫(yī)院獲得訓(xùn)練集,另有部分受訪企業(yè)會從體檢機構(gòu)(7家,21.88%)、第三方影像中心(7家,21.88%)或者社區(qū)診所(4家,12.50%)獲得相關(guān)的訓(xùn)練集數(shù)據(jù)。針對是否根據(jù)醫(yī)院的實際情況進(jìn)行定制化訓(xùn)練的問題,15家(46.88%)表示肯定,其中9家(60.00%)表示進(jìn)行參數(shù)調(diào)整,3家(20.00%)表示進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整,3家(20.00%)表示進(jìn)行其他的調(diào)整;17家(53.12%)受訪單位表示并未根據(jù)醫(yī)院的實際情況進(jìn)行定制化訓(xùn)練。
2.1.2 算法來源及文件記錄情況
在AIMD產(chǎn)品設(shè)計過程中,23家(71.88%)受訪企業(yè)表示使用開源的算法或者工具包,這23家中的22家表示在使用開源算法或者工具包前,會對其進(jìn)行驗證。關(guān)于算法的名稱、算法訓(xùn)練,算法性能評估以及網(wǎng)絡(luò)安全防護(hù)(內(nèi)在要求)等的記錄完備程度,見表1。由表1可以看出,受訪企業(yè)在網(wǎng)絡(luò)安全防護(hù)方面需要引起足夠的重視,文件記錄完備程度尚需加強。
表1 產(chǎn)品設(shè)計環(huán)節(jié),各要素的記錄完備程度 [n(%)]Tab.1 The complete degree of records of various elements in the process of product design
可追溯性分為數(shù)據(jù)的可追溯性和算法模型的可追溯性:數(shù)據(jù)的可追溯性,制造商應(yīng)該具有的記錄,見圖2;對于算法模型的可追溯性,制造商具有的記錄,見表2。
圖2 對于數(shù)據(jù)可追溯性,制造商應(yīng)該具有的記錄Fig.2 The records that manufacturers should have for data traceability
表2 對于算法模型的可追溯性,制造商應(yīng)該具有的記錄[n(%)]Tab.2 The records that manufacturer should have for the traceability of the algorithmic model
2.1.3 產(chǎn)品性能驗證
14家(43.75%)受訪企業(yè)表示AIMD產(chǎn)品進(jìn)行臨床部署后,使用新的數(shù)據(jù)再訓(xùn)練,其中12家在此基礎(chǔ)上,實時復(fù)制/備份該系統(tǒng),并對再訓(xùn)練前后的產(chǎn)品性能進(jìn)行對照分析;18家(56.25%)表示AIMD產(chǎn)品進(jìn)行臨床部署后,并不使用新的數(shù)據(jù)再訓(xùn)練。通過對AIMD產(chǎn)品的性能驗證方案的結(jié)果進(jìn)行分析可知:大多數(shù)企業(yè)選擇多中心臨床研究進(jìn)行產(chǎn)品的性能驗證(30家,93.75%),同時有些企業(yè)會輔佐一些其他的方式,比如在自有封閉測試集上進(jìn)行測試、在第三方封閉測試集上進(jìn)行測試,等等。
32家受訪企業(yè)中,13家(40.63%)表示AIMD產(chǎn)品的臨床結(jié)論是獨立輸出的,19家(59.37%)表示AIMD產(chǎn)品的臨床結(jié)論需要人為干預(yù);32家(100.00%)表示AIMD產(chǎn)品的輸出結(jié)果需要醫(yī)生審核。25家(78.13%)表示最終用戶有權(quán)修改AIMD產(chǎn)品的輸出結(jié)果,余下的7家(21.87%)表示最終用戶不能修改AIMD產(chǎn)品的輸出結(jié)果。
15家(46.88%)受訪企業(yè)表示能根據(jù)輸入的數(shù)據(jù),列出下一步可選的動作(例如急救場景下,給出轉(zhuǎn)診、報警、用藥等選項),這15家中,有10家表示能自動判斷下一步應(yīng)如何動作(例如向急診科發(fā)出警報),有9家表示其AIMD產(chǎn)品能自動執(zhí)行下一步動作(例如向醫(yī)生發(fā)出報警);尚有17家(53.12%)表示不能根據(jù)輸入的數(shù)據(jù),列出下一步可選的動作。
15家(46.88%)表示AIMD產(chǎn)品的輸出結(jié)果可以作為其他軟硬件的輸入(例如應(yīng)用于放療計劃的AIMD產(chǎn)品,其輸出結(jié)果是否可以作為放療靶區(qū)規(guī)劃的數(shù)據(jù)輸入),17家(53.12%)表示AIMD產(chǎn)品的輸出結(jié)果不能作為其他軟件的輸入。9家(28.13%)表示AIMD產(chǎn)品的輸出結(jié)果可以操控其他軟硬件進(jìn)行治療,23家(71.87%)表示AIMD產(chǎn)品的輸出結(jié)果不能操控其他軟硬件進(jìn)行治療。
對于算法安全和數(shù)據(jù)安全,大部分受訪企業(yè)表示會對19項網(wǎng)絡(luò)安全能力進(jìn)行驗證(25家,78.12%),同時建立網(wǎng)絡(luò)安全設(shè)施(24家,75.00%);有1家(3.12%)表示會開啟密碼驗證從而保證算法和數(shù)據(jù)的安全。
產(chǎn)品在長期使用過程中,17家(53.12%)表示設(shè)有質(zhì)控環(huán)節(jié),用以檢測產(chǎn)品自身性能的變化;15家(46.88%)表示沒有質(zhì)控環(huán)節(jié);17家(53.12%)表示醫(yī)生在臨床使用AIMD產(chǎn)品的過程中,周期性地開展性能驗證(類似利用體模進(jìn)行周期性質(zhì)控),15家(46.88%)表示醫(yī)生在臨床使用AIMD產(chǎn)品的過程中,未能周期性地開展性能驗證。
對于如何開展AIMD產(chǎn)品的風(fēng)險分析和控制:25家(78.13%)選擇根據(jù)YY/T 0316,建立風(fēng)險管理文檔;23家(71.88%)選擇在實際的臨床環(huán)境下,搜集疑難病例,開展壓力測試;16家(50.00%)選擇針對產(chǎn)品可能出現(xiàn)的風(fēng)險,通過模擬仿真、GAN等方式,生成對抗性樣本,開展對抗測試;有1家(3.13%)企業(yè)選擇其他,但是未注明具體內(nèi)容。
AIMD產(chǎn)品性能退化的發(fā)現(xiàn)方式,大部分受訪企業(yè)通過定期對產(chǎn)品的維護(hù)與校準(zhǔn)(20家,62.50%)或者通過實際使用AIMD產(chǎn)品的醫(yī)生反饋(20家,62.50%)來發(fā)現(xiàn),也有部分通過醫(yī)院的日常質(zhì)控(16家,50.00%)和實驗室間的對比(6家,18.75%)來發(fā)現(xiàn)。對于持續(xù)學(xué)習(xí)的AIMD產(chǎn)品,性能退化嚴(yán)重處置方式,絕大多數(shù)企業(yè)選擇停用、算法更改或者版本迭代。同時,受訪企業(yè)表示算法性能顯著下降(28家,87.50%)或者軟件效率顯著下降(21家,65.63%)時,將對產(chǎn)品進(jìn)行停用。
針對AIMD產(chǎn)品在何種情形下啟動變更程序以及變更程序的流程,各個企業(yè)說法不一:有的表示應(yīng)該按照“設(shè)計變更申請?zhí)峤弧O(shè)計變更設(shè)計與定義——設(shè)計變更評審——設(shè)計變更規(guī)劃與執(zhí)行——設(shè)計變更驗證”,有的表示應(yīng)該按照“產(chǎn)品需求確定——產(chǎn)品開發(fā)——性能測試——第三方性能測試——真實世界臨床數(shù)據(jù)庫性能測試”,還有的表示應(yīng)該按照“市場調(diào)研——可行性分析——立項討論——風(fēng)險分析”進(jìn)行變更。這也從側(cè)面反映出來在AIMD產(chǎn)品變更程序方面,目前尚缺乏統(tǒng)一的參考依據(jù)。
本研究針對AIMD企業(yè)的產(chǎn)品質(zhì)量管理體系現(xiàn)狀進(jìn)行調(diào)研,從調(diào)研結(jié)果可以看出,目前各AIMD企業(yè)對于醫(yī)療器械質(zhì)量管理體系基本要求已有初步的認(rèn)識,信息領(lǐng)域從業(yè)人員逐步意識到除了一般的軟件工程質(zhì)量管理要求,還需考慮醫(yī)療器械的特殊性。但是,從業(yè)人員針對國家出臺的醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范獨立軟件附錄的認(rèn)識還不夠深入。在實際執(zhí)行中,還存在一些理解不到位、處理不完善的情況,尤其對產(chǎn)品的設(shè)計開發(fā)、設(shè)計變更、風(fēng)險管理、預(yù)防和糾正措施等方面,并沒有深入貫徹實施相應(yīng)的要求。同時,缺乏針對AIMD產(chǎn)品質(zhì)量的數(shù)據(jù)集的相關(guān)要求,也沒有深入地研究如何保證數(shù)據(jù)集的可靠性和有效性,而這些恰恰是AIMD企業(yè)最值得關(guān)注的幾個方面。
第一,數(shù)據(jù)集在生產(chǎn)研發(fā)中的角色日益豐富,在算法的訓(xùn)練、調(diào)優(yōu)、驗證、臨床試驗、再訓(xùn)練、真實世界監(jiān)控等環(huán)節(jié)都有涉及。數(shù)據(jù)集的質(zhì)量管理是AIMD企業(yè)質(zhì)量管理的痛點之一[17]。目前,雖然我國醫(yī)療數(shù)據(jù)量特別龐大,但是80%的數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),需要處理和質(zhì)控,否則難以直接用于AIMD的生產(chǎn)研發(fā)[18]。企業(yè)在產(chǎn)品研發(fā)階段,一般需要投入資源開展數(shù)據(jù)采集、標(biāo)注、質(zhì)控等活動,以建立自有的數(shù)據(jù)集,而不同模態(tài)、場景的醫(yī)學(xué)數(shù)據(jù)集差異較大,如何建立適宜的操作規(guī)程與記錄,是質(zhì)量管理的重要問題。社會各界也在積極建設(shè)公開數(shù)據(jù)集、第三方數(shù)據(jù)集,但數(shù)據(jù)提供能力有待提升,且如何建立合適的對供應(yīng)商考核機制,同樣有待研究。AIMD企業(yè)有必要從技術(shù)層面、管理層面提高對標(biāo)準(zhǔn)規(guī)范和法規(guī)的認(rèn)識,加強數(shù)據(jù)集質(zhì)量控制的技術(shù)能力、基礎(chǔ)設(shè)施和管理體系[19]。
第二,針對AIMD產(chǎn)品或者生產(chǎn)過程的變更控制是AIMD質(zhì)量體系的另一個重點和難點。未經(jīng)充分驗證和確認(rèn)的變更可能導(dǎo)致產(chǎn)品失效或者返工。因此,AIMD企業(yè)需要建立詳細(xì)的質(zhì)量變更控制文件,并對這些變更進(jìn)行充分的驗證,確保變更糾正了問題。同時,AIMD企業(yè)還要確保設(shè)計變更和相應(yīng)的版本控制得到了充分驗證。如果相應(yīng)的設(shè)計變更在已經(jīng)建立的版本體系中屬于次要升級,則不需要進(jìn)行主版本變更,如果相應(yīng)的設(shè)計變更屬于重大變更,則應(yīng)該升級版本,并進(jìn)行相應(yīng)的申報并持續(xù)滿足法規(guī)的要求。
第三,網(wǎng)絡(luò)安全記錄方面未得到充分重視,僅有7家(21.88%)受訪企業(yè)表示記錄非常完備,甚至有受訪企業(yè)表示記錄非常不完備甚至沒有相關(guān)記錄的情況。AIMD產(chǎn)品在研發(fā)階段的網(wǎng)絡(luò)安全管理,一方面應(yīng)遵循原國家食品藥品管理總局頒發(fā)《醫(yī)療器械網(wǎng)絡(luò)安全的注冊技術(shù)審查指導(dǎo)原則》[20],另一方面應(yīng)考慮AI產(chǎn)品的技術(shù)特色,包括:①AIMD產(chǎn)品算法性能的可靠性、模型健壯性等要素;② 產(chǎn)品全生命周期的網(wǎng)絡(luò)安全風(fēng)險防御策略[21]。但是,目前針對AIMD產(chǎn)品的網(wǎng)絡(luò)安全標(biāo)準(zhǔn)尚屬空白,并且對于網(wǎng)絡(luò)安全的質(zhì)量評價方法和措施也尚無定論,這也有待于產(chǎn)業(yè)進(jìn)一步聯(lián)合,共筑AIMD產(chǎn)品的網(wǎng)絡(luò)安全質(zhì)量評價方法和相關(guān)的行業(yè)標(biāo)準(zhǔn),共建AIMD產(chǎn)品運行的安全綠色環(huán)境。
第四,對AIMD產(chǎn)品上市后的質(zhì)量控制環(huán)節(jié)未加以關(guān)注。15家(46.88%)受訪企業(yè)表示未針對未來臨床使用AIMD產(chǎn)品的過程中設(shè)計質(zhì)控環(huán)節(jié),未考慮進(jìn)行周期性性能驗證。這也可能因為大部分受訪企業(yè)的AIMD產(chǎn)品尚處于上市前的研發(fā)和臨床試驗階段,還未能很好地考慮到產(chǎn)品上市后的質(zhì)控環(huán)節(jié)。由于AIMD的“機器學(xué)習(xí)”特性,AI算法模型具有快速演化、黑盒、對數(shù)據(jù)質(zhì)量高度依賴等特性,AIMD的安全性和有效性可能在臨床使用條件下出現(xiàn)不同程度、不同方式的波動[22]。不管是正向還是負(fù)向的波動,對AIMD產(chǎn)品的趨勢監(jiān)測和質(zhì)量控制是非常必要的,尤其是對于具有持續(xù)自學(xué)習(xí)功能的產(chǎn)品,這一點顯得尤其重要。AIMD真實性能如何監(jiān)測、由誰監(jiān)測,是AIMD質(zhì)量研究應(yīng)關(guān)注的重要問題,具體應(yīng)考慮企業(yè)與醫(yī)院之間的溝通反饋如何實施、企業(yè)的預(yù)防與糾正措施如何設(shè)計。
綜上,隨著AI技術(shù)的不斷突破和升級,作為我國醫(yī)療器械產(chǎn)業(yè)異軍突起的新方向,AIMD產(chǎn)業(yè)的發(fā)展機遇和挑戰(zhàn)并重。一方面,國家在政策方面給予了大力的扶持,隨著公眾關(guān)注度的提高,學(xué)術(shù)研究水平也在不斷提升,大量的社會資本進(jìn)入將推動產(chǎn)業(yè)快速升級;另一方面,持續(xù)的產(chǎn)品質(zhì)量管控,方能確保產(chǎn)品在市場上的生命力,期待行業(yè)內(nèi)協(xié)同起來,推動產(chǎn)品質(zhì)量管理體系的深入研究,共同建立標(biāo)準(zhǔn)規(guī)范,與法規(guī)形成良好的銜接,有效確保AIMD產(chǎn)品安全有效,更好地服務(wù)于臨床。