吳劍丙 程向煒 王凌志 李彬
1. 浙江警察學院浙江省毒品防控技術(shù)研究重點實驗室 2. 浙江省臺州市公安局 3. 公安部第一研究所
根據(jù)當前禁毒工作的需要,統(tǒng)籌建設(shè)禁毒實驗大數(shù)據(jù)平臺將有效加強全國相關(guān)實驗數(shù)據(jù)的統(tǒng)合研判,達到精準高效監(jiān)測預(yù)警毒情的效果,并可實現(xiàn)相關(guān)毒品檢測數(shù)據(jù)的匯集共享。目前在浙江省公安廳層面已部分接入檢測相關(guān)數(shù)據(jù),預(yù)計將逐步完成由數(shù)據(jù)分散化存儲到集中化管理的第一步。
禁毒工作尤其需要強調(diào)數(shù)據(jù)管理的重要性,而免疫層析技術(shù)的毒品檢測數(shù)據(jù)包括了生物數(shù)據(jù)和信息數(shù)據(jù)兩大類型,其數(shù)字化轉(zhuǎn)型的難度相對較大。本文正是基于前期曲線識別及錯誤分類相關(guān)研究專利及實際工作中近50萬條毛發(fā)毒品檢測數(shù)據(jù)篩查經(jīng)驗,研究并提出了一種毒品檢測數(shù)據(jù)的規(guī)范格式,同時討論了毒品檢測數(shù)據(jù)的清洗、管理標準,為免疫層析毛發(fā)毒品檢測行業(yè)提供了一套可全流程溯源的數(shù)據(jù)智能分析方案。
由于早期沒有健全的數(shù)據(jù)治理體系,而各地公安系統(tǒng)之間的數(shù)據(jù)服務(wù)商不同,且服務(wù)商是獨立的,他們之間存在競爭關(guān)系,導致在數(shù)據(jù)使用過程中出現(xiàn)了一些問題,包括:(1)未提供統(tǒng)一的數(shù)據(jù)標準,各數(shù)據(jù)服務(wù)商在系統(tǒng)建設(shè)時數(shù)據(jù)字典自成一套;(2)存在數(shù)據(jù)質(zhì)量問題,例如:服務(wù)商提供的檢測數(shù)據(jù),由于一線操作、產(chǎn)品質(zhì)量等原因,導致數(shù)據(jù)是重復(fù)計算、無效或者假陽性等問題。早期可通過技術(shù)人員的簡單篩查,部分避免了重復(fù)的問題。但是,隨著數(shù)據(jù)的持續(xù)生產(chǎn),通過增派人力等簡單的方法已無法覆蓋全部的數(shù)據(jù)篩查;(3)未建立有效數(shù)據(jù)問題反饋機制,低質(zhì)量的數(shù)據(jù)跨部門共享與交互,質(zhì)量問題反復(fù)出現(xiàn)未得到反饋與及時修正,導致數(shù)據(jù)質(zhì)量問題越來越嚴重;(4)雖建立了資源目錄,但缺乏數(shù)據(jù)倉庫建設(shè)過程,造成數(shù)據(jù)表之間關(guān)聯(lián)性差,不利于數(shù)據(jù)的整體管理;(5)無法監(jiān)控數(shù)據(jù)使用率,不能對數(shù)據(jù)進行精細化管理,數(shù)據(jù)價值未得到釋放。
基于以上問題,需在現(xiàn)有禁毒實驗數(shù)據(jù)建設(shè)的基礎(chǔ)上進一步提升數(shù)據(jù)質(zhì)量,建立數(shù)據(jù)標準,研究制定合適的數(shù)據(jù)問題解決方案,通過涵蓋全數(shù)據(jù)生命周期數(shù)據(jù)治理,建設(shè)涵蓋全省各級公安部門多條數(shù)據(jù)的大數(shù)據(jù)治理平臺,并建立覆蓋數(shù)據(jù)全生命周期的數(shù)據(jù)治理體系,為征兵及公職人員體檢、社戒社康及其它高危行業(yè)人群篩查提供各類數(shù)據(jù)服務(wù)。該體系在未來可以縱向衍生至其他毒品檢測項目,包括毒品尿檢板、唾液板等技術(shù)的檢測,也可以橫向衍生至其他警種,包括食藥偵、經(jīng)偵、爆探、海關(guān)等場景,為數(shù)字化經(jīng)濟、數(shù)智化治理帶來新的技術(shù)與方案,有效提升公安隊伍的戰(zhàn)斗力和公安業(yè)務(wù)工作的實戰(zhàn)力。
在檢測數(shù)據(jù)的科學管理方面,業(yè)內(nèi)尚未形成一致的治理意識和方法。膠體金法、乳膠法等可視化產(chǎn)品結(jié)果并沒有統(tǒng)一的數(shù)據(jù)歸口;熒光法的檢測結(jié)果數(shù)據(jù)通過熒光儀器檢測后,數(shù)據(jù)通過第三方數(shù)據(jù)服務(wù)商上傳到公安內(nèi)網(wǎng),不同數(shù)據(jù)服務(wù)商平臺之間并不互通,且缺乏系統(tǒng)地規(guī)范和管理。
市面上大多數(shù)檢測終端設(shè)備通常不具備分析數(shù)據(jù)有效性以及無效數(shù)據(jù)的成因的能力,造成針對免疫層析曲線的分析效率及準確度較低。檢測終端設(shè)備對免疫層析曲線的分析結(jié)果只有在曲線數(shù)據(jù)有效的前提下才會準確。無效的曲線數(shù)據(jù)會使儀器判讀結(jié)果失真,讓一線民警難以得到及時、正確的反饋,影響排查工作的流暢運行。
此外,在對檢測數(shù)據(jù)結(jié)果進行分析之前,數(shù)據(jù)平臺若不對曲線的有效性進行識別,也會導致產(chǎn)生的無效數(shù)據(jù)影響分析結(jié)果。若不對檢測數(shù)據(jù)進行清洗,有效和無效的數(shù)據(jù)一同參與儀器內(nèi)置計算模塊的判讀并上傳至云端平臺,會導致判讀結(jié)果失真、數(shù)據(jù)平臺管理困難等問題,因此,急需對檢測數(shù)據(jù)進行正確清洗。
為了優(yōu)化檢測數(shù)據(jù)的管理,需要對上傳至數(shù)據(jù)庫的數(shù)據(jù)進行一定標準化的規(guī)定,以方便接口標準的制定。規(guī)定一次檢測數(shù)據(jù)必須包含的信息有:檢測數(shù)據(jù)=唯一碼+身份信息+原始數(shù)據(jù)+儀器判讀結(jié)果+算法判讀結(jié)果+算法標識+備注。具體包括以下內(nèi)容:
1. 唯一碼
是本條檢測數(shù)據(jù)的一般標識信息。一經(jīng)生成,不可再更改。唯一碼包括了時間(Time)、試劑碼(Reagent ID code,由試劑廠商提供)和流水號。
2. 身份信息碼
包含著該條檢測數(shù)據(jù)的詳細標識信息。一經(jīng)生成,不可再更改。身份信息碼中包含了地區(qū)唯一碼(Location,定位到該條測試數(shù)據(jù)生成的地區(qū))、測試操作人員身份證號(Operator)、被測人員身份證號(Subject)、儀器序列號(Machine Serial Number,由儀器廠商提供)、樣品編號(Sample,定位到該條測試數(shù)據(jù)生成的具體工作場景)和項目號(Item,由測試操作人員選擇生成,代表檢測目標物)等多個信息。
3. 原始數(shù)據(jù)
毛發(fā)檢測等的熒光法產(chǎn)品產(chǎn)生的原始數(shù)據(jù),一般數(shù)據(jù)格式為1*X矩陣(X一般為350)。原始數(shù)據(jù)一經(jīng)生成,不可再更改;唾液檢測、尿液檢測等的乳膠法、膠體金法產(chǎn)品產(chǎn)生的原始數(shù)據(jù),一般為拍攝圖片。
4. 儀器判讀結(jié)果
如毛發(fā)檢測等的熒光法產(chǎn)品[1],由儀器判讀結(jié)果后自動生成并上傳,具體流程見圖1。主要包括:C值,T值,陰陽性,待測物品濃度等。一經(jīng)生成,不可再更改;如唾液檢測、尿液檢測等的乳膠法、膠體金法產(chǎn)品,由一線民警判讀后拍照上傳,選擇陰陽性結(jié)果。僅可修改一次,且修改歷史均被記錄。
5. 算法判讀結(jié)果
在經(jīng)由終端儀器判讀的原始數(shù)據(jù),經(jīng)由官方認證的算法進行二次判讀,格式為檢測數(shù)據(jù)有效性+無效檢測數(shù)據(jù)類別,生成后可以更改。
算法包括單不限于:傳統(tǒng)模型、混合算法、基于異構(gòu)特征矩陣判別的AI模型[3]、歐式距離匹配法、卷積神經(jīng)網(wǎng)絡(luò)算法、KNN(k-Nearest Neighbors,最鄰近)算法、BP(Back Propagation,反向傳播)神經(jīng)網(wǎng)絡(luò)算法、SVM(Support Vector Machines,支持向量機)算法等;模型可以通過機器學習的方法對其進行優(yōu)化,也可以建立其他機器學習模型,以進一步強化識別效率。
機器學習模型的識別精度達到一定程度后,可以極大程度地節(jié)約檢測數(shù)據(jù)的管理成本。
6. 算法標識
上述所涉及的相關(guān)算法,需經(jīng)過相關(guān)認證后才可作為判讀依據(jù)使用。
7. 備注
數(shù)據(jù)產(chǎn)生全過程中的測試、上傳、判讀、復(fù)核、刪改記錄、判讀依據(jù)以及交流記錄等,用于給數(shù)據(jù)處理算法的優(yōu)化提供反饋,生成后可以更改。
檢測數(shù)據(jù)從一線民警的毒品檢測工作中產(chǎn)生,對應(yīng)公安機關(guān)或當?shù)卣块T對數(shù)據(jù)進行監(jiān)管。數(shù)據(jù)清洗步驟主要由第三方單位負責,清洗過程中數(shù)據(jù)全程脫敏(清洗:提取數(shù)據(jù)中的有價值信息,詳見下文;脫敏:不對第三方企業(yè)開放敏感信息)。數(shù)據(jù)權(quán)限開放模式如表1、圖2所示。
監(jiān)管部門對所有企業(yè)和第三方的數(shù)據(jù)平臺進行監(jiān)管,擁有抽調(diào)自己或下方平臺數(shù)據(jù)的權(quán)利,保證對毒品檢測工作的全程可溯源。運行和保存數(shù)據(jù)的第三方平臺提供全鏈路服務(wù),對接儀器和試劑廠家進行適配,承擔數(shù)據(jù)的初步收集、售后和對數(shù)據(jù)清洗的任務(wù)?;鶎佑脩簦话銥橐痪€民警,拿到儀器和試劑后,按照規(guī)定的操作步驟正常使用,將數(shù)據(jù)上傳并通過平臺得到及時的反饋,最大程度地提高基層工作效率。上述三方可通過唯一碼定位到任意一條檢測數(shù)據(jù)記錄,并以唯一碼作為溝通橋梁進行交流配合。
檢測數(shù)據(jù)從檢測場景生成并上傳后,監(jiān)管、第三方、基層用戶均不再對其進行刪除,且只有標識和備注信息可修改;其余信息若有空缺,可以填補;若有大量關(guān)鍵信息空缺難以填補,可根據(jù)相應(yīng)的規(guī)定刪除整條檢測數(shù)據(jù);除上述情況外,不可再對檢測數(shù)據(jù)進行刪改。
?
免疫層析曲線(如圖3)是通過免疫試劑在相應(yīng)試劑條的加樣孔處加樣,通過毛細效應(yīng)逐步經(jīng)過“結(jié)合墊-NC膜-吸水墊”跑板形成的。試劑條NC膜上劃有的T線(Test線,測試線)和C線(Control線,質(zhì)控線)分別用作試劑的陰陽性檢測及質(zhì)量控制。跑板結(jié)束后,將試劑條插入儀器,對試劑進行光強度的數(shù)值量化,同時讀取數(shù)據(jù)并上傳至數(shù)據(jù)平臺。
本方案定義的有效檢測數(shù)據(jù)具有以下特征:
1. 曲線圖中出現(xiàn)的峰的個數(shù)符合實際測試項目要求且峰的形狀明顯易辨識
有效的檢測數(shù)據(jù),其中C線、T線峰的位置必須準確,且C線明顯,易于辨識。如圖4所示,曲線圖中出現(xiàn)的峰的個數(shù)符合實際測試項目要求。單測項目試劑條有2個峰(C線、T線),雙測項目有3個峰(T1線、T2線、C線),三測項目有4個峰(T1線、T2線、T3線、C線)。
2. 曲線形狀無異常
曲線圖片中出現(xiàn)以下情形,導致C線和T線難以辨別的,視為曲線形狀異常(如圖5所示):峰的個數(shù)太多或為零;峰的對稱性較差;波峰波谷不明顯(峰的辨識度較差);曲線呈鋸齒狀等其他情形。
3. 測試基礎(chǔ)數(shù)據(jù)無異常。
測試基礎(chǔ)數(shù)據(jù)(如圖6所示)由儀器產(chǎn)生并上傳,可能會由于操作失誤等原因出現(xiàn)錯誤。其中,項目名稱、批次名稱均由基層民警手動錄入,有時會出現(xiàn)錄錯的情況。
無效數(shù)據(jù)并非無用,因為無效數(shù)據(jù)中包含著對毒品檢測工作流程的優(yōu)化建議信息。通過對無效信息成因的解讀,根據(jù)無效數(shù)據(jù)的異常信息特征對其進行無效原因歸類,可以找到毒品檢測工作過程中出現(xiàn)的錯誤或失誤。根據(jù)上述有效數(shù)據(jù)的定義標準,檢測數(shù)據(jù)的異常信息可大致分為三類:曲線峰數(shù)異常、曲線形狀異常和測試基礎(chǔ)數(shù)據(jù)異常。其中,異常信息用于表征免疫層析曲線與預(yù)設(shè)有效曲線之間的差異類型和差異類型對應(yīng)的差異大小,根據(jù)異常信息中各個差異類型的優(yōu)先級和/或差異大小,確定免疫層析曲線的無效原因類別。無效原因類別的確定過程中考慮了差異類型的優(yōu)先級和/或差異大小等因素的影響,有效提升檢測數(shù)據(jù)分析的效率和精確性。無效原因類別一般有:試劑條受潮、讀數(shù)時間太短、讀數(shù)過程中拔插試劑卡板、試劑卡板插反、未滴樣、滴樣量太少等。
將一次檢測數(shù)據(jù)判定為有效數(shù)據(jù)或無效數(shù)據(jù),并給無效數(shù)據(jù)加上合適的無效原因歸類,即完成一次數(shù)據(jù)清洗。
終上所述,本研究所提供的技術(shù)方案中,第三方單位獲得其數(shù)據(jù)的使用權(quán)并提供技術(shù)支持,監(jiān)管部門如政府部門、公安機關(guān)等對接對禁毒用品、毒品檢測、涉毒管控等工作的全程追溯渠道。數(shù)字化治理使決策的合理性、科學性越來越高,降低決策者主觀情緒帶來的隨機偶然性。在禁毒工作中,強大的數(shù)據(jù)管理能力可以極大程度地提高公安執(zhí)法能力和執(zhí)法效率,實現(xiàn)對吸毒涉毒人員在時間、空間上的嚴格精準管控。
數(shù)據(jù)中發(fā)掘出的有價值信息不斷促使上游產(chǎn)業(yè)以及后端人員優(yōu)化其提供的產(chǎn)品與服務(wù),從而促進相關(guān)產(chǎn)業(yè)深化改革、轉(zhuǎn)型升級。同時,技術(shù)驅(qū)動的治理方案優(yōu)化,可以為禁毒工作提供新的思路,注入新的活力。
目前,本研究所提供的技術(shù)方案存在一定的局限性,特別是在推行應(yīng)用過程中面臨著業(yè)內(nèi)外人士數(shù)據(jù)意識普遍薄弱的困難。因此,一套完整、科學的數(shù)據(jù)清洗標準的確定,需要具有深度從業(yè)經(jīng)驗的人員進行大量探討,短期之內(nèi)難以達成。另外,本技術(shù)方案中的大部分環(huán)節(jié)交由AI處理,由于禁毒工作的特殊性[4],某些情況下可能出現(xiàn)AI技術(shù)帶來的新的倫理困境。
在大數(shù)據(jù)戰(zhàn)略的環(huán)境下,各行各業(yè)都在探討、提出并完善相應(yīng)的數(shù)據(jù)治理方案[5-7]。不同行業(yè)、產(chǎn)業(yè)、單位的數(shù)據(jù)治理方案之間也需要優(yōu)勢互補、共同促進數(shù)字化經(jīng)濟的建設(shè)。因此,本研究所提供的技術(shù)方案以免疫層析技術(shù)的毒品檢測為例,為毒品檢測數(shù)據(jù)質(zhì)量治理工作提供了解決方案,未來應(yīng)用于其他毒品檢測項目,包括毒品尿檢板、唾液板等技術(shù)的檢測,也可應(yīng)用至其他警種,包括食藥偵、經(jīng)偵、爆探、海關(guān)等場景,為數(shù)字化經(jīng)濟、數(shù)智化治理帶來新的技術(shù)與方案,有效提升公安隊伍的戰(zhàn)斗力和公安業(yè)務(wù)工作的實戰(zhàn)力。