當(dāng)前,國內(nèi)的工業(yè)生產(chǎn)活動正在積累著越來越多的數(shù)據(jù),尤其是現(xiàn)代化的工業(yè)生產(chǎn)線上的傳感器與監(jiān)測設(shè)備,它們能夠?qū)ιa(chǎn)過程和運行參數(shù)進行高效的監(jiān)控和記錄。時間序列數(shù)據(jù)作為最基本且普遍的數(shù)據(jù)形式,對推進工業(yè)大數(shù)據(jù)的分析研究發(fā)揮著至關(guān)重要的作用。為了實現(xiàn)工業(yè)大數(shù)據(jù)分析的有效性,建模過程必須依托于高質(zhì)量的數(shù)據(jù)。但是,工業(yè)時間序列數(shù)據(jù)的復(fù)雜性,例如它們的廣泛來源、龐大的數(shù)據(jù)量、來源的多樣性、持續(xù)的采樣特征、低價值密度以及高度動態(tài)性,使得數(shù)據(jù)質(zhì)量問題變得普遍。
劣質(zhì)的數(shù)據(jù)可能導(dǎo)致分析不精確和決策錯誤,典型問題包括數(shù)據(jù)丟失、格式不一致、重復(fù)數(shù)據(jù)、異常數(shù)據(jù)以及業(yè)務(wù)規(guī)則違規(guī)等,數(shù)據(jù)質(zhì)量管理變得越來越重要。對數(shù)據(jù)進行異常檢測、故障監(jiān)測和設(shè)備狀態(tài)分析對保障生產(chǎn)的高效和智能化制造的安全至關(guān)重要,并構(gòu)成了數(shù)據(jù)質(zhì)量管理的一個重要研究方向。如果無法及時識別和處理工業(yè)生產(chǎn)中的異常、故障或危機情況,可能對生產(chǎn)安全帶來威脅,為工廠的智能制造系統(tǒng)帶來無法預(yù)計的負(fù)面影響,并可能造成重大的經(jīng)濟損失。因此,創(chuàng)建一個能對工業(yè)時間序列數(shù)據(jù)的質(zhì)量進行智能分析和評估的系統(tǒng)顯得尤為重要。
本文針對工業(yè)時序數(shù)據(jù)質(zhì)量問題展開分析和評估,提出了一種新的數(shù)據(jù)質(zhì)量量化評估模型。與現(xiàn)有的數(shù)據(jù)質(zhì)量評估模型相比,本文提出的模型具有更廣的應(yīng)用范圍,使用更加靈活,本文圍繞該模型設(shè)計了時序數(shù)據(jù)分析系統(tǒng),以系統(tǒng)化地評估和管理工業(yè)時間序列數(shù)據(jù)的質(zhì)量,提升工業(yè)生產(chǎn)的效率和質(zhì)量。
考慮到數(shù)據(jù)質(zhì)量的核心重要性及其在各個領(lǐng)域決策過程中的關(guān)鍵作用,經(jīng)過對數(shù)據(jù)質(zhì)量屬性的深入分析,本文提出了一種時序滑動窗口偏差計算模型(Time-series Sliding Window & Deviation, TSWD)。該模型旨在對數(shù)據(jù)質(zhì)量的四個核心維度——準(zhǔn)確性、一致性、完整性、和時效性進行量化評估。
(一) 數(shù)據(jù)質(zhì)量核心維度
1.準(zhǔn)確性(Accuracy)
準(zhǔn)確性是指數(shù)據(jù)正確反映現(xiàn)實世界或數(shù)據(jù)源的程度。一個數(shù)據(jù)元素的準(zhǔn)確性高意味著它與被描述的實體或事件真實情況之間的誤差很小。例如,一個客戶的地址記錄如果與其實際居住地址完全一致,則認(rèn)為這個數(shù)據(jù)具有高準(zhǔn)確性。準(zhǔn)確性的高低直接影響數(shù)據(jù)分析結(jié)果的可靠性和決策的有效性。
2.一致性(Consistency)
一致性指的是數(shù)據(jù)在不同數(shù)據(jù)集或系統(tǒng)中保持一致,無矛盾的特性。例如,同一客戶的信息在公司的不同部門或不同的IT系統(tǒng)中應(yīng)該是相同的,不應(yīng)該因為記錄的方式不同而有所差異。數(shù)據(jù)的一致性保證了跨系統(tǒng)和部門的數(shù)據(jù)整合和數(shù)據(jù)遷移的可靠性。
3.完整性(Completeness)
完整性涉及數(shù)據(jù)的全面性和完備性。一個數(shù)據(jù)集的完整性高意味著所需的所有數(shù)據(jù)字段都已被收集并且填充。數(shù)據(jù)記錄缺少必要字段的情況會導(dǎo)致數(shù)據(jù)完整性低,這可能會影響到數(shù)據(jù)分析的深度和準(zhǔn)確性,例如,缺少客戶的聯(lián)系信息可能導(dǎo)致市場營銷活動的效果不佳。
4. 時效性(Timeliness)
時效性是指數(shù)據(jù)在需要時可用的程度以及數(shù)據(jù)反映最新信息的能力。及時更新的數(shù)據(jù)可以更準(zhǔn)確地反映當(dāng)前的業(yè)務(wù)狀態(tài)或市場條件,對于做出快速響應(yīng)和決策尤為重要。例如,在庫存管理中,及時的庫存數(shù)據(jù)能幫助企業(yè)避免過度庫存或缺貨的情況。
(二)TSWD模型
TSWD模型由兩個核心組成部分構(gòu)成:一是時序滑動窗口部分,該機制通過分析過去時間點的數(shù)據(jù)評估結(jié)果來估計其對當(dāng)前評估結(jié)果的影響;二是偏差計算部分,專注于評估當(dāng)前時間點的數(shù)據(jù)如何影響當(dāng)前的數(shù)據(jù)質(zhì)量評估結(jié)果。此模型能夠更精準(zhǔn)地識別和量化數(shù)據(jù)質(zhì)量問題,為提高數(shù)據(jù)處理和分析的準(zhǔn)確性提供了強有力的工具。
1.時序滑動窗口
時序滑動窗口確保了時序數(shù)據(jù)在整個評估過程中的適當(dāng)影響,為模型提供了一個堅實的基礎(chǔ)。這種機制不僅增加了模型對于時間序列數(shù)據(jù)變化的適應(yīng)性和靈敏度,而且通過參數(shù)配置,保障了輸出結(jié)果的穩(wěn)定性和可靠性。通過綜合考慮滑動窗口長度和權(quán)重因子的作用,該模型有效平衡了對近期與遠(yuǎn)期數(shù)據(jù)的關(guān)注,以此來優(yōu)化整體的評估精度和模型性能。
2.偏差
偏差部分專注于通過計算當(dāng)前時間點數(shù)據(jù)與預(yù)期符合程度的變化值來評估數(shù)據(jù)的偏離程度。具體而言,若當(dāng)前數(shù)據(jù)未達到預(yù)期,評估值將會降低;相反,當(dāng)數(shù)據(jù)滿足預(yù)期時,評估值則會相應(yīng)提高。
通過綜合利用時序滑動窗口機制和偏差計算這兩個核心組成部分,本模型實現(xiàn)了對數(shù)據(jù)質(zhì)量的全面評估,既從數(shù)據(jù)的維度(橫向考量)進行分析,也從時間序列的角度(縱向考量)考察其變化趨勢。這種雙維度的評估方法使得模型不僅能夠精確地衡量數(shù)據(jù)在特定時間點的質(zhì)量,還能夠追蹤和分析數(shù)據(jù)質(zhì)量隨時間的動態(tài)變化,從而提供了一種強有力的工具,用于全方位地評估和保障數(shù)據(jù)的質(zhì)量。
工業(yè)時序數(shù)據(jù)質(zhì)量分析評估系統(tǒng)包括三個層級,分別為數(shù)據(jù)層、服務(wù)層、應(yīng)用層(見圖1)。其中,數(shù)據(jù)層包括關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、時間序列數(shù)據(jù)庫;服務(wù)層包括數(shù)據(jù)預(yù)處理模塊、決策支持模塊、任務(wù)調(diào)度模塊,以及上文所提出的TSWD模型。
(一)數(shù)據(jù)層
數(shù)據(jù)層是工業(yè)時序數(shù)據(jù)質(zhì)量分析系統(tǒng)的基礎(chǔ),負(fù)責(zé)存儲、管理和保護所有數(shù)據(jù)資產(chǎn),包括關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫和時間序列數(shù)據(jù)庫,每種數(shù)據(jù)庫因其特定的功能和優(yōu)勢,被用于處理不同類型的數(shù)據(jù)需求。
關(guān)系型數(shù)據(jù)庫(如MySQL、PostgreSQL等)通過表格的形式存儲數(shù)據(jù),強調(diào)數(shù)據(jù)的結(jié)構(gòu)化和嚴(yán)格的數(shù)據(jù)完整性。它們支持復(fù)雜的查詢語言(如SQL),非常適合需要執(zhí)行復(fù)雜查詢和事務(wù)處理的應(yīng)用場景。在該系統(tǒng)中,關(guān)系型數(shù)據(jù)庫用來管理用戶信息、系統(tǒng)配置和事務(wù)性業(yè)務(wù)數(shù)據(jù),如設(shè)備維護記錄和操作日志,確保數(shù)據(jù)的一致性和可追溯性。
非關(guān)系型數(shù)據(jù)庫(如MongoDB、Cassandra等)提供更靈活的數(shù)據(jù)存儲選項,適用于不需要固定數(shù)據(jù)模型的場景。這類數(shù)據(jù)庫支持快速的讀寫操作,適合處理大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),如日志文件、JSON數(shù)據(jù)等。在處理大規(guī)?;蚋咦儎有缘臄?shù)據(jù)時,非關(guān)系型數(shù)據(jù)庫能夠提供高性能和易擴展性,滿足工業(yè)時序數(shù)據(jù)分析對數(shù)據(jù)處理速度和靈活性的高要求。
時間序列數(shù)據(jù)庫(如InfluxDB、TimescaleDB等)專門為時間標(biāo)記的數(shù)據(jù)設(shè)計,優(yōu)化了時間序列數(shù)據(jù)的存儲和查詢。這類數(shù)據(jù)庫非常適合存儲和分析由傳感器產(chǎn)生的連續(xù)時間數(shù)據(jù),如設(shè)備狀態(tài)、環(huán)境監(jiān)測數(shù)據(jù)等。時間序列數(shù)據(jù)庫可以高效地處理大量的寫入操作和時序數(shù)據(jù)查詢,支持快速的數(shù)據(jù)聚合、時間窗口查詢和實時監(jiān)控。
通過這三種數(shù)據(jù)庫的組合使用,不僅為系統(tǒng)提供了強大的數(shù)據(jù)存儲能力,還確保了數(shù)據(jù)處理的高效性和靈活性。這使得數(shù)據(jù)層能夠支撐起系統(tǒng)的核心功能,包括數(shù)據(jù)的實時分析、歷史數(shù)據(jù)查詢和復(fù)雜數(shù)據(jù)處理,滿足工業(yè)時序數(shù)據(jù)分析的各種需求。
(二)服務(wù)層
服務(wù)層是工業(yè)時序數(shù)據(jù)質(zhì)量分析系統(tǒng)中的核心,負(fù)責(zé)處理數(shù)據(jù)、執(zhí)行分析和協(xié)調(diào)任務(wù)。它由多個功能模塊組成,每個模塊針對特定的業(yè)務(wù)需求設(shè)計,以提高數(shù)據(jù)處理的效率和準(zhǔn)確性。
數(shù)據(jù)預(yù)處理模塊包括數(shù)據(jù)清洗、數(shù)據(jù)驗證和特征工程三個主要環(huán)節(jié)。數(shù)據(jù)清洗負(fù)責(zé)去除無用或錯誤的數(shù)據(jù),如重復(fù)記錄、格式不一致的數(shù)據(jù)等,確保數(shù)據(jù)集的清潔和一致性。數(shù)據(jù)驗證環(huán)節(jié)對數(shù)據(jù)進行格式和邏輯的校驗,確保所有輸入數(shù)據(jù)都符合預(yù)定的標(biāo)準(zhǔn)和業(yè)務(wù)規(guī)則。特征工程則是從清洗驗證后的數(shù)據(jù)中提取有用的信息,轉(zhuǎn)化數(shù)據(jù)分析所需的特征,對后續(xù)的分析效果至關(guān)重要。
決策支持模塊旨在輔助用戶做出更加明智的業(yè)務(wù)決策。該模塊包括問題捕捉,能夠識別并報告系統(tǒng)中的關(guān)鍵問題;依賴分析,分析不同數(shù)據(jù)元素或任務(wù)之間的依賴關(guān)系,以優(yōu)化處理流程;處理建議,根據(jù)分析結(jié)果向用戶提供具體的改進措施;規(guī)則更新,根據(jù)新的業(yè)務(wù)需求和環(huán)境變化動態(tài)更新系統(tǒng)規(guī)則。這些功能共同作用,提高了系統(tǒng)的自適應(yīng)能力和決策的精確性。
任務(wù)調(diào)度模塊負(fù)責(zé)系統(tǒng)中所有任務(wù)的管理和執(zhí)行。任務(wù)接口調(diào)用功能允許系統(tǒng)與外部系統(tǒng)或服務(wù)進行通信,執(zhí)行數(shù)據(jù)導(dǎo)入導(dǎo)出等操作;任務(wù)生成負(fù)責(zé)根據(jù)分析需求自動創(chuàng)建任務(wù);數(shù)據(jù)連接確保任務(wù)能夠訪問所需的數(shù)據(jù)源;監(jiān)控告警功能實時監(jiān)控任務(wù)執(zhí)行狀態(tài),一旦發(fā)現(xiàn)問題即時通知相關(guān)人員,保證系統(tǒng)的穩(wěn)定運行和數(shù)據(jù)的安全。
TSWD模型提供了一個全面和精確的方法來評估數(shù)據(jù)質(zhì)量的四個核心維度。這種綜合性的評估能力使得該模型在工業(yè)生產(chǎn)活動中尤為有價值,能夠為提高生產(chǎn)效率和保證產(chǎn)品質(zhì)量提供重要的數(shù)據(jù)支持和決策依據(jù)。
通過這些功能模塊協(xié)同工作,不僅可以使得數(shù)據(jù)處理的高效和準(zhǔn)確,還為用戶提供了強大的決策支持和任務(wù)管理能力,確保系統(tǒng)能夠靈活、高效地響應(yīng)各種業(yè)務(wù)場景和需求。
(三)應(yīng)用層
應(yīng)用層是工業(yè)時序數(shù)據(jù)質(zhì)量分析系統(tǒng)中用戶交互的前沿,負(fù)責(zé)提供直觀、易用的界面和強大的用戶體驗。它允許用戶管理自己的賬戶、上傳和管理數(shù)據(jù)、配置分析參數(shù),以及查看和解析分析結(jié)果。
用戶界面在應(yīng)用層中起著至關(guān)重要的作用,通過提供清晰的導(dǎo)航、直觀的布局和簡單的操作步驟,確保用戶無需技術(shù)背景即可有效使用系統(tǒng)。界面設(shè)計包括數(shù)據(jù)上傳的拖放功能、實時的進度顯示、以及直接的結(jié)果預(yù)覽,所有這些功能都旨在提高用戶的操作便捷性和系統(tǒng)的整體效率。
用戶管理模塊處理注冊、登錄和權(quán)限控制等功能,確保數(shù)據(jù)安全和功能的適當(dāng)訪問。這一模塊允許細(xì)粒度的權(quán)限設(shè)置,例如區(qū)分只讀用戶和有權(quán)進行數(shù)據(jù)上傳及分析配置的用戶。
儀表板提供動態(tài)的數(shù)據(jù)可視化,展示實時的數(shù)據(jù)分析結(jié)果,如生產(chǎn)效率、設(shè)備運行狀態(tài)等關(guān)鍵指標(biāo)。這些可視化工具幫助用戶快速捕獲和理解復(fù)雜數(shù)據(jù)的核心趨勢和模式。
報告生成器自動化地生成詳細(xì)的分析報告,包括圖表、數(shù)據(jù)統(tǒng)計和專業(yè)的解釋,支持導(dǎo)出為多種文件格式。這為用戶提供了一種便捷的方式,以正式的文檔形式分享和討論分析成果。
通知系統(tǒng)在檢測到關(guān)鍵事件或結(jié)果達到預(yù)設(shè)閾值時自動向用戶發(fā)送警告或更新,確保及時的信息傳遞,從而支持快速的決策和響應(yīng)。
應(yīng)用層不僅使用戶能夠有效地與系統(tǒng)互動,還增強了系統(tǒng)的實用性和響應(yīng)能力,是用戶與系統(tǒng)之間溝通的橋梁。
本文提出的工業(yè)時序數(shù)據(jù)質(zhì)量分析系統(tǒng)旨在通過高效的數(shù)據(jù)處理、精準(zhǔn)的分析和先進的智能決策支持,為用戶提供了一個全面的解決方案,確保從數(shù)據(jù)收集到處理再到最終的決策支持,每一個環(huán)節(jié)都能高效協(xié)同工作。
系統(tǒng)的核心功能在于其處理復(fù)雜工業(yè)數(shù)據(jù)的能力,能深入分析和評估時序數(shù)據(jù)的質(zhì)量,及時識別并解決潛在的數(shù)據(jù)質(zhì)量問題。通過這一系統(tǒng),決策者可以更加精準(zhǔn)地理解和控制生產(chǎn)過程,優(yōu)化操作流程,顯著減少機器的停機時間,降低維護成本,從而提高生產(chǎn)效率和產(chǎn)品質(zhì)量。
此外,該系統(tǒng)提升了數(shù)據(jù)處理的自動化程度,并強化了依據(jù)數(shù)據(jù)進行決策的能力。這意味著決策者可以依據(jù)系統(tǒng)提供的實時數(shù)據(jù)及歷史數(shù)據(jù)分析,迅速做出更加準(zhǔn)確的決策。這種數(shù)據(jù)驅(qū)動的決策模式,不僅提高了決策的速度和質(zhì)量,也使工業(yè)生產(chǎn)活動有更高質(zhì)量的參考。
作者單位: 陳彥卿 楊正益 重慶大學(xué)大數(shù)據(jù)與軟件學(xué)院
張 程 重慶市質(zhì)量和標(biāo)準(zhǔn)化研究院