王偉 李均毅 郭威
為滿足供應(yīng)商多元評(píng)估要求,完成海量評(píng)估數(shù)據(jù)的采集,通過(guò)使用采集、預(yù)處理分治和數(shù)據(jù)邊緣緩存機(jī)制,實(shí)現(xiàn)以最小資源代價(jià)完成供應(yīng)商海量數(shù)據(jù)的采集,同時(shí)支持采集工具的動(dòng)態(tài)管理,具備良好的擴(kuò)展性,能夠適應(yīng)供應(yīng)商評(píng)估體系的動(dòng)態(tài)變化
近年來(lái),電力企業(yè)采購(gòu)的物資類別和數(shù)量都呈現(xiàn)快速增長(zhǎng)趨勢(shì),與之相對(duì)應(yīng)的產(chǎn)品質(zhì)量、違約等問(wèn)題也隨之呈現(xiàn)增長(zhǎng)趨勢(shì)。電網(wǎng)作為保障社會(huì)經(jīng)濟(jì)民生發(fā)展的重要基礎(chǔ),一旦出現(xiàn)供應(yīng)商履約和質(zhì)量問(wèn)題,將給工程建設(shè)進(jìn)度和電網(wǎng)安全帶來(lái)極大影響。因此,對(duì)供應(yīng)商績(jī)效評(píng)估指標(biāo)體系優(yōu)化、評(píng)估方法的改進(jìn)一直是研究的熱點(diǎn)。與此同時(shí),為了更加準(zhǔn)確地對(duì)供應(yīng)商進(jìn)行績(jī)效評(píng)估,實(shí)現(xiàn)評(píng)估的立體多元化,對(duì)供應(yīng)商的數(shù)據(jù)采集提出了更高要求,數(shù)據(jù)采集從原有的物資供應(yīng)過(guò)程數(shù)據(jù)采集變成全方位供應(yīng)商數(shù)據(jù)的采集,包括但不限于供應(yīng)商的財(cái)務(wù)狀況、風(fēng)險(xiǎn)評(píng)估、產(chǎn)品質(zhì)量、運(yùn)行效果、法律風(fēng)險(xiǎn)等,并且評(píng)估要求會(huì)隨著時(shí)間和時(shí)長(zhǎng)環(huán)境的變化不斷新增,采集的數(shù)據(jù)類型和數(shù)據(jù)量級(jí)都出現(xiàn)了巨大的變化,傳統(tǒng)的數(shù)據(jù)采集模式已經(jīng)無(wú)法滿足要求,對(duì)數(shù)據(jù)采集的時(shí)效性和數(shù)據(jù)量級(jí)都提出了更高的要求。
海量供應(yīng)商評(píng)價(jià)數(shù)據(jù)所面臨的采集問(wèn)題
采集來(lái)源和方式更加復(fù)雜。供應(yīng)商現(xiàn)有的評(píng)估方式是根據(jù)采集物資供應(yīng)過(guò)程中招標(biāo)采購(gòu)、質(zhì)量監(jiān)督、交付過(guò)程、歷史違約等記錄,采集來(lái)源為電力公司內(nèi)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。要想對(duì)供應(yīng)商進(jìn)行多元立體化的評(píng)估,數(shù)據(jù)采集的策略需由原來(lái)的選擇性采集變成全采集,采集內(nèi)容也從單純的物資供應(yīng)流程擴(kuò)展到供應(yīng)商的各個(gè)方面,不僅包含供應(yīng)商的工商、股東及人員、投資等信息,還包括知識(shí)產(chǎn)權(quán)、司法風(fēng)險(xiǎn)、企業(yè)發(fā)展、經(jīng)營(yíng)狀態(tài)等所有產(chǎn)品質(zhì)量相關(guān)信息;數(shù)據(jù)來(lái)源也從各個(gè)業(yè)務(wù)系統(tǒng)擴(kuò)展到互聯(lián)網(wǎng),不僅類型更加豐富,采集方式也涉及各項(xiàng)數(shù)據(jù)類型及平臺(tái)使用接口、文件、推送、爬取等方式。
采集數(shù)據(jù)量級(jí)增長(zhǎng)且需要支持動(dòng)態(tài)擴(kuò)展。數(shù)據(jù)采集策略的轉(zhuǎn)變,導(dǎo)致采集過(guò)程中數(shù)據(jù)呈現(xiàn)量級(jí)增長(zhǎng),特別是針對(duì)反映產(chǎn)品實(shí)際質(zhì)量的一些運(yùn)行過(guò)程數(shù)據(jù),不僅量大又實(shí)時(shí)性要求高,且如果丟失可能會(huì)影響最終評(píng)估精度。同時(shí)對(duì)供應(yīng)商多元評(píng)估的要求,使得評(píng)估體系處于動(dòng)態(tài)變化的過(guò)程,對(duì)應(yīng)的采集內(nèi)容也是一個(gè)動(dòng)態(tài)變化的過(guò)程,所以采集的吞吐能力需要支持動(dòng)態(tài)擴(kuò)展。
評(píng)估分析數(shù)據(jù)量化并做好清洗和預(yù)處理工作???jī)效評(píng)價(jià)的過(guò)程中,基于多角度的評(píng)價(jià)要求,采集的供應(yīng)商數(shù)據(jù)會(huì)被反復(fù)使用,例如使用TOPSIS進(jìn)行分析,所有代入的數(shù)據(jù)都是經(jīng)過(guò)規(guī)則量化的數(shù)值數(shù)據(jù)。而實(shí)際的數(shù)據(jù)采集過(guò)程中,數(shù)據(jù)來(lái)源廣泛且經(jīng)常會(huì)面臨多源異構(gòu)數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)價(jià)值密度低等問(wèn)題,數(shù)據(jù)無(wú)法被后續(xù)評(píng)估直接使用,所以采集的數(shù)據(jù)在進(jìn)行評(píng)估計(jì)算分析之前,需要提前做好數(shù)據(jù)采集后的清洗和預(yù)處理工作,增加供應(yīng)商評(píng)估分析的效率。
多元采集系統(tǒng)的設(shè)計(jì)架構(gòu)與思路
綜合分析當(dāng)前供應(yīng)商多元評(píng)價(jià)采集系統(tǒng)的要求,并考慮到在實(shí)際的使用過(guò)程中,供應(yīng)商評(píng)估是一個(gè)后置過(guò)程,沒(méi)有實(shí)時(shí)性要求。所以整個(gè)采集過(guò)程對(duì)數(shù)據(jù)接收有實(shí)時(shí)性要求,但是對(duì)于數(shù)據(jù)的預(yù)處理沒(méi)有實(shí)時(shí)性要求。為了以最小資源代價(jià)完成海量數(shù)據(jù)的采集,采集系統(tǒng)設(shè)計(jì)應(yīng)遵循可擴(kuò)展的采集框架、采集和預(yù)處理分治、匯集處理邊緣緩存的思路。
可擴(kuò)展的采集框架就是對(duì)每個(gè)采集數(shù)據(jù)來(lái)源設(shè)定采集和預(yù)處理工具,工具的生命周期和運(yùn)行管理由系統(tǒng)統(tǒng)一管理,同時(shí)采集系統(tǒng)建立統(tǒng)一規(guī)則,支持采集和預(yù)處理工具動(dòng)態(tài)擴(kuò)展新增和修改。采集和預(yù)處理分治是基于數(shù)據(jù)的采集需要實(shí)時(shí)處理,但是對(duì)預(yù)處理沒(méi)有實(shí)時(shí)性要求,所以為提高采集的吞吐量,從整體上把數(shù)據(jù)的處理分成兩個(gè)階段,匯集處理階段和預(yù)處理階段。匯集處理階段只需把采集的數(shù)據(jù)存入臨時(shí)數(shù)據(jù)庫(kù),業(yè)務(wù)邏輯簡(jiǎn)單,便于分布式設(shè)計(jì)和部署;預(yù)處理則負(fù)責(zé)后續(xù)的數(shù)據(jù)的整理、清洗和正式存儲(chǔ)過(guò)程。匯集處理邊緣緩存是由于匯集處理階段業(yè)務(wù)邏輯統(tǒng)一,只需要在收到數(shù)據(jù)后存入臨時(shí)數(shù)據(jù)庫(kù),而整個(gè)匯集處理過(guò)程耗時(shí)最長(zhǎng)的為存入臨時(shí)數(shù)據(jù)庫(kù),為提高吞吐量,設(shè)計(jì)邊緣緩存機(jī)制,對(duì)采集數(shù)據(jù)存入緩存,延遲處理以提高采集速率,用內(nèi)存空間換取處理時(shí)間。其架構(gòu)設(shè)計(jì)圖如圖1所示。
數(shù)據(jù)的采集過(guò)程為確定需要采集的數(shù)據(jù)來(lái)源后,定制開發(fā)采集器和預(yù)處理工具,采集器采集完數(shù)據(jù)后,把采集的數(shù)據(jù)經(jīng)過(guò)負(fù)載均衡分給各個(gè)匯集中心,匯集中心負(fù)責(zé)數(shù)據(jù)存入臨時(shí)數(shù)據(jù)庫(kù),預(yù)處理工具從臨時(shí)數(shù)據(jù)庫(kù)拿出對(duì)應(yīng)的數(shù)據(jù)源的數(shù)據(jù),經(jīng)過(guò)清洗和預(yù)處理后存入正式數(shù)據(jù)庫(kù)。整個(gè)過(guò)程中,匯集中心以負(fù)載均衡結(jié)合分布式的方式運(yùn)行,負(fù)責(zé)承載整個(gè)數(shù)據(jù)采集壓力,采集器和預(yù)處理器則只需要專注業(yè)務(wù)邏輯即可,具體采集過(guò)程如圖2所示:
在采集過(guò)程中,采集器把采集的數(shù)據(jù)通過(guò)負(fù)載均衡流轉(zhuǎn)到匯集中心,匯集中心作為采集數(shù)據(jù)吞吐的核心組件,對(duì)數(shù)據(jù)處理能力將影響到整個(gè)系統(tǒng)處理能力。因?yàn)閰R集中心整個(gè)處理過(guò)程中以存儲(chǔ)這個(gè)操作最為耗時(shí),所以為提高吞吐量,需要建立分布式模型、異步消息隊(duì)列和批量處理相結(jié)合方式,完成采集數(shù)據(jù)快速入庫(kù)。其中,匯集中心處理流程如圖3所示。
此外,系統(tǒng)對(duì)采集器和預(yù)處理工具進(jìn)行統(tǒng)一管理,不同的數(shù)據(jù)來(lái)源采集使用一組采集器和預(yù)處理工具進(jìn)行處理,采集器和預(yù)處理工具的運(yùn)行方式由平臺(tái)指定,具體的運(yùn)行方式有單次運(yùn)行、定時(shí)運(yùn)行和連續(xù)運(yùn)行。其中,單次運(yùn)行主要針對(duì)導(dǎo)入類型的數(shù)據(jù)來(lái)源;定時(shí)運(yùn)行主要針對(duì)數(shù)據(jù)來(lái)源定時(shí)更新的情況,一般約定與數(shù)據(jù)來(lái)源更新的時(shí)間一致,以每天、每周、每月或每年運(yùn)行;連續(xù)運(yùn)行主要針對(duì)設(shè)備運(yùn)行過(guò)程中各類實(shí)時(shí)采集的運(yùn)行情況。平臺(tái)負(fù)責(zé)按照配置執(zhí)行各項(xiàng)工具的運(yùn)行。
采集器的主要工作是作為數(shù)據(jù)采集的適配器,采集數(shù)據(jù)并轉(zhuǎn)發(fā)到匯集中心,根據(jù)采集數(shù)據(jù)來(lái)源要求,使用主動(dòng)拉取或訂閱等方式。采集器需要根據(jù)數(shù)據(jù)來(lái)源要求具體開發(fā),完成后不需要做過(guò)多處理,指定臨時(shí)表后直接按照通用方式轉(zhuǎn)發(fā)給匯集中心即可。
預(yù)處理工具的設(shè)計(jì)需要與采集器一一對(duì)應(yīng)。預(yù)處理工具主要完成三項(xiàng)工作,一是對(duì)采集器存到臨時(shí)表的數(shù)據(jù)進(jìn)行清洗和整理,二是把處理后的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到正式數(shù)據(jù)庫(kù),三是清除已處理的臨時(shí)數(shù)據(jù)。其中預(yù)處理工具在處理過(guò)程中,為減少數(shù)據(jù)庫(kù)操作次數(shù),對(duì)臨時(shí)數(shù)據(jù)的獲取和清除均采用批量模式,提高處理效率。
供應(yīng)商多元立體化評(píng)價(jià)是電網(wǎng)物資供應(yīng)快速發(fā)展過(guò)程的必然要求,為了能夠完成供應(yīng)商的整體畫像,供應(yīng)商評(píng)估數(shù)據(jù)采集的方式由原來(lái)的定向采集轉(zhuǎn)變?yōu)槿杉姆绞?,采集維度從物資供應(yīng)維度擴(kuò)展到供應(yīng)商的各個(gè)方面,相應(yīng)的供應(yīng)商評(píng)估數(shù)據(jù)的采集面更加廣泛,采集數(shù)據(jù)總量呈現(xiàn)量級(jí)增長(zhǎng)。因此通過(guò)分析數(shù)據(jù)來(lái)源和采集要求,設(shè)計(jì)電網(wǎng)海量供應(yīng)商評(píng)估數(shù)據(jù)采集系統(tǒng),在整體架構(gòu)上支持采集工具的發(fā)布和管理,具有良好的擴(kuò)展性,運(yùn)用異步分治和邊緣緩存的方法,以最小的資源代價(jià)解決數(shù)據(jù)采集問(wèn)題,為后續(xù)供應(yīng)商的多元評(píng)估提供了有效的數(shù)據(jù)支撐。
(作者單位:國(guó)網(wǎng)浙江省電力有限公司物資分公司。本文系浙江省基于人工智能技術(shù)的供應(yīng)商全息多元評(píng)價(jià)體系解決方案研究項(xiàng)目成果,項(xiàng)目編號(hào)B311WF221002)