程向華 李漢秋 章崎峰 尤震 羅天
[摘要]供應商間圍串標行為是困擾企業(yè)招標采購工作的難點問題之一,而找到供應商間的緊密關系,則是破解這一難題的關鍵所在。本文通過社區(qū)發(fā)現(xiàn)算法和關聯(lián)規(guī)則分析算法,對企業(yè)的招標采購數(shù)據(jù)進行分析,識別其團組社區(qū)并獲得內(nèi)部關系結(jié)構(gòu),從中發(fā)現(xiàn)供應商間隱藏的關聯(lián)關系,為審計人員進行分析提供有效線索。
[關鍵詞]招投標審計 ? ?圍串標 ? ?數(shù)據(jù)分析
一、導言
自招標投標采購要求實施及推廣以來,供應商圍串標在企業(yè)采購招標過程中屢見不鮮。對企業(yè)采購來說,該行為可能對招標項目質(zhì)量產(chǎn)生不利影響。對此,常見的內(nèi)部審計策略是對每個項目進行檢查,判斷是否存在國家招標投標法實施條例中所列投標文件由同一單位編制、投標文件異常一致、投標保證金從相同賬戶轉(zhuǎn)出等串通投標情形,或者通過分析供應商之間是否存在股權(quán)相關投資、高管交叉任職等直接關系。但傳統(tǒng)方式核實工作量大、效率低,且難以發(fā)現(xiàn)供應商之間更為隱蔽的私下掛靠或協(xié)商組團投標行為。隨著電子招采平臺的普及與企業(yè)信息化程度的提高,更有效率的一種策略是根據(jù)供應商投標行為特征,在審計模型中對供應商緊密關系進行識別,找出疑似圍串標企業(yè)組,進一步分析相關投標項目。
現(xiàn)有關聯(lián)組團研究中,王俊芳、游松慶等采用頻繁集項等關聯(lián)算法對供應商投標數(shù)據(jù)進行分析,挖掘供應商之間的內(nèi)部關系。但實際應用中,上述方法仍難以滿足圍串標行為識別分析的需要:一是簡單的關聯(lián)規(guī)則識別疑似圍串標團組精準度較低;二是未經(jīng)分類的供應商投標數(shù)據(jù)在頻繁項集計算中會產(chǎn)生較多冗余數(shù)據(jù)。
本文整合社區(qū)發(fā)現(xiàn)和關聯(lián)規(guī)則分析算法進行數(shù)據(jù)挖掘應用,能夠有效識別供應團組社區(qū)并獲得其內(nèi)部關系結(jié)構(gòu),對于在合同招投標審計過程中辨識圍串標行為具有顯著作用。
二、主要審計思路及相關算法
(一)審計思路
首先,利用社區(qū)發(fā)現(xiàn)算法對招采數(shù)據(jù)中涉及的供應商進行初步分組。其次,在供應商初步分組中逐個應用關聯(lián)規(guī)則分析尋找組內(nèi)頻繁項集,即經(jīng)常同時參與某些項目投標的供應商團組,在結(jié)果中設置提取規(guī)則,進一步提升社區(qū)名單的準確性與覆蓋面,并獲得團組內(nèi)部的關系結(jié)構(gòu)。最后,應用數(shù)據(jù)分析提取的供應商團組,反查相關合同標的,確認有關行為及事實。
(二)涉及算法介紹
1.Louvain社區(qū)發(fā)現(xiàn)算法。Louvain算法是一種基于模塊度的社區(qū)發(fā)現(xiàn)算法,通過模塊度來衡量一個社區(qū)的緊密程度。本例中,供應商視為節(jié)點,一起投標的同類供應商視為社區(qū),供應商在尋源單中共同出現(xiàn)次數(shù)為權(quán)重,次數(shù)越多,邊權(quán)越大。模塊度定義函數(shù)Q如下:
其中,Aij代表節(jié)點i和節(jié)點j之間的邊權(quán);ki和kj分別代表所有與節(jié)點i和節(jié)點j相連的邊的權(quán)重之和;m代表所有的邊權(quán)之和;ci和cj分別代表節(jié)點i和節(jié)點j所屬的社區(qū);表示克羅內(nèi)克函數(shù)。若一個供應商(節(jié)點)加入到某個社區(qū)(類別)中會使該社區(qū)的模塊度有最大程度的增加,則認為該節(jié)點屬于該社區(qū);若未能使其模塊度增加,則該供應商留在原社區(qū)中,從而實現(xiàn)對供應商分類的目的。
2.Apriori關聯(lián)規(guī)則分析算法。Apriori算法是通過連接產(chǎn)生候選項及其支持度然后通過剪枝生成頻繁項集(疑似供應商團組),并分析頻繁項集產(chǎn)生強關聯(lián)規(guī)則。相關指標如下:
(1)支持度(support)。支持度代表供應商尋源單中當前供應商組合的頻繁程度,如果該組合的支持度大于預設的閾值,則認為該組合為疑似團組(頻繁項集)。Apriori算法采用反向減枝計算,即“若一個項目集是非頻繁項集,則它的所有超集也是非頻繁項集”,可以減少遍歷運算量。
(2)置信度(confidence)。置信度代表在供應商A投標的情況下,供應商C同時出現(xiàn)的概率。
(3)提升度(lift)。提升度用于衡量供應商A與C投標的相關性關系:當提升度大于3時,一般認為關聯(lián)規(guī)則有價值;若供應商A與C相互獨立,則提升度恰好為1;若提升度小于1,則表示供應商A與C互斥。但實際應用中,該指標易受零事務影響,零事務即與團組無關的供應商投標次數(shù)。如總投標次數(shù)1000次中,供應商A、C分別參與500次、600次,供應商A、C共同投標次數(shù)300次,則lift(A→C)為1;若總投標次數(shù)為10000次,則lift(A→C)變?yōu)?0。
3.KULC度量與不平衡比(IR)。引入不受零事務和事務總數(shù)影響的KULC度量與不平衡比(IR),減小因置信度和支持度失效產(chǎn)生的影響。KULC度量值在0-1之間,值越大,供應商之間聯(lián)系越緊密。但當KULC度量值在0.5左右時,單從KULC度量無法判斷當前團組是否有價值。因此,引入不平衡IR比進行參考。當不平衡比接近0時,認為關聯(lián)關系是平衡的;不平衡比越大,則關聯(lián)關系越不平衡。若KULC度量值接近0.5并且不平衡比接近0,則認為該關聯(lián)關系是沒有價值的。
三、具體審計流程
根據(jù)上述Louvain與Apriori算法,內(nèi)部審計需結(jié)合統(tǒng)計學相關知識并根據(jù)圍標具有尋源單中全部或大部分供應商同屬一個團體這一顯著特征,通過全局統(tǒng)計和分析各個尋源單內(nèi)部的關系這兩個角度,評估各種團體的出現(xiàn)形式,篩選出可能性較大的目標組合,具體流程見圖1。
流程的關鍵步驟如下:一是獲取招采數(shù)據(jù)。從招采系統(tǒng)中獲取采購尋源單,主要包括采購單位、項目名稱、投標供應商名單、中標人名稱、中標金額等字段信息。二是數(shù)據(jù)清洗、轉(zhuǎn)換。根據(jù)實際需要,剔除無效數(shù)據(jù),如同一尋源單中重復出現(xiàn)的供應商,并對源數(shù)據(jù)進行轉(zhuǎn)換,提取出關鍵數(shù)據(jù)。三是供應商初步分組。按照同類尋源單各供應商之間邊權(quán)增加1原則,對全局數(shù)據(jù)進行統(tǒng)計,遍歷全部尋源單條目,形成涵蓋全部供應商關系的網(wǎng)絡。然后,利用Louvain對樣本數(shù)據(jù)進行分類,將關系密切的供應商劃分到同一個社區(qū),減少后續(xù)Apriori的運算時間,提升效率與準確度。四是形成高關聯(lián)度供應商團組。對分類之后的每一個初步分組,單獨運行Apriori算法,利用二分法尋找每個社群適用的最小支持度,獲得盡可能全面的頻繁項集結(jié)果,計算出對應的關聯(lián)關系、KULC度量和不平衡比,并篩選出有價值的頻繁項集。五是輔助審計。根據(jù)上述頻繁項集,反查相關合同標的,通過具體合同分析,排查有關圍串標行為。
四、方法運用示例
(一)社區(qū)發(fā)現(xiàn)結(jié)果
通過Louvain社區(qū)分類算法,將采購尋源單中560家供應商按互相之間同時出現(xiàn)的頻繁程度及業(yè)務范圍劃分為9個組別,如建筑建設、通信、工程設計、保險、電器設備等。從結(jié)果上看,劃分到同一個社區(qū)中的供應商業(yè)務方向大多一致,劃分結(jié)果較為精準,見圖2、圖3。此舉可以減少大量零事務,為后續(xù)使用Apriori時設置最小置信度提供便利。若不對采購尋源單數(shù)據(jù)進行預先劃分,在后續(xù)使用Apriori時,在設置最小置信度時會遇到困難。因為供應商種類繁雜,導致零事務數(shù)量巨大:若設置的最小置信度偏大,則會遺漏大量頻繁項集,導致輸出的結(jié)果覆蓋面大幅下降;若設置的最小置信度偏小,則會導致無法及時刪去非頻繁項集,失去Apriori算法的優(yōu)勢,導致計算時間指數(shù)性增長。
(二)關聯(lián)規(guī)則分析結(jié)果
一部分提升度大于3的頻繁項集的KULC度量在0.5左右,不平衡比接近0。在對該部分結(jié)果進行排查之后發(fā)現(xiàn),該部分結(jié)果雖然提升度大于3,但并非有價值的供應商團組,見圖4。由此可見,單獨考慮提升度情況下的結(jié)果輸出形式并不準確。
在引入KULC度量與不平衡比之后,篩選出的供應商團組占比從原來只考慮提升度情況下的73.5%下降到39.7%,大幅減少了輸出的數(shù)據(jù)量,提升了精準度,減少了后續(xù)審計疑點排查時間,見圖5。
以第2組社區(qū)團體中的供應商組合ABC進行說明。對于供應商A→BC,其對應的置信度為0.4,提升度為57.4,KULC度量值為0.7,不平衡比為0.6,見圖6。
該供應商團組提升度極高,KULC度量值偏高,不在紅色標注的0.4—0.6的范圍之內(nèi),并且不平衡比較大,遠超紅色標注的0.2的閾值。具備作為疑點的顯著特征,并且供應商A有可能是該團組的主導人。將該疑點事務提出,結(jié)合該組合中供應商A的中標率與全局情況下供應商A的中標率進行分析,發(fā)現(xiàn)該組合中供應商A的中標率明顯偏高。該組合極有可能是高度關聯(lián)團組,并且供應商A有可能是主導人。根據(jù)上述分析結(jié)果,審計人員進一步查找該團組相關合同,分析確認是否存在招標投標法實施條例所列述的串通投標情形。
從結(jié)果來看,該方法數(shù)據(jù)篩選精準度較高、覆蓋范圍較廣,極大地縮短了排查時間,輔助審計的作用較為明顯。面對大量的尋源單數(shù)據(jù),通過采用Louvain分類結(jié)合Apriori挖掘的方式,能較好地克服尋源單數(shù)量龐大、種類繁多等難點;能對大量標的進行快速分類,較為精準地劃分項目類別。在對各個組別分別進行Apriori挖掘時,采用最小二分法快速尋找出適用于對應情況下的最小支持度,能免除對每一個組別設置特定最小支持度的流程,可使審計人員將精力主要集中在篩選出的疑似圍標團伙名單,擴大審計覆蓋面,提高圍標團伙發(fā)現(xiàn)率,降低審計風險。
需要指出的是,在最終結(jié)果篩選的過程中,如何設置置信度、提升度、KULC度量及不平衡比,以更為精準地篩選出有價值的疑點事務,仍需進一步與招標實際核實、分析。由于標的數(shù)量龐大,某些項目類型本身參與者不多,按照本算法,此類參與者可能會在結(jié)果中被誤認為是疑點團組輸出。如何在結(jié)果中進一步篩選出高精準度的疑點團組,仍需根據(jù)各企業(yè)招標實際,通過大量數(shù)據(jù)反復驗證調(diào)試各指標的參數(shù)。
(作者單位:浙江省能源集團有限公司,郵政編碼:310007,電子郵箱:513972995@qq.com)
主要參考文獻
遲殿委.淺析大數(shù)據(jù)關聯(lián)規(guī)則挖掘算法及應用[J].電子元器件與信息技術(shù), 2019(4):4-7
杜潔,李芹,潘媛等.聚類分析在內(nèi)部審計中的應用研究[J].中國管理信息化, 2019(1):4-6
王俊芳,王中龍,劉建,耿建,李艷,王蕾,秦賓.電力企業(yè)供應商疑似圍標串標行為分析[J].經(jīng)營與管理, 2018(5):120-123
張志恒,成雪嬌.大數(shù)據(jù)環(huán)境下基于文本挖掘的審計數(shù)據(jù)分析框架[J].會計之友, 2017(16):117-120