胡杰
摘要:文章首先簡要概述與數據挖掘技術相關內容,隨后從分類、聚類兩種數據挖掘應用較廣的維度來開展研究,分別有神經網絡、決策樹法、層次方法、基于密度(或網絡)方法等;剖析了數據挖掘技術應用于信用信息分析的問題,而后圍繞問題內容,指出可從強化海量數據處理效果、快速提煉信息分析報告、提前預測未來發(fā)展趨勢、積極融合智慧化服務平臺等方面解決問題,以期為相關技術工作提供可靠參考。
關鍵詞:數據挖掘技術;信用信息;分析算法;對策
中圖分類號:TP311. 13
文獻標志碼:A
0 引言
大數據即巨量資料,指所涉及的資料量規(guī)模巨大,無法通過主流軟件工具實現(xiàn)獲取、管理的咨詢。新時期背景下大數據有著無限潛力和優(yōu)勢,但同時也給各領域工作帶來考驗。有更多的人在現(xiàn)代社會中挖掘出數據的價值和戰(zhàn)略意義,并開始延伸到對數據的研究中。如何在數據海洋中獲得利于發(fā)展的信息和商機,有效提升利潤,就必須借助于各種智能化方法來分析處理,即采取相應的數據挖掘技術。利用數據挖掘技術能深入數據深層找出隱含的知識,從而提升各種管理決策的科學性,減少不必要的損失,優(yōu)勢突出。
1 數據挖掘技術簡述
1.1 數據挖掘技術定義
數據挖掘( Daca Mining)是指從大量數據中通過計算分析方法來獲得其中隱藏信息的過程。該概念屬于計算機科學的學科領域,常常和人工智能、數據庫等多領域緊密聯(lián)系,又有著“資料探勘”“數據采礦”之稱。此技術的實施過程主要包括3個階段:第一,準備數據;第二,挖掘數據;第三,對結果進行表達及解釋[1]。如今,數據挖掘理念受到了信息產業(yè)的關注,對大量數據有效利用并轉化成有用信息,將其利用在生產控制、商務管理、市場分析、科學探索上。
1.2 數據挖掘技術模型
數據挖掘技術的模型主要是信息挖掘過程的模型展示。此過程可將信息挖掘的步驟劃分成以下3步:第一步,預處理。預處理就是提前對海量的冗余的數據信息加以篩選、剔除,只留下有效的數據,確保數據挖掘技術的應用效率。第二步,信息特征的抽取[2]。整理上一步驟所篩選出的數據信息后,對信息結構間轉化,保障轉化后的結構能被計算機軟件所識別和存儲,滿足用戶信息使用的需求。第三步,數據挖掘。將上述步驟中所處理好的數據和信息收集后并加以挖掘,將挖掘出的結果用客戶能識別的語言表現(xiàn)出來,確保符合以人為本的原則和實際應用需求。
2 數據挖掘技術在信用信息分析中的應用算法
2.1 分類算法
2.1.1 決策樹法
決策樹法( Decision Tree Method)是常用的機器學習算法之一,也被廣泛用于風險性決策問題中,具體如表1所示。決策樹就如同樹木的枝干,從主到次進行逐一分解,隨后形成不同的規(guī)則鏈條。決策樹的生成有3個較經典方法,分別是信息增益(ID3)、增益指數(ID3,C4. 5)、基尼指數(SLIQSPEINT)。此外,還存在多種改進的算法。關于此方法的應用優(yōu)勢較多,如便于理解和解釋,計算代價相對較低。即便是存在冗余數據,也不會對最終決策造成較大的不利影響[3]。但需明確的是,該方法也存在不足,如天生過擬合、數據碎片問題、有一定的復雜性。
2.1.2 神經網絡
神經網絡( Neural Necwork,NN)指模仿生物神經網絡的結構和功能的計算模型。多數情況下,它能借助大量人工神經元的聯(lián)結來分析,屬于探索數據的新模式[4]。該方法最突出的優(yōu)點是能夠對收集出的數據加以分類,例如能有效識別垃圾郵件信息,提取出相關的詞匯后來及時判定:又如還可利用在疾病的判斷中。例如有患者在醫(yī)院經多項基礎檢查后,系統(tǒng)會自動生成了許多數據,單純地分析數據無疑難度較大。此時便可利用神經網絡的計算方式,及時分析該患者是否得病及其種類。在數據挖掘過程中,神經網絡的運作主要有4點:(l)確定輸入、輸出(見圖1);(2)找到一種或多種算法;(3)找到數據集,訓練模型;(4)產生新數據,輸入模型得到結果。
2.2 聚類分析
聚類分析與分類算法的相同處在于,都是將數據分組后再挖掘及分析,但不同之處是聚類分析的數據處理對象有未知性。
2.2.1 層次方法
層次方法聚類,是將數據對象組合成“聚類樹”的方法。該方法的處理方式有多種,可從上至下、從下至上。可進一步分成凝聚、分裂形式。BIRCH可利用層次法或其他方法對海量的數據進行聚類。(1)凝聚。白底向上處理并將各對象看作一個簇(數據被劃分后的子集),合并后組成更大的簇,直到所有對象均處于相同簇中,或滿足某終結條件[5]。(2)分裂。和凝聚相反,分裂的方法是將所有數據納入一個簇中,而后逐步將其細化、分裂,直到各對象形成一簇或達到終結條件,處理過程結束。
2.2.2 基于密度法
以DBSCAN法為例,該方法將簇定義成為“密度相連點的最大集合”。該數據挖掘算法的優(yōu)點在于:第一,不需要了解形成簇類的數量;第二,能發(fā)現(xiàn)任意形狀簇類(見圖2);第三,識別出噪聲點,甚至是檢測到離群點;第四,和數據庫一同使用后,能加速區(qū)域的查詢[6]。但此方法同樣存在不足之處,例如:第一,不能很好反映出高維數據;第二,無法很好反映出數據集以變化的密度;第三,若計算資源有限,但數據量卻非常龐大時,會極大地影響到該方法運算效率。
2.2.3 基于網格法
此方法優(yōu)點有處理效率高、時間短,典型方法包括STING,WAVECLUSTER.CLIQUE等。以STING為例,它能將空間區(qū)域劃分成多個的矩形單元。和其他運算技術方法相比,優(yōu)點如下:第一,能實現(xiàn)獨立查詢分析;第二,利于并行處理數據和增量更新;第三,此方法最典型的優(yōu)點是效率高[7]。但要注意雖然此運算方法處理速度很快,效率較高,但可能會降低簇的精確性和質量。
3 數據挖掘技術在信用信息分析面臨問題及對策
3.1 數據挖掘技術應用于信用信息分析面臨的問題
第一,信息來源單一。信息存在來源單一、覆蓋面窄的問題,而該問題所導致的結果,則是無法更全面地挖掘信息,促使最終的信用信息分析可信度、科學性明顯降低。第二,信息更新緩慢。當前社會經濟發(fā)展速度迅速,各種金融活動的流動也隨之加快。若對信用信息的收集、分析跟不上節(jié)奏,會導致信用信息的分析時效性顯著降低,影響到信息的具體使用。第三,信息分享不足。部分企業(yè)或單位不愿對信息合理的配置和共享,不僅可能影響到信息分析的時效性,甚至造成信息孤島、分散、屏蔽的狀態(tài),無法滿足當前社會用戶需求。第四,利益驅使影響。受到市場利益的驅使,以金融企業(yè)為例,在獲得大量用戶數據信息后,若對信用信息加以壟斷,就能在激烈市場競爭中占據有利的位置[8]。但如此舉措會影響到信用信息數據的聯(lián)通,加大了其他企業(yè)的數據挖掘成本。第五,法律制度較落后。和國外的發(fā)達國家相比,我國對信用信息的管理制度重視度相對不高,也缺乏更完善的信用管理法規(guī)體系和法律依據,諸多因素都會限制信用信息的發(fā)展水平。
3.2 數據挖掘技術在信用信息分析的應用對策
信用信息也有巨大信息量,數據挖掘技術能很好地對該類信息加以處理,滿足新時期用戶需求。我國對于信用信息的分析、評價相關制度建立相對于其他發(fā)達國家更晚,可以以數據挖掘技術為基礎,有效提升信用信息的運用價值。以下從4個方面來探究其應用。
3.2.1 強化海量數據處理效果
在對相應的信用信息數據分析處理時,最為關鍵的分析和評價,可著眼于對數據挖掘技術的計算方法上。分析除了借鑒其他發(fā)達國家的優(yōu)秀經驗外,還應當應結合我國實際國情來統(tǒng)計分析構建模型。近年來,我國對信用信息分析的重視程度不斷提升,數據挖掘技術的應用也愈發(fā)廣泛。信用信息數據量不斷增大,更要重視數學模型的建立。可利用關聯(lián)函數等方式來提高模型查詢、定位的效率。此外,數據挖掘技術本身具備了自動預測趨勢、描述等功能,能切入實際來分析當前事物的發(fā)展形勢,作用突出[9]總之,借助于數據挖掘技術來有效提取、分析海量的信用信息數據非常關鍵,整個過程中構建模型也勢在必行。
3.2.2 快速提煉信息分析報告
信息分析和論證、行為、決策等方面都有關。論證是根據已知“信息”來推論出新的信息的過程:決策則是根據已知的“信息”來指導個人或組織行為模式的轉變。信息分析側重于信息,信息不僅是決策的依據,也是行為改變的基礎。以往對信用信息進行分析時,因條件受到限制往往無法更全面地掌握出企業(yè)、個人所有的有效信息,存在信息閉塞的情況,很難用傳統(tǒng)的信用信息評價方式來評估,也無法全面觀察到有效信息的變化。如今,可積極發(fā)揮數據挖掘技術的作用。即便是不同格式的信息也能記憶加以轉化,更清晰直觀地反映出企業(yè)或事業(yè)單位的信用信息評審制度。同時利用此技術后能實現(xiàn)白動化查找分析,及時過濾剔除掉多余的信息,并借助于交互的方式分析,最終從不同格式的信息中獲取有作用的信用信息并分析,確保信用信息分析制度也能常規(guī)運作,獲得更為詳細完善的信息分析報告,來作為可靠的發(fā)展依據。
3.2.3 提前預測未來發(fā)展趨勢
信用風險指交易雙方不履行到期債務的風險,又被稱作違規(guī)風險。傳統(tǒng)的信息信用評價往往只能對某個企業(yè)、某個用戶的信用情況加以評估,缺乏預見性。當未來發(fā)展過程出現(xiàn)風險時,很可能造成損失。數據挖掘技術能更全面地分析企業(yè)或個人行為,了解企業(yè)或個人的日常交易行為模式、行為習慣等,從中獲取有利的信息數據后來實現(xiàn)對未來發(fā)展的預測,做到“防患于未然”。以金融行業(yè)機構為例,當預測到信用信息未來的發(fā)展趨勢后,能及時采取風險預防措施,最大化地減少所謂的信用風險,及時從深處挖掘到數據中的失信行為,確保穩(wěn)定發(fā)展。又如對當前企業(yè)、個人的信貸過程中使用數據挖掘技術,能利用其預測性來分析該對象在未來是否會有良好的信用制度,也能減少信用風險。
3.2.4 積極融合智慧化服務平臺
當前,數據挖掘技術和“智慧化”的融合已呈炙手可熱的趨勢,各類智慧場景(如智慧社區(qū)、智慧安防)層出不窮,促使數據平臺的智慧化發(fā)展不斷深化。以河南省某信用信息平臺智能化的成功案例分析,此平臺的建設可分為以下3個層面(見圖3)。第一,數據感知層。該層主要是負責對數據的質量、安全性加以管控的環(huán)節(jié),包含了硬感知、軟感知兩個方面。硬感知:收集以實體為載體(如二維碼、傳感器)的信息、狀態(tài)等數據;軟感知:搜集網絡爬蟲、系統(tǒng)日志、探針埋點等數據。第二,數據分析決策層。通過深入學習和利用數據挖掘技術分析后,能得出有價值且利于決策的信息,同時構建出對應模型[10]。第三,交互表現(xiàn)層。此層主要用于和外界的關聯(lián),用語音、視頻等方式交互。總之,通過積極融合智慧化服務平臺,能構建出更多的智慧化場景,充分發(fā)揮信用信息功能。
4 結語
綜上所述,數據挖掘技術在諸多企業(yè)、事業(yè)單位中的應用越發(fā)廣泛,甚至成為一種新的經濟資產。從宏觀角度來看,正是因為存在數據挖掘技術,才能從數據分析的層面給企事業(yè)帶來幫助,也為社會帶來全新的創(chuàng)業(yè)方向、商業(yè)模式和投資機會。目前,以大數據為基礎的各種科技類成果一躍成為市場發(fā)展的熱點,無論是產品營銷、企業(yè)風險管控,還是用戶體驗改進等方面都有大數據的身影,也取得豐碩實踐成果。未來除信用信息分析外,數據挖掘技術的運用會更加廣泛,并在更多行業(yè)中發(fā)揮出其重要價值。
參考文獻
[1]李迎國,李永華,何兆照.數據挖掘技術在高職教學質量評價中的應用[J].無線互聯(lián)科技,2022(2):134-135.
[2]陳銳,范小光,吳益平.基于數據挖掘技術的白水河滑坡多場信息關聯(lián)準則分析[J].中國地質災害與防治學報,2021(6):1-8.
[3]楊銀娣,嚴金哲,崔明哲,等.基于Tobit模型的大學生信用消費分析研究[J].中南民族大學學報(自然科學版),2021(6):654-660.
[4]郭文波,周慧靜.基于信息雙要素理論的公共信用信息增值與實踐路徑[J].宏觀經濟管理,2021(6):47-53.
[5]張巧珍,吳雯婷,李紫萱,等.采用數據挖掘技術對湖北省人類狂犬病開展生物信息學研究[J].中國生物工程雜志,2021( S1):14-29.
[6]鐘亮,郭熙,國佳欣,等.基于數據挖掘技術的高光譜土壤質地分類研究[J].中國農業(yè)科學,2020( 21):4449-4459.
[7]盂秋晴.在線健康信息的數據分析與挖掘技術研究——評《統(tǒng)計分析與數據挖掘技術》[J].材料保護,2020(9):164.
[8]李儀,陶宇.大數據技術下消費者個人信用信息共享的治理機制[J].中國流通經濟,2020(2):92-100.
[9]祁鵬,彭俊文,許多恒,等.基于頻繁事項數據挖掘的醫(yī)療設備技術管理研究[J].中國醫(yī)學裝備,2020(1):62-65.
[10]陳君.數據挖掘技術在二手車交易系統(tǒng)中的應用[J].計算機技術與發(fā)展,2020(5):180-184.
(編輯李春燕)