黃樹斌 王彤
【 摘 要 】 在線社交網絡中,異常用戶是始終存在的?,F(xiàn)代的手持移動終端設備在提升普通用戶便攜性的同時,也降低了異常用戶在社交網絡中的行為成本。KMV模型是美國KMV公司于1993年建立,用來估計借款企業(yè)違約概率的方案,是應用最廣泛的信任度量模型之一。論文嘗試使用KMV模型來映射計算社交網絡中異常用戶的預期違約率,在保證KMV模型高效、精確的前提下,保證了異常用戶的識別率,能夠運用在實際社交網絡環(huán)境中。
【 關鍵詞 】 在線社交網絡;異常用戶;預期違約率;KMV
【 Abstract 】 Abnormal user will exist permanently in Online Social Network(OSNs). Modern mobile device as well as improve the portability of ordinary users also reduces the cost of malicious behaviors in OSNs. KMV model was posted by KMV Corporation in 1993 to focus on estimating the Expected Default Frequency(EDF) of the enterprise, KMV is the one of the most widely used credit monitor model. This paper use KMV to modeling the EDF of abnormal users in OSNs, has a high recognition rate of abnormal users in guarantee the efficiency and accuracy of KMV. It can be used in actual OSNs.
【 Keywords 】 osns; abnoraml user; edf; kmv
1 引言
隨著移動手持設備的發(fā)展和社交網絡的進一步演化,越來越多的人能夠低成本的使用社交網絡。由于移動手持設備的功能的逐漸增加,社交網絡的終端設備已經逐漸由PC端轉移到移動端。移動端手持設備具有使用時間片分散、使用成本低、用戶忍耐度低等屬性,這些屬性,給社交網絡帶來了一些新的特征。同時,也造成了異常用戶的行為成本降低,增大了異常用戶的數(shù)量。
在以往的研究中,對于異常用戶的檢測使用的方案大致有基于行為特征、基于內容、基于圖、無監(jiān)督學習等方向。使用如上方案,能夠在一定程度上達到檢測異常用戶的目的,不過仍有一些局限性,具體表現(xiàn)在兩方面。
第一,無法發(fā)現(xiàn)并檢測新的攻擊方式:由于社交網絡中異常用戶是始終存在的,因此,社交網絡中會不斷出現(xiàn)各種新的攻擊方式。異常用戶由不同的目的,會根據(jù)社交網絡的用戶監(jiān)督系統(tǒng)設置,不斷調整自己的攻擊方式。唯一能識別新的攻擊特征的無監(jiān)督學習方案,由于方案本身的一些局限性,仍然需要有運營人員時刻關注社交網絡的發(fā)展。
第二,處理數(shù)據(jù)量過大,無法達到異常用戶檢測所需的實時性:基于推薦的一些解決方案,包括基于內容的方案,能夠達到較高的準確性,但是由于解決方案本身需要分析大量數(shù)據(jù),因此實時性無法保證,一般用于離線數(shù)據(jù)分析等場景中。無法在惡意用戶的使用過程中及時的發(fā)現(xiàn)并采取相應措施。
本文將經濟學領域中的KMV模型應用于社交網絡中,通過相應的概念映射,能夠利用KMV模型中的思想,得到相應的用戶節(jié)點的預期違約率。從而判斷在選定時間周期內,用戶的違約概率,以此來相應的選擇應對方案,減少異常用戶對正常用戶以及社交網絡本身造成更大的信息干擾。
2 KMV模型基礎思想
KMV模型是美國KMV公司于1997年建立的用來估計借款企業(yè)違約概率的方案,是應用最廣泛的信任度量模型之一。該模型認為,貸款的信用風險是在給定負債的情況下,由債務人的資產市場價值決定的。結合Black-scholes期權定價公式,估算出企業(yè)資產的市場價值、資產價值的波動性。根據(jù)公司的負債計算出公司的違約實施點,計算相應的違約距離。再根據(jù)違約距離計算出預期違約率(EDF)。
KMV模型的主要優(yōu)勢在于,使用了資本市場的信息而不是歷史賬面資料進行預測,很好的將市場信息加入了預測邏輯中,更夠反應企業(yè)當前的信用狀況。在一定的時間積累內,KMV模型可以預測得到違約區(qū)間。因此,本文將KMV模型引入社交網絡中,嘗試達到相對實時、運算資源消耗較少的目的。
3 KMV模型在社交網絡中的映射
在本部分中,我們將KMV模型中的理論,映射到社交網絡中,嘗試解決社交網絡中異常用戶檢測的問題。
首先,KMV模型的主要思想:貸款的信用風險是在給定負債的情況下由債務人的資產市場價值決定的。映射在社交網絡中,可以表述為:觀察用戶點的異常行為風險,是在已記錄的行為情況下,由觀察用戶點的總體信任值決定的。也就是說,被觀察的用戶點,產生異常行為的可能性,和用戶點的前期行為有關,也和用戶點的當前未清算的行為(債務)有關。
社交網絡中概念和KMV模型中的概念對應起來。
(1)用戶信任值:在社交網絡中,用戶的信任值表示用戶的一個評分值。與KMV模型中企業(yè)股權的市場價值相對應。(2)用戶行為:本文將社交網絡中用戶的行為分為正向行為、負向行為、中性行為。正向行為對信任值有益,負向行為對信任值有害,中性行為不對信任值本身產生影響。(3)單次使用時長:在社交網絡中,存在一個平均單次使用時長的數(shù)值,表示一個用戶平均一次使用社交網絡的時長。本文使用該時長作為一個時間段,在一個時間段內,所有的正向行為、負向行為,加權得到用戶的具體信任值增減。(4)使用天為單位,將一個單位時間內的信任值增加作為債務和收益,下一個有效單位時間內才計算入總體信任值。
4 算法實施
4.1 數(shù)據(jù)說明
實驗數(shù)據(jù)集使用的是目標應用:Feeling 大學聊天交友社交APP。目前為止,該應用累計用戶在20萬人左右,作為研究目標,可以代表一般的社交網絡應用。從應用中隨機選取用戶100人,其中包含目標用戶點10人,參照用戶點90人,終端類型為 iOS,注冊時長在一周以上,活躍時間超過1天,均為產生用戶行為數(shù)據(jù)在10以上的用戶。以一個月為分析時間段,一天為一個變化周期,單次使用時長為計算周期。根據(jù)移動互聯(lián)網的特性,去除掉不存在操作的時間段,得到用戶的活動次數(shù)頻次圖1所示。
從圖1可以看出,作為分析對象的100名用戶,在12月中的活躍率在40%-70%之間。在所有記錄的用戶行為中,選擇能夠產生數(shù)據(jù)的行為,加權后如圖2所示。
4.2 算法描述
根據(jù)以上思想,KMV模型算法描述如下:
用戶的當前信任值VA
輸入:一個月內觀察點的加權行為數(shù)據(jù)
輸出:觀察點的信任值歷史波動率αA
輸入:觀察點的當前時間段債務與收入
輸出:違約點DP= LS+LS違約距離DD=
最終得到觀察點的預期違約率:EDF=N[-DD]
4.3 實驗結果
得到的最終預期違約率如圖3所示。
作為觀察點的10名用戶中,經過人工分析后得出的結論表1所示用戶標記。
從表1中可以發(fā)現(xiàn),人工分析后,用戶標記大致和預期違約率走勢相吻合。對于特殊點r6,由于有效數(shù)據(jù)過少,算法與人工分析都暫時無法判斷用戶屬性。
5 結束語
將經濟學領域中模型映射到社交網絡中,用作用戶分析,是一個比較有趣的問題。作為經濟學分析對象的上市公司,有很多行為都和用戶在社交網絡中產生的行為非常類似。使用的模型,能夠很好地對分析對象行為進行預測,在實時性和準確性上都達到了一個較滿意的效果。但是,由于分析對象本質的不同,需要對模型進行修正,也需要對分析的用戶做一些篩選。
最終結果中,KMV模型雖然對目標用戶上下限的分析預測較為準確,但仍然還存在部分中間用戶無法較好的判斷。
因此,在后續(xù)研究中,將研究KMV模型中違約點的設定方式,同時搜集更多的用戶有效行為數(shù)據(jù),進一步提升算法對于異常用戶判斷的準確性。
參考文獻
[1] 張玉清,呂少卿,范丹.在線社交網絡中異常賬號檢測方法研究[J].計算機學報,2015(10).
[2] 孫小麗.基于KMV模型的商業(yè)銀行信用風險測算研究[J].北京郵電大學,2013年.
[3] 馬若微,張微,白宇坤.我國上市公司動態(tài)違約概率KMV模型改進[J].系統(tǒng)工程,2014(11).
作者簡介:
黃樹斌(1991-),男,江西宜春人,畢業(yè)于重慶大學,在讀研究生,碩士;主要研究方向和關注領域:社交網絡、隱私保護。
王彤(1990-),男,四川南充人,畢業(yè)于重慶大學,在讀研究生,碩士;主要研究方向和關注領域:推薦系統(tǒng)、隱私保護。