国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向電子商務的新一代驗證碼系統(tǒng)分析

2018-01-20 13:33任俊玲王興芬王承權
網(wǎng)絡空間安全 2017年12期
關鍵詞:機器學習電子商務

任俊玲+王興芬+王承權

摘 要:驗證碼是互聯(lián)網(wǎng)業(yè)務的安全基礎設施之一,也是目前保障電子商務業(yè)務安全的重要環(huán)節(jié)之一。論文從電子商務業(yè)務的驗證碼安全訴求和傳統(tǒng)驗證碼技術的特點出發(fā),對電子商務業(yè)務新一代驗證碼技術產(chǎn)生的必要性進行了闡述;通過對新一代驗證碼系統(tǒng)的具體實踐示例的分析,論述了電商業(yè)務中新一代驗證碼技術的基本原理;最后,對新一代驗證碼技術在電子商務中的價值進行了分析。

關鍵詞:電子商務;驗證碼;機器學習

中圖分類號: TP309 文獻標識碼:A

Analysis of A New Generation CAPTCHA System Focused on E-Commerce

Ren Jun-ling1, Wang Xing-fen1, Wang Cheng-quan2

(1.School of Information Management, Beijing Information Science & Technology University, Beijing 100192;

2. Information Work Center, Political Work Department of Peoples Republic of China Central Military Commission, Beijing 100120)

Abstract: CAPTCHA technology is one of the security infrastructures of internet business, and it is one of the important steps to safeguard the e-commerce business security. The necessary of the new generation CAPTCHA technology related to e-commerce business is formulated from the beginning of e-commerce business appeal on CAPTCHA and the features of the traditional CAPTCHA technology. And the fundamental principle of the new generation CAPTCHA technology in e-commerce business is discussed by analyzing one of its practice examples. Finally, the value of the new generation CAPTCHA technology is analyzed.

Key words: E-Commerce; CAPTCHA; Machine Learning

1 引言

驗證碼(CAPTCHA:Completely Automated Public Turing Test to Tell Computers and Humans Apart)指全自動區(qū)分計算機和人類的圖靈測試,是一種區(qū)分用戶是計算機和人的公共全自動程序[1]。安全的驗證碼需要作為服務器的計算機自動生成一個用于用戶回答的問題,但該問題只有人類才能解答,以此來防止用計算機生成的自動程序進行惡意攻擊,以達到進行人機區(qū)分的目的。驗證碼目前已被廣泛用作保護用戶賬號和密碼安全的一種技術,也成為各類互聯(lián)網(wǎng)業(yè)務的基礎安全設施之一。

電子商務(E-Commerce)主要指依托互聯(lián)網(wǎng)開展的交易活動,包括買賣實物、虛擬產(chǎn)品及服務。作為一種互聯(lián)網(wǎng)業(yè)務,驗證碼技術也是其基礎安全設施之一;作為一種商務活動,其安全訴求又有不同于其他互聯(lián)網(wǎng)業(yè)務的特點,因此對驗證碼技術的要求也有其特殊之處。

基于上述研究背景,本文結合電子商務業(yè)務的安全訴求,以及傳統(tǒng)驗證碼系統(tǒng)的特點,對新一代驗證碼技術及其在電子商務中的具體應用和價值進行研究。

2 傳統(tǒng)驗證碼技術分析

根據(jù)學術界的分類,傳統(tǒng)驗證碼生成技術通常有三種實現(xiàn)方案[2]:基于OCR(Optical Character Recognition,光學字符識別技術)的可視化方案、非OCR的可視化方案和非可視化方案。

2.1 基于 OCR 的可視化驗證碼

基于 OCR 的可視化驗證碼主要是文本圖像驗證碼兩種,它們一般是把文字信息以扭曲、變形或加干擾處理后的圖像形式顯示給用戶,要求用戶判定出正確的文本作為驗證碼的輸入[3]。這些驗證碼是根據(jù) OCR技術難以識別扭曲和與背景交疊粘連的弱點設計的?;?OCR 的平面靜態(tài)可視化驗證碼早期以其在安全性與易用性方面的優(yōu)勢,成為最常用的驗證碼技術[4]。

2.2 非 OCR 可視化驗證碼

由于許多基于OCR的字符圖像驗證碼在近些年被攻破,研究人員提出了非OCR可視化驗證碼。該類驗證碼生成技術的研究結合了計算機圖形學、計算機視覺、圖像處理等許多學科的理論和成果,主要分為基于圖像庫的驗證碼[5]和交互式驗證碼[6]以及三層動態(tài)驗證碼[7]等。

2.3 非可視化的驗證碼

非可視化的驗證碼主要是語音驗證碼[8-10],該技術通過瀏覽器內(nèi)建了一個語音輸入API,用戶通過聽力獲取驗證碼的有效信息,將正確的信息反饋給服務器,以便通過測試。

在上述驗證碼技術中,基于OCR的可視化驗證碼很流行,但隨著OCR技術的發(fā)展以及該模式不斷被研究,它們中的大多數(shù)都已被攻破,使得該類驗證碼幾乎不具有阻攔惡意攻擊的能力。同時,為了抵抗OCR識別,往往會加大驗證碼的復雜度,從而也給人類的識別帶來空前的困難,大大降低了用戶體驗。非OCR的可視化方案的實現(xiàn)雖然方式多樣,但一部分方法受到信息庫維護困難的限制,另一部分技術則最終還是要歸結到OCR問題,因此實用性不夠強,除了部分研究性的網(wǎng)站使用外,商業(yè)網(wǎng)站很少使用。非可視化的 CAPTCHA方案則主要是針對特殊場合和特殊使用群體進行研究設計,其應用范圍具有很大的限定性。因此,迫切需要一種應用范圍廣,魯棒性高的驗證碼。endprint

3 電子商務業(yè)務的驗證碼安全訴求

3.1 賬戶體系安全訴求

賬戶體系安全保障需求既需要對電子商務中的賬戶進行鑒別,同時又體現(xiàn)在防止惡意注冊和暴力破解兩方面。惡意注冊主要指通過程序產(chǎn)生大量無效用戶賬號,因為是機器自動化操作的,不是真正的用戶,所以這些賬號不能直接給電子商務交易平臺帶來收益卻在一定程度上提升運營成本,因此這類數(shù)據(jù)都是垃圾數(shù)據(jù),為此需要防止機器自動操作,從而起到防止惡意注冊的目的。在沒有安全措施的情況下,黑客很容易通過反復嘗試對密碼發(fā)起暴力破解,無論是哪種暴力破解方法,都將會增加服務器負擔,消耗系統(tǒng)資源,導致真正需要登錄的用戶登錄不暢。

3.2 交易體系安全訴求

交易體系安全訴求來自于電商實際交易場景下,由“羊毛黨”或問題商家等利用交易體系中存在的漏洞,制造虛擬交易、進行信息作弊及針對各類活動場景發(fā)起攻擊而產(chǎn)生。

來自問題商家的交易威脅常見的有刷單和刷排名等。刷單是業(yè)務數(shù)據(jù)造假的一種方式,通過虛假的交易來增大商家的交易量,進而提升商家的可信度。刷排名,則為商家通過某些手段,保持其各類商品名目都排在銷量靠前位置,搜索推薦都是這類店鋪的行為,也是提升商家可信度的一種方法。

“羊毛黨”指那些專門選擇互聯(lián)網(wǎng)公司的營銷活動,以低成本甚至零成本換取高額獎勵的人。他們往往會針對各種活動場景進行攻擊。如在電商類網(wǎng)站在“雙十一”之類的各種特殊節(jié)日,平臺或商家會推出大量類似送優(yōu)惠券的活動,攻擊者可直接通過自動模擬點擊刷活動,從而減少正常消費者獲取的活動優(yōu)惠,對于一些免單活動,還會直接導致商家銷售產(chǎn)品存在大量惡意退貨、退款,這些不僅使商家達不到推廣的目的,還降低了用戶對商家的信任度,對于商家投資成本帶來的回報與預期也有較大出入。

3.3 支付體系安全訴求

支付體系是電子商務交易過程業(yè)務安全最重要的環(huán)節(jié)。在支付過程中,驗簽不嚴的情況下,極有可能產(chǎn)生數(shù)據(jù)篡改偽造,從而引起交易相關數(shù)據(jù)的變化,擾亂正常的商務活動,使交易雙方蒙受損失或引起交易糾紛。同時在支付確認階段,也需要相應的安全機制幫助商家確定支付是否發(fā)生于賬戶真實主人。

3.4 電商評論安全訴求

在電子商務中,交易平臺允許用戶在網(wǎng)上對交易的各個方面發(fā)表評論,評論既是平臺對商家評級的重要來源,也是購買者進行購買的主要參考,因此,保證評論的安全和真實也是電子商務中的主要訴求。這就需要對在電商網(wǎng)站存在的推送垃圾評論、廣告和釣魚鏈接的現(xiàn)象以及通過系統(tǒng)漏洞或機器自動刷票產(chǎn)生的信息作弊等現(xiàn)象進行防范。

可見,電子商務中的驗證碼安全訴求包含:(1)與傳統(tǒng)驗證碼功能相同,對消費者、商品經(jīng)營者(商家)、支付和物流服務經(jīng)營者等多類主體進行身份驗證;(2)防止自動刷單、自動刷票等行為,即在進行人機識別的基礎上,更需要能夠判別出不同形式的機器多次自動操作行為,因此,需要更強大的功能支持;(3)電子商務作為基于互聯(lián)網(wǎng)的商務活動,用戶體驗在整個過程中起很關鍵的作用,用戶體驗差則可能直接導致用戶放棄購買,而傳統(tǒng)的驗證碼技術往往隨著人機識別能力的提高,用戶體驗逐步變差。由此可見,電子商務也迫切需要功能強大、用戶體驗好的新的驗證碼技術。

4 基于人工智能的驗證碼識別系統(tǒng)

2014年12月Google發(fā)表了一篇名為“Are you a robot? Introducing ‘No CAPTCHA reCAPTCHA”的文章[11],文章指出傳統(tǒng)驗證碼的方式令“真正的人類”頭疼,且研究表明當時的人工智能技術已經(jīng)能夠破解99.8%的驗證碼,因此傳統(tǒng)的驗證碼形式可能已不是一個可靠的方法。Google在文中提出了新的被稱作沒有驗證碼的驗證碼技術,即“No CAPTCHA reCAPTCHA”,如圖1(a)所示,用戶只需要在方框內(nèi)簡單的打鉤,就可以確認該用戶是真實用戶而非惡意機器人,操作非常簡單。如果noCAPTCHA認為你是真人,用戶則無需再輸入驗證碼。如果noCAPTCHA認為你不是真人操作,才會要求用戶填入傳統(tǒng)的CAPTCHA字符串或更先進的字符串,如圖1(b)所示,以此對用戶進行進一步人機識別。

NoCAPTCHA在用戶勾選復選框時,利用服務器中的風險分析引擎進行人機判定,其基本原理是通過收集用戶的操作行為特征與當前設備的設備信息等,通過人工智能技術對用戶參與情況進行分析,最終給出是否是真實人類的判定。對于真實人類,極大地提高了用戶體驗,而人工智能技術和二級驗證形式,為人機識別準確度提供了保證。

5 面向電子商務的新一代驗證碼系統(tǒng)分析——以滑動驗證碼服務系統(tǒng)為例

5.1 滑動驗證碼服務系統(tǒng)架構

以阿里巴巴滑動驗證碼系統(tǒng)為例,系統(tǒng)界面如圖2所示[12]。該系統(tǒng)基于Google的No-Captcha技術,并且結合阿里云機器學習和人工智能的方式,突破傳統(tǒng)驗證碼的最新人機識別產(chǎn)品,采用先進的風險分析引擎來區(qū)分人類和機器人。其具體架構和工作流程如圖3所示。

滑動驗證碼系統(tǒng)基本工作流程:用戶向服務器端提交滑動行為,服務器則會采集客戶的相關信息,運用所采集的信息通過服務器的風險評估系統(tǒng)對客戶行為進行評估,將評估結果返回風險決策系統(tǒng),生成決策信息,進而返回給客戶端,作為對用戶滑動行為的反饋。

5.2 客戶信息采集系統(tǒng)

客戶信息采集,主要指對用戶終端的可用信息進行采集。常用的采集信息分為設備軟硬件信息、用戶環(huán)境信息、用戶交互行為數(shù)據(jù)、用戶歷史信息和用戶業(yè)務數(shù)據(jù)等幾類。

(1)設備軟硬件信息指用戶操作系統(tǒng)版本、CPU和瀏覽器版本、屏幕分辨率、屏幕尺寸、屏幕色彩等客戶端設備固有信息,用戶往往都在固定的設備上進行業(yè)務操作,因此可以通過對采集的設備信息進行加密,作為對用戶的唯一標識符,即設備指紋,往往作為服務器標識用戶行為的基礎。endprint

(2)用戶環(huán)境信息包括如瀏覽器安裝的插件、瀏覽器語言、瀏覽器支持的字體、用戶的IP信息、Cookie 信息、每個瀏覽器針對不同方法的處理特性等客戶端運行環(huán)境的相關信息。這些信息與設備軟硬件信息相比有其靈活性,但與其他類信息相比又相對穩(wěn)定,可以作為服務器標識用戶的輔助信息。

(3)用戶交互行為數(shù)據(jù)主要針對人與客戶端的交互數(shù)據(jù),人的正常行為具有相對隨機性且難以預測,機器要模擬正常人非常困難。交互行為數(shù)據(jù)的采集主要采集正常人的動作,如鼠標移動、鼠標點擊、鼠標釋放、觸摸板動作、鍵盤操作等數(shù)據(jù),比如采集鼠標在某個區(qū)域內(nèi)的連續(xù)坐標變化及時間點、鍵盤操作的時間點及鍵值等,與正常人的交互行為數(shù)據(jù)進行比對。

(4)用戶歷史信息包括歷史行為信息,例如交易、支付、登錄等信息,可以作為對用戶進行驗證的輔助信息。

(5)用戶業(yè)務數(shù)據(jù)則視具體業(yè)務情況而定,比如針對用戶身份的CardID、手機號、電子信箱等。

5.3 風險評估系統(tǒng)

風險評估系統(tǒng)的核心是風險分析引擎。風險分析引擎是根據(jù)歷史采集的大量有標注的樣本信息,建立用戶操作是人為操作或是機器操作的模型,從而形成人機鑒別的判定方法。

風險評估過程即將采集的用戶信息輸入風險分析引擎,由風險分析引擎進行數(shù)據(jù)分析,對用戶的整體操作行為進行人機屬性風險評估,往往通過風險值描述其人機判定的結果。比如風險評估系統(tǒng)對采集的各類信息逐次進行判定,設備指紋與賬戶對應情況,用戶環(huán)境變動的情況,用戶的行為分析比如分析鼠標移動的頻繁、坐標在某個區(qū)域或某個操作下的動作速度、是否為直線等,結合用戶歷史行為的估值等,最終給出風險值或風險級別,作為后續(xù)風險決策的依據(jù)。

5.4 風險決策系統(tǒng)

風險決策系統(tǒng)根據(jù)風險評估系統(tǒng)給出的風險判定進行后續(xù)操作控制的環(huán)節(jié),后續(xù)操作包括認可該操作,進行二次判斷或直接阻斷等。

阿里巴巴滑動驗證碼系統(tǒng)給出三種決策機制。

(1)正常用戶:風險評估為低危級別,驗證直接通過,如圖4所示,直接進行業(yè)務操作。

(2)可疑用戶:風險評估為中危級別,滑動后,會進入二次驗證,用戶Web端出現(xiàn)傳統(tǒng)驗證碼形式,用戶輸入成功,才會通過驗證,如圖5所示。

(3)風險用戶:風險評估為高危級別,滑動后則被直接阻斷,無法進入業(yè)務環(huán)境進行操作,如圖6所示。

5.5 新一代驗證碼技術價值分析

截至2016年Q2數(shù)據(jù)顯示,淘寶天貓共擁有近6億注冊用戶數(shù),每天有超過8000萬的固定訪客,同時每天的在線商品數(shù)已經(jīng)超過了10億件,平均每分鐘售出4.8萬件商品。為服務好6億淘寶用戶,淘寶需要通過人機識別驗證碼技術,防止300萬惡意用戶注冊、每天承受2億次的密碼暴力破解。在2016年的“雙11”中,天貓全天交易額為912.17億元,最高峰時候的每秒訂單是14萬筆/s。

在新一代人機識別驗證碼的幫助下阿里集團每年節(jié)省30億元營銷費用的支出;阿里電商每年“雙11”都會聯(lián)合1000萬商家投入巨資進行營銷活動,采用新一代人機識別的驗證碼技術后,降低了30%以上活動券的惡意領用;官方數(shù)據(jù)統(tǒng)計,在“雙11”這一天識別的惡意領用達數(shù)百萬次;人機識別技術為阿里每年“雙11”降低了60%的營銷推廣費用,直接節(jié)約營銷推廣費用數(shù)十億元,如圖7所示??梢姡乱淮炞C碼技術發(fā)揮了重要作用,也滿足了電子商務行業(yè)對于驗證碼技術的需求。

6 結束語

驗證碼技術最早被作為解決門戶網(wǎng)站惡意用戶注冊的基本安全設施引入,之后逐步解決了不同時期業(yè)務安全和用戶體驗均衡問題。但隨著互聯(lián)網(wǎng)的發(fā)展,傳統(tǒng)的驗證碼技術也無法滿足現(xiàn)有電子商務業(yè)務中用戶體驗和安全性的要求,人工智能技術的成熟為傳統(tǒng)驗證碼的改進提供了解決方案,基于人工智能的驗證碼技術應運而生。本文從新一代基于人工智能的驗證碼系統(tǒng)的出現(xiàn)背景出發(fā),對該技術的基本架構和實現(xiàn)流程進行闡述,并對其在電子商務中的已有價值進行分析。

基金項目:

1.2014年度中共北京市委組織部優(yōu)秀人才培養(yǎng)資助項目(項目編號:2014000020124G101,項目名稱:面向流程的圖像信息隱藏性能評價方法的研究);

2.北京市教育委員會2014年度科技計劃重點項目(項目編號:KZ201411232036,項目名稱:電子商務平臺交易糾紛規(guī)避的若干支撐技術研究);

3.2015年度國家自然科學基金面上項目(項目編號:71571021,項目名稱:網(wǎng)絡零售交易風險動態(tài)評估及預警研究)。

參考文獻

[1] 王靜,熊育婷,鐘安鳴,付宇.面向工程實踐的計算機病毒課程教學方法研究[J].信息安全與技術, 2014,(6):67-69.

[1] L.von Ahn, M.Blum, and J. Langford. Telling humans and computers apart automatically[J].Communications of the ACM, February 2004, 47(2): 56–60.

[2] 李雪雁.反光學字符識別的可視化交互式驗證碼生成機制研究[D].北京信息科技大學,2011.

[3] Mohammad Shirali-Shahreza, Sajad Shirali-Shahreza. CAPTCHA for Blind People[C].Signal Processing and Information Technology, 2007: 995~998.

[4] Ahn L, Blum M, Hopper N, et al. CAPTCHA:Using Hard AI Problems for Security[J].Lecture Notes in Computer Science, 2003, 2656 (9): 294~311.endprint

[5] M. Shirali-Shahreza, S. Shirali-Shahreza, Motion CAPTCHA[C], Conference on Human System Interactions, 2008, pp.1042-1044.

[6] Rich Gossweiler, Maryam Kamvar, Shumeet Baluja, Whats Up CAPTCHA? A CAPTCHA Based on Image Orientation[C], oceedings of WWW'2009, pp.841-850.

[7] JingSong Cui, WuZhou Zhang, A 3-layer Dynamic CAPTCHA Implementation[C], Second International Workshop on Education Technology and Computer Science, 2010, pp.23-26.

[8] Luis von Ahn, Benjamin Maurer, Colin McMillen et al. ReCAPTCHA: Human-Based Character Recognition via Web Security Measures[C], Science, 2008(321), pp.1465-1468.

[9] Goole. reCAPTCHA[EB/OL]. http://recaptcha.net/. Accessed in Feb 2010.

[10] Yannis Soupionis, Dimitris Gritzalis. Audio CAPTCHA: Existing solutions assessment and a new implementation for VoIP telephony [J]. Computers &Security, 2012(29), pp.603-618.

[11] http://googleonlinesecurity.blogspot.co.uk/2014/12/are-you-robot-introducing-no-captcha.html.

[12] https://help.aliyun.com/document_detail/28310.html?spm=5176.7843120.6.539.NjmmIn.endprint

猜你喜歡
機器學習電子商務
小微企業(yè)電子商務平臺的開發(fā)與應用
O2O電子商務信任問題分析
O2O電子商務信任問題分析
遼寧大拇哥農(nóng)業(yè)電子商務有限公司
電子商務法草案首審
基于詞典與機器學習的中文微博情感分析
基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究
機器學習理論在高中自主學習中的應用
裕民县| 广河县| 稻城县| 宁明县| 内乡县| 景宁| 新宁县| 永靖县| 镶黄旗| 双峰县| 涪陵区| 军事| 黄大仙区| 嘉定区| 龙南县| 莱芜市| 凤台县| 西贡区| 宜兰市| 泽库县| 富平县| 罗江县| 菏泽市| 嘉义县| 建瓯市| 乳源| 沅江市| 阜新市| 乌兰县| 象山县| 武宣县| 渭南市| 彭泽县| 旅游| 九江县| 南雄市| 巴中市| 通海县| 邹平县| 祁门县| 长岭县|