国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

移動(dòng)端所生成大數(shù)據(jù)的多元用途

2019-09-10 07:22:44王海
學(xué)習(xí)與科普 2019年22期
關(guān)鍵詞:日志語(yǔ)料庫(kù)文檔

王海

摘 要:在本次研究中,筆者從統(tǒng)計(jì)自然語(yǔ)言處理的角度,對(duì)移動(dòng)端生成的異常日志做了一個(gè)系統(tǒng)分析。按照實(shí)際情況對(duì)統(tǒng)計(jì)自然語(yǔ)言處理原理進(jìn)行了闡述。然后,利用統(tǒng)計(jì)自然語(yǔ)言處理原理對(duì)異常日志做大數(shù)據(jù)處理應(yīng)用進(jìn)行了論述,以供參考。

概述

隨著自2010年來(lái),移動(dòng)網(wǎng)絡(luò)的迅猛發(fā)展,從2G到3G再到4G,還有未來(lái)可期的5G。更快捷的移動(dòng)網(wǎng)絡(luò)不僅讓用戶得到了很多互聯(lián)網(wǎng)服務(wù),而且移動(dòng)端本身也可以上傳各種類型的數(shù)據(jù)及內(nèi)容到云端,以供互聯(lián)網(wǎng)服務(wù)提供商進(jìn)行大數(shù)據(jù)分析。本文就論述移動(dòng)端所生成大數(shù)據(jù)的多元用途、大數(shù)據(jù)技術(shù)處理,以及由此所衍生的技術(shù)范疇。

質(zhì)量分析

通常系統(tǒng)自帶應(yīng)用,如電話、短信等等。以及豐富繁多的第三方應(yīng)用,如:微信、支付寶等等。衡量系統(tǒng)自帶應(yīng)用和第三方應(yīng)用這兩類應(yīng)用質(zhì)量的技術(shù)指標(biāo)有:

1.崩潰率,崩潰即是應(yīng)用發(fā)生了嚴(yán)重的異常,系統(tǒng)強(qiáng)制將應(yīng)用退出。崩潰率就是,一個(gè)應(yīng)用一天發(fā)生的崩潰次數(shù),除以該應(yīng)用的一天內(nèi)的啟動(dòng)次數(shù)。

3.用戶界面的刷新速率。

這三個(gè)技術(shù)指標(biāo),實(shí)際上對(duì)應(yīng)著三類異常的發(fā)生概率。當(dāng)三類異常發(fā)生時(shí),會(huì)產(chǎn)生系統(tǒng)日志,那么,如何收集分散在各地的用戶手頭上的手機(jī)內(nèi)的異常日志呢?這就需要上報(bào)機(jī)制,通過(guò)移動(dòng)網(wǎng)絡(luò)上傳到云端。

通過(guò)將移動(dòng)端的崩潰日志,無(wú)響應(yīng)日志上報(bào)到云端,就可以找到產(chǎn)生崩潰和無(wú)響應(yīng)的原因,并定位在客戶端代碼中的不良代碼段。把不良代碼段進(jìn)行優(yōu)化修改,通過(guò)驗(yàn)證就可以在下個(gè)版本發(fā)布出去,那么下個(gè)版本的移動(dòng)端的軟件質(zhì)量就得到了提升。

應(yīng)用發(fā)生空指針異常并崩潰時(shí)生成的日志

如果一個(gè)應(yīng)用的日活躍數(shù)為一百萬(wàn),崩潰率為1%,那么云端每天收集到的崩潰日志的份數(shù)為:一百萬(wàn) x 1% = 一萬(wàn)。日活躍數(shù)一百萬(wàn)還只是相對(duì)較小規(guī)模,即便如此每天產(chǎn)生一萬(wàn)份日志,人工也是無(wú)法及時(shí)處理的。所以就需要借助大數(shù)據(jù)技術(shù)的處理能力。

首先是把日志做分類處理,以便于開(kāi)發(fā)人員分門別類的分析產(chǎn)生異常的原因,因?yàn)榘l(fā)生異常的原因有多種,所以產(chǎn)生的異常日志的內(nèi)容樣式也是有多種。這時(shí)就需要借助大數(shù)據(jù)技術(shù)的分類算法,來(lái)對(duì)數(shù)量繁多的異常日志進(jìn)行分類處理了。實(shí)際上這里提到的大數(shù)據(jù)技術(shù),就是統(tǒng)計(jì)自然語(yǔ)言處理。接下來(lái)的這個(gè)段落就是介紹如何將統(tǒng)計(jì)自然語(yǔ)言處理運(yùn)用到異常日志的分類處理。

當(dāng)今的自然語(yǔ)言處理方式,就是使用數(shù)學(xué)統(tǒng)計(jì)的方式。讓計(jì)算機(jī)處理自然語(yǔ)言,就是在自然語(yǔ)言這種上下文相關(guān)的特性建立數(shù)學(xué)模型。這個(gè)數(shù)學(xué)模型就是在自然語(yǔ)言處理中常說(shuō)的統(tǒng)計(jì)語(yǔ)言模型(Statistical Language Model),它是今天所有自然語(yǔ)言處理的基礎(chǔ)。

舉個(gè)例子,如下這兩句話:

△美聯(lián)儲(chǔ)主席昨天告訴媒體7000億美元的救助資金將借給上百家銀行、保險(xiǎn)公司。(句一)

△聯(lián)儲(chǔ)美主席昨保險(xiǎn)天救助告訴媒體7000億美上百家銀行元資金的將借給、公司。(句二)

統(tǒng)計(jì)模型的出發(fā)點(diǎn)很簡(jiǎn)單,并不是理解這句話的語(yǔ)法語(yǔ)義來(lái)判別是否合理,而是看它的可能性大小如何。至于可能性就用概率來(lái)衡量。句一很通順好理解,它的出現(xiàn)概率大致是10-20。句二是病句無(wú)法理解,它的出現(xiàn)概率大致概率是10-50。因此,句一的出現(xiàn)的概率遠(yuǎn)大于句二。

這個(gè)方法更普遍而嚴(yán)格的描述是:假定S表示某一個(gè)有意義的句子,由一連串特定順序排列的詞w1, w2, …, wn組成,這里n是句子的長(zhǎng)度。我們想知道S在文本中出現(xiàn)的可能性,也就是數(shù)學(xué)上所說(shuō)的S的概率P(S)。因此,需要有個(gè)數(shù)學(xué)統(tǒng)計(jì)模型來(lái)估算。既然S = w1,w2,…, wn,那么不妨把P(S)展開(kāi)表示:

P(S) = P(w1,w2,…, wn)

利用條件概率的公式,S這個(gè)序列出現(xiàn)的概率等于每一個(gè)詞出現(xiàn)的條件概率相乘,于是P(S) = P(w1,w2,…, wn)可展開(kāi)為:

P(S) = P(w1,w2,…, wn)

= P(w1) P(w2 | w1)P(w3 | w1, w2) … P(wn | w1,w2,…, wn-1)

其中P(w1)表示第一個(gè)詞w1出現(xiàn)的概率;P(w2 | w1)是在已知第一個(gè)詞的前提下,第二個(gè)詞的概率;以此類推。不難看出,詞wn的出現(xiàn)概率取決于它前面的所有詞。

為了減少計(jì)算量,就假設(shè)任意一個(gè)詞wi出現(xiàn)的概率只同它前面的詞 wi-1有關(guān),于是問(wèn)題就變得很簡(jiǎn)單了。這種假設(shè)在數(shù)學(xué)上稱為馬爾可夫假設(shè)?,F(xiàn)在S出現(xiàn)的概率就變得簡(jiǎn)單了:

P(S) = P(w1,w2,…, wn)

= P(w1) P(w2 | w1)P(w3 | w2) … P(wn | wn-1)

此公式對(duì)應(yīng)的統(tǒng)計(jì)語(yǔ)言模型是二元模型(Bigram Model)

接下來(lái)的問(wèn)題就是如何估計(jì)每個(gè)詞出現(xiàn)的條件概率P(wi | wi-1)。根據(jù)它的定義:

P(wi | wi-1)=P(wi-1,wi)/P(wi-1)

因?yàn)橛辛舜罅繑?shù)字化文本,也就是專業(yè)人士講的語(yǔ)料庫(kù)(corpus),只要數(shù)一數(shù)wi-1, wi這對(duì)詞在統(tǒng)計(jì)的文本中前后相鄰出現(xiàn)了多少次#( wi-1, wi),以及wi-1本身在同樣的文本中出現(xiàn)了多少次#(wi-1),然后用#(wi-1, wi)和#(wi-1)這兩個(gè)數(shù)分別除以語(yǔ)料庫(kù)的大小#,即可得到二元組的相對(duì)頻度。

根據(jù)大數(shù)定理,只要統(tǒng)計(jì)量足夠,相對(duì)接頻度就等于概率,聯(lián)合概率和邊緣概率就可以這樣表達(dá):

P(wi-1,wi)=(wi-1,wi)/# P(wi-1)=(wi-1)/#

再把聯(lián)合概率P(wi-1,wi)和P(wi-1)邊緣概率帶入上面的條件概率公式:

P(wi | wi-1)=(wi-1,wi)/(wi-1)

上述的推導(dǎo)過(guò)程,還是明確的說(shuō)明了現(xiàn)代自然語(yǔ)言處理的方式就是使用數(shù)學(xué)統(tǒng)計(jì)的方式。更是一種思維方式的闡述,我們?cè)僮鲎匀徽Z(yǔ)言處理的很多細(xì)分領(lǐng)域的工作時(shí),都是基于歷史已有的語(yǔ)料資源,利用數(shù)學(xué)統(tǒng)計(jì)知識(shí),來(lái)估算現(xiàn)有情況和歷史相符合的概率大小。

如果要借助統(tǒng)計(jì)自然語(yǔ)言處理的方式,對(duì)異常日志這一自然語(yǔ)言的特殊子類進(jìn)行分類,就要做建立異常日志的特有語(yǔ)料庫(kù)。利用典型類型的異常日志作為語(yǔ)料庫(kù)的具體實(shí)例內(nèi)容,作為“崩潰、應(yīng)用無(wú)響應(yīng)、內(nèi)存溢出錯(cuò)誤”這三類異常日志類型的基準(zhǔn),移動(dòng)端所上報(bào)的異常日志和異常日志語(yǔ)料庫(kù)中的基準(zhǔn),做上述的相似性概率計(jì)算,即可得出和哪個(gè)類型的異常日志基準(zhǔn)相似概率最大,即算作哪個(gè)類型的異常日志分類。

這個(gè)異常日志分類的數(shù)據(jù)處理方式,是有監(jiān)督的處理方式,因?yàn)榛诋惓H罩菊Z(yǔ)料庫(kù)中的基準(zhǔn)日志作為標(biāo)簽。通常在提升移動(dòng)端應(yīng)用的質(zhì)量過(guò)程中,需要及時(shí)修復(fù)用戶遇到最多的軟件異常缺陷。這個(gè)需求場(chǎng)景下,就需要把相同位置發(fā)生的異常都收集整理到一起組成一個(gè)集合,再對(duì)多個(gè)集合中的異常日志數(shù)量做排序,就可以得到用戶遇到次數(shù)最多的異常。

那么如何將相同位置發(fā)生的異常都收集整理到一起組成一個(gè)集合呢?同樣要利用統(tǒng)計(jì)自然語(yǔ)言處理的大數(shù)據(jù)處理方式,即聚類,放到統(tǒng)計(jì)自然語(yǔ)言處理這個(gè)范疇內(nèi),就是主題模型。

我再回到統(tǒng)計(jì)自然語(yǔ)言處理領(lǐng)域探討主題模型,假如有一篇文章文本,通過(guò)里面的詞,來(lái)確定它是什么類型的文章,如果文章中出現(xiàn)很多體育類的詞,比如,籃球,足球之類的,那么主題模型就會(huì)把它劃分為體育類的文章。主題模型,顧名思義就是文章和主題的對(duì)應(yīng)關(guān)系,納入統(tǒng)計(jì)的概念講就是文章和主題的對(duì)應(yīng)概率計(jì)算。顯然文章由眾多詞所組成,也就延伸為:文章-主題-詞的關(guān)系及相應(yīng)的概率問(wèn)題。

LDA(Latent Dirichlet Allocation)的定義:

△是實(shí)現(xiàn)主題模型的一種無(wú)監(jiān)督的方法。在訓(xùn)練時(shí)不需要手工標(biāo)注的訓(xùn)練集,需要的是文檔集和指定主題的個(gè)數(shù)。

△是一種典型的詞袋模型,它認(rèn)為一篇文檔是由一組詞組成的集合,詞與詞之間沒(méi)有順序和先后關(guān)系。

△是一種主題模型,它可以將文檔集中的每篇文檔按照概率分布的形式給出。

△一種典型的詞袋模型,它認(rèn)為一篇文檔是由一組詞組成的集合,詞與詞之間沒(méi)有順序和先后關(guān)系。

LDA的數(shù)學(xué)解釋是:同一主題下,某個(gè)詞出現(xiàn)的概率,以及同一文檔下,某個(gè)主題出現(xiàn)的概率,兩個(gè)概率的乘積,可以得到某篇文檔出現(xiàn)某個(gè)詞的概率。

現(xiàn)有的是詞和文章,那么主題是如何冒出來(lái)的?這是我比較困惑的。但實(shí)際上LDA的輸出結(jié)果只是對(duì)主題模型進(jìn)行分類,并沒(méi)有給出具體的主題模型的類別,如:體育、財(cái)經(jīng)這樣的具體主題類型并沒(méi)有給出。

LDA的輸入是文檔,輸出有兩項(xiàng):

△一個(gè)評(píng)估,多少主題對(duì)應(yīng)一個(gè)文檔,實(shí)際上是概率

△另一個(gè)評(píng)估,一個(gè)主題生成多少詞,實(shí)際上也是概率

LDA的核心就是這個(gè)公式:

P(詞 | 文檔) = P(詞 | 主題)P(主題 | 文檔)

數(shù)學(xué)表達(dá)式:

P(w | d) = P(w | t) * P(t | d)

針對(duì)異常日志這樣的自然語(yǔ)言,就需要把其中發(fā)生異常日志的位置字段做高權(quán)重運(yùn)算。這樣就可以按照“位置字段”對(duì)異常日志進(jìn)行聚類,生成異常日志的主題模型。

通過(guò)上報(bào)異常日志數(shù)據(jù),對(duì)日志數(shù)據(jù)進(jìn)行分類和聚類的處理,再解決重點(diǎn)的缺陷,最后通過(guò)發(fā)布新版本這樣的流程,就可以快速高效的提升應(yīng)用的質(zhì)量,提升用戶體驗(yàn)的同時(shí)也就更加圓滿的落地了業(yè)務(wù)。否則在一個(gè)崩潰、無(wú)響應(yīng)頻發(fā)的應(yīng)用內(nèi),業(yè)務(wù)流程都用可能無(wú)法運(yùn)行通暢,更是無(wú)法談?wù)撋虡I(yè)價(jià)值了。

這就是一個(gè)運(yùn)用大數(shù)據(jù)技術(shù),高效提升移動(dòng)端應(yīng)用質(zhì)量的一個(gè)范例。

展望,通過(guò)移動(dòng)端應(yīng)用生成的大數(shù)據(jù),還可以進(jìn)行:

·用戶行為分析,哪些位置、樣式、色彩的圖標(biāo)或按鈕會(huì)比較顯著的吸引用戶產(chǎn)生點(diǎn)擊行為??梢杂涗浻脩舻狞c(diǎn)擊操作路徑,就能夠通過(guò)產(chǎn)品設(shè)計(jì)層面,規(guī)劃出更為符合大眾直覺(jué)的頁(yè)面層級(jí)。

·商業(yè)信息分析,對(duì)于電商類移動(dòng)端應(yīng)用,可以通過(guò)移動(dòng)端上報(bào)的數(shù)據(jù),整理分析得出店鋪的訪購(gòu)率,客單價(jià)

參考文獻(xiàn):

Android全埋點(diǎn)解決方案 王灼洲 著 ISBN:978-7-111-62149-2

統(tǒng)計(jì)學(xué)習(xí)方法 李航 著 ASIN:B01M8KB8FF

劉韻,張遙.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].數(shù)碼世界,2016,(6):16~16.

猜你喜歡
日志語(yǔ)料庫(kù)文檔
一名老黨員的工作日志
有人一聲不吭向你扔了個(gè)文檔
扶貧日志
心聲歌刊(2020年4期)2020-09-07 06:37:14
《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
游學(xué)日志
把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
一種基于粗集和SVM的Web日志挖掘模型
宕昌县| 石城县| 安多县| 麦盖提县| 扎囊县| 乌拉特后旗| 讷河市| 兴义市| 芜湖县| 永平县| 分宜县| 龙口市| 象州县| 海安县| 新泰市| 鲁甸县| 云阳县| 阿克苏市| 肃宁县| 久治县| 山阳县| 桂林市| 南雄市| 昆山市| 河曲县| 泽库县| 宁津县| 永平县| 阿拉善右旗| 卓尼县| 砀山县| 孝感市| 晋宁县| 新绛县| 东至县| 炎陵县| 裕民县| 肃宁县| 康保县| 达孜县| 郓城县|