国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于視頻特征及歷史數(shù)據(jù)的流行度預(yù)測(cè)算法

2018-03-13 05:18趙命燕李澤平
關(guān)鍵詞:樣本預(yù)測(cè)算法

趙命燕,李澤平

(貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng) 550025)

0 引 言

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)提供的服務(wù)也發(fā)生了一定的變化。早期的互聯(lián)網(wǎng)應(yīng)用主要集中于網(wǎng)頁(yè)瀏覽、文件共享等文本信息通信服務(wù),已不能滿足人們?nèi)找尕S富和多樣化的需求,視頻會(huì)議、遠(yuǎn)程教學(xué)、視頻點(diǎn)播等新的流媒體服務(wù)和應(yīng)用如雨后春筍般地出現(xiàn),因此流媒體的發(fā)展為存儲(chǔ)及網(wǎng)絡(luò)帶寬等帶來不小的挑戰(zhàn)[1]。通過在離用戶更近的服務(wù)器端緩存熱點(diǎn)內(nèi)容,能減少用戶訪問的響應(yīng)時(shí)間,提高服務(wù)質(zhì)量。如何合理地選取緩存內(nèi)容以提高資源利用率是流媒體服務(wù)目前面臨的主要問題,解決該問題的關(guān)鍵是需要對(duì)流媒體文件的流行度進(jìn)行科學(xué)的預(yù)測(cè)。

近年來,隨著網(wǎng)絡(luò)中流媒體文件的激增,越來越多的研究者關(guān)注流行度預(yù)測(cè)問題。現(xiàn)有的流行度預(yù)測(cè)方法主要分為2大類,基于時(shí)間序列建模的流行度預(yù)測(cè)方法及基于機(jī)器學(xué)習(xí)的流行度預(yù)測(cè)方法[2]。Tan等人[3]將在線視頻的流行度視為給定時(shí)間段的時(shí)間序列,并提出一種新的流行度預(yù)測(cè)時(shí)間序列模型,該模型基于視頻累積的觀看次數(shù)的方差之間的相關(guān)性進(jìn)行預(yù)測(cè),而不是其不同階段的累積觀看次數(shù)的值。該模型優(yōu)于現(xiàn)有的幾個(gè)流行度預(yù)測(cè)模型,但并未考慮外部因素,如視頻的演員、上映時(shí)間等對(duì)視頻點(diǎn)播量的影響。Li等人[4]提出一種新穎的在線學(xué)習(xí)方法來執(zhí)行高效快速的緩存替換策略。該學(xué)習(xí)方法不直接了解每個(gè)內(nèi)容的受歡迎程度,而是學(xué)習(xí)內(nèi)容的未來流行度與上下文之間的關(guān)系,從而利用不同內(nèi)容訪問模式之間的相似性。但該方法需要大量的空間存儲(chǔ)內(nèi)容的上下文,各節(jié)點(diǎn)間的通信較復(fù)雜。朱琛剛等人[5]基于隨機(jī)森林算法及主成分分析法構(gòu)建了互聯(lián)網(wǎng)+電視平臺(tái)節(jié)目流行度的預(yù)測(cè)模型,并提出一種基于節(jié)目流行度的緩存調(diào)度算法。該算法在保證緩存命中率的同時(shí)能有效地降低存儲(chǔ)空間,但該算法僅考慮了節(jié)目的部分因素對(duì)流行度的影響。Liu等人[6]提出一些新的微博動(dòng)態(tài)特征,如轉(zhuǎn)發(fā)深度、轉(zhuǎn)發(fā)寬度等,并利用這些動(dòng)態(tài)傳播特征訓(xùn)練一個(gè)決策樹預(yù)測(cè)微博的受歡迎程度,再使用線性回歸算法來預(yù)測(cè)1 h后轉(zhuǎn)發(fā)的動(dòng)態(tài)特征值。該模型能較好地預(yù)測(cè)微博早期的流行度,但對(duì)長(zhǎng)期的預(yù)測(cè)效果不佳。Abdelkrim等人[7]提出一種新型混合多回歸模型預(yù)測(cè)用戶生成視頻(UGV)的流行度。該模型基于整個(gè)數(shù)據(jù)集的信息,定期更新最近的視頻流行度,使用統(tǒng)計(jì)誤差分析,將用戶觀看時(shí)間和分享次數(shù)作為模型中預(yù)測(cè)變量的最佳參數(shù)。此混合多回歸模型預(yù)測(cè)勝過普通的在線回歸模型,但該算法并沒有考慮在線社交網(wǎng)絡(luò)對(duì)用戶生成視頻流行度的影響。Hassine等人[8]使用不同領(lǐng)域(如統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、控制理論)的各種預(yù)測(cè)方法作為專家,并根據(jù)累積損失、最大瞬時(shí)損失和最佳排名這3個(gè)標(biāo)準(zhǔn)來評(píng)估專家,然后根據(jù)K個(gè)最佳的專家的預(yù)測(cè)結(jié)果來預(yù)測(cè)視頻的流行度。該模型能較好地對(duì)視頻的流行度進(jìn)行預(yù)測(cè),但由于每位專家都必須對(duì)每次請(qǐng)求的視頻做出判斷,增加了模型的復(fù)雜程度。

本文在已有研究的基礎(chǔ)上,提出一種基于流媒體特征及歷史點(diǎn)播數(shù)據(jù)的混合預(yù)測(cè)模型。該模型將流媒體預(yù)測(cè)問題分為2個(gè)步驟:1)對(duì)流媒體流行程度的預(yù)測(cè);2)對(duì)流媒體點(diǎn)播量的預(yù)測(cè)。通過將機(jī)器學(xué)習(xí)與基于時(shí)間序列的預(yù)測(cè)方法相結(jié)合,使用K-近鄰(KNN)算法及自回歸滑動(dòng)平均(Autoregressive Moving Average, ARMA)模型的混合模型對(duì)流媒體流行度進(jìn)行預(yù)測(cè),該模型能對(duì)影片的流行程度進(jìn)行大致預(yù)測(cè),并能彌補(bǔ)動(dòng)態(tài)時(shí)序預(yù)測(cè)模型僅利用歷史點(diǎn)播量,未考慮不同視頻之間的相關(guān)性的缺點(diǎn)及剛上線視頻進(jìn)行預(yù)測(cè)的不足。通過真實(shí)數(shù)據(jù)分析和預(yù)測(cè)結(jié)果表明,與樸素貝葉斯分類器及自回歸滑動(dòng)平均預(yù)測(cè)模型相比,本文提出的預(yù)測(cè)模型能更加有效地對(duì)流媒體流行度進(jìn)行預(yù)測(cè)。

通過Eviews8.0軟件繪制殘差預(yù)測(cè)值圖(見圖1),以及歷年財(cái)政教育支出的實(shí)際值和預(yù)測(cè)值的對(duì)比圖(見圖2),圖2中橫坐標(biāo)01,02,…,16分別代表2001年、2002年、……、2016年.

1 視頻流行度特征

流行度是度量視頻熱度的重要指標(biāo)之一,一般以視頻點(diǎn)播量作為流行度的度量。本文通過爬取優(yōu)酷視頻、新浪微博、豆瓣電影相關(guān)數(shù)據(jù),分析視頻的流行度與不同特征的關(guān)系如下。

1.1 流行度與內(nèi)容的關(guān)系

假設(shè)訓(xùn)練集L={(R1,Y1),(R2,Y2),…,(Rn,Yn)},其中Ri表示第i個(gè)視頻的特征向量,Yi表示第i個(gè)視頻的點(diǎn)播量。

在動(dòng)物膿毒癥模型中,選擇性激活S1PR1或抑制S1PR2和S1PR3表達(dá)均能改善內(nèi)皮屏障功能。而血管內(nèi)皮細(xì)胞主要表達(dá)S1PR1[20],因此,選擇性激活S1P/S1PR1可能成為改善內(nèi)皮屏障功能的主要途徑。

圖1 流行度與內(nèi)容的關(guān)系

1.2 流行度與類型的關(guān)系

1)獲取測(cè)試樣本K個(gè)近鄰的歷史點(diǎn)播數(shù)據(jù){CRj(ti)|i∈[0,n],Rj∈Mk(R)}并計(jì)算測(cè)試樣本的點(diǎn)播量:

圖2 流行度與類型的關(guān)系

1.3 流行度與時(shí)間的關(guān)系

圖3 流行度與時(shí)間的關(guān)系

如圖3所示,視頻的點(diǎn)播量會(huì)隨著時(shí)間呈現(xiàn)周期性變化,周末的點(diǎn)播量遠(yuǎn)高于工作日的點(diǎn)播量。對(duì)于電視劇類視頻,一般會(huì)在每周六更新一集,這時(shí)會(huì)有大量的點(diǎn)播量,之后點(diǎn)播量會(huì)逐漸降低,直到下一次更新,點(diǎn)播量會(huì)重新達(dá)到頂峰。電影類視頻在上線初期會(huì)有很高的點(diǎn)播量,隨著上線時(shí)間的增加,點(diǎn)播量也逐漸降低,但在周末會(huì)出現(xiàn)一個(gè)回升。

1.4 流行度與演員的關(guān)系

視頻由不同演員參演,其點(diǎn)播量也明顯不同,圖4顯示了3個(gè)不同的影星參演的影片的點(diǎn)播量變化情況,從圖中可以看出,由同一個(gè)影星參演的影片點(diǎn)播量也大致相同。圖5為影片演員在微博的影響力與影片點(diǎn)播量的關(guān)系,演員在微博的影響力越大,該影片的點(diǎn)播量也越大,呈現(xiàn)出一種正相關(guān)關(guān)系。

圖4 參演演員與流行度的關(guān)系

圖5 參演演員與流行度的關(guān)系

2 流行度預(yù)測(cè)算法

本文研究新上傳的視頻的流行度問題,并把這個(gè)問題分為2個(gè)任務(wù),預(yù)測(cè)視頻的流行程度和預(yù)測(cè)視頻的點(diǎn)播量。首先,根據(jù)新上傳視頻的特征值對(duì)視頻是否會(huì)流行進(jìn)行預(yù)測(cè),這個(gè)任務(wù)可以看作是一個(gè)分類問題。然后,根據(jù)第一階段的預(yù)測(cè)結(jié)果,預(yù)測(cè)視頻上線之后的具體點(diǎn)播量,這個(gè)任務(wù)是依據(jù)時(shí)間序列進(jìn)行建模。

視頻的流行度是反應(yīng)視頻熱度的重要指標(biāo)[10],通過對(duì)視頻的流行度進(jìn)行預(yù)測(cè),捕獲用戶的收視興趣,根據(jù)用戶的興趣對(duì)系統(tǒng)的緩存內(nèi)容進(jìn)行調(diào)度能有效地降低用戶的訪問延時(shí)[11]。由第1章可知,視頻的流行度與視頻的類型、上線時(shí)長(zhǎng)、參演演員等特征有著密切聯(lián)系,因此,本文使用以上特征來對(duì)視頻流行度進(jìn)行預(yù)測(cè),并據(jù)此進(jìn)行合理的緩存調(diào)度。

2.1 數(shù)據(jù)預(yù)處理

本文將采用上線時(shí)間、演員、類型這3種特征作為視頻特征向量。但這些特征不能直接作為算法的輸入,需要對(duì)其進(jìn)行預(yù)處理。

1)上線時(shí)間。視頻在周末的點(diǎn)播量明顯高于工作日的點(diǎn)播量,在周末上線的新視頻也會(huì)獲得相對(duì)較高的點(diǎn)播量。因此,本文將一周按7天分為7個(gè)時(shí)間點(diǎn),根據(jù)視頻上線的時(shí)間,標(biāo)記1~7中對(duì)應(yīng)的值。

目前的家裝建材配送市場(chǎng)秩序很不規(guī)范,普遍存在配送時(shí)效差以及貨損率高的情況,配送成本也是一直居高不下。家裝企業(yè)必須規(guī)范其配送模式,加強(qiáng)對(duì)與配送相關(guān)的供應(yīng)商以及承運(yùn)商專業(yè)配送人員的管理,與對(duì)方建立合作伙伴關(guān)系,并且不斷地進(jìn)行優(yōu)化,提高效率和效益,在降低配送成本的同時(shí),努力實(shí)現(xiàn)供應(yīng)商、企業(yè)、消費(fèi)者三者共贏。

2)演員。演員的熱度直接影響了視頻的點(diǎn)播量。每個(gè)影片對(duì)應(yīng)著多個(gè)演員,數(shù)量眾多,直接使用比較困難,因此,將利用新浪微博的明星熱搜榜及粉絲人數(shù)量化演員的熱度,而對(duì)未上榜的演員,則視為影響因子為0。

3)類型。每個(gè)資源對(duì)應(yīng)著一個(gè)或多個(gè)類型,將這些類型轉(zhuǎn)換為0,1向量,每一列代表不同的取值,即如果數(shù)據(jù)集中包含N個(gè)類型,則對(duì)應(yīng)一個(gè)的向量,某一個(gè)影片的類型所在的列為1,其余全為0。

劉清建船是為了亦失哈下奴兒干所用,責(zé)任重大,工期有限。古人崇拜司水的龍王,因而劉清就在船廠附近修建起一座龍王廟,以便就近供奉,祈請(qǐng)風(fēng)調(diào)雨順,按期完成造船任務(wù)。

每個(gè)特征對(duì)影片流行度的影響是同等重要的,有必要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,本文將采用公式(1)處理數(shù)據(jù),使特征值轉(zhuǎn)化為0到1的區(qū)間。

(1)

其中,x為歸一化后的特征值,x0為原特征值,xmax為原特征中的最大值,xmin為最小值。

2.2 視頻流行程度預(yù)測(cè)

網(wǎng)絡(luò)中視頻數(shù)量巨大,每日上新的視頻也層出不窮,但是只有20%的視頻會(huì)收獲80%的點(diǎn)播量,也就是說,只有20%的視頻會(huì)流行[12]。因此,先預(yù)測(cè)上新的視頻是否會(huì)流行,并據(jù)此決定是否繼續(xù)預(yù)測(cè)視頻的點(diǎn)播量會(huì)大大降低系統(tǒng)的運(yùn)行成本。

“116號(hào)文”的規(guī)定是,內(nèi)外部觀測(cè)工程列入第一部分的其他建筑工程,外部觀測(cè)設(shè)備列入第二部分的公用設(shè)備及安裝工程。由于該規(guī)定沒有對(duì)內(nèi)外部觀測(cè)工程和外部觀測(cè)設(shè)備進(jìn)行解釋和界定,有的人士就要求將埋設(shè)于結(jié)構(gòu)內(nèi)部、固定于結(jié)構(gòu)表面的監(jiān)測(cè)設(shè)備列入公用設(shè)備及安裝工程,但查閱水利工程造價(jià)有關(guān)資料,“116號(hào)文”的本意是列入其他建筑工程。

KNN算法是一種基本的機(jī)器學(xué)習(xí)算法,它利用訓(xùn)練數(shù)據(jù)集對(duì)特征向量空間進(jìn)行劃分,并作為其分類的“模型”[13]。KNN算法的核心思想是在訓(xùn)練集中找出K個(gè)最相鄰的樣本,并根據(jù)這K個(gè)樣本的大多數(shù)類別來確定測(cè)試樣本的類別[14]。本文將基于KNN算法對(duì)視頻的流行度進(jìn)行預(yù)測(cè)。

關(guān)于資源建設(shè)的探討,地方特色尤為突出。如李子賢指出天津海運(yùn)高職院校圖書館應(yīng)加強(qiáng)海洋特色數(shù)字資源建設(shè),積極參與天津市海洋經(jīng)濟(jì)與文化建設(shè)[25];蔣冬英倡議創(chuàng)新嶺南海洋文化資源建設(shè),通過對(duì)文獻(xiàn)資源及歷史遺跡的專題研究建立“一帶一路”特色資源庫(kù),包括自建電子資源、紙質(zhì)文獻(xiàn)及網(wǎng)絡(luò)電子資源[26];張曉丹則分析了少數(shù)民族古籍文獻(xiàn)的特點(diǎn)及分類,主張抓住“一帶一路”重大項(xiàng)目“絲路書香工程”立項(xiàng)的機(jī)遇,統(tǒng)一協(xié)調(diào)、共建共享東北民族高校少數(shù)民族文獻(xiàn)資源[27]。

不同于KNN算法,本文找出K個(gè)最近的樣本后,根據(jù)距離給樣本賦予一定的權(quán)值,距離越近,權(quán)值越大,然后根據(jù)這K個(gè)樣本的流行度,計(jì)算預(yù)測(cè)樣本的程度。

如圖1所示,視頻的流行度符合Zipf分布[9],即排名前20%的內(nèi)容占了80%的點(diǎn)播量,除此之外,不同類型的視頻,點(diǎn)播量也相差很大。優(yōu)酷視頻會(huì)和電視同步更新電視劇、綜藝及動(dòng)漫資源,這3類視頻的點(diǎn)播量能較好地反應(yīng)流行度的分布情況。游戲類型的視頻主要是一些自媒體上傳的視頻,而且受眾面相對(duì)較小,所以點(diǎn)播量遠(yuǎn)小于以上3類視頻的點(diǎn)播量。而電影類視頻由于版權(quán)問題,一般都在線下院線上映很長(zhǎng)一段時(shí)間之后才會(huì)在線上上映,不具有實(shí)時(shí)性,點(diǎn)播量也遠(yuǎn)小于其他類型的視頻。

其預(yù)測(cè)過程如下:

1)根據(jù)距離公式計(jì)算訓(xùn)練集中的所有樣本與測(cè)試樣本的距離,一般采用歐氏距離計(jì)算樣本之間的距離:

C1m(tn)=θ1CR1(tn)+θ2CR2(tn)+…+θkCRk(tn)

(2)

預(yù)測(cè)完影片的流行程度之后,進(jìn)行點(diǎn)播量的預(yù)測(cè)。在此,將利用2.2節(jié)的預(yù)測(cè)結(jié)果,并結(jié)合ARMA預(yù)測(cè)模型對(duì)影片的流行度進(jìn)行預(yù)測(cè)。

3)根據(jù)分類決策規(guī)則決定測(cè)試樣本的類別,即:

(3)

2.3 視頻點(diǎn)播量預(yù)測(cè)

2)找出與測(cè)試樣本距離最近的K個(gè)樣本,包含這K個(gè)樣本點(diǎn)播量的領(lǐng)域記作Mk(R)。

ARMA預(yù)測(cè)模型是一種時(shí)間序列預(yù)測(cè)模型,在理論上已經(jīng)趨于成熟,并且廣泛應(yīng)用在各個(gè)領(lǐng)域[15]。假設(shè)影片m自上線之后的點(diǎn)播量序列{Cm(ti)|i∈[0,n]}是以等間隔采樣的一組離散值,它的子序列{Cm(ti)|i∈[0,r]}是在時(shí)間[0,tr]內(nèi)的歷史點(diǎn)播量,則影片m在n+1時(shí)刻的流行度Cm(tn+1)為前n個(gè)單位時(shí)間間隔的點(diǎn)播量的線性組合。即:

Cm(tn)=α1Cm(tn-1)+…+αpCm(tn-p)+εn-β1εn-1-…-βqεn-q

(4)

其中,α1,…,αp為自回歸系數(shù),β1,…,βq為滑動(dòng)平均系數(shù)。隨機(jī)項(xiàng)εn,εn-1,…,εn-q為相互獨(dú)立的白噪聲序列,且服從均值為0,方差為σ2的正態(tài)分布,即εn~N(0,σ2)。

ARMA預(yù)測(cè)模型并不能對(duì)影片上線初期的點(diǎn)播量進(jìn)行預(yù)測(cè),為了解決這個(gè)問題,本文采用KNN與ARMA相結(jié)合的方式對(duì)影片流行度進(jìn)行預(yù)測(cè)。具體預(yù)測(cè)過程如下:

具有不同類型標(biāo)簽的影片,點(diǎn)播量也大不相同。如圖2所示,視頻的點(diǎn)播量與視頻的類型也符合Zipf分布。在本文使用的數(shù)據(jù)集中,類型標(biāo)簽為劇情、喜劇、愛情的影片占了總數(shù)據(jù)量點(diǎn)播量的80%。

我們?cè)诮虒W(xué)中對(duì)時(shí)代背景的處理,看似無關(guān)宏旨,其實(shí)還是很重要的。要想恰當(dāng)?shù)靥幚砗盟?,就要求教師?duì)文本有清晰的認(rèn)識(shí),對(duì)教學(xué)目標(biāo)的設(shè)置有準(zhǔn)確的把握,對(duì)文本所涉及的背景有確鑿的分析,因?yàn)檫@直接影響到學(xué)生對(duì)文本的理解,同時(shí)也會(huì)影響教學(xué)的節(jié)奏。但不管采用哪種方式,都要從學(xué)生出發(fā),從閱讀的規(guī)律出發(fā),從具體的文本特點(diǎn)出發(fā),只有適合的才是最好的。

(5)

其中θ1+θ2+…+θk=1。

2)獲取測(cè)試樣本的歷史點(diǎn)播數(shù)據(jù),并用公式(4)計(jì)算點(diǎn)播量C2m(tn)。

3)測(cè)試樣本最終的點(diǎn)播量為:

Cm(tn)=νC1m(tn)+(1-ν)C2m(tn)

可以看出,“對(duì)高校部門決算報(bào)表分析文字說明屬于無用分析以及不能正確運(yùn)用決算分析的各種方法”這兩方面因素是區(qū)內(nèi)外高校認(rèn)知最大的區(qū)別,這其中原因也是相關(guān)聯(lián)的,因?yàn)椴荒苷_使用決策分析方法,所以數(shù)據(jù)分析準(zhǔn)確性及相關(guān)性不高,運(yùn)用于實(shí)際工作就比較少。同時(shí)也能看出來區(qū)外財(cái)務(wù)人員對(duì)能正確運(yùn)用決算分析的各種方法認(rèn)同度更高。

(6)

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集

本文通過編寫爬蟲程序,爬取了豆瓣電影(https://movie.douban.com)中標(biāo)簽含有“2016”及“中國(guó)”的所有資源的影片名、上映時(shí)間、主要演員及評(píng)論。該數(shù)據(jù)集包括685個(gè)資源,包含了電影、電視劇、真人秀、動(dòng)畫等,共有26個(gè)類型及2747名演員。為了使數(shù)據(jù)集更加易于處理,刪除了評(píng)論數(shù)小于100的視頻,最后剩512個(gè)資源。同時(shí),還爬取了新浪微博名人影響力榜(http://data.weibo.com/top/influence/famous)及微博(http://weibo.com)中的標(biāo)簽含有明星、演員的用戶及其粉絲數(shù)共2485個(gè)。

黃土高原地區(qū)植被覆蓋整體呈東南覆蓋高,西北地區(qū)覆蓋低的空間分布。覆蓋最高的生態(tài)區(qū)為燕山-太行山山地落葉闊葉林生態(tài)區(qū),覆蓋最低的為內(nèi)蒙古高原中東部典型草原生態(tài)區(qū)、內(nèi)蒙古高原中部-隴中荒漠生態(tài)區(qū)及內(nèi)蒙古高原中部草原化荒漠生態(tài)區(qū)。植被覆蓋多年平均的SEN變化趨勢(shì),變化幅度最大的為黃土高原農(nóng)業(yè)與草原生態(tài)區(qū),最小的是祁連山森林與高寒草原生態(tài)區(qū),變幅不明顯的則是內(nèi)蒙古高原中部-隴中荒漠草原生態(tài)區(qū)。

3.2 性能評(píng)估

為了評(píng)價(jià)本文提出的模型在預(yù)測(cè)影片流行度的性能,本文將以天為單位時(shí)間計(jì)算點(diǎn)播量,與文獻(xiàn)[16]中的樸素貝葉斯分類器(the Naive Bayes Classifier, NBC)和文獻(xiàn)[17]中的ARMA模型進(jìn)行比較。

去片后的裸眼視力頻數(shù)分布如圖1所示。71%(37/52)的兒童去片后裸眼視力集中在0.6~0.8。通過單因素回歸分析,較差的去片裸眼視力與基礎(chǔ)較長(zhǎng)的眼軸(b=-0.09,β=-0.29,P=0.003)、較高的球鏡度(b=0.07,β=0.36,P<0.001)、較高的柱鏡度(b=0.12,β=0.22,P=0.030)有關(guān),與角膜厚度、眼壓、角膜曲率、瞳孔直徑、角膜對(duì)稱性、偏位程度等無關(guān)(見表2)。

召回率(recall)是廣泛用于分類領(lǐng)域的度量值,反映了被正確預(yù)測(cè)的正例中預(yù)測(cè)正確的比重。召回率越高,分類器的預(yù)測(cè)越準(zhǔn)。其計(jì)算方式如下:

2.2 安全過度梁式氣管套管固定帶的更換方法 一人獨(dú)立可以操作。當(dāng)氣管套管固定帶有潮濕或污染時(shí),用2根過度固定帶分別穿入并固定于外套管底板上的左右兩側(cè)的安全過度梁上,在患者頸后打結(jié)固定,并確保固定牢固,松緊一指為宜。然后用清潔的正式固定帶替換固定于外套管底板上左右兩側(cè)的半圓孔上的被污染的固定帶,于頸后3個(gè)外科結(jié)固定,松緊一指為宜。最后撤去安全過度梁式氣管套管上的過度固定帶。

(7)

其中TP代表預(yù)測(cè)準(zhǔn)確的流行影片數(shù)量,TN代表測(cè)試集中流行影片的總數(shù)量。

平均平方根誤差(Root Mean Square Error, RMSE)是用于測(cè)量時(shí)間序列預(yù)測(cè)結(jié)果精準(zhǔn)度最廣泛的度量標(biāo)準(zhǔn)之一,RMSE值越小,說明算法預(yù)測(cè)的精度越高。其規(guī)定如下:

十年樹木,百年樹人,教育是一項(xiàng)百年大計(jì),對(duì)一個(gè)國(guó)家和民族復(fù)興和發(fā)展具有重要的意義和作用。隨著時(shí)代的發(fā)展和社會(huì)的進(jìn)步,英語(yǔ)越來越受到人們的重視。學(xué)好英語(yǔ)已經(jīng)不再是外交官與國(guó)家領(lǐng)導(dǎo)人的責(zé)任,更加是學(xué)生的重要課程,是新一代學(xué)生不可推卸的重任。目前,我國(guó)急缺高質(zhì)量的英語(yǔ)人才,這對(duì)學(xué)生與英語(yǔ)教師提出了更加嚴(yán)格的要求。城鄉(xiāng)小學(xué)生的實(shí)際英語(yǔ)水平卻相差甚遠(yuǎn),主要有教材版本不同、教學(xué)安排不合理、教師教學(xué)方法以及城鄉(xiāng)小學(xué)生家長(zhǎng)的重視等原因。

(8)

隨著K的取值不同,模型的召回率如圖6所示,當(dāng)K<7時(shí),分類器的召回率較低;當(dāng)K=9時(shí),分類器的召回率最高;當(dāng)K>9時(shí),召回率又開始降低。表1展示了與樸素貝葉斯分類器的對(duì)比結(jié)果,樸素貝葉斯分類器的召回率僅為31.47%,而本文提出的KNN模型的召回率高達(dá)89.05%,明顯優(yōu)于樸素貝葉斯分類器。

圖6 近鄰(K)個(gè)數(shù)與召回率的關(guān)系

表1 KNN算法與NBC模型召回率(%)

KNNNBCRecall89.0531.47

把本文的預(yù)測(cè)模型與文獻(xiàn)[17]中的ARMA模型進(jìn)行比較,ARMA模型在第4天時(shí)能達(dá)到較好的預(yù)測(cè)效果。本文預(yù)測(cè)影片上映后10天的播放量,其平均平方根誤差RMSE如圖7所示。從圖中可以看出,本文提出的模型的RMSE低于ARMA,尤其是上映后3天,比ARMA模型的RMSE降低了約20%。隨著上映時(shí)間的增加,2個(gè)模型的RMSE逐漸降低,并且在第4天后趨于平穩(wěn)。

第i天圖7 K-ARMA模型與ARMA模型RMSE比較

4 結(jié)束語(yǔ)

為了對(duì)影片的流行度進(jìn)行預(yù)測(cè),本文將預(yù)測(cè)問題分為2個(gè)過程,一是流行程度預(yù)測(cè),二是點(diǎn)播量預(yù)測(cè)。通過對(duì)數(shù)據(jù)集進(jìn)行分析獲取影響影片流行度的特征,并結(jié)合影片在社交網(wǎng)絡(luò)中的影響力對(duì)特征進(jìn)行量化。然后使用量化后的特征對(duì)影片流行程度進(jìn)行預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果,結(jié)合歷史數(shù)據(jù)對(duì)影片的點(diǎn)播量進(jìn)行預(yù)測(cè)。與對(duì)比模型相比,本文提出的模型預(yù)測(cè)結(jié)果更加準(zhǔn)確,尤其是對(duì)影片上線前幾天的預(yù)測(cè)。未來,將結(jié)合用戶行為數(shù)據(jù),增加預(yù)測(cè)的特征值,以提高模型的預(yù)測(cè)精度。

[1] Li Chenyu, Liu Jun, Ouyang Shuxin. Analysis and prediction of content popularity for online video service: A Youku case study[J]. China Communications, 2016,13(12):216-233.

[2] 高帥. 在線社會(huì)網(wǎng)絡(luò)中影響力度量和流行度預(yù)測(cè)問題研究[D]. 濟(jì)南:山東大學(xué), 2015.

[3] Tan Zhiyi, Wang Yanfeng, Zhang Ya, et al. A novel time series approach for predicting the long-term popularity of online videos[J]. IEEE Transactions on Broadcasting, 2016,62(2):436-445.

[4] Li Suoheng, Xu Jie, Schaar M V D, et al. Trend-aware video caching through online learning[J]. IEEE Transactions on Multimedia, 2016,18(12):2503-2516.

[5] 朱琛剛,程光,胡一非,等. 基于流行度預(yù)測(cè)的互聯(lián)網(wǎng)+電視節(jié)目緩存調(diào)度算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2016,53(4):742-751.

[6] Liu Wensen, Wang Xiaoyi, Cao Zewen. Popularity prediction in microblog based on LR-DT[C]// IEEE International Conference on Behavioral, Economic and Socio-Cultural Computing. 2015:18-23.

[7] Abdelkrim E B, Salahuddin M A, Elbiaze H, et al. Ahybrid regression model for video popularity-based cache replacement in content delivery networks[C]// 2016 IEEE Global Communications Conference (GLOBECOM). 2016.

[8] Hassine N B, Marinca D, Minet P, et al. Expert-based on-line learning and prediction in Content Delivery Networks[C]// International Wireless Communications and Mobile Computing Conference. 2016:182-187.

[9] Krishnan S S, Sitaraman R K. Videostream quality impacts viewer behavior: Inferring causality using quasi-experimental designs[J]. IEEE/ACM Transactions on Networking, 2013,21(6):2001-2014.

[10] 楊傳棟,余鎮(zhèn)危,王行剛,等. 基于流行度預(yù)測(cè)的流媒體代理緩存替換算法[J]. 計(jì)算機(jī)工程, 2007,33(7):99-100.

[11] Tan Zhiyi, Zhang Ya, Li Chaofeng, et al. Lifetime popularity prediction for online videos[C]// IEEE International Symposium on Broadband Multimedia Systems and Broadcasting. 2014:1-6.

[12] 徐理想. 視頻點(diǎn)播系統(tǒng)層級(jí)式緩存優(yōu)化技術(shù)研究[D]. 合肥:中國(guó)科學(xué)技術(shù)大學(xué), 2016.

[13] Zhang Shichao, Li Xuelong, Ming Zong, et al. Efficient kNN classification with different numbers of nearest neighbors[J]. IEEE Transactions on Neural Networks & Learning Systems, 2017,PP(99):1-12.

[14] Jain J, Hiwale S, Bhat P V. Classification of labour contractions using K-NN classifier[C]// International Conference on Systems in Medicine and Biology. 2016.

[15] Hassine N B, Milocco R, Minet P. ARMA based popularity prediction for caching in Content Delivery Networks[C]// IEEE 2017 Wireless Days. 2017:113-120.

[16] Ouyang Shuxin, Li Chenyu, Li Xueming. A peek into the future: Predicting the popularity of online videos[J]. IEEE Access, 2016,4:3026-3033.

[17] Chang Biao, Zhu Hengshu, Ge Yong, et al. Predicting the popularity of online serials with autoregressive models[C]// Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. 2014:1339-1348.

猜你喜歡
樣本預(yù)測(cè)算法
無可預(yù)測(cè)
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
基于MapReduce的改進(jìn)Eclat算法
Travellng thg World Full—time for Rree
進(jìn)位加法的兩種算法
推動(dòng)醫(yī)改的“直銷樣本”
不必預(yù)測(cè)未來,只需把握現(xiàn)在
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
福清市| 民丰县| 砀山县| 浮梁县| 调兵山市| 玛曲县| 遂平县| 乌兰浩特市| 栾城县| 陆川县| 武强县| 鄂州市| 罗平县| 山阴县| 柳林县| 镇江市| 钟祥市| 彭水| 白河县| 南川市| 垫江县| 驻马店市| 赣州市| 南京市| 辽宁省| 南漳县| 柳林县| 阆中市| 长岛县| 肥乡县| 吴堡县| 广灵县| 安徽省| 易门县| 武安市| 进贤县| 甘洛县| 兴海县| 裕民县| 张家川| 巨鹿县|