徐堅耀
(桐鄉(xiāng)市傳媒中心,浙江 嘉興 314599)
隨著互聯(lián)網(wǎng)帶寬和用戶終端性能的提升,網(wǎng)絡(luò)視頻用戶呈爆發(fā)式增長。同時,視頻網(wǎng)站、OTT(Over The Top)視頻盒子、智能電視視頻集成以及視頻協(xié)議也在快速增長。如何從海量的上網(wǎng)用戶中精準找出視頻用戶并準確地描述其行為喜好,個性化地推薦互聯(lián)網(wǎng)電視業(yè)務(wù),是視頻運營商面臨的一個難題。
深度包檢測(Deep Packet Inspection,DPI)設(shè)備通過對網(wǎng)絡(luò)關(guān)鍵點處的流量和報文內(nèi)容進行檢測分析,可以根據(jù)事先定義的策略對檢測流量進行過濾控制,能完成所在鏈路的業(yè)務(wù)精細化識別、業(yè)務(wù)流量流向分析、業(yè)務(wù)流量占比統(tǒng)計、業(yè)務(wù)占比整形、應(yīng)用層拒絕服務(wù)攻擊、對病毒/木馬進行過濾以及濫用點對點(Peer-to-Peer,P2P)控制等功能。
目前,互聯(lián)網(wǎng)視頻內(nèi)容推薦主要有兩類方法[1]。一類是從互聯(lián)網(wǎng)視頻運營網(wǎng)站獲取用戶請求和觀看本網(wǎng)站視頻的消費行為信息,對信息進行分析,以獲取視頻用戶的行為。這種方法存在以下缺陷:用戶觀看多個視頻網(wǎng)站時,在每個網(wǎng)站的行為只是用戶行為的一部分,網(wǎng)站間信息無法相互關(guān)聯(lián);網(wǎng)站視頻用戶與運營商寬帶用戶沒有關(guān)聯(lián)關(guān)系,無法進行精確匹配。另一類方法是從上網(wǎng)流量中獲取用戶訪問的統(tǒng)一資源定位器(Uniform Resource Locator,URL),基于URL 進行用戶上網(wǎng)行為分析,提取營銷關(guān)鍵詞,對用戶進行標簽化處理。這種方式也存在如下短板:互聯(lián)網(wǎng)視頻多采用分片形式,一個視頻有很多URL,單純分析URL,無法關(guān)聯(lián)去重;URL 中的視頻信息有限,無法獲取視頻的類型、時長、碼率等信息,也就無法完整地描述用戶的視頻行為喜好。
當(dāng)前技術(shù)手段的種種限制,導(dǎo)致互聯(lián)網(wǎng)電視運營手段還處在粗放經(jīng)營階段,無法精準聚焦營銷對象,制約了運營商互聯(lián)網(wǎng)電視的發(fā)展。
為了克服上述現(xiàn)有技術(shù)的不足,本文提供一種基于用戶行為分析的互聯(lián)網(wǎng)電視推薦方法,利用對視頻流量的深度報文檢測技術(shù)結(jié)合數(shù)據(jù)建模,提取價值視頻用戶標簽化,應(yīng)用到互聯(lián)網(wǎng)電視業(yè)務(wù)的精確推薦中。該方法采用DPI 深度報文檢測技術(shù)分析視頻流量,使用“視頻標簽”進行數(shù)據(jù)建模,數(shù)據(jù)模型包括但不限于定義“視頻類網(wǎng)站”“視頻搜索關(guān)鍵字”“視頻類協(xié)議”“自購視頻盒子”“視頻碼率”“觀看時長”“視頻流量”“視頻體驗”等,進行價值視頻用戶的挖掘。
本文方法通過在固定互聯(lián)網(wǎng)部署分光匯聚分流,對用戶上網(wǎng)流量進行統(tǒng)計和分析,從網(wǎng)站訪問次數(shù)、關(guān)鍵字搜索次數(shù)、協(xié)議訪問流量等多維度去挖掘用戶行為習(xí)慣和規(guī)律,標記不同的標簽,進而生成對應(yīng)的用戶標簽群組。
用戶上網(wǎng)后,對用戶上網(wǎng)過程中發(fā)生的各類業(yè)務(wù)數(shù)據(jù)流進行解析,并提取關(guān)鍵字段產(chǎn)生流日志。流日志由4 個部分組成,分別是用戶信息(Account等)、流信息[五元組(Source IP,Source Port,Dest IP,Dest Port,Protocol)信息和鏈路信息]、事務(wù)信息以及協(xié)議信息,形成一條完整的用戶訪問記錄[2]。
從多維度定義視頻標簽,如從分類URL 訪問、搜索關(guān)鍵字、視頻盒子協(xié)議的次數(shù)和流量維度定義多樣化標簽。當(dāng)用戶訪問記錄被識別到符合標簽定義,判斷為點擊流并將用戶賬號同步至對應(yīng)的標簽組。該方法的業(yè)務(wù)流程如圖1 所示。
圖1 業(yè)務(wù)流程圖
本文要解決的問題是設(shè)置用戶多樣化標簽,通過設(shè)定視頻類網(wǎng)站、視頻搜索關(guān)鍵字、視頻類協(xié)議、自購視頻盒子、視頻碼率、觀看時長、視頻流量、視頻體驗等,輸出諸如“重度視頻”“4K”、具體片源如“重案六組”等標簽,聚焦互聯(lián)網(wǎng)電視業(yè)務(wù)的推廣支撐。本方案所描述的以上標簽設(shè)置和生成方法如下。
本文在進行策略配置時對互聯(lián)網(wǎng)用戶流量進行過分析,考慮到視頻網(wǎng)站雖然多樣但有集中的特色,用戶訪問視頻網(wǎng)站的流量多集中在TOP10 甚至TOP5 網(wǎng)站,熱門協(xié)議集中在優(yōu)酷土豆、愛奇藝、騰訊、搜狐等。綜合熱門視頻網(wǎng)站,即可支撐視頻類網(wǎng)站的標簽配置。視頻類協(xié)議、自購視頻盒子均通過識別主流協(xié)議并建立協(xié)議庫即可采集流量,并以此形成“視頻偏好”用戶群。
本文通過建立搜索網(wǎng)站特征庫存放搜索網(wǎng)站規(guī)則,通過URL 中的搜索路徑字段判斷用戶的Web訪問請求是否是搜索行為并匹配搜索參數(shù)。視頻搜索關(guān)鍵字是關(guān)鍵字維度的源數(shù)據(jù),可以配置營銷需要的熱門片源[3]。例如,在電視劇《重案六組》熱映期間,通過挖掘?qū)υ撈兴阉餍袨榈挠脩?,向其營銷互聯(lián)網(wǎng)電視業(yè)務(wù)。
通過本文識別原理提及的“形成一條完整的用戶訪問記錄”,分析用戶觀看視頻的觀看時長、視頻流量來形成“重度視頻”用戶群?!耙曨l體驗”通過記錄用戶訪問視頻的過程,采集用戶發(fā)送傳輸控制協(xié)議(Transmission Control Protocol,TCP)連接的時間點、收到“HTTP 200 OK”的時間點、開始播放的時間點、視頻卡頓時間點以及最后一個帶凈荷的視頻數(shù)據(jù)包的時間點,來生成視頻播放成功率、時延、卡頓及速率等相關(guān)指標,并綜合評價這些指標形成用戶體驗[4]。當(dāng)用戶體驗感知差的時候,即可向用戶推薦高帶寬寬帶產(chǎn)品和互聯(lián)網(wǎng)電視產(chǎn)品。本文方法的標簽配置策略和標簽庫生成規(guī)則如圖2所示。
本方案由深度視頻報文解析DPI 設(shè)備、URL及搜索關(guān)鍵字分析服務(wù)器(URL and search Keyword Analysis Server,UKAS)、視頻文件分析服務(wù)器(Video Analysis Service,VAS)、用戶行為分析服務(wù)器(User Behavior Analytics Server,UBAS)以及互聯(lián)網(wǎng)電視業(yè)務(wù)推薦系統(tǒng)組成,功能實現(xiàn)如圖3 所示。
深度視頻報文解析DPI 設(shè)備負責(zé)從用戶的上線認證Radius 信息中獲取IP 與用戶的關(guān)聯(lián)關(guān)系,然后從用戶的上網(wǎng)流量中識別視頻搜索關(guān)鍵字識別視頻請求和下載流量,進行深度分析和還原,以提取視頻URL、視頻流量,將相關(guān)信息送到UKAS和VAS[5]。
UKAS 負責(zé)對收到的視頻URL、搜索關(guān)鍵字等視頻請求信息進行去重、歸類和模式匹配,輸出視頻URL 的視頻類別、播放器類別、關(guān)鍵字的類別等信息給UBAS。
VAS 負責(zé)對收到的視頻流量進行關(guān)聯(lián)、去重,提取視頻的關(guān)鍵信息,包括視頻格式、視頻大小、碼率(清晰度)及播放時長等,并將這些信息傳輸給UBAS。
UBAS 負責(zé)接收UKAS 和VAS 輸出信息,進行關(guān)聯(lián)檢索分析。在算法上,UBAS 利用標簽?zāi):ヅ浜陀成浔淼姆绞?,將用戶標記上不同的視頻標簽屬性和優(yōu)先級。其中,標簽優(yōu)先級利用模糊匹配和權(quán)重值結(jié)合的算法實現(xiàn)。優(yōu)先級記為P,用戶多個視頻行為信息模糊命中某一個視頻標簽Key 值次數(shù)為N,每次的模糊匹配度為X1~Xn,這一視頻標簽的權(quán)重為W,則
互聯(lián)網(wǎng)電視業(yè)務(wù)推薦系統(tǒng)根據(jù)用戶標記的視頻標簽屬性,生成與用戶視頻行為喜好相匹配的專屬推薦頁面,通過URL 推送的形式推薦給用戶。該方法典型的功能組網(wǎng)如圖4 所示。
圖4 典型組網(wǎng)圖
用戶標簽形成后,互聯(lián)網(wǎng)視頻業(yè)務(wù)推薦系統(tǒng)根據(jù)閾值,周期性地分析用戶詳情數(shù)據(jù),判決重度用戶(價值用戶)。當(dāng)用戶上網(wǎng),系統(tǒng)根據(jù)配置的用戶策略判斷是否為用戶進行信息推送、相關(guān)推送時間點和推送次數(shù),以及推送觸發(fā)條件[6]。推送服務(wù)器根據(jù)推送參數(shù)信息向用戶展示推送信息,推送流程完成。以上為重度價值視頻用戶的挖掘和推送流程。
按照上述設(shè)計理念,通過數(shù)據(jù)分析用戶視頻行為喜好標簽得出現(xiàn)網(wǎng)大數(shù)據(jù)集群的文件中用戶號碼、內(nèi)容頻道、內(nèi)容類型、時長、流量、天數(shù)(匯總獲得)及請求次數(shù)等關(guān)鍵值,如圖5 所示。
本文采用DPI 深度報文檢測技術(shù)分析視頻流量,基于用戶行為分析的互聯(lián)網(wǎng)電視業(yè)務(wù)推薦方法,以解決當(dāng)前用戶視頻行為分析的不完整、不準確問題。所述方法也可用于更加精準的營銷行為。用戶通過配置“視頻搜索關(guān)鍵字”標簽,互聯(lián)網(wǎng)電視業(yè)務(wù)推薦系統(tǒng)判決推送條件后,可進行互聯(lián)網(wǎng)視頻內(nèi)容的精準推送,有效拉動用戶興趣視頻的轉(zhuǎn)移。