關(guān)鍵詞:大數(shù)據(jù);興趣特征;互動營銷;營銷自動化;分布式存儲
0 引言
線下視聽娛樂行業(yè)歷經(jīng)數(shù)十年的發(fā)展,已成為各個年齡層人群的娛樂消費選擇。視聽娛樂商家的消費群體日益多元化,用戶特征的不同衍生出更多的消費需求,如家庭聚會、商務(wù)接待以及團建活動等。因此,如何更好地為消費者提供娛樂服務(wù),以及如何更有效地滿足商家開展營銷活動,成為行業(yè)亟待解決的問題。
隨著移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,傳統(tǒng)營銷逐漸邁向線上與線下融合的互聯(lián)互通時代,媒體向用戶傳達的營銷信息日益趨向個性化[1]。為應(yīng)對娛樂視聽商家的營銷挑戰(zhàn),公司作為中國最大的線下聚會娛樂增值服務(wù)運營商,經(jīng)過對消費場景的深度洞察和技術(shù)研究,提出并實現(xiàn)了基于群體特征推薦的互動營銷服務(wù)方案。該方案不僅提升了用戶的娛樂消費體驗,還通過增強消費過程中的互動,顯著改善了商家的營銷效果。
1 基于群體推薦的互動營銷
在傳統(tǒng)娛樂視聽領(lǐng)域,商家通常依賴音視頻播放系統(tǒng)來推廣營銷活動,這些系統(tǒng)包括點歌屏、電視屏和點單屏等。然而,這些屏幕在用戶交互方面存在局限性,尤其在收集和分析用戶行為數(shù)據(jù)方面。由于缺乏對用戶行為和偏好的有效捕捉,商家的營銷策略往往呈現(xiàn)出單一且普遍的傳播模式,難以實現(xiàn)個性化營銷。
基于群體特征推薦的視聽娛樂商家互動營銷服務(wù)方案,依托于用戶行為大數(shù)據(jù),借助協(xié)同過濾算法模型(定義:一種經(jīng)典的推薦算法,其核心思想是通過分析用戶之間或物品之間的相似性來預(yù)測用戶可能感興趣的內(nèi)容并進行推薦),預(yù)測同一包間內(nèi)的消費群體特征。隨后,將群體特征與商家平臺的營銷活動資源匹配,最終通過視聽娛樂場景內(nèi)的點歌屏、電視屏、手機端等多種終端屏幕有效向用戶傳播信息,以實現(xiàn)商家預(yù)期的營銷活動效果。
如圖1所示,本文互動營銷平臺包含數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)挖掘、場景應(yīng)用和營銷后臺五個核心模塊。
在數(shù)據(jù)采集方面,采用線上與線下結(jié)合的多種方式,全方位采集用戶的行為數(shù)據(jù)。線下數(shù)據(jù)采集主要通過互動設(shè)備在場景內(nèi)實施,涵蓋點歌屏幕操作和麥克風音頻記錄,以便從這些數(shù)據(jù)中提取用戶的性別、年齡等關(guān)鍵人口統(tǒng)計特征。而線上數(shù)據(jù)采集則側(cè)重利用移動設(shè)備端的個人行為日志,通過數(shù)據(jù)分析技術(shù)深入挖掘用戶的獨特興趣和偏好。此外,本方案還將業(yè)務(wù)日志文件與來自互聯(lián)網(wǎng)第三方平臺的數(shù)據(jù)進行聚合,以支持后續(xù)的數(shù)據(jù)分析和用戶行為模式的數(shù)據(jù)擴展。
在數(shù)據(jù)存儲方面,平臺部署了Hadoop大數(shù)據(jù)分布式集群,以優(yōu)化對大規(guī)模用戶數(shù)據(jù)的高效處理與存儲,并確保對高并發(fā)海量數(shù)據(jù)分析的完美支持。為進一步提高存儲性能,平臺整合了HBase技術(shù),以實現(xiàn)對大規(guī)模稀疏數(shù)據(jù)集的快速隨機讀寫訪問。此外,通過將Storm與MySQL的創(chuàng)新融合,平臺能夠同時滿足實時計算與離線計算的存儲需求,確保數(shù)據(jù)處理的靈活性和高效性。
在數(shù)據(jù)挖掘方面,服務(wù)分為基礎(chǔ)數(shù)據(jù)處理的ETL (提取、轉(zhuǎn)換、加載)服務(wù)和標簽特征計算。ETL服務(wù)主要采用海豚Dolphin框架,便于管理各項計算任務(wù),并清洗過濾得到多層的數(shù)據(jù)倉庫。在標簽特征服務(wù)中,建立統(tǒng)一的用戶標識庫,關(guān)聯(lián)用戶在不同數(shù)據(jù)域中的數(shù)據(jù)集合,并通過標簽規(guī)則對數(shù)據(jù)進行標簽化,進而基于協(xié)同過濾等算法形成群體屬性的特征標簽。
基于上述數(shù)據(jù)流框架,平臺進一步構(gòu)建了基于數(shù)據(jù)挖掘和群體特征的場景應(yīng)用,包括為單個用戶提供的歌曲推薦,以及為包廂群體進行消費推薦和內(nèi)容推薦等服務(wù)。
最后,在營銷后臺采用RTB(實時競價)實時營銷內(nèi)容模式,將群體畫像特征與營銷資源標簽相匹配,結(jié)合CTR(點擊率)預(yù)估來匹配最佳點擊率的營銷活動,并將商家的營銷活動推送至手機端、電視屏等顯示設(shè)備。由于推薦數(shù)據(jù)來源于用戶的興趣和群體的畫像,經(jīng)過精準推薦計算后所投放的內(nèi)容更能吸引用戶關(guān)注,從而獲得顯著的營銷效果和投放效率。
2 群體推薦模型研究和實踐
基于群體特征推薦技術(shù)的互動營銷方案中,本文采用多種算法模型組合,主要包括基于興趣相似度的協(xié)同過濾推薦模型和基于K均值算法的群體分類模型(定義:一種廣泛使用的無監(jiān)督聚類算法,其主要目的是將數(shù)據(jù)集劃分為K個簇,使得每個簇內(nèi)的數(shù)據(jù)點盡可能相似,而不同簇之間的數(shù)據(jù)點盡可能不同),以精準挖掘同一包間內(nèi)消費用戶的共有特征,并進一步匹配最適合的營銷活動。同時,為解決營銷資源存儲問題,本文提出了一種創(chuàng)新的資源分布式共享技術(shù),旨在實現(xiàn)設(shè)備之間的資源互通共享。
2.1 基于興趣相似度的協(xié)同過濾推薦模型
本文提出了一種改進的協(xié)同過濾算法,該算法基于視聽娛樂商家包廂用戶的使用場景,通過計算用戶與內(nèi)容之間的興趣相似度[2],并引入用戶使用頻次作為行為深度因子,從而提升推薦算法的精準度,旨在為包廂用戶推薦他們最感興趣的內(nèi)容。
本系統(tǒng)首先構(gòu)建了一個統(tǒng)一用戶標識(Union-ID) ,用于實現(xiàn)不同交互設(shè)備和業(yè)務(wù)系統(tǒng)之間每個用戶行為信息的識別和關(guān)聯(lián)。為確保系統(tǒng)能夠兼容手機號碼、微信 OpenID、硬件設(shè)備 ID、證件號碼等多種用戶標識數(shù)據(jù)源,數(shù)據(jù)存儲層選擇采用 HBase 組件作為用戶數(shù)據(jù)庫。HBase 是一個高性能的列式數(shù)據(jù)庫,其優(yōu)勢在于數(shù)據(jù)列可以充分擴展,并支持千萬級海量數(shù)據(jù)的處理。因此,系統(tǒng)將數(shù)據(jù)庫的 RowKey 作為Union-ID 的統(tǒng)一標識符,并建立二級索引以便于快速查詢,使任何用戶標識源均可快速定位到其對應(yīng)的Union-ID。如果兩個標識源具有關(guān)聯(lián)性,則將它們合并至同一 Union-ID。
在包廂場景中,每個用戶的行為類型較為廣泛,包括歌曲點唱記錄、超市商品購買記錄、會員個人信息、社交網(wǎng)絡(luò)互動等。數(shù)據(jù)采集模塊負責對這些用戶行為數(shù)據(jù)進行清洗和預(yù)處理,為每種行為建立相應(yīng)的特征分類。
針對已經(jīng)識別的包廂內(nèi)用戶,本文使用協(xié)同過濾算法中的皮爾遜系數(shù)算法模型,計算用戶興趣特征與內(nèi)容標簽之間的相似度評分,以預(yù)測用戶對每個關(guān)聯(lián)內(nèi)容的興趣程度。皮爾遜系數(shù)算法充分考慮用戶的平均評分和標準差,作為評分依據(jù),有助于消除不同用戶之間評分習慣的差異,使相似度計算更加準確。此外,在皮爾遜系數(shù)協(xié)同過濾推薦算法的基礎(chǔ)上,本文進行了改進,加入了用戶的行為深度參數(shù)Rk,表示用戶對某一內(nèi)容的互動次數(shù),從而解決了在行為數(shù)據(jù)極少情況下的局限性。通過這種改進,推薦算法能夠更為精準地捕捉用戶的真實興趣,提高包廂用戶的滿足度和互動效果。
通過對數(shù)據(jù)庫中所有用戶和已知內(nèi)容進行算法模型匹配,形成用戶-內(nèi)容的興趣特征評分矩陣。舉例而言,假設(shè)某用戶點唱了邁克·杰克遜的歌曲,如果其他用戶對其代言的商品的興趣度評分為3,這表明對該商品的興趣較大;反之,如果其他用戶對啤酒商品的興趣度評分僅為1,則說明兩者之間的關(guān)聯(lián)性較弱。而對于喜歡購買搖滾樂的用戶,其他用戶對啤酒的興趣評分較高,這顯示出兩者之間存在較強的關(guān)聯(lián)性。
通過算法模型形成的評分矩陣如圖2所示,其中一個包廂內(nèi)存在多個用戶,表格中的數(shù)字表示每個用戶對每個內(nèi)容的興趣評分。具體而言,符號Cn表示包廂的編號,符號un 則表示每一個用戶。包廂與用戶之間存在一對多的關(guān)聯(lián)性,意味著該用戶當前處于相應(yīng)的包廂中。符號In代表每個內(nèi)容,從而形成經(jīng)過算法模型預(yù)測的每個用戶對每個內(nèi)容的興趣相似度。
興趣相似度的數(shù)值范圍為 0 到 10 的整數(shù),數(shù)值越高代表興趣越大,而數(shù)值越低則表示興趣較小?;谂d趣相似度的協(xié)同過濾推薦模型,能夠使營銷后臺快速預(yù)測每個用戶最感興趣的內(nèi)容,進而向屏幕端和手機端推送相應(yīng)的內(nèi)容素材資源。
2.2 基于K 均值算法的群體分類模型
與傳統(tǒng)應(yīng)用程序的推薦機制不同,視聽娛樂商家的場景中存在多個用戶。如果僅為單個用戶推薦內(nèi)容,其他用戶可能并不感興趣,從而導(dǎo)致推薦效果的下降。為了解決該問題,本文提出了一種改進的 K 均值算法群體分類模型。該算法在傳統(tǒng) K 均值聚類算法的基礎(chǔ)上,引入了簇內(nèi)聚類質(zhì)量指標,以實現(xiàn)不同群體分類之間的效果比較,從而找出包廂內(nèi)最接近的群體類別,并進行感興趣內(nèi)容的匹配。
K 均值聚類算法是一種廣泛應(yīng)用的聚類分析算法,能夠高效地將數(shù)據(jù)樣本劃分為K個預(yù)定簇群,使同一簇群的數(shù)據(jù)樣本盡可能相似[3]。在本文涉及的包廂應(yīng)用場景中,用戶數(shù)量范圍通常在 1 到 20 之間??紤]到數(shù)據(jù)的稀疏性,各類別的特征在再聚類時所采用的 K值均不超過 3。
通過對用戶特征進行聚類,系統(tǒng)能夠分析出用戶的共同興趣,例如,他們可能都喜歡同一明星,或者對酒水感興趣。此外,系統(tǒng)還可以推算出包廂消費場景,如生日派對、同事團建、夕陽團等。為了進一步提升推薦效果,本文對系統(tǒng)進行了優(yōu)化改進。在分析包廂潛在的共同興趣序列后,將每個興趣特征選出的中心距離度量作為簇內(nèi)聚類質(zhì)量指標,并根據(jù)該指標的數(shù)值進行排序,從而選出優(yōu)先級較高的興趣特征。
同時,為了解決冷啟動和數(shù)據(jù)稀疏性問題,在系統(tǒng)初始化時預(yù)設(shè)了多種場景對應(yīng)的興趣特征,以確保每個包廂都能獲得最佳的營銷效果。這種方法不僅提高了推薦的準確性,也增強了用戶體驗,使得每個用戶在包廂內(nèi)都能享受到更符合其興趣的內(nèi)容和服務(wù)。
2.3 互動設(shè)備資源分布式共享技術(shù)
隨著視聽娛樂商家的互動設(shè)備品質(zhì)不斷提升,從標清到高清,再到4K品質(zhì),營銷內(nèi)容的容量也隨之增大,存儲空間和下載速度將對互動效果造成制約。如果將視頻提前下載存儲到設(shè)備,容易造成單一設(shè)備的存儲空間溢出。此外,同一網(wǎng)絡(luò)內(nèi)的營銷內(nèi)容較為相似,多臺設(shè)備又會對存儲造成浪費。
本文提出了一種互動設(shè)備資源分布式共享技術(shù),該技術(shù)將已下載的元數(shù)據(jù)(定義:營銷后臺配置的圖片或視頻資源文件)存儲于網(wǎng)絡(luò)中的某一臺設(shè)備節(jié)點,其余設(shè)備節(jié)點通過存儲節(jié)點鏈查找到資源對應(yīng)節(jié)點的位置,并完成網(wǎng)絡(luò)內(nèi)部的快速下載[4]。并且,為了防止單一元數(shù)據(jù)存儲節(jié)點過于繁忙,方案還設(shè)計了空間優(yōu)先的主副元數(shù)據(jù)存儲節(jié)點方案。
如圖3所示,本技術(shù)方案通過構(gòu)建元數(shù)據(jù)的主副存儲節(jié)點,下載元數(shù)據(jù)并生成節(jié)點鏈,最終將節(jié)點鏈同步到各設(shè)備節(jié)點,以支持元數(shù)據(jù)的下載和共享。在同一個視聽娛樂商家的所有機頂盒設(shè)備節(jié)點構(gòu)成的存儲網(wǎng)絡(luò)中,當存儲網(wǎng)絡(luò)中的某個設(shè)備節(jié)點接收到元數(shù)據(jù)時,它會立即下載元數(shù)據(jù)文件到設(shè)備的存儲空間,此時該設(shè)備節(jié)點被稱為存儲網(wǎng)絡(luò)中的主存儲節(jié)點。
在元數(shù)據(jù)下載完成后,主存儲節(jié)點會在同一網(wǎng)絡(luò)中搜索其他空間最優(yōu)的設(shè)備節(jié)點作為副存儲節(jié)點,并將元數(shù)據(jù)及其簽名(sign) 一同備份至副存儲節(jié)點。這樣,在存儲網(wǎng)絡(luò)中就形成了兩個存儲節(jié)點,共同承擔單節(jié)點文件共享的傳輸壓力。
每個元數(shù)據(jù)在下載和備份到這兩個存儲節(jié)點后,會新增一個節(jié)點信息到網(wǎng)絡(luò)的元數(shù)據(jù)節(jié)點信息鏈。這個節(jié)點信息包括文件標識、簽名(sign) 、節(jié)點位置和校驗碼等,元數(shù)據(jù)節(jié)點信息鏈會保存所有可共享的元數(shù)據(jù)信息。每次更新后,元數(shù)據(jù)節(jié)點信息鏈將同步到所有設(shè)備節(jié)點[3]。
所有設(shè)備節(jié)點的元數(shù)據(jù)下載優(yōu)先搜索節(jié)點信息鏈中已存在的資源,優(yōu)先通過主副兩個存儲節(jié)點進行下載;如果該資源不存在,才會從營銷后臺直接下載。這種方法明顯改善了存儲網(wǎng)絡(luò)中各節(jié)點的存儲空間,并加快了元數(shù)據(jù)的下載速度。
3 群體推薦模型實驗效果
目前,已有多家視聽娛樂商家簽約并接入該互動營銷服務(wù)。為了驗證本方案中提出的改進協(xié)同過濾算法的推薦準確度,采用平均絕對誤差(MAE) 作為評估標準。MAE的原理是計算預(yù)測值與用戶實際值之間的平均差值,MAE越小,說明推薦的準確度越高[5]。
為驗證系統(tǒng)在人群數(shù)量k 不同情況下對推薦準確度的影響,取k 的范圍在 10 到 80。實驗結(jié)果如圖4所示,隨著人群數(shù)量的增加,MAE 越小,推薦度越高。此外,與傳統(tǒng)協(xié)同過濾算法相比,本方案在不同人群數(shù)量下,通過加入用戶的使用頻次來改進算法,推薦準確度逐漸提高,并始終優(yōu)于傳統(tǒng)協(xié)同過濾算法。這一結(jié)果表明,改進方案有效提升了推薦系統(tǒng)的性能,為用戶提供了更精準的內(nèi)容推薦。
4 總結(jié)與展望
綜上所述,本文分析了視聽娛樂商家在營銷內(nèi)容中面臨的一些難題,并提出了一種基于群體特征推薦的互動營銷服務(wù)方案。通過對商家營銷過程的深入分析,提出了改進的協(xié)同過濾推薦算法和 K 均值群體分類算法模型。這些方案能夠根據(jù)用戶和人群特征進行分類,并優(yōu)化元數(shù)據(jù)存儲效率,從而提供個性化和高效的營銷服務(wù)。
未來將進一步優(yōu)化算法和模型,分析更多音視頻異構(gòu)數(shù)據(jù)源,以提高算法的推薦準確度。同時,提升系統(tǒng)的可用性和可靠性,以助力視聽娛樂商家獲得更好的運營效果,促進娛樂消費行業(yè)的發(fā)展和進步。通過不斷的技術(shù)創(chuàng)新和應(yīng)用實踐,期待為這一領(lǐng)域帶來更多的機遇與挑戰(zhàn)。