蔡皎潔
1. 湖北工程學(xué)院 孝感 432000;
2. 湖北小微企業(yè)發(fā)展研究中心 孝感 432000
早期用戶畫像模型一般是基于設(shè)計師的主觀想象進(jìn)行構(gòu)建,而設(shè)計師主觀想象的直接表現(xiàn)就是通過問卷設(shè)計來了解用戶喜好。隨著移動互聯(lián)網(wǎng)及社交網(wǎng)絡(luò)的迅速發(fā)展,用戶喜好表現(xiàn)于散布網(wǎng)絡(luò)平臺上的行為數(shù)據(jù)中,不同于以往問卷、訪談等形式所“制造”的數(shù)據(jù),網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)出相對客觀中立、海量多結(jié)構(gòu)化、實時變化等特征,這為傳統(tǒng)定量及定性分析帶來了技術(shù)、模型及研究范式等多方面的挑戰(zhàn)。隨著機器學(xué)習(xí)、文本挖掘、自然語言處理等多種新型數(shù)據(jù)分析技術(shù)的興起,開啟了基于大數(shù)據(jù)分析的用戶畫像研究模式。大量研究表明,大數(shù)據(jù)分析的優(yōu)勢在于挖掘事物間相關(guān)關(guān)系,以往基于問卷等小數(shù)據(jù)分析優(yōu)勢在于論證事物間的因果關(guān)聯(lián),但兩者并非取代關(guān)系,而是互補和增進(jìn)關(guān)系。在用戶畫像構(gòu)建中,如何將兩種不同的數(shù)據(jù)分析思路、方法與研究范式融合在一起,提高對用戶偏好分析的深度與寬度,是本文研究的目標(biāo)。從大小數(shù)據(jù)分析的特征及與用戶畫像構(gòu)建的語義關(guān)聯(lián)出發(fā),構(gòu)建基于大小數(shù)據(jù)分析的用戶畫像研究框架,并以互聯(lián)網(wǎng)股票投資領(lǐng)域為例,進(jìn)行研究框架與方法實踐,實現(xiàn)語義完整的用戶畫像構(gòu)建。本文為用戶畫像的構(gòu)建提供了一種全新的研究思路。
本文的小數(shù)據(jù)僅指問卷樣本單結(jié)構(gòu)化數(shù)據(jù),而非在體量上“小”的針對單個事物所抽取的多結(jié)構(gòu)化大數(shù)據(jù)。在社會科學(xué)研究領(lǐng)域,大小數(shù)據(jù)分析優(yōu)劣勢的爭論主要有:
(1)大數(shù)據(jù)分析是否能夠真正代表社會本源[1]。反對者認(rèn)為“全樣本數(shù)據(jù)僅是一個美麗的謊言,數(shù)據(jù)并不能代表社會生活的全部”[2-3]?!皵?shù)據(jù)為王,技術(shù)主導(dǎo)”[4]的觀點也得以反駁,如Silver[5]認(rèn)為數(shù)據(jù)驅(qū)動的分析低估了人的重要性。
(2)大數(shù)據(jù)分析是否能夠拋棄小數(shù)據(jù)分析中的理論假設(shè)。齊磊磊[6]、彭理強[7]、方環(huán)非[8]等學(xué)者在充分剖析實證分析理論的歷史來源及國內(nèi)外代表性專家及著作理論觀點的基礎(chǔ)上,指出大數(shù)據(jù)分析是為了讓理論在內(nèi)涵及外延上得以更好的拓展,理論仍保持核心地位。
(3)大數(shù)據(jù)分析強調(diào)“相關(guān)關(guān)系”是否可以忽略小數(shù)據(jù)分析的“因果關(guān)系”。史蒂夫·洛爾[9]指出僅憑相關(guān)性是不夠的,還要對因果關(guān)系產(chǎn)生啟發(fā)性認(rèn)識,兩者需密切配合。Josh Cowls與Ralph Schroeder[10]、彭知輝[11]通過廣泛的文獻(xiàn)及訪談研究,指出相關(guān)關(guān)系是一種比因果關(guān)系更為廣泛的概念,它是因果關(guān)系的派生關(guān)系,因果起著根本性的解釋作用。
小數(shù)據(jù)分析有定性和定量分析兩種形式,其中定性分析方法被廣泛應(yīng)用到用戶畫像構(gòu)建中,張艷豐[12]等人基于SSO理論框架,利用扎根理論從構(gòu)想問題的文本式回答資料中抽取用戶畫像標(biāo)簽,通過問卷采集用戶數(shù)據(jù)實現(xiàn)不同群體用戶畫像分類。而采用“提出假設(shè)—構(gòu)建模型—收集數(shù)據(jù)—驗證假設(shè)”程式化定量分析過程構(gòu)建用戶畫像的成果偏少,袁潤[13]采集科學(xué)網(wǎng)博客可量化的用戶屬性和行為數(shù)據(jù),通過構(gòu)建計量模型,進(jìn)行統(tǒng)計學(xué)分析和驗證,來構(gòu)建學(xué)術(shù)博客用戶畫像。無論是定性還是定量分析,小數(shù)據(jù)分析的優(yōu)勢是:(1)具有長期反復(fù)論證的理論模型做基礎(chǔ);(2)數(shù)據(jù)可信度較高;(3)體現(xiàn)變量間因果關(guān)系。缺點是:(1)理論在反復(fù)驗證中不斷精細(xì)化,而難以創(chuàng)新;(2)數(shù)據(jù)范圍有限,且主觀性較高。因此,將大小數(shù)據(jù)結(jié)合來構(gòu)建用戶畫像可以做到優(yōu)缺互補,大數(shù)據(jù)提供了讓理論模型創(chuàng)新的數(shù)據(jù)條件,傳統(tǒng)的理論模型也可以支撐大數(shù)據(jù)分析,通過理論解釋現(xiàn)象[14]。融合大小數(shù)據(jù)分析思維的用戶畫像構(gòu)建,是要解決有關(guān)用戶偏好的“相關(guān)關(guān)系”挖掘與“因果關(guān)系”分析的標(biāo)簽融合問題。關(guān)于這一問題有兩個研究趨勢:
(1)基于傳統(tǒng)理論引導(dǎo)大數(shù)據(jù)分類,獲取不同分類標(biāo)簽,這一過程類似“有監(jiān)督”式學(xué)習(xí)。林燕霞[15]利用社會認(rèn)同理論作為用戶群體分類的理論基礎(chǔ),利用LDA主題模型、多元logistic回歸等技術(shù)抽取群體用戶分類偏好標(biāo)簽。李偉卿[16]基于感知價值對網(wǎng)絡(luò)消費者偏好進(jìn)行預(yù)測,通過對消費者感知價值維度的分解,對海量用戶行為數(shù)據(jù)進(jìn)行目標(biāo)價值分類,利用深度學(xué)習(xí)從不同感知價值數(shù)據(jù)中獲取對應(yīng)標(biāo)簽。
(2)基于大數(shù)據(jù)構(gòu)建用戶畫像過程中融入情境因素,情境絕不僅指客觀物理環(huán)境,而是包含了認(rèn)知、意識、動機等主觀因素[17]。通過情境建模[18]將用戶畫像由單一客觀標(biāo)簽轉(zhuǎn)為“客觀—主觀”多維標(biāo)簽。
圍繞某特定領(lǐng)域構(gòu)建“全貌”的用戶模型,即要反映出用戶感興趣的領(lǐng)域主題是什么,又能反映出感興趣的原因是什么。在用戶畫像構(gòu)建中大小數(shù)據(jù)融合機制如下:
(1)利用大數(shù)據(jù)分析方法從用戶多結(jié)構(gòu)化數(shù)據(jù)中獲取偏好標(biāo)簽。由于實驗環(huán)境所限,本文選擇用戶評論和行為數(shù)據(jù)為大數(shù)據(jù)來源,主要體現(xiàn)出與問卷樣本小數(shù)據(jù)在研究范式上的差別,在數(shù)據(jù)量和數(shù)據(jù)結(jié)構(gòu)上仍與大數(shù)據(jù)有差距。利用修正的LDA模型無監(jiān)督學(xué)習(xí)偏好主題間的相關(guān)關(guān)系。
(2)根據(jù)LDA主題模型中詞頻的分布,參考領(lǐng)域本體進(jìn)行主題粒度設(shè)計,將主題引入傳統(tǒng)的理論模型實現(xiàn)優(yōu)化更新。
(3)基于更新后的理論模型,提出研究假設(shè),設(shè)計問卷收集數(shù)據(jù),實現(xiàn)主題間因果關(guān)系論證。
(4)對第一步生成的偏好主題間的相關(guān)關(guān)系和第三步生成的偏好主題間的因果關(guān)系,參照領(lǐng)域本體實現(xiàn)語義集成,構(gòu)建語義完整的用戶畫像。其邏輯框架如圖1所示,并在下文以互聯(lián)網(wǎng)股票投資博客平臺為例,按照該邏輯結(jié)構(gòu)實現(xiàn)數(shù)據(jù)分析與實踐。
圖1 融合大小數(shù)據(jù)分析的用戶畫像構(gòu)建框架
用戶畫像具有較強的領(lǐng)域性,不同領(lǐng)域的核心訴求不同,對概念標(biāo)簽設(shè)計的要求不同。以互聯(lián)網(wǎng)股票投資領(lǐng)域為例,研究投資者情感分類的主題標(biāo)簽對刻畫精準(zhǔn)用戶畫像有著重要價值。因此,偏好及行為屬性標(biāo)簽要比基礎(chǔ)信息標(biāo)簽對用戶畫像構(gòu)建更重要,基于經(jīng)驗及可獲取的數(shù)據(jù),將概念標(biāo)簽維度設(shè)計如下:
(1)內(nèi)容偏好維度。主要是用戶評論形成的短文本數(shù)據(jù),對購買的股票或有關(guān)股票的新聞熱點、網(wǎng)絡(luò)大V的專評文章等形成評論或解讀內(nèi)容。這些內(nèi)容中隱含著持有不同情感的群體用戶對股票特征的偏好趨向。
(2)行為偏好維度。用戶通過“關(guān)注”“點贊”“獎賞”及“轉(zhuǎn)發(fā)”等動態(tài)行為,構(gòu)建自己的社會化網(wǎng)絡(luò)。擁有相似偏好或動機的用戶會通過上述行為關(guān)聯(lián)到一起形成群體用戶簇,表達(dá)相似的興趣趨向。
由于實驗條件所限,僅反映出非結(jié)構(gòu)化文本數(shù)據(jù)和行為數(shù)據(jù)與傳統(tǒng)問卷數(shù)據(jù)在分析流程和研究范式上的不同,利用八爪魚采集器從東方財富股吧官網(wǎng)爬取10000條用戶評論,選取“眾數(shù)”作為集中趨勢分析指標(biāo),刪除不包含無效關(guān)鍵字的評論,保留有效評論8350條。由于針對一個平臺的用戶數(shù)據(jù),評論主題的集中趨勢度高,而離散程度較低,主題分布受數(shù)據(jù)量影響較小。利用中科院NLPIR系統(tǒng)對評論數(shù)據(jù)進(jìn)行偏好情感分析,部分結(jié)果截圖如圖3所示。
圖2 基于NLPIR系統(tǒng)對評論數(shù)據(jù)進(jìn)行情感分析
LDA主題模型可有處理短文本數(shù)據(jù)中主題挖掘,本文將用戶評論內(nèi)容與用戶行為相結(jié)合,參考郭光明在博士論文中所構(gòu)建的LDA修正模型LUBD-CM[19],但考慮到:(1)用戶行為與所關(guān)注到的第K個主題相關(guān),可將行為參數(shù)元組<b1,b2,...,bL>進(jìn)行歸一化處理為參數(shù)B,B代表不同用戶行為發(fā)生的個數(shù)。(2)考慮背景詞對用戶偏好分類的價值,將背景詞也歸入主題詞中。通過對LUBD-CM模型的修改與設(shè)計,本文應(yīng)用的LDA修正模型概率有向圖如圖3所示。
圖3 融合內(nèi)容與行為的LDA模型概率圖
采用Gibbs抽樣學(xué)習(xí)公式(1)中的參數(shù),根據(jù)貝葉 斯 理 論,隨機 變 量的 先 驗 概 率 分 布 均 服 從Dirichlet分 布,分別為評論集中主題的先驗超參數(shù)、主題集中詞匯的先驗超參數(shù)、行為集中主題與詞匯并集的先驗超參數(shù)。上述修正LDA模型的Gibbs抽樣公式如下:
其中,z?i代表第m篇評論里去除主題為zi的其他所有主題,t代表N詞表中的詞匯t。
利用公式(2),分別對偏好分類處理后所生成的正面數(shù)據(jù)集和負(fù)面數(shù)據(jù)集實現(xiàn)主題抽取。使用Python的Gensim庫生成修正LDA主題模型抽取的主題及相應(yīng)概率結(jié)果如表1所示。
表1 正負(fù)面情感評價對應(yīng)的主題詞表
可見,對股票投資持有積極情感偏好的用戶對股價上漲、上市公司業(yè)績優(yōu)良、利好信息、收益高、大盤走勢穩(wěn)定等投資屬性標(biāo)簽有較高關(guān)注度;對股票投資持有消極情感偏好的用戶對股價下跌、上市公司業(yè)績虧損、利空信息、收益太低、傭金過高、疫情等投資屬性標(biāo)簽有較高關(guān)注度??傊c用戶投資情感相關(guān)的投資屬性標(biāo)簽有:股價、上市公司業(yè)績、收益、市場利好利空、大盤走勢、疫情等。
顧客感知價值理論是由顧客內(nèi)心的感知所決定的,是感知利得與感知利失之間的權(quán)衡[21]。本文將股票投資顧客感知價值定義為感知利益與感知風(fēng)險權(quán)衡的結(jié)果。上述LDA分析結(jié)果可為感知利益和感知風(fēng)險的構(gòu)建提供完善素材,將感知利益劃分為投資收益、股價漲幅、上市公司盈利能力、利好政策4個維度;將感知風(fēng)險劃分為上市公司經(jīng)營風(fēng)險、本金回收風(fēng)險、利空政策、疫情影響4個維度。
Mitchell等[22]通過研究認(rèn)為人們對金錢的理解會受到個體差異的影響,不同理財性格將會選擇不同方式的理財手段。崔冬亮[23]研究發(fā)現(xiàn)不同性格的投資者在選擇基金時會有明顯的特征區(qū)別。因此,將投資性格作為外生變量,根據(jù)心理學(xué)的解釋,從性格的態(tài)度特征、意志特征、情感特征和理智特征四個部分中,選取內(nèi)向型人格、獨立性、情感控制力、學(xué)習(xí)能力為觀察變量。本文所構(gòu)建的股票投資顧客感知價值模型如圖4所示。
圖4 股票投資顧客感知價值模型
該模型需要驗證的是:(1)由“數(shù)據(jù)驅(qū)動”獲取的主題標(biāo)簽是否對投資情感產(chǎn)生顯著影響。(2)引入的外生變量“投資性格”是否對“數(shù)據(jù)驅(qū)動”獲取的主題標(biāo)簽產(chǎn)生顯著影響。因此,設(shè)定的基本假設(shè)如下:
H1:投資性格對股票投資顧客感知利益產(chǎn)生正向影響
H2:投資性格對股票投資顧客感知風(fēng)險產(chǎn)生負(fù)向影響H3:感知利益對投資情感產(chǎn)生正向影響H4:感知風(fēng)險對投資情感產(chǎn)生負(fù)向影響
4.3.1 問卷設(shè)計及信效度分析
參照已有的相關(guān)文獻(xiàn)量表,利用問卷星平臺制作問卷并網(wǎng)絡(luò)發(fā)布,不設(shè)定具體人群,收集到有效問卷103份,使用SpssAU平臺進(jìn)行數(shù)據(jù)分析。首先對量表進(jìn)行信效度分析,總體Cronbach’s α值為0.863。另外,各題項的因子載荷值大于0.5,證明量表設(shè)計有效且適合因果分析。量表結(jié)構(gòu)及測評值如表2所示。
表2 量表結(jié)構(gòu)及效度測評值
4.3.2 假設(shè)檢驗及因素標(biāo)簽獲取
使用SpssAU系統(tǒng)的結(jié)構(gòu)方程模型SEM功能模塊,進(jìn)行路徑分析。采用標(biāo)準(zhǔn)化路徑系數(shù)指標(biāo)檢測模型中潛變量之間的關(guān)系是否成立,以驗證假設(shè)是否成立。路徑系數(shù)分析結(jié)果如表3所示。
表3 模型回歸系數(shù)匯總表
因子A對因子B影響時,標(biāo)準(zhǔn)化路徑系數(shù)為0.285>0,并且此路徑呈現(xiàn)出0.05水平的顯著性(z=1.591,P=0.031<0.05),說明因子A對因子B產(chǎn)生顯著的正向影響關(guān)系,假設(shè)H1成立。同理,因子A對因子C的路徑系數(shù)為-0.417<0,且在0.01水平下顯著,假設(shè)H2成立。因子B對因子D的路徑系數(shù)0.619>0,在0.01水平下顯著,假設(shè)H3成立。因子C對因子D的路徑系數(shù)-0.429<0,且在0.05水平下顯著,假設(shè)H4成立。
由此可見,用戶的投資性格直接影響股票投資感知利益與感知風(fēng)險,且與“數(shù)據(jù)驅(qū)動”獲取的主題標(biāo)簽,共同影響投資情感。因此,影響用戶股票投資情感分類的性格等因素標(biāo)簽如表4所示。
表4 影響用戶股票投資情緒分類的性格標(biāo)簽
為了使用戶畫像有更好的擴充性和兼容性,參照領(lǐng)域本體將上述獲取的用戶偏好相關(guān)主題詞表與用戶偏好因果主題詞表進(jìn)行語義集成,實現(xiàn)概念的邊界擴充,提高用戶畫像預(yù)測的范圍和質(zhì)量。本文對用戶投資情感分類的主題詞表進(jìn)行詞云化顯示,并刻畫出與其對應(yīng)的投資性格與態(tài)度因素,互聯(lián)網(wǎng)股票投資領(lǐng)域用戶畫像抽象表示如圖5所示。
圖5 互聯(lián)網(wǎng)股票投資領(lǐng)域用戶畫像抽象表示
利用八爪魚從東方財富股吧官網(wǎng)爬取5000條評論數(shù)據(jù)作為測試集,分別檢測包含相關(guān)關(guān)系和因果關(guān)系標(biāo)簽的用戶畫像系統(tǒng)(記為:BSUP)和去掉性格因素標(biāo)簽只包含相關(guān)關(guān)系標(biāo)簽的用戶畫像系統(tǒng)(記為BUP),對測試集中高價值與低價值投資用戶進(jìn)行分類。檢測結(jié)果如表5所示,可見BSUP用戶畫像系統(tǒng)性能更優(yōu),因此本文所提出基于大小數(shù)據(jù)分析構(gòu)建融合主題標(biāo)簽和因素標(biāo)簽的用戶畫像方案可行,由于其描述用戶興趣偏好的完整語義性,更能提升預(yù)測質(zhì)量。
表5 基于BSUP和BUP用戶畫像系統(tǒng)的分類性能對比
本文研究的創(chuàng)新點是:(1)在大數(shù)據(jù)分析日趨白熱化,甚至可取代小數(shù)據(jù)分析的理論學(xué)說下,找出兩者的優(yōu)勢與不足,發(fā)現(xiàn)其研究的契合點。(2)提出基于大小數(shù)據(jù)分析的用戶畫像構(gòu)建框架,既發(fā)揮了“數(shù)據(jù)驅(qū)動”的客觀性,又能使大數(shù)據(jù)分析結(jié)果根植于“知識驅(qū)動”的因果模型中,相互促進(jìn)分析的質(zhì)量。(3)將大小數(shù)據(jù)分析互相嵌入,構(gòu)建即包含相關(guān)關(guān)系又包含因果關(guān)系的完整語義畫像,提升畫像預(yù)測效果。研究的不足是:(1)以互聯(lián)網(wǎng)股票投資領(lǐng)域為例,大數(shù)據(jù)分析中僅收集了用戶評論和行為數(shù)據(jù),在數(shù)據(jù)結(jié)構(gòu)和規(guī)模上都有所限制。(2)在小數(shù)據(jù)分析中,所構(gòu)建的因果關(guān)系模型并未涉及到投資性格潛變量的各維度與“數(shù)據(jù)驅(qū)動”獲取的主題標(biāo)簽之間的相關(guān)關(guān)系,導(dǎo)致所構(gòu)建的用戶畫像還不夠全面精準(zhǔn)。