大數(shù)據(jù)視角下數(shù)字社區(qū)用戶群體人格畫像

2023-12-14 19:16:40符虔趙海騰趙小青帥懿芯

貴州大學(xué)學(xué)報（自然科學(xué)版） 2023年6期

符虔趙海騰趙小青帥懿芯

摘要：人格特征是人類行為的關(guān)鍵驅(qū)動因素，時刻影響人們的日常生活。尤其在突發(fā)公共事件情境下，這種影響機制可能更具有個體差異性。數(shù)字社區(qū)的出現(xiàn)使得基于用戶信息行為大數(shù)據(jù)自動有效地進行用戶群體人格畫像成為可能，但相關(guān)研究還相對較少。以Twitter用戶在COVID-19疫情期間發(fā)布的相關(guān)信息和其相關(guān)信息行為記錄為樣本，進行用戶群體人格畫像。首先，邀請專業(yè)心理咨詢師基于自戀人格的定義和量表設(shè)定了數(shù)據(jù)標(biāo)注規(guī)則并對數(shù)據(jù)集進行標(biāo)注；其次，設(shè)計了13個潛在的用戶行為指標(biāo)，構(gòu)建了Logit回歸模型，并評估了模型的分類性能（分類準(zhǔn)確率達(dá)到70.34%）；再次，確定了一組與用戶群體自戀人格特征密切相關(guān)的信息行為指標(biāo)。這組指標(biāo)共有5項，具體包括：用戶近三年發(fā)表的推文總數(shù)、負(fù)面情感傾向推文所占比例、推文中動詞平均數(shù)、推文中話題標(biāo)簽平均數(shù)、推文中感嘆號平均數(shù)。從而，提出了一種針對特定情境（突發(fā)公共事件）基于用戶信息行為大數(shù)據(jù)分析的群體人格畫像的方法，為維護民眾心理健康和數(shù)字社區(qū)清朗空間提供了新的思路。

關(guān)鍵詞：數(shù)字社區(qū)；群體人格；自戀人格；人格畫像；Logit回歸

中圖分類號：TP18;B848

文獻標(biāo)志碼：A

人格是認(rèn)知、情感和行為的復(fù)雜組織，決定了人的行為模式［1］。自戀（narcissism）被認(rèn)為是元心理（metapsychology）結(jié)構(gòu)［2］和“黑暗人格三聯(lián)征”的主要特質(zhì)之一［3］。已有的研究主要關(guān)注用戶的自戀人格特征（personality profiles）［4］對其在數(shù)字社區(qū)中自我表露［5］、自我展示［6］和發(fā)布自拍貼［7］的影響。然而，關(guān)于在一些特定情境下，例如突發(fā)公共事件，用戶的自戀特征對其在數(shù)字社區(qū)中的信息行為的影響，以及如何根據(jù)用戶的信息行為對用戶群體人格（group personality）［8］特征進行畫像（profiling）［9］，還有待進一步探索。

對于自戀人格特征相對明顯的用戶來說，數(shù)字社區(qū)為他們提供了一個展現(xiàn)自我、贏得關(guān)注和贊賞的理想“舞臺”，他們借助各種數(shù)字技術(shù)來打造個人網(wǎng)絡(luò)形象并構(gòu)建其虛擬社交網(wǎng)絡(luò)［10］。Twitter作為全球最大的數(shù)字社區(qū)之一，其日均活躍用戶人數(shù)在2022年已經(jīng)突破2.5億。在COVID-19疫情期間，大量的Twitter用戶發(fā)表相關(guān)推文并對他人發(fā)布的相關(guān)推文進行評論，從而提供了大量真實的數(shù)據(jù)。本文基于這些數(shù)據(jù)資源，探索在突發(fā)公共事件情境下影響用戶信息行為的主要自戀人格特征以及如何借助大數(shù)據(jù)技術(shù)為用戶群體人格畫像。

1 數(shù)據(jù)收集與標(biāo)注

如圖1所示，本文使用網(wǎng)絡(luò)爬蟲技術(shù)獲取了COVID-19疫情期間用戶在Twitter數(shù)字社區(qū)中發(fā)布的相關(guān)信息和其信息行為記錄，構(gòu)建了數(shù)據(jù)集；邀請富有經(jīng)驗的專業(yè)咨詢師設(shè)計了自戀人格特征標(biāo)注規(guī)則并對數(shù)據(jù)集進行標(biāo)注，然后采用Logit回歸對數(shù)據(jù)集進行分析。

1.1 Twitter數(shù)據(jù)爬取

Selenium是一個自動化測試工具，可以用來模擬用戶在網(wǎng)站上的行為。本文利用Chrome driver和Selenium模擬Twitter用戶登錄、瀏覽和搜索等行為，針對關(guān)鍵詞、評論和用戶這3個條目收集數(shù)據(jù)。

1）爬取推文

設(shè)置關(guān)鍵詞為“COVID-19”，從Twitter搜索爬取了10 231條推文。

2）爬取評論

針對關(guān)鍵詞爬取的10 231條推文，進一步爬取了每條推文對應(yīng)的評論，共爬取到58 051條評論及對應(yīng)的評論者。

3）爬取用戶歷史推文

對評論者去重后共得到46 075位不重復(fù)的評論者。因為發(fā)文量較少的用戶所提供的信息過少以至于難以進行相關(guān)分析，所以本文從46 075人中選擇發(fā)文量大于或等于5條的1 008名用戶，爬取到他們的歷史推文共10 373條。

1.2 數(shù)據(jù)清洗與整理

首先，清除商業(yè)營銷賬號。由于從Twitter獲得的數(shù)據(jù)中，不可避免地會摻雜大量的商業(yè)營銷賬號，而商業(yè)營銷賬號不具備人格特征，因此本文根據(jù)Twitter商業(yè)營銷的特點（比如營銷賬號內(nèi)容包含廣告、促銷信息等，其鏈接會指向某個產(chǎn)品，或其語言風(fēng)格會使用與品牌相關(guān)的風(fēng)格來增加辨識度）對上述爬取的3組數(shù)據(jù)都進行了人工清理。其次，以評論者為“連接點”，將3個數(shù)據(jù)集整合為1個數(shù)據(jù)集。這個數(shù)據(jù)集包含推文，推文對應(yīng)的評論者，以及評論者的歷史推文。

1.3 數(shù)據(jù)標(biāo)注

邀請3位專業(yè)心理咨詢師（他們的從業(yè)時間均超過15年）瀏覽上述1 008名Twitter用戶的歷史推文后判斷其人格特征，即自戀人格特征相對明顯或自戀人格特征相對不明顯。對于標(biāo)注結(jié)果不一致的情況，3位標(biāo)注者進行討論，通過多數(shù)表決的方式來確定最終的標(biāo)注結(jié)果。具體標(biāo)注流程如下：

1）設(shè)定標(biāo)注規(guī)則

根據(jù)Emmons［11］的定義，將自戀視為包括4個方面特征的一維結(jié)構(gòu)，并基于Ames 的自戀量表［12］制定了以下標(biāo)注規(guī)則：

（1）用戶覺得所有人都喜歡聽他/她的故事（優(yōu)越/傲慢）；

（2）用戶覺得人們似乎總能意識到他/她的權(quán)威地位（領(lǐng)導(dǎo)/權(quán)威）；

（3）用戶覺得他/她比他人更能干（強勢/權(quán)力）；

（4）用戶覺得他/她是杰出的人（自我陶醉/自我欣賞）。

當(dāng)用戶滿足上述一個或多個條件時均被判定為自戀人格特征相對明顯，并被標(biāo)注為1；反之，則被視為自戀人格特征相對不明顯，被標(biāo)注為0。最終得到了1 008名的Twitter用戶的人格標(biāo)注結(jié)果，其中自戀人格特征相對明顯的用戶為466名，自戀人格特征相對不明顯的用戶為542名。

2）檢測標(biāo)注結(jié)果

本文使用Fleiss’ kappa系數(shù)來分析不同標(biāo)注人員標(biāo)注結(jié)果的一致性。Fleiss’ kappa系數(shù)分布在-1到1之間。如果Fleiss’ kappa系數(shù)<0，則說明觀察一致率小于機遇一致率；如果Fleiss’ kappa系數(shù)=0，則說明結(jié)果完全由隨機因素導(dǎo)致；如果Fleiss’ kappa系數(shù)>0，則說明研究對象之間存在一定的一致性。Fleiss’ kappa系數(shù)越接近1，一致性越大。經(jīng)過計算，F(xiàn)leiss’ kappa系數(shù)為0.637，表明本研究的標(biāo)注結(jié)果具有較好的一致性。

2 用戶自戀人格特征分析

2.1 指標(biāo)設(shè)計

本文根據(jù)Twitter的功能和用戶在Twitter社區(qū)中的信息行為特點，設(shè)計了13個指標(biāo)，涉及的符號說明見表1。

1）用戶近三年發(fā)表的推文總數(shù)

一個自戀人格特征相對明顯的用戶可能會經(jīng)常發(fā)布推文來展示自己的想法和行動。

x1=count（tweets）

2）正面情感傾向推文所占比例

一個自戀人格特征相對明顯的用戶可能會更傾向于發(fā)布積極情感傾向的信息（例如與自己成功、幸福感有關(guān)的事情）。

x2=count（positive_tweets）x1

3）負(fù)面情感傾向推文所占比例

在突發(fā)公共事件情境下，一個自戀人格特征相對明顯的用戶可能會更傾向于發(fā)布與突發(fā)公共事件相關(guān)的負(fù)面情感信息以吸引更多人的注意并引起共鳴，從而提升自己的影響力；而且，可能會表達(dá)對政府機構(gòu)的不滿或?qū)π袨橹黧w的不認(rèn)可。

x3=count（negative_tweets）x1

4）推文中形容詞平均數(shù)

自戀人格特征相對明顯的用戶可能會用大量的形容詞來描述自己的外貌、成就和性格。

x4=count（adjectives）x1

5）推文中動詞平均數(shù)

自戀人格特征相對明顯的用戶可能會強調(diào)自己的行動和成就，以增強對他人的影響。

x5=count（verbs）x1

6）推文中名詞平均數(shù)

自戀人格特征相對明顯的用戶可能會經(jīng)常提到自己的名字、外貌、成就等等，以體現(xiàn)個人的重要性。

x6=count（nouns）x1

7）推文中副詞平均數(shù)

自戀人格特征相對明顯的用戶可能會使用副詞來描述自己的行動和情感狀態(tài)，以體現(xiàn)其影響力更大。

x7=count（adverbs）x1

8）推文中話題標(biāo)簽平均數(shù)

自戀人格特征相對明顯的用戶可能會使用話題標(biāo)簽來使自己的推文更加易于被發(fā)現(xiàn)和關(guān)注。

x8=count（hashtags）x1

9）推文中@他人平均數(shù)

自戀人格特征相對明顯的用戶可能會在推文中@自己的粉絲或其他關(guān)注者，以獲得更多的關(guān)注和回應(yīng)。

x9=count（mentions）x1

10）推文中插入圖片平均數(shù)

自戀人格特征相對明顯的用戶可能會發(fā)布大量的照片和自拍照，以展示自己的外貌和生活。

x10=count（pictures）x1

11）推文中問號平均數(shù)

自戀人格特征相對明顯的用戶可能會在推文中使用問號來引起關(guān)注和好奇心，以吸引更多的關(guān)注和回應(yīng)。

x11=count（question_marks）x1

12）推文中感嘆號平均數(shù)

自戀人格特征相對明顯的用戶可能會使用一個或多個感嘆號來強調(diào)自己的情感強烈程度和推文的重要性。

x12=count（exclaimation_marks）x1

13）推文中單詞平均數(shù)

自戀人格特征相對明顯的用戶可能會發(fā)布大篇幅（單詞數(shù)量較多）的推文來描述自己的行動、成就、想法和情感狀態(tài)。

x13=count（words）x1

隨后，本文利用Python的vader sentiment模塊獲得用戶推文的情感極性。其他指標(biāo)均使用Python的正則匹配方法計算。

2.2 描述性統(tǒng)計及相關(guān)性分析

為了量化樣本在各個指標(biāo)上的結(jié)構(gòu)特點，本文計算了每個指標(biāo)的均值、標(biāo)準(zhǔn)差、最小值、25%分位數(shù)、50%分位數(shù)（中位數(shù)）、75%分位數(shù)和最大值，對13個指標(biāo)進行描述性統(tǒng)計，見表2。

從表2可以看出：用戶的最大推文數(shù)為50條，平均每個用戶發(fā)推文10條。從推文的正面（x2）、負(fù)面（x3）情感占比來看，兩種情感占比相近。此外，對vader sentiment模塊生成的正、負(fù)情感效價進行從小到大排序后，25%至75%分位差的數(shù)值表明，推文正面情感在0.45范圍內(nèi)波動，而負(fù)面情感在0.60范圍內(nèi)波動，說明負(fù)面情感的占比更離散。從每條推文的形容詞（x4）、動詞（x5）、名詞（x6）、副詞（x7）使用量均值來看，平均每條推文中的名詞數(shù)量最高，為9.91；副詞數(shù)量最低，為1.59。話題標(biāo)簽（x8）、@他人（x9）的均值超過了1，說明用戶習(xí)慣于在推文中加入話題以及和別人互動。但是推文插入圖片的均值為0.28（x10），表明大多數(shù)用戶不習(xí)慣在推文中加入圖片。從推文標(biāo)點的使用情況來看，問號（x11）和感嘆號（x12）的均值相近，但是感嘆號的最大值為10.33，遠(yuǎn)高于問號的最大值2.67，說明在表達(dá)強烈的情感時，用戶更習(xí)慣使用感嘆號。從每條推文單詞的平均數(shù)（x13）來看，用戶平均每條推文的單詞數(shù)為31.59。標(biāo)準(zhǔn)差反映了用戶間的差異性。用戶每條推文的平均單詞數(shù)的差異性最大，用戶近三年發(fā)表的推文總數(shù)的差異性次之，負(fù)面情感傾向推文的占比差異最小。

另外，本文使用相關(guān)性熱力圖反映各指標(biāo)的相關(guān)性，如圖2所示。從圖2右側(cè)的色譜可知：變量間相關(guān)系數(shù)越接近黑色（值越接近-1），表明變量之間負(fù)相關(guān)的程度越高；相關(guān)系數(shù)越接近白色（值越接近1），表明變量之間正相關(guān)的程度越高。圖2顯示x2與x3呈現(xiàn)顯著的負(fù)相關(guān)關(guān)系，x5、x6與x13呈現(xiàn)顯著的正相關(guān)關(guān)系。

2.3 Logit回歸分析

Logit回歸是一種用于分類問題的統(tǒng)計學(xué)方法，常用于二分類問題，即將樣本分為2個類別（如是或否、存在或不存在等）。其基本思想是通過一個邏輯函數(shù)（Sigmoid函數(shù)）將線性回歸的輸出映射到［0，1］之間的一個概率值，表示樣本屬于某一類別的概率。

2.3.1 模型建立

本文將上述13個指標(biāo)作為Logit回歸模型的自變量。假設(shè)基于用戶行為指標(biāo)x1，x2，…，x13的觀察，判斷用戶“自戀人格特征相對明顯”的概率為p，則該事件不發(fā)生的概率就為1－p，發(fā)生概率與不發(fā)生概率之比為p1－p，記作“優(yōu)勢”odds，對odds取自然對數(shù)，即得Logit函數(shù)：

Logit（p）=ln（odds）=ln（p1－p）

稱為p的Logit 變換，則Logit回歸模型為

Logit（p）=ln（p1－p）

=β0+β1x1+β2x2+…+β13x13 （1）

式中：β0為常數(shù)項；β1，β2，…，β13為回歸系數(shù)，反映了自變量每變化一個單位，幾率（odds）的對數(shù)的變化情況。

從式（1）可以看出：當(dāng)p在（0，1）之間變化時，對應(yīng)的Logit（p）在（－∞，+∞）之間變化，自變量x1，x2，…，x13則可在任何范圍內(nèi)取值。

2.3.2 模型求解

當(dāng)自變量很多時，自變量之間可能會存在多重共線性，這會造成模型與實際不符，因此本文首先對數(shù)據(jù)進行多重共線性診斷。而度量多重共線性嚴(yán)重程度的一個重要指標(biāo)是指標(biāo)矩陣條件數(shù)κ，其計算公式如下：

κ（X）=‖X‖‖X-1‖

其中：‖X‖=max1≤j≤n{∑mi=1xij}，xij為指標(biāo)矩陣X的元素。

從實際應(yīng)用的經(jīng)驗角度來看：κ<100，被認(rèn)為多重共線性的程度很??；100≤κ≤1 000，被認(rèn)為存在中等程度或較強的多重共線性；若κ>1 000，則認(rèn)為存在嚴(yán)重的多重共線性［11］。經(jīng)過計算，研究的13個用戶行為指標(biāo)的矩陣條件數(shù)為108.92，說明各指標(biāo)間存在中等程度的多重共線性。

指標(biāo)間存在多重共線性會導(dǎo)致建模結(jié)果變差。因此，本研究利用逐步回歸的方法進行指標(biāo)篩選，以保證在不損失重要指標(biāo)的前提下消除多重共線性問題。首先用13個指標(biāo)作為自變量建立一個回歸模型，然后計算在剔除任意一個自變量后回歸模型的擬合度，模型的擬合度最優(yōu)時對應(yīng)的變量即要剔除的變量。依此類推，直至回歸模型剩余的p個變量中再任意剔除一個變量，模型的擬合度都會變差，此時已經(jīng)沒有可以繼續(xù)剔除的自變量，因此包含這p個變量的回歸模型就是最終確定的模型。

本文使用AIC準(zhǔn)則（Akaike information criterion）來衡量模型擬合的優(yōu)劣，其計算公式如下：

CAI=2k－ln（L^）

式中：CAI為AIC值；k為模型中待估參數(shù)的數(shù)量；L^是該模型極大似然估計的最大值。

AIC值越小，說明該統(tǒng)計模型損失的信息越少，統(tǒng)計模型的建模效果越好。因此，在進行逐步回歸求解時，模型篩選變量的目標(biāo)是：第一，模型中的變量均為顯著；第二，模型整體顯著且AIC值最低。

本文使用Python工具包statsmodels進行模型求解，得到系數(shù)的顯著性，見表3。

模型的p值反映了模型的顯著水平，其值為5.144 1e-43 （<0.05），表明模型顯著。從模型的回歸系數(shù)來看，用戶近三年發(fā)表的推文總數(shù)（x1）、負(fù)面情感傾向推文所占比例（x3）、推文中動詞平均數(shù)（x5）、推文中話題標(biāo)簽平均數(shù)（x8）和推文中感嘆號平均數(shù)（x12）的p值小于0.05，說明這5個行為指標(biāo)構(gòu)成的信息行為特征組與用戶群體自戀人格特征顯著相關(guān)。本文對逐步回歸分析后得到的變量進行多重共線性檢驗，以上5個指標(biāo)的矩陣條件數(shù)為1.89，遠(yuǎn)小于100，說明指標(biāo)間多重共線性問題已經(jīng)得到很大程度改善。因此，本文得到的Logit回歸模型為

Logit（p）

=ln（p1－p）

=1.847 5+0.073 9x1+0.736 8x3+

0.089 9x5+0.116 4x8+0.791 3x12（2）

2.3.3 結(jié)果分析

從式（2）可以得出：在突發(fā)公共事件情境下的Twitter社區(qū)中，最能反映用戶自戀人格特征的信息行為指標(biāo)組合為：用戶近三年發(fā)表的推文總數(shù)、負(fù)面情感傾向推文所占比例、推文中動詞平均數(shù)、推文中話題標(biāo)簽平均數(shù)和推文中感嘆號平均數(shù)。其中用戶近三年發(fā)表的推文總數(shù)的系數(shù)為0.073 9，這表明當(dāng)其他變量保持不變時，用戶推文量每增加一個單位，用戶自戀人格特征相對明顯的概率將提升0.073 9。類似地，當(dāng)固定其他信息行為指標(biāo)不變時，其余4個影響因素每增加一個單位，用戶自戀的概率分別增加0.736 8、0.089 9、0.116 4、0.791 3。

2.3.4 模型評估

針對二分類任務(wù)結(jié)果可以得到4個值：真陽性（true positive，TP）、假陽性（false positive，F(xiàn)P）、真陰性（true negative，TN）和假陰性（false negative，F(xiàn)N），這4個值構(gòu)成了圖3所示的混淆矩陣。

在本文中，TP =431，表示自戀人格特征相對明顯用戶被正確分類的數(shù)量；FP =188，表示自戀人格特征相對不明顯用戶被錯誤分類的數(shù)量；TN =278，表示自戀人格特征相對不明顯用戶被正確分類的數(shù)量；FN =111，表示自戀人格特征相對明顯用戶被錯誤分類的數(shù)量。

由上述4個值，本文得出準(zhǔn)確度A、精確度P、召回率R和F1-score值F1用以評估模型的分類效果。

準(zhǔn)確度表示總體數(shù)據(jù)中，有多少數(shù)據(jù)被分類正確了。其計算結(jié)果為

A=TP+TNTP+TN+FP+FN=0.703 4

精確度表示分類為自戀人格特征相對明顯且分類正確的數(shù)量占實際為自戀人格特征相對明顯樣本數(shù)量的比例。其計算結(jié)果為

P=TPTP+FP=0.696 3

召回率表示分類為自戀人格特征相對明顯且分類正確的數(shù)量占全部分類為自戀人格特征相對明顯數(shù)量的比例。其計算結(jié)果為

R=TPTP+FN=0.795 2

F1值是精確度和召回率的調(diào)和均值。其計算結(jié)果為

F1=2×P×RP+R=0.742 5

準(zhǔn)確度值為0.703 4表明該模型的分類準(zhǔn)確性較好的。而且，精確度、召回率和F1值接近，表明模型的分類結(jié)果中正例和負(fù)例的比例是相近的，且分類結(jié)果與實際結(jié)果相符合的樣本數(shù)量和誤判樣本數(shù)量相近，說明本文中自戀人格特征分類模型的性能較好。

3 總結(jié)與展望

本文通過對網(wǎng)絡(luò)爬蟲獲取的大樣本數(shù)據(jù)構(gòu)建Logit回歸模型，證明了在突發(fā)公共事件情境下，用戶的4種群體自戀人格特征（優(yōu)越/傲慢、領(lǐng)導(dǎo)/權(quán)威、強勢/權(quán)力、自我陶醉/自我欣賞）中的一種或多種組合都與他們在數(shù)字社區(qū)中的信息行為特征（用戶近三年發(fā)表的推文總數(shù)、負(fù)面情感傾向推文所占比例、推文中動詞平均數(shù)、推文中話題標(biāo)簽平均數(shù)和推文中感嘆號平均數(shù)）相關(guān)組合。這表明針對突發(fā)公共事件，自戀人格特征相對明顯的用戶群體更傾向于在數(shù)字社區(qū)中發(fā)布更多的、負(fù)面情感傾向、有一定煽動性、級聯(lián)性、情感效價較高的相關(guān)信息。同時也說明，自戀人格特征相對明顯的用戶群體更渴望在數(shù)字社區(qū)中得到關(guān)注、認(rèn)可、贊賞、積極回應(yīng)以滿足其人格正常和諧發(fā)展的需要。

上述研究結(jié)果為如何實現(xiàn)大數(shù)據(jù)賦能突發(fā)公共事件應(yīng)急響應(yīng)和維護民眾心理健康提供了2條思路：第一，通過大數(shù)據(jù)建模實現(xiàn)自戀人格畫像，更精準(zhǔn)地關(guān)注可能需要干預(yù)的用戶群體，預(yù)防網(wǎng)絡(luò)暴力、負(fù)面數(shù)字情緒感染、負(fù)面情感信息級聯(lián)的發(fā)生；第二，更為精準(zhǔn)地判斷不同用戶的自戀人格特征及其心理需求，從而更有針對性地為他們提供個性化的數(shù)字服務(wù)以促進他們的心理健康。總之，進行用戶群體人格畫像研究對促進數(shù)字社區(qū)健康發(fā)展，拓展大數(shù)據(jù)技術(shù)、人工智能技術(shù)應(yīng)用場景都具有重要意義。

參考文獻：

PERVIN L A. 人格科學(xué)［M］. 上海：華東師范大學(xué)出版社， 2001： 467.

［2］ RASKIN R， HOWARD T. A principal-components analysis of the narcissistic personality inventory and further evidence of its construct validity［J］. Journal of Personality and Social Psychology， 1988， 54（5）： 890-902.

［3］ GEEL M V， ANOUK G， FATIH T， et al. Which personality traits are related to traditional bullying and cyberbullying？ A study with the Big Five， Dark Triad and sadism［J］. Personality and Individual Differences， 2017， 106： 231-235.

［4］ MCCRAE R， ANTONIO T. Personality profiles of cultures： aggregate personality traits［J］. Journal of Personality and Social Psychology， 2005， 89（3）： 407-425.

［5］ LEE J， JIHYE L， YOUNG S， et al. Self-disclosures on Facebook： the two faces of narcissism［J］. International Journal of Advanced Culture Technology， 2020， 8（2）： 139-145.

［6］ HUANG L V， LIU S S. Presenting an ideal self on Weibo： the effects of narcissism and self-presentation valence on uses and gratification［J］. Frontiers in Psychology， 2020， 11：1310.1-1310.6.

［7］ CHRISTINA S， SCHWARTZ A M， RUDY A H， et al. I love my selfie！ An investigation of overt and covert narcissism to understand selfie-posting behaviors within three geographic communities［J］. Computers in Human Behavior， 2020， 104（10）： 106158.1-106158.11.

［8］ WILLCOX G， DAVID A， LOUIS R， et al. Measuring group personality with swarm AI［C］// 2019 First International Conference on Transdisciplinary AI （TRANSAI 2019）， Laguna Hills， CA： IEEE， 2019： 10-17.

［9］ YANG Q， ALEKSANDR F， SERGEY N， et al. Do we behave differently on Twitter and Facebook： multi-view social network user personality profiling for content recommendation？［J］. Frontiers in Big Data， 2022， 5： 931206.1-931206.16.

［10］LIU D， BAUMEISTER R F. Social networking online and personality of self-worth： a meta-analysis［J］. Journal of Research in Personality， 2016， 64： 79-89.

［11］EMMONS R A. Factor analysis and construct validity of the narcissistic personality inventory［J］. Journal of Personality Assessment， 1984， 48（3）： 291-300.

［12］AMES D R， ROSE P， ANDERSON C P. The NPI-16 as a short measure of narcissism［J］. Journal of Research in Personality， 2006， 40（4）： 440-450.

（責(zé)任編輯：周曉南）

Digital Community User Group Personality Profiling

Through the Lens of Big Data

FU Qian1， ZHAO Haiteng2， ZHAO Xiaoqing*1， SHUAI Yixin1

（1.Mental Health Education & Consulting Center， Guizhou University， Guiyang 550025， China；2.Computer Science and Technology， Guizhou University， Guiyang 550025， China）

Abstract：

Personality profiles are key drivers behind human behaviors， and they influence people’s daily life all the time. In the context of public emergencies， there may be more individual differences in this influence mechanism. The emergence of digital communities makes it possible to automatically and effectively capture user group personality profiles by analyzing big data of user information behaviors. However， research efforts on this issue are relatively sparse. This study takes the relevant information released by Twitter users during the COVID-19 epidemic and their related information behavior records as samples to conduct user group personality profiling. First， professional counselors were invited to set labelling rules and label the data based on the definition and scale of narcissism personality. Then， this study designs 13 potential user behavior indicators， builds a logit regression model， and evaluates the classification performance of this model （the accuracy reaching 70.34%）. Finally， this study identifies a set of information behavior indicators closely related to the narcissism personality profiles of user groups. There are five indicators in this constellation， including the total number of tweets published by users in the past three years， the proportion of negative sentiment tweets， the average number of verbs in tweets， the average number of hashtags in tweets， and the average number of exclamation marks in tweets. Thus， we propose a group personality profiling method based on big data analysis of user information behaviors for specific situations （e.g. public emergencies， etc.）， which provides a new idea for maintaining users’ mental health and clear space for digital community.

Key words：

digital community; group personality； narcissism personality; personality profiling; Logit regression

貴州大學(xué)學(xué)報（自然科學(xué)版）2023年6期

貴州大學(xué)學(xué)報（自然科學(xué)版）的其它文章: 內(nèi)置分塊波紋鋼板-混凝土組合剪力墻抗震性能分析; 基于雙通道殘差網(wǎng)絡(luò)的泥石流溝谷孕災(zāi)風(fēng)險預(yù)測; 基于偏旁部首計數(shù)分析網(wǎng)絡(luò)的零樣本漢字識別; 動態(tài)環(huán)境下基于深度學(xué)習(xí)的視覺SLAM研究; 植酸-鉿納米酸性催化劑的制備及其立體選擇性合成反式茴香腦的研究; 塔磨機磨礦效率影響因素分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大數(shù)據(jù)視角下數(shù)字社區(qū)用戶群體人格畫像