周葆華 江丹婷
【內(nèi)容摘要】本文運(yùn)用計(jì)算傳播研究方法,基于推特(X)上與中國(guó)相關(guān)的新冠疫情的英文討論,分析社交機(jī)器人的規(guī)模與特征。研究共包括947559個(gè)賬戶、2040036條推文。經(jīng)采用更保守但更準(zhǔn)確的TweetBotOrNot2檢測(cè)賬號(hào)并結(jié)合人工校驗(yàn)后發(fā)現(xiàn),社交機(jī)器人賬號(hào)數(shù)占比9.3%,發(fā)布推文數(shù)占比13.4%。社交機(jī)器人注冊(cè)時(shí)間在近期的比例顯著高于人類用戶,其主動(dòng)型社交特征(如發(fā)帖量、關(guān)注數(shù)、點(diǎn)贊數(shù))顯著高于人類用戶,而被動(dòng)型社交特征(如粉絲數(shù))則顯著低于人類用戶。在發(fā)帖行為上,社交機(jī)器人賬號(hào)會(huì)大量發(fā)布重復(fù)內(nèi)容,包含更高比例的負(fù)面標(biāo)簽,更多引用低可信度的超鏈接。在此分析基礎(chǔ)上,本文強(qiáng)調(diào)了運(yùn)用多元方法研究社交機(jī)器人的重要性。
【關(guān)鍵詞】國(guó)際傳播;社交機(jī)器人;涉華輿論;計(jì)算傳播
社交媒體是國(guó)際傳播的重要平臺(tái),因此了解社交平臺(tái)上的多元行動(dòng)者非常重要。①作為人工智能時(shí)代國(guó)際傳播的重要表征,社交機(jī)器人(social bots)已經(jīng)成為社交平臺(tái)上除了人類用戶之外不可忽視的行動(dòng)者,因此實(shí)證分析其分布規(guī)模與行動(dòng)特征具有重要意義。在過往針對(duì)社交機(jī)器人的計(jì)算傳播分析中,比較多地運(yùn)用Botmeter識(shí)別和確定機(jī)器賬號(hào),本研究運(yùn)用另一種TweetBotOrNot2算法工具,選擇海外最大的社交平臺(tái)之一的推特(Twitter,現(xiàn)名X),識(shí)別并分析其中參與疫情涉華輿論英文討論的社交機(jī)器人賬號(hào),以期豐富該領(lǐng)域的實(shí)證研究。
一、文獻(xiàn)綜述與研究問題
(一)社交機(jī)器人的界定與分類
隨著人工智能(AI)的發(fā)展,機(jī)器人技術(shù)開始被廣泛應(yīng)用于社交媒體。早在2009年,一份來自Sysomos咨詢公司的報(bào)告就指出,在推特上大約有24%的推文由社交機(jī)器人產(chǎn)生。2012年臉書(Facebook)也曾公開宣稱社交機(jī)器人占其所有賬號(hào)的8.7%。②2017年的另一項(xiàng)研究指出,推特上所有英文活躍用戶中,9%—15%表現(xiàn)出類似機(jī)器人的行為。③由此可見,社交機(jī)器人已經(jīng)成為社交媒體的有機(jī)組成部分,社交媒體生態(tài)呈現(xiàn)出人類與機(jī)器人共生的新格局。
關(guān)于社交機(jī)器人的定義:有的側(cè)重技術(shù)特征,如認(rèn)為社交機(jī)器人就是自動(dòng)化軟件代理④;有的強(qiáng)調(diào)社交互動(dòng),指出模仿人類行為、生產(chǎn)內(nèi)容,并與真人用戶互動(dòng)是社交機(jī)器人的關(guān)鍵特征⑤;社會(huì)科學(xué)研究則更多指涉機(jī)器人的社會(huì)與政治意涵,如將社交機(jī)器人聚焦于“政治機(jī)器人”,強(qiáng)調(diào)社交機(jī)器人模仿人類用戶行為并試圖操縱公眾觀點(diǎn),具有政治議程。⑥
Morstatter等將廣義的社交機(jī)器人從人機(jī)關(guān)系角度分為兩類:第一類是為人類用戶提供服務(wù)的功能性機(jī)器人,如氣象預(yù)報(bào)機(jī)器人、聊天機(jī)器人(如微軟小冰)等;第二類則是受人類特定目的驅(qū)使工作的機(jī)器人,如政治性社交機(jī)器人、社交媒體中的機(jī)器“水軍”等。⑦在此基礎(chǔ)上,Stieglitz等從“意圖是否友好”與“模仿人的行為程度”兩個(gè)維度,構(gòu)建了一個(gè)社交機(jī)器人的六分類系統(tǒng)(表1)。⑧
因此,本研究所關(guān)注的社交機(jī)器人是社交媒體上高度模仿人類(行為)的(半)自動(dòng)化的計(jì)算機(jī)程序,它們通過發(fā)布內(nèi)容參與公共議題討論,成為影響輿論的重要行動(dòng)者。
(二)社交機(jī)器人的輿論角色與涉華輿論中的社交機(jī)器人
政治議題相關(guān)的輿論場(chǎng)是社交機(jī)器人展開行動(dòng)的主要領(lǐng)域之一,其操縱者通常使用自動(dòng)化算法注冊(cè)大量社交媒體賬號(hào)并對(duì)其進(jìn)行運(yùn)營(yíng),通過與盡可能多的目標(biāo)用戶建立聯(lián)絡(luò)傳播特定內(nèi)容并試圖影響輿論走向。過往研究重點(diǎn)關(guān)注西方國(guó)家政治選舉中的社交機(jī)器人。如2016年的美國(guó)選舉中,被認(rèn)為存在大量的政治機(jī)器人,削弱了傳統(tǒng)主體(媒體精英與專家)的影響,干擾真實(shí)人類用戶間的政治溝通。⑨另有研究分析了2017年德國(guó)七個(gè)政黨在競(jìng)選期間的社交機(jī)器人,發(fā)現(xiàn)社交機(jī)器人的比例在競(jìng)選期間有明顯上升,從之前的7.1%上升到9.9%。⑩另一項(xiàng)對(duì)日本首相選舉前后推特文章的分析也發(fā)現(xiàn),存在大量由機(jī)器人發(fā)布或轉(zhuǎn)發(fā)的重復(fù)信息內(nèi)容,而安倍之所以勝出,也得益于強(qiáng)大的機(jī)器人支持。在其他重大社會(huì)政治議題的討論中,研究發(fā)現(xiàn),在英國(guó)脫歐公投前的兩周里,機(jī)器人推特賬戶在脫歐相關(guān)議題辯論中極為活躍,而在投票后活躍度急速下降。
隨著中國(guó)的快速發(fā)展和國(guó)際影響力與日俱增,海外社交媒體上關(guān)于中國(guó)議題的機(jī)器人開始引起學(xué)界的關(guān)注。有研究曾對(duì)比分析中國(guó)新浪微博和推特中有關(guān)中國(guó)政治的發(fā)帖及其評(píng)論,發(fā)現(xiàn)與微博不同,在推特中存在社交機(jī)器人操縱輿論的痕跡,并且這些機(jī)器人賬號(hào)大多以簡(jiǎn)體中文發(fā)布反華內(nèi)容。有學(xué)者通過在海外媒體上常被用于指代中國(guó)及中國(guó)政府的8個(gè)標(biāo)簽作為檢索關(guān)鍵詞,在推特上獲取了為期9天的35萬多條推文,發(fā)現(xiàn)其中超過20%的推文由疑似社交機(jī)器人的用戶產(chǎn)生。另一項(xiàng)針對(duì)中美貿(mào)易戰(zhàn)的輿論研究,基于2019年5月推特上關(guān)于該議題的21萬多條推文,發(fā)現(xiàn)其中社交機(jī)器人占比13%,發(fā)帖占比接近20%。
(三)社交機(jī)器人的規(guī)模與特征
1.社交媒體上社交機(jī)器人的規(guī)模
表2總結(jié)了近年來部分基于推特平臺(tái)進(jìn)行的涉華輿論中的社交機(jī)器人的研究發(fā)現(xiàn)。
由此可見,目前推特涉華輿論機(jī)器人的實(shí)證研究主要以短時(shí)間內(nèi)的數(shù)據(jù)采集為主,均使用Botometer檢測(cè)方法,所發(fā)現(xiàn)的社交機(jī)器人用戶規(guī)模比例為12.92%—19.47%,發(fā)帖規(guī)模比例為17.04%—28.69%??偟膩砜?,目前對(duì)涉華輿論機(jī)器人的實(shí)證研究數(shù)量還不多,另外可以嘗試使用其他的社交機(jī)器人識(shí)別方法,以及探索更長(zhǎng)的時(shí)段分析等。
基于此,本文提出第一組研究問題:
RQ1a:推特新冠疫情涉華議題討論中社交機(jī)器人賬戶以及推文的總體規(guī)模(比例)如何?
RQ1b:推特新冠疫情涉華輿論中的機(jī)器人在時(shí)間序列上具有怎樣的分布特征?
2.社交機(jī)器人的基本特征
社交媒體賬戶在網(wǎng)絡(luò)中公開的賬戶信息主要包括個(gè)人資料(昵稱、頭像、注冊(cè)時(shí)間、性別、簡(jiǎn)介等)以及社交影響力(關(guān)注數(shù)、粉絲數(shù)、發(fā)帖量、閱讀數(shù)以及互動(dòng)數(shù)等)。研究發(fā)現(xiàn),大多數(shù)社交機(jī)器人的用戶名有自動(dòng)化生成的痕跡,用戶頭像或?yàn)榭?,或可以在網(wǎng)絡(luò)數(shù)據(jù)集中找到。在敘利亞戰(zhàn)爭(zhēng)討論中,大多數(shù)社交機(jī)器人均采用推特系統(tǒng)默認(rèn)的頭像——蛋殼圖案。社交機(jī)器人賬戶與正常人類賬戶在社交關(guān)系部分也具有明顯區(qū)別。如關(guān)于2018年法國(guó)大選前夕“馬克龍泄密”事件中的社交機(jī)器人研究發(fā)現(xiàn),社交機(jī)器人賬戶的關(guān)注數(shù)(Friends)、粉絲數(shù)(Follower)、發(fā)推量(Tweets)、點(diǎn)贊數(shù)(Favorite)、所屬用戶群組數(shù)(listed)都低于人類用戶。這一點(diǎn)在針對(duì)推特中參與中美貿(mào)易談判議題的社交機(jī)器人研究中也得到證實(shí),粉絲數(shù)量在100及以下的社交機(jī)器人賬號(hào)數(shù)量明顯多于人類用戶,而當(dāng)粉絲數(shù)量高于5000后,社交機(jī)器人賬號(hào)數(shù)量則明顯少于人類用戶。
因此,本文提出第二個(gè)研究問題:
RQ2:推特新冠疫情涉華議題討論中的社交機(jī)器人的基本賬戶特征(昵稱、簡(jiǎn)介、注冊(cè)時(shí)間和地域分布)以及社交影響力特征(粉絲數(shù)、關(guān)注數(shù)、點(diǎn)贊數(shù)、被加入列表數(shù)、創(chuàng)立以來發(fā)帖數(shù))分別如何?
有研究證明,執(zhí)行同一任務(wù)的社交機(jī)器人通常在文本內(nèi)容上會(huì)表現(xiàn)出一定的一致性。這在關(guān)于英國(guó)脫歐公投和日本大選中的社交機(jī)器人的活動(dòng)研究中得到了證實(shí),社交機(jī)器人主要通過大量轉(zhuǎn)發(fā)或直接復(fù)制與其任務(wù)觀點(diǎn)相同的人類用戶的文本內(nèi)容達(dá)到放大擴(kuò)散某種觀點(diǎn)的目的。機(jī)器人在推文中使用的標(biāo)簽數(shù)、鏈接數(shù)、標(biāo)點(diǎn)符號(hào)數(shù)等,也都與正常人類用戶存在一定差異。其發(fā)出信息時(shí)會(huì)采用提及(@)知名用戶的形式,以使其發(fā)布的信息具有更大的可見度。在推特上共享鏈接時(shí),自動(dòng)賬戶比人類用戶多產(chǎn)。
因此,本文提出第三個(gè)研究問題:
RQ3:推特新冠疫情涉華議題討論中的社交機(jī)器人的發(fā)帖文本是否具有重復(fù)性?發(fā)帖內(nèi)容中@、話題標(biāo)簽(##)、鏈接的使用情況如何?
二、研究方法
(一)數(shù)據(jù)采集與清洗
本文使用的新冠疫情(COVID-19)相關(guān)的推特?cái)?shù)據(jù)集是基于Lopez等通過跟蹤與COVID-19相關(guān)的關(guān)鍵字以及綜合Chen等人的數(shù)據(jù)集構(gòu)成(對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行了去重匹配)?;跀?shù)據(jù)集給出的Tweet ID,本研究使用Twitter API獲取了其中2020年1月22日至6月30日發(fā)布的英文推文,在10%隨機(jī)抽樣的前提下,使用一組與中國(guó)相關(guān)的關(guān)鍵詞(包括China,Chinese,CCP,以及全部省份、武漢、雷神山、火神山等的英文詞)對(duì)其進(jìn)行過濾,在刪掉重復(fù)推文后,共發(fā)現(xiàn)947559個(gè)獨(dú)立用戶(不含被轉(zhuǎn)發(fā)、回復(fù)、引用、提及的賬戶)的2040036條推文在新冠疫情相關(guān)討論中提及中國(guó)。由此可見,本研究所基于的數(shù)據(jù)集包含相對(duì)較長(zhǎng)的時(shí)間段和較大的數(shù)據(jù)量。
(二)社交機(jī)器人檢測(cè):基于TweetBotOrNot2
社交機(jī)器人檢測(cè)方面最具代表性的是基于有監(jiān)督的機(jī)器學(xué)習(xí)識(shí)別方法。它通過對(duì)具有概念標(biāo)記的訓(xùn)練樣本進(jìn)行學(xué)習(xí)建立一個(gè)基于預(yù)測(cè)特征(通常包括機(jī)器人內(nèi)容與行為特征)的分類模型,然后通過給定預(yù)測(cè)特征的值,使用分類模型為未標(biāo)記的數(shù)據(jù)預(yù)測(cè)類標(biāo)簽。在這類方法中,目前存在多種不同的開源工具,如基于python開發(fā)的Botmeter和基于R語言開發(fā)的TweetBotOrNot2,它們均是基于有監(jiān)督機(jī)器學(xué)習(xí)方法,綜合網(wǎng)絡(luò)、時(shí)間、朋友、內(nèi)容等多個(gè)維度來進(jìn)行分析。只要待檢測(cè)賬號(hào)未開啟隱私權(quán)限,并且有足夠多的信息供分析,它們便會(huì)依據(jù)賬號(hào)的公開推文內(nèi)容和賬號(hào)信息,計(jì)算出一個(gè)介于0到1之間的數(shù)值,該值越接近0則有越大概率表明該賬號(hào)是人類用戶賬號(hào),若該值越接近1則有越大的概率表明該賬號(hào)是社交機(jī)器人賬號(hào)。
如前所述,目前不少關(guān)于推特涉華輿論的分析中均使用Botmeter作為社交機(jī)器人檢測(cè)方法。但依據(jù)開發(fā)者基于一些公開數(shù)據(jù)集上進(jìn)行的測(cè)試,TweetBotOrNot2相比于Botmeter具有更高的準(zhǔn)確性(圖1)。其他研究者也指出TweetBotOrNot2相比于Botmeter是一個(gè)更保守的機(jī)器人檢測(cè)工具,傾向于只標(biāo)記真正自動(dòng)化的機(jī)器人賬戶,而不包括其他由人類控制的“噴子”用戶或混合賬戶等,因此往往發(fā)現(xiàn)更準(zhǔn)確但數(shù)量更少的機(jī)器人賬戶。
為了更好地探究?jī)深惞ぞ叩男Ч狙芯渴褂貌糠种襟w與公眾人物賬戶以及已知為真人的親友賬戶(共28個(gè)),對(duì)比分析了Botmeter和TweetBotOrNot2的檢測(cè)結(jié)果(表3)。結(jié)果發(fā)現(xiàn)Botmeter的確會(huì)將較多的人類賬戶判定為機(jī)器人賬戶(即便以0.5為標(biāo)準(zhǔn)),而TweetBotOrNot2對(duì)這些人類用戶的判斷相對(duì)更準(zhǔn)確。
基于上述分析,本文選擇TweetBotOrNot2作為機(jī)器人檢測(cè)工具,同時(shí)加入人工校驗(yàn)的部分,將具有身份認(rèn)證的賬戶從社交機(jī)器人集合中移動(dòng)到人類用戶集合。最終,在數(shù)據(jù)集涉及的全部947559個(gè)獨(dú)立賬戶中檢測(cè)出社交機(jī)器人賬號(hào)88353個(gè)。筆者從中抽取了60個(gè)賬號(hào)進(jìn)行人工校驗(yàn),發(fā)現(xiàn)其中一部分賬號(hào)已經(jīng)被平臺(tái)封禁,剩余賬號(hào)的發(fā)帖行為也的確具有一定自動(dòng)化痕跡(僅活躍了很短的時(shí)間或發(fā)帖內(nèi)容具有高重復(fù)性)。
三、研究發(fā)現(xiàn)
(一)社交機(jī)器人規(guī)模
1.社交機(jī)器人賬號(hào)及發(fā)帖數(shù)量分析
本文使用TweetBotOrNot2檢測(cè)所有賬號(hào)后,以0.5作為閾值劃分社交機(jī)器人賬號(hào)與人類賬戶,并且依據(jù)賬號(hào)是否通過認(rèn)證的修正檢測(cè)結(jié)果后,顯示947559個(gè)獨(dú)立賬號(hào)中社交機(jī)器人賬號(hào)有88353個(gè),占比為9.3%。
接著對(duì)推文數(shù)量進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)這些機(jī)器人賬號(hào)一共生產(chǎn)了273437條推文,占總推文數(shù)量的13.4%。每個(gè)社交機(jī)器人賬號(hào)平均生產(chǎn)3條涉華推文,人類用戶平均產(chǎn)生2條涉華推文;發(fā)布3條及以上推文數(shù)量的社交機(jī)器人賬號(hào)占比25.5%,而人類用戶不到15%。
由此可見:推特新冠疫情的涉華輿論中,存在社交機(jī)器人的活躍身影,占全部用戶9.3%的社交機(jī)器人發(fā)布了占比13.4%的推文。與之前的推特涉華輿論研究相比,可能由于采取更為保守和準(zhǔn)確的檢測(cè)方法,本研究發(fā)現(xiàn)了稍低一些的社交機(jī)器人和發(fā)帖量比例。
2.社交機(jī)器人發(fā)布推文的時(shí)間序列
從社交機(jī)器人與人類用戶發(fā)帖的時(shí)間序列上來看,輿論高峰發(fā)生在1月下旬、2月中上旬、3月中上旬及5月中旬,兩者最高峰均出現(xiàn)在2020年1月31日,時(shí)間序列間存在強(qiáng)相關(guān)性(Spearman相關(guān)系數(shù)=0.840,p<.001)。大多數(shù)時(shí)候,社交機(jī)器人發(fā)帖高峰出現(xiàn)時(shí)間會(huì)略晚于人類用戶;也有部分時(shí)間段,社交機(jī)器人峰值出現(xiàn)時(shí)間早于人類用戶,如3月12日前后的小峰值,以及5月連續(xù)出現(xiàn)幾次峰值。由此推測(cè),新冠疫情涉華議題的相關(guān)討論中,社交機(jī)器人可能通常選擇緊跟人類用戶進(jìn)行發(fā)帖,當(dāng)人類用戶討論達(dá)到一定程度后開始加入,起到一種放大信息、擴(kuò)大輿論的作用;但在特定情境下,也試圖預(yù)先發(fā)帖,影響人類用戶的發(fā)帖行為。
(二)社交機(jī)器人的賬號(hào)特征
1.社交機(jī)器人的基本賬號(hào)特征
(1)賬號(hào)昵稱
本研究發(fā)現(xiàn)社交機(jī)器人的賬號(hào)昵稱存在一定的自動(dòng)化生成痕跡。較為明顯的一個(gè)例子是,在人類用戶數(shù)(N=859206)與機(jī)器人用戶數(shù)(N=88353)存在10倍數(shù)量差的情況下,社交機(jī)器人群體中大量賬號(hào)(295個(gè))昵稱中含有“Trump”,而在人類群體中僅有28個(gè)賬號(hào)含有“Trump”。
(2)賬號(hào)描述
本研究發(fā)現(xiàn)社交機(jī)器人描述文本長(zhǎng)度均值高于人類用戶,且描述極長(zhǎng)的賬戶和描述極短的賬戶分布較為均勻,而人類用戶則更多偏向于短文本描述。獨(dú)立樣本K-S檢驗(yàn)(因樣本不服從正態(tài)分布)發(fā)現(xiàn)(表4),社交機(jī)器人和人類用戶的描述文本長(zhǎng)度特征分布上存在顯著差異(p<0.001)。
(3)地域分布
本研究發(fā)現(xiàn):無論社交機(jī)器人還是人類用戶,最多出現(xiàn)的注冊(cè)地區(qū)是美國(guó),其次為印度、中國(guó)香港、英國(guó)、加拿大等。不過,在社交機(jī)器人群體內(nèi),其注冊(cè)地域在美國(guó)具體地區(qū)的排名高于印度、中國(guó)香港等地。這可能是社交機(jī)器人偽裝自己的一種手段,更詳細(xì)的注冊(cè)地址能使其包裝得更類似一個(gè)人類用戶以躲避平臺(tái)的查封。
(4)注冊(cè)時(shí)間
研究發(fā)現(xiàn):近9%的社交機(jī)器人賬號(hào)注冊(cè)時(shí)長(zhǎng)不超過6個(gè)月,也就是正值議題發(fā)生前后創(chuàng)建,且注冊(cè)時(shí)長(zhǎng)在6—12個(gè)月區(qū)間的機(jī)器人用戶也有將近9%,社交機(jī)器人注冊(cè)時(shí)長(zhǎng)近一半分布在48個(gè)月以內(nèi)(占比49.9%),平均注冊(cè)時(shí)長(zhǎng)為58個(gè)月。而人類用戶中注冊(cè)時(shí)長(zhǎng)在48個(gè)月以內(nèi)的比例僅為33.9%,平均注冊(cè)時(shí)長(zhǎng)為69個(gè)月。獨(dú)立樣本K-S檢驗(yàn)發(fā)現(xiàn)兩群體間該屬性存在明顯差異(p<0.001)。由此推測(cè),社交機(jī)器人賬號(hào)可能因特定議題而被特意注冊(cè)。
2.社交機(jī)器人的社交影響力特征
(1)社交機(jī)器人與人類用戶社交影響力特征分布比較
本文從5個(gè)維度對(duì)比分析社交機(jī)器人與人類用戶賬號(hào)的社交影響力特征:發(fā)推總數(shù)、粉絲數(shù)、關(guān)注數(shù)、點(diǎn)贊數(shù)、所屬的公開用戶組個(gè)數(shù)。結(jié)果顯示(表6):社交機(jī)器人群體的主動(dòng)型社交特征如發(fā)帖總量、關(guān)注數(shù)、點(diǎn)贊數(shù)顯著高于人類用戶,而被動(dòng)型社交特征如粉絲數(shù)以及所屬的公開用戶組個(gè)數(shù)則明顯小于人類用戶。
(2)社交機(jī)器人與人類用戶社交影響力特征的相關(guān)性分析
圖2使用熱力圖形式展示了5種屬性之間的斯皮爾曼相關(guān)系數(shù)。對(duì)比兩張圖可以發(fā)現(xiàn):無論人類用戶還是社交機(jī)器人用戶,最強(qiáng)的相關(guān)性均出現(xiàn)在粉絲數(shù)以及關(guān)注數(shù)之間(斯皮爾曼ρ機(jī)=0.80,ρ人=0.74),不過在社交機(jī)器人群體中,這種關(guān)聯(lián)性表現(xiàn)得更明顯一些,這從側(cè)面說明社交機(jī)器人相比人類用戶可能會(huì)通過大量關(guān)注其他用戶來增強(qiáng)自身被人類用戶關(guān)注的可能性。雖然兩類用戶間所有相關(guān)性均成正向關(guān)系,但社交機(jī)器人群體間的相關(guān)性大都略高于人類群體,如點(diǎn)贊數(shù)與關(guān)注數(shù)(ρ機(jī)=0.55,ρ人=0.47)、所屬公開群組數(shù)和關(guān)注數(shù)(ρ機(jī)=0.48,ρ人=0.36)以及粉絲數(shù)和群組數(shù)(ρ機(jī)=0.67,ρ人=0.56)、發(fā)帖數(shù)和群組數(shù)(ρ機(jī)=0.54,ρ人=0.51)等。說明社交機(jī)器人可能通過大量發(fā)推、點(diǎn)贊、關(guān)注的主動(dòng)社交行為,來提升自己被其他用戶關(guān)注或加入用戶群組的可能性,從而增強(qiáng)展示在人類用戶面前的機(jī)會(huì)。
(三)社交機(jī)器人的推文發(fā)布特征
1.社交機(jī)器人的發(fā)帖重復(fù)性
社交機(jī)器人會(huì)通過復(fù)制相似甚至完全相同的內(nèi)容達(dá)到增強(qiáng)某一言論的作用。本研究發(fā)現(xiàn)其主要表現(xiàn)包括兩種方式。
第一,同一社交機(jī)器人賬號(hào)發(fā)布多條相似內(nèi)容。例如,viriya(@viriyabot)是本議題中發(fā)推量最大的社交機(jī)器人賬號(hào),一共發(fā)布了4488條推文,其會(huì)在不同時(shí)間段發(fā)布內(nèi)容極為相似的推文,有時(shí)可能只是語法的變化或者同義單詞的替換,比如“American Airlines has also suspended all flights to and from mainland China, effective immediately”和“American Airlines will suspend all U. S. -China flights effective immediately”。甚至文本一模一樣,僅是分享的鏈接不同,而這些鏈接都指向同一網(wǎng)站的同一篇新聞報(bào)道。我們進(jìn)一步使用每條推文的前10個(gè)單詞進(jìn)行匹配,如果兩條推文開頭連續(xù)10個(gè)單詞內(nèi)容一致,則將其視為相似內(nèi)容,以此對(duì)4488條推文進(jìn)行操作后,推文量減少235條(占比5.23%)。發(fā)帖量排名第二的社交機(jī)器人賬號(hào)POST Online Media(@poandpo)更為明顯:采用前10個(gè)單詞匹配的方法對(duì)其發(fā)布的636條推文進(jìn)行操作,發(fā)現(xiàn)推文量減少400條(占比62.9%)。
第二,不同社交機(jī)器人賬號(hào)發(fā)布相似內(nèi)容。在社交機(jī)器人用戶中,不同賬號(hào)在短時(shí)間間隔中發(fā)布大量?jī)?nèi)容相似甚至完全一致的情況也很常見。社交機(jī)器人共發(fā)帖273437條,以前10個(gè)單詞進(jìn)行匹配去重后,發(fā)帖量?jī)H為139571條,損失率高達(dá)57.3%。比如2020年5月20日12:35—12:36短短一分鐘內(nèi),28個(gè)不同的社交機(jī)器人賬號(hào)發(fā)布了一條一模一樣的內(nèi)容。
2.社交機(jī)器人發(fā)布推文中特殊字符使用策略
(1)特殊字符使用頻次比較
表7報(bào)告了社交機(jī)器人賬號(hào)與人類用戶使用標(biāo)簽、提及、超鏈接的頻次分布對(duì)比,發(fā)現(xiàn)機(jī)器人用戶相比人類用戶更少提及(@),或者使用標(biāo)題標(biāo)簽(##),但會(huì)更多使用超鏈接。
(2)特殊字符指向內(nèi)容比較
社交機(jī)器人賬號(hào)和人類用戶均會(huì)采用新聞?lì)愒掝}標(biāo)簽快速傳遞信息,對(duì)比兩者使用頻率最高的前20個(gè)話題標(biāo)簽,發(fā)現(xiàn)大多數(shù)是與“新冠病毒”相關(guān)的標(biāo)簽,如#coronavirus、#COVID19、#CoronavirusOutbreak、#WuhanCoronavirus等。但可以發(fā)現(xiàn)帶有“中國(guó)病毒”“武漢病毒”含義的標(biāo)簽在社交機(jī)器人群體使用頻次排名前20中出現(xiàn)了4次(分別為第7、12、14、16名),而在人類群體中只出現(xiàn)了3次(分別為7、14、15名),且其對(duì)應(yīng)百分比也均高于人類用戶,這說明其相比人類用戶會(huì)更高頻地使用此類負(fù)面標(biāo)簽。
兩者均會(huì)采用通過@媒體或者熱點(diǎn)人物的方式擴(kuò)大影響力,觀察社交機(jī)器人賬號(hào)與人類用戶提及用戶前20,社交機(jī)器人賬號(hào)會(huì)更多地提及熱點(diǎn)人物(如@realDonaldTrump、@JoeBiden)以擴(kuò)大影響力。社交機(jī)器人@的前20個(gè)中有10個(gè)為熱點(diǎn)人物賬號(hào),而人類用戶則是8個(gè)。
社交機(jī)器人賬號(hào)使用鏈接的來源可信度低且有部分內(nèi)容與新冠疫情無關(guān)。我們對(duì)社交機(jī)器人賬號(hào)以及人類用戶使用頻次分別排名前20的鏈接進(jìn)行了逐一搜索,發(fā)現(xiàn)社交機(jī)器人賬號(hào)使用頻次排名前20的鏈接中有5個(gè)其原帖已被刪除或發(fā)布賬號(hào)已被凍結(jié),此外還有2個(gè)鏈接指向內(nèi)容與新冠疫情無關(guān)。而人類用戶使用的鏈接中則未觀察到此現(xiàn)象。
四、小結(jié)與討論
本文對(duì)推特新冠疫情涉華輿論中的社交機(jī)器人進(jìn)行計(jì)算傳播分析發(fā)現(xiàn):第一,在社交機(jī)器人規(guī)模方面,用戶占比9.3%,發(fā)帖數(shù)量占比為13.4%。社交機(jī)器人的發(fā)文高峰大多時(shí)候晚于人類用戶,印證了社交機(jī)器人在輿論場(chǎng)中主要起放大信息、擴(kuò)大輿論的目的。第二,社交機(jī)器人賬號(hào)的平均注冊(cè)時(shí)長(zhǎng)明顯低于人類用戶,有部分可能是為了參與新冠話題討論而在短期內(nèi)被特意注冊(cè)。社交機(jī)器人的賬號(hào)昵稱描述文本長(zhǎng)度顯著長(zhǎng)于人類用戶,相比人類用戶會(huì)帶有更加具體詳細(xì)的地域信息。第三,社交機(jī)器人的主動(dòng)型社交特征(如發(fā)帖總量、關(guān)注數(shù)、點(diǎn)贊數(shù))顯著高于人類用戶,而被動(dòng)型社交特征(如粉絲數(shù))明顯小于人類用戶。社交機(jī)器人的各類社交行為之間相比人類用戶存在更明顯的相關(guān)性。第四,社交機(jī)器人發(fā)送推文的重復(fù)率極高,一是不同機(jī)器人賬號(hào)會(huì)在非常接近的時(shí)間段發(fā)布內(nèi)容相似甚至完全一致的推文,另一種則是同一賬號(hào)會(huì)在不同的時(shí)間發(fā)布內(nèi)容完全一致或者相似的推文。相比人類用戶,社交機(jī)器人在發(fā)帖中包含負(fù)面標(biāo)簽的比重比人類用戶更高,會(huì)更頻繁@熱點(diǎn)人物以擴(kuò)大言論的可見性,更多引用低可信度的超鏈接。
本文在計(jì)算方法上采用新的識(shí)別方法并采取與人工校驗(yàn)相結(jié)合的方式,所發(fā)現(xiàn)的社交機(jī)器人規(guī)模比例和特征表現(xiàn)可能更為準(zhǔn)確,同時(shí)也說明社交機(jī)器人識(shí)別思路的復(fù)雜性與概率性(即任何檢測(cè)方法只是關(guān)于特定賬號(hào)“類人”或“類機(jī)”的概率分?jǐn)?shù),并非絕對(duì))。因此,未來研究可在如下方面繼續(xù)深入:第一,超越過往高度集中的單一方法(如Botmeter工具),探索多元方法的運(yùn)用;第二,超越“二元對(duì)立”的“識(shí)別結(jié)果”思路,根據(jù)計(jì)算方法的“識(shí)別概率”在特定情境中深度理解“(類)社交機(jī)器人”賬號(hào)的行動(dòng);第三,重視社交機(jī)器人發(fā)展的生態(tài)性與動(dòng)態(tài)性,包括在大語言模型(LLM)影響下,社交機(jī)器人會(huì)如何更新和演化,值得更多經(jīng)驗(yàn)考察。
參考文獻(xiàn):
①喻國(guó)明:《學(xué)術(shù)視域下的新傳播、新趨勢(shì)與新思考》,《教育傳媒研究》2022年第3期。
②Wasserman,T.(2012,August2). 83 million Facebook accounts are fake. http://mashable.com/2012/08/02/fake-facebook-accounts/#_ daGF3AAxqqg.
③Varol, O., Ferrara, E., Davis, C., Menczer, F., & Flammini, A. (2017). Online human-bot interactions: Detection, estimation, and characterization. Proceedings of the International AAAI Conference on Web and Social Media, 11(1), 280-289.
④Geiger, R. S. (2016). Bot-based collective blocklists in Twitter. Social Science Electronic Publishing, 19(5-6), 787-803.
⑤Kollanyi, B. (2016). Where do bots come from? An analysis of bot codes shared on GitHub. International Journal of Communication, 10, 20. Woolley, S. C., & Howard, P. N. (2016). Social media, revolution, and the rise of the political bot. Routledge Handbook of Media, Conflict, and Security (pp. 282-292). New York, NY: Routledge.
⑥Woolley, S. C. (2016). Automating power: Social bot interference in global politics. First Monday, 21(4). https://doi.org/10.5210/fm.v21i4.6161.
⑦M(jìn)orstatter, F., Carley, K. M., & Liu, H. (2015). Bot detection in social media: networks, behavior, and evaluation. Asonam 2015. Paris, France, August 25-28, 2015.
⑧Stieglitz, S., Brachten, F., Ross, B., & Jung, A. K. (2017). Do social bots dream of electric sheep? A categorisation of social media bot accounts. arXiv:1710.04044.
⑨Keller, T. R., & Klinger, U. (2019). Social bots in election campaigns: Theoretical, empirical, and methodological implications. Political Communication, 36(1), 171-189. Howard, P. N., Woolley, S., Calo, R. (2018). Algorithms, bots, and political communication in the US 2016 election. Journal of Information Technology & Politics, 15(7), 1-13.
⑩Hagen, L., Neely, S., Keller, T. E., Scharf, R., & Vasquez, F. E. (2020). Rise of the machines? Examining the influence of social bots on a political discussion network. Social Science Computer Review. doi: 10.1177/0894439320908190.
Sch?fer, F., Evert, S., & Heinrich, P. (2017). Japans 2014 general election: Political bots, right-wing internet activism, and Prime Minister Shinzō Abes Hidden Nationalist Agenda. Big data, 5(4), 294-309.
Bastos, M., & Mercea, D. (2018). The public accountability of social platforms: Lessons from a study on bots and trolls in the Brexit campaign. Philosophical Transactions of the Royal Society A, 376(2128): 20180003.
Bolsover, G., & Howard, P. (2019). Chinese computational propaganda: automation, algorithms and the manipulation of information about Chinese politics on Twitter and Weibo. Information, Communication & Society, 22(14), 2063-2080.
師文、陳昌鳳,《分布與互動(dòng)模式:社交機(jī)器人操縱Twitter上的中國(guó)議題研究》,《國(guó)際新聞界》2020年第5期。
張洪忠、趙蓓、石韋穎,《社交機(jī)器人在Twitter參與中美貿(mào)易談判議題的行為分析》,《新聞界》2020年第2期。
師文、陳昌鳳,《社交機(jī)器人在新聞擴(kuò)散中的角色和行為模式研究》,《新聞與傳播研究》2020年第5期。
Subrahmanian, V. S., Azaria, A., Durst, S., Kagan, V., Galstyan, A., Lerman, K., & Menczer, F. (2016). The DARPA Twitter bot challenge. Computer, 49(6), 38-46.
Forelle, M., Howard, P., Monroy-Hernández, A., & Savage, S. (2015). Political bots and the manipulation of public opinion in Venezuela. arXiv:1507.07109.
Ferrara, E., Varol, O., Davis, C., Menczer, F., & Flammini, A. (2016). The rise of social bots. Communications of the ACM, 59(7), 96-104.
Wang Y., Wu C., Zheng K., Wang X. (2018). Social Bot Detection Using Tweets Similarity. In International conference on security and privacy in communication systems (pp. 63-78). Cham: Springer.
Bastos M T, Mercea D. The Brexit botnet and user-generated hyperpartisan news. Social Science Computer Review, 2019, 37(1): 38-54.
Dickerson, J. P., Kagan, V., & Subrahmanian, V. S. (2014). Using sentiment to detect bots on twitter: Are humans more opinionated than bots? Asonam 2014. IEEE, 620-627.
Shao, C., Ciampaglia, G. L., Varol, O., Yang, K. C., Flammini, A., & Menczer, F. (2018). The spread of low-credibility content by social bots. Nature Communications, 9(1), 1-9.
Wojcik, S. (2018). 5 things to know about bots on Twitter. https://www.pewresearch.org/fact-tank/2018/04/09/5-things-to-know-about-bots-on-twitter.
Lopez, C. E., & Gallemore, C. (2020). An augmented multilingual Twitter dataset for studying the COVID-19 infodemic. https://assets.researchsquare.com/files/rs-95721/v1_stamped.pdf , 2020. Chen, E., Lerman, K., & Ferrara, E. (2020). Covid-19: The first public coronavirus twitter dataset. arXiv:2003.07372.
Davis, C. A., Varol, O., Ferrara, E., Flammini, A., & Menczer, F. (2016). Bot or not: A system to evaluate social bots. Proceedings of the 25th international conference companion on world wide web, 273-274.
Kearney, M. Tweet Bot Or Not 2. https://tweetbotornot2.mikewk.com.
Graham, T., Bruns, A., Zhu, G., & Campbell, R. (2020). Like a virus: The coordinated spread of Coronavirus disinformation. https://eprints.qut.edu.au/202960/1/P904_Like_a_virus_COVID19_disinformation_Web_.pdf.
(作者周葆華系復(fù)旦大學(xué)新聞學(xué)院教授、博士生導(dǎo)師;江丹婷系復(fù)旦大學(xué)新聞學(xué)院碩士研究生)
【責(zé)任編輯:謝敏】
*本文系國(guó)家社科基金人才項(xiàng)目“基于計(jì)算傳播的新媒體輿論過程研究”(項(xiàng)目編號(hào):22VRC186)、復(fù)旦大學(xué)文科先導(dǎo)和創(chuàng)新團(tuán)隊(duì)項(xiàng)目“面向媒介深度融合的智能媒體創(chuàng)新研究與應(yīng)用”(項(xiàng)目編號(hào):IDH3353070)的階段性成果。