国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

激發(fā)更大的“社會(huì)學(xué)想象力”

2018-06-11 08:45唐斌斌付雙樂劉林平
關(guān)鍵詞:社會(huì)學(xué)文獻(xiàn)文本

唐斌斌 付雙樂 劉林平

[摘要]基于130篇SSCI社會(huì)學(xué)大數(shù)據(jù)文獻(xiàn),本文從文章類型、引用次數(shù)、作者信息、大數(shù)據(jù)類型、處理工具、分析方法和研究?jī)r(jià)值等方面進(jìn)行了分析。研究發(fā)現(xiàn),社會(huì)學(xué)大數(shù)據(jù)實(shí)證研究偏少;作者活躍度不高;使用比較多的大數(shù)據(jù)類型包括網(wǎng)絡(luò)社交數(shù)據(jù)、行政數(shù)據(jù)、企業(yè)數(shù)據(jù)和谷歌圖書語料庫數(shù)據(jù);利用R、Python和Gephi等編程語言和軟件進(jìn)行大數(shù)據(jù)挖掘、分析和可視化;傳統(tǒng)的統(tǒng)計(jì)分析方法仍占一定比例,但機(jī)器學(xué)習(xí)方法開始得到運(yùn)用。大數(shù)據(jù)給社會(huì)學(xué)研究注入了新的活力,有助于激發(fā)更大的“社會(huì)學(xué)想象力”、獲得更好的社會(huì)測(cè)量和開展更深入的實(shí)證研究。

[關(guān) 鍵 詞]社會(huì)學(xué)? 大數(shù)據(jù)? 計(jì)量分析? 前沿進(jìn)展

[中圖分類號(hào)]C91? ? [文獻(xiàn)標(biāo)識(shí)碼]A? ? [文章編號(hào)]1008-7672(2018)05-0050-16

一、 引言

Savage和Burrows在《實(shí)證社會(huì)學(xué)即將面臨的危機(jī)》一文指出,以抽樣理論、調(diào)查設(shè)計(jì)、定性訪談為標(biāo)志的實(shí)證社會(huì)學(xué)在方法論上嚴(yán)重落后,這與當(dāng)代社會(huì)學(xué)家固守常規(guī)方法、忽視現(xiàn)代生活激增的數(shù)據(jù)洪流有關(guān)。他們認(rèn)為,盡管抽樣調(diào)查和定性訪談仍然是重要的研究手段,但這種狀況在未來會(huì)慢慢被邊緣化甚至被拋棄。因此,他們呼吁,社會(huì)學(xué)家必須對(duì)實(shí)證社會(huì)學(xué)的方法論進(jìn)行徹底反思,必須更多地思考如何才能更好地與大量的社會(huì)數(shù)據(jù)聯(lián)系起來。

他們?cè)谖闹胁]有明確提出“大數(shù)據(jù)”概念,但該文是近10年來社會(huì)科學(xué)討論大數(shù)據(jù)相關(guān)議題被引用最多的文獻(xiàn)之一。社會(huì)學(xué)家對(duì)大數(shù)據(jù)及其研究的看法爭(zhēng)議不斷,有學(xué)者對(duì)此提出嚴(yán)厲批評(píng),代表性人物有Boyd和Crawford等。他們認(rèn)為,與其他社會(huì)技術(shù)現(xiàn)象一樣,大數(shù)據(jù)存在六大挑戰(zhàn):(1)改變了知識(shí)的定義,但提供的是缺乏哲學(xué)力量的知識(shí)和信息;(2)聲稱客觀和準(zhǔn)確是有誤導(dǎo)性的;(3)并不總是更好的數(shù)據(jù);(4)脫離上下文,失去意義;(5)挑戰(zhàn)研究倫理;(6)制造更大的數(shù)據(jù)鴻溝。

另有研究者從更具體的角度提出批評(píng)。在他們看來,大數(shù)據(jù)研究中的數(shù)據(jù)、方法和理論都值得懷疑。首先,數(shù)據(jù)有可能是偏倚的或者是不完整的,這些數(shù)據(jù)只捕獲了某些活動(dòng),特別是某些人使用特定的設(shè)備和應(yīng)用程序來記錄特定信息的活動(dòng);其次,大數(shù)據(jù)分析過于依賴計(jì)算方法和“黑盒”分析工具,伴隨一些幾乎無意義的問題或概念解釋;更重要的是,對(duì)模式(算法)和相關(guān)性的強(qiáng)調(diào)忽視了理論上值得探究的問題,并取代了社會(huì)學(xué)核心的解釋學(xué)和批判分析。

盡管批評(píng)者詰難頗多,但社會(huì)學(xué)界及更多社會(huì)學(xué)家仍然以寬廣的胸襟擁抱大數(shù)據(jù)。首先,眾多的公共資助機(jī)構(gòu)、私人基金會(huì)和數(shù)十家大學(xué)推動(dòng)了“大數(shù)據(jù)”或“數(shù)據(jù)科學(xué)”的項(xiàng)目發(fā)展。例如,2014年,歐洲PMC贊助商集團(tuán)(Europe PMC Funders Group)贊助舉辦了一個(gè)名為《大數(shù)據(jù)與社會(huì)》(Big Data & Society)的新學(xué)術(shù)期刊,該期刊主要為社會(huì)科學(xué)和相關(guān)交叉學(xué)科討論大數(shù)據(jù)對(duì)社會(huì)的影響提供一個(gè)辯論空間,向公眾傳播大數(shù)據(jù)如何重新配置學(xué)術(shù)、社會(huì)、工業(yè)、商業(yè)和政府關(guān)系等專業(yè)知識(shí)。其次,更多社會(huì)學(xué)家認(rèn)為,忽視大數(shù)據(jù)是拋棄了對(duì)社會(huì)研究至關(guān)重要的一系列問題,不利于社會(huì)學(xué)方法和理論的不斷發(fā)展。現(xiàn)代社會(huì)是一個(gè)數(shù)字信息社會(huì),社會(huì)學(xué)與數(shù)字結(jié)合是恰當(dāng)?shù)模鐣?huì)學(xué)家還在學(xué)習(xí)和改進(jìn)他們的方法和計(jì)算技能,隨著時(shí)間的推移,相關(guān)的大數(shù)據(jù)研究將會(huì)提供新的知識(shí)。

因此,本文試圖綜述大數(shù)據(jù)在社會(huì)學(xué)研究中的情況,以拓寬人們對(duì)社會(huì)學(xué)大數(shù)據(jù)研究的理解。具體而言,本文的目標(biāo)是:

第一,描述社會(huì)學(xué)領(lǐng)域發(fā)表的大數(shù)據(jù)文獻(xiàn)基本情況;

第二,探討社會(huì)學(xué)大數(shù)據(jù)文獻(xiàn)中使用的數(shù)據(jù)類型、處理工具和分析方法;

第三,分析社會(huì)學(xué)領(lǐng)域的大數(shù)據(jù)研究?jī)r(jià)值;

第四,總結(jié)和討論社會(huì)學(xué)領(lǐng)域的大數(shù)據(jù)研究現(xiàn)狀和未來發(fā)展建議。

總之,本文將對(duì)社會(huì)學(xué)領(lǐng)域的大數(shù)據(jù)文獻(xiàn)進(jìn)行較為全面的綜述。本文主要分為六個(gè)部分:第二部分,主要介紹本文的數(shù)據(jù)來源和大數(shù)據(jù)在社會(huì)學(xué)中的定義;第三部分是對(duì)大數(shù)據(jù)文獻(xiàn)的基本情況進(jìn)行分析,包括文獻(xiàn)類型、引用情況和作者信息等,以期為讀者勾勒出一個(gè)整體性的社會(huì)學(xué)大數(shù)據(jù)文獻(xiàn)圖景;第四部分則著重介紹大數(shù)據(jù)文獻(xiàn)使用的數(shù)據(jù)類型、處理工具和分析方法,讓讀者對(duì)社會(huì)學(xué)大數(shù)據(jù)研究有一個(gè)更為細(xì)致的了解;第五部分則是闡述大數(shù)據(jù)研究?jī)r(jià)值,具體包括對(duì)社會(huì)學(xué)的理論發(fā)展、方法突破和實(shí)證研究深入等方面的巨大機(jī)遇;第六部分是結(jié)論和討論,指出社會(huì)學(xué)大數(shù)據(jù)研究現(xiàn)狀和未來發(fā)展建議。

二、 數(shù)據(jù)來源和大數(shù)據(jù)定義

(一) 數(shù)據(jù)來源

2018年5月,筆者利用科學(xué)引文索引(Web of Science)數(shù)據(jù)庫檢索大數(shù)據(jù)文獻(xiàn)。首先,選擇Web of Science核心合集數(shù)據(jù)庫中的社會(huì)科學(xué)引文索引子數(shù)據(jù)庫,以保證搜索的期刊全部來自SSCI核心期刊;然后,將搜索主題限定在“大數(shù)據(jù)”(“Big Data”)。為了比較社會(huì)科學(xué)和社會(huì)學(xué)的大數(shù)據(jù)發(fā)文量變化趨勢(shì),筆者將搜索領(lǐng)域限定在社會(huì)科學(xué)和社會(huì)學(xué)領(lǐng)域,所搜索的文獻(xiàn)里只要標(biāo)題、摘要、關(guān)鍵詞涉及到大數(shù)據(jù)一詞就會(huì)被檢索出來。搜索結(jié)果顯示,社會(huì)科學(xué)大數(shù)據(jù)文獻(xiàn)有3305篇,社會(huì)學(xué)大數(shù)據(jù)文獻(xiàn)有130篇,可以看出,社會(huì)學(xué)大數(shù)據(jù)文獻(xiàn)所占份額有限,僅占4%。具體情況見表1。

大數(shù)據(jù)作為一個(gè)新興術(shù)語,進(jìn)入社會(huì)科學(xué)和社會(huì)學(xué)視野并不算早。從搜索結(jié)果來看,社會(huì)學(xué)SSCI期刊在2011年才開始出現(xiàn)與大數(shù)據(jù)相關(guān)的研究主題,這與Burrows和Savage通過谷歌趨勢(shì)(Google Trends)分析所得到結(jié)果差不多。此后,大數(shù)據(jù)文獻(xiàn)數(shù)量隨著時(shí)間的發(fā)展而增多,所討論的主題也從最開始的大數(shù)據(jù)介紹、爭(zhēng)論到大數(shù)據(jù)分析、方法改進(jìn)等,從整個(gè)發(fā)展脈絡(luò)來看,社會(huì)學(xué)大數(shù)據(jù)研究經(jīng)歷了“從爭(zhēng)議到改善”的發(fā)展態(tài)勢(shì),顯示社會(huì)學(xué)開始積極關(guān)注大數(shù)據(jù)研究。

(二) 大數(shù)據(jù)在社會(huì)學(xué)中的定義

大數(shù)據(jù)是強(qiáng)大且流行的概念,它已經(jīng)被廣泛應(yīng)用于各個(gè)領(lǐng)域,但這種“共同出處導(dǎo)致了多重的、模糊的、甚至常常矛盾的定義”。大數(shù)據(jù)最開始作為一個(gè)商業(yè)術(shù)語,是由甲骨文、英特爾、微軟和IBM等信息技術(shù)公司根據(jù)其特征來定義的,其中使用比較廣泛的定義是美國高德納公司的分析師道格拉斯·蘭尼提出的“3V”(容量大、速度快、多樣性)概念,后來又拓展到“4V”(容量大、速度快、多樣性、低價(jià)值密度)、“5V”(容量大、速度快、多樣化、低價(jià)值密度、準(zhǔn)確性)。

社會(huì)學(xué)對(duì)大數(shù)據(jù)的界定也是含混不清的。一些學(xué)者從大數(shù)據(jù)特征出發(fā),認(rèn)為社會(huì)學(xué)中的大數(shù)據(jù)也具有龐大、快速、異構(gòu)和數(shù)字化四個(gè)特征,與大數(shù)據(jù)的商業(yè)概念不同的是,這一定義將焦點(diǎn)從數(shù)據(jù)本身的特征轉(zhuǎn)移到大數(shù)據(jù)收集和分析的社會(huì)過程,即強(qiáng)調(diào)數(shù)據(jù)環(huán)境。例如,這里的重點(diǎn)不是關(guān)注大數(shù)據(jù)的“多樣性”,而是強(qiáng)調(diào)從不同的機(jī)構(gòu)數(shù)據(jù)源收集大數(shù)據(jù)。

另一些學(xué)者從大數(shù)據(jù)的表現(xiàn)形式出發(fā),認(rèn)為除了體量大之外,“大數(shù)據(jù)是一個(gè)非常多樣化的術(shù)語”、“大數(shù)據(jù)有多種形式”。這些數(shù)據(jù)包括文本內(nèi)容(如推文、博客)、多媒體內(nèi)容(如視頻、圖像、音頻)以及多種平臺(tái)數(shù)據(jù)(如機(jī)對(duì)機(jī)通信、社交媒體網(wǎng)站、傳感器網(wǎng)絡(luò)、網(wǎng)絡(luò)物理系統(tǒng)和物聯(lián)網(wǎng))。Kshetri聲稱,“社交媒體、手機(jī)和其他數(shù)字通信工具產(chǎn)生的大量數(shù)據(jù)……,是真正的大數(shù)據(jù)形式”。

還有一些學(xué)者則將大數(shù)據(jù)視為一種復(fù)雜的現(xiàn)象,它是由文化、技術(shù)和學(xué)術(shù)相互作用構(gòu)成:在技術(shù)方面,最大限度地提高計(jì)算能力和算法精度,收集、分析、鏈接和比較大型數(shù)據(jù)庫;在分析層面,利用大數(shù)據(jù)識(shí)別模式,實(shí)現(xiàn)“經(jīng)濟(jì)、社會(huì)、技術(shù)和法律主張”;在觀念神話方面,普遍相信大數(shù)據(jù)可以產(chǎn)生以前無法獲取的知識(shí),這些知識(shí)被認(rèn)為是真實(shí)、客觀、準(zhǔn)確的。

可以看出,盡管大數(shù)據(jù)的定義是多樣化的,但至少有一點(diǎn)可以肯定,社會(huì)學(xué)領(lǐng)域的大數(shù)據(jù)是關(guān)于社會(huì)生活數(shù)字化所產(chǎn)生的大數(shù)據(jù),或者是一種大數(shù)據(jù)分析、大數(shù)據(jù)技術(shù)。這些定義將大數(shù)據(jù)的討論從其起源重要性的問題中脫離出來。

三、 大數(shù)據(jù)文獻(xiàn)基本情況

為了勾勒出一個(gè)大致的社會(huì)學(xué)大數(shù)據(jù)研究圖景,筆者首先對(duì)獲得的130篇社會(huì)學(xué)SSCI大數(shù)據(jù)文獻(xiàn)進(jìn)行了類型分析;其次,對(duì)這些文獻(xiàn)的引用和被引情況做了一個(gè)梳理;再次,進(jìn)一步對(duì)這些文獻(xiàn)的作者基本情況進(jìn)行了一個(gè)描述。

(一) 文獻(xiàn)類型

從表2可以看出,社會(huì)學(xué)SSCI大數(shù)據(jù)文獻(xiàn)中理論類文獻(xiàn)最多,超過50%,其次是實(shí)證類文獻(xiàn)和方法類文獻(xiàn)。這可能是因?yàn)?,大?shù)據(jù)作為一種新型數(shù)據(jù),當(dāng)社會(huì)學(xué)打算探討大數(shù)據(jù)并利用大數(shù)據(jù)來開展研究時(shí),必然要回答兩個(gè)基本問題:(1)什么是大數(shù)據(jù)?(2)利用大數(shù)據(jù)從事研究有什么利弊?為了回應(yīng)這些問題,許多期刊刊發(fā)了大量文章,比如《社會(huì)學(xué)》(Sociology)、《社會(huì)學(xué)年評(píng)》(Annual Review of Sociology)、《媒體、文化與社會(huì)》(Media, Culture & Society)等重要刊物從大數(shù)據(jù)定義、大數(shù)據(jù)來源、大數(shù)據(jù)潛力和不足等方面進(jìn)行了較為全面的理論探討和觀點(diǎn)碰撞。

同時(shí),大數(shù)據(jù)在數(shù)據(jù)獲取、管理和處理方面是常規(guī)的方法和軟件工具所不及的,這引發(fā)了學(xué)者進(jìn)一步探索、開發(fā)新的方法和工具的熱潮。比如,如何用迭代的方式自動(dòng)分析大量文本;如何使用 APP技術(shù)對(duì)使用社交媒體的組織收集和分析數(shù)據(jù)等。

從百分比來看,大概有27%是使用大數(shù)據(jù)進(jìn)行實(shí)證研究的文獻(xiàn)。但細(xì)致分類下來,探索性研究比較多,占了實(shí)證類文獻(xiàn)的89%,而驗(yàn)證類的文獻(xiàn)僅僅占11%,說明目前的社會(huì)學(xué)大數(shù)據(jù)研究還處在摸索階段。值得注意的是,實(shí)證類文獻(xiàn)中有48.5%的研究不僅僅是停留在對(duì)大數(shù)據(jù)的描述統(tǒng)計(jì)上,而是將描述和分析兩者結(jié)合起來,這在一定程度上可以看出,大數(shù)據(jù)研究開始往深入分析方向發(fā)展。

總之,社會(huì)學(xué)的大數(shù)據(jù)研究,不管是理論上的探討、觀點(diǎn)上的碰撞、還是方法上的創(chuàng)新,抑或是利用大數(shù)據(jù)開展的經(jīng)驗(yàn)研究,已經(jīng)吸引了越來越多的學(xué)者加入陣營(yíng)。且不論學(xué)者們對(duì)大數(shù)據(jù)是支持還是反對(duì),對(duì)開展的大數(shù)據(jù)實(shí)證研究是贊揚(yáng)還是批評(píng),那些睿智的學(xué)術(shù)觀點(diǎn)、嚴(yán)謹(jǐn)?shù)难芯糠椒ǎ罱K豐富和發(fā)展了社會(huì)學(xué)的大數(shù)據(jù)研究。

(二) 文獻(xiàn)引用和被引

筆者對(duì)這130篇社會(huì)學(xué)SSCI大數(shù)據(jù)文獻(xiàn)的引用和被引現(xiàn)象進(jìn)行了分析。引用是指文獻(xiàn)引用其他學(xué)者文獻(xiàn)的情況,被引是指文獻(xiàn)被其他學(xué)者引用的情況。一般來說,一篇文獻(xiàn)要引用其他學(xué)者的研究,是想要和對(duì)方進(jìn)行文獻(xiàn)對(duì)話,從而發(fā)現(xiàn)新知,而文獻(xiàn)被他人引用,則可能是該文獻(xiàn)具有重要的學(xué)術(shù)價(jià)值。因此,通過對(duì)文獻(xiàn)的引用和被引情況分析,特別是對(duì)高引和高被引文獻(xiàn)的分析,既可以評(píng)價(jià)該文獻(xiàn)的學(xué)術(shù)影響力,也可以客觀反映該研究領(lǐng)域的研究基礎(chǔ)和發(fā)展走向。

為了分析130篇社會(huì)學(xué)SSCI大數(shù)據(jù)與哪些學(xué)者進(jìn)行對(duì)話,筆者利用CiteSpace軟件提取了這些文獻(xiàn)中共5897條參考文獻(xiàn)。通過分析,獲得了引用次數(shù)10次及以上的6篇高引用文獻(xiàn),并對(duì)其進(jìn)行了可視化處理,見圖1。

此外,筆者整理了這130篇社會(huì)學(xué)SSCI大數(shù)據(jù)文獻(xiàn)被引用的情況。從表3可以看出,截至目前,完全沒有被引用的文獻(xiàn)有32.3%,被引1-10次的文獻(xiàn)有55.4%,被引11次以上的文獻(xiàn)加起來只有12.3%,可見大部分文獻(xiàn)的被引用次數(shù)不高,這可能是因?yàn)檫@些文獻(xiàn)大部分集中在2014年至2017年發(fā)表的,公開發(fā)表時(shí)間還不長(zhǎng),還沒有完全傳播開來。

接下來,筆者具體分析引用和被引比較高的若干篇文獻(xiàn)。發(fā)現(xiàn),Boyd和 Crawford發(fā)表的《大數(shù)據(jù)的關(guān)鍵問題》(Critical Questions For Big Data)一文引用次數(shù)非常高,累計(jì)引用905次,其中被其他社會(huì)學(xué)SSCI大數(shù)據(jù)文獻(xiàn)引用超過38次,表明該文具有重要的學(xué)術(shù)價(jià)值。正如前文所述,該文認(rèn)為大數(shù)據(jù)時(shí)代已經(jīng)開始,各類專家學(xué)者都熱烈呼吁獲取大數(shù)據(jù),但大數(shù)據(jù)是否能幫助人們創(chuàng)建更好的工具、服務(wù)和公共產(chǎn)品?作者對(duì)這個(gè)問題的回答是悲觀的,他們認(rèn)為大數(shù)據(jù)是一種基于技術(shù)、分析和神話相互作用的現(xiàn)象,它存在“六大挑釁”,引發(fā)廣泛的烏托邦和反烏托邦式的討論。

其他引用和被引用較高的文獻(xiàn)大致可以分為兩類,一類是對(duì)大數(shù)據(jù)的介紹和討論;一類是對(duì)大數(shù)據(jù)方法和分析工具的改進(jìn)和完善??梢钥闯?,目前的社會(huì)學(xué)大數(shù)據(jù)研究在大數(shù)據(jù)討論和方法上關(guān)注頗多,而利用大數(shù)據(jù)進(jìn)行的相關(guān)經(jīng)驗(yàn)研究暫時(shí)還沒有得到足夠的關(guān)注。

(三) 文獻(xiàn)作者信息

另外,筆者對(duì)文獻(xiàn)作者的基本情況進(jìn)行分析。這樣做可以從整體上了解社會(huì)學(xué)大數(shù)據(jù)研究的分布和合作狀況。

從表4可以看出,在這130篇社會(huì)學(xué)SSCI大數(shù)據(jù)文獻(xiàn)中,在國家分布方面,美國在SSCI期刊發(fā)表社會(huì)學(xué)大數(shù)據(jù)文獻(xiàn)的研究人員有111人,遙遙領(lǐng)先英國、澳大利亞、中國、丹麥、加拿大和意大利等國,發(fā)表文獻(xiàn)數(shù)量占總文獻(xiàn)數(shù)量的41%。緊接著的是英國,有64位研究員在SSCI期刊發(fā)表了占總文獻(xiàn)的22%的大數(shù)據(jù)文獻(xiàn)??梢?,美國、英國在社會(huì)學(xué)大數(shù)據(jù)研究領(lǐng)域有著眾多的科研人才和強(qiáng)大的科研能力。值得注意的是,在社會(huì)學(xué)SSCI期刊發(fā)表大數(shù)據(jù)文獻(xiàn)的作者中,占4.3%的研究人員來自中國,他們參與發(fā)表了7篇大數(shù)據(jù)相關(guān)文獻(xiàn),占全部文獻(xiàn)的5%,這表明中國在國際大數(shù)據(jù)研究舞臺(tái)上開始嶄露頭角。事實(shí)上,中國龐大的人口和多元化的產(chǎn)業(yè)組合可以產(chǎn)生大量的數(shù)據(jù),對(duì)學(xué)者而言,無疑是一個(gè)珍貴的數(shù)據(jù)寶藏。

在職業(yè)分布方面,大學(xué)等教育機(jī)構(gòu)是研究人員主要的任職機(jī)構(gòu)。232位作者在教育機(jī)構(gòu)任職,他們依托教育機(jī)構(gòu)發(fā)表了大量文章,發(fā)表文獻(xiàn)總數(shù)超過120篇,但也有7位作者是在一些研究中心或者公司企業(yè)任職,他們也發(fā)表了具有重要學(xué)術(shù)價(jià)值的文章,比如,上文提及到的Boyd和Crawford,他們來自微軟研究院新英格蘭研究所,2012年在《信息、溝通與社會(huì)》期刊上發(fā)表了一篇高被引文章。

在國際合作方面,學(xué)者們對(duì)跨國合作的興趣好像并不高,只有18.4%的研究人員參與了跨國合作,發(fā)表的文獻(xiàn)數(shù)量也只有13篇,只占全部文獻(xiàn)的10%。但作者合作方面,只有一位作者的文章數(shù)量有52.3%,有兩個(gè)或兩個(gè)以上作者的文章數(shù)量有47.7%,兩者幾乎平分秋色,將作者總數(shù)量和文章總數(shù)量平均下來看,一篇文章大概可以達(dá)到2位作者,說明在社會(huì)學(xué)SSCI大數(shù)據(jù)文獻(xiàn)中,多位作者合作發(fā)表文章是一個(gè)趨勢(shì)。

總體來看,研究大數(shù)據(jù)主題的研究人員還是比較多的,數(shù)量達(dá)到了329名。但值得注意的是,發(fā)表3篇大數(shù)據(jù)文獻(xiàn)的研究人員只有1名,發(fā)表2篇文獻(xiàn)的研究人員只有13名,剩下225名研究人員都只發(fā)表1篇文獻(xiàn),可見,相關(guān)的研究人員活躍度不高,離散度很大,迄今為止,主導(dǎo)社會(huì)學(xué)大數(shù)據(jù)研究領(lǐng)域的專家并不多。

綜上,筆者從文章類型、引用次數(shù)和作者信息等方面進(jìn)行了較為全面的描述和分析,筆者認(rèn)為,目前社會(huì)學(xué)大數(shù)據(jù)研究還處于起步階段。盡管大數(shù)據(jù)研究文獻(xiàn)數(shù)量呈上升態(tài)勢(shì),但大部分文章屬于介紹、討論類的,實(shí)證類、方法類文章偏少,而且在實(shí)證類文獻(xiàn)中,又以探索類居多、驗(yàn)證類偏少;那些高引用和高被引文章表明,目前對(duì)大數(shù)據(jù)本身的討論和方法改善方面關(guān)注頗多,而利用大數(shù)據(jù)進(jìn)行的經(jīng)驗(yàn)研究暫時(shí)還沒有得到更多的關(guān)注;大部分作者和研究文獻(xiàn)來自美國、英國等歐美國家,中國在這個(gè)領(lǐng)域才剛剛有所展示;這些作者更多的是在教育機(jī)構(gòu)任職的老師、研究員,他們跨國合作不多,但同一國家或地區(qū)多作者合作發(fā)表文章已經(jīng)成為了常態(tài),只是活躍度不高,離散度大,主導(dǎo)社會(huì)學(xué)大數(shù)據(jù)研究領(lǐng)域的專家不多。

四、 大數(shù)據(jù)應(yīng)用分析

社會(huì)學(xué)家使用什么樣的大數(shù)據(jù)?采用什么樣的工具處理大數(shù)據(jù)?常用的統(tǒng)計(jì)分析方法又有哪些?通過進(jìn)一步對(duì)大數(shù)據(jù)在社會(huì)學(xué)應(yīng)用研究情況的分析,有助于我們對(duì)社會(huì)學(xué)大數(shù)據(jù)研究現(xiàn)狀有一個(gè)更為細(xì)致的了解。

筆者首先通過關(guān)鍵詞共詞分析來了解大數(shù)據(jù)在社會(huì)學(xué)中的應(yīng)用情況。關(guān)鍵詞是一種自然語言的索引語言,它是從文獻(xiàn)標(biāo)題、摘要和正文中抽取出來,用以揭示和描述文獻(xiàn)內(nèi)容信息的詞語或術(shù)語。共詞分析是一種文本內(nèi)容分析技術(shù),旨在通過分析同一文本主題的款目對(duì)(單詞或名詞短語)共同出現(xiàn)形式來探究文本所代表的學(xué)科發(fā)展。本文通過對(duì)社會(huì)學(xué)130篇SSCI大數(shù)據(jù)文獻(xiàn)進(jìn)行關(guān)鍵詞共詞分析,分析結(jié)果見圖2。需要說明的是,圖中顯示字體的大小代表了該關(guān)鍵詞出現(xiàn)頻次的多少,字體越大說明相應(yīng)的關(guān)鍵詞出現(xiàn)次數(shù)越多。

從圖2可以看出,出現(xiàn)次數(shù)比較多的關(guān)鍵詞有 “大數(shù)據(jù)”、“社會(huì)媒體”、“社會(huì)學(xué)”、“政策”、“監(jiān)視”、“網(wǎng)絡(luò)”、“推特”、“臉書”、“算法”、“文本分析”、“社會(huì)網(wǎng)絡(luò)”等詞語。為了更進(jìn)一步分析,筆者對(duì)130篇社會(huì)學(xué)SSCI大數(shù)據(jù)文獻(xiàn)中有報(bào)告數(shù)據(jù)類型、數(shù)據(jù)處理工具和統(tǒng)計(jì)方法的實(shí)證研究做了一個(gè)不完全統(tǒng)計(jì)。見表5。

(一) 數(shù)據(jù)類型

大數(shù)據(jù)類型多種多樣,包括文本、幾何圖形、圖像、視頻、聲音以及每個(gè)組合。Lazer和Radford認(rèn)為,大數(shù)據(jù)可能來自三個(gè)方面:數(shù)字生活,本質(zhì)上是數(shù)字化的行為數(shù)據(jù);數(shù)字痕跡,是一種行為記錄而不是行為本身的數(shù)據(jù);數(shù)字化生活,以數(shù)字形式捕捉非本質(zhì)數(shù)字生活的數(shù)據(jù)。從表5來看,社會(huì)學(xué)家經(jīng)常使用的大數(shù)據(jù)類型包括Twitter、Facebook等網(wǎng)絡(luò)行為數(shù)據(jù);城市管理、政治選舉等行政記錄數(shù)據(jù);電子商務(wù)、酒店耗能等企業(yè)記錄數(shù)據(jù);谷歌圖書語料庫等數(shù)字化數(shù)據(jù)。

1. 網(wǎng)絡(luò)數(shù)據(jù)

網(wǎng)絡(luò)數(shù)據(jù)是社會(huì)學(xué)家經(jīng)常使用的大數(shù)據(jù)類型之一,其中又以Twitter、Facebook這類網(wǎng)絡(luò)行為數(shù)據(jù)為主。Twitter是一個(gè)信息傳播平臺(tái),有超過3億活躍用戶,注冊(cè)用戶每天發(fā)布5億條推文,是世界上訪問量第8大的網(wǎng)站,被描述為“互聯(lián)網(wǎng)的短信”。Twitter允許用戶選擇在每條推文中包含地理元數(shù)據(jù)(VGI),當(dāng)他們發(fā)布推文時(shí),每條推文包含了發(fā)送消息的城市、州和國家以及緯度和經(jīng)度坐標(biāo)。這給了一個(gè)觀察人們何時(shí)何地討論特定話題的機(jī)會(huì)。推文本身很小,每條推文只有140個(gè)字符,但隨著時(shí)間的推移,大量的用戶和推文迅速積累,構(gòu)成了Twitter微觀內(nèi)容“大數(shù)據(jù)”。研究者利用大量推文集合,可以提供描述性內(nèi)容分析、情感分析、影響分析等話題。

與Twitter注重信息傳播、觀點(diǎn)表達(dá)不同,F(xiàn)acebook是世界上最大的社交媒體網(wǎng)站,主要提供社交服務(wù),月活躍用戶數(shù)量達(dá)到22億。Facebook在2009年推出的Like按鈕是Facebook上最常用的功能,“喜歡”可以用于多種不同的目的,包括運(yùn)動(dòng)、娛樂、社交和公民表達(dá)。因此,F(xiàn)acebook Like被證明是各種屬性的可靠預(yù)測(cè)者,如幸福、種族、宗教和政治觀點(diǎn)、性取向和一系列個(gè)性特征。此外,F(xiàn)acebook以各種方式影響人們的社交、生活、溝通和情緒健康,許多研究者利用Facebook大數(shù)據(jù)探索用戶行為研究。

2. 行政數(shù)據(jù)

行政數(shù)據(jù)一般可以被描述為源自行政系統(tǒng)運(yùn)行的數(shù)據(jù),這些數(shù)據(jù)可以來自廣泛的管理系統(tǒng),如教育、醫(yī)療、稅收、住房或車輛許可等,還包括來自登記注冊(cè)的信息,如出生、死亡和婚姻通知、選舉登記和全國人口普查等。行政數(shù)據(jù)不是為研究目的而被收集的;它可能是大而復(fù)雜的,但又沒有社交媒體、交易數(shù)據(jù)那么大;它本質(zhì)上是多維度的,通過數(shù)據(jù)鏈接將數(shù)據(jù)集連接在一起來獲得回答社會(huì)科學(xué)研究問題所需的所有信息;它通常是總體數(shù)據(jù),從整個(gè)人口中檢索信息,而不是從樣本中檢索。Connelly等認(rèn)為,行政數(shù)據(jù)完全符合大數(shù)據(jù)定義,也是一種大數(shù)據(jù)。

一些學(xué)者使用行政大數(shù)據(jù)開展了相關(guān)和有影響力的研究。Heerwig使用來自美國官方聯(lián)邦選舉委員會(huì)(FEC)披露的超過1500萬捐款記錄構(gòu)建的原始大數(shù)據(jù)集,分析了個(gè)人捐贈(zèng)對(duì)眾議院候選人的募款影響。該研究為重新評(píng)估個(gè)體捐贈(zèng)者在競(jìng)選募款中扮演的角色多樣性以及系統(tǒng)地分析捐贈(zèng)者捐款策略變化提供了一個(gè)有說服力的案例。Brien利用波士頓市收到的超過60萬份政府服務(wù)請(qǐng)求數(shù)據(jù),來探究個(gè)人是如何增益城市社區(qū)福利的。研究表明,無論是報(bào)告城市社區(qū)的自然惡化還是公共不文明行為,個(gè)體的服務(wù)申請(qǐng)都是捍衛(wèi)社區(qū)的一種表達(dá),不同之處在于,報(bào)告公共領(lǐng)域問題表達(dá)的是個(gè)人對(duì)空間的愛護(hù),報(bào)告他人越軌行為問題表達(dá)的是對(duì)空間的維護(hù)。

行政數(shù)據(jù)對(duì)社會(huì)不平等、人類行為和社會(huì)政策的研究提供了深刻的見解。對(duì)于特殊群體、小群體和某些罕見事件的研究具有明顯的優(yōu)勢(shì)。

3. 企業(yè)數(shù)據(jù)

近些年來,學(xué)界和商界對(duì)企業(yè)大數(shù)據(jù),尤其是對(duì)電子商務(wù)、連鎖酒店等領(lǐng)域的企業(yè)大數(shù)據(jù)表現(xiàn)出越來越濃厚的興趣。

在電子商務(wù)領(lǐng)域,所謂的大數(shù)據(jù)是指通過消費(fèi)者瀏覽和交易點(diǎn)收集的記錄數(shù)據(jù)。電子商務(wù)公司大數(shù)據(jù)大致可分為四類:交易或業(yè)務(wù)活動(dòng)數(shù)據(jù),點(diǎn)擊流數(shù)據(jù),視頻數(shù)據(jù),語音數(shù)據(jù)。一些研究者利用電子商務(wù)大數(shù)據(jù)研究消費(fèi)者偏好、行為,幫助電子商務(wù)公司改善決策過程、降低成本并產(chǎn)生效益。

同樣,連鎖酒店每月產(chǎn)生的用電量和用水量構(gòu)成了一個(gè)大型數(shù)據(jù)集。研究者利用這樣的“大數(shù)據(jù)”對(duì)住宅、商業(yè)和工業(yè)部門的能源消耗進(jìn)行了深入了解,利用這些數(shù)據(jù)實(shí)現(xiàn)減少經(jīng)營(yíng)支出和廣泛的可持續(xù)性盈利的共同目標(biāo),提高并改善酒店能源效率。

4. 谷歌圖書語料庫數(shù)據(jù)

谷歌圖書語料庫是谷歌數(shù)字化圖書的產(chǎn)物,大部分的書都來自世界上40多所大學(xué)的圖書館,這個(gè)語料庫使用光學(xué)字符識(shí)別(OCR)對(duì)文本進(jìn)行數(shù)字化,超過1550萬冊(cè)圖書被數(shù)字化。在2009年第一版谷歌圖書語料庫中,質(zhì)量較好的數(shù)字化文集超過500萬本,由此產(chǎn)生的語料庫包含超過5000億個(gè)單詞,包括英語(3610億)、法語(450億)、西班牙語(450億)、德語(370億)、漢語(130億)、俄語(350億)和希伯來語(20億)。在2012年第二版谷歌圖書語料庫中質(zhì)量較好的數(shù)字化文集擴(kuò)充到811萬本,其中英語語料庫就有450萬冊(cè)圖書和大約5000萬字。谷歌書籍語料庫的一個(gè)核心特征是,語料庫反映了一個(gè)圖書館,在這個(gè)圖書館中,每本書都是可用的,谷歌圖書語料庫主要利用n-gram模型計(jì)算詞匯出現(xiàn)的頻率,因此,語料庫更類似于文本集合的詞典,而不是集合本身。

國外利用谷歌圖書語料庫進(jìn)行了多項(xiàng)研究,在國內(nèi),陳云松利用谷歌圖書語料庫對(duì)19 世紀(jì)中期以來社會(huì)學(xué)的發(fā)展和近三百年中國城市的國際知名度進(jìn)行了分析。從這些研究中可以看出,谷歌圖書語料庫有助于對(duì)長(zhǎng)時(shí)間、大空間跨度的社會(huì)變遷、宏觀社會(huì)文化發(fā)展開展定量分析,為文化社會(huì)學(xué)相關(guān)議題的研究提供全新的研究資料。

(二) 處理工具

由于大數(shù)據(jù)容量龐大且復(fù)雜,如何處理大數(shù)據(jù)一直是社會(huì)學(xué)家首要面臨的問題之一。傳統(tǒng)的數(shù)據(jù)處理軟件不足以解決,需要開發(fā)新的工具。數(shù)據(jù)科學(xué)家利用其專業(yè)知識(shí)開發(fā)了許多大數(shù)據(jù)處理工具,從表5來看,目前社會(huì)學(xué)家更多的是借用R、Python、Gephi等編程語言和軟件對(duì)大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘、數(shù)據(jù)分析和數(shù)據(jù)可視化。

R是統(tǒng)計(jì)計(jì)算和圖形的語言和環(huán)境,它提供各種統(tǒng)計(jì)(線性和非線性建模,經(jīng)典統(tǒng)計(jì)測(cè)試,時(shí)間序列分析,分類,聚類……)和圖形技術(shù),并且具有高度可擴(kuò)展性。標(biāo)準(zhǔn)R可以很容易地處理包含100萬記錄的數(shù)據(jù)集,如果要處理更多的數(shù)據(jù)記錄,比如10億及以上的數(shù)據(jù)集,R需要和Hadoop數(shù)據(jù)處理應(yīng)用程序框架交互使用,其方法有兩種:第一,首先使用Hadoop將PB、TB量級(jí)的數(shù)據(jù)壓縮到GB量級(jí),然后再加載到R中進(jìn)行分析;第二,直接利用支持Hadoop軟件的R包來處理TB、PB量級(jí)的大數(shù)據(jù)。Python與R一樣是優(yōu)秀的處理大數(shù)據(jù)的編程語言,由于python很容易學(xué)習(xí)、使用,只要寫少量的編程就能解決復(fù)雜的問題,而且python對(duì)數(shù)據(jù)處理量沒有限制,因此,在大數(shù)據(jù)處理過程中備受社會(huì)學(xué)家們的青睞。

同樣,數(shù)據(jù)可視化是大數(shù)據(jù)處理的一項(xiàng)重要內(nèi)容,特別是利用大數(shù)據(jù)研究社交網(wǎng)絡(luò)時(shí),為了理解網(wǎng)絡(luò),許多重要的研究都采用數(shù)據(jù)可視化手段來幫助研究者對(duì)龐大而復(fù)雜的數(shù)據(jù)集進(jìn)行深入洞察??梢暬瘜?duì)利用人類的感知能力在網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)據(jù)中發(fā)現(xiàn)特征是有用的,然而,這個(gè)過程本質(zhì)上是困難的,需要深入探索。

Gephi軟件則提供了很好的大數(shù)據(jù)可視化策略,它是一個(gè)社交網(wǎng)絡(luò)可視化和操作網(wǎng)絡(luò)軟件,可以處理超過20,000個(gè)節(jié)點(diǎn)大型網(wǎng)絡(luò)。所開發(fā)的模塊可以導(dǎo)入、可視化、空間化、過濾、操作和導(dǎo)出所有類型的網(wǎng)絡(luò)。而且,那些不會(huì)圖論的社會(huì)科學(xué)家也能通過Gephi軟件分析社交網(wǎng)絡(luò),因此,Gephi在社會(huì)學(xué)、生物學(xué)、基因組學(xué)等學(xué)科得到廣泛應(yīng)用。

總之,大數(shù)據(jù)作為規(guī)模超出一般數(shù)據(jù)庫的數(shù)據(jù)集,對(duì)于傳統(tǒng)的數(shù)據(jù)處理工具來說未免太大、太快、太復(fù)雜,一般的統(tǒng)計(jì)軟件無法對(duì)其進(jìn)行數(shù)據(jù)處理;需要新的處理技術(shù)來處理大數(shù)據(jù),這實(shí)際上意味著,使用大數(shù)據(jù)開展相關(guān)研究需要向新的技術(shù)過渡。目前,社會(huì)學(xué)家借用的大數(shù)據(jù)處理工具更多的是數(shù)據(jù)科學(xué)家開發(fā)出來的,未來,社會(huì)學(xué)家需要進(jìn)一步與數(shù)據(jù)科學(xué)家建立合作,不斷改進(jìn)和開發(fā)新工具。

(三) 統(tǒng)計(jì)分析方法

大數(shù)據(jù)的興起對(duì)傳統(tǒng)的統(tǒng)計(jì)分析提出了新的挑戰(zhàn)。一些學(xué)者認(rèn)為,由于大數(shù)據(jù)容量龐大,幾乎等于總體樣本,可以放棄對(duì)因果關(guān)系的追逐,僅僅采用頻數(shù)和百分比等描述統(tǒng)計(jì)就能準(zhǔn)確說明研究問題。從表5可以看出,目前社會(huì)學(xué)大數(shù)據(jù)研究采用頻數(shù)、百分比、回歸分析等傳統(tǒng)的統(tǒng)計(jì)分析方法仍然占有一定比例,但由于大數(shù)據(jù)75%以上是非結(jié)構(gòu)化的數(shù)據(jù),其中主要是文本數(shù)據(jù),如何對(duì)其進(jìn)行統(tǒng)計(jì)分析是一個(gè)重要問題。在機(jī)器學(xué)習(xí)的推動(dòng)下,對(duì)文本數(shù)據(jù)進(jìn)行自動(dòng)文本分析是大數(shù)據(jù)研究中發(fā)展比較快的數(shù)據(jù)分析方法。因此,本節(jié)主要對(duì)自動(dòng)文本分析做簡(jiǎn)要介紹。

自動(dòng)文本分析的核心任務(wù)是分類。在大數(shù)據(jù)時(shí)代,基于機(jī)器學(xué)習(xí)的自動(dòng)文本分析有兩種新興技術(shù):監(jiān)督學(xué)習(xí)法和非監(jiān)督學(xué)習(xí)法。監(jiān)督學(xué)習(xí)方法和非監(jiān)督學(xué)習(xí)方法具有不同的研究渠道,通過這些渠道,非結(jié)構(gòu)化數(shù)據(jù)(如文本)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),進(jìn)而利用這些數(shù)據(jù)創(chuàng)建新的價(jià)值形式。

所謂的監(jiān)督學(xué)習(xí)方法,就是研究人員事先閱讀并編寫訓(xùn)練文本,然后使用計(jì)算機(jī)自動(dòng)對(duì)大量未閱讀文本進(jìn)行分類。具體而言,分析員從文本示例開始,在這些示例中,概念由他們自己或其他人標(biāo)識(shí)和編碼。這些概念可以是從先前的理論中獲得的,從先前的爭(zhēng)論中推導(dǎo)出來,或者在編碼的過程中由研究者發(fā)現(xiàn)。然后將該示例分為訓(xùn)練子樣本和測(cè)試子樣本,監(jiān)督學(xué)習(xí)方法利用與訓(xùn)練樣本中的實(shí)例相關(guān)的特征來估計(jì)統(tǒng)計(jì)模型或調(diào)整算法。然后使用經(jīng)過訓(xùn)練的模型或算法來預(yù)測(cè)測(cè)試樣本中已識(shí)別但未標(biāo)記的實(shí)例,以評(píng)估其成功與否。最后,使用成功的模型或算法來推斷無標(biāo)記的文本數(shù)據(jù)。監(jiān)督學(xué)習(xí)方法包括K-近鄰分析、簡(jiǎn)單貝葉斯估計(jì)、決策樹等多種算法,這些算法可以最大限度地提高文本分析的可解釋性、準(zhǔn)確性。

無監(jiān)督學(xué)習(xí)方法,即研究人員不需要手動(dòng)對(duì)訓(xùn)練集進(jìn)行分類,而是使用計(jì)算機(jī)根據(jù)所觀察到的文本特征和一組假設(shè)自動(dòng)對(duì)所有文本進(jìn)行分類。無監(jiān)督學(xué)習(xí)方法從無注釋文本的語料庫開始,然后發(fā)現(xiàn)并表示新的解釋結(jié)構(gòu)。它主要有4種常見的算法:聚類、網(wǎng)絡(luò)分析、主題建模和向量空間嵌入。聚類通常用于發(fā)現(xiàn)文本的分類情況,而網(wǎng)絡(luò)分析通常用于識(shí)別文本之間的關(guān)系位置。主題建模被用于粗略地描述文本內(nèi)容,向量空間嵌入模型是把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,通過計(jì)算向量之間的相似性來度量文檔間的相似性。

在社會(huì)學(xué)分析中,由監(jiān)督學(xué)習(xí)方法或非監(jiān)督學(xué)習(xí)方法派生的基于文本的變量通常作為自變量,從文本外部預(yù)測(cè)已建立的因變量。例如,Goldberg等從文本中提取出員工在公司中的文化嵌入程度,然后用它來預(yù)測(cè)員工的個(gè)人績(jī)效評(píng)級(jí)和任期。

五、 大數(shù)據(jù)研究?jī)r(jià)值

大數(shù)據(jù)在工業(yè)上的成功應(yīng)用引起了學(xué)術(shù)界的注意。研究者認(rèn)為這種新型的數(shù)據(jù)類型對(duì)于學(xué)術(shù)研究來說更是不可錯(cuò)過的機(jī)遇。從數(shù)據(jù)特性來看,理論上,大數(shù)據(jù)可以為學(xué)術(shù)研究提供巨大價(jià)值:比如,大數(shù)據(jù)容量龐大可以看作全樣本來分析,保證統(tǒng)計(jì)分析的穩(wěn)健性;大數(shù)據(jù)多種多樣,包含了復(fù)雜、可能是潛在變量之間的相關(guān)性,可以作為研究復(fù)雜現(xiàn)象的一種信息來源;大數(shù)據(jù)獲取速度快,獲取成本低且數(shù)據(jù)幾乎可以實(shí)時(shí)生成,用實(shí)時(shí)可用的大數(shù)據(jù)研究現(xiàn)象不僅可以提高效率,還能避免統(tǒng)計(jì)調(diào)查中存在的觀察與分析之間的滯后性。

Lazer和Radford對(duì)大數(shù)據(jù)在社會(huì)科學(xué)領(lǐng)域可能存在的潛力進(jìn)行了相關(guān)總結(jié)。他們認(rèn)為,首先,與自我行為報(bào)告相比,大數(shù)據(jù)提供實(shí)際行為的測(cè)量,它更能捕捉到真實(shí)的一面;其次,大數(shù)據(jù)可以作為監(jiān)測(cè)社會(huì)現(xiàn)象的傳感器,這種數(shù)字化數(shù)據(jù)提供了降低成本,提高準(zhǔn)確性和增加社會(huì)監(jiān)測(cè)的能力;再次,大數(shù)據(jù)是以系統(tǒng)方式研究人類系統(tǒng)的機(jī)會(huì),可以用以回答跨空間、跨時(shí)間等長(zhǎng)期性問題;另外,大數(shù)據(jù)可以模擬自然或野外實(shí)驗(yàn),通過數(shù)據(jù)鏈接捕捉實(shí)地實(shí)驗(yàn)的效果;最后,大數(shù)據(jù)往往內(nèi)部包含著小數(shù)據(jù),可以使用大數(shù)據(jù)對(duì)傳統(tǒng)上難以接觸的人群,或者比較罕見的事件進(jìn)行研究。

同樣,通過大數(shù)據(jù)分析,還可以進(jìn)一步總結(jié)社會(huì)規(guī)律,幫助我們更好地預(yù)測(cè)未來。比如,在公共衛(wèi)生方面,Ginsberg等發(fā)現(xiàn),如果某一地區(qū)利用谷歌等搜索引擎搜索“流感癥狀”、“流感治療”等關(guān)鍵詞增多,那么幾周后,相應(yīng)地區(qū)醫(yī)院急診室的流感患者數(shù)量將相應(yīng)增加,這一發(fā)現(xiàn)有助于預(yù)測(cè)流感的爆發(fā)并提前部署應(yīng)對(duì)措施。在經(jīng)濟(jì)發(fā)展方面,聯(lián)合國利用自然語言處理軟件分析社交網(wǎng)站上的短信,以預(yù)測(cè)特定地區(qū)的失業(yè)率、支出削減和疾病爆發(fā)等社會(huì)問題,希望利用大數(shù)據(jù)防止地區(qū)再次陷入貧困困境。在社會(huì)安全方面,大數(shù)據(jù)分析可以通過預(yù)測(cè)“下一次恐怖襲擊”,并可能在犯罪分子發(fā)動(dòng)襲擊前將其抓獲,從而確保未來的安全。因此,大數(shù)據(jù)預(yù)測(cè)分析被用于社會(huì)治理目的,以解決越來越多的社會(huì)問題。

除此之外,在社會(huì)學(xué)領(lǐng)域,大數(shù)據(jù)對(duì)社會(huì)學(xué)有著更為特殊的意義。從130篇SSCI社會(huì)學(xué)大數(shù)據(jù)文獻(xiàn)來看,大數(shù)據(jù)對(duì)社會(huì)學(xué)的理論發(fā)展、方法突破和實(shí)證研究拓展等方面提供了巨大潛力。

(一) 激發(fā)更大的“社會(huì)學(xué)想象力”

有學(xué)者認(rèn)為,大數(shù)據(jù)的興起意味著“理論的終結(jié)”,只要有了足夠的數(shù)據(jù)和足夠的測(cè)量維度,就可以找到答案,無需提出任何研究問題和研究假設(shè)。Halavais認(rèn)為這種觀點(diǎn)在很多方面都是錯(cuò)誤的,理論的作用不僅僅是提供一個(gè)重要的啟發(fā)式函數(shù)、可供驗(yàn)證的假設(shè)或可預(yù)測(cè)結(jié)果的能力,理論最重要的是解釋社會(huì)結(jié)構(gòu)和變化的能力。社會(huì)學(xué)的一個(gè)核心問題是社會(huì)如何塑造了個(gè)體行為以及被個(gè)體行為所塑造?;蛘哒f,微觀的個(gè)體行為是如何整合并且在更大范圍上塑造了社會(huì)規(guī)則、期望、價(jià)值、欲望以及結(jié)構(gòu)?Mills將這種個(gè)人與社會(huì)聯(lián)系起來的能力稱之為“社會(huì)學(xué)想象力”。大數(shù)據(jù)雖然可以將變量的大規(guī)模映射作為發(fā)現(xiàn)世界的歸納工具,但大數(shù)據(jù)代表了理解世界過程的一部分,大數(shù)據(jù)方法本身不是目的,而是形成解釋理論的過程。從根本上說,社會(huì)如何塑造以及被個(gè)體行為所塑造這一問題是一個(gè)關(guān)于大社會(huì)數(shù)據(jù)的問題,是關(guān)于理解大規(guī)模社會(huì)結(jié)構(gòu)的動(dòng)態(tài)演變以及如何與日常生活關(guān)聯(lián)的相關(guān)問題。

大數(shù)據(jù)要求激發(fā)更大的“社會(huì)學(xué)想象力”,思考抽象與具體之間的關(guān)系,將宏大的社會(huì)理論融入到日常生活中去。正如Manovich所指出的那樣,大的社會(huì)數(shù)據(jù)提供了在微觀層面上對(duì)相互作用進(jìn)行實(shí)證觀察的可能,這種觀察將得到廣泛而深入的收集。

(二) 獲得更好的社會(huì)測(cè)量

傳統(tǒng)的社會(huì)調(diào)查往往需要花費(fèi)大量的人力、物力、財(cái)力來收集研究數(shù)據(jù),這些數(shù)據(jù)的收集周期長(zhǎng),數(shù)據(jù)發(fā)布滯后,很多情況下數(shù)據(jù)的真實(shí)性難以保證,有一些地區(qū)囿于現(xiàn)實(shí)條件甚至無法開展調(diào)查統(tǒng)計(jì)活動(dòng),這對(duì)社會(huì)治理、政策制定、社會(huì)研究有很大影響。由于大數(shù)據(jù)比傳統(tǒng)數(shù)據(jù)來源范圍更廣泛、更新更及時(shí),容量更龐大,在構(gòu)建新的社會(huì)指標(biāo)或優(yōu)化/替代現(xiàn)有指標(biāo)方面有天然的優(yōu)勢(shì)。大量的文獻(xiàn)表明,大數(shù)據(jù)可以很好地近似社會(huì)指標(biāo),利用大數(shù)據(jù)有可能對(duì)相關(guān)的社會(huì)指標(biāo)有更好、更快、更低廉的估計(jì)。

Di Bella等通過審查Scopus數(shù)據(jù)庫中的大數(shù)據(jù)文獻(xiàn)后指出,基于大數(shù)據(jù)的社會(huì)測(cè)量在發(fā)達(dá)國家和發(fā)展中國家有不同的目標(biāo)。在發(fā)達(dá)國家,大數(shù)據(jù)是創(chuàng)建可靠的社會(huì)指標(biāo)代理的高質(zhì)量信息庫。例如,Yazdani和Manovich在美國20個(gè)城市使用一年內(nèi)的Twitter圖像預(yù)測(cè)社會(huì)經(jīng)濟(jì)特征,發(fā)現(xiàn)與自我報(bào)告的社會(huì)福利、房屋均價(jià)、收入和教育水平之間高度相關(guān)性,Marchetti等利用私人車輛的GPS數(shù)據(jù),發(fā)現(xiàn)意大利一個(gè)地區(qū)的流動(dòng)性和貧困程度之間有很好的相關(guān)性;在發(fā)展中國家,大數(shù)據(jù)可能是傳統(tǒng)的調(diào)查統(tǒng)計(jì)替代方案,是對(duì)某些地區(qū)難以取得監(jiān)測(cè)數(shù)據(jù)的一種有力補(bǔ)充。例如,Mao等和Blumenstock等使用手機(jī)通話記錄數(shù)據(jù)很好地預(yù)測(cè)出科特迪瓦和盧旺達(dá)無監(jiān)測(cè)數(shù)據(jù)地區(qū)的公司收入水平,Elvidge等應(yīng)用DMSP/OLS夜間燈光數(shù)據(jù)繪制世界貧困地圖,并建立了一個(gè)可供計(jì)算的貧困指數(shù)。Wesolowski等利用手機(jī)通話記錄數(shù)據(jù)建立了瘧疾風(fēng)險(xiǎn)地圖,估計(jì)瘧疾寄生蟲如何在肯尼亞各地傳播。

(三) 開展更深入的實(shí)證研究

由于大數(shù)據(jù)包含了傳統(tǒng)意義上難以獲取或統(tǒng)計(jì)的數(shù)據(jù)、傳統(tǒng)調(diào)查可能難以觀察到的復(fù)雜變量的相關(guān)性,一方面使得以往很難進(jìn)行的實(shí)證研究有了新的研究可能。例如,對(duì)于政治社會(huì)學(xué)家來說,有關(guān)朝鮮核危機(jī)的研究是非常重要的議題,但鑒于朝鮮嚴(yán)厲的信息封鎖,幾乎很難開展實(shí)證研究,Whang等基于大數(shù)據(jù)分析技術(shù),使用1997年至2014年朝鮮中央通訊社(KCNA)的大量文本數(shù)據(jù)發(fā)現(xiàn),就核試驗(yàn)而言,金正恩政權(quán)與金正日政權(quán)開展核計(jì)劃的目的是不同的,就核挑釁而言,“有其父必有其子”的說法也并不正確。同樣,對(duì)于文化社會(huì)學(xué)家來說,他們的研究總是局限于微觀層面的分析,大數(shù)據(jù)在更大的層次上提供了新的可能。Murthy將17世紀(jì)的數(shù)字化日記和來自谷歌書籍的5100萬本數(shù)字化書籍與當(dāng)代的Twitter數(shù)據(jù)在大尺度下進(jìn)行對(duì)比,一項(xiàng)重要的發(fā)現(xiàn)是,精英歷史日記和當(dāng)代社交媒體對(duì)日常生活的管理有相似之處,盡管從歷史文本到當(dāng)代推文,內(nèi)容的可訪問性和內(nèi)容量已經(jīng)隨著時(shí)間的推移發(fā)生了變化,但幾個(gè)世紀(jì)以來,人們對(duì)某些與公共情緒相關(guān)的詞匯有著明顯的偏好。

另一方面,一些經(jīng)典的社會(huì)學(xué)理論也將得到進(jìn)一步檢驗(yàn)。Golder和Macy在《數(shù)字痕跡:在線網(wǎng)絡(luò)研究的機(jī)遇和挑戰(zhàn)》一文中較為詳細(xì)地介紹了一些研究者使用網(wǎng)絡(luò)大數(shù)據(jù)對(duì)某些經(jīng)典社會(huì)學(xué)理論進(jìn)行檢驗(yàn)和修正。他們指出,在經(jīng)典理論檢驗(yàn)方面,Eagle等利用全國6500萬用戶的電話記錄證實(shí)了Granovetter的弱關(guān)系理論和Burt的結(jié)構(gòu)洞理論,Leskovec和Horvitz利用2.4億用戶的全球即時(shí)通訊網(wǎng)絡(luò)數(shù)據(jù)證實(shí)了Milgram針對(duì)小世界現(xiàn)象提出的“六度分割”理論。在經(jīng)典理論修正方面,Ugander等通過對(duì)全球Facebook網(wǎng)絡(luò)的分析發(fā)現(xiàn),隨著Facebook規(guī)模的擴(kuò)大,用戶之間的“六度分隔”步驟從2008年的5.3個(gè)減少到2011年的4.7個(gè),Cha等研究了17億條推文,對(duì)Katz和Lazarsfeld提出的兩級(jí)傳播理論提出質(zhì)疑,認(rèn)為那些網(wǎng)絡(luò)“意見領(lǐng)袖”對(duì)推文的轉(zhuǎn)發(fā)和話題熱度提高并不一定有影響,這讓人們對(duì)Twitter上受廣泛關(guān)注的用戶的影響力產(chǎn)生了懷疑。

六、 結(jié)論與討論

從130篇SSCI社會(huì)學(xué)大數(shù)據(jù)文獻(xiàn)的計(jì)量分析來看,社會(huì)學(xué)大數(shù)據(jù)研究才剛剛開始起步。盡管相關(guān)的研究文獻(xiàn)逐年增多,但目前實(shí)證類的研究文獻(xiàn)偏少。社會(huì)學(xué)家們使用比較多的大數(shù)據(jù)類型包括網(wǎng)絡(luò)社交數(shù)據(jù)、行政數(shù)據(jù)、企業(yè)數(shù)據(jù)和谷歌圖書語料庫數(shù)據(jù),利用R、Python和Gephi等編程語言和軟件進(jìn)行大數(shù)據(jù)挖掘、分析和可視化。在統(tǒng)計(jì)分析方面,目前的大數(shù)據(jù)研究依然會(huì)采用頻數(shù)、百分比、回歸等傳統(tǒng)的統(tǒng)計(jì)分析方法進(jìn)行描述統(tǒng)計(jì)分析,但在機(jī)器學(xué)習(xí)的推動(dòng)下,有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的自動(dòng)文本分析法已經(jīng)開始得到運(yùn)用。

在許多研究者看來,大數(shù)據(jù)為社會(huì)學(xué)研究提供了新的資源,注入了新的活力。與傳統(tǒng)的統(tǒng)計(jì)調(diào)查相比,大數(shù)據(jù)在數(shù)據(jù)收集方面更方便、成本更低、速度更快,分析結(jié)果更穩(wěn)健。對(duì)于社會(huì)學(xué)家來說,大數(shù)據(jù)更能激發(fā)更大的“社會(huì)學(xué)想象力”、更能協(xié)助獲取有效的社會(huì)測(cè)量指標(biāo)、更能幫助克服研究中的問題,進(jìn)行更深入的研究分析。

然而,大數(shù)據(jù)在社會(huì)學(xué)中的應(yīng)用仍然面臨一些挑戰(zhàn):比如,大數(shù)據(jù)帶來一種新的數(shù)據(jù)鴻溝,由于大數(shù)據(jù)的產(chǎn)生、收集和分析是割裂的,能獲得大數(shù)據(jù)的人與無法獲得大數(shù)據(jù)的人之間可能產(chǎn)生不平等,能分析大數(shù)據(jù)的人更可能決定如何使用大數(shù)據(jù)以及誰能參與其中。其次,使用大數(shù)據(jù)、對(duì)大數(shù)據(jù)進(jìn)行分析都需要專門的專業(yè)知識(shí),社會(huì)學(xué)家對(duì)傳統(tǒng)社會(huì)調(diào)查、統(tǒng)計(jì)分析比較擅長(zhǎng),但對(duì)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等數(shù)據(jù)處理方法相對(duì)陌生,要很好地掌握這些專業(yè)知識(shí)的入門成本相對(duì)較高,這在一定程度上限制了大數(shù)據(jù)在社會(huì)學(xué)研究中的應(yīng)用。再次,大數(shù)據(jù)引發(fā)了較大的研究倫理爭(zhēng)議,傳統(tǒng)的社會(huì)調(diào)查需要得到被調(diào)查者的知情同意才能收集數(shù)據(jù),但大數(shù)據(jù)獲取一般不直接與產(chǎn)生數(shù)據(jù)的個(gè)體發(fā)生接觸,而是通過第三方平臺(tái)獲取或抓取數(shù)據(jù),數(shù)據(jù)收集過程未獲得許可、數(shù)據(jù)使用目的未被告知,在一定程度上來說,侵犯了用戶隱私。

因此,在數(shù)字媒介社會(huì)活動(dòng)日益增多、社會(huì)生活日益數(shù)字化的今天,如何理解日益數(shù)字化的世界、如何更好地利用大數(shù)據(jù)開展社會(huì)研究,對(duì)社會(huì)學(xué)而言是非常重要的。其一,應(yīng)當(dāng)鼓勵(lì)社會(huì)學(xué)家與擁有大數(shù)據(jù)資源的企業(yè)、政府、社會(huì)組織展開合作,特別是與數(shù)據(jù)科學(xué)家合作,以降低大數(shù)據(jù)獲取、大數(shù)據(jù)分析的難度。其二,開展社會(huì)學(xué)大數(shù)據(jù)研究技能培訓(xùn)項(xiàng)目,培養(yǎng)高質(zhì)量復(fù)合型社會(huì)學(xué)家,以適應(yīng)大數(shù)據(jù)時(shí)代的社會(huì)學(xué)研究工作。三是探討解決大數(shù)據(jù)社會(huì)學(xué)研究存在的隱私侵犯等道德倫理問題,建立使用大數(shù)據(jù)資源的機(jī)制和渠道。四是繼續(xù)加強(qiáng)對(duì)大數(shù)據(jù)基礎(chǔ)理論工作的研究,夯實(shí)基于大數(shù)據(jù)的社會(huì)學(xué)理論基石。

Inspire Greater “Sociological Imagination”

— Based on the Quantitative Analysis of 130 SSCI Literatures on Big Data of Sociology

TANG Binbin,? FU Shuangle,? LIU Linping

(School of Social and Behavior Sciences, Nanjing University, Nanjing? 210023, Jiangsu, China)

Abstract:Based on 130 SSCI sociology big data literatures, this paper analyzes the types of articles, citations, author information, big data types, processing tools, analytical methods and research values. The study found that there are few empirical studies on big data in sociology; the authors are not active; big data types used more include online social data, administrative data, enterprise data, and Google Books corpus data. Traditional statistical analysis methods still account for a certain proportion, but machine learning methods are beginning to be applied. Big data has injected new vitality into sociology research, helping to stimulate greater “sociological imagination”, gaining better social measurement and conducting more in-depth empirical research.

Key words:sociology; big data; quantitative analysis; frontier progress

猜你喜歡
社會(huì)學(xué)文獻(xiàn)文本
文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
基于OBE理念的非社會(huì)學(xué)專業(yè)“社會(huì)學(xué)概論”教學(xué)改革研究
Hostile takeovers in China and Japan
意外遇見社會(huì)學(xué)
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
挖掘文本資源 有效落實(shí)語言實(shí)踐
搭文本之橋 鋪生活之路 引習(xí)作之流
文本與電影的照應(yīng)閱讀——以《〈草房子〉文本與影片的對(duì)比閱讀》教學(xué)為例
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
建宁县| 元氏县| 吕梁市| 奈曼旗| 高陵县| 清水河县| 阿合奇县| 南阳市| 临城县| 聊城市| 三江| 定兴县| 辽中县| 庆安县| 铜鼓县| 佛冈县| 福贡县| 兴仁县| 岚皋县| 班戈县| 南木林县| 平果县| 南部县| 泸溪县| 苏尼特右旗| 鹤壁市| 通化市| 囊谦县| 寻乌县| 额敏县| 孙吴县| 临桂县| 临夏县| 咸宁市| 财经| 鹤山市| 大关县| 天全县| 商丘市| 梁山县| 原平市|