摘要:大數(shù)據(jù)的出現(xiàn)標(biāo)志著社會科學(xué)的發(fā)展來到了一個新的分水嶺。大數(shù)據(jù)不僅規(guī)模龐大、數(shù)據(jù)維度高并且還可能表征社會現(xiàn)象。為了有效處理大數(shù)據(jù),新的分析方法應(yīng)運(yùn)而生,包括數(shù)據(jù)降維、識別新的模式和關(guān)系、結(jié)果預(yù)測等,涵蓋的領(lǐng)域包括計算語言學(xué)、網(wǎng)絡(luò)科學(xué)、機(jī)器學(xué)習(xí)等等,這些技術(shù)進(jìn)步拓展了社會學(xué)研究的新方向。本文對大數(shù)據(jù)技術(shù)進(jìn)行研究,立足其對社會科學(xué)發(fā)展的影響,分析和闡述了該技術(shù)在社會學(xué)領(lǐng)域應(yīng)用中產(chǎn)生的新的研究方向,希望能對社會學(xué)未來的理論研究和發(fā)展提供幫助。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)驅(qū)動;計算社會科學(xué);機(jī)器學(xué)習(xí)
中圖分類號:TP311.13?? 文獻(xiàn)標(biāo)識碼:A?? 文章編號:1672-9129(2020)12-0044-02
1 引言
近年來,隨著大數(shù)據(jù)、深度學(xué)習(xí)等人工智能技術(shù)的蓬勃發(fā)展,自然科學(xué)、社會科學(xué)等各領(lǐng)域的發(fā)展都迎來了信息化、智能化的標(biāo)志性轉(zhuǎn)折點(diǎn)。在社會學(xué)中,由大數(shù)據(jù)技術(shù)創(chuàng)新帶來的突破被稱為“計算社會科學(xué)”[1]。隨著社會信息化、智能化的不斷發(fā)展,工程技術(shù)、社會科學(xué)以及社交媒體之間產(chǎn)生了不同于以往的交集——它們所研究和處理的數(shù)據(jù)類型高度相似,即社會活動的數(shù)字化信息;它們所面臨的問題也是類似的,即產(chǎn)生某種特定社會行為的因素有哪些。
面對這些共同的數(shù)據(jù)和問題,不同專業(yè)領(lǐng)域的科學(xué)觀點(diǎn)、方法和技術(shù)出現(xiàn)了潛在的“融合”。這種融合意味著大數(shù)據(jù)可能成為一個共同的交叉領(lǐng)域,來自完全不同專業(yè)領(lǐng)域、不同技術(shù)背景的研究人員可以互相協(xié)作,進(jìn)行技術(shù)、數(shù)據(jù)和信息等方面的交流和協(xié)作。此外,以大數(shù)據(jù)和人工智能作為驅(qū)動技術(shù),很可能會對以社會學(xué)為首的社會學(xué)科領(lǐng)域產(chǎn)生重要的理論變化。
由于大數(shù)據(jù)的出現(xiàn),社會科學(xué)的研究內(nèi)容正在發(fā)生根本性的變化。數(shù)據(jù)是一種新類型的數(shù)據(jù),隨之而來的是各種新的分析技術(shù)和方法,這些技術(shù)和方法將大數(shù)據(jù)轉(zhuǎn)化為有關(guān)社會現(xiàn)象的新信息,即利用現(xiàn)有的信息并將其轉(zhuǎn)化為知識,或解釋社會現(xiàn)象的產(chǎn)生原因。
2 大數(shù)據(jù)
大數(shù)據(jù)技術(shù)相比傳統(tǒng)技術(shù)的最根本變化在于數(shù)據(jù)獲取和收集的方式以各種數(shù)字化記錄手段為主,這是由于計算機(jī)信息化和智能化技術(shù)的發(fā)展使得數(shù)字記錄手段變得無處不在。如今越來越多的企業(yè)和機(jī)構(gòu)保存著數(shù)千萬甚至上億人的用戶數(shù)據(jù),社會生活的方方面面都會保存?zhèn)€人行為的數(shù)據(jù)記錄,例如人臉識別門禁、數(shù)字支付記錄、健康碼掃碼記錄活動軌跡、網(wǎng)絡(luò)社交媒體操作記錄等等。所有這些數(shù)據(jù)都被收集、分類和存儲,構(gòu)成無數(shù)個的持續(xù)、動態(tài)更新信息的數(shù)據(jù)源。大部分?jǐn)?shù)據(jù)涉及社會系統(tǒng)運(yùn)行和人們在日常生活中的活動信息,是人類進(jìn)行各種生產(chǎn)、消費(fèi)活動的數(shù)字足跡。因此,“大數(shù)據(jù)”一詞體現(xiàn)的是目前正在收集的數(shù)據(jù)的豐富性、動態(tài)性和多樣性。在大多數(shù)情況下,大數(shù)據(jù)信息不是通過傳統(tǒng)的問卷調(diào)查人為收集而得的,而是通過計算機(jī)技術(shù)和智能化設(shè)備自動獲取的。這些設(shè)備不是專門為了社會科學(xué)研究而創(chuàng)造的,而是個人或機(jī)構(gòu)為了滿足需求而自主選擇的,因而可以更加真實(shí)地反映社會現(xiàn)象的本質(zhì)[2]。換句話說,這些數(shù)據(jù)并不需要一個研究驅(qū)動的假設(shè)來產(chǎn)生,而應(yīng)該根據(jù)數(shù)據(jù)中蘊(yùn)含的潛在關(guān)聯(lián)信息分析出相應(yīng)的社會科學(xué)理論,或者對理論進(jìn)行客觀數(shù)據(jù)的補(bǔ)充解釋。
3 新技術(shù)
為了應(yīng)對大數(shù)據(jù)時代數(shù)據(jù)量的指數(shù)級增長,能夠處理來自多源頭、大數(shù)據(jù)量、多維度且互相關(guān)聯(lián)的數(shù)據(jù)信息的方法也應(yīng)運(yùn)而生。在獲得了大數(shù)據(jù)之后,由于數(shù)據(jù)量過大導(dǎo)致的對存儲容量和計算能力的需求急劇增長,所面臨的一個基本問題是如何在不犧牲數(shù)據(jù)信息量的前提下,將原始數(shù)據(jù)降維至易于管理且仍然可以被人類理解的維度。隨后,再對這些數(shù)據(jù)進(jìn)行分析和處理,以便篩選和識別出有意義的社會學(xué)行為模式。目前用于實(shí)現(xiàn)這些目標(biāo)的技術(shù)包括計算語言學(xué)、網(wǎng)絡(luò)科學(xué)、機(jī)器學(xué)習(xí)技術(shù)等[3]。
計算語言學(xué)是一個存在已久的領(lǐng)域,它起源于語言學(xué)、人工智能和認(rèn)知科學(xué)通過建立數(shù)學(xué)模型來實(shí)現(xiàn)機(jī)器翻譯的共同目標(biāo)。計算語言學(xué)現(xiàn)在為互聯(lián)網(wǎng)的各種web應(yīng)用提供了有力的技術(shù)支撐。計算語言學(xué)不僅可以將語言量化為數(shù)字化模型,還能進(jìn)行文本歸類、文本識別等應(yīng)用。對于社會科學(xué)家來說,計算語言學(xué)中的許多技術(shù)都與社會語言學(xué)理論相似相通,因而為語言分析提供了極為便利的智能分析工具。計算語言學(xué)與文本相似性度量技術(shù)等技術(shù)一同被越來越多的社會學(xué)家應(yīng)用于大規(guī)模的文本資料分析。
網(wǎng)絡(luò)科學(xué)是一個融合了計算機(jī)科學(xué)家、物理科學(xué)家以及研究社會網(wǎng)絡(luò)的社會科學(xué)家的交叉學(xué)科領(lǐng)域。在很多研究中,計算機(jī)科學(xué)家通過大規(guī)模數(shù)據(jù)集復(fù)現(xiàn)了以往的社會網(wǎng)絡(luò)研究的成果和結(jié)論。此外,計算機(jī)科學(xué)家的研究側(cè)重于團(tuán)體檢測、模擬、數(shù)學(xué)建模和假設(shè)檢驗,這與社會科學(xué)家對觀察研究、靜態(tài)網(wǎng)絡(luò)、結(jié)構(gòu)特性和小規(guī)模設(shè)置的傳統(tǒng)研究方法相反。在這個交叉學(xué)科領(lǐng)域中發(fā)現(xiàn)的許多網(wǎng)絡(luò)理論可適用于各種新型社交媒體和網(wǎng)站數(shù)據(jù)。這些研究集中在網(wǎng)站點(diǎn)擊、即時通信軟件和從各種社交平臺中提取的關(guān)系數(shù)據(jù),包括社交平臺上的“關(guān)注”關(guān)系、好友關(guān)系和內(nèi)容發(fā)布的點(diǎn)贊情況等。這些技術(shù)可用于研究社會互動等問題,并被越來越多地用于分析大規(guī)模群體間的關(guān)聯(lián)。
機(jī)器學(xué)習(xí)是一種基于數(shù)據(jù)驅(qū)動、用于預(yù)測結(jié)果的技術(shù)。例如,互聯(lián)網(wǎng)公司保存了大量的用戶行為數(shù)據(jù),包括網(wǎng)頁點(diǎn)擊、文字發(fā)布、網(wǎng)絡(luò)定位、購買記錄、質(zhì)量評價等等。很多公司會利用這些已有的用戶數(shù)據(jù)建立模型,預(yù)測其他用戶的行為,從而進(jìn)行合理的引導(dǎo),以便向用戶推銷更多商品、瀏覽更多頁面等等。在解決自然科學(xué)領(lǐng)域的工程技術(shù)問題時,機(jī)器學(xué)習(xí)是一種強(qiáng)有力的分析預(yù)測工具。然而,由于它僅利用了既往數(shù)據(jù)和相關(guān)的數(shù)學(xué)模型(如概率模型等)、缺少社會科學(xué)的理論支撐,單純依靠機(jī)器學(xué)習(xí)技術(shù)難以真正有效地準(zhǔn)確預(yù)測社會科學(xué)相關(guān)問題的結(jié)果。相反,理論研究是聚焦于重點(diǎn)部分的研究手段,可人為地從數(shù)以百萬計的變量中選取主要特征維度,并對這些特征的相互關(guān)聯(lián)進(jìn)行合理解釋。因此,把基于數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)技術(shù)與社會科學(xué)理論相結(jié)合時,則可以發(fā)揮出意想不到的功效[4]。機(jī)器學(xué)習(xí)的技術(shù)視角可以揭示社會學(xué)理論沒有關(guān)注到的行為模式或社會現(xiàn)象,或者以一種新的方式和角度來闡述可能被社會學(xué)家忽略的理論。因此,基于大數(shù)據(jù)計算的機(jī)器學(xué)習(xí)可以和社會學(xué)理論研究相輔相成,在社會學(xué)家尋找潛在、合理的理論解釋時能發(fā)揮重要作用。
4 新研究
隨著大數(shù)據(jù)和新方法的出現(xiàn),學(xué)者們可以從新的研究視角重新審視許多舊的社會科學(xué)問題。此外,大數(shù)據(jù)帶來的數(shù)據(jù)量過剩和數(shù)據(jù)訪問的便利性已經(jīng)創(chuàng)造了一系列全新的值得研究的社會學(xué)問題。社會學(xué)調(diào)查方式的進(jìn)步使得社會學(xué)理論也需要與時俱進(jìn)[5]。
一個典型的社會學(xué)研究問題是公平與貧富差距。研究人員不再局限于人口普查記錄和問卷調(diào)查,可直接獲取人們在日常生活中的行為數(shù)據(jù),例如消費(fèi)記錄、手機(jī)基站信號接入軌跡等,并且數(shù)據(jù)采樣的規(guī)模之龐大是前所未有的。通過這種方式,擁有大數(shù)據(jù)的研究者可以從行為模式、人口流動等方面評估不平等情況,重新審視區(qū)域貧富差距、城鄉(xiāng)二元化等問題。
隨著新數(shù)據(jù)和新方法的出現(xiàn),新的研究問題也被提上議程。信息過載是當(dāng)前工業(yè)界和學(xué)術(shù)界研究人員面臨的一個突出問題。隨著公開數(shù)據(jù)和隱私數(shù)據(jù)的指數(shù)增長,將數(shù)據(jù)進(jìn)行分析處理得到的信息量會隨之增長,因而從海量數(shù)據(jù)中挖掘出有用信息變得日趨困難。對于社會學(xué)家而言,希望利用大數(shù)據(jù)來解決公共利益的問題,例如如何令某個政策的實(shí)施得到預(yù)期的結(jié)果。從這個角度來說,大數(shù)據(jù)的優(yōu)勢在于它可提供更完整的研究視角,從而更全面地觀察整個社會系統(tǒng)的運(yùn)行[6]。就社會系統(tǒng)視角而言,研究者們可以評估各種微觀和宏觀過程,從而更充分地與社會學(xué)理論相聯(lián)系。這種聯(lián)系為理解社會系統(tǒng)如何作為系統(tǒng)運(yùn)行提供了前所未有的嶄新視角。大數(shù)據(jù)提供了在不同的社會環(huán)境中觀察相同類型的行為人的技術(shù)基礎(chǔ),從而方便社會學(xué)家在不同的領(lǐng)域中解析出社會制度和社會結(jié)構(gòu)上的差異。
5 結(jié)論
大數(shù)據(jù)技術(shù)的出現(xiàn)帶來了社會科學(xué)的全新分水嶺。大數(shù)據(jù)代表了從各種各樣的社會現(xiàn)象和行為的數(shù)字記錄中獲取的一類新型數(shù)據(jù),數(shù)據(jù)規(guī)模龐大、涵蓋的信息豐富、可動態(tài)獲取更新并且變量多數(shù)據(jù)維度高,故難以采用傳統(tǒng)方法進(jìn)行有效處理。因此,需要采用新的方法和技術(shù)來進(jìn)行數(shù)據(jù)降維、識別新的模式和關(guān)系、預(yù)測結(jié)果和社會現(xiàn)象的發(fā)展趨勢。這些新的方法與傳統(tǒng)的社會調(diào)查研究中常用的最小二乘法有本質(zhì)上的不同。大數(shù)據(jù)和相應(yīng)的新方法也引發(fā)了社會學(xué)家對傳統(tǒng)的社會科學(xué)問題進(jìn)行重新審視,并拓展出了新的研究方向。
參考文獻(xiàn):
[1]王國成. 計算社會科學(xué):發(fā)展現(xiàn)狀與前景展望[N]. 中國社會科學(xué)報,2020-08-18(004).
[2]龔為綱. 大數(shù)據(jù)推動計算社會科學(xué)發(fā)展[N]. 中國社會科學(xué)報,2019-01-30(006).
[3]孟小峰,張祎.計算社會科學(xué)促進(jìn)社會科學(xué)研究轉(zhuǎn)型[J].社會科學(xué),2019(07):3-10.
作者簡介:劉哲,1989.02,男,漢族,湖北武漢,講師,博士,主要從事大數(shù)據(jù)、機(jī)器學(xué)習(xí)、計算機(jī)視覺相關(guān)領(lǐng)域的教學(xué)和研究。