国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

以文本為基礎(chǔ)的社會科學(xué)研究:從內(nèi)容分析到算法模型

2022-04-13 11:52胡安寧
學(xué)術(shù)論壇 2022年1期
關(guān)鍵詞:社會科學(xué)研究者詞語

胡安寧

一、研究背景:以文本為分析對象的社會科學(xué)研究

文本資料貫穿于社會生活的方方面面,從關(guān)系國計民生的政策文件,到日常購物的賬單小票,各式各樣的文本為我們了解社會生活提供了重要的信息媒介。正是因為如此,社會科學(xué)研究者長期以來一直非常重視基于文本的資料分析,力圖從非各種結(jié)構(gòu)化的文本資料中探究特定社會議題的答案①KRIPPENDORFF K.Content analysis:an introduction to its methodology[M].Thousand Oaks:Sage Publications,2018:18-21.。在過去的十幾年中,隨著以算法為基礎(chǔ)的各種機器學(xué)習(xí)技術(shù)的發(fā)展與普及,社會科學(xué)研究者對文本的探索也日漸從傳統(tǒng)的以詮釋為導(dǎo)向的內(nèi)容分析法轉(zhuǎn)向以預(yù)測和因果推斷為導(dǎo)向的大規(guī)模文本挖掘②IGNATOW G,MIHALCEA R F.An introduction to text mining:research design,data collection,and analysis[M].Thousand Oaks:Sage Publications,2017:3-12.。這一方法論的變化趨勢為社會科學(xué)研究者提供了越來越多的新興研究工具,極大地拓展了社會科學(xué)文本分析的研究空間。

然而,到目前為止,對于社會科學(xué)領(lǐng)域文本研究的方法論變遷、不同研究方法路徑各自獨特的優(yōu)劣勢以及新興基于算法的文本挖掘技術(shù)的潛在局限等議題,尚缺乏系統(tǒng)地梳理。為了填補這一空白,本文擬從三個方面對以文本為分析基礎(chǔ)的社會科學(xué)研究進行討論。首先,對目前社會科學(xué)文本探索的多重方法進行回顧,將其劃歸為以詮釋為導(dǎo)向的方法、詮釋與結(jié)構(gòu)探索并重的方法和以結(jié)構(gòu)為導(dǎo)向的方法三類,以此呈現(xiàn)出社會科學(xué)文本研究工具的多樣性。其次,針對社會科學(xué)文本探索的方法論發(fā)展,圍繞研究目標(biāo)、研究手段和研究對象三個基本維度,系統(tǒng)展示從以詮釋為導(dǎo)向的內(nèi)容分析向以結(jié)構(gòu)為導(dǎo)向的文本挖掘的過渡過程。最后,針對日漸興起的以算法為導(dǎo)向的文本探索方法,討論其潛在的局限性及進一步發(fā)展的方向。

需要說明的是,本文的目的并不是對社會科學(xué)文本探索的各種方法進行百科全書式的梳理。實際上,由于各種具體技術(shù)和算法的迅猛發(fā)展,很多方法在很短的時間內(nèi)會出現(xiàn)各種升級和優(yōu)化,從而超越最初的單一方法而形成一整套方法論的體系。例如,目前社會科學(xué)研究者使用較多的主題模型,已經(jīng)從最早的LDA(latent Dirichlet allocation)模型拓展出相關(guān)主題模型、動態(tài)主題模型、監(jiān)督主題模型、鏈接主題模型、情感主題模型、作者主題模型、詞嵌入主題模型等多種方法①韓亞楠,劉建偉,羅雄麟.概率主題模型綜述[J].計算機學(xué)報,2021(6):1095-1139.。除了這些具有普遍應(yīng)用價值的主題模型方法,在特定的學(xué)科內(nèi)部,學(xué)者也會開發(fā)適用于特定研究問題的主題模型,如政治學(xué)領(lǐng)域的動態(tài)多主體模型(dynamic multi-topic model)②QUINN K M,MONROE B L,CDLARESI M,et al.How to analyze political attention with minimal assumptions and costs[J].American journal of political science,2010(1):209-228.和議題表達模型(expressed agenda model)③GRIMMER J.A Bayesian hierarchical topic model for political texts:Measuring expressed agendas in senate press releases[J].Political analysis,2010(1):1-35.等。因此,對于文本分析技術(shù)進行列表性的全面梳理已經(jīng)超越了本文的范圍。與這一目標(biāo)相比,本文更加希望通過對一系列有代表性的方法的考察,向讀者展現(xiàn)出社會科學(xué)文本探索策略的多種選擇及不同選項之間的各自優(yōu)勢和發(fā)展趨勢,以此為社會科學(xué)研究者提供方法論上的整體圖景。

二、社會科學(xué)文本探索的多重方法

與任何一種體系化的方法論框架一樣,以文本為基礎(chǔ)的社會科學(xué)研究涉及多種不同的具體策略,本文將這些經(jīng)驗分析策略大致分為三類,即以詮釋為導(dǎo)向的文本探索方法、詮釋與結(jié)構(gòu)并重的文本探索方法和以結(jié)構(gòu)為導(dǎo)向的文本探索方法(表1)。下面就這三種方法展開具體的討論。

表1 社會科學(xué)文本探索的多重方法

以詮釋為導(dǎo)向的文本探索方法的范例是傳統(tǒng)的內(nèi)容分析法④KRIPPENDORFF K.Content analysis:an introduction to its methodology[M].Thousand Oaks:Sage Publications,2018:18-21.。作為一個經(jīng)典的社會科學(xué)研究方法,內(nèi)容分析法強調(diào)通過對特定文本內(nèi)容的編碼,將文本信息提煉為圍繞特定主題的系統(tǒng)化的編碼信息,之后通過解讀編碼信息,研究者就可以跳過紛繁復(fù)雜的文本內(nèi)容本身,從而在分析過程中更為聚焦,得出具有實質(zhì)意義的結(jié)論。內(nèi)容分析法的典型應(yīng)用是性別社會學(xué)者分析多媒體內(nèi)容的性別角色定位。例如,克雷格(R.Stephen Craig)在其研究中通過內(nèi)容分析法考察了2209個商業(yè)廣告的具體內(nèi)容⑤CRAIG R S.The effect of television day part on gender portrayals in television commercials:a content analysis[J].Sex roles,1992:197-211.,圍繞這些商業(yè)廣告中角色的性別、年齡、外表特點和所處的空間環(huán)境等多個維度,克雷格對廣告內(nèi)容進行了抽樣、閱讀和編碼。通過對編碼內(nèi)容的研究,克雷格發(fā)現(xiàn),在不同的時間段(白天工作時段、晚上黃金時段和周末下午時段),廣告內(nèi)容對于男性和女性的描述是不同的。其中,白天工作時段和晚上黃金時段的廣告對男性角色的描述強調(diào)其性別角色上相對于女性所具有的主導(dǎo)性,而在周末下午時段的商業(yè)廣告則更加強調(diào)男性對于家庭瑣事的逃離。

通過這個經(jīng)驗實例可以看出,傳統(tǒng)內(nèi)容分析法的重點是通過編碼來簡化內(nèi)容??梢哉f,編碼的過程本質(zhì)上是對文本內(nèi)容的詮釋和抽取,通過這種“轉(zhuǎn)化”,研究者可以更加聚焦于文本在某些分析維度上的內(nèi)容特點。然而,這種以詮釋為導(dǎo)向的分析策略也并非沒有局限。一個被廣泛提及的問題是,不同的研究者對于同樣的內(nèi)容所作出的詮釋與編碼可能存在很大的差異。例如,在克雷格的研究中,相同的廣告內(nèi)容是由3 位編碼人員分別獨立進行編碼的,但是這些編碼在一些分析維度上的一致性程度并不是很高(如Krippendorff’s Alpha取值比較低)。

詮釋與結(jié)構(gòu)并重的文本探索方法可以看作是對傳統(tǒng)內(nèi)容分析法的一種拓展。這里拓展的關(guān)鍵在于,通過計算機輔助的分析手段來對文本中的某些關(guān)鍵點進行結(jié)構(gòu)化的分析和展示。在這一過程中,構(gòu)成這種結(jié)構(gòu)化信息的文本關(guān)鍵點通常是研究者基于特定的研究問題選擇的文本中具有實質(zhì)意義的元素。自然,這一選擇過程不可避免地涉及研究者對文本內(nèi)容的詮釋和理解。也正因為如此,很多關(guān)鍵點的生成實際上正是依賴傳統(tǒng)的內(nèi)容分析法所提煉出的一系列關(guān)鍵詞,這就是所謂“詮釋”的一面。但是,與傳統(tǒng)的內(nèi)容分析法不同,詮釋與結(jié)構(gòu)并重的文本探索方法在詮釋之外加入了對于關(guān)鍵點內(nèi)部結(jié)構(gòu)化特點的關(guān)注。這些結(jié)構(gòu)化特點的挖掘和呈現(xiàn)通常而言超越了傳統(tǒng)的內(nèi)容分析法而借助于一系列的計算機輔助技術(shù),這就是所謂“結(jié)構(gòu)”的一面。

詮釋與結(jié)構(gòu)并重的文本探索方法可以有很多具體的例證。比如,語義網(wǎng)(semantic network)分析是指利用網(wǎng)絡(luò)分析手段展示某一文本中特定的具有實質(zhì)意義的詞語彼此之間的復(fù)雜網(wǎng)絡(luò)關(guān)系。如果說傳統(tǒng)的內(nèi)容分析法探究詞語結(jié)構(gòu)的方式是根據(jù)研究者直觀的“肉眼”觀察,那么語義網(wǎng)分析則是利用網(wǎng)絡(luò)分析技術(shù)來探究復(fù)雜的關(guān)鍵詞網(wǎng)絡(luò)關(guān)聯(lián)模式①DOERFEL M.What constitutes semantic network analysis?A comparison of research and methodologies[J].Connections,1998(2):16-26.。換句話說,之所以說語義網(wǎng)分析方法超越了傳統(tǒng)的內(nèi)容分析做到詮釋和結(jié)構(gòu)并重,是因為借助于網(wǎng)絡(luò)分析技術(shù),研究者可以確定語義集群(cluster)、詞匯中心度(centrality)等網(wǎng)絡(luò)結(jié)構(gòu)特征(這些網(wǎng)絡(luò)結(jié)構(gòu)特征是社會網(wǎng)絡(luò)分析技術(shù)中常用的統(tǒng)計量)②KNOKE D,YANG S.Social network analysis[M].Thousand Oaks:Sage publications,2019:1-19.。此外,通過隨機圖(random graph)和自助法(bootstrap),研究者也可以判斷特定文本所呈現(xiàn)出的語義網(wǎng)絡(luò)結(jié)構(gòu)是否具有統(tǒng)計上的顯著性③CHRISTENSEN A P,KENETT Y N.Semantic network analysis(SemNA):a tutorial on preprocessing,estimating,and analyzing semantic networks[EB/OL].(2019-10-22)[2021-12-13].https://psyarxiv.com/eht87/.。這些結(jié)構(gòu)性分析都是傳統(tǒng)內(nèi)容分析法所不能夠做到的。例如,在多爾菲爾(Marya Doerfel)和巴內(nèi)特(George Barnett)的研究中,他們首先通過內(nèi)容分析法抽離出國際傳播學(xué)協(xié)會年會論文摘要中的一系列關(guān)鍵詞,之后采用語義網(wǎng)分析對這些關(guān)鍵詞的網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)進行了分析,以此呈現(xiàn)了人文學(xué)科和社會科學(xué)之間的學(xué)科差異④DOERFEL M L,BARNETT G A.A semantic network analysis of the International Communication Association[J].Human communication research,1999(4):589-603.。

需要特別提及的是,詮釋與結(jié)構(gòu)并重的文本探索方法所分析的對象并不局限于內(nèi)容分析法所抽離出的特定關(guān)鍵詞或者主題詞之間的網(wǎng)絡(luò)結(jié)構(gòu),社會科學(xué)研究者還會通過考察其他的關(guān)涉結(jié)構(gòu)的統(tǒng)計量來進行文本分析。例如,通過使用伽羅瓦格(Galois Lattices),研究者可以展現(xiàn)出一個文本中描述的主體(actor)和事件(event)之間的復(fù)雜關(guān)聯(lián),從而建構(gòu)出所謂的二部圖(two-mode)網(wǎng)絡(luò)⑤FREEMAN L C,WHITE D R.Using Galois lattices to represent network data[J].Sociological methodology,1993(1):127-146.。詮釋與結(jié)構(gòu)并重的另外一個典型方法是量化敘事分析(quantitative narrative analysis)。所謂的敘事,可以被看作是一類特殊類型的文本,其主要描述的是一個具有完整“情節(jié)”的故事。因此,對于敘事的分析,重點不再是對文本詞語關(guān)聯(lián)的考察,而是要充分考慮其“故事性”。一個完整的敘事,通常涉及的是構(gòu)成敘事“情節(jié)”的各種元素及其組合,最為簡單的情節(jié)元素就是主體—動作—對象的三元結(jié)構(gòu),因此很多的社會科學(xué)量化敘事分析就是以此三元結(jié)構(gòu)為基本的分析單元展開的。正因為如此,與傳統(tǒng)的語義網(wǎng)絡(luò)不同,量化敘事分析是一個以行動者為核心的分析策略,所得出的結(jié)論也主要是描述特定主體的社會影響,如特巴爾迪(Mauro Tebaldi)和合作者利用量化敘事分析展示了意大利總統(tǒng)在不同領(lǐng)域內(nèi)的角色力(actorness)及其歷時性差異①TEBALDI M,CALARESU M,PURPURA A.The actorness of the President of the Republic in Italian foreign policy:a quantitative narrative analysis of two case studies(1999-2013)[J].Quality &quantity,2021:1-27[2021-07-19].https://link.springer.com/article.DOI:org/10.1007/s11135-021-01206-7.。

隨著計算機算力和算法效率的提升,社會科學(xué)領(lǐng)域?qū)τ谖谋镜姆治鲋饾u引入了越來越多的計算機分析手段,這一趨勢使得社會科學(xué)的文本探索越發(fā)傾向于對文本進行結(jié)構(gòu)化的考察。這方面比較有代表性的方法便是主題模型和詞嵌入模型。正如本文開始時所述,經(jīng)過短短十幾年的發(fā)展,主題模型業(yè)已形成一套比較成熟的方法論體系。各種方法從不同的角度發(fā)展了布雷(David M Blei)等人提出的潛在狄利克雷分配方法②BLEI D M,NG A Y,JORAN M I.Latent Dirichlet allocation[J].The journal of machine learning research,2003(3):993-1022.。潛在狄利克雷分配方法可以視為一種多層次貝葉斯模型。首先,從超參數(shù)為α的狄利克雷分布中抽取主題分布的參數(shù)θ,這一參數(shù)在不同文本之間各不相同,即某一文本可以有不同的主題;其次,給定某一文本,以θ 為參數(shù),針對文本中的每個詞抽取特定的主題z;最后,特定主題下詞的分布參數(shù)表示為β,結(jié)合z和β,就可以建模出特定詞出現(xiàn)的概率。這里β也可以通過狄利克雷分布的超參數(shù)進行調(diào)整。通過這樣的數(shù)據(jù)生成過程,潛在狄利克雷分配分析的最終目標(biāo)是通過諸如吉布斯抽樣或者變分法來獲得θ 和β 的后驗分布(posterior distribution)。其中,θ 可以幫助我們了解特定文本內(nèi)的主題分布,β 則幫助我們獲知特定主題下的詞語分布。前者的功能是幫助我們基于主題對文本進行分類,后者的功能則是幫助我們了解特定主題下哪些詞語屬于高頻詞語,從而把握主題的實質(zhì)含義。從某種意義上來講,潛在狄利克雷分配方法是對文本內(nèi)容的一種“降維”,以θ和β為基礎(chǔ),研究者可以以主題來代替文本,從而做到一種結(jié)構(gòu)化的文本分析。

LDA 主題模型的分析基礎(chǔ)仍然是詞語的使用頻率或者詞頻—逆文檔頻率(term frequency-inverse document frequency)。由于不考慮詞語彼此之間的關(guān)系,因此仍屬于詞袋模型。正因為如此,LDA主題模型的一個比較大的局限在于很難呈現(xiàn)特定詞語的上下文信息,而這恰恰是詞嵌入模型的用武之地③ALMEIDA F,XEXéO G.Word embeddings:a survey[EB/OL].(2019-01-25)[2021-12-13].https://arxiv.org/abs/1901.09069.。具體而言,詞嵌入模型借助神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)技術(shù),將詞語使用的上下文信息考慮進來。在操作時,詞嵌入模型基于詞語的上下文信息,利用多層神經(jīng)網(wǎng)絡(luò)將詞語映射到一個高維向量空間中,上下文信息比較接近的詞語,在空間中也更為接近。通過詞嵌入模型,原來離散化的詞語被轉(zhuǎn)化為一個連續(xù)型的變量,因此在分析時更為便利。更為重要的是,通過整合詞語的上下文信息,在新的向量空間中詞語的接近度即可認(rèn)為是上下文信息的接近度,因此向量化后的距離測量更加具有實質(zhì)意義。在具體應(yīng)用時,向量化的詞語所處的空間維度可能很高,不便于直觀觀察。研究者可以通過降維技術(shù),在低維度(如二維平面或者三位空間)呈現(xiàn)出一系列詞語的空間位置,以此展示出詞語間的“親疏遠近”。此外,向量化的詞語也為衡量文本間的差異提供了新的思路,即以匯總的詞語距離來考察文本之間的距離④劉河慶,梁玉成.政策內(nèi)容再生產(chǎn)的影響機制——基于涉農(nóng)政策文本的研究[J].社會學(xué)研究,2021(1):115-136,228-229.。最后,研究者也可以通過引入時間維度,考察與特定詞語空間距離接近的其他詞語是如何隨著時間變化呈現(xiàn)出歷時性差異的。通過這種分析,研究者可以了解特定詞語的(上下文)意義是如何隨時間而改變的⑤KULKARNI V,AI-RFOU R,PEROZZI B,et al.Statistically significant detection of linguistic change[EB/OL].(2014-11-12)[2021-12-13].https://arxiv.org/abs/1411.3315.。

三、社會科學(xué)文本探索的方法論變遷

在上面的討論中,本文展示了不同的社會科學(xué)文本探索工具,這些工具的提出和集中使用發(fā)生在不同的歷史時期,因此與特定歷史階段的研究重點、計算機算力限制和理論關(guān)懷相關(guān)聯(lián)。通過考察這些方法,可以近似勾勒出社會科學(xué)文本探索的方法論變遷特征,如表2所示,本文從研究目標(biāo)、研究手段和研究對象三個維度來進行討論。

表2 社會科學(xué)文本探索的方法論變遷

在研究目標(biāo)方面,無論是早期的內(nèi)容分析編碼,還是日漸興起的基于算法的文本挖掘技術(shù),其共通點都在于對紛繁復(fù)雜的文本內(nèi)容進行某種簡化。但是,在對簡化后的內(nèi)容如何使用方面,卻呈現(xiàn)出從詮釋導(dǎo)向到因果/預(yù)測導(dǎo)向的變化。傳統(tǒng)的內(nèi)容分析基于人工編碼,相對而言,編碼后的數(shù)據(jù)所呈現(xiàn)出的信息比較簡單,研究者完全可以通過直接審讀這些編碼信息來間接把握文本的內(nèi)容。換句話說,無論是對原始文本的編碼過程,還是對編碼后的信息解讀,都主要立足于研究者的詮釋與理解。從這個角度來講,傳統(tǒng)內(nèi)容分析法依然沒有脫離社會科學(xué)詮釋主義的分析范式。研究者采用內(nèi)容分析法所希望獲取的是文本所呈現(xiàn)出的實質(zhì)意義,只是在這一過程中加入了某種編碼和簡化手段。但是,詮釋與結(jié)構(gòu)并重的文本探索方法在詮釋之外開拓出了結(jié)構(gòu)分析這一新的關(guān)注點。以語義網(wǎng)為例,研究者除了探究特定詞匯本身的實質(zhì)含義,也關(guān)心通過網(wǎng)絡(luò)分析獲得的詞匯間的網(wǎng)絡(luò)特點(如通過觀察詞匯之間是否存在某種結(jié)構(gòu)化分隔來對大量的詞匯進行分類)。同理,在量化敘事分析中,通過主體—動作—對象的三元結(jié)構(gòu),一系列活生生的“故事”和“敘事”逐漸讓位給三元結(jié)構(gòu)本身的結(jié)構(gòu)性特點(如隨時間的變動趨勢等)。這種針對結(jié)構(gòu)特征的分析在今天的算法模型中得到了更為直接的體現(xiàn)。LDA主題模型對于主題的抽取本質(zhì)上是進行貝葉斯建模,各種詞語的價值在于呈現(xiàn)出不同詞語出現(xiàn)的概率差異。對于某一個詞語具體是什么意思,其本身是否有潛在的含義等問題,并不在LDA主題模型關(guān)心之列,其結(jié)果是,抽離出的主題有可能自身不能夠邏輯自洽,缺乏實質(zhì)的理論和現(xiàn)實含義。這些局限給分析結(jié)果的經(jīng)驗詮釋帶來了極大的困境①CHANG J,BOYO-GRABER J,WANG C,et al.Reading tea leaves:How humans interpret topic models [C]// BENGIO Y,SCHUURMANS D,LAFFERTY J,et al.Advances in neural information processing systems.Cambridge:The MIT Press,2009:288-296.。詞嵌入模型相比于LDA模型在上下文結(jié)合上有了一定的提升,但是這個方法仍然是將文本中詞語的上下文語境簡化為某種空間距離,研究者們對向量化了的詞語進行分析時可以專注于這些空間特征而不必返回原文具體閱讀上下文。在基于算法的各種工具的幫助下,文本結(jié)構(gòu)性因素變得日漸“可見”。之后,研究者們便可以把這些結(jié)構(gòu)性特征作為常規(guī)意義上的變量納入各種結(jié)構(gòu)化的模型分析(如回歸模型)中,從而達到因果推論甚至預(yù)測的目的。此時,文本探索成為一種變量建構(gòu)的手段,研究者后續(xù)的工作與傳統(tǒng)量化社會科學(xué)研究在分析思路和研究策略上就沒有實質(zhì)區(qū)別了。

除了研究目標(biāo),在研究手段方面,社會科學(xué)文本探索的方法也體現(xiàn)出一系列的歷時性變化,其中最為重要的一點就是研究者人工因素的逐漸淡化。如果說傳統(tǒng)的內(nèi)容分析法受社會科學(xué)研究者和其合作者(如其他編碼人員)主導(dǎo)的話,那么到了諸如語義網(wǎng)分析這樣的詮釋與結(jié)構(gòu)并重的方法這里,計算機輔助分析開始變得日漸重要。這種基于“機器”的分析過程既是特定算法實現(xiàn)的現(xiàn)實需要,也是處理體量日漸增大的數(shù)據(jù)的必然要求。實際上,文本元素內(nèi)部的復(fù)雜結(jié)構(gòu)已經(jīng)不再是研究者個體通過直接閱讀編碼就可以辨識的了。這種“人工”的式微到了以算法為基礎(chǔ)的文本挖掘這里,變得更為明顯。例如,對于文本主題的挖掘無論在計算復(fù)雜度還是文本處理數(shù)量上會超越人力所及,分析過程需要依賴特定的軟件和平臺才能開展。此時,研究者甚至開始成為一種旁觀者,算法的使用和最后分析結(jié)果的產(chǎn)生成為研究者個體無法觸及和理解的黑箱②陳珂銳,孟小峰.機器學(xué)習(xí)的可解釋性[J].計算機研究與發(fā)展,2020(9):1971-1986.。綜上所述,社會科學(xué)的文本探索方法呈現(xiàn)出人工因素逐漸式微、機器因素日漸加強的過程①需要說明的是,這里我們所談到的從人工主導(dǎo)轉(zhuǎn)向機器主導(dǎo)并不是說“人”的因素的消失,由于算法本身也是人工開發(fā)的,即使到算法為主導(dǎo)的階段也不可能脫離人而獨立存在,這里所談的人工主要是傳統(tǒng)社會科學(xué)研究中以理論思辨和資料詮釋為主要工作的社科研究者。當(dāng)研究結(jié)論主要基于算法實現(xiàn),傳統(tǒng)的社科研究者則可能變成了一個“操作員”或者“旁觀者”。。

但是,需要指出的是,社會科學(xué)研究中這種“人退機進”的發(fā)展趨勢并非是不同學(xué)科共有的現(xiàn)象。正如社會學(xué)家迪馬喬(Paul DiMaggio)所言,與社會科學(xué)研究的發(fā)展趨勢相反,計算機領(lǐng)域恰恰從最早的片面強調(diào)機器與算法元素轉(zhuǎn)向日漸引入人工因素,最終形成人機互動的發(fā)展格局②DIMAGGIO P.Adapting computational text analysis to social science(and vice versa)[J].Big Data&society,2015(2):1-5.。按照迪馬喬的分析,社會科學(xué)研究對于研究者的主觀片面性(比如個人的價值觀、行為習(xí)慣、道德傾向等)偏誤有著比較深刻的認(rèn)識,因此在文本探索過程中力圖向“客觀化”的方向邁進,從而努力剝離人工因素。但是,那些熟悉機器和算法局限性的學(xué)科卻努力引入人工因素,以求對機器本身的各種弱點進行糾正。對于這一問題,筆者認(rèn)為,我們在文本分析過程中不可能做到完全剝離人工因素,即使是那些嚴(yán)格以算法為導(dǎo)向的分析技術(shù),最后仍然需要研究者人工的介入。從這個角度來看,人機和諧交互或許會是社會科學(xué)研究的一個發(fā)展趨勢。

在研究對象方面,社會科學(xué)文本探索的方法論呈現(xiàn)出從“意義”向“結(jié)構(gòu)”的變化。如果說意義是一系列可以幫助我們理解特定社會現(xiàn)象的“說法”或者“故事”,那么結(jié)構(gòu)則強調(diào)了不同因素之間的客觀互動關(guān)聯(lián)。顯然,傳統(tǒng)內(nèi)容分析的編碼結(jié)果鮮有對結(jié)構(gòu)特征的呈現(xiàn),到了詮釋與結(jié)構(gòu)并重的文本探索方法和后面以結(jié)構(gòu)為導(dǎo)向的分析方法那里,結(jié)構(gòu)性信息就變得越發(fā)重要。當(dāng)結(jié)構(gòu)因素成為承載科研結(jié)果的主要面向,研究者們便不再刻意追求特定的文本本身的意義,轉(zhuǎn)而討論結(jié)構(gòu)性特征所具有的“意義”,或者說對結(jié)構(gòu)性特征進行某種“二次”詮釋。除了從意義向結(jié)構(gòu)的變化,研究對象上的轉(zhuǎn)向還體現(xiàn)在文本信息的載體變化上。由于人工分析能力的局限,傳統(tǒng)的內(nèi)容分析法所使用的是相對而言比較小的數(shù)據(jù)。例如,報紙的頭版頭條信息,時長較短的媒體影像資料(如廣告)等。如果分析的文本規(guī)模太大,傳統(tǒng)內(nèi)容分析法則會通過抽樣來人為降低分析對象的體量。整體而言,以內(nèi)容分析法為主的文本研究更多地注重典型性,甚至很多文本分析的關(guān)注點都是個案性的資料,與這種分析對象相比,今天基于算法的分析對象可以是所謂的大數(shù)據(jù)甚至流(stream)數(shù)據(jù)。借助于迅速提升的計算機硬件算力和日漸高效的算法設(shè)計,文本挖掘的對象可以是人類目前為止所積累的海量書籍資料③陳云松.大數(shù)據(jù)中的百年社會學(xué)——基于百萬書籍的文化影響力研究[J].社會學(xué)研究,2015(1):23-48,242-243.,也可以是某一領(lǐng)域全部的文本資料(如全唐詩)④陳云松.詩窮而后工——唐人生平際遇對詩作成就影響的量化分析[J].南京社會科學(xué),2018(12):151-161.,此時所使用的數(shù)據(jù)甚至可以稱為“全”數(shù)據(jù),這種對海量數(shù)據(jù)的分析能力是傳統(tǒng)文本探索技術(shù)所不具備的。

四、以算法為導(dǎo)向的社會科學(xué)文本探索:限制與發(fā)展

上文討論展示了社會科學(xué)文本探索的方法論變遷特征,考慮到以算法為導(dǎo)向的文本挖掘技術(shù)在社會科學(xué)不同學(xué)科內(nèi)的迅速應(yīng)用,這一部分著重對這一新興發(fā)展趨勢進行討論。由于這一類方法的介紹性書籍與論文頗多⑤IGNATOW G,MIHALCEA R F.An introduction to text mining:research design,data collection,and analysis[M].Thousand Oaks:Sage Publications,2017:3-12.,研究者們對于它們的強項已經(jīng)有很多直觀的感受,因此,下文重點分析這一類方法存在的限制和進一步發(fā)展的方向。

數(shù)據(jù)清洗:與傳統(tǒng)的量化數(shù)據(jù)分析一樣,在進行文本分析的時候,從一開始的原始數(shù)據(jù)到最后可用于分析的數(shù)據(jù)之間存在著一系列的數(shù)據(jù)清洗過程。具體而言,對于文本數(shù)據(jù),數(shù)據(jù)清洗意味著需要對文本中存在的虛詞、標(biāo)點符號等詞語進行去除,以及對同義詞和近義詞進行統(tǒng)一。和傳統(tǒng)的定量研究相比,文本數(shù)據(jù)的清洗對于最后結(jié)果的呈現(xiàn)有著更為直接和深遠的影響⑥D(zhuǎn)IESNER J.Small decisions with big impact on data analytics[J].Big Data&society,2015(2):1-6.。一個非常直觀的例子是,常規(guī)的文本數(shù)據(jù)清洗操作會將文本中涉及語氣的詞語去掉,因為一般而言,語氣詞缺乏實質(zhì)詞義,因此不具有分析的實質(zhì)意義。但是,如果所分析的文本是文學(xué)作品,那么很多情節(jié)的展開恰恰是通過一些語氣詞來實現(xiàn)的,此時去掉語氣詞就顯得不合適了。再比如,在對英文進行文本分析的時候,研究者們通常需要對詞語進行主干化(stemming)操作,但是一些詞語之所以存在某種變體,恰恰在于作者希望能夠作出非常精細(xì)的語義差別區(qū)分(如habitus和habit的區(qū)分)。如果不作區(qū)分直接進行主干化操作,有可能將這種語義差異掩蓋。正因為如此,未來社會科學(xué)文本挖掘分析的一個重要的發(fā)展方向是對數(shù)據(jù)清洗過程進行標(biāo)準(zhǔn)化和流程化,以求提升分析結(jié)論的可比性。這也是可重復(fù)性研究的直接要求和題中之義①陳云松,吳曉剛.走向開源的社會學(xué)——定量分析中的復(fù)制性研究[J].社會,2012(3):1-23.。

過擬合:與傳統(tǒng)內(nèi)容分析不同,基于算法的文本研究所使用的量化分析手段更為復(fù)雜。例如,在算法的參數(shù)設(shè)定上,可以有不同的選擇。在實踐中,研究者往往通過多次試錯來最后獲得一個所謂的“最優(yōu)”參數(shù)和“最優(yōu)”模型。但是,這樣做和定量研究中的p 值篡改(p hacking)有著異曲同工的邏輯,即針對某一特定數(shù)據(jù),不斷修改模型設(shè)定參數(shù),直至p 值顯著。從數(shù)據(jù)分析的角度來看,對某一數(shù)據(jù)反復(fù)試錯來調(diào)整參數(shù)的一個最大的危害在于會出現(xiàn)過擬合問題,即模型對于數(shù)據(jù)的特征把握得過分好,以至于數(shù)據(jù)本身的噪聲也被看作是有意義的信號。顯然,這時的數(shù)據(jù)分析結(jié)論缺乏足夠的泛化能力。例如,對東部地區(qū)政府官方文件的文本挖掘有可能會呈現(xiàn)出很多只有在東部地區(qū)才有的特點。此時,所得到的結(jié)論就很難推廣到中西部地區(qū)。一個可能的解決策略是進行交互驗證,即首先利用有限的數(shù)據(jù)進行模型擬合,之后用剩下的數(shù)據(jù)驗證模型的泛化表現(xiàn)。但是與傳統(tǒng)的機器學(xué)習(xí)方法不同,文本挖掘并非對某一連續(xù)型變量進行預(yù)測,因此如何用驗證數(shù)據(jù)來評判模型的優(yōu)劣對于文本分析而言仍然是一個亟待解決的問題,這本質(zhì)上也可以看作是下文所談到的驗證問題。

驗證:通過算法獲得的文本分析結(jié)果一直以來都因為缺乏足夠的驗證手段而受到詬病。例如,主題模型獲得的主題在多大程度上可以作為是對原始文本信息有“代表性”的抽離,這一問題一直以來缺乏一個被廣泛接受的指標(biāo)②CHANG J,BOYD-GRABER J,WANG C,et al.Reading tea leaves:how humans interpret topic models[C]//BENGIO Y,SCHUURMANS D,LAFFERTY J,et al.Advances in neural information processing systems.Cambridge:The MIT Press,2009:288-296.。傳統(tǒng)的分析過程可以使用主題詞語義一致性得分或者兩兩互信息得分來進行衡量③韓亞楠,劉建偉,羅雄麟.概率主題模型綜述[J].計算機學(xué)報,2021(6):1095-1139.,這兩種方法都是一種內(nèi)樣本(in-sample)的評估手段,即在獲得主題估計之后,觀察特定主題的關(guān)鍵詞內(nèi)部的一致性。但是,由于主題模型的擬合過程就是通過這些主題詞的詞頻或者逆文檔頻率來構(gòu)建主題的,因此這種內(nèi)樣本評估很難看出主題的泛化能力。一個比較合理的評估和驗證手段應(yīng)當(dāng)是外樣本(out-of-sample)評估,這方面社會學(xué)的計算民族志分析已經(jīng)有了一些開拓性的探索,或許也應(yīng)當(dāng)是未來文本挖掘方法的重要發(fā)展方向之一④NELSON L K.Computational grounded theory:a methodological framework[J].Sociological methods&research,2020(1):3-42.。

關(guān)于驗證的另外一個問題是如何確定文本和變量之間的關(guān)系。正如上文所言,研究者對文本進行挖掘之后所形成的一系列結(jié)構(gòu)性信息可以作為變量納入一系列的因果關(guān)系模型甚至預(yù)測模型中。以文本作為基礎(chǔ)進行此類分析需要對文本所測量的變量究竟是什么有著清晰的認(rèn)識,但是到目前為止,這方面的工作還有很多挑戰(zhàn)。例如,以文本進行因果推斷時,文本中既包含了研究者關(guān)心的變量,也包含了一些其他混淆因素。此時,以文本為單位所做的分析無法排除混淆因素的作用(即出現(xiàn)所謂的效應(yīng)替代[aliasing])⑤CHRISTIAN F,GRIMMER J.Causal inference with latent treatments[J].American journal of political science,[2021-09-18].https://onlinelibrary.wiley.com/doi/abs/10.1111/ajps.12649.。此外,文本中的詞語彼此相聯(lián)系,因此以文本進行因果推斷有可能違反了所謂的分析單位獨立性假設(shè)⑥KEITH K A,JENSEN D,O’CONNOR B.Text and causal inference:A review of using text to remove confounding from causal estimates[EB/OL].(2020-05-01)[2021-11-13].http://arxiv.org/abs/2005.00649.。這些問題的核心在于我們對文本加工后所獲得的信息在多大程度上能夠代表研究者所需要的信息,其本質(zhì)關(guān)涉的是測量的質(zhì)量和效度。

五、代結(jié)語:邁向人機協(xié)作的社會科學(xué)文本分析

圍繞文本信息,社會科學(xué)研究者有著多種分析工具可供選擇,這些分析工具或以詮釋為主導(dǎo)、或以結(jié)構(gòu)分析為主導(dǎo),或者二者并立。從傳統(tǒng)的內(nèi)容分析到新近的以算法為導(dǎo)向的文本挖掘技術(shù),在研究目標(biāo)、研究手段和研究對象三個維度上呈現(xiàn)出明顯的過渡特點。而圍繞著機器學(xué)習(xí)為基礎(chǔ)的文本挖掘,本文從數(shù)據(jù)清洗、過擬合和數(shù)據(jù)驗證三個方面討論了其潛在的局限性和未來的發(fā)展方向。

盡管我們勾勒出了社會科學(xué)文本研究的一個大致的發(fā)展趨勢,但是我們并不認(rèn)為新近的方法可以取代早期的方法。相反,我們認(rèn)為,不同的文本探索手段雖然在不同的歷史時期開發(fā)出來,但其都有擅長處理的特定研究問題。因此,對于社會科學(xué)研究者而言,不是選取最新的方法就一定是最好的,而是應(yīng)當(dāng)根據(jù)自身的研究問題特點,有針對性地選擇最“適合”的研究方法。例如,如果對于文本的敘事感興趣,那么自然圍繞敘事展開的量化分析手段更有優(yōu)勢,盡管新的文本挖掘手段可以在分析效率上對前者有所增益和補充??傊?,方法畢竟是達成研究目標(biāo)的工具,何種工具最恰當(dāng)是由研究問題決定的。此外,針對同一問題采用多種手段也可以起到方法互補或者互相驗證的效果,這也是經(jīng)驗研究者可以考慮的綜合性分析策略。

社會科學(xué)的文本分析和計算機領(lǐng)域內(nèi)的自然語言處理方法之間的界限隨著大數(shù)據(jù)時代的到來開始變得越發(fā)模糊。實際上,無論是分詞等數(shù)據(jù)預(yù)處理技術(shù),還是主題模型這樣的新興技術(shù),其都來自于自然語言處理領(lǐng)域。但是,社會科學(xué)的研究旨趣與自然語言處理的主要任務(wù)之間還是有所區(qū)別。從某種意義上講,這種區(qū)別有些類似于布雷曼所談的兩種統(tǒng)計分析文化①LEO B.Statistical modeling:the two cultures(with comments and a rejoinder by the author)[J].Statistical science,2001(3):199-231.:社會科學(xué)研究者希望能夠利用文本分析來理解和詮釋某種社會現(xiàn)象,但是自然語言處理的主要功能在于對文本進行簡化、分類和預(yù)測。正因為如此,很多時候,如果社會科學(xué)研究者直接把自然語言處理的方法拿來使用的話,會感覺有種隔閡感,或許這種隔膜就來自于兩派研究的旨趣和目標(biāo)差異。鑒于此,盡管在可預(yù)期的未來,自然語言處理的技術(shù)會越來越多地被社會科學(xué)研究者所使用,但是這種使用的目標(biāo)卻有學(xué)科差異。

可以想見的是,隨著算法工具的日漸豐富,基于文本探索的社會科學(xué)研究者將會大有可為。但是如文中所指出的,文本的分析切不可掉入“重機器輕人工”的陷阱。由于文本本身的復(fù)雜和多義,單純通過一些表面特征獲取的文本簡化信息必定是不完全的。因此,未來社會科學(xué)文本分析的努力方向應(yīng)當(dāng)是尋找一種人機協(xié)作互動的工作方案。這方面比較成功的探索往往用機器做一些探索性和數(shù)據(jù)簡化的工作,之后研究者參與進來對機器所呈現(xiàn)的結(jié)果進行詮釋和理解②NELSON L K.Computational grounded theory:A methodological framework[J].Sociological methods&research,2020(1):3-42.。如果按照這種人機協(xié)作的工作模式,機器的作用在于探索,至于這種探索是否有學(xué)科層面上的理論價值和實際生活的現(xiàn)實意義,則由具有理論素養(yǎng)的研究者來進行。從這個意義上講,機器和人工之間存在了某種分工,各自負(fù)責(zé)自己所擅長的部分,以共同完成某一研究。

最后,需要提及的是,文本的價值和意義并非是文本本身的屬性。實際上,大量的文化社會學(xué)理論早已指出,文本的意義是作者和讀者互動過程中產(chǎn)生的。因此,單純關(guān)注文本特征,或者僅僅考慮作者信息,對于理解文本而言總是片面的。如何更好地整合讀者信息,從而將作者—文本—讀者三元一體納入現(xiàn)有的社會科學(xué)分析框架,應(yīng)當(dāng)是未來社會科學(xué)文本分析需要考慮的問題之一。

猜你喜歡
社會科學(xué)研究者詞語
容易混淆的詞語
《北京科技大學(xué)學(xué)報》(社會科學(xué)版)
《河北農(nóng)業(yè)大學(xué)(社會科學(xué)版)》2021年喜報
我刊獲評四川省社會科學(xué)優(yōu)秀學(xué)術(shù)期刊
找詞語
用水痘病毒開發(fā)新型HIV疫苗
研究者稱,經(jīng)CRISPR技術(shù)編輯過的雙胞胎已出生??茖W(xué)將如何回應(yīng)?
研究者調(diào)查數(shù)據(jù)統(tǒng)計
年輕瘦人糖尿病增多
一枚詞語一門靜
绥芬河市| 即墨市| 尖扎县| 巩留县| 开封市| 西和县| 平湖市| 灌阳县| 福泉市| 延安市| 万全县| 乾安县| 长丰县| 富裕县| 新河县| 康保县| 嘉义市| 吉木萨尔县| 翁牛特旗| 乌拉特后旗| 邢台县| 邛崃市| 颍上县| 金华市| 海原县| 柘城县| 广西| 德化县| 屯昌县| 临西县| 石狮市| 儋州市| 出国| 沁水县| 滁州市| 郸城县| 三穗县| 罗平县| 柘城县| 桦川县| 玉门市|