国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

老年話語(yǔ)的計(jì)算機(jī)自動(dòng)文本分析:進(jìn)展與前景

2022-05-13 18:50黃立鶴曲惠宇楊晶晶
語(yǔ)言戰(zhàn)略研究 2022年3期

黃立鶴 曲惠宇 楊晶晶

提 要 使用計(jì)算機(jī)自動(dòng)文本分析來(lái)考察老年人話語(yǔ)產(chǎn)出特征,是智能技術(shù)在老年語(yǔ)言學(xué)領(lǐng)域中應(yīng)用的一個(gè)重要實(shí)例。Coh-Metrix和LIWC是國(guó)內(nèi)外最常用的兩種自動(dòng)文本分析工具,在國(guó)外老年語(yǔ)言學(xué)研究中已被廣泛使用。前者及其衍生工具側(cè)重語(yǔ)篇分析,從語(yǔ)篇結(jié)構(gòu)特征評(píng)估老年人群的話語(yǔ)連貫性、銜接性;后者側(cè)重從詞匯入手進(jìn)行語(yǔ)言心理特征測(cè)量,考察老年人的思維方式、內(nèi)心狀態(tài)及人格特征。兩種工具對(duì)老年失智癥等疾病的早期診斷和評(píng)估具有重要臨床意義。未來(lái)研究應(yīng)關(guān)注自動(dòng)化轉(zhuǎn)錄和切分的可行性,利用此類工具對(duì)失智癥患者進(jìn)行長(zhǎng)期追蹤研究以提高病程判斷的精準(zhǔn)度,進(jìn)一步評(píng)估此類方法能否在臨床上檢測(cè)老年人認(rèn)知水平的變化過(guò)程。我國(guó)應(yīng)加快建設(shè)老年人話語(yǔ)語(yǔ)料庫(kù),同時(shí)開展針對(duì)漢語(yǔ)自動(dòng)文本分析工具的開發(fā)。

關(guān)鍵詞 自動(dòng)文本分析;語(yǔ)篇特征;言語(yǔ)產(chǎn)出障礙;老年語(yǔ)言學(xué)

中圖分類號(hào) H002 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-1014(2022)03-0088-09

DOI 10.19689/j.cnki.cn10-1361/h.20220307

The Application of Computer Automatic Text Analysis in the Study of Gerontolinguistics:

Progress and Prospects

Huang Lihe, Qu Huiyu and Yang Jingjing

Abstract The use of computer automatic text analysis in the study of the elders discourse is an essential application of artificial intelligence in the field of Gerontolinguisitcs. Coh-Metrix and LIWC are two most commonly-used automatic text analysis tools, which have been widely used in the study of Gerontolinguistics abroad. Coh-Metrix evaluates the coherence and cohesion of the elders discourse from the perspective of discourse structure features. LIWC mainly measures the elders vocabulary to investigate their thinking mode, inner state, and personality characteristics. Both tools demonstrate the feasibility of computer-automated text analysis for early diagnosis of dementia with important clinical implications. Future research can focus on the automatic transcription and segmentation, conducting long-term follow-up research on dementia patients to improve the accuracy of diagnosis and early detection of cognitive function changes in clinical trials. This paper also suggests to speed up the construction of a Chinese elders discourse-tagged corpus and develop automatic text analysis tools for the Chinese language.

Keywords automatic text analysis; textual characteristics; speech production disorder; Gerontolinguistics

一、引 言

近年來(lái),隨著全球人口老齡化程度的持續(xù)加深,對(duì)老年人話語(yǔ)產(chǎn)出特征的研究在國(guó)內(nèi)外廣泛開展。與記憶、思維等認(rèn)知過(guò)程相似,人類語(yǔ)言產(chǎn)出能力也會(huì)隨著自然年齡的增長(zhǎng)或疾病侵襲而逐漸衰退(Burke & Shafto 2004)。

與年輕人相比,老年群體有其獨(dú)特的話語(yǔ)產(chǎn)出特征。國(guó)內(nèi)外學(xué)者對(duì)不同年齡段群體進(jìn)行對(duì)比分析后發(fā)現(xiàn),老年人在詞匯提取、詞匯豐富度、句法復(fù)雜度、口語(yǔ)流利性等方面均有不同程度的衰退,具體表現(xiàn)為:(1)詞匯提取困難。在言語(yǔ)產(chǎn)出方面,老年人比年輕人經(jīng)歷更多的“舌尖現(xiàn)象”,即知道自己想要表達(dá)的詞匯,卻不能成功提取詞匯的發(fā)音(Burke et al. 1991;Heine et al. 1999);在書寫產(chǎn)出方面,老年人更容易出現(xiàn)提筆忘字現(xiàn)象(何潔瑩,張清芳2017),在聽寫單詞時(shí)正確率也比年輕人低,尤其是對(duì)高頻單詞的拼寫(MacKay & Abrams 1998);此外,老年人在日常交流溝通中產(chǎn)出句子的精確度和詞匯豐富度都有所下降,具體表現(xiàn)為較少使用情態(tài)助動(dòng)詞以及帶有情態(tài)動(dòng)詞的動(dòng)詞詞組或句法結(jié)構(gòu)(Kynette & Kemper 1986),較少使用“you know”“I mean”等插入語(yǔ)(Kemper & Sumner 2001)。(2)句法復(fù)雜度下降。這一點(diǎn)不僅表現(xiàn)在老年人的口語(yǔ)交際上,在書面表達(dá)上也有所體現(xiàn),如較少產(chǎn)出帶有內(nèi)嵌從句的句子,尤其是帶有左分支嵌入結(jié)構(gòu)的句子(Kemper 1987)。(3)口語(yǔ)流利性下降。隨著年齡的增加,老年人口語(yǔ)中大量出現(xiàn)各種非流利現(xiàn)象,如對(duì)某一內(nèi)容無(wú)意識(shí)地重復(fù)(Sitek et al. 2015)、由于大量使用填塞語(yǔ)造成的非流利性填塞(Nicholas et al. 1985)、無(wú)特定交際目的的大量停頓(Ahmed et al. 2013)等。除了以上3點(diǎn),老年人在語(yǔ)音韻律、句法語(yǔ)義、語(yǔ)用話語(yǔ)等方面也都有顯著特征。語(yǔ)言是揭示認(rèn)知功能的重要指標(biāo)之一,鑒于老年人語(yǔ)言的獨(dú)特性,開展老年人話語(yǔ)產(chǎn)出特征研究可以厘清語(yǔ)言隨年齡及認(rèn)知狀態(tài)的變化情況,有助于認(rèn)知功能障礙等相關(guān)疾病的診斷和預(yù)測(cè),對(duì)延緩語(yǔ)言能力衰退也具有重要意義。

目前,基于人工智能的老年語(yǔ)言學(xué)研究正逐步展開。通過(guò)與老年語(yǔ)言學(xué)研究成果相結(jié)合,人工智能可以幫助實(shí)現(xiàn)相關(guān)疾病的風(fēng)險(xiǎn)預(yù)測(cè)、智能診斷、個(gè)性化治療與智能康復(fù)(黃立鶴2019)。使用計(jì)算機(jī)自動(dòng)文本分析工具研究老年人話語(yǔ)產(chǎn)出特征就是智能技術(shù)在老年語(yǔ)言學(xué)領(lǐng)域中應(yīng)用的一個(gè)重要實(shí)例,相關(guān)研究不僅提高了分析的效率和準(zhǔn)確率,也解決了以往難以從大規(guī)模老年話語(yǔ)中精確提取和分析話語(yǔ)特征的問題,從而可以更科學(xué)、系統(tǒng)地描寫老年人話語(yǔ)產(chǎn)出能力,為人工智能在老年語(yǔ)言學(xué)領(lǐng)域基于老年語(yǔ)言特征的風(fēng)險(xiǎn)預(yù)測(cè)、智能診斷等應(yīng)用提供基礎(chǔ)數(shù)據(jù)。

二、計(jì)算機(jī)自動(dòng)文本分析概述

文本是豐富的資源,不僅可以反映說(shuō)話人的語(yǔ)言能力,也可體現(xiàn)說(shuō)話人的思維方式、內(nèi)心狀態(tài),甚至人格特征(張信勇2015),因此文本分析方法被廣泛應(yīng)用于各個(gè)領(lǐng)域的研究中。早期的文本分析采用人工手段,研究人員根據(jù)研究需要手動(dòng)標(biāo)注文本,但隨著文本數(shù)量的增多和篇幅的增長(zhǎng),這種傳統(tǒng)方式逐漸暴露了其工作量大、耗時(shí)長(zhǎng)、成本高等缺點(diǎn)(Aluísio et al. 2016),阻礙了文本分析在相關(guān)領(lǐng)域的應(yīng)用和發(fā)展。隨著計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算機(jī)自動(dòng)文本分析應(yīng)運(yùn)而生。自動(dòng)文本分析可在有限時(shí)間內(nèi)快速高效地實(shí)現(xiàn)對(duì)復(fù)雜文本信息的解碼和統(tǒng)計(jì),不僅提高了研究效率,還一定程度上避免了人工標(biāo)注誤差,使得研究結(jié)果更具客觀性和科學(xué)性(Toledo et al. 2018),近年來(lái)得到越來(lái)越多學(xué)者的重視,并被廣泛應(yīng)用于語(yǔ)言學(xué)、管理學(xué)、政治學(xué)等學(xué)科。

文本分析法是語(yǔ)言學(xué)常用的研究方法之一,該方法不僅可以從句法、語(yǔ)義、文體等不同方面對(duì)文本進(jìn)行分析研究,也可以與語(yǔ)音學(xué)、語(yǔ)用學(xué)等傳統(tǒng)語(yǔ)言學(xué)領(lǐng)域相結(jié)合,為傳統(tǒng)語(yǔ)言學(xué)研究提供新視角(Stubbs 2005)。在語(yǔ)言學(xué)研究中,該方法既可用于探索不同人群某一語(yǔ)言特征的差異,如Reid(1992)使用自動(dòng)文本分析工具Writers Workbench(WWB)調(diào)查了不同語(yǔ)言背景的演講者在使用銜接手段方面是否具有差異;也可用于探索某一特定語(yǔ)言目的的實(shí)現(xiàn)方式,如對(duì)語(yǔ)篇主題展開特定分析(Gómez-González 1998;Green et al. 2000)。社會(huì)問題也是文本分析關(guān)注的重點(diǎn)之一(Sarangi & Coulthard 2000)。在社會(huì)語(yǔ)言學(xué)研究中,計(jì)算機(jī)自動(dòng)文本分析被廣泛應(yīng)用于政治文本分析、媒體文本分析、性別與身份研究等多個(gè)領(lǐng)域,如Diermeier et al.(2011)使用文本分類算法分析了第101至108屆美國(guó)國(guó)會(huì)期間參議院的立法演講記錄,從中提取最能代表保守派和自由派立場(chǎng)的信息,并預(yù)測(cè)第108屆國(guó)會(huì)參議員的意識(shí)形態(tài)立場(chǎng),準(zhǔn)確率高達(dá)94%??偟膩?lái)看,計(jì)算機(jī)自動(dòng)文本分析在探索與分析語(yǔ)言特征方面有著顯著優(yōu)勢(shì)。

如前所述,老年群體具有獨(dú)特的話語(yǔ)產(chǎn)出特征,計(jì)算機(jī)自動(dòng)文本分析為開展老年人話語(yǔ)產(chǎn)出的句法復(fù)雜度、詞匯豐富度、語(yǔ)篇流利性等方面的研究提供了技術(shù)支持,也為探究老年期的內(nèi)心狀態(tài)和思維方式提供了新的路徑與視角,相關(guān)研究成果可應(yīng)用于老年群體的語(yǔ)言能力評(píng)估、疾病預(yù)測(cè)與診斷,兼具研究意義與臨床價(jià)值。在目前主流的自動(dòng)文本分析工具中,Coh-Metrix和“語(yǔ)言探索與字詞計(jì)數(shù)”軟件Linguistic Inquiry and Word Count(LIWC)應(yīng)用廣泛。前者包含數(shù)百項(xiàng)測(cè)量指標(biāo),可對(duì)文本篇章結(jié)構(gòu)特征進(jìn)行詳細(xì)總結(jié),反映說(shuō)話人的語(yǔ)言運(yùn)用能力;后者從語(yǔ)言的心理特征出發(fā),對(duì)說(shuō)話人的內(nèi)心狀態(tài)、情感特征進(jìn)行分析。本文分別從篇章結(jié)構(gòu)視角和心理測(cè)量視角出發(fā),介紹這兩種工具的特征及其在老年語(yǔ)言研究中的應(yīng)用。

三、篇章結(jié)構(gòu)視角:Coh-Metrix工具

計(jì)算機(jī)自動(dòng)文本分析工具Coh-Metrix由美國(guó)孟菲斯大學(xué)的McNamera等人開發(fā),整合了詞性賦碼器、模式分類器、句法分析器、淺層語(yǔ)義分析器等自然語(yǔ)言處理分析技術(shù)和語(yǔ)篇分析領(lǐng)域的最新理論,可以實(shí)現(xiàn)對(duì)文本的表層和深層特征的自動(dòng)量化(杜慧穎,蔡金亭2013;McNamara et al. 2014)。Coh-Metrix可對(duì)200多項(xiàng)指標(biāo)進(jìn)行分析,涵蓋了指稱銜接、潛在語(yǔ)義分析、詞匯多樣性、情景模式、句法復(fù)雜度等11個(gè)模塊,是一款可從多個(gè)層面進(jìn)行文本分析的計(jì)算語(yǔ)言學(xué)工具(Graesser et al. 2014;江進(jìn)林2016)。

隨著國(guó)內(nèi)外基于Coh-Metrix的研究逐漸增多,該工具應(yīng)用范圍不斷擴(kuò)大,在語(yǔ)言習(xí)得、外語(yǔ)教學(xué)與研究、認(rèn)知語(yǔ)言學(xué)等多個(gè)研究領(lǐng)域均發(fā)揮了作用。例如,在二語(yǔ)寫作領(lǐng)域,Crossley & McNamara(2011)對(duì)中國(guó)香港高中生撰寫的1200篇英語(yǔ)作文分析顯示,詞匯多樣性、詞頻、詞匯意義關(guān)聯(lián)度等指標(biāo)可以預(yù)測(cè)作文質(zhì)量;秦朝霞和顧琦一(2011)對(duì)國(guó)內(nèi)某高校英語(yǔ)學(xué)習(xí)者的204篇英語(yǔ)寫作文本進(jìn)行分析,發(fā)現(xiàn)學(xué)習(xí)者對(duì)作文話題的熟悉程度并不影響其對(duì)連接語(yǔ)的整體使用,但會(huì)對(duì)照應(yīng)類和詞匯重復(fù)類銜接手段的使用產(chǎn)生影響。綜合已有研究發(fā)現(xiàn),Coh-Metrix在二語(yǔ)寫作研究領(lǐng)域的應(yīng)用主要有兩類:一類采用量化比較的方法,將母語(yǔ)為英語(yǔ)的學(xué)生和二語(yǔ)為英語(yǔ)的學(xué)生作為比較對(duì)象,以揭示二語(yǔ)學(xué)習(xí)者英語(yǔ)寫作特點(diǎn)。此類研究多采用Coh-Metrix測(cè)量指標(biāo)中的連接語(yǔ)、照應(yīng)、詞匯重復(fù)等銜接性指標(biāo)進(jìn)行數(shù)據(jù)測(cè)量與分析。另一類是探究Coh-Metrix某些指標(biāo)與寫作文本質(zhì)量的關(guān)系,為二語(yǔ)寫作教學(xué)提供建議與啟示。此類研究多通過(guò)測(cè)量Coh-Metrix的詞頻、詞匯多樣性、詞匯同指關(guān)系等指標(biāo)進(jìn)行文本分析。

目前,Coh-Metrix在老年人話語(yǔ)產(chǎn)出特征研究的應(yīng)用主要致力于阿爾茨海默病、輕度認(rèn)知障礙等疾病的早期診斷,該類研究也激發(fā)了針對(duì)失智癥人群而開發(fā)的Coh-Metrix-Dementia創(chuàng)建與發(fā)展(Cunha 2015)。Coh-Metrix-Dementia利用自然語(yǔ)言處理以及機(jī)器學(xué)習(xí)技術(shù),旨在自動(dòng)檢測(cè)失智癥患者的語(yǔ)言和認(rèn)知衰退狀況,以發(fā)現(xiàn)有助于失智癥診斷的高敏感性語(yǔ)言特征,實(shí)現(xiàn)對(duì)失智癥的自動(dòng)診斷和分類(Cunha 2015;Aluísio et al. 2016)。Coh-Metrix-Dementia在Con-Metrix原有指標(biāo)的基礎(chǔ)上納入了25個(gè)新指標(biāo),涉及非流利性、潛在語(yǔ)義分析、詞匯多樣性、句法復(fù)雜度和語(yǔ)義密度等領(lǐng)域。Aluísio et al.

(2016)從認(rèn)知健康老年人、阿爾茨海默病患者和輕度認(rèn)知障礙患者的敘述性語(yǔ)言測(cè)試中提取了73個(gè)語(yǔ)言特征進(jìn)行分析,考察了Coh-Metrix-Dementia對(duì)這3類老年人群進(jìn)行自動(dòng)分類的能力。為了評(píng)估Coh-Metrix-Dementia指標(biāo)在分類和回歸任務(wù)中的表現(xiàn),該研究分析了上述3類老年人對(duì)灰姑娘故事口頭敘述的轉(zhuǎn)錄文本,共采用7種分類方法和4種回歸方法來(lái)預(yù)測(cè)被試所屬組別,結(jié)果顯示Coh-Metrix-

Dementia成功鑒別3類人群的準(zhǔn)確率達(dá)81.7%,鑒別認(rèn)知健康老年人和輕度認(rèn)知障礙患者的準(zhǔn)確率高達(dá)90%。這些研究表明,Coh-Metrix-Dementia是幫助篩查與診斷老年語(yǔ)言障礙的有效工具。但目前該類研究采用的數(shù)據(jù)集規(guī)模有限,還需要更多的數(shù)據(jù)樣本來(lái)建立穩(wěn)定的回歸或分類模型。

在相關(guān)研究基礎(chǔ)上,Toledo et al.(2018)利用Coh-Metrix-Dementia對(duì)比分析了60名年齡在60歲以上的健康老年人、輕度阿爾茨海默病患者、輕度遺忘型認(rèn)知障礙患者個(gè)人敘述中的語(yǔ)言特征,旨在驗(yàn)證故事敘述任務(wù)是否能夠區(qū)分3類老年人群,并同時(shí)使用定量參數(shù)和定性參數(shù)來(lái)驗(yàn)證3組人群在信息量、整體連貫性等宏觀結(jié)構(gòu)方面的表現(xiàn)。表1列出了Coh-Metrix-Dementia中可提供有關(guān)宏觀結(jié)構(gòu)信息的測(cè)量指標(biāo)。該研究使用SPSS14.0進(jìn)行數(shù)據(jù)分析,運(yùn)用Kruskal-Wallis非參數(shù)檢驗(yàn)比較3類人群在所關(guān)注指標(biāo)方面的表現(xiàn),當(dāng)有顯著性差異時(shí)進(jìn)行Tukey多重比較。結(jié)果表明,輕度阿爾茨海默病患者的整體表現(xiàn)較差,具體表現(xiàn)為信息量更少、整體連貫性和敘事結(jié)構(gòu)更差等。該研究證實(shí)了輕度阿爾茨海默病患者話語(yǔ)宏觀結(jié)構(gòu)的病理性變化,與先前研究的結(jié)論相互印證(Cuetos et al. 2007)。未來(lái)研究還可以從單個(gè)域出發(fā),探究該類人群話語(yǔ)的微觀結(jié)構(gòu)變化。在國(guó)內(nèi),黃立鶴、楊晶晶(2022)利用Coh-Metrix漢語(yǔ)版,分析了母語(yǔ)為漢語(yǔ)的阿爾茨海默病患者的看圖說(shuō)話語(yǔ)料,發(fā)現(xiàn)信息量少、信息密度低、語(yǔ)篇概念相似度高等問題。

研究表明,失智癥引起的認(rèn)知退化可能在首個(gè)認(rèn)知效應(yīng)被察覺之前數(shù)年甚至數(shù)十年就開始了(Sperling et al. 2013),因此尋找能夠及早體現(xiàn)認(rèn)知衰退的語(yǔ)言標(biāo)志物十分重要。Coh-Metrix從篇章結(jié)構(gòu)特征出發(fā),通過(guò)評(píng)估老年人群的話語(yǔ)連貫性、銜接性等特點(diǎn),有望實(shí)現(xiàn)對(duì)失智癥的早期發(fā)現(xiàn)、自動(dòng)診斷與分類,具有臨床意義。

四、心理測(cè)量視角:LIWC工具

LIWC是一款基于心理學(xué)的計(jì)算機(jī)自動(dòng)文本分析工具,主要包括詞典和程序主體兩個(gè)部分,前者定義了詞語(yǔ)歸屬的類別名稱以及字詞列表,后者通過(guò)將文本中的詞語(yǔ)和詞典一一對(duì)比,量化因果詞、情緒詞、認(rèn)知詞等心理詞類以反映人類口頭和書面語(yǔ)言中存在的各種情感、認(rèn)知和結(jié)構(gòu)成分(Pennebaker et al. 2007)。國(guó)內(nèi)已有學(xué)者對(duì)LIWC 2007進(jìn)行了介紹,該版本包含22個(gè)語(yǔ)言性類別、32個(gè)心理特性類別、7個(gè)個(gè)人化類別、3個(gè)副語(yǔ)言學(xué)類別以及12個(gè)標(biāo)點(diǎn)符號(hào)類別,共80個(gè)字詞類別,可用于對(duì)文本情感、心理特征、語(yǔ)言流利度等的綜合考察(張信勇2015)。目前,LIWC已經(jīng)更新到LIWC-22版本,最新版本在原有版本的基礎(chǔ)上增加了輔助處理模塊,包含構(gòu)建詞典、可視化記錄詞頻詞云和主題模型等8種功能(Boyd et al. 2022),方便研究者對(duì)多個(gè)文本文件進(jìn)行高效處理。

作為一個(gè)測(cè)量語(yǔ)言心理特征的工具,LIWC在心理學(xué)領(lǐng)域應(yīng)用廣泛。例如,Rude et al.(2004)使用LIWC 2001對(duì)目前、曾經(jīng)及從未處于抑郁狀態(tài)3類大學(xué)生群體的作文進(jìn)行了語(yǔ)言差異檢查,針對(duì)作文中出現(xiàn)的單數(shù)第一人稱代詞、復(fù)數(shù)第一人稱代詞、社會(huì)關(guān)系(如對(duì)朋友、家人等的提及)等語(yǔ)言特征展開測(cè)量分析。結(jié)果發(fā)現(xiàn),相比從未處于抑郁狀態(tài)的被試,有抑郁經(jīng)歷者更多地使用負(fù)面情感詞;更多地使用單數(shù)第一人稱代詞,表明該類人群更傾向于關(guān)注自身;代詞的使用與社會(huì)關(guān)系的質(zhì)量也與抑郁狀態(tài)相關(guān)。Simmons et al.(2008)調(diào)查分析了98名強(qiáng)迫癥或急性焦慮癥且伴有恐懼癥的門診患者,利用LIWC對(duì)患者與其主要親屬互動(dòng)過(guò)程的錄音以及對(duì)其親屬進(jìn)行的半結(jié)構(gòu)式訪談錄音材料進(jìn)行文本分析,主要測(cè)量指標(biāo)包括單數(shù)第一人稱代詞、第二人稱代詞、單數(shù)第三人稱代詞等。結(jié)果表明,第二人稱代詞的使用可以預(yù)測(cè)不良親密關(guān)系。除此之外,LIWC在分析語(yǔ)詞特征與思維過(guò)程、情緒情感、社會(huì)關(guān)系等的研究中也被廣泛應(yīng)用(張信勇2015)。LIWC在心理學(xué)研究領(lǐng)域的應(yīng)用,有力證實(shí)了文本分析是探索人類心理機(jī)制的有效方法,也說(shuō)明LIWC工具可以為探索老年人心理認(rèn)知過(guò)程提供路徑。

與在其他領(lǐng)域的應(yīng)用類似,LIWC在老年人話語(yǔ)產(chǎn)出特征研究中使用的測(cè)量指標(biāo)需根據(jù)研究目的而定。該工具主要被用于探究健康老年人和特殊老年群體的語(yǔ)言特征,以及診斷檢測(cè)阿爾茨海默病和輕度認(rèn)知障礙等疾病。

(一)探究個(gè)體正常衰老過(guò)程中的話語(yǔ)特征

Pennebaker & Stone(2003)利用LIWC中的過(guò)去時(shí)動(dòng)詞、將來(lái)時(shí)動(dòng)詞、因果關(guān)系詞等14個(gè)與人格和衰老有關(guān)的測(cè)量指標(biāo),使用共時(shí)文本和歷時(shí)文本,分兩個(gè)項(xiàng)目橫向和縱向探索了語(yǔ)言使用與衰老之間的關(guān)系。第一個(gè)項(xiàng)目使用的共時(shí)文本是來(lái)自3個(gè)國(guó)家的3000多名被試對(duì)生活中情感經(jīng)歷的書面或口頭敘述,第二個(gè)項(xiàng)目的歷時(shí)文本來(lái)自過(guò)去500年中10位著名小說(shuō)家、劇作家或詩(shī)人的作品。研究基于相關(guān)分析和方差分析兩種統(tǒng)計(jì)方法來(lái)探究語(yǔ)言特征(包括線性和曲線變化)隨被試年齡變化的程度。兩項(xiàng)研究都表明,隨著年齡的增長(zhǎng),人們使用積極情感詞和使用未來(lái)時(shí)態(tài)的頻率增高,使用消極情感詞、自我指稱以及過(guò)去時(shí)動(dòng)詞的頻率降低,并表現(xiàn)出認(rèn)知復(fù)雜性增加的一般模式。這說(shuō)明對(duì)語(yǔ)言使用情況的分析可以代替現(xiàn)在普遍使用的用自我報(bào)告來(lái)揭示人格和發(fā)展過(guò)程的方法,對(duì)心理學(xué)領(lǐng)域的相關(guān)研究具有啟示意義。

(二)探究特殊老年群體的話語(yǔ)產(chǎn)出特征

Shibata et al.(2016)通過(guò)LIWC調(diào)查分析了母語(yǔ)為日語(yǔ)的阿爾茨海默病患者口語(yǔ)單詞的特征。18名被試根據(jù)簡(jiǎn)易精神狀態(tài)檢查量表(Mini-Mental State Examination,MMSE)的測(cè)試分?jǐn)?shù)被分為健康對(duì)照組(測(cè)試分?jǐn)?shù)為22分及以上的被試)和阿爾茨海默病組(測(cè)試分?jǐn)?shù)為21分及以下的被試),研究對(duì)被試與醫(yī)務(wù)人員之間的對(duì)話進(jìn)行了文本分析。由于LIWC當(dāng)時(shí)只適用于英語(yǔ)語(yǔ)種,該研究通過(guò)翻譯英語(yǔ)LIWC來(lái)制作日語(yǔ)LIWC,刪除了與目標(biāo)疾病無(wú)關(guān)以及不可翻譯為日語(yǔ)的單詞種類,最終提取了22種與疾病相關(guān)的單詞類別作為測(cè)量指標(biāo)。結(jié)果顯示,與健康被試相比,患有阿爾茨海默病的被試對(duì)非人稱代詞的使用更加頻繁。該研究證明了LIWC在阿爾茨海默病患者等特殊老年群體話語(yǔ)產(chǎn)出特征研究上的適用性。

(三)探究失智癥老年患者的語(yǔ)言心理特征

一些研究表明,神經(jīng)退行性疾病患者可能出現(xiàn)焦慮、抑郁、情感淡漠等情緒癥狀(Levenson et al. 2014),對(duì)與語(yǔ)言產(chǎn)出相關(guān)的神經(jīng)認(rèn)知系統(tǒng)產(chǎn)生影響,如工作記憶、語(yǔ)音回路、發(fā)音模式、詞匯選擇等(Cummins et al. 2015),這為臨床上通過(guò)語(yǔ)言特征鑒別患者提供了可能。Asgari et al.(2017)利用LIWC對(duì)14名患有輕度認(rèn)知障礙的被試和27名具有完整認(rèn)知能力的被試臨床試驗(yàn)中非結(jié)構(gòu)化對(duì)話進(jìn)行分析,以期通過(guò)老年人話語(yǔ)內(nèi)容區(qū)分輕度認(rèn)知障礙患者和認(rèn)知健康老年人。研究采用了支持向量機(jī)(Support Vector Machine,SVM)和隨機(jī)森林分類器(Random Forest Classifier,RFC)兩種機(jī)器學(xué)習(xí)算法來(lái)訓(xùn)練統(tǒng)計(jì)模型以區(qū)分兩類被試,并使用了五折交叉驗(yàn)證方案來(lái)檢驗(yàn)實(shí)驗(yàn)結(jié)果獨(dú)立于研究數(shù)據(jù)集的能力。結(jié)果表明,使用LIWC獲得的語(yǔ)言特征可以有效區(qū)分輕度認(rèn)知障礙患者與健康老年人群,準(zhǔn)確率達(dá)84%。研究還發(fā)現(xiàn),與LIWC單詞詞典中的其他類別相比,從屬于“相對(duì)性”類別的單詞子類別中提取的語(yǔ)言特征明顯更易發(fā)現(xiàn)輕度認(rèn)知障礙診斷的線索。Shibata et al.(2016)和Asgari et al.(2017)的研究都有力說(shuō)明了對(duì)口語(yǔ)的語(yǔ)言心理特征分析可能是早期檢測(cè)與診斷阿爾茨海默病和輕度認(rèn)知障礙等失智癥的有效途徑。

總的來(lái)說(shuō),LIWC工具在老年人話語(yǔ)產(chǎn)出特征及老年語(yǔ)言學(xué)研究中的應(yīng)用,有利于通過(guò)對(duì)語(yǔ)言特征的分析來(lái)揭示健康老年人以及特定老年人群的內(nèi)心狀態(tài)和心理特征,從該視角幫助阿爾茨海默病等老年疾病的評(píng)估和診斷。

五、結(jié) 語(yǔ)

計(jì)算機(jī)自動(dòng)文本分析是一種可以識(shí)別個(gè)體早期語(yǔ)言障礙疾病的有效工具,且與傳統(tǒng)的人工手動(dòng)分析相比,該類方法更具客觀性、準(zhǔn)確性和高效性。本文介紹了Coh-Metrix和LIWC兩種自動(dòng)文本分析工具的特點(diǎn)、作用及其在老年人話語(yǔ)產(chǎn)出特征研究中的應(yīng)用。Coh-Metrix通過(guò)詞匯多樣性、句法復(fù)雜度等指標(biāo)測(cè)量文本的銜接性、連貫性,從篇章結(jié)構(gòu)的角度反映老年人的語(yǔ)言能力;LIWC基于心理學(xué),通過(guò)文本單詞歸類分析考察老年人的思維方式、內(nèi)心狀態(tài)及人格特征。兩種工具從文本的不同方面入手,前者側(cè)重語(yǔ)篇,后者側(cè)重詞匯。二者的研究視角也有所不同,前者從語(yǔ)篇結(jié)構(gòu)視角出發(fā),著眼于文本的語(yǔ)言產(chǎn)出特征;后者從心理測(cè)量視角出發(fā),著眼于文本的語(yǔ)言心理特征。雖然側(cè)重不同,但二者在老年人話語(yǔ)產(chǎn)出特征研究及老年語(yǔ)言學(xué)研究的應(yīng)用,體現(xiàn)出利用計(jì)算機(jī)自動(dòng)文本分析工具對(duì)失智癥進(jìn)行早期診斷和評(píng)估的可行性,在老年認(rèn)知健康日益受到重視的今天具有重要的臨床意義。

然而,兩種工具目前尚存在不足,如LIWC在分析文本時(shí)沒有充分考慮單詞所在的語(yǔ)境,可能對(duì)反諷、隱喻等修辭的分析存在偏差;自動(dòng)文本分析前需要人工轉(zhuǎn)錄話語(yǔ)內(nèi)容、手動(dòng)切分編輯句子,耗費(fèi)較多的時(shí)間與精力。未來(lái)研究可以從多方面入手,進(jìn)一步推動(dòng)計(jì)算機(jī)自動(dòng)文本分析在老年人話語(yǔ)產(chǎn)出特征研究及老年語(yǔ)言學(xué)研究領(lǐng)域的應(yīng)用。首先,可以探索自動(dòng)化轉(zhuǎn)錄和切分的可行性,在加快分析進(jìn)程的同時(shí)也能消除手動(dòng)注釋造成的研究誤差。目前,已有面向漢語(yǔ)的分詞與標(biāo)注工具問世(如百度LAC等),未來(lái)可考慮將這一算法功能納入分析程序。其次,目前研究多集中于利用計(jì)算機(jī)自動(dòng)文本分析工具對(duì)語(yǔ)言本文的分析來(lái)鑒別和診斷失智癥,今后可進(jìn)一步嘗試?yán)么斯ぞ呖疾炖夏耆嘶蚴е前Y患者語(yǔ)言能力隨年齡或病程發(fā)展的動(dòng)態(tài)變化,從而提高對(duì)患病程度判斷的精準(zhǔn)度。同時(shí),未來(lái)研究可面向更大規(guī)模和多樣化的老年隊(duì)列,尤其是應(yīng)用于臨床實(shí)踐,結(jié)合老年人的年齡、性別、教育程度和失智癥家族史等人口統(tǒng)計(jì)學(xué)信息來(lái)調(diào)整預(yù)測(cè)參數(shù),提高篩查準(zhǔn)確性,并和老年人其他神經(jīng)心理測(cè)評(píng)結(jié)果相結(jié)合來(lái)探討與語(yǔ)言能力相關(guān)的認(rèn)知基礎(chǔ)。此外,目前相關(guān)研究中鮮有以母語(yǔ)為漢語(yǔ)的研究對(duì)象,這可能與LIWC等自動(dòng)文本分析工具尚無(wú)法與漢語(yǔ)匹配有關(guān),因此未來(lái)研究可以從兩方面入手:一方面加快建設(shè)中國(guó)老年人話語(yǔ)語(yǔ)料庫(kù),為我國(guó)老年群體話語(yǔ)產(chǎn)出特征研究及其他相關(guān)研究提供語(yǔ)料基礎(chǔ),建設(shè)時(shí)可對(duì)標(biāo)國(guó)外已有的DementiaBank等共享數(shù)據(jù)庫(kù);另一方面,要充分利用中國(guó)老年人話語(yǔ)語(yǔ)料庫(kù),開展針對(duì)漢語(yǔ)的自動(dòng)文本分析工具的開發(fā),或?qū)oh-Metrix等現(xiàn)有工具進(jìn)行后續(xù)優(yōu)化等,加強(qiáng)對(duì)以母語(yǔ)為漢語(yǔ)的老年群體話語(yǔ)產(chǎn)出特征的定量研究及定性定量相結(jié)合的研究。

參考文獻(xiàn)

杜慧穎,蔡金亭 2013 《基于Coh-Metrix的中國(guó)英語(yǔ)學(xué)習(xí)者議論文寫作質(zhì)量預(yù)測(cè)模型研究》,《現(xiàn)代外語(yǔ)》第3期。

何潔瑩,張清芳 2017 《老年人書寫產(chǎn)生中詞匯頻率和音節(jié)頻率效應(yīng)的時(shí)間進(jìn)程:ERP研究》,《心理學(xué)報(bào)》第12期。

黃立鶴 2019 《充分利用人工智能推進(jìn)老年語(yǔ)言學(xué)研究》,《中國(guó)社會(huì)科學(xué)報(bào)》3月5日第003版。

黃立鶴,楊晶晶 2022 《基于Coh-Metrix的漢語(yǔ)阿爾茨海默病患者語(yǔ)篇語(yǔ)用障礙分析》,《語(yǔ)言文字應(yīng)用》第1期。

江進(jìn)林 2016 《Coh-Metrix工具在外語(yǔ)教學(xué)與研究中的應(yīng)用》,《中國(guó)外語(yǔ)》第5期。

秦朝霞,顧琦一 2011 《寫作話題熟悉度與國(guó)內(nèi)習(xí)作者書面語(yǔ)語(yǔ)篇銜接手段運(yùn)用——基于一種自動(dòng)測(cè)量方法的對(duì)比研究》,《西安外國(guó)語(yǔ)大學(xué)學(xué)報(bào)》第1期。

張信勇 2015 《LIWC:一種基于語(yǔ)詞計(jì)量的文本分析工具》,《西南民族大學(xué)學(xué)報(bào)》第4期。

Ahmed, S., A.-M. F. Haigh, C. de Jager, et al. 2013. Connected speech as a marker of disease progression in autopsy-proven Alzheimers disease. Brain 136(12), 3727–3737.

Aluísio, S., A. Cunha & C. Scarton. 2016. Evaluating progression of Alzheimers disease by regression and classification methods in a narrative language test in Portuguese. The 12th International Conference on Computational Processing of the Portuguese Language, July 13–15, Tomar.

Asgari, M., J. Kay & H. Dodge. 2017. Predicting mild cognitive impairment from spontaneous spoken utterances. Alzheimers &

Dementia: Translational Research & Clinical Interventions 3(2), 219–228.

Boyd, R. L., A. Ashokkumar, S. Seraj, et al. 2022. The development and psychometric properties of LIWC-22. Austin, TX:

University of Texas at Austin.

Burke, D. M. & M. A. Shafto. 2004. Aging and language production. Current Directions in Psychological Science 13(1), 21–24.

Burke, D. M., D. G. MacKay, J. S. Worthley, et al. 1991. On the tip of the tongue: What causes word finding failures in young and older adults. Journal of Memory and Language 30(5), 542–579.

Crossley, S. A. & D. S. McNamara. 2011. Understanding expert ratings of essay quality: Coh-Metrix analyses of first and second language writing. International Journal of Continuing Engineering Education and Life Long Learning 21(2–3), 170–191.

Cuetos, F., J. C. Arango-Lasprilla, C. Uribe, et al. 2007. Linguistic changes in verbal expression: A preclinical marker of Alzheimers disease. Journal of the International Neuropsychological Society 13(3), 433–439.

Cummins, N., S. Scherer, J. Krajewski, et al. 2015. A review of depression and suicide risk assessment using speech analysis. Speech Communication 71, 10–49.

Cunha, A. L. V. D. 2015. Coh-Metrix-Dementia: Análise Automática de Distúrbios de Linguagem nas Demências Utilizando Processamento de Línguas Naturais. Doctoral dissertation, Universidade de S?o Paulo.

Diermeier, D., J.-F. Godbout, B. Yu, et al. 2011. Language and ideology in congress. British Journal of Political Science 42(1), 31–55.

Gómez-González, M. A. 1998. A corpus-based analysis of extended multiple themes in PresE. International Journal of Corpus Linguistics 3(1), 81–113.

Graesser, A. C., D. S. McNamara, Z. Cai, et al. 2014. Coh-Metrix measures text characteristics at multiple levels of language and discourse. The Elementary School Journal 115(2), 210–229.

Green, C. F., E. R. Christopher & J. L. K. Mei. 2000. The incidence and effects on coherence of marked themes in interlanguage texts: A corpus-based enquiry. English for Specific Purposes 19(2), 99–113.

Heine, M. K., B. A. Ober & G. K. Shenaut. 1999. Naturally occurring and experimentally induced tip-of-the-tongue experiences in three adult age groups. Psychology and Aging 14(3), 445–457.

Igarashi, T., S. Okuda & K. Sasahara. 2021. Development of the Japanese version of the linguistic inquiry and word count

dictionary 2015 (J-LIWC 2015). Frontiers in Psychology 665.

Kemper, S. 1987. Life-Span changes in syntactic complexity. Journal of Gerontology 42(3), 323–328.

Kemper, S. & A. Sumner. 2001. The structure of verbal abilities in young and older adults. Psychology & Aging 16(2), 312–322.

Kynette, D. & S. Kemper. 1986. Aging and the loss of grammatical forms: A cross-sectional study of language performance. Language & Communication 6(1–2), 65–72.

Levenson, R. W., V. E. Sturm & C. M. Haase. 2014. Emotional and behavioral symptoms in neurodegenerative disease: A model for studying the neural bases of psychopathology. Annual Review of Clinical Psychology 10, 581–606.

MacKay, D. G. & L. Abrams. 1998. Age-Linked declines in retrieving orthographic knowledge: Empirical, practical, and theoretical implications. Psychology and Aging 13(4), 647–662.

McNamara, D. S., A. C. Graesser, P. M. McCarthy, et al. 2014. Automated Evaluation of Text and Discourse with Coh-Metrix. New York: Cambridge University Press.

Nicholas, M., L. K. Obler, M. L. Albert, et al. 1985. Empty speech in Alzheimers disease and fluent aphasia. Journal of Speech, Language and Hearing Research 28(3), 405–410.

Pennebaker, J. W. & L. D. Stone. 2003. Words of wisdom: Language use over the life span. Journal of Personality & Social Psychology 85(2), 291–301.

Pennebaker, J. W., C. K. Chung, M. E. Ireland, et al. 2007. The development and psychometric properties of LIWC 2007.

Retrieved from http://www.liwc.net/LIWC2007LanguageManual.pdf.

Reid, J. 1992. A computer text analysis of four cohesion devices in English discourse by native and nonnative writers. Journal of Second Language Writing 1(2), 79–107.

Rude, S., E.-M. Gortner & J. W. Pennebaker. 2004. Language use of depressed and depression-vulnerable college students. Cognition & Emotion 18(8), 1121–1133.

Sarangi, S. & M. Coulthard. 2000. Discourse and Social Life. London: Longman.

Shibata, D., S. Wakamiya, E. Aramaki, et al. 2016. Detecting Japanese patients with Alzheimers disease based on word category frequencies. Proceedings of the Clinical Natural Language Processing Workshop, 78–85.

Simmons, R. A., D. L. Chambless & P. C. Gordon. 2008. How do hostile and emotionally overinvolved relatives view relationships? What relatives pronoun use tells us. Family Process 47(3), 405–419.

Sitek, E. J., K. Kluj-Koz?owska, A. Barczak, et al. 2015. Overlapping and distinguishing features of descriptive speech in Richardson variant of progressive supra-nuclear palsy and non-fluent progressive aphasia. Post?py Psychiatrii i Neurologii 24(2), 62–67.

Sperling, R. A., J. Karlawish & K. A. Johnson. 2013. Preclinical Alzheimer disease-the challenges ahead. Nature Reviews Neurology 9(1), 54–58.

Stubbs, M. 2005. Computer-Assisted text and corpus analysis: Lexical cohesion and communicative competence. In D. Schiffrin et al. (Eds.), The Handbook of Discourse Analysis. New Jersey: Wiley-Blackwell Publishers Ltd Hoboken.

Toledo, C. M., S. M. Aluísio, L. B. Santos, et al. 2018. Analysis of macrolinguistic aspects of narratives from individuals with Alzheimers disease, mild cognitive impairment, and no cognitive impairment. Alzheimers & Dementia: Diagnosis, Assessment & Disease Monitoring 10, 31–40.

責(zé)任編輯:韓 暢

长子县| 遂溪县| 鄄城县| 新郑市| 徐汇区| 乌苏市| 屯昌县| 宜黄县| 大石桥市| 忻州市| 平武县| 嘉定区| 武穴市| 台南市| 铜山县| 柘城县| 蕲春县| 成武县| 荆州市| 濉溪县| 龙井市| 唐海县| 武山县| 白沙| 安多县| 三门峡市| 包头市| 宁强县| 会昌县| 屏东市| 东明县| 元氏县| 福安市| 奎屯市| 宝清县| 清远市| 阿合奇县| 郸城县| 丰顺县| 潢川县| 合肥市|