国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

詞匯語義變化與社會(huì)變遷定量觀測(cè)與分析

2016-05-30 10:48:04劉知遠(yuǎn)劉揚(yáng)涂存超孫茂松
語言戰(zhàn)略研究 2016年6期
關(guān)鍵詞:社會(huì)變遷

劉知遠(yuǎn)?劉揚(yáng)?涂存超?孫茂松

提 要 隨著社會(huì)的發(fā)展和科技的進(jìn)步,人們交流的內(nèi)容與方式發(fā)生著翻天覆地的變化,交流所使用的詞匯和語義也發(fā)生了顯著變化。在過去的研究中,研究者主要通過詞匯的使用頻度變化來觀測(cè)和分析詞匯語義的變遷,取得了很多重要發(fā)現(xiàn)。但是這些詞頻統(tǒng)計(jì)方法無法考慮詞匯的語義內(nèi)涵。為了更精確地捕獲詞匯語義變化及其反映的社會(huì)變遷,我們利用分布式詞表示方法,提出將詞匯的多個(gè)詞義用不同的低維向量表示。利用該方法,研究者可以根據(jù)詞義使用頻度的變化情況,定量觀測(cè)與分析詞義變化與社會(huì)變遷。這將為語言演化、社會(huì)語言學(xué)乃至語言規(guī)劃研究提供重要量化工具。

關(guān)鍵詞 詞匯語義;社會(huì)變遷;時(shí)序信息;分布式表示;詞向量

Abstract With social and technological developments, the contents and means of human communication have undergone tremendous changes, which, in turn, lead to the evolution of word forms and their meanings in human language. In literature, much scholarship has been devoted to the semantic dynamics of words from the perspective of usage frequency, yet this frequency-based method cannot explain clearly the lexical-semantic change due to its failure to cover word senses. In this paper, a large-scale Chinese newspaper text corpus is employed and the distributed representations of some words and their senses are elicited in order to observe the diachronic evolvement of word semantics. The semantic change of the words in the timeline suggests that the distributional method proposed in this paper is effective for the exploration of lexical semantic dynamics. The implication of this study is that the corpus-based distributional method can become a useful tool for studies in other fields, such as language evolution, sociolinguistics and language planning.

Key words lexical semantics; social change; temporal information; distributed representation; word representation

一、研究背景

詞匯語義變化是指隨著時(shí)間發(fā)展,一個(gè)詞的使用方式發(fā)生了較大程度的變化(Traugott & Dasher 2001)。當(dāng)時(shí)間跨度較大時(shí),詞匯語義變化現(xiàn)象尤其顯著。詞匯語義變化是一種非常普遍的現(xiàn)象,與人類進(jìn)步與社會(huì)發(fā)展等有密切聯(lián)系,是認(rèn)知語言學(xué)和社會(huì)語言學(xué)等學(xué)科的重要研究課題。

研究詞匯語義變化的方法之一是觀測(cè)使用詞頻隨時(shí)間變化的情況(Michel et al. 2011),有很多重要發(fā)現(xiàn),特別是在語言演化和人類文化研究等方面(具體介紹見第二部分)。但是,基于詞頻的方法無法考察詞匯的不同詞義,也無法考察詞匯之間的語義關(guān)聯(lián),從而極大地限制了利用這類方法探索詞匯語義變化的深度與精度。

近年來隨著深度學(xué)習(xí)的發(fā)展,分布式表示成為自然語言語義表示的新興技術(shù)。該表示技術(shù)通過機(jī)器學(xué)習(xí)技術(shù),自動(dòng)學(xué)習(xí)語義空間,并將語言對(duì)象(如詞匯、短語、句子等)表示為該空間中的一個(gè)稠密、實(shí)值的低維向量(一般只有幾百維)。語言對(duì)象在該語義空間中的相對(duì)距離代表它們之間的語義關(guān)聯(lián)度。以面向詞匯的分布式表示為例,如果兩個(gè)詞語的語義越相近,那么它們?cè)谠撜Z義空間中對(duì)應(yīng)的詞向量夾角(即余弦相似度)就越小。由于該技術(shù)能夠有效緩解大規(guī)模文本中的數(shù)據(jù)稀疏問題,因此在很多自然語言處理任務(wù)中取得了顯著效果。

在面向詞匯的分布式表示學(xué)習(xí)模型中,目前最流行的是Mikolov等(2013)推出的word2vec。該模型能夠從大規(guī)模文本數(shù)據(jù)中為每個(gè)詞自動(dòng)學(xué)習(xí)低維向量表示,我們將在第三部分介紹該模型的基本思想。但是word2vec模型默認(rèn)只能為每個(gè)詞學(xué)習(xí)一個(gè)向量,無法處理一詞多義的情況。因此,有學(xué)者提出為詞匯的每個(gè)詞義學(xué)習(xí)單獨(dú)的表示向量,并能夠?yàn)槲谋局忻總€(gè)詞自動(dòng)分配最適合的詞義向量。

綜合上述詞匯和詞義分布式表示學(xué)習(xí)的優(yōu)勢(shì),本文為每個(gè)詞語的不同詞義學(xué)習(xí)表示向量,通過觀測(cè)該詞語不同詞義的使用概率分布的變化情況,研究詞匯語義變化現(xiàn)象,并探索該現(xiàn)象與社會(huì)變遷的關(guān)系。

詞匯是人類語言中負(fù)載信息的基本單位,考察文本大數(shù)據(jù)中詞匯及其詞義的時(shí)空變化模式,對(duì)于語言演化研究具有重要意義。相關(guān)分析結(jié)果也將為語言政策與語言規(guī)劃工作(陳章太 2005;劉海濤 2007),如詞典編纂、語音規(guī)范、術(shù)語翻譯等,提供重要的量化依據(jù)。

二、詞匯語義變化的相關(guān)工作

利用詞匯使用在時(shí)空中的變化情況開展社會(huì)學(xué)研究工作,在國內(nèi)外都不鮮見。例如,金觀濤和劉青峰(2009)整理近代文獻(xiàn)數(shù)據(jù)庫,分析其中特定詞匯的使用頻度的變化情況,探討了中國現(xiàn)代重要政治術(shù)語的形成,被公認(rèn)為思想史研究的重要流派。近年來,哈佛大學(xué)研究團(tuán)隊(duì)提出“文化組學(xué)”①(Culturomics)的學(xué)術(shù)思想,利用Google Books收集的1800年到2000年間的500萬種出版物,通過觀測(cè)關(guān)鍵詞使用頻度隨時(shí)間的變化,研究人類文化演進(jìn)的模式與特點(diǎn),取得很多突破性成果(Aiden & Michel 2013;Michel et al. 2011)。例如他們發(fā)現(xiàn),在過去幾百年里英語中越來越多的不規(guī)則變化動(dòng)詞轉(zhuǎn)化成了規(guī)則變化動(dòng)詞(Lieberman et al. 2007)。再如,他們通過觀測(cè)歷年來使用“The United States is”和“The United States are”的頻度變化,發(fā)現(xiàn)在南北戰(zhàn)爭(zhēng)后美國才逐漸被作為統(tǒng)一國家的概念為人們所接受(Aiden & Michel 2013)??梢姡嫦蛭谋敬髷?shù)據(jù)詞匯使用的定量分析,為社會(huì)科學(xué)研究提供了全新的視角。

新詞語產(chǎn)生后會(huì)隨著交流中的應(yīng)用而廣泛傳播和演化。其流行程度和形式會(huì)隨著時(shí)間而演化,出現(xiàn)爆發(fā)和變形。不同新詞語的爆發(fā)程度和變形情況可能會(huì)受到不同因素的影響。同時(shí),新詞語使用者的社交網(wǎng)絡(luò)往往受到地域限制,新詞語的傳播也會(huì)反映在地理位置的擴(kuò)散上:一個(gè)新詞可能會(huì)首先在某個(gè)地域流行,然后逐漸擴(kuò)散到全國甚至全世界。

在線社會(huì)媒體的興起與廣泛應(yīng)用,為研究者提供了詞匯使用時(shí)空變化定量分析的重要平臺(tái)。探索詞匯的時(shí)空傳播與演化具有重要研究意義。斯坦福大學(xué)Leskovec等(2009)從不同來源收集了約9000萬篇新聞文章,利用引號(hào)從新聞中自動(dòng)抽取流行語句,建立MemeTracker系統(tǒng)跟蹤這些語句的使用頻度隨時(shí)間變化的情況,能夠及時(shí)、有效地把握美國政治、經(jīng)濟(jì)和文化生活的熱點(diǎn)信息。例如,作者提到“you can put lipstick on a pig”,是2008年美國總統(tǒng)大選中奧巴馬諷刺競(jìng)選對(duì)手時(shí)引用的諺語,全句是“你就算給豬涂上口紅,它也還是只豬”,在民眾中引起廣泛爭(zhēng)議,也讓最早出現(xiàn)于20世紀(jì)20年代的這條諺語重新流行起來,一時(shí)間成為美國民眾很愛使用的諺語。作者還進(jìn)一步使用聚類算法研究這些流行語擴(kuò)散的時(shí)序特征,總結(jié)出六種時(shí)序類型(Yang & Leskovec 2011),這對(duì)探索詞匯語義傳播模式具有重要啟發(fā)意義。

以上研究主要針對(duì)流行語使用和擴(kuò)散的時(shí)序變化開展研究。由于不同地域在文化風(fēng)俗、地標(biāo)建筑和方言俗語等方面有顯著差別,詞匯使用也有明顯的地域特色。因此,很多學(xué)者聚焦于定量分析詞匯與地域的關(guān)系。例如,Eisenstein等(2010)發(fā)現(xiàn),同樣的話題在不同地域會(huì)以不同的方式提出和討論,為了探索詞匯與使用者所處地域的關(guān)系,他們建立級(jí)聯(lián)模型來分析詞匯變化是如何受到話題和地域的雙重影響的。他們還把地理空間按照語言學(xué)意義的群體進(jìn)行劃分,能夠成功地通過所用詞匯來預(yù)測(cè)用戶的地域信息,驗(yàn)證了兩者的關(guān)聯(lián)關(guān)系。

詞匯語義變化是語言演化的典型現(xiàn)象。許多研究者通過觀測(cè)與指定詞匯共同出現(xiàn)的其他詞匯的頻度變化來探索詞匯語義變化,考察社會(huì)學(xué)現(xiàn)象與規(guī)律(Bamman & Crane 2011;Wijaya & Yeniterzi 2011;Mihalcea & Nastase 2012)。也有研究者將指定詞分解為若干詞義,通過觀測(cè)這些詞義的使用頻度變化來探索詞匯語義變化。例如,“蘋果”有兩個(gè)典型詞義,分別是“水果”和“蘋果公司”,1990年“水果”詞義所占的比例較高,而進(jìn)入2000年后“蘋果公司”詞義開始占據(jù)更高比例,這反映了“蘋果”這個(gè)詞從傳統(tǒng)的指稱“水果”到指稱“IT公司”的語義遷移。由于第二種方式更符合人們對(duì)于語言演化的直觀認(rèn)知,本文選擇該方式開展詞匯語義變化研究。

三、分布式詞匯和詞義表示學(xué)習(xí)模型

傳統(tǒng)的自然語言處理和信息檢索一般采用與詞表規(guī)模相同的向量表示詞匯,每個(gè)詞對(duì)應(yīng)的向量中只有一個(gè)位置值非零,因此被稱為獨(dú)熱表示(one-hot representation)。為了區(qū)分不同的詞語,詞與詞的非零位置均不同。這種表示方案簡(jiǎn)單有效,但是忽略了詞匯之間固有的語義相關(guān)信息,而且在處理大規(guī)模文本時(shí)面臨嚴(yán)重的數(shù)據(jù)稀疏問題。

為了解決獨(dú)熱表示的缺陷,隨著深度學(xué)習(xí)技術(shù)的興起,有學(xué)者提出分布式詞匯表示模型,將詞匯語義信息表示為稠密、實(shí)值的低維向量,詞義越相近的詞語,它們向量的余弦距離越近。Bengio等(2003)提出基于人工神經(jīng)網(wǎng)絡(luò)的語言模型,利用文本中前N-1個(gè)詞的向量預(yù)測(cè)第N個(gè)詞的向量③,是較早的分布式詞表示的成功嘗試。

后來,Mikolov等(2013)提出CBOW和Skip-

Gram兩個(gè)簡(jiǎn)單高效的分布式詞匯表示學(xué)習(xí)模型,并推出word2vec工具,引起學(xué)術(shù)界與產(chǎn)業(yè)界的廣泛關(guān)注。以Skip-Gram模型(簡(jiǎn)寫作SG)為例,該模型旨在用文本序列{w1, w2, … ,wT}中每個(gè)詞的向量(wt)預(yù)測(cè)該詞上下文詞的向量(wt+j),通過最大化全局預(yù)測(cè)概率來學(xué)習(xí)詞向量:

由于word2vec中的詞匯表示學(xué)習(xí)模型取消了非線性操作,并且不考慮文本中的詞語順序,因此極大地提升了訓(xùn)練效率。

雖然SG等模型獲得廣泛應(yīng)用,但它們均只用一個(gè)向量表示一個(gè)詞語,沒有考慮一詞多義現(xiàn)象(Navigli 2009),極大地限制了應(yīng)用空間。因此有學(xué)者提出各種詞義表示學(xué)習(xí)模型(Reisinger & Mooney 2010;Tian et al. 2014;Chen et al. 2014),為每個(gè)詞的不同詞義建立不同的表示向量。這些模型可以根據(jù)詞語出現(xiàn)的具體上下文選擇某個(gè)特定的詞義,并用該詞義的向量與上下文詞向量建立預(yù)測(cè)關(guān)系。我們將基于這類詞義表示學(xué)習(xí)模型,在歷時(shí)文本數(shù)據(jù)集合上學(xué)習(xí)時(shí)序敏感的詞義表示。

在歷時(shí)文本數(shù)據(jù)集合中,我們利用整體數(shù)據(jù)集學(xué)習(xí)每個(gè)詞的不同詞義表示,然后將數(shù)據(jù)集按照時(shí)間劃分為不同的片段(如按年份劃分)。在不同片段上,我們可以統(tǒng)計(jì)一個(gè)詞語所有出現(xiàn)位置的詞義分配情況,從而得到該詞語在該片段上的詞義分布概率。針對(duì)兩個(gè)不同的時(shí)間片段,我們可以根據(jù)詞義分布概率的變化情況,來觀測(cè)和分析這個(gè)詞語的詞義變化。假設(shè):時(shí)刻在前,時(shí)刻在后,那么詞義會(huì)出現(xiàn)以下幾種情形:

1. 詞義產(chǎn)生:在j時(shí)刻該詞義出現(xiàn)的概率高于某閾值,而i時(shí)刻該詞義概率低于該閾值,我們認(rèn)為這種情況說明該詞義產(chǎn)生。

2. 詞義消亡:在j時(shí)刻該詞義出現(xiàn)的概率低于某閾值,而i時(shí)刻該詞義概率高于該閾值,我們認(rèn)為這種情況說明該詞義消亡。

3. 詞義分裂:在i時(shí)刻有一個(gè)詞義ski,在j時(shí)刻有兩個(gè)詞義和,如果(, )和(, )的相似度大于某閾值,而且(, )的相似度低于某閾值,我們稱在j時(shí)刻,詞義發(fā)生了詞義分裂現(xiàn)象,ski產(chǎn)生了兩個(gè)新的詞義和。

四、在《人民日?qǐng)?bào)》(1950—2003)上的定量觀測(cè)與分析

為了驗(yàn)證分布式詞匯表示學(xué)習(xí)模型的有效性,我們選用在1949年后持續(xù)出版的、與中國社會(huì)變遷息息相關(guān)的《人民日?qǐng)?bào)》文本作為訓(xùn)練數(shù)據(jù)。我們收集了1950年至2003年的所有《人民日?qǐng)?bào)》文本建立數(shù)據(jù)集,進(jìn)行詞義表示學(xué)習(xí)模型的訓(xùn)練,并進(jìn)行詞匯語義變化的定量觀測(cè),探究其反映出的社會(huì)變遷。

(一)詞義表示學(xué)習(xí)模型的參數(shù)影響

模型的主要參數(shù)是α,控制詞義學(xué)習(xí)過程使用局部時(shí)間內(nèi)的文本信息還是全局信息,α=0.0表示只使用局部信息,α=0.8表示同時(shí)使用局部信息和全局信息,α=1.0表示只使用全局信息。

如圖2所示,我們以詞語“紅色”為例,考察不同參數(shù)設(shè)置(從左到右依次是α=0.0,α=0.8,α=1.0)對(duì)詞義學(xué)習(xí)的影響。這里每個(gè)詞義用#0到#4表示。

其中每個(gè)詞義在語義空間中對(duì)應(yīng)的最近鄰詞語可用表1顯示:

“紅色”通常有兩個(gè)詞義:(1)紅的顏色;(2)

象征革命或政治覺悟高。通過該案例,我們還可以看到,該模型能夠有效地識(shí)別詞語的不同詞義,甚至可以得到更細(xì)粒度的、具有鮮明時(shí)代特色的特殊用法。通過觀察我們可以得到以下結(jié)論:過于依賴局部信息,會(huì)出現(xiàn)難以分辨的詞義以及重復(fù)的詞義;而過于依賴全局信息,則有可能無法準(zhǔn)確學(xué)習(xí)某個(gè)時(shí)刻特有的詞義,無法獲得局部突變的詞義變化。因此,我們應(yīng)充分結(jié)合兩種信息,既可以降低局部噪聲的影響,又能夠避免過于依賴歷史信息,有效捕捉在短時(shí)間內(nèi)突變的詞義變化。

我們還將文本數(shù)據(jù)按照每5年劃分為一個(gè)片段,用來訓(xùn)練詞義表示向量。在四種不同參數(shù)設(shè)置下統(tǒng)計(jì)語義產(chǎn)生的樣例,對(duì)詞義產(chǎn)生的準(zhǔn)確率進(jìn)行人工標(biāo)注,結(jié)果如表2所示:

從表2可以看到,α=0.5和α=0.8時(shí)的準(zhǔn)確率明顯高出其他設(shè)置,這進(jìn)一步說明綜合考慮全局信息和局部信息的效果更好。

我們還定量考察了新詞義出現(xiàn)的數(shù)量變化。以α=0.8為例,對(duì)于不同的起始時(shí)間(第1列表示不同起始時(shí)間)和終止時(shí)間(第1行表示不同終止時(shí)間),新詞義出現(xiàn)的數(shù)量變化如表3所示。

我們得到以下結(jié)論:(1)對(duì)于兩段時(shí)間,如果起始時(shí)間相同,那么時(shí)間跨度越大,會(huì)產(chǎn)生越多新詞義。(2)對(duì)于終止時(shí)間相同的兩段時(shí)間(Ti1, Tj),(Ti2, Tj),其中i1(二)基于詞義向量的詞匯語義變化觀測(cè)與社會(huì)變遷分析

接下來,我們利用學(xué)習(xí)得到的詞義向量,進(jìn)行一些案例的定量觀測(cè)與分析。值得注意的是,以下所謂的“詞義”是由算法從文本數(shù)據(jù)中自動(dòng)學(xué)習(xí)發(fā)現(xiàn)的,并不嚴(yán)格對(duì)應(yīng)這些詞語的語言學(xué)意義上的“詞義”。但為了表述方便,我們?nèi)匀环Q其為“詞義”。在這里,我們?nèi)匀挥眠@些“詞義”向量的近鄰詞語來反映該“詞義”的內(nèi)涵。

首先,國家名稱是一類特殊的詞語。通過觀測(cè)不同國名的相鄰詞語變化,可以解讀該國名的社會(huì)意蘊(yùn)變化,將為了解中國與不同國家的政治關(guān)系提供一種新的視角。

圖3是“美國”相鄰詞語變化示意圖。其中詞義0對(duì)應(yīng)的最近鄰詞語是“英國、白宮、法國、布什、國務(wù)卿、克林頓”,詞義2的近鄰是“戰(zhàn)爭(zhēng)、美英聯(lián)軍、發(fā)動(dòng)”等??梢钥偨Y(jié)出,詞義0是與政治有關(guān)的,而詞義2是與戰(zhàn)爭(zhēng)有關(guān)的。折線圖中可以看到,《人民日?qǐng)?bào)》提到美國時(shí)的“政治”詞義比例越來越高,而“戰(zhàn)爭(zhēng)”詞義的比例大大降低,很好地反映了中美關(guān)系從對(duì)抗到合作的歷史現(xiàn)實(shí)。

有些特定的時(shí)間詞也蘊(yùn)含著豐富的意義。例如“一九五四年”,其詞義分布如圖4所示。這個(gè)詞的詞義1的近鄰詞語是“日內(nèi)瓦、巴黎、國際法、協(xié)議、公約”。這與一九五四年簽訂印度支那停戰(zhàn)協(xié)定的政治事件有密切關(guān)系,該事件在20世紀(jì)60年代到70年代經(jīng)常提及,然后出現(xiàn)了下降。這表明中國當(dāng)時(shí)對(duì)東南亞政局的高度重視。

通過對(duì)比一組相同類型詞語的詞義變化,能夠更好地看到社會(huì)的顯著變化。例如,圖5顯示了“農(nóng)民”“工人”“知識(shí)分子”和“解放軍”四類群體與“政治”有關(guān)的使用分布變化情況。

可以看到,“農(nóng)民”和“工人”兩個(gè)詞語與“政治”有關(guān)的使用在20世紀(jì)70年代出現(xiàn)明顯的峰值,這主要受到“文化大革命”的影響,此后則很少再被作為“政治”概念使用?!爸R(shí)分子”這個(gè)詞則從“文革”開始,始終被作為重要的與“政治”相關(guān)的概念使用?!敖夥跑姟痹谛轮袊⒊跗诒蛔鳛橹匾摹罢巍备拍?,而如今更加單純地使用“軍隊(duì)”的意義,而不再以“政治”概念出現(xiàn)在語言生活中。

還可以通過觀察特定詞語不同相鄰詞義的分布變化來考察不同歷史事件的影響。圖6是詞語“印度支那”的使用變化情況。其中詞義2與官媒動(dòng)員亞非拉人民共同抗擊帝國主義有關(guān);而詞義3與印度支那戰(zhàn)爭(zhēng)的客觀描述有關(guān)??梢钥吹?,詞義2在1980年附近出現(xiàn)了明顯的峰值,而詞義3對(duì)應(yīng)出現(xiàn)明顯的下沉,而這正是印度支那戰(zhàn)爭(zhēng)爆發(fā)的時(shí)間,這說明:在戰(zhàn)爭(zhēng)時(shí)期,《人民日?qǐng)?bào)》更加注重積極動(dòng)員對(duì)帝國主義的抗?fàn)幒团c其他國家的團(tuán)結(jié),而在其他時(shí)期則更多是對(duì)戰(zhàn)爭(zhēng)的客觀描述。這充分反映了《人民日?qǐng)?bào)》作為官方主流媒體對(duì)戰(zhàn)爭(zhēng)報(bào)道的特點(diǎn)。

五、結(jié) 論

本文針對(duì)基于詞頻統(tǒng)計(jì)方案存在的缺點(diǎn),提出在歷時(shí)文本數(shù)據(jù)集合上學(xué)習(xí)分布式詞義表示模型,通過觀測(cè)詞匯的相鄰詞語分布隨時(shí)間變化情況分析詞匯語義變化及社會(huì)變遷,通過定量實(shí)驗(yàn)和案例分析,驗(yàn)證了該方案的有效性。該方案將為在詞義級(jí)別上的詞匯語義變化研究提供有效的定量分析工具,有望對(duì)語言政策制定與語言規(guī)劃研究提供充分的量化依據(jù)。

本文工作還比較初步。由于《人民日?qǐng)?bào)》在每個(gè)時(shí)刻的文本數(shù)量比較有限,導(dǎo)致該模型對(duì)出現(xiàn)較少詞語的語義建模不夠精確。未來我們將收集更豐富的歷時(shí)文本數(shù)據(jù)集合,包括主流媒體、互聯(lián)網(wǎng)網(wǎng)頁與社會(huì)媒體等不同來源的數(shù)據(jù),并探索更精準(zhǔn)有效的分布式詞義表示學(xué)習(xí)模型,為語言演化和語言規(guī)劃研究提供重要的數(shù)據(jù)基礎(chǔ)和有效的技術(shù)工具。

注 釋

① 這是仿“基因組學(xué)(Genomics)”而成的新術(shù)語。

② 其中最高峰代表“you can put lipstick on a pig”來自網(wǎng)站http://www.memetracker.org/。

③ 如果有了特定的待考察詞語,找到它們直接搭配會(huì)更有效。如動(dòng)詞找賓語,修飾語找中心語。后文的“紅色”就適合找“N+1”項(xiàng),以減少很多干擾的噪聲。

參考文獻(xiàn)

陳章太 2005 《當(dāng)代中國的語言規(guī)劃》,《語言文字應(yīng)用》第1期。

金觀濤、劉青峰 2009 《觀念史研究:中國現(xiàn)代重要政治術(shù)語的形成》,北京:法律出版社。

劉海濤 2007 《語言規(guī)劃的生態(tài)觀——兼評(píng)〈語言規(guī)劃:從實(shí)踐到理論〉》,《北華大學(xué)學(xué)報(bào)》(社會(huì)科學(xué)版)第6期。

Aiden, Erez Lieberman and Jean-Baptiste Michel. 2013. Uncharted: Big Data as a Lens on Human Culture. New York: Riverhead Books.

Bamman, David and Gregory Crane. 2011. Measuring Historical Word Sense Variation. Proceedings of JCDL, 1-10.

Bengio, Yoshua, Réjean Ducharme, Pascal Vincent, and Christian Jauvin. 2003. A Neural Probabilistic Language Model. The Journal of Machine Learning Research 3, 1137-1155.

Chen, Xinxiong, Zhiyuan Liu, and Maosong Sun. 2014. A Unified Model for Word Sense Representation and Disambiguation. Proceedings of EMNLP.

Eisenstein, Jacob, Brendan O'Connor, Noah A. Smith, and Eric P. Xing. 2010. A Latent Variable Model for Geographic Lexical Variation. Proceedings of EMNLP.

Leskovec, Jure, Lars Backstrom, and Jon Kleinberg. 2009. Meme-Tracking and the Dynamics of the News Cycle. Proceedings of KDD.

Lieberman, Erez, Jean-Baptiste Michel1, Joe Jackson, Tina Tang, and Martin A. Nowak. 2007. Quantifying the Evolutionary Dynamics of Language. Nature 449(7163), 713-716.

Mihalcea, Rada, and Vivi Nastase. 2012. Word Epoch Disambiguation: Finding How Words Change Over Time. Proceedings of ACL, 259-263.

Michel, Jean-Baptiste, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden. 2011. Quantitative Analysis of Culture Using Millions of Digitized Books. Science 331(6014), 176-182.

Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean. 2013. Distributed Representations of Words and Phrases and Their Compositionality. Proceedings of NIPS, 3111-3119.

Navigli, Roberto. 2009. Word Sense Disambiguation: A Survey. ACM Computing Surveys (CSUR) 41.2, 10.

Tian, Fei, Hanjun Dai, Jiang Bian, Bin Gao, Rui Zhang, Enhong Chen, and Tie-Yan Liu. 2014. A Probabilistic Model for Learning Multi-Prototype Word Embeddings. Proceedings of COLING.

Traugott, Elizabeth Closs, and Richard B. Dasher. 2001. Regularity in Semantic Change. Cambridge: Cambridge University Press.

Reisinger, Joseph, and Raymond J. Mooney. 2010. Multi-Prototype Vector-Space Models of Word Meaning. Proceedings of HLT-NAACL.

Wijaya, Derry Tanti, and Reyyan Yeniterzi. 2011. Understanding Semantic Change of Words Over Centuries. Proceedings of the 2011 International Workshop on Detecting and Exploiting Cultural Diversity on the Social Web, 35-40.

Yang, Jaewon, and Jure Leskovec. 2011. Patterns of Temporal Variation in Online Media. Proceedings of WSDM.

責(zé)任編輯:金艷艷

猜你喜歡
社會(huì)變遷
?;韬钅埂翱鬃悠溜L(fēng)”姓氏問題釋析
?;韬钅埂翱鬃悠溜L(fēng)”姓氏問題釋析
論明清時(shí)期貴州的建省
中國農(nóng)村社會(huì)變遷文獻(xiàn)述評(píng)
社會(huì)語言學(xué)視角下的公益廣告語言研究
人間(2016年24期)2016-11-23 18:26:50
社會(huì)變遷語境下的近代報(bào)紙業(yè)態(tài)發(fā)展分析華
新聞世界(2016年7期)2016-08-23 08:35:34
新中國社會(huì)轉(zhuǎn)型過程中的社會(huì)流動(dòng)
華北的小農(nóng)經(jīng)濟(jì)與社會(huì)變遷
商(2016年20期)2016-07-04 14:41:53
論農(nóng)村家族的現(xiàn)代轉(zhuǎn)型
人民論壇(2016年14期)2016-06-21 10:37:48
關(guān)于我國成年監(jiān)護(hù)制度的思考
商(2016年13期)2016-05-20 10:13:01
英山县| 庆云县| 九龙县| 金沙县| 永新县| 友谊县| 保靖县| 景东| 佛山市| 清徐县| 福州市| 南漳县| 新闻| 周口市| 会同县| 璧山县| 柳江县| 高密市| 镇平县| 长汀县| 宁武县| 永昌县| 泸西县| 东安县| 长宁区| 玉树县| 沙洋县| 枣庄市| 方正县| 金阳县| 左云县| 临澧县| 南宁市| 丰宁| 新干县| 泾阳县| 五峰| 中方县| 兰考县| 嫩江县| 汾西县|