王雪蕊 侯為根 陳旬旬
摘要:為了預(yù)測(cè)未來(lái)世界語(yǔ)言的發(fā)展趨勢(shì),將基于時(shí)間仿真模型與元胞自動(dòng)機(jī)模型結(jié)合,進(jìn)行時(shí)間和空間兩個(gè)維度的預(yù)測(cè).首先進(jìn)行指標(biāo)選取,將算法與BP網(wǎng)絡(luò)結(jié)合,獲得關(guān)鍵參數(shù),最后進(jìn)行模型擴(kuò)展,以獲得更大時(shí)間跨度的研究?jī)?nèi)容.在此基礎(chǔ)上,構(gòu)建元胞自動(dòng)機(jī)模型,將大地坐標(biāo)系轉(zhuǎn)化成笛卡爾坐標(biāo)系,模擬離散空間變量,并使用維基百科提供的數(shù)據(jù),用Matlab軟件模擬得出結(jié)果.模擬結(jié)果表明,50年后,目前世界排名前十的語(yǔ)言中有四種語(yǔ)言將被替換.語(yǔ)言作為人類交流工具,與經(jīng)濟(jì)發(fā)展、文化交流等有密切聯(lián)系,研究結(jié)果可用于預(yù)測(cè)未來(lái)經(jīng)濟(jì)和文化發(fā)展趨勢(shì).
關(guān)鍵詞:時(shí)間仿真模型;元胞自動(dòng)機(jī);語(yǔ)言發(fā)展
中圖分類號(hào):TP391? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1673-260X(2019)07-0065-05
語(yǔ)言是人類交流的工具,目前世界上約有6900種語(yǔ)言,隨著全球化進(jìn)程的不斷加快,語(yǔ)言也在不斷發(fā)展.語(yǔ)言交際與經(jīng)濟(jì)貿(mào)易、國(guó)際政治活動(dòng)有著密切關(guān)系[1],因此準(zhǔn)確預(yù)測(cè)未來(lái)語(yǔ)言發(fā)展有著重大意義.人們研究語(yǔ)言往往是從它的起源開(kāi)始研究,涉及的影響因素有地理、歷史、文化等,由感性研究得出的結(jié)論,往往缺少客觀性,得出的結(jié)論準(zhǔn)確度不高.還存在一些方法,例如元胞自動(dòng)機(jī)[2]的方法,支持向量機(jī)[3]的方法,均是只從空間角度來(lái)預(yù)測(cè)語(yǔ)言發(fā)展趨勢(shì).本文除了運(yùn)用元胞自動(dòng)機(jī)的方法,還增加了時(shí)間仿真模型,將時(shí)間和空間兩個(gè)維度結(jié)合起來(lái),基于BP網(wǎng)絡(luò)和Matlab仿真,引入?yún)?shù)推導(dǎo)出算法,更準(zhǔn)確地預(yù)測(cè)了未來(lái)語(yǔ)言發(fā)展趨勢(shì).
現(xiàn)今世界語(yǔ)言的分布不僅受到地區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r、歷史因素及人口遷移的影響,還與一個(gè)國(guó)家的政策開(kāi)放程度等因素有關(guān).人口出生和死亡必將影響各語(yǔ)言使用者總數(shù),由于戰(zhàn)爭(zhēng)、移民等導(dǎo)致的人口遷入和遷出也是影響因素,因?yàn)楝F(xiàn)代經(jīng)濟(jì)發(fā)展的需求,各國(guó)人口在將本國(guó)語(yǔ)言作為母語(yǔ)的同時(shí),還可能掌握一種或多種語(yǔ)言作為第二語(yǔ)言,所以語(yǔ)言之間的轉(zhuǎn)換現(xiàn)如今也成了影響因素之一.
時(shí)間仿真模型認(rèn)為不同語(yǔ)言使用者的數(shù)量可以相互傳遞,語(yǔ)言使用者的總數(shù)只與出生率,死亡率,遷入率,遷出率和轉(zhuǎn)換率有關(guān).語(yǔ)言使用者總數(shù)隨時(shí)間變化,隨著時(shí)間的推移獲得各種語(yǔ)言使用者的數(shù)量.元胞自動(dòng)機(jī)模型將地球表面劃分為[-89,89]×[0,359]細(xì)胞,這與經(jīng)度和緯度一致.在語(yǔ)言的初始值被選中后,它將遵循本文定義的規(guī)則.在模擬中,我們將得到每種語(yǔ)言在地理上的分布.本本文的模型使用維基百科提供的當(dāng)前各種語(yǔ)言使用者數(shù)量[4]進(jìn)行驗(yàn)證.兩種模型模擬了2016年的數(shù)據(jù),并且得出的結(jié)果顯示了與2017年世界語(yǔ)言分布較為一致.因此,在此基礎(chǔ)上的擴(kuò)展模型可以用來(lái)研究50年內(nèi)的語(yǔ)言發(fā)展趨勢(shì).
1 指標(biāo)選取和解釋
本文選取了出生率、死亡率、遷入率、遷出率、語(yǔ)言轉(zhuǎn)換率五個(gè)指標(biāo)作為影響因素,下面對(duì)它們做出詳細(xì)解釋.
1.1 出生率和死亡率
很顯然,出生和死亡帶來(lái)人口數(shù)量的變化,隨之帶來(lái)語(yǔ)言使用者數(shù)量的變化,
一般地,出生率有以下計(jì)算公式:
這里,S指的是各國(guó)人口出生總?cè)藬?shù),M為世界總?cè)丝跀?shù),但由于地理環(huán)境、生活習(xí)慣、國(guó)家政策的不同,世界195個(gè)國(guó)家的出生率?琢和死亡率?茁也不盡相同,因此本文的?琢和?茁的計(jì)算均采用平均值計(jì)算公式:
在此,出生率和死亡率將是一個(gè)恒定的平均值,并且指的是日出生率和日死亡率,k=1,…,195指的是國(guó)家數(shù),?琢k指的是各國(guó)人口出生率,?茁k指的是各國(guó)人口死亡率,mk指的是各國(guó)人口數(shù),M指的是世界總?cè)丝跀?shù).
1.2 遷入率和遷出率
毫無(wú)疑問(wèn),遷入人口對(duì)第二語(yǔ)言的沖擊力最大,由于遷入人口在遷入國(guó)的生存壓力或環(huán)境影響下將被迫或主動(dòng)掌握該國(guó)家的語(yǔ)言,形成第二語(yǔ)言,且隨著時(shí)間的發(fā)展,遷入人口的后代將以極大概率把遷入國(guó)語(yǔ)言轉(zhuǎn)變?yōu)槟刚Z(yǔ)使用,因此,遷入人口的增加勢(shì)必會(huì)增加遷入國(guó)語(yǔ)言使用者的數(shù)量.因種族、文化、信仰、政策的不同,遷入率?酌和遷出率?啄也同樣會(huì)因?yàn)閲?guó)家的不同而不同,所以本文對(duì)遷入率和遷出率同樣采用平均值算法:
在此,遷入率和遷出率將是一個(gè)恒定的平均值,并且指的是日遷入率和日遷出率,k=1,…,195指的是國(guó)家數(shù),?酌k指的是各國(guó)人口遷入率,?啄k指的是各國(guó)人口遷出率,mk指的是各國(guó)人口數(shù),M指的是世界總?cè)丝跀?shù).
1.3 語(yǔ)言轉(zhuǎn)換率
語(yǔ)言轉(zhuǎn)換率為一種語(yǔ)言使用者學(xué)習(xí)另外一種語(yǔ)言,從而忘記其母語(yǔ)語(yǔ)言的概率.當(dāng)一種語(yǔ)言很少被使用時(shí),或者該語(yǔ)言本身較難學(xué)習(xí)時(shí),一般而言會(huì)增加該國(guó)大部分人放棄學(xué)習(xí)該國(guó)語(yǔ)言的概率,并選擇學(xué)習(xí)一種較為簡(jiǎn)單通用的語(yǔ)言以供交流,例如拉丁語(yǔ)[5]就是一種日??谡Z(yǔ)已經(jīng)消亡的西方古典語(yǔ)言,今天一般只作為文獻(xiàn)語(yǔ)言以供研究.此外如果一個(gè)人很少說(shuō)他的母語(yǔ),那么他有很大可能不會(huì)與另一個(gè)說(shuō)同樣語(yǔ)言的人結(jié)婚,因此,人們普遍認(rèn)為,他們之間的對(duì)話將基于一種常用語(yǔ)言,他的孩子也將學(xué)習(xí)這種通用語(yǔ)言,那么一代代發(fā)展下去,此人的母語(yǔ)有很大可能被遺忘,例如長(zhǎng)期生活在漢族地區(qū)的少數(shù)民族的人,他們將很大可能同漢族人結(jié)為夫妻,由于生活、工作和學(xué)習(xí)的原因,他們以及他們的后代將會(huì)使用漢語(yǔ)而不是少數(shù)民族語(yǔ)言.此外,當(dāng)發(fā)生戰(zhàn)爭(zhēng)或信仰入侵,也會(huì)使語(yǔ)言之間互相轉(zhuǎn)換.社會(huì)壓力,政府推動(dòng)以及文化群體的同化等也會(huì)導(dǎo)致語(yǔ)言之間發(fā)生轉(zhuǎn)換.
∈ij表示從語(yǔ)言i到j(luò)的轉(zhuǎn)換率.一般來(lái)說(shuō),它可以定義為:
這里,tij指的是語(yǔ)言i轉(zhuǎn)化為語(yǔ)言j的人數(shù),mi指的是語(yǔ)言i的使用者總數(shù),事實(shí)上,很難找到有多少人學(xué)習(xí)新語(yǔ)言并且忘記他們的母語(yǔ),因此,我們決定將本文設(shè)計(jì)的算法與BP(背景傳播)神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái).根據(jù)聯(lián)合國(guó)教科文組織最新發(fā)布的世界瀕危語(yǔ)言圖譜[6]可知,全世界大約有7000種語(yǔ)言,其中一半以上的語(yǔ)言將在21世紀(jì)末消亡,80%—90%則在未來(lái)的200年內(nèi)滅絕,基于語(yǔ)言的影響力,本文只選取當(dāng)今世界排名前26名的語(yǔ)言進(jìn)行研究,這26種語(yǔ)言分別是:漢語(yǔ)普通話、英語(yǔ)、印度語(yǔ)、西班牙語(yǔ)、阿拉伯語(yǔ)、馬來(lái)語(yǔ)、俄語(yǔ)、孟加拉語(yǔ)、法語(yǔ)、葡萄牙語(yǔ)、豪薩語(yǔ)、旁遮普語(yǔ)、日語(yǔ)、德語(yǔ)、波斯語(yǔ)、斯瓦希里語(yǔ)、泰盧固語(yǔ)、爪哇語(yǔ)、吳語(yǔ)、韓語(yǔ)、泰米爾語(yǔ)、馬拉提語(yǔ)、粵語(yǔ)、土耳其語(yǔ)、越南語(yǔ)、意大利語(yǔ).將2016年語(yǔ)言排名前26的使用者人數(shù)作為初值,即p0,與2017年維基百科的數(shù)據(jù)形成鮮明對(duì)比.因此得到26輸入和26輸出的權(quán)重矩陣[7].圖1為BP網(wǎng)絡(luò)圖.
在此,p0指的是語(yǔ)言使用者數(shù)量初值,權(quán)重矩陣是∈ij矩陣.在網(wǎng)絡(luò)[8]中,有26個(gè)隱藏層和26個(gè)神經(jīng)細(xì)胞.2016年各種語(yǔ)言的總使用者是輸入,而2017年各種語(yǔ)言的總使用者是輸出.在訓(xùn)練網(wǎng)絡(luò)后,我們得到了∈矩陣.如圖2所示.
2 時(shí)間仿真模型
2.1 基本模型
在時(shí)間仿真模型中,將整個(gè)世界視為一個(gè)整體,分別考慮每種語(yǔ)言.而對(duì)于每種語(yǔ)言,使用者的總數(shù)只與出生率,死亡率和每種語(yǔ)言之間的轉(zhuǎn)換率有關(guān),在這里,因?yàn)榭紤]的是時(shí)間維度,所以忽視遷入率和遷出率,偏向于出生率、死亡率和語(yǔ)言轉(zhuǎn)換率.關(guān)系如圖3所示.首先,我們只考慮兩種語(yǔ)言.在這個(gè)基本模型中,n表示天數(shù),從1月1日開(kāi)始統(tǒng)計(jì).
3 時(shí)空元胞自動(dòng)機(jī)模型
由于世界各語(yǔ)言在不同地理位置上的分布是不同的,因而在考慮時(shí)間的同時(shí),還應(yīng)考慮空間因素,為此建立元胞自動(dòng)機(jī)模型.該模型基于時(shí)間仿真模型,但更加復(fù)雜.元胞自動(dòng)機(jī)(CA)是一種時(shí)間和空間都離散的動(dòng)力系統(tǒng),其整體行為是在個(gè)體行為共同作用下實(shí)現(xiàn).本文在研究中采用二維CA,將整個(gè)笛卡爾坐標(biāo)系平面看成是一張二維的規(guī)則格網(wǎng),每一格網(wǎng)代表一個(gè)元胞,且在任意時(shí)刻都有自己的狀態(tài)值,即任意時(shí)刻的各語(yǔ)言使用者人數(shù),狀態(tài)的更新依賴于轉(zhuǎn)換規(guī)則函數(shù),即公式(1)(2)(3)(4)(5)(11),元胞下一時(shí)刻的狀態(tài)值是由上一時(shí)刻該元胞及其鄰域元胞狀態(tài)綜合決定的.
首先,我們將大地坐標(biāo)系轉(zhuǎn)換[9]為笛卡爾坐標(biāo)系.值得注意的是經(jīng)度∈[-180,180],這意味著西經(jīng)180°,東經(jīng)180°.緯度∈[-90,90],這意味著南緯90°,北緯90°.另一個(gè)需要注意的是,坐標(biāo)(4,88)并不表示它的經(jīng)度是4°,緯度是88°.實(shí)際上,它表示該位置對(duì)應(yīng)經(jīng)度軸上的第4元胞和緯度軸上第88元胞.坐標(biāo)(lo,la)代表元胞自動(dòng)機(jī)在每一個(gè)小方格的位置,lo表示經(jīng)度軸方向的坐標(biāo),la表示緯度軸方向的坐標(biāo).
圖5闡述了該模型的工作原理:
元胞自動(dòng)機(jī)中每一個(gè)格子中的人數(shù)會(huì)隨著時(shí)間的推移(時(shí)間仿真模型)而改變,每個(gè)時(shí)間步長(zhǎng)為一天.元胞自動(dòng)機(jī)模型中,與時(shí)間仿真模型不同,此處進(jìn)行的是空間分布研究,因此會(huì)更加關(guān)注遷入率?酌和遷出率?啄.
這里只考慮了3種語(yǔ)言,下面是具體實(shí)現(xiàn)過(guò)程:
(1)遷移方向和距離:對(duì)于每個(gè)元胞自動(dòng)機(jī),它只有四個(gè)方向可以遷移:向上,向下,向左和向右.在初始模型[10]中,遷移距離一次不應(yīng)超過(guò)10個(gè)元胞自動(dòng)機(jī).由于每個(gè)元胞自動(dòng)機(jī)只能移動(dòng)一次,因此我們需要一種算法來(lái)確定方向和距離.實(shí)際上,我們定義任何方向具有相同的概率,即:
4 預(yù)測(cè)分析
4.1 第一部分
P0為26種語(yǔ)言使用者初值(單位:百萬(wàn)):
P0=[1090 983 544? 527 422 281 267 261 229 229 150 148 129 129 121 107 92 84 80 77 75 74 72 71 68 66]
首先進(jìn)行1年內(nèi)26種語(yǔ)言的母語(yǔ)使用人數(shù)的預(yù)測(cè),利用Matlab軟件[11]模擬,模擬365天后,我們得到了以下結(jié)果(單位:百萬(wàn)):
在此,P0指的是語(yǔ)言使用者總數(shù),根據(jù)結(jié)果,第9種語(yǔ)言(葡萄牙語(yǔ))成為第10種語(yǔ)言,而第10種語(yǔ)言(法語(yǔ))成為第9種語(yǔ)言,并且漢語(yǔ)普通話[12]總數(shù)略有下降而英語(yǔ)使用者有所增加,但總體變化幅度不大.
4.2 第二部分
接下來(lái)繼續(xù)用matlab來(lái)執(zhí)行模擬,時(shí)間改為50年,即365×50天,得到以下結(jié)果,P0同上.
由圖8可見(jiàn),50年的時(shí)間跨度內(nèi),語(yǔ)言發(fā)展趨勢(shì)變化明顯.觀察可得:(1)上升趨勢(shì)明顯型:英語(yǔ)、法語(yǔ)、吳語(yǔ)(上海話).(2)上升趨勢(shì)緩慢型:馬來(lái)語(yǔ)、日語(yǔ)、德語(yǔ).(3)變化趨勢(shì)平穩(wěn)型:英語(yǔ)、西班牙語(yǔ)、阿拉伯語(yǔ).(4)波動(dòng)性下降較為顯著型:漢語(yǔ)普通話、阿拉伯語(yǔ)、俄語(yǔ).另外,50年后,目前排名前十的名單中有四種語(yǔ)言被替換,它們分別是:西班牙語(yǔ)、俄語(yǔ)、孟加拉語(yǔ)和葡萄牙語(yǔ),新進(jìn)入排名前十的四種語(yǔ)言分別是:豪薩語(yǔ)、日語(yǔ)、德語(yǔ)和吳語(yǔ)(上海話).表2是現(xiàn)在世界排名前十的語(yǔ)言以及建模得出的五十年后世界排名前十的語(yǔ)言.
5 結(jié)語(yǔ)
世界在發(fā)展,語(yǔ)言也在不斷發(fā)展,通過(guò)建立時(shí)間仿真模型和元胞自動(dòng)機(jī)模型,將時(shí)間和空間維度相結(jié)合,推算關(guān)鍵參數(shù)和算法,引入BP網(wǎng)絡(luò),并運(yùn)用Matlab仿真,得出以下結(jié)論.
5.1 50年后,目前排名前十的名單中有四種語(yǔ)言被替換,它們分別是西班牙語(yǔ)、俄語(yǔ)、孟加拉語(yǔ)和葡萄牙語(yǔ),新進(jìn)入排名前十的四種語(yǔ)言分別是豪薩語(yǔ)、日語(yǔ)、德語(yǔ)和吳語(yǔ)(上海話).
5.2 英語(yǔ)在50年后將會(huì)排名第一,其次是印度語(yǔ),漢語(yǔ)當(dāng)中有普通話和吳語(yǔ)兩種語(yǔ)言都在前十之列.即具有強(qiáng)烈影響力的語(yǔ)言,大多數(shù)國(guó)家更希望選擇它作為他們的第二語(yǔ)言,并且會(huì)更快地增加并且更廣泛地使用,這與世界經(jīng)濟(jì)發(fā)展?fàn)顩r有關(guān).
本文使用的建模方法還可用于時(shí)間跨度更長(zhǎng)的語(yǔ)言發(fā)展趨勢(shì)研究.但在參數(shù)選取方面,本文假設(shè)未來(lái)50年內(nèi)世界處于平穩(wěn)發(fā)展?fàn)顟B(tài),因此將一些參數(shù)考慮為恒定值,若考慮其為動(dòng)態(tài)可變的,會(huì)使得結(jié)果準(zhǔn)確度進(jìn)一步提高.
參考文獻(xiàn):
〔1〕袁俏玲.語(yǔ)言與經(jīng)濟(jì)的關(guān)系探微[J].湖南科技學(xué)院學(xué)報(bào),2007,28(5):107-109.
〔2〕汪榆淋.基于元胞自動(dòng)機(jī)各語(yǔ)言人口分布分析[J].信息記錄材料,2018,19(10):56-57.
〔3〕佟凱文,汪超,劉超.基于支持向量機(jī)的世界語(yǔ)言發(fā)展趨勢(shì)研究[J].中國(guó)高新區(qū),2018,41(13):58-59.
〔4〕Wikipedia,the free encyclopedia.List of languages by number of native speakers[OL].2018.https://en.wikipedia.org/wiki/List_of_languages _by_number_of_native_speakers.
〔5〕羅建平.西方古文明與拉丁語(yǔ)的興亡——政治與語(yǔ)言的關(guān)系研究[J].海外英語(yǔ),2011,9(3):204-205.
〔6〕聯(lián)合國(guó)教科文組織.全球?yàn)l危語(yǔ)言地圖[OL].2018.360百科:https://baike.so.com /doc/668 6574-6900477.html.
〔7〕任謝楠.基于遺傳算法的BP神經(jīng)網(wǎng)絡(luò)的優(yōu)化研究及MATLAB仿真[D].天津:天津師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院,2014.
〔8〕熊少康,王凌川,章家?guī)r,郭許林,馮旭剛.基于BP神經(jīng)網(wǎng)絡(luò)的車輛動(dòng)態(tài)稱重技術(shù)[J].安徽工業(yè)大學(xué)學(xué)報(bào),2014,31(1):76~79.
〔9〕張龍,汪新慶,劉岳,常力恒.一種MapGIS向ArcGIS地圖數(shù)據(jù)轉(zhuǎn)換的方法[J].測(cè)繪科學(xué),2014,39(7):146-149.
〔10〕Jay Belanger et.al. Mathematical Modeling for the MCM/ICM Contests[J].Higher Education Press,2015,Volume 1:1-20.
〔11〕張志涌,楊祖櫻.Matlab教程[M].北京:航空航天大學(xué)出版社,2015.
〔12〕李娟,龍四古.人類語(yǔ)言發(fā)展與制度調(diào)適——兼評(píng)中國(guó)現(xiàn)行外語(yǔ)教育制度[J].太原師范學(xué)院學(xué)報(bào),2007,6(1):43-46.