国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用戶標簽揭示進出口量:基于標簽共現(xiàn)的空間關(guān)聯(lián)性分析

2022-06-05 04:46張雙印
測繪地理信息 2022年3期
關(guān)鍵詞:關(guān)聯(lián)性關(guān)聯(lián)強度

游 想 張雙印 費 騰

1武漢大學資源與環(huán)境科學學院,湖北武漢,430079

2武漢大學測繪遙感信息工程國家重點實驗室,湖北武漢,430079

區(qū)域間的關(guān)聯(lián)性研究對促進區(qū)域協(xié)調(diào)發(fā)展具有重要意義。而區(qū)域關(guān)聯(lián)性分析取決于如何利用關(guān)聯(lián)這些區(qū)域的各種數(shù)據(jù)。有眾多研究強調(diào)了網(wǎng)絡嵌入對區(qū)域關(guān)聯(lián)性研究的重要性[1?7]。而在很大一部分研究中,區(qū)域關(guān)系是基于網(wǎng)絡中節(jié)點之間的流量數(shù)據(jù)計算的,如交通流量、乘客流量、人口遷移[8?10];或基于在線用戶生成數(shù)據(jù)計算。例如,F(xiàn)lickr網(wǎng)站上用戶位置信息作為一種在線用戶生成數(shù)據(jù)資源,被用于量化人類的旅行流量[11,12],進而被用于分析區(qū)域間的關(guān)聯(lián)性;微博也是一種在線用戶生成的數(shù)據(jù)資源,可通過研究微博用戶的社會關(guān)系和地理位置變化來確定區(qū)域相關(guān)性[13,14]。以上研究主要針對用戶帶來的實際流和虛擬流,僅利用人口流動和人際交往的目標和強度來描述區(qū)域間關(guān)聯(lián)性強度不夠全面,這些研究本質(zhì)上只圍繞存在于“第一空間”[15]的流進行,“第二空間”中的流則被有意或無意地忽略了?!暗谝豢臻g”即人們看到的“物理”空間,是一門物質(zhì)的、可見的、可測量的、對空間客觀判定的正式科學;“第二空間”指人的感知與“第一空間”的結(jié)合,是對空間進行建模和概念化的規(guī)劃者和城市學家的空間[15]。

Twitter、Flickr和微博等社交網(wǎng)絡應用程序的使用已然是一種潮流,這為從人的感知角度來研究區(qū)域聯(lián)系提供了數(shù)據(jù)依據(jù)。隨著這些社交應用的興起,出現(xiàn)了一些關(guān)于社交網(wǎng)絡應用的共現(xiàn)分析研究[16,17],其中,較為簡單的標簽共現(xiàn)分析主要被用來研究這些標簽之間的關(guān)系,或進行標簽特征分析和語義分析,很少被用于區(qū)域關(guān)聯(lián)性分析。本文利用Flickr中用戶生成的標簽數(shù)據(jù),通過標簽共現(xiàn)分析從人類感知的角度來研究世界各地之間更加全面的關(guān)聯(lián)。本文使用帶有地理坐標的用戶標簽數(shù)據(jù)進行研究,避免了地名的模糊性問題,在“第二空間”中繪制了區(qū)域間的概念流,且為了進一步探索該方法的潛在實用性,選取了一些樣本國家,對由本文方法計算出的它們之間的概念關(guān)聯(lián)強度與貿(mào)易交互量進行了相關(guān)性分析。

1 研究數(shù)據(jù)與方法

1.1 研究數(shù)據(jù)

本文所用的全球用戶標簽數(shù)據(jù)和相應的位置信息是從Yahoo Flickr Creative Commons 100 Million(YFCC100M)數(shù)據(jù)集中提取的,該數(shù)據(jù)集包含2004?04—2014?08拍攝的公開的照片。提取其中最常用的20 000個英文標簽作為研究數(shù)據(jù),排除了一些沒有實際意義的單詞,如“at”和“to”這些常用介詞。

1.2 研究方法

如果兩個地名同時出現(xiàn)在同一文本中,則可以認為它們有關(guān)聯(lián)[18,19]。在本文中,如果兩個區(qū)域被相同的標簽標記,則認為它們有關(guān)聯(lián)。具有相同標簽的區(qū)域可視為網(wǎng)絡中的兩個節(jié)點被這個標簽所關(guān)聯(lián),并在網(wǎng)絡中由一條邊連接表示該關(guān)聯(lián)關(guān)系。區(qū)域之間的邊連接得越多,表示這些區(qū)域被越多相同的標簽所標記,即這些區(qū)域之間的概念關(guān)聯(lián)強度越強。在Bonne投影下,將世界地圖分割成多個100×100 km的標準網(wǎng)格,構(gòu)造一個查找表,表的一側(cè)列出了所有有效的用戶標簽,表的另一側(cè)對應相應用戶標簽所在的網(wǎng)格編碼。

1.2.1 節(jié)點之間的概念關(guān)聯(lián)性

1)構(gòu)建標簽網(wǎng)絡。在查找表中,一個標簽可以對應多個網(wǎng)格,先將這些網(wǎng)格視為節(jié)點,具有相同標簽的任意兩個節(jié)點都可以通過邊連接,從而形成每個標簽的網(wǎng)絡;再將20 000個標簽的所有網(wǎng)絡疊加,形成一個包含13 968個相關(guān)聯(lián)節(jié)點(網(wǎng)格)的集成網(wǎng)絡。在這個集成網(wǎng)絡中,任意兩個節(jié)點之間的邊數(shù)表示有多少相同的用戶標簽被用來描述這兩個不同的位置(區(qū)域),或者在另一個意義上,表示它們之間概念關(guān)聯(lián)強度。通常,節(jié)點之間連接的邊的數(shù)量越多,表示節(jié)點之間的關(guān)聯(lián)度越強。

2)基于標簽網(wǎng)絡計算概念關(guān)聯(lián)強度。通過不同方式給節(jié)點之間的邊賦權(quán)重,以下指標可用于計算標簽共現(xiàn)網(wǎng)絡中節(jié)點之間的概念關(guān)聯(lián)強度:

①節(jié)點之間的邊數(shù)(number of edges,NE)。在這個指標中,所有邊的權(quán)重都是相等的,具體到每條邊,lm ij表示節(jié)點i和節(jié)點j被標簽m同時標記一次,不考慮帶有標簽m的照片在這兩個節(jié)點中的數(shù)量??紤]到節(jié)點所包含的標簽個數(shù)的影響,即對于同一個共現(xiàn)標簽,不同節(jié)點包含的帶有該標簽的照片數(shù)目有所不同。在計算兩節(jié)點之間的關(guān)聯(lián)強度時,該指標記錄了兩個節(jié)點中出現(xiàn)的所有標簽的數(shù)目,再令節(jié)點間的邊數(shù)除以該數(shù)目。即對于節(jié)點i、j,Ti和Tj分別是節(jié)點i、j中出現(xiàn)的標簽集合,Tij是Ti和Tj的并集,tij是集合Tij中包含的不同標簽個數(shù)。NE指標計算的節(jié)點i、j之間的關(guān)聯(lián)強度如下:

式中,M是所有標簽總數(shù),等于20 000;Om i表示節(jié)點i中是否有標簽m,有則為1,反之為0。

②節(jié)點之間邊的權(quán)重之和(sum of the weight of edges,SWE)。不同共現(xiàn)標簽可能對兩個節(jié)點之間的關(guān)聯(lián)強度貢獻不同,相同標簽所對應的照片數(shù)量在不同節(jié)點中可能會有很大差異。鑒于此,每個節(jié)點中每個標簽的照片數(shù)量被記錄下來用于計算這個新指標(SWE),每條邊的權(quán)重由一對節(jié)點中所包含的由共同標簽所標記的較少照片數(shù)量表示,不同的邊可能具有不同的權(quán)重:

行業(yè)事業(yè)單位需要建立大型設備的使用管理新模式,不能僅滿足于正常開展教育教學、衛(wèi)生醫(yī)療、科學研究等行業(yè)事業(yè)需求,需要借助信息化系統(tǒng)提高使用績效,最大化提高管理手段的豐富性、規(guī)范性,做到有章可循。國子軟件長期致力于行業(yè)資產(chǎn)管理理論研究,將結(jié)合豐富的管理軟件實踐及服務經(jīng)驗,助力各單位的大型設備使用績效管理的提升。

在SWE指標中,對于每個節(jié)點對,它們之間不同邊的權(quán)重變化很大,權(quán)重較大的邊可能會掩蓋權(quán)重較小的邊對節(jié)點間關(guān)聯(lián)強度的貢獻。為了減少權(quán)重大的邊對節(jié)點之間概念關(guān)聯(lián)強度的貢獻,加強邊的數(shù)量對節(jié)點之間概念關(guān)聯(lián)強度的貢獻,本文提出了一個新的指標SWE?log,在這個指標中,邏輯回歸函數(shù)被應用于邊權(quán)重的計算,計算公式如下:

式中,z為閾值,通過多次實驗選擇了所有權(quán)重的均值作為z;e表示自然常數(shù)。

③詞頻?逆向文檔頻率的節(jié)點間邊的權(quán)值之和(sum of the weight of edges term frequency?inverse document frequency,SWE?TF?IDF)。節(jié)點中普遍存在的標簽共現(xiàn)對節(jié)點之間的概念關(guān)聯(lián)強度通常不太重要,為了減弱廣泛分布的標簽(在眾多節(jié)點所有節(jié)點中出現(xiàn))的影響,采用TF?IDF方法來度量邊的權(quán)重。在文本挖掘預處理中,TF?IDF是一種統(tǒng)計方法,用于評估單個單詞對文集語料庫中的文檔集或其中一個文檔的重要性。單詞對某個文檔的重要性隨著它們在該文檔中出現(xiàn)次數(shù)的增加而增加,但隨著它們在整個語料庫中出現(xiàn)頻率的上升而降低。在該指標中,TF?IDF被用于評估每條共現(xiàn)邊對節(jié)點之間概念關(guān)聯(lián)強度的重要性,邊的權(quán)重計算如下:

式中,F(xiàn)m表示出現(xiàn)標簽m的節(jié)點數(shù);F表示節(jié)點總數(shù);Ni表示節(jié)點i中的照片總數(shù)。節(jié)點之間的概念關(guān)聯(lián)強度計算公式如下:

1.2.2 國家之間的概念關(guān)聯(lián)性

1.2.3 交互作用與相似性的較量

為了確定本文方法得到的這些國家之間的概念關(guān)聯(lián)強度是表明國家之間的交互作用還是相似性,對20個國家相互之間的關(guān)聯(lián)強度與它們間的交互作用和相似度分別進行了相關(guān)性分析。各國之間的交互作用是根據(jù)從Chatham House收集到的2004—2014年10年間各國之間的進出口量(貿(mào)易量)計算的。這些進出口量和從The World Bank收集的各國人口、土地面積和人均國內(nèi)生產(chǎn)總值的平均值被視為各國的特征,形成每個國家的特征向量。歸一化后,通過計算20個特征向量兩兩之間的余弦相似度,得到20個國家兩兩之間的相似度。

1.2.4 探索分析

為了進一步探索本文方法的潛力,且由于Cha?tham House和The World Bank上的數(shù)據(jù)時間上限為2017年,本文還計算了2005—2015年、2006—2016年、2007—2017年這20個國家兩兩之間的交互作用和相似度,并將其與本文方法所得的國家間的關(guān)聯(lián)強度(2004—2014年)進行皮爾遜相關(guān)性分析。

2 研究結(jié)果

實驗得到了20個國家兩兩之間的貿(mào)易交互作用和相似度。表1為皮爾遜相關(guān)性分析結(jié)果。4種概念關(guān)聯(lián)強度指標與國家間貿(mào)易交互強度的皮爾遜相關(guān)分析的P值均小于0.01,具有統(tǒng)計學意義,且皮爾遜相關(guān)系數(shù)均在0.7左右,相關(guān)性較好。而這4種概念關(guān)聯(lián)強度指標與國家間相似度的相關(guān)系數(shù)要低得多,均小于0.2。這表明用Flickr用戶標簽數(shù)據(jù)計算出的國家間關(guān)聯(lián)強度與國家間貿(mào)易交互強度是顯著相關(guān)的,關(guān)系較為密切;而國家間關(guān)聯(lián)強度與國家間的社會經(jīng)濟相似度間的相關(guān)性則要小得多,幾乎沒什么關(guān)聯(lián)。4個指標中,SWE?TF?IDF關(guān)聯(lián)強度與各國之間的貿(mào)易交互強度(2004—2014年)之間的相關(guān)性最強。

表1 皮爾遜相關(guān)性分析結(jié)果(2004—2014年)Tab.1 Pearson Correlation Coefficients(2004—2014)

通過相關(guān)性分析得到了國家間4種概念關(guān)聯(lián)強度與2005—2015年、2006—2016年、2007—2017年國家間貿(mào)易交互強度和相似度之間的皮爾遜相關(guān)系數(shù)。國家間貿(mào)易交互強度與4種概念關(guān)聯(lián)強度之間的相關(guān)系數(shù)均大于0.69,如圖1(a)所示;而國家間的4種概念關(guān)聯(lián)強度與2005—2015年、2006—2016年、2007—2017年各國間相似度之間的皮爾遜相關(guān)系數(shù)均小于0.18,見圖1(b)。進一步說明了研究得到的國家間的概念關(guān)聯(lián)強度更能代表國家間的貿(mào)易交互強度。圖1(a)還表明,國家間概念關(guān)聯(lián)強度與2005—2015年、2006—2016年、2007—2017年的國家間貿(mào)易交互作用之間的皮爾遜相關(guān)系數(shù)均高于其與2004—2014年間的國家間貿(mào)易交互作用之間的相關(guān)系數(shù),且時間越往后移,相關(guān)系數(shù)越大。這表明,由Flickr用戶標簽數(shù)據(jù)計算得到的區(qū)域間概念關(guān)聯(lián)強度更能準確地反映在該數(shù)據(jù)時間范圍之后的區(qū)域間貿(mào)易交互強度,這意味著本文方法可能具有預測國家之間貿(mào)易量的潛力。由圖1(a)可知,在這4個指標中,SWE?TF?IDF指標所得的國家間關(guān)聯(lián)強度能最好地表示國家間的貿(mào)易交互強度。

圖1 相關(guān)性分析結(jié)果Fig.1 Correlation Analysis Results

3 結(jié)束語

本文以數(shù)百萬Flickr用戶上傳的照片中的標簽和位置數(shù)據(jù)為基礎(chǔ),提出了一種標簽共現(xiàn)的區(qū)域聯(lián)系分析方法,用4種指標計算出了世界各地之間的概念關(guān)聯(lián)強度。對結(jié)果進行相關(guān)性分析發(fā)現(xiàn),基于Flickr用戶感知的各種空間關(guān)聯(lián)性分析指標都能很好地表示樣本國之間的貿(mào)易交互強度,并且能更好地表示未來的貿(mào)易交互強度,這表明用戶感知的空間關(guān)聯(lián)強度對國家間的貿(mào)易交互強度有一種導向作用。這也許反映了“第一空間”和“第二空間”不是孤立存在的,在社會歷史領(lǐng)域中,“第二空間”總是控制著“第一空間”,即想象的空間控制著具體的(真實的)空間[15]。

與以往試圖揭示區(qū)域間相互作用強度的研究相比,本文方法是一種新的低成本方法,采用的是集體主觀方法,可以避免任意參數(shù)化過程,且使用的數(shù)據(jù)是由分布在世界各地的數(shù)百萬Flickr用戶提供的,故得到的結(jié)果更全面。本文方法在缺乏傳統(tǒng)社會經(jīng)濟統(tǒng)計數(shù)據(jù)的情況下尤其有用,且具有很大潛力。為便于同國家的貿(mào)易數(shù)據(jù)進行比較,本文方法僅在國家層面上實現(xiàn)了應用,但只要用戶標簽數(shù)據(jù)足夠,該方法就可以在任何空間尺度上得到應用。此外,該方法對進出口公司、期貨公司、保險公司等都有利用價值,也可以幫助制定國家或地區(qū)的社會經(jīng)濟政策。在后續(xù)研究中,仍要不斷改進,希望在未來能有新發(fā)現(xiàn)。

猜你喜歡
關(guān)聯(lián)性關(guān)聯(lián)強度
基于單元視角的關(guān)聯(lián)性閱讀教學策略淺探
學貫中西(4):AI的時序性推論技能
燃氣熱水器性能與關(guān)鍵結(jié)構(gòu)參數(shù)關(guān)聯(lián)性分析
“一帶一路”遞進,關(guān)聯(lián)民生更緊
奇趣搭配
智趣
計算電場強度常用的幾種方法
電場強度疊加問題的求解
電場強度單個表達的比較
求電場強度的新方法お
锦屏县| 崇信县| 仙居县| 马山县| 饶平县| 龙岩市| 星子县| 改则县| 怀宁县| 通海县| 塔河县| 永胜县| 海林市| 冕宁县| 乌拉特后旗| 临洮县| 迁安市| 蛟河市| 凯里市| 旺苍县| 金川县| 海口市| 合江县| 会同县| 茌平县| 龙游县| 望都县| 乌鲁木齐县| 绥化市| 岚皋县| 明溪县| 壤塘县| 绥棱县| 钦州市| 灵丘县| 望城县| 克东县| 卢氏县| 昌邑市| 江西省| 金乡县|