国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于相似度模型的可融合興趣點(diǎn)分類研究

2014-10-16 07:22李瑞姍高新院
關(guān)鍵詞:經(jīng)緯度字符串字段

張 巍,李瑞姍,高新院

(中國海洋大學(xué)信息科學(xué)與工程學(xué)院,山東 青島266100)

POI(Point of Interest)即興趣點(diǎn),泛指一切可以抽象為點(diǎn)的地理對象,尤其是與人們生活緊密相關(guān)的地理實(shí)體,如政府部門、景點(diǎn)、學(xué)校、醫(yī)院、銀行、商業(yè)區(qū)、標(biāo)志性建筑等。每個POI包含這個實(shí)體4個方面的信息:名稱、地址、類型、經(jīng)緯度,同時還可能有電話、評價等信息[1]。最近幾年,由于基于位置的服務(wù)快速發(fā)展,尤其是對網(wǎng)絡(luò)電子地圖、移動位置服務(wù)(LBS)、便攜式自動導(dǎo)航(PND)的使用,使得原有的POI很難繼續(xù)支撐這類服務(wù)。能否獲取高質(zhì)量的POI信息,成為提高此類服務(wù)質(zhì)量的關(guān)鍵所在。

然而多數(shù)基于位置服務(wù)的提供商并沒有自己完整、有效的數(shù)據(jù)采集和維護(hù)機(jī)制,他們的數(shù)據(jù)仍然是由專門的數(shù)據(jù)提供商供給。大多數(shù)POI信息數(shù)據(jù)生產(chǎn)廠家的數(shù)據(jù)采集方式主要依靠人海戰(zhàn)術(shù),雇用大量的調(diào)繪、調(diào)查人員,對城市進(jìn)行地毯式作業(yè)[2]。這樣的作業(yè)方式效率低,成本高,并且無法及時更新,因此部分廠家根據(jù)自己的經(jīng)驗(yàn),創(chuàng)造性地將數(shù)據(jù)采集工作轉(zhuǎn)移到了室內(nèi)。文獻(xiàn)[2]運(yùn)用基于GPS技術(shù)與實(shí)景影像相結(jié)合開發(fā)建立POI快速采集系統(tǒng)平臺,可實(shí)現(xiàn)POI的快速采集和更新;專業(yè)POI生產(chǎn)廠商卡貝斯對互聯(lián)網(wǎng)數(shù)據(jù)做了實(shí)時監(jiān)測,分類抓取互聯(lián)網(wǎng)上同POI相關(guān)的信息。大多遠(yuǎn)程采集機(jī)制可以充分把握住新出現(xiàn)的POI信息,但忽略了那些原有POI信息變化,使得數(shù)據(jù)的準(zhǔn)確度降低。以餐飲業(yè)為例,餐館的節(jié)假日活動可能會頻繁的變化,按照卡貝斯的機(jī)制這部分信息就不能在POI中被更新,甚至當(dāng)餐館因?yàn)檫w址導(dǎo)致地址這一關(guān)鍵字段發(fā)生的變化時,POI也不會被更新,造成這個POI價值驟減。還有些餐館因經(jīng)營不善而關(guān)門倒閉,但是它的POI信息仍然出現(xiàn)在數(shù)據(jù)庫里,成為無用的“死點(diǎn)”,久而久之便會出現(xiàn)大量的冗余。

本文使用機(jī)器學(xué)習(xí)領(lǐng)域中的分類方法[3-4]初步解決了以上POI數(shù)據(jù)冗余、精確度低的問題。在互聯(lián)網(wǎng)上抽取數(shù)據(jù),篩選出POI中字段的信息,根據(jù)這些信息與原有POI的關(guān)系進(jìn)行分類處理。

本文通過分析POI中各特征字段的形式、特點(diǎn),提出了POI特征相似度[5]用以表示一個POI與原有POI集的關(guān)系,利用這種形式化的關(guān)系在機(jī)器學(xué)習(xí)方法中分類,最終區(qū)分出可融合與不可融合的POI。相似度的形式化表示主要由名稱、地理信息相似度兩部分組成,其中的地理信息包括POI中的地址和經(jīng)緯度。名稱部分是指2個不同POI名稱字段間的相似度,通過幾種經(jīng)典字符串匹配方法[6]計(jì)算得出,過程中考慮到因?yàn)樵~語的存在使得不同漢字具有不同的關(guān)聯(lián)性,本文假設(shè)中文字符串匹配的最小單位是詞,打破了傳統(tǒng)中最小單位是單個漢字的假設(shè)。美國是地理編碼[7]應(yīng)用最早、最廣泛的國家,早在1970年代就建立了全國的地理編碼標(biāo)準(zhǔn),根據(jù)經(jīng)緯度便可確定出一個唯一的英文地址,其地址匹配可達(dá)到較好的效果,因此很容易就可以得到地理位置信息相似程度的準(zhǔn)確的結(jié)果。但是我國尚且沒有成熟的地理編碼,既不完整也不精確,利用經(jīng)緯度并不能確定2個地址匹配、相似與否。對于地理位置信息的相似程度,國內(nèi)主要根據(jù)地址信息計(jì)算[8],過程中對地址中各特征字段進(jìn)行匹配,綜合各字段的情況得出地址相似度。本文在考慮地址相似度的同時,還結(jié)合了根據(jù)地理空間信息得出的不同POI之間的距離,彌補(bǔ)了同一POI具有多種中文地址描述所導(dǎo)致的問題。

1 字符串匹配方法

POI中名稱字段大多比較精短、無明顯規(guī)則,同時也缺乏語義上的特征,是一類普通的中文字符串。目前這種中文字符串相似度[9]的計(jì)算在中文信息檢索、中文文本校對等領(lǐng)域中已有廣泛的應(yīng)用。衡量2個字符串的相似度,常用的方法有3種,即萊文史特距離算法、Jaccard相似方法和Jaro距離算法。

根據(jù)已有資料的分析,現(xiàn)有的這些計(jì)算字符串相似度的算法大多基于一個假設(shè):中文字符串匹配的最小單位是單個漢字,這樣并沒有考慮到漢字中詞語對相似度的影響,所以將匹配的最小單位假設(shè)為詞。

1.1 萊文史特距離算法

萊文史特距離算法(Levenstein edit distance algorithm)是一種字符串編輯距離算法,指一個字符串通過多少次操作(增、刪、改)得到另外一個字符串。例如,字符串S1為“aaabc”,S2為“aabb”,S1通過‘a(chǎn)’變?yōu)椤産’,刪除‘c’兩步可以得到S2,所以編輯距離等于2。在這里,定義字符串相似度為:

其中:distance是S1、S2的編輯距離,maxLen是S1、S2字符串長度中較大的那個值。edit值越大說明相似度越大,0表示沒有任何相似度,1則代表完全匹配。

1.2 Jaccard相似方法

這個相似度等于兩個字符串中相同詞(無重復(fù))的個數(shù)與所有詞(無重復(fù))個數(shù)的比值。也就是說,2個字符串S1、S2的Jaccard相似度可定義為:

和edit一樣,jacc越大說明相似度越大。

1.3 Jaro距離

與上邊2種算法相比,Jaro distance算法的優(yōu)點(diǎn)在于其考慮到字符不同位置的問題,如“粥全粥到臺東三路店”和“粥全粥到三店”,其中的“三”根據(jù)位置的不同可判斷為不匹配。首先定義一匹配窗口:

其中:S1、S2是待匹配字符串。S1、S2匹配過程中,若兩者中同有字符x,并且這2個x的距離不大于MW ,此時可以認(rèn)為這2個x是匹配字符。

Jaro相似度定義如下:

其中:S1、S2是待匹配的2個字符串;m是匹配的字符數(shù);t是換位的數(shù)目,其值等于不同順序的匹配字符數(shù)目的一半。比如:2個字符串“ABCDE”和“EBCDA”做匹配操作,字符串中僅有B、C、D3個字符是匹配的,即m=3。雖然A、E都出現(xiàn)在2個字符串中,但是通過公式得出匹配窗口MW 為。而2個字符串中A、E字符的距離均大于1.5,所以不算作匹配。在另一組字符串AxByCDz與AzBDC。匹配的字符為A~B~C~D,但在2個字符串中C~D 2個字符順序不同,因此t=1,m=4。

2 地理信息的相似度

地理信息主要包括2部分,即空間地理信息和非空間地理信息。POI中的經(jīng)緯度就是一種典型的空間地理信息,而POI中的中文地址則屬于地理信息系統(tǒng)中的非空間信息。我國地理信息的相似度主要是根據(jù)中文地址的匹配程度得出,但是對于那些具有多種描述情況的地理實(shí)體,比如有別名的實(shí)體、處于2條路交叉口的實(shí)體,這種地址匹配方法就不能得出其真實(shí)的相似程度。為解決這個問題,本文借助空間地理信息對這個相似度進(jìn)行了補(bǔ)充。

2.1 中文地址的相似度

地址是各類服務(wù)系統(tǒng)中運(yùn)用自然語言描述空間位置的最常用手段。中文地址是一種具有一定格式的中文字符串,但又不是標(biāo)準(zhǔn)統(tǒng)一格式,對于其相似度的計(jì)算,單靠本文提到的中文字符串匹配方法并不能達(dá)到很好的效果。目前我國主流的地址匹配方法就是對地址分詞,利用各個地址要素進(jìn)行匹配。本文基于小詞典和特證詞對中文地址進(jìn)行分詞,成功分開了中文地址中的各個要素,然后根據(jù)設(shè)置好的規(guī)則,綜合所有要素給出其相似程度。

分詞過程中用到的小詞典是根據(jù)行政區(qū)劃表構(gòu)造出來的,主要目的是規(guī)范地址中省、地、縣、鄉(xiāng)級行政區(qū)名稱,如“嶗山區(qū)松嶺路238號”,分詞結(jié)果為“山東(省)青島(市)嶗山(區(qū))松嶺(路)238(號)”,不僅劃分出字符串中各個部分,其省略部分也會補(bǔ)充完整。地址字符串中除省、地、縣、鄉(xiāng)級行政區(qū)以外的其它部分,因?yàn)樾帕刻?,?yán)重影響分詞速度,況且現(xiàn)在沒有合適完整資料來源,所以只對其進(jìn)行特征字分詞。得到最終分詞結(jié)果格式為“X(?。(地)X(縣)X(鄉(xiāng))X(路)X(號)X(建筑)X(號碼)X(其它)”,括號內(nèi)是其對應(yīng)地址要素的特征詞。

對待匹配的2個中文地址,分詞處理后對其進(jìn)行相似度計(jì)算,因?yàn)榉衷~過程中對鄉(xiāng)級及以上行政區(qū)字段進(jìn)行了規(guī)范和補(bǔ)充,所以該4級字段中低級字段若相等,較高級字段也一定匹配。對于其它5個字段,先分別計(jì)算出相似度,再根據(jù)不同權(quán)值合算出總的相似度。如果2個中文地址中對應(yīng)字段不同時存在,就無法進(jìn)行相似度計(jì)算,對于這種情況把相似度計(jì)為-1,表示不考慮該字段。若SIM1、SIM2、SIM 分別表示中地址前4個字段、后5個字段以及整體的相似度,計(jì)算的具體流程如下:

Step1 初始化SIM1、SIM2、SIM 都為-1。

Step2 若鄉(xiāng)級字段匹配,對SIM1賦值為1,轉(zhuǎn)向Step3;若不匹配,則匹配縣級字段,縣級若相等SIM1為0.8,轉(zhuǎn)向Step3;以同樣方法處理地級、省級字段,SIM1分別為0.4、0.3;省級字段也不匹配,SIM1仍為-1。

Step3 若路級字段對應(yīng)可比,且2個字段字符串相似度t大于0.8,則將路級、號級字符串的相似度記為s1,t小于0.8時s1等于t的一半;路級字段不可比時,s1等于-1。

Step4 和路級、號級字段一樣,計(jì)算出建筑級、號碼級字段相似度記為s2。

Step5 根據(jù)2.2.1中提到的一般字符串相似度算法,計(jì)算其它字段的相似度記為s3。

Step6 設(shè)置決定SIM2各字段的權(quán)值,s1、s2、s3分別對應(yīng)a1、a2、a3,其值分別為4、3、3;若s1、s2、s3值為-1,表示對應(yīng)字段不可比,則使這個權(quán)值為0。后5個字段的相似度為:

其中:s1、s2、s3都等于-1時,SIM2為-1;

Step7 設(shè)置SIM1、SIM2字段的權(quán)值b1、b2分別為1、3;若SIM1、SIM2值為-1,則使其對應(yīng)的權(quán)值置0。待匹配2個中文地址的相似度為:

如果SIM1、SIM2值都為-1,SIM 的值定為0。

2.2 空間地理信息相似度

經(jīng)緯度被定義在三度空間的球面上,用來標(biāo)示地球上的任何一個位置,是一種典型的空間地理信息。POI中的經(jīng)緯度作用和地址字段相同,都是用來描述一個位置,只是形式不同。通過經(jīng)緯度來衡量2個POI是否匹配相似,最簡單有效的方法就是計(jì)算這2點(diǎn)之間的球面距離。該地理坐標(biāo)相似度[10]定義為:

其中:distance(p1,p2)是匹配的2個POI點(diǎn)p1、p2的球面距離。當(dāng)LLsim這個相似度大于閥值時,就認(rèn)為這2個POI相似匹配。

3 POI相似度及機(jī)器學(xué)習(xí)分類模型

3.1 POI相似度

在互聯(lián)網(wǎng)上抓取感興趣的網(wǎng)頁,篩選出其中與POI相關(guān)的字段信息,之后對其進(jìn)行分類處理,本文將POI分為可融合和不可融合兩類。分類的依據(jù)則是這個POI信息與數(shù)據(jù)庫中現(xiàn)有POI集的關(guān)系這個現(xiàn)有POI集并不是數(shù)據(jù)庫中所有的數(shù)據(jù),這個集合是通過在互聯(lián)網(wǎng)上抽取的POI的名稱字段在數(shù)據(jù)庫中模糊搜索的結(jié)果。

為了方便構(gòu)建模型,本文將之前提到的待分類POI與現(xiàn)有POI集的關(guān)系轉(zhuǎn)換成為1個向量,該向量中包括這個待分類POI和現(xiàn)有POI集中的各特征字段相似度的最大值,即

其中:p是待分類POI;px是現(xiàn)有POI集合中的某個可以不同,但必須使得其所在的函數(shù)值在組內(nèi)最大分 別表示公式(1)、(2)、(4)提到的2個POI名稱字段 Levenstein相似度、Jaccard相似度、Jaro相似度,表示的2個POI的非空間地理信息相似度表示的2個POI的空間地理信息相似度。

圖1 機(jī)器學(xué)習(xí)分類模型的訓(xùn)練、分類過程Fig.1 Training and classifying process of machine learning model

3.2 機(jī)器學(xué)習(xí)分類模型

通過大量數(shù)據(jù)轉(zhuǎn)換得到的向量集,進(jìn)行特征提取后將作為訓(xùn)練集,依據(jù)機(jī)器學(xué)習(xí)的方法構(gòu)建出分類模型,將待分類的POI實(shí)例分為可融合和不可融合兩類。具體過程如圖1所示??扇诤鲜侵冈揚(yáng)OI信息已經(jīng)存在,只需對這些信息進(jìn)行融合,對部分字段進(jìn)行更新處理;不可融合則是指該P(yáng)OI信息不在現(xiàn)有數(shù)據(jù)集中,可能是新出現(xiàn)的POI信息,也可能是錯誤不真實(shí)的POI。對這些不可融合信息真?zhèn)涡缘尿?yàn)證,可以像卡貝斯那樣通過電話情景腳本的方式實(shí)現(xiàn),也可以運(yùn)用自然語言處理相關(guān)技術(shù)實(shí)現(xiàn)。對于驗(yàn)證為正確、真實(shí)存在的POI,對其進(jìn)行融合后便可做為一有效信息添加到數(shù)據(jù)集中。而對那些驗(yàn)證為錯誤、甚至不存在的POI不作任何處理,是對原有數(shù)據(jù)集中那些與之相似的POI要經(jīng)過驗(yàn)證,最終去除其中的“死點(diǎn)”。

在實(shí)驗(yàn)中,運(yùn)用了幾個不同的分類器,其中包括貝葉斯分類器、C4.5分類器、Adaboost提升分類器。每個分類器都有各式各樣、復(fù)雜的標(biāo)準(zhǔn),利用這些標(biāo)準(zhǔn)構(gòu)造不同的模型。比如,C4.5采用信息增益比作為選擇測試屬性的標(biāo)準(zhǔn),從根節(jié)點(diǎn)開始,賦予最好的屬性,在將該屬性各種取值都生成相應(yīng)的分支,在每個分支上又生成新的節(jié)點(diǎn),加之一些剪枝方法構(gòu)造出決策樹,使其最大程度地?cái)M合訓(xùn)練集。C4.5產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高,但是在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。此外,C4.5只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集,當(dāng)訓(xùn)練集大得無法在內(nèi)存容納時程序就無法運(yùn)行了。

4 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果

4.1 數(shù)據(jù)集

實(shí)驗(yàn)中,本文從美團(tuán)團(tuán)購網(wǎng)上抽取了1 095個頁面,每個頁面上有1個POI信息,即之前提到的待分類POI,隨后在google地圖、mapabc、baidu地圖上按照待分類POI中的名稱字段進(jìn)行模糊搜索,將搜索結(jié)果集作為現(xiàn)有POI集合。本文對于這些數(shù)據(jù)進(jìn)行了人工標(biāo)注,根據(jù)現(xiàn)有POI集合判斷其對應(yīng)的待分類POI是否可被融合,標(biāo)注結(jié)果中744個POI是可融合的,238個是不可融合,其余113個POI模糊搜索沒有結(jié)果,本文不予以考慮。將以上可融合的和不可融合的(共982個)POI轉(zhuǎn)換成向量集,作為本實(shí)驗(yàn)的數(shù)據(jù)集。

表1 結(jié)果關(guān)系表Table1The relation of classification result

4.2 測評指標(biāo)

本節(jié)將分析模型分類結(jié)果和人工標(biāo)注結(jié)果是否一致,為評測模型的分類效果實(shí)驗(yàn)中用到了3個重要指標(biāo),即召回率(Recall)、準(zhǔn)確率(Precision)和F值。人工標(biāo)注結(jié)果與模型分類結(jié)果關(guān)系表示(見表1)。

可融合的召回率r1是指模型分類與人工標(biāo)注結(jié)果均為可融合的POI數(shù)目占人工標(biāo)注中可融合總數(shù)的百分比,反映分類模型的完備性;可融合的準(zhǔn)確率p1是指模型分類與人工標(biāo)注結(jié)果均為可融合的POI數(shù)目占模型分類結(jié)果中可融合總數(shù)的百分比,可反映分類模型的準(zhǔn)確程度。可融合的召回率r1可表示為同樣不可融合的召回率r0可表示為不可融合的準(zhǔn)確率整個分類的準(zhǔn)確率p則可表示為F值是召回率和準(zhǔn)確率這2個指標(biāo)的綜合值,定義如下:

式中:P為準(zhǔn)確率;R為召回率;β為召回率和準(zhǔn)確率相對權(quán)重,一般取1;因此F值可以表示為:

4.3 基于規(guī)則的分類結(jié)果

本文首先分別對POI中的各特征字段的相似度進(jìn)行線性回歸,通過設(shè)置不同的閥值進(jìn)行分類,得到每個特征相似度單獨(dú)參與分類的表現(xiàn)(見圖2):

圖中f1是可融合的F值,f0是不可融合的F值,p為整個分類結(jié)果的準(zhǔn)確率。從3個圖中可以看出,無論是哪個字段,p和f1的變化趨勢是一樣的,且f1總是處于最上方,f0總是處于最下方。因?yàn)榭扇诤系腜OI占大部分,所以f1會更大程度地影響整體分類結(jié)果。圖中的峰值并不是說此時的p1或r1是最大值,而是說p1和r1處在一個最佳的平衡點(diǎn),不至于2個值一個過太一個過小。對于p0、r0也是一樣。在圖2(a)中,p和f1在[0.85,1]區(qū)間內(nèi)逐漸減小,對應(yīng)的f0不斷增大,但最大值仍舊很小,此時所有POI分類的結(jié)果為可融合。在圖2(b)中,3個曲線同增減,并在0.36處出現(xiàn)峰值。圖2(c)中的3條線變化趨勢也相同,且在0.001處出現(xiàn)峰值,同樣是這種情況下的平衡點(diǎn)。具體結(jié)果(見表2)。

從上述結(jié)果分析可知,POI中各字段在區(qū)分可融合、不可融合分類過程的表現(xiàn)不同,其分類效果由弱到強(qiáng)分別是名稱、經(jīng)緯度、地址字段。名稱字段之所以比較差,主要因?yàn)楝F(xiàn)有POI集中的POI是根據(jù)待分類POI的名稱進(jìn)行模糊搜索得到的,它們的名稱相似度已經(jīng)很高,不足以有效區(qū)分POI。其中對地址和經(jīng)緯度字段進(jìn)行了融合,其結(jié)果表現(xiàn)的最佳。

圖2 POI不同字段的分類結(jié)果Fig.2 Classification results for different POI attributes

4.4 基于機(jī)器學(xué)習(xí)方法的分類結(jié)果

在實(shí)驗(yàn)中,本文運(yùn)用了樸素貝葉斯、C4.5、Adaboost 3種分類器對數(shù)據(jù)集進(jìn)行了訓(xùn)練、測試,因?yàn)閿?shù)據(jù)有限,所以在這里采用了十折交叉驗(yàn)證的方法。分類結(jié)果(見表3)中可看出,各分類器效果差不多,對可融合的POI分類較好,但對不可融合部分各指標(biāo)還是偏低??傮w來說,C4.5效果較好,適合應(yīng)用在這個分類中。

表2 根據(jù)不同字段分類的最佳閥值及結(jié)果Table 2 The optimal threshold and result

表3 不同分類器的分類結(jié)果Table 3 Classification result for different classifier

5 結(jié)語

本文分別定義了POI各個特征字段的相似度,根據(jù)這些相似度構(gòu)造出POI相似模型,并對網(wǎng)絡(luò)上抽取的POI數(shù)據(jù)進(jìn)行有效分類。最后實(shí)驗(yàn)結(jié)果準(zhǔn)確率可達(dá)到90%左右,驗(yàn)證了根據(jù)相似度構(gòu)建模型的正確性和可行性。同時還說明對POI各字段進(jìn)行適當(dāng)?shù)娜诤希瑢ζ浞诸惪梢云鸬揭欢ǖ姆e極作用。

對于這些分類為可融合的POI,除名稱、地址、經(jīng)緯度外的其它部分不具有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu),并且還存在大量的冗余信息,仍然不能不能直接應(yīng)用于位置服務(wù)中。下一步還需要研究改進(jìn)POI的融合模型,得更有價值的融合結(jié)果。

[1] Krosche J,Boll S.The xPOI Concept[C].//Location and Context Awareness,Oberpfaffenhofen:Germang Springer,2005:113-119.

[2] 王海波.基于GPS與實(shí)景影像的POI快速采集技術(shù) [J].中國科技信息,2007(12):121-122.

[3] Tom M,Mitchell.Machine Learning[M].曾華軍,譯.北京:機(jī)械工業(yè)出版社,2005:38-56,112-135.

[4] Ryszard S.Michalshi,Ivan Bratko.Machine Learning and Data Mining:Methods and Applications[M].朱明,譯.北京:電子工業(yè)出版社,2004:67-94,114-117.

[5] Vivek S.Entity Resolution in Geospatial Data Integration [J].ACM-GIS,2006,11:10-11.

[6] 牛永潔,張成.多種字符串相似度算法的比較研究 [J].計(jì)算機(jī)與數(shù)字工程,2012,3:14-17.

[7] 江洲,李琦.地理編碼(Geocoding)的應(yīng)用研究 [J].地理與地理信息科學(xué),2003(3):22-25.

[8] 孫亞夫,陳文斌.基于分詞的地址匹配技術(shù) [C].//中國地理信息系統(tǒng)協(xié)會第四次會員代表大會暨第十一屆年會論文集.北京:科學(xué)出版社,2007:114-125.

[9] 宋玲,徐白.中文檢索系統(tǒng)的相似匹配技術(shù)研究和實(shí)現(xiàn) [J].計(jì)算機(jī)科學(xué) A輯,2010,37(12):46-48.

[10] Beeri C,Kanza Y,Safra E.Object Fusion in Geographic Information System [C].Toronto:Proceeding of the 30th VLDB Conference,2004:816-827.

猜你喜歡
經(jīng)緯度字符串字段
基于文本挖掘的語詞典研究
淺談臺灣原版中文圖書的編目經(jīng)驗(yàn)
基于經(jīng)緯度范圍的多點(diǎn)任務(wù)打包算法
Can we treat neurodegenerative diseases by preventing an age-related decline in microRNA expression?
自制中學(xué)實(shí)驗(yàn)操作型經(jīng)緯測量儀
SQL server 2008中的常見的字符串處理函數(shù)
倍增法之后綴數(shù)組解決重復(fù)子串的問題
澳洲位移大,需調(diào)經(jīng)緯度
最簡單的排序算法(續(xù))
無正題名文獻(xiàn)著錄方法評述
富源县| 浮山县| 新乡市| 星子县| 乌审旗| 永德县| 旌德县| 板桥市| 射洪县| 泰来县| 江安县| 伊金霍洛旗| 定日县| 浮山县| 武宁县| 台南县| 临汾市| 灵寿县| 库尔勒市| 静乐县| 富川| 清徐县| 南靖县| 右玉县| 开远市| 随州市| 陈巴尔虎旗| 兰坪| 黔江区| 孟津县| 交口县| 垫江县| 乐平市| 榆林市| 丽水市| 贞丰县| 军事| 湖北省| 潍坊市| 巴东县| 郓城县|