国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

有序事物聚類分析

2018-01-27 08:10:58郭嘉梁
中文信息 2017年12期
關(guān)鍵詞:聚類分析分類

郭嘉梁

摘 要:分類是人類認(rèn)識(shí)世界的客觀需要,人類就是依靠分類認(rèn)識(shí)世界的。有一些有順序的事物不能簡單的依靠它們的屬性去分類,分類的時(shí)候不能破壞它們之間的順序。這時(shí)候就需要運(yùn)用有序事物的聚類分析的方法。

關(guān)鍵詞:聚類分析 分類 有序事物

中圖分類號(hào):G63 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9082(2017)12-0-01

分類是人類認(rèn)識(shí)客觀世界的基本方法之一,人們把所研究的對(duì)象分成若干類,然后分門別類的進(jìn)行仔細(xì)的研究,從而加深對(duì)事物的認(rèn)識(shí)。將每個(gè)事物都看作數(shù)學(xué)空間中的一點(diǎn),在這個(gè)數(shù)學(xué)空間中規(guī)定兩點(diǎn)的距離,以距離來表示事物的差別。分類時(shí),常把距離靠近的點(diǎn)歸為一類,這種方法叫做聚類分析法。聚類分析是我們實(shí)際生活和工作中常用的分類工具之一,它按照研究的目的,找出物與物之間的相同點(diǎn)和類與類之間的差異,使我們?cè)诮鉀Q不同類問題時(shí)具有很強(qiáng)的針對(duì)性,能做到“具體問題具體分析”[1]。

聚類的一般步驟是先確定一個(gè)方式用來確定事物之間的距離,用以表示事物之間的差別,同時(shí)規(guī)定出類與類之間的距離,表示類的差別。開始分類的時(shí)候,假設(shè)有100個(gè)事物,此時(shí)可以視為100個(gè)類,此時(shí)類和類之間的距離就是事物間的距離,將距離較小的類合并,重新計(jì)算新類和剩余類的距離,再將距離最近的類合并,這樣每次都減少類的數(shù)目,最終減少到滿足聚類的要求為止,是一種逐步合并的聚類方法。

許多實(shí)際問題都是按照一定的順序排列的,如兒童的年齡、朝代的順序、地質(zhì)勘探的按地層的深淺排序等。對(duì)于這種有順序的事物的分類,不能夠打亂它們本身的順序[2]。有序事物分類顯著體現(xiàn)在嬰幼兒的奶粉上,現(xiàn)在的父母對(duì)孩子傾注了很大的心血和很多的疼愛。尤其對(duì)于嬰幼兒時(shí)期的哺育,奶粉生產(chǎn)商們生產(chǎn)了0-6個(gè)月、7-12個(gè)月、1-3歲、3歲以上幾個(gè)階段。這樣分段就是為了使奶粉的營養(yǎng)成分比例適合各階段的寶寶們的身體需要和消化能力。

下面我們以兒童的成長體重的增長表示1-11歲兒童的成長。

從表格中可以獲得一些簡單的信息,比如明顯發(fā)現(xiàn)1歲的兒童成長速度極快,6歲兒童的體重增長最慢。但是如果要給兒童發(fā)育分段,應(yīng)該如何分段呢?好的分類方法,需要使同一類事物之間的差別盡可能小,而不同類之間的差別盡可能大。這樣才能夠有一定的區(qū)分度,分出同類和異類。

首先我們確定一下應(yīng)該將數(shù)據(jù)分為幾類,使它既能夠顯著看出各類的不同,也能夠使同一類內(nèi)部的區(qū)別不大。假設(shè)我們先將數(shù)據(jù)分為3段,可以理解為在數(shù)據(jù)的間隔中放入兩個(gè)“擋板”,一共有種方法[3]。一般來說,表示同類事物之間的差別,計(jì)算每一類中的方差是比較好的辦法,但是計(jì)算方差的話計(jì)算量比較大,這里我們選用極差的方法來表示類內(nèi)的差別。

比如先將數(shù)據(jù)分為{1,2,3,4},{5,6},{7,8,9,10,11}三類,第一組內(nèi)的極差=9.3-1.7=7.6,第二組的極差=1.5-1.3=0.2,第三組的極差=2.3-1.4=0.9.為了度量這種分類方法的好壞,我們引入一個(gè)概念優(yōu)劣指標(biāo)K,K為各分組的平均差異,即K=。然后我們將數(shù)據(jù)分成另一個(gè)分組{1,2,3},{4,5,6,7,8},{9,10,11}。然后分別計(jì)算它的極差,可以得到三組的極差分別是7.5,0.7,0.4。然后計(jì)算。由此我們判斷這種分類方式優(yōu)于上一種。然后需要分別將45種分類方式分別按照這種方式計(jì)算出K的值,最終可以得到的結(jié)果是分類成{1},{2,3,4,5,6,7},{8,9,10,11}的分組方式是最佳的分類。這種分類方式的。可以發(fā)現(xiàn)這種分類方式明顯優(yōu)于前面兩種。

我們只是簡單確定了一個(gè)判斷分類是否適宜的標(biāo)準(zhǔn),那么具體應(yīng)該分為幾類可以得到較好的區(qū)分效果呢?為此,我們需要去確定分為不同的類中最好的分類法,然后判斷它們的優(yōu)劣指標(biāo)的大小。例如將數(shù)據(jù)分為兩類的最佳分法是{1},{2,3,4,5,6,7,8,9,10,11},計(jì)算可得。

經(jīng)過計(jì)算,可以得到如下結(jié)果

理論上計(jì)算需要次,即次。實(shí)際的處理中,忽略一些明顯不合適的分組,計(jì)算量稍有減少。當(dāng)分為兩組的時(shí)候,K的值為0.5,相較而言比較大,且分組太粗略,不能明顯反映兒童成長階段的不同。當(dāng)分成三組或是四組的時(shí)候,K的值不大,比較適宜。當(dāng)分成5組以上的時(shí)候,分組過于復(fù)雜,且K值的減小不太明顯,各組區(qū)分度不夠。因此分為3或是4組比較合適。

我們對(duì)分為3類可以有如下解釋,兒童在1歲的時(shí)候是整個(gè)1-11歲階段體重成長速度最快的階段;2-7歲的時(shí)候是兒童幼兒園和上小學(xué)前的階段,8-11歲兒童的生活比較規(guī)律,也是進(jìn)入青春期的時(shí)期,體重增加比較穩(wěn)定。如果分為4類,那么2-7歲就可以被分為2-4歲的學(xué)齡前,此時(shí)體重增長相對(duì)1歲時(shí)變的更為緩慢,5-7歲正處于要入學(xué)或剛?cè)雽W(xué)的階段,這個(gè)時(shí)期的兒童較為活潑好動(dòng),體重增加較2-4歲變得更加緩慢。

有序事物的聚類分析在生活中是得到廣泛應(yīng)用的,例如氣候變化分析、高速公路的路段長度劃分、證券市場階段分析等。有序事物的聚類分析是一種行之有效的研究方法,在我們以后面對(duì)形形色色的新知識(shí)而一頭霧水、不知如何入手時(shí),就可以采用這種方法,梳理新的知識(shí)的脈絡(luò),最終入得寶山滿載而歸。

參考文獻(xiàn)

[1]劉潔.聚類分析——讓我們輕松找到事物之間的聯(lián)系[J].北京統(tǒng)計(jì),2003,(09):45-46.

[2]黃忠裕. 初等數(shù)學(xué)建模[m]. 四川:四川大學(xué)出版社,2004,223-226.

[3]上海市中學(xué)生數(shù)學(xué)知識(shí)應(yīng)用競賽組織委員會(huì). 中學(xué)數(shù)學(xué)建模與賽題集錦(第二版)[M]. 上海:復(fù)旦大學(xué)出版社,2014,105-109.endprint

猜你喜歡
聚類分析分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于聚類分析研究貴州省各地區(qū)經(jīng)濟(jì)發(fā)展綜合評(píng)價(jià)
商情(2016年39期)2016-11-21 08:45:54
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費(fèi)支出分析
基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
中國市場(2016年33期)2016-10-18 12:16:58
基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
科技視界(2016年20期)2016-09-29 12:32:48
福泉市| 曲麻莱县| 当阳市| 且末县| 新竹县| 和政县| 葫芦岛市| 博野县| 万宁市| 新余市| 长海县| 平乐县| 延安市| 休宁县| 澄城县| 嵊州市| 马山县| 兴隆县| 堆龙德庆县| 宜阳县| 乌兰县| 忻州市| 延吉市| 宿州市| 新巴尔虎右旗| 济宁市| 永新县| 黎城县| 馆陶县| 阿勒泰市| 太白县| 固始县| 海淀区| 周至县| 浙江省| 额敏县| 永泰县| 庄浪县| 永清县| 仁化县| 晴隆县|