国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高斯核層次聚類的汽車工況構(gòu)建

2020-03-18 01:39
關(guān)鍵詞:高斯聚類工況

韓 鑫

(西安石油大學(xué) 計(jì)算機(jī)學(xué)院, 西安 710065)

0 引 言

汽車行駛工況也被稱為車輛測試循環(huán),描述了汽車行駛速度的時(shí)間曲線(通常在1 800 s以內(nèi)),反映了道路上汽車的運(yùn)動(dòng)特性[1]。其是汽車工業(yè)中重要且常見的基本技術(shù)、車輛的能耗排放測試方法和極限標(biāo)準(zhǔn)的基礎(chǔ),也是汽車各種性能指標(biāo)的校準(zhǔn)和優(yōu)化的最重要基準(zhǔn)。中國幅員遼闊,不同城市之間的發(fā)展程度、氣候條件和交通條件的差異,使各個(gè)城市的駕駛條件特征明顯不同。因此,作為車輛開發(fā)和評估的基礎(chǔ),越來越需要從城市自身的駕駛數(shù)據(jù)中進(jìn)行汽車行駛工況構(gòu)建的研究。

大多數(shù)已有研究在工況構(gòu)建時(shí)選擇k-means 聚類方法作為聚類手段[2],但由于k-means 聚類需要提前確立數(shù)據(jù)中聚類的個(gè)數(shù)k。根據(jù)已有的研究結(jié)果及經(jīng)驗(yàn),將類別分為 3 類或者4類[3]。然而,當(dāng)數(shù)據(jù)量較大,采集數(shù)據(jù)情況復(fù)雜時(shí),先驗(yàn)知識具有很大的局限性[4]。在不觀察數(shù)據(jù)就確立類別數(shù),勢必會(huì)給聚類結(jié)果帶來很大的誤差。層次聚類算法可以返回一顆聚類樹,從聚類樹中可以得到所有的聚類結(jié)果供使用者選擇,從而避免了選擇聚類個(gè)數(shù)的問題。由于一般汽車工況特征比較復(fù)雜,極有可能導(dǎo)致數(shù)據(jù)在低維空間下不可分,而使用核方法特別是高斯核方法,可以將數(shù)據(jù)特征空間映射到高維甚至無限維的空間,從而更好地將數(shù)據(jù)分開[5]。因此,本文采用基于高斯核的層次聚類算法,對構(gòu)建的車況特征進(jìn)行聚類,提高聚類準(zhǔn)確度。

1 特征定義

將收集的速度數(shù)據(jù)轉(zhuǎn)換為特征參數(shù)數(shù)據(jù)的過程,可以視為數(shù)據(jù)轉(zhuǎn)換。特性參數(shù)可以更好地表達(dá)短途行駛的情況,并且更有利于分析。在分割的短行程中只有速度和時(shí)間數(shù)據(jù),但是僅使用速度和時(shí)間并不能完整地表征短行程運(yùn)行的特征。因此,本文從統(tǒng)計(jì)信息、形狀信息以及熵信息中共提取構(gòu)建了21個(gè)特征。

1.1 統(tǒng)計(jì)特征

短行程的統(tǒng)計(jì)特征數(shù)據(jù)主要為速度、加速度的比例、均值、標(biāo)準(zhǔn)差、最大最小值等,速度與時(shí)間數(shù)據(jù)是直接采集的。由于采集頻率為1 HZ,所以對于任意時(shí)刻i,則有ti+1-ti=1, 加速度計(jì)算如式(1)所示:

(1)

其中,ai,i+1為第i秒到第i+1的加速度,m/s2;vi為i秒的速度,km/h;ti為第i秒時(shí)刻,s。

(1)最大速度、平均速度、速度方差(vmax,vm,vme,vsd)的計(jì)算公式分別為:

(2)

(2)最大加速度、最小加速度、平均加速度、平均減速度、加速度方差(amax,amin,aa,ad,asd)的計(jì)算公式分別為:

(3)

其中,Ta為加速度大于0.15的時(shí)間;Td為減速度小于0.15的時(shí)間。

1.2 形狀特征

除構(gòu)建統(tǒng)計(jì)特征外,由于片段為時(shí)間序列,需要捕獲速度在波形形狀上的特征。最新研究表明,將偏度和峰度相結(jié)合是對序列相關(guān)性度量的有用特征。偏度是統(tǒng)計(jì)數(shù)據(jù)分布中偏斜方向和程度的度量,是統(tǒng)計(jì)數(shù)據(jù)分布中偏斜度的數(shù)值特征。峰度表示概率密度分布曲線的峰值在平均值處高度的數(shù)量特征。直覺上,峰度反映了峰的銳度[6]。

對于長度為T的時(shí)間序列XT={x1,…,xT},其均值μ和方差σ分別為:

(4)

(5)

T的偏度定義為其三階標(biāo)準(zhǔn)化矩為:

(6)

T的峰度定義為其四階中心矩與方差平方的比值:

(7)

1.3 序列熵特征

除構(gòu)建片段統(tǒng)計(jì)特征和形狀特征外,還需要描述片段的確定性或者穩(wěn)定性。在本文中,對于速度片段的時(shí)間序列,加入Binned 熵和Approximate 熵用于分別度量速度片段的均勻性和穩(wěn)定性。

Binned熵考慮將時(shí)間序列XT的取值進(jìn)行分區(qū)操作。之后計(jì)算時(shí)間序列的取值分散在所有區(qū)域中的概率分布的熵。

(8)

其中,pk表示時(shí)間序列XT的取值落在第k個(gè)桶的比例(概率);maxbin表示區(qū)域的個(gè)數(shù);len(XT)=T表示時(shí)間序列XT的長度。

片段速度序列的 Binned 熵越大,說明這一段時(shí)間內(nèi)速度取值的分布,在[min(XT),max(XT)]之間越均勻。如果一個(gè)片段的速度序列的 Binned 熵值較小,說明這一段時(shí)間序列的取值是集中在某一段上。

Approximate熵是為了判斷一個(gè)序列是隨機(jī)出現(xiàn)還是具有某種趨勢。其基本思想是,把一維空間的時(shí)間序列映射到高維空間中,并通過高維空間向量之間的相似度判斷,推導(dǎo)出一維空間的時(shí)間序列是否存在某種趨勢或者確定性。

ApEn(m,r)=Φm(r)-Φm+1(r).

(9)

其中,Φm(r)為一個(gè)m維的函數(shù)。

2 基于高斯核的層次聚類

層次聚類是一種常見的聚類算法,該算法能在不同的層次上對數(shù)據(jù)樣本進(jìn)行劃分歸類,而不需要提前確定聚類的類別的數(shù)量。同樣,該算法適用于對樣本不確定或缺乏領(lǐng)域知識時(shí)使用。通常,層次聚類可分為兩種特定的策略。一是:將樣本(小類)從底部到頂部(大類)進(jìn)行分組的策略;二是拆分型層次聚類:將大類從頂部進(jìn)行劃分。根據(jù)研究對象及數(shù)據(jù)的具體情況,本文采用第一種凝聚型層次聚類策略。

凝聚型層次聚類的具體步驟,是將每個(gè)樣本視為具有單個(gè)元素的單個(gè)聚類,然后計(jì)算類之間的距離(相異性),合并具有最短距離的類(即最大的相似性),并遍歷整個(gè)過程,逐步將小類合并,直到所有樣本都在同一類中為止。設(shè)給定n個(gè)樣本點(diǎn)x1,x2,…,xn,具體流程如下:

(1)將每個(gè)樣本點(diǎn)視為一個(gè)類,并計(jì)算兩個(gè)樣本之間的距離dist(xi,xj);

(2)將兩個(gè)最接近的類,合并為一個(gè)新類;

(3)更新類間的距離;

(4)重復(fù)(2)和(3)步驟,直到所有樣本都被合并到一個(gè)類中/達(dá)到結(jié)束條件為止。

從層次聚類算法流程中可以看出,凝聚型層次聚算法的關(guān)鍵問題是,確立對象(樣本)間,以及簇與簇之間的距離。而類與類之間的距離是根據(jù)不同的連接函數(shù)(如單連接、全連接)從樣本間的距離產(chǎn)生。因此,兩兩樣本之間的距離在算法中發(fā)揮著重要作用。在計(jì)算兩個(gè)樣本之間的距離時(shí),傳統(tǒng)的層次聚類法往往采用歐式距離。對于樣本xi和xj,其距離度量如式(10)所示。

dist(xi,xj)=‖xi-xj‖2.

(10)

然而,基于歐式距離的凝聚型層次聚算法受噪聲點(diǎn)的影響較大。當(dāng)兩個(gè)類的距離較近時(shí),會(huì)由于少量距離較近的點(diǎn)優(yōu)先合成一個(gè)簇,而實(shí)際兩個(gè)類的大多數(shù)樣本并不接近,從而造成聚類誤差?;跉W式距離的凝聚型層次聚類算法,可看做是使用線性模型學(xué)習(xí)決策邊界,由于它只能學(xué)習(xí)非常簡單的線性決策邊界,因此造成該算法對噪聲點(diǎn)非常敏感,從而無法將類別有效的分開。對于在線性空間中無法分開的情況,可以將數(shù)據(jù)提高維度,在高維空間中找到分類邊界,進(jìn)而避免噪聲點(diǎn)在原始空間的影響[5]。

本文采用高斯核度量的方法實(shí)現(xiàn)維數(shù)的增加,其定義如下:

(11)

如式(12)所示,高斯核函數(shù)的特性是把低維空間轉(zhuǎn)化為無限維空間,同時(shí)又實(shí)現(xiàn)了在低維計(jì)算高維點(diǎn)積。

k(x,y)=〈φ(x),φ(y)〉=e-σ‖x-y‖2=e-σ(x2+y2)eσ2xy=

(12)

若給定n個(gè)樣本點(diǎn)x1,x2,…,xn,基于高斯核的凝聚型層次聚算法如下:

(1)將每個(gè)樣本點(diǎn)視為一個(gè)類,并基于式(11)計(jì)算兩個(gè)樣本之間的距離;

(2) 將兩個(gè)最接近的類合并為一個(gè)新類;

(3)更新類間距離;

(4)重復(fù)(2)和(3),直到所有類都被合并到一個(gè)類中/達(dá)到結(jié)束條件為止。

從高斯核凝聚型層次聚類算法流程可以看出,該算法將樣本間的距離計(jì)算修改為基于高斯核函數(shù)的度量,其它則保持了原始算法的步驟。該算法在保證了原始層次聚類算法簡單性的同時(shí),又可提高算法在克服線性不可分情況的缺陷。

3 實(shí) 驗(yàn)

原始采集數(shù)據(jù)經(jīng)過運(yùn)動(dòng)學(xué)片段的劃分、篩選,采用基于高斯核的層次聚類結(jié)果,使用TSNE在二維空間中可視化的展示如圖1所示。 所有運(yùn)動(dòng)學(xué)片段可被分為3個(gè)類別,但每個(gè)類別中仍然有數(shù)百個(gè)運(yùn)動(dòng)學(xué)片段,則可從每個(gè)類別中提取適當(dāng)?shù)钠?,這些片段應(yīng)該盡可能完整地反映每種類型的片段特征,從而使構(gòu)造的車況曲線可以客觀地反映車輛的實(shí)際駕駛情況。

圖1 聚類結(jié)果圖

通過分析每一類的運(yùn)動(dòng)學(xué)片段發(fā)現(xiàn):第一類的加速、減速時(shí)間比例最低,怠速時(shí)間比例最高, 說明汽車長時(shí)間怠速,但是起步加速與制動(dòng)減速運(yùn)行時(shí)間較短,第一類可代表汽車在擁堵的主干道上的交通特征;第二類的加速、怠速、減速時(shí)間比例均中平,勻速時(shí)間比例最高,表明汽車勻速行駛時(shí)間較長,同時(shí)也要經(jīng)歷一定的停車、怠速、起步,第二類可代表汽車在比較暢通的支干道上行駛的特征;第三類的勻速、怠速時(shí)間比例最低,加速、減速時(shí)間比例最高,代表汽車行駛中可以長時(shí)間加速、減速行駛,停車怠速時(shí)間很短,該類可代表汽車在通暢的城郊道路上行駛的特征。

從每個(gè)類中挑選運(yùn)動(dòng)學(xué)的一個(gè)片段,拼接成1 300 s的工況循環(huán)曲線,如圖2所示。

圖2 構(gòu)建工況圖

由此可見,其結(jié)果完全符合汽車工況規(guī)律,具有有效性。

4 結(jié)束語

汽車行駛工況描述了汽車行駛速度的時(shí)間曲線,反映了道路上汽車的運(yùn)動(dòng)特性,是車輛的能耗排放測試方法和極限標(biāo)準(zhǔn)的基礎(chǔ),是汽車各種性能指標(biāo)的校準(zhǔn)和優(yōu)化的最重要基準(zhǔn)。本文在定義了包括統(tǒng)計(jì)特征、形狀特征、熵特征等共計(jì)14個(gè)運(yùn)動(dòng)學(xué)片段的有效特征后,構(gòu)建基于高斯核的層次聚類算法對片段進(jìn)行聚類。 根據(jù)運(yùn)動(dòng)學(xué)片段類別的比例及

時(shí)間比例,從聚類結(jié)果的中抽取具有代表性的片段拼接成1 300 s的工況圖。經(jīng)試驗(yàn)結(jié)果表明,構(gòu)建的工況圖具有較大參考價(jià)值。

猜你喜歡
高斯聚類工況
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
熱網(wǎng)異常工況的辨識
基于知識圖譜的k-modes文本聚類研究
一種改進(jìn)K-means聚類的近鄰傳播最大最小距離算法
不同工況下噴水推進(jìn)泵內(nèi)流性能研究
誤使用工況下兒童安全座椅安全性的開發(fā)與驗(yàn)證
汽車行駛工況識別模型搭建的方法研究
基于模糊聚類和支持向量回歸的成績預(yù)測
數(shù)學(xué)王子高斯
從自卑到自信 瑞恩·高斯林
辽宁省| 白玉县| 南投县| 深水埗区| 桐庐县| 织金县| 特克斯县| 梅州市| 柳林县| 华容县| 抚宁县| 阳曲县| 信阳市| 会泽县| 新河县| 文安县| 陈巴尔虎旗| 屏山县| 县级市| 靖边县| 西平县| 陵川县| 华蓥市| 青冈县| 宕昌县| 阿克苏市| 金乡县| 河东区| 永善县| 丰县| 江达县| 图们市| 龙口市| 博白县| 文安县| 本溪市| 吴川市| 大悟县| 淮阳县| 襄垣县| 城口县|