戴 丹,管有慶,龔 銳
(南京郵電大學(xué) 物聯(lián)網(wǎng)學(xué)院,江蘇 南京 210003)
活動(dòng)識(shí)別主要是實(shí)現(xiàn)對(duì)用戶的活動(dòng)感知,其實(shí)質(zhì)是利用計(jì)算機(jī)對(duì)數(shù)據(jù)庫中的低層次數(shù)據(jù)進(jìn)行識(shí)別、理解和預(yù)測(cè),推動(dòng)從低層次數(shù)據(jù)到高層次語義活動(dòng)的理解。一般低層次數(shù)據(jù)是指采集到的日志數(shù)據(jù)信息,如傳感器的日志數(shù)據(jù)、服務(wù)器操作記錄日志數(shù)據(jù)等等,這些數(shù)據(jù)僅僅反映了用戶單純的某個(gè)動(dòng)作,例如打開廚房門、打開水龍頭等簡(jiǎn)單的動(dòng)作。從低層次數(shù)據(jù)中得到的信息會(huì)非常零碎,外部控制設(shè)備很難根據(jù)這些信息做出具體的智能控制,即活動(dòng)識(shí)別基于這些低層次的數(shù)據(jù)特征識(shí)別出高層次的活動(dòng)信息,完成從數(shù)據(jù)到用戶活動(dòng)的轉(zhuǎn)變,使得控制器更加智能化和自動(dòng)化。
因?yàn)橛脩艋顒?dòng)的復(fù)雜性和多樣性,如何使用計(jì)算機(jī)正確進(jìn)行活動(dòng)識(shí)別一直是智能家居領(lǐng)域的一個(gè)難點(diǎn),總的來說可以分為這幾個(gè)研究方向:活動(dòng)的并發(fā)性、活動(dòng)的不確定性以及數(shù)據(jù)的不確定性。活動(dòng)的并發(fā)性是指用戶可以同時(shí)進(jìn)行幾項(xiàng)活動(dòng),活動(dòng)交錯(cuò)進(jìn)行且沒有時(shí)序性,例如用戶可以在邊打掃衛(wèi)生的同時(shí)邊收看電視節(jié)目或者用戶在觀看電視途中收到電話通知會(huì)暫停觀看電視節(jié)目去接電話,接完電話再繼續(xù)觀看電視。這種情況下打掃和看電視是同時(shí)進(jìn)行的活動(dòng),打電話和看電視是交錯(cuò)進(jìn)行的活動(dòng),但是有些活動(dòng)識(shí)別的方法并不能有效地識(shí)別出不按順序執(zhí)行的活動(dòng)和沒有時(shí)序性的活動(dòng),這些方法在解決活動(dòng)的并發(fā)性上就產(chǎn)生了很大的局限性?;顒?dòng)的不確定性是指具有相同動(dòng)作和傳感器數(shù)據(jù)流程的活動(dòng)有可能不同,即收集到的傳感器數(shù)據(jù)有可能是一樣的,但是卻對(duì)應(yīng)著多個(gè)不同的活動(dòng),例如用戶打開廚房的水龍頭開關(guān)有可能是在進(jìn)行打掃的活動(dòng)也有可能是在做飯,做飯和打掃都觸發(fā)了同樣的傳感器。數(shù)據(jù)的不確定性是指因環(huán)境因素帶來的傳感器數(shù)據(jù)缺失等。這些數(shù)據(jù)是片面的具有不確定性的,因此在進(jìn)行用戶的活動(dòng)識(shí)別時(shí)往往帶來了一定程度上的困難。
總結(jié)國內(nèi)外大量的活動(dòng)識(shí)別研究方法,可分為數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)方法。數(shù)據(jù)驅(qū)動(dòng)是基于學(xué)習(xí)的技術(shù),基于學(xué)習(xí)的技術(shù)的優(yōu)勢(shì)是處理不確定性的能力,能夠獲得高準(zhǔn)確率的活動(dòng)識(shí)別。但是數(shù)據(jù)驅(qū)動(dòng)易受到維數(shù)的限制,并且需要大量的初始訓(xùn)練數(shù)據(jù)集來訓(xùn)練活動(dòng)模型。知識(shí)驅(qū)動(dòng)方法利用先驗(yàn)知識(shí)建立語義活動(dòng)模型,然后輸入傳感器數(shù)據(jù)對(duì)其進(jìn)行推理,促進(jìn)了語義活動(dòng)模型和識(shí)別過程的發(fā)展。但是仍然有一些局限性,它對(duì)于時(shí)態(tài)信息建模的支持很少,且不能處理不確定性。Lester等人應(yīng)用數(shù)據(jù)驅(qū)動(dòng)中的HMM(hidden Markov model,隱馬爾可夫模型)來構(gòu)建用戶的活動(dòng),提出了一種判定啟發(fā)式方法來進(jìn)行用戶活動(dòng)識(shí)別。Chen L等人提出了一種構(gòu)建本體模型的知識(shí)驅(qū)動(dòng)的方法,解決了異構(gòu)數(shù)據(jù)間的知識(shí)共享問題,但沒有解決活動(dòng)的不確定性問題。
該文在采用本體推理的基礎(chǔ)上,融合改進(jìn)的證據(jù)推理提出了一種ER-OT算法。本體推理主要是通過Jena推理機(jī),證據(jù)推理主要是通過D-S理論(Dempster-Shafer theory,證據(jù)理論)賦予缺失的傳感器數(shù)據(jù)權(quán)重,然后與其他證據(jù)相結(jié)合。此外,通過重新定義的沖突系數(shù)來改進(jìn)證據(jù)合成規(guī)則,改進(jìn)的證據(jù)合成規(guī)則可以通過組合證據(jù)來解決沖突數(shù)據(jù),最后應(yīng)用于融合最終的推理結(jié)果,從而促進(jìn)了活動(dòng)識(shí)別過程。該推理算法既保持了本體推理的優(yōu)勢(shì),又使其具有了處理活動(dòng)識(shí)別過程中不確定性的能力。
(1)識(shí)別框架(Θ)。
若存在一個(gè)需要判決的問題,該問題所有可能答案的有限集用Θ來表示,Θ可以是數(shù)值變量,也可以是非數(shù)值變量,而且在這些答案中有且只有一個(gè)是正確的,則稱Θ為識(shí)別框架,用數(shù)學(xué)語言表示為Θ={θ
,θ
,…,θ
,…,θ
},其中θ
是Θ的一個(gè)事件或者一個(gè)元素,n
是Θ中元素的個(gè)數(shù),i
=1,2,…,n
,Θ的空間大小為2。(2)BPA(basic probability assignment,基本概率分配函數(shù))。
設(shè)Θ是識(shí)別框架,A
為識(shí)別框架Θ的任一子集,集函數(shù)m
:2→[0,1],并且滿足條件:(1)
式中,?是空集,m
(A
)是對(duì)于事件A
的基本信任分配值,表示Θ中的證據(jù)對(duì)A
的信任程度。A
為Θ下的子集,如果滿足m
(A
)>0,那么就稱A
為焦元。焦元中包含Θ的元素的個(gè)數(shù)稱為這個(gè)焦元的基。所有焦元的集合被稱為該證據(jù)的核。(3)信任函數(shù)。
D-S理論中的信任函數(shù)定義為Bel,它表示在當(dāng)前環(huán)境下,對(duì)某假設(shè)集合所信任的程度。在識(shí)別框架Θ上基于BPA的信任函數(shù)的定義為:
(2)
式中,Bel(A
)稱為事件A
的信任值,表示事件A
中所有子集B
的基本信任分配之和,即對(duì)A
的最低信任程度。根據(jù)定義可以得出空集的信任值為0。(4)似然函數(shù)。
似然函數(shù)的定義為Pl,又被稱為不可駁斥函數(shù)或上限函數(shù),一般通過似然函數(shù)來描述對(duì)集合為非假的信任程度,即為對(duì)事件A
的懷疑程度。在識(shí)別框架Θ上基于BPA的似然函數(shù)的定義為:(3)
或:
(4)
其中,在Θ中的事件A
,根據(jù)基本概率分配BPA可以計(jì)算出其信任函數(shù)Bel(A
)和似然函數(shù)Pl(A
),其中Bel(A
)表示對(duì)事件A
為真的信任程度,Pl(A
)表示對(duì)事件A
為非假的信任程度,且Pl(A
)≥Bel(A
),所以其信任區(qū)間可表示為[Bel(A
),Pl(A
)]。D-S合成規(guī)則是證據(jù)推理完成信息融合過程的核心,它可以表示出證據(jù)間的聯(lián)合作用。如果給定了同一識(shí)別框架下幾組不同證據(jù)的基本概率分配函數(shù)即質(zhì)量函數(shù),且這幾組證據(jù)不是完全互相沖突的,那么就可以利用D-S合成規(guī)則計(jì)算出這幾組證據(jù)聯(lián)合作用下的聯(lián)合質(zhì)量函數(shù)。D-S理論的合成主要包括兩組證據(jù)的合成和多組證據(jù)的合成,兩組證據(jù)的D-S理論合成規(guī)則定義如下:
設(shè)m
表示識(shí)別框架Θ下第i
組證據(jù)的基本概率分配函數(shù),i
=1,2,…,n
為證據(jù)組數(shù)。對(duì)于第一組、第二組兩組證據(jù)進(jìn)行合成:(5)
其中:
(6)
其中,A
、B
分別為m
、m
的焦元,表示第一組證據(jù)的基本概率分配函數(shù);K
表示證據(jù)之間的沖突系數(shù),反映了證據(jù)間的沖突程度。K
越大代表證據(jù)之間的沖突越大。若K
=1則表示證據(jù)之間完全沖突,K
=0則表示證據(jù)完全不沖突。多組證據(jù)的D-S理論合成規(guī)則如下:
m
(Z
)=m
⊕m
⊕…⊕m
=(7)
其中:
(8)
其中,A
、B
和N
分別為m
、m
和m
的焦元,m
(i
=1,2,…,n
)表示識(shí)別框架Θ下第i
組證據(jù)的基本概率分配函數(shù),K
表示證據(jù)之間的沖突系數(shù)。例1:假設(shè)2個(gè)傳感器對(duì)同一個(gè)活動(dòng)進(jìn)行識(shí)別,認(rèn)為活動(dòng)可能是睡覺(A
),打掃(B
)和洗澡(C
)中的一種,則識(shí)別框架Θ={A
,B
,C
},兩組證據(jù)的基本概率函數(shù)如下:則按照D-S理論合成規(guī)則可得K
=0.
99,m
(A
)=0,m
(B
)=1,m
(C
)=0,從證據(jù)合成后的結(jié)果可以得到,兩組證據(jù)對(duì)B
的可信度很低,但是合成后卻得到了B
是確定事件,產(chǎn)生了不合理的結(jié)果,所以證據(jù)在完全沖突或嚴(yán)重沖突時(shí),傳統(tǒng)的D-S理論合成規(guī)則可能會(huì)得到錯(cuò)誤的合成結(jié)果,因此下面提出了一種D-S理論的改進(jìn)方法。K
過大時(shí),會(huì)得到有悖常理的合成結(jié)果。所以國內(nèi)外學(xué)者提出了很多改進(jìn)辦法,如墨菲(Murphy)提出了一種修改證據(jù)模型但是并不改變D-S理論合成規(guī)則的經(jīng)典算法,其主要思想是將算術(shù)平均證據(jù)作為新證據(jù),并利用D-S理論合成規(guī)則進(jìn)行合成。基于上述改進(jìn)方法,可應(yīng)用加權(quán)分配的思想將智能家居中的傳感器收集的多組證據(jù)賦予不同的權(quán)重,一組被其他證據(jù)高度支持的證據(jù)應(yīng)賦予較高的權(quán)重,而一組與其他證據(jù)沖突較高的證據(jù)應(yīng)賦予較低的權(quán)重,計(jì)算公式如下:
m
(Z
)=∑m
(A
)ω
+m
(B
)ω
+…+m
(N
)ω
(9)
其中,ω
,ω
,…,ω
表示m
,m
,…,m
對(duì)應(yīng)的加權(quán)系數(shù)。例2:假設(shè)識(shí)別框架Θ={A
,B
,C
},兩組證據(jù)的基本概率函數(shù)如下:M
:m
(A
)=0.
99,m
(B
)=0,m
(C
)=0.
01M
:m
(A
)=0.
01,m
(B
)=0,m
(C
)=0.
99由加權(quán)分配的思想將ω
設(shè)為0.5,ω
設(shè)為0,ω
設(shè)為0.5,按加權(quán)合成規(guī)則可得m
(A
)=1,m
(B
)=0,m
(C
)=1,K
=0.
990 1??梢钥闯鲈谧C據(jù)嚴(yán)重沖突的情況下基于以上的合成規(guī)則的改進(jìn)方法,沖突系數(shù)依舊不能清楚表述證據(jù)之間沖突的程度,所以提出在加權(quán)分配的基礎(chǔ)上引入明氏距離函數(shù)來解決這一問題,對(duì)沖突系數(shù)重新進(jìn)行了定義,沖突系數(shù)的定義公式如式(12)所示。假設(shè)識(shí)別框架Θ={Z
,Z
,…,Z
},Z
為識(shí)別框架的焦元,a
和b
分別為基于焦元Z
的各組證據(jù)的基本概率分配函數(shù),證據(jù)體m
、m
的定義如式(10)所示:(10)
根據(jù)明氏距離函數(shù)得到m
、m
之間的距離d
(m
,m
)的定義,如式(11)所示。(11)
式中,a
和b
分別為基于焦元Z
的各組證據(jù)的基本概率分配函數(shù),當(dāng)n
=1時(shí)為曼哈頓距離,當(dāng)n
=2為歐氏距離,當(dāng)n
→∞時(shí)為切比雪夫距離?;诿魇暇嚯x函數(shù)重新定義的沖突系數(shù)K
為:(12)
結(jié)合加權(quán)分配法的證據(jù)推理算法處理有矛盾沖突的證據(jù),步驟如下:
Step1:讀入兩組證據(jù)m
和m
;Step2:按重新定義的沖突系數(shù)計(jì)算沖突系數(shù)K
,判斷K
是否大于設(shè)定的閾值,如果大于閾值則是沖突證據(jù),跳到Step4;否則跳到Step3;Step3:按D-S理論合成規(guī)則對(duì)證據(jù)進(jìn)行合成,跳到Step5;
Step4:使用加權(quán)分配法處理沖突證據(jù);
Step5:如果證據(jù)合成未結(jié)束,跳到Step2繼續(xù)合成,否則結(jié)束。
ER-OT算法的流程如圖1所示。
在ER-OT算法的本體推理中,主要是應(yīng)用Jena推理機(jī)進(jìn)行本體推理。首先對(duì)傳感器數(shù)據(jù)信息進(jìn)行分類,列出各種可能推測(cè)的結(jié)果,再將這些信息與推測(cè)結(jié)果根據(jù)某種算法映射起來,并計(jì)算出每個(gè)獨(dú)立結(jié)果的可能性。要對(duì)用戶正在進(jìn)行的活動(dòng)進(jìn)行推測(cè),首先要對(duì)從傳感器收集到的傳感器信息按照其可能對(duì)應(yīng)的推理結(jié)果進(jìn)行分類。比如,用戶活動(dòng)的推理結(jié)果“睡覺”,那么就要將對(duì)應(yīng)的可能能夠作為判斷依據(jù)的傳感器數(shù)據(jù)信息歸為一類,其可能是加速度傳感器、光敏傳感器或者心率傳感器等。歸類之后,就會(huì)按照某一原始的推理算法推算出用戶在睡覺的可能性。
證據(jù)推理就是融合動(dòng)作上下文來計(jì)算活動(dòng)的信任度,由低級(jí)的動(dòng)作上下文來推斷出高級(jí)的活動(dòng)信息??梢詫-S理論中的證據(jù)理解為知識(shí)庫中的低級(jí)本體,而活動(dòng)識(shí)別中的高級(jí)本體能對(duì)應(yīng)的就是D-S理論中的識(shí)別框架集合。然后,D-S理論會(huì)根據(jù)每個(gè)不同的證據(jù),以及每個(gè)證據(jù)單獨(dú)的支持的Bel函數(shù)根據(jù)信任度函數(shù)和合成規(guī)則將本體推理和證據(jù)推理的結(jié)果進(jìn)行合成,最后得出每個(gè)支持的證據(jù)的信任度。只需要選取其中信任度最高的前一項(xiàng)或者兩項(xiàng),就是所要得到的推理結(jié)果。
圖1 ER-OT算法流程
ER-OT算法基本思想概述為:
Step1:一旦觸發(fā)推理模塊,判斷輸入的信息。
Step2:如果輸入的數(shù)據(jù)無法和知識(shí)庫中的數(shù)據(jù)進(jìn)行本體匹配,將推理信息輸入到Jena本體推理機(jī)和改進(jìn)的證據(jù)推理算法中,兩者會(huì)分別得出相應(yīng)的推理結(jié)果,跳到Step3;如果輸入的數(shù)據(jù)可以和知識(shí)庫中的數(shù)據(jù)進(jìn)行本體匹配,則將匹配的數(shù)據(jù)存入到知識(shí)庫中并更新本體數(shù)據(jù),跳到Step4。
Step3:將推理結(jié)論用改進(jìn)的D-S理論合成規(guī)則進(jìn)行結(jié)論的合成后輸出最終推理結(jié)果,同時(shí)也將推理結(jié)果存入知識(shí)庫中以方便以后提取。
Step4:將匹配到的數(shù)據(jù)以及推理出的結(jié)果存入知識(shí)庫中,從而得出最終的推理結(jié)果。
實(shí)驗(yàn)重點(diǎn)在于驗(yàn)證ER-OT算法在解決活動(dòng)識(shí)別中的不確定性問題的實(shí)用性,并與現(xiàn)有的算法(如MLN,本體(ontology)等)在CASAS(center for advanced studies in adaptive systems,自適應(yīng)系統(tǒng)高級(jí)研究中心)數(shù)據(jù)集下進(jìn)行比較。通過下面實(shí)驗(yàn)可知,基于ER-OT算法的活動(dòng)識(shí)別方法能很好地解決活動(dòng)中的不確定性,并且優(yōu)于其他的推理方法。
實(shí)驗(yàn)環(huán)境是基于eclipse,Jena,Matlab 2016b和Protégé 5.0的。日常活動(dòng)數(shù)據(jù)集收集于華盛頓州立大學(xué)的CASAS項(xiàng)目,活動(dòng)數(shù)據(jù)集(ADL)記錄了傳感器的開關(guān)時(shí)間和位置等。智慧空間分為四個(gè)區(qū)域:休息室、衛(wèi)生間、廚房和餐廳。
智能家居場(chǎng)景下的傳感器包括檢測(cè)人體壓力的PIR(pyroelectric infrared sensor for human body,人體熱釋電紅外傳感器)傳感器和“物品傳感器”,每個(gè)區(qū)域內(nèi)的PIR傳感器用于檢測(cè)用戶是否存在,“物品傳感器”用于指示給定對(duì)象的狀態(tài),例如“門傳感器”用于表示門的打開或關(guān)閉。采用ADL和ADL-D兩組數(shù)據(jù)集進(jìn)行驗(yàn)證,其中ADL為用戶順序執(zhí)行活動(dòng)的數(shù)據(jù)集,ADL-D為用戶不遵循特定順序執(zhí)行活動(dòng)的數(shù)據(jù)集。
收集了20個(gè)測(cè)試人員的5種日?;顒?dòng):(1)打掃(180 s);(2)吃飯(120 s);(3)休閑活動(dòng)(240 s);(4)洗漱(60 s);(5)睡覺(720 s),包括6 438條數(shù)據(jù)。表1給出了5種用戶順序執(zhí)行的活動(dòng)及其描述。
表1 5種用戶順序執(zhí)行的活動(dòng)
實(shí)驗(yàn)中閾值代表某一項(xiàng)活動(dòng)中證據(jù)的強(qiáng)度,范圍為[0,1],其中0表示沒有證據(jù),1表示確定性,在這里設(shè)置為0.5,表示要求至少有一半的證據(jù)來斷定用戶在進(jìn)行某個(gè)活動(dòng)。用改進(jìn)的證據(jù)推理和本體推理的算法推理出結(jié)果后,按照本體推理權(quán)重系數(shù)0.3,D-S理論權(quán)重系數(shù)0.7再對(duì)推理結(jié)果用D-S理論合成公式進(jìn)行合成。
使用F1作為評(píng)價(jià)標(biāo)準(zhǔn),F(xiàn)1的計(jì)算方法如公式(13)所示。
(13)
其中,準(zhǔn)確率Precision=TP/(TP+FP)、召回率Recall=TP/(TP+FN),TP表示正確識(shí)別的活動(dòng)數(shù)目,F(xiàn)P表示錯(cuò)誤識(shí)別的活動(dòng)數(shù)目,F(xiàn)N表示沒有識(shí)別出的活動(dòng)數(shù)目。按順序執(zhí)行的活動(dòng)得出的最終推理結(jié)果的準(zhǔn)確率如表2所示,參與者在執(zhí)行活動(dòng)時(shí)不遵循特定順序最終推理結(jié)果的準(zhǔn)確率如表3所示。
表2 利用ADL數(shù)據(jù)集進(jìn)行活動(dòng)識(shí)別的準(zhǔn)確率
表3 利用ADL-D數(shù)據(jù)集進(jìn)行活動(dòng)識(shí)別的準(zhǔn)確率
將ER-OT算法與Ontology算法以及MLN算法進(jìn)行對(duì)比實(shí)驗(yàn)。其中Ontology算法使用Protégé 5.0構(gòu)建活動(dòng)本體,并用Jena推理機(jī)進(jìn)行推理,完成實(shí)驗(yàn)。MLN算法則使用工具Tuffy來實(shí)現(xiàn)。
如表2和表3所示,因?yàn)閭鞲衅鲾?shù)據(jù)在傳輸中的丟失導(dǎo)致的不確定性,Ontology算法在兩個(gè)數(shù)據(jù)集除打掃外的所有活動(dòng)中均表現(xiàn)良好。ER-OT算法融合了改進(jìn)證據(jù)推理的推理結(jié)果,提高了準(zhǔn)確率。表2中可以看出ER-OT算法量化了傳感器數(shù)據(jù)中的不確定性,提高了在不遵循特定順序執(zhí)行活動(dòng)的活動(dòng)識(shí)別準(zhǔn)確率,并且優(yōu)于其他兩個(gè)算法??傮w而言,在實(shí)驗(yàn)所考慮的大多數(shù)活動(dòng)中,ER-OT算法的活動(dòng)識(shí)別準(zhǔn)確率均優(yōu)于Ontology算法和MLN算法。
由圖2可知,ER-OT算法在識(shí)別Activity1、Activity4以及Activity5時(shí)優(yōu)于其他算法,但在識(shí)別Activity2和Activity3時(shí),ER-OT算法和MLN算法由于其規(guī)則采用人工定義,且用戶活動(dòng)打掃和休閑活動(dòng)執(zhí)行方式具有多樣性的特點(diǎn),因此同Ontology算法一樣,F(xiàn)1值較低,但也優(yōu)于其他算法。
圖2 ADL數(shù)據(jù)集下活動(dòng)識(shí)別的F1值
圖3 ADL-D數(shù)據(jù)集下活動(dòng)識(shí)別的F1值
在ADL-D數(shù)據(jù)集下,各方法的F1值如圖3所示。各方法的F1值均有下降,但ER-OT算法在識(shí)別活動(dòng)Activity1、Activity2、Activity3、Activity4以及Activity5時(shí)仍保持最高的F1值。
如圖4所示,在實(shí)驗(yàn)所考慮的大多數(shù)活動(dòng)中包括順序執(zhí)行活動(dòng)的數(shù)據(jù)集ADL和不遵循特定順序執(zhí)行活動(dòng)的數(shù)據(jù)集ADL-D中,ER-OT算法的平均準(zhǔn)確率均優(yōu)于Ontology算法和MLN算法。
圖4 ADL和ADL-D數(shù)據(jù)集各方法的平均準(zhǔn)確率
該文提出了一種混合式推理算法(ER-OT),將改進(jìn)的證據(jù)推理與基于Jena推理機(jī)的本體推理相結(jié)合,應(yīng)用于智能家居場(chǎng)景下的活動(dòng)識(shí)別中,解決了活動(dòng)的不確定性與推理結(jié)果間的沖突。實(shí)驗(yàn)表明,設(shè)計(jì)的不確定性推理方法具有較高的推理準(zhǔn)確性。在未來的工作中,希望能夠通過大數(shù)據(jù)、云計(jì)算等技術(shù)進(jìn)一步提高推理的準(zhǔn)確性。