焦 嘉,吳宇飛
(湖南信息職業(yè)技術學院,湖南 長沙 410203)
觀察者對幾個實體進行觀察,生成概率時間序列?;贕ARCH模型,從原始數據生成一個概率時間序列并將其上傳到服務器。在服務器端,將執(zhí)行本研究提出的真值發(fā)現(xiàn)框架。系統(tǒng)框架如圖1所示。
圖1 GARCH模型架構
假設研究K個用戶和N個實體,從所有K個用戶收集的時間序列S1{ ,S2,...,SN}作為輸入;用i索引每個實體,ei表示第i個實體。以k索引每個觀察者,時間序列表示為Si(k),表示觀察者k在實體ei上觀察到的時間序列。D=S1,{S2,…,Sn}是一組時間序列。觀測者k在j時刻收集到的一個讀數被標記為∈Si。
由于每個觀察者的可靠性在之前是未知的,所以它提供的原始數據可能不正確。用si(*)來表示實體ei的真值,用D(*)來表示所有實體的真值。
通過最小化約束下的目標函數f(D(*),W),設置了兩組變量,其中一組是真值D(*),另一組是感知用戶權重W。面對這兩個變量,塊坐標下降法可以解決求約束條件下的最優(yōu)值問題。
在這一部分中,假設已經使用KNN算法,并且獲得了獨立的集合。將m表示為獨立集的索引,包含所有實體的集合表示為I=,而Im表示第m個子集。所以,可以將問題定義如下:
由于數據在應用程序中順序產生,因此實體真值之間存在時間相關性。例如,鄰近地區(qū)的空氣質量可能相同,因此實體的值在短時間內相似。時間相關性也可以合并到模型中以推測真值。此屬性能夠使用KNN算法對實體進行分類[1]。先在現(xiàn)有實體類別中找到最相似的集合,再根據KNN的類別決定要分類的實體屬于的組別。KNN是最簡單有效的分類算法之一,其分類有效性在很大程度上取決于K值(最近鄰居數的好壞選擇)。根據經驗,本文確定的K是不超過觀測樣本數平方根的最大整數[2]。
本文的原始數據利用GARCH模型進行處理,隨后輸出一個概率時間序列。該模型包含的兩個參數,分別如下:期望真值和方差。
預測期望真值:給定時間序列S,可以使用ARMA模型將時間戳j的讀數建模為根據其過去的值,可以在時間j處計算期望的真實值。
方差推測:根據在時間j的的讀為可以給定直到時間j-1的所有可用信息來定義條件方差[3]。具體的算法如表2所示。
表2 算法1
2.3.1 更新感知者權重
所有的真值集合都是固定的,根據真值和感知者的觀測數據的差異來計算出每個觀察者權重的更新規(guī)則。
公式(2)中k′表示觀察者的索引。該公式表明,用戶報告的觀察值與真值實況越接近,感知用戶擁有的權重越高。
2.3.2 更新時間序列真值分布
在這種情況下,觀察者權重W是固定的,除了以外,其余真值集也固定。通過最小化目標函數來更新中每個實體的真值分布。
本文提出了一種新的移動群智感知真值發(fā)現(xiàn)算法,與其他工作不同,將重點放每個關聯(lián)實體一段時間內的真值分布情況??紤]到現(xiàn)實生活中的實際情況,利用K近鄰算法將相關聯(lián)的實體進行分組規(guī)劃,并利用GARCH算法來預測每個實體的概率時間序列分布,提高數據質量。基本思路是利用關聯(lián)實體一段時間內的真值分布具有相似性,通過塊坐標下降算法計算出感知用戶的權重以及實體的真值分布集合。