劉義紅
(淮南師范學(xué)院計(jì)算機(jī)學(xué)院, 安徽 淮南 232038)
在日常生活和工作中,記憶對(duì)人類來(lái)說(shuō)是非常重要,它可以幫助人們完成日常的事務(wù),回憶過(guò)去的往事,通過(guò)分享記憶來(lái)維持社會(huì)關(guān)系,表達(dá)自己的情感。隨著計(jì)算機(jī)和智能終端技術(shù)的快速發(fā)展,越來(lái)越多的用戶將自己的個(gè)人數(shù)據(jù)存儲(chǔ)在網(wǎng)絡(luò)服務(wù)商的云端存儲(chǔ)設(shè)備上,這些數(shù)據(jù)隨時(shí)間呈指數(shù)級(jí)增長(zhǎng),并且隱含著豐富的記憶信息。如何利用云存儲(chǔ)和機(jī)器學(xué)習(xí)技術(shù),將這些數(shù)據(jù)中隱含的記憶信息挖掘出來(lái)是十分有意義的課題,有著廣闊的應(yīng)用前景。
本文提出一種基于云存儲(chǔ)的自組織增量類腦記憶模型(Brain Memory Model of Cloud Storage,BMMoCS)。試圖通過(guò)信息采集設(shè)備將用戶行為記憶數(shù)據(jù)存儲(chǔ)到云端服務(wù)器,利用自組織增量網(wǎng)絡(luò)學(xué)習(xí)算法,對(duì)記憶數(shù)據(jù)特征信息進(jìn)行提取和分析,從而發(fā)現(xiàn)記憶知識(shí),然后利用這些知識(shí)輔助人類記憶,以此來(lái)構(gòu)建一個(gè)記憶服務(wù)系統(tǒng)。最后,在真實(shí)數(shù)據(jù)集上對(duì)模型進(jìn)行了仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明模型能夠模擬大腦的記憶功能。
本文第1節(jié)介紹與本研究?jī)?nèi)容相關(guān)的工作;第2節(jié)介紹云存儲(chǔ)的記憶系統(tǒng)服務(wù)架構(gòu);第3節(jié)詳細(xì)介紹一種基于云存儲(chǔ)的自組織增量類腦記憶模型;第4節(jié)給出該方法的仿真實(shí)驗(yàn)結(jié)果及分析,最后進(jìn)行總結(jié)并對(duì)下一步工作進(jìn)行展望。
Google首席執(zhí)行官Eric Schmidt首次提出了“云計(jì)算”的概念后,掀起了一股“云存儲(chǔ)”風(fēng)暴,國(guó)內(nèi)外人云存儲(chǔ)服務(wù)產(chǎn)品相繼出現(xiàn),如谷歌云、百度云盤、360云盤、微云、天翼云等等。根據(jù)艾瑞咨詢公司發(fā)布《2016年中國(guó)個(gè)人云盤行業(yè)研究報(bào)告》和《2016年中國(guó)企業(yè)云服務(wù)行業(yè)研究報(bào)告》顯示,2016年中國(guó)個(gè)人云存儲(chǔ)用戶規(guī)模預(yù)計(jì)將達(dá)到3.96億人。個(gè)人云存儲(chǔ)產(chǎn)品具有跨平臺(tái)存儲(chǔ)、同步更新、文件分享等功能,較好的滿足了用戶使用需求。而對(duì)于這些云存儲(chǔ)數(shù)據(jù),目前研究主要集中在記憶特征信息提取、記憶計(jì)算和記憶服務(wù)等方面。
在記憶特征提取方面。研究者主要聚焦在與時(shí)間、位置和物體相關(guān)的記憶信息特征抽取上。文獻(xiàn)[1-2]使用時(shí)空情境和交互歷史信息來(lái)快速提取聯(lián)系人姓名。文獻(xiàn)[3-4]通過(guò)獲取用戶位置信息,當(dāng)用戶進(jìn)入或離開某個(gè)地點(diǎn)時(shí),將該地點(diǎn)發(fā)生的故事發(fā)送給用戶。文獻(xiàn)[5]提出了一個(gè)面向位置的個(gè)性化視頻通信和分享系統(tǒng),家庭成員之間可以通過(guò)系統(tǒng)分享記憶,增進(jìn)成員之間情感。文獻(xiàn)[6-7]使用RFID(Radio Frequency Identification)和移動(dòng)標(biāo)記技術(shù),將人的記憶與物品聯(lián)系起來(lái),以增強(qiáng)用戶的回憶,同時(shí)支持基于情境的記憶分享。
在記憶計(jì)算方面。研究者主要聚焦在生物學(xué)、認(rèn)知理論、神經(jīng)網(wǎng)絡(luò)上。文獻(xiàn)[8]把記憶機(jī)制引入傳統(tǒng)蟻群算法,提出了一種基于生物記憶原理的蟻群智能體記憶模型,螞蟻智能體通過(guò)記憶不斷搜索、更新自身記憶庫(kù)和蟻群記憶庫(kù),優(yōu)化自己當(dāng)前路徑。文獻(xiàn)[9]采用冪函數(shù)量化艾賓浩斯生物記憶曲線,提出一種智能詞匯記憶模型,當(dāng)單詞臨近遺忘時(shí)提醒用戶及時(shí)復(fù)習(xí),動(dòng)態(tài)調(diào)整生物記憶曲線。文獻(xiàn)[10]提出一種雙向認(rèn)知計(jì)算的p階正態(tài)云模型,模擬智能認(rèn)知過(guò)程。文獻(xiàn)[11]將輸入、記憶、聯(lián)想三種模式分別至于不同網(wǎng)絡(luò)層,提出了一種基于神經(jīng)網(wǎng)絡(luò)的通用聯(lián)想記憶模型。文獻(xiàn)[12]將遞歸神經(jīng)網(wǎng)絡(luò)應(yīng)用到聯(lián)想記憶中,提出了一種基于憶阻激活函數(shù)的遞歸神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)動(dòng)態(tài)圖像的聯(lián)想記憶。文獻(xiàn)[13]提出一種不增加網(wǎng)絡(luò)參數(shù)的遞歸神經(jīng)網(wǎng)絡(luò)的新方法,該方法具有基于復(fù)數(shù)值向量的聯(lián)想記憶功能。
在記憶服務(wù)方面。研究的熱點(diǎn)主要聚焦在往事回憶和記憶分享上[14]。文獻(xiàn)[15-16]將記憶與實(shí)物結(jié)合起來(lái),建立一種體驗(yàn)式回憶系統(tǒng),用戶可通過(guò)實(shí)物聯(lián)想記憶中的場(chǎng)景。文獻(xiàn)[17] 將日常生活中發(fā)生的事情,記錄到一個(gè)電子記事系統(tǒng)中,以幫助記憶損傷的用戶回憶往事,輔助治療老年癡呆癥等。文獻(xiàn)[18]設(shè)計(jì)了一個(gè)用戶郵件整理和分析系統(tǒng),系統(tǒng)根據(jù)記憶提示信息,將郵件可視化分類管理,用戶利用用戶界面快速瀏覽郵件信息,激發(fā)用戶回憶。文獻(xiàn)[19]利用文本知識(shí)機(jī)器學(xué)習(xí)方法,建立了一種基于內(nèi)容的文本知識(shí)推薦系統(tǒng),實(shí)現(xiàn)文本知識(shí)的推薦,幫助用戶理解知識(shí)。文獻(xiàn)[20]基于云存儲(chǔ)理論,設(shè)計(jì)了一個(gè)智慧健康大數(shù)據(jù)管理系統(tǒng),實(shí)現(xiàn)醫(yī)療健康信息共享與智能分析。此外,像微信、微博和Facebook等在線共享服務(wù)發(fā)展迅速,使用非常廣泛。
綜上所述,通過(guò)對(duì)當(dāng)前國(guó)內(nèi)外關(guān)于記憶理論研究現(xiàn)狀和發(fā)展趨勢(shì)的調(diào)查分析,發(fā)現(xiàn)很少有研究者將云存儲(chǔ)和記憶聯(lián)系一起來(lái)開展相關(guān)研究工作。本文正是基于在這方面考慮,對(duì)云存儲(chǔ)的記憶系統(tǒng)進(jìn)行探索,以此來(lái)推動(dòng)智慧健康的發(fā)展和應(yīng)用,為人類的健康生活提供理論和技術(shù)支持。
本文提出的記憶服務(wù)系統(tǒng)采用四層設(shè)計(jì)架構(gòu),自下而上分別為數(shù)據(jù)采集層、云存儲(chǔ)層、記憶計(jì)算層和記憶服務(wù)層。系統(tǒng)架構(gòu)及數(shù)據(jù)流如圖1所示。
圖1 系統(tǒng)體系架構(gòu)圖
數(shù)據(jù)采集層的主要任務(wù)是收集個(gè)人日常使用的電子設(shè)備、網(wǎng)絡(luò)社交而產(chǎn)生的大量記憶數(shù)據(jù)。比如,在旅游、聚會(huì)、重要節(jié)日、網(wǎng)購(gòu)、微信、微博、QQ、Facebook等活動(dòng)過(guò)程中產(chǎn)生的本文、圖像、聲音、視頻等數(shù)據(jù),這些數(shù)據(jù)通常稱為感知數(shù)據(jù),它們隱含著非常重要的記憶特征。
云存儲(chǔ)層主要任務(wù)是使用云服務(wù)來(lái)存儲(chǔ)個(gè)人感知數(shù)據(jù),并利用ETL(Extract Transform Load)和數(shù)據(jù)挖掘技術(shù),將本文、圖像、聲音、視頻數(shù)據(jù)等用戶數(shù)據(jù)進(jìn)行預(yù)處理,解決數(shù)據(jù)源格式不統(tǒng)一,無(wú)法進(jìn)行一致地高效地?cái)?shù)據(jù)處理問(wèn)題。預(yù)處理提取的數(shù)據(jù)記憶特征,將加載到一個(gè)面向主題的、集成的、穩(wěn)定的、反映歷史的、隨著時(shí)間流逝發(fā)生變化的記憶數(shù)據(jù)庫(kù)中,并向記憶計(jì)算層提供數(shù)據(jù)。
記憶計(jì)算層主要任務(wù)是構(gòu)建一個(gè)記憶模型,將記憶數(shù)據(jù)進(jìn)行聚類計(jì)算,形成記憶簇,并向記憶服務(wù)層提供往事回憶和記憶分享服務(wù)。該模型是本文的分析重點(diǎn),將在第四部分詳細(xì)介紹。
記憶服務(wù)層主要任務(wù)是向用戶提供一個(gè)友好的交互記憶服務(wù),它包括往事回憶和記憶分享兩項(xiàng)功能。往事回憶是通過(guò)輸入用戶的情境數(shù)據(jù)特征到記憶計(jì)算模型,模型給出云存儲(chǔ)數(shù)據(jù)庫(kù)中相似度較高的按降序列出記憶信息,向用戶呈現(xiàn)個(gè)人存儲(chǔ)的往事。記憶分享主要是提供與家人、朋友、同事、同學(xué)等群體共同分享個(gè)存儲(chǔ)的往事服務(wù),便于社群交流與協(xié)作。
用戶存儲(chǔ)的云數(shù)據(jù)通常是增量變化的,這就要求設(shè)計(jì)的記憶計(jì)算模型能適應(yīng)這種變化,具有很好的普適性。因此,采用自組織增量學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)來(lái)分析設(shè)計(jì)記憶模型。為了描述模型方便,在這里定義下列術(shù)語(yǔ)和符號(hào)。
定義1:記憶庫(kù)M,形式化定義為
M={(x1,P1),…,(xd,Pd),…,(xN,PN)}
式中:二元組(xd,Pd)表示記憶庫(kù)中第d個(gè)文件,由記憶特征向量xd和文件存儲(chǔ)位置Pd兩部分構(gòu)成,N表示文件總數(shù)。
定義2:xd表示存儲(chǔ)文件d的記憶特征向量,形式化定義為
xd=(xd1,xd2,…,xdi,…,xdm)
式中:xdi表示存儲(chǔ)文件d中第i個(gè)記憶屬性,m表示文件d中記憶屬性總數(shù)。
定義3:Pd表示存儲(chǔ)文件d的存儲(chǔ)信息集,形式化定義為
Pd=(p1,p2,…,pi,…,pn)
式中:pi表示文件d的第i個(gè)存儲(chǔ)信息。如,文件的存儲(chǔ)位置、時(shí)間、類型等。
定義4:神經(jīng)網(wǎng)絡(luò)NE,形式化定義為
NE=(V,E)
式中:V為頂點(diǎn)集,每個(gè)頂點(diǎn)vi由五元組(ci,ni,φi,Hi,Pi)組成,ci表示記憶特征向量,ni表示神經(jīng)元被激活的次數(shù),φi表示神經(jīng)元的平均累積協(xié)方差矩陣,Hi表示描述神經(jīng)元區(qū)域的超橢球邊界閾值參數(shù),Pi含義同定義3。E為邊集,每條邊用二元組(i,j)表示,i,j分別表示頂點(diǎn)vi,vj。
本文提出BMMoCS模型(見圖2)。輸入層的數(shù)據(jù)是云存儲(chǔ)原始數(shù)據(jù)的記憶特征向量,即輸入模式,它表示在記憶特征空間分布中所處的位置。記憶層與輸入層進(jìn)行全連接,將輸入模式數(shù)據(jù)經(jīng)變換后存儲(chǔ)到對(duì)應(yīng)的神經(jīng)元記憶子網(wǎng)中,它們之間的連接反映了原始數(shù)據(jù)的分布情況以及拓?fù)浣Y(jié)構(gòu)。
圖2 BMMoCS模型
模型的基本思想是用一定數(shù)量的代表性數(shù)據(jù)來(lái)近似原始的完整數(shù)據(jù)集,結(jié)構(gòu)上保持原始數(shù)據(jù)的鄰近相關(guān)性,然后再以這些代表性的數(shù)據(jù)為基礎(chǔ)對(duì)新來(lái)輸入模式做出決策。具體而言,記憶層中的神經(jīng)元是輸入層空間中的某些輸入模式的代表,它周圍的區(qū)域與輸入模式的空間分布是一致的。假設(shè)這個(gè)局部信息服從高斯分布,用式(1)描述的超橢球來(lái)表示它的周圍區(qū)域。
(1)
式中:x表示輸入層的特征向量(x∈M),ci表示記憶層的一個(gè)神經(jīng)元向量,φi表示神經(jīng)元i的平均累積協(xié)方差矩陣(見式2),Hi是一個(gè)相似度閾值參數(shù),表示超橢球邊界。
(2)
Hi參數(shù)的取值對(duì)記憶層的穩(wěn)定性影響較大。如果取值得過(guò)小,則會(huì)有許多相似的數(shù)據(jù)模式被當(dāng)作獨(dú)立的神經(jīng)元,導(dǎo)致記憶層神經(jīng)元結(jié)點(diǎn)過(guò)多;而取值過(guò)大,則會(huì)有許多不同的數(shù)據(jù)模式被掩蓋,導(dǎo)致量化誤差增大。取值過(guò)大或過(guò)小均不能準(zhǔn)確地反映原始數(shù)據(jù)的分布。下面對(duì)Hi參數(shù)進(jìn)行分析。
顯然,式(1)的邊界方程是
(3)
q為置信度 (4)
(5)
輸入模式x與神經(jīng)元ci之間采用式(6)馬氏距離度量。
(6)
輸入:記憶庫(kù)M,λ,ω,σ,α,β,q。
輸出:記憶層神經(jīng)網(wǎng)絡(luò)NE(N,E)。
算法步驟
1:初始化集合N=?,E=?。
2:隨機(jī)選擇一輸入模式(x,p)∈M。
3:根據(jù)式(7),計(jì)算被輸入模式激活的神經(jīng)元集T:
T={i|Di(x) (7) 若N=?或T=?,則生成新結(jié)點(diǎn)inew, 置T=T∪{inew},轉(zhuǎn)到2。 4:根據(jù)式(8),計(jì)算T中與輸入模式距離最小的神經(jīng)元結(jié)點(diǎn)(即,競(jìng)爭(zhēng)獲勝的結(jié)點(diǎn))iwin, iwin=argmini∈TDi(x) (8) 5:更新iwin結(jié)點(diǎn), ciwin=ci+(x-ci)/(ni+1) niwin=ni+1 φiwin=φi+[ni(x-ci)(x-ci)T- (ni+1)φi]/(ni+1)2 (9) Piwin=Pi∪{p} 6:建立連接邊。在T中,若iwin結(jié)點(diǎn)與其它結(jié)點(diǎn)間沒(méi)有邊,建立連接,并更新邊集。E=E∪{(iwin,j)|iwin,j∈T} 7:若iwin的鄰接點(diǎn)j滿足式(10), Diwin(j)<α*(Hiwin+Hj) (10) 則,合并iwin和j為新結(jié)點(diǎn)inew。 cnew=(nici+njcj)/(ni+nj) nnew=ni+nj (11) Pnew=Pi∪Pj N=(N-{iwin,j})∪{inew} 將E中所有(iwin,k)、(j,k)改為(inew,k) 若iwin與鄰接點(diǎn)j,滿足條件:Diwin(j)>β*(Hiwin+Hj),則刪除iwin和j之間的連接邊。 8:當(dāng)輸入數(shù)據(jù)總數(shù)是λ整數(shù)倍時(shí),若某神經(jīng)元結(jié)點(diǎn)的激活次數(shù)ni遠(yuǎn)遠(yuǎn)小于均值mean,則示該結(jié)點(diǎn)為噪聲,刪除結(jié)點(diǎn)及連接邊。 (12) 9:若還有新的輸入模式,則轉(zhuǎn)到2;否則,輸出NE(N,E)。 在算法學(xué)習(xí)過(guò)程中,當(dāng)被激活的神經(jīng)元與它鄰接點(diǎn)之距離越來(lái)近時(shí),且小于一定閾值時(shí),說(shuō)明它們分別所代表的區(qū)域具有相同模式,需要合并操作,保持模型的簡(jiǎn)潔和穩(wěn)定性。當(dāng)它們之間距離越來(lái)越遠(yuǎn),且大于一定閾值時(shí),說(shuō)明它們分別所代表的區(qū)域?qū)儆诓煌J剑枰獢嚅_連接,保持模型的魯棒性。 λ,ω,σ,α,β,q是超參數(shù),在實(shí)際應(yīng)用中,根據(jù)具體的數(shù)據(jù)集來(lái)設(shè)置。ω是神經(jīng)元激活次數(shù)ni函數(shù),且滿足limni→∞ω(ni)=1。σI決定了新結(jié)點(diǎn)超橢球區(qū)域的大小,I是單位矩陣。α,β分別表示兩個(gè)神經(jīng)元超橢球重疊和分離比。 這里,給出式(9)和式(11)的推導(dǎo)過(guò)程。 a. 式(9)推導(dǎo) 假設(shè)i結(jié)點(diǎn)當(dāng)前的協(xié)方差矩陣為 當(dāng)i結(jié)點(diǎn)被輸入模式xn+1激活,那么, (xn+1-ci)(xn+1-ci)T+ b. 式(11)推導(dǎo) 假設(shè)i和j合并為新結(jié)點(diǎn)inew,i,j的協(xié)方差矩陣分別為 那么, φinew=∑ni+njk=1(xk-cinew)(xk-cinew)T/(ni+nj)= 實(shí)驗(yàn)數(shù)據(jù)來(lái)源百度個(gè)人云盤,數(shù)據(jù)集是某用戶在2015年8月至2017年9月期間,閱讀并保存到百度網(wǎng)盤上的1852個(gè)文本文檔(為便于驗(yàn)證,只用文本類型數(shù)據(jù)來(lái)分析模型的有效性)。實(shí)驗(yàn)時(shí),去除了語(yǔ)料庫(kù)中所有無(wú)意義的停止詞和頻次低于5的詞,用語(yǔ)料庫(kù)中的單詞描述文檔的記憶特征,單詞在文檔中出現(xiàn)的頻率作為特征值,增加文檔標(biāo)題詞權(quán)重,突出它的重要性,經(jīng)過(guò)預(yù)處理后,得到文檔-詞的特征矩陣和文檔-存儲(chǔ)信息向量數(shù)據(jù)庫(kù),其結(jié)構(gòu)如圖3~4所示。圖3中,xi,j表示第i個(gè)文檔中第j個(gè)單詞的特征值;圖4中,{pi,1,pi,2,…,pi,j,…,pi,m}表示第i個(gè)文檔中存儲(chǔ)的信息集,其中pi,j表示信息集中的一個(gè)元素。 圖3 文檔-詞特征矩陣 圖4 文檔-存儲(chǔ)信息向量 模型穩(wěn)定性分析。從兩個(gè)方面來(lái)驗(yàn)證,a)在記憶特征數(shù)據(jù)庫(kù)中隨機(jī)選擇輸入模式,運(yùn)行學(xué)習(xí)算法,得到記憶層神經(jīng)網(wǎng)絡(luò)NE1;b)將記憶特征庫(kù)中數(shù)據(jù)按相關(guān)度排序,順序選擇輸入模式,運(yùn)行學(xué)習(xí)算法,得到記憶層神經(jīng)網(wǎng)絡(luò)NE2。兩種方法實(shí)驗(yàn)生成的神經(jīng)元結(jié)點(diǎn)變化越勢(shì)如圖5所示。實(shí)驗(yàn)結(jié)果表明,在特征數(shù)據(jù)庫(kù)給定的情況下,模型與輸入次序無(wú)關(guān),它有較好的穩(wěn)定性。 圖5 記憶層神經(jīng)元結(jié)點(diǎn)變化越勢(shì) 模型有效性分析。根據(jù)云存儲(chǔ)記憶數(shù)據(jù)特點(diǎn),用戶通常在兩種情境下,回憶已存儲(chǔ)的數(shù)據(jù),一種是用戶讀到一篇新文檔,聯(lián)想回憶以前已閱讀過(guò)的文檔,并把它們提取出來(lái)。另一種是用戶依據(jù)自己的模糊記憶描述,提取已存儲(chǔ)在云盤上的文檔。在這里把上述兩種情境,分別稱為A記憶模式和B記憶模式。并從兩個(gè)方面來(lái)仿真實(shí)驗(yàn),a)從特征數(shù)據(jù)庫(kù)中隨機(jī)抽取200個(gè)文檔特征數(shù)據(jù)作為測(cè)試數(shù)據(jù),其余1 652個(gè)文檔特征數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。b)從語(yǔ)料庫(kù)中隨機(jī)抽取100個(gè)單詞,然后將其組合成200個(gè)短語(yǔ)測(cè)試數(shù)據(jù),1 852個(gè)文檔特征數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。實(shí)驗(yàn)采用查準(zhǔn)率和查全率來(lái)衡量模型的性能。查準(zhǔn)率和查全率分別定義為 (13) (14) 式(13)(14)中,P表示查準(zhǔn)率,R表示查全率,T表示測(cè)試結(jié)果中查找正確的樣本數(shù),N表示測(cè)試獲得的結(jié)果樣本總數(shù),M表示測(cè)試樣本中與查找目標(biāo)相關(guān)的正確樣本總數(shù)。通過(guò)實(shí)驗(yàn)得到表1實(shí)驗(yàn)結(jié)果,該結(jié)論表明模型在文本數(shù)據(jù)分析上是有效的。 表1 A、B兩種記憶模式的查準(zhǔn)率和查全率 % 本文提出了一種基于云存儲(chǔ)的自組織增量類腦記憶模型,模型依據(jù)云存儲(chǔ)中個(gè)人行為數(shù)據(jù),運(yùn)用自組織增量網(wǎng)絡(luò)學(xué)習(xí)模型,致力于重構(gòu)記憶服務(wù)系統(tǒng),解決記憶數(shù)據(jù)呈現(xiàn),從而輔助個(gè)體記憶,支持往事回憶、記憶分享等服務(wù)。模型通過(guò)真實(shí)數(shù)據(jù)集上仿真實(shí)驗(yàn),結(jié)果證明該模型的穩(wěn)定性和有效性達(dá)到了預(yù)期的效果。算法比較容易現(xiàn)實(shí),能夠較好地進(jìn)行云存儲(chǔ)記憶數(shù)據(jù)分析。但是,文中只對(duì)文本類型數(shù)據(jù)進(jìn)行了驗(yàn)證,還有像聲音、圖像、視頻、表格等復(fù)雜數(shù)據(jù)驗(yàn)證需要進(jìn)一步研究,這也是未來(lái)工作的研究方向。4 仿真實(shí)驗(yàn)
5 結(jié)論