曦錸
[本刊訊]中國科學(xué)院上海生命科學(xué)研究院生物化學(xué)與細(xì)胞生物學(xué)研究所系統(tǒng)生物學(xué)重點實驗室陳洛南研究組報道了題為“建立量化網(wǎng)絡(luò)中直接關(guān)聯(lián)性的‘部分互信息新方法”(Part mutual information for quantifying direct associations in networks)的最新研究成果。該成果首次提出“部分互信息”的新概念和理論,通過“部分互信息”量化網(wǎng)絡(luò)中節(jié)點之間的直接關(guān)聯(lián)性,可實現(xiàn)由觀測數(shù)據(jù)直接構(gòu)建網(wǎng)絡(luò)或變量間因果關(guān)系。相關(guān)論文2016年4月18日在線發(fā)表于Proceedings of the National Academy Of Sciences Of the United States Of America。
數(shù)據(jù)分析中,定量的標(biāo)識變量間的直接依賴性是一件非常重要的事情,特別對于科學(xué)和工程中各種類型的網(wǎng)絡(luò)重構(gòu)和因果推斷問題,都需要高精度的理論和方法。應(yīng)用最廣泛的方法之一是偏相關(guān)性系數(shù)(partial correlation),但是偏相關(guān)性系數(shù)只能量化線性變量或節(jié)點之間的相關(guān)性和關(guān)聯(lián)性,忽略非線性的關(guān)聯(lián)性。然而,基于“條件獨立性”(conditional independency)的“條件互信息”(conditional mutual information。CMI)可以從數(shù)據(jù)中觀察變量之間非線性的直接關(guān)聯(lián)性,優(yōu)于線性的方法,所以廣泛應(yīng)用于各個領(lǐng)域。但是,條件互信息存在著過低估計的問題,嚴(yán)重限制了它的應(yīng)用,特別是在變量或節(jié)點間有強(qiáng)相關(guān)的網(wǎng)絡(luò)中,這個問題更加嚴(yán)重。
基于此,研究組提出了“偏獨立性”(partial independency)以及新的度量方法,又稱作“部分互信息”(part mutual information,PMI),不僅能夠克服條件互信息的缺點,同時還能保持互信息和條件互信息的性質(zhì)。研究組首先定義了部分互信息用于量化變量之間直接關(guān)聯(lián)性,然后從理論上給出部分互信息與互信息,以及條件互信息之間的內(nèi)在聯(lián)系。通過數(shù)值實驗,證明了部分互信息的性質(zhì)和優(yōu)點,接著通過用大腸桿菌和酵母的基因表達(dá)數(shù)據(jù)重構(gòu)其基因調(diào)控網(wǎng)絡(luò),進(jìn)一步驗證了部分互信息在量化網(wǎng)絡(luò)中非線性的直接關(guān)聯(lián)性的優(yōu)越性。從計算的角度,“部分互信息”可取代“條件互信息”,該工作為大數(shù)據(jù)網(wǎng)絡(luò)研究提供了全新的概念和理論,具有重要理論和應(yīng)用價值。基于觀測數(shù)據(jù),“部分互信息”不僅可用于生物分子網(wǎng)絡(luò)的高精度構(gòu)建,而且可以應(yīng)用于其他工程和科學(xué)領(lǐng)域中各種復(fù)雜網(wǎng)絡(luò)和因素的因果關(guān)系推斷。