(中國石油遼河油田公司勘探開發(fā)研究院,遼寧 盤錦 124010)
油氣等各種礦產(chǎn)的勘探、開發(fā)、生產(chǎn)等實踐中涉及各類數(shù)據(jù)體(柳炳利等,2016;閆玉茹等,2019),如物探、鉆井、測井等勘探數(shù)據(jù),生產(chǎn)、測試、注采等開發(fā)數(shù)據(jù),巖芯分析、流體分析、熱采試驗等試驗數(shù)據(jù),成本、銷售、財務等經(jīng)濟數(shù)據(jù)。如何加以分析運用,如何用于揭示或反映油氣藏地質(zhì)特征、生產(chǎn)規(guī)律、經(jīng)營狀況,都是日常面臨的問題。統(tǒng)計中平均分析是最常用的數(shù)據(jù)體定量分析方法。一般來說,平均數(shù)(平均值)將同類現(xiàn)象的某一數(shù)量標志的各個體數(shù)量差異抽象化,用一概括指標綜合說明該現(xiàn)象的代表性的典型水平,是最常見、最重要的綜合性指標(周兆麟,1989)。在現(xiàn)象的發(fā)展過程中,某種共同的必然性因素總是與特殊的偶然性因素交織。為揭示一般的典型特征,需消除偶然性因素的影響,而平均數(shù)可抵消或降低偶然性因素變動的影響,最大限度地反映某種客觀存在的必然性,因此平均數(shù)比個別數(shù)值更能反映同類現(xiàn)象的本質(zhì)。但平均方法不同,平均數(shù)也不同(張玉平,2017),這就必然導致平均值的代表性問題。
目前對確定數(shù)據(jù)體的典型水平尚無系統(tǒng)性認知和統(tǒng)一的判別標準(鄭少智等,2003;姜玉華,2004;鄒亞寶,2004;謝忠秋,2006),同一數(shù)據(jù)體的典型水平常常不同。對油氣藏勘探開發(fā)領域常用的數(shù)據(jù)體平均方法進行對比分析,探討常用平均方法的適用條件,提出以加權(quán)中位數(shù)計算公式和平衡中位數(shù)法則確定數(shù)據(jù)體典型水平的方法。
通用表現(xiàn)形式為冪平均數(shù)(冪平均值),數(shù)學表達式為:
(1)
眾數(shù)指有序數(shù)據(jù)體中出現(xiàn)頻率最高或權(quán)重最大的數(shù)據(jù),記為Xmo。中位數(shù)是將統(tǒng)計數(shù)據(jù)按升序排列(相同統(tǒng)計數(shù)據(jù)作為1個數(shù)參與排列),位于有序數(shù)據(jù)體中間的那一個(組)統(tǒng)計數(shù)據(jù)的平均值(張玉平,2017;陳文等,2018;何文勝等,2018),記為Xme或XME。
在油氣勘探開發(fā)涉及的數(shù)據(jù)體中,中位數(shù)的計算公式一般不考慮加權(quán)(周兆麟,1989;張德元,2003;顧永泉等,2018;陳望學等,2020),僅在圖像降噪時會使用加權(quán)中值濾波算法(陳家益等,2019,2020),該算法未在油氣勘探開發(fā)領域推廣應用,也無法詮釋加權(quán)中位數(shù)的全部內(nèi)涵。加權(quán)中位數(shù)根據(jù)統(tǒng)計數(shù)據(jù)及其相應頻率或權(quán)重進行計算:首先計算統(tǒng)計數(shù)據(jù)按升序排列時的累積頻率(或累積權(quán)重),然后確定最接近50%的左累積頻率fL(或左累積權(quán)重wL)及其左典型數(shù)據(jù)xL,最后確定統(tǒng)計數(shù)據(jù)按降序排列時最接近50%的右累積頻率fR(或右累積權(quán)重wR)及其右典型數(shù)據(jù)xR。當有序數(shù)據(jù)體按升序或降序排列時的累積頻率(或累積權(quán)重)在50%的左側(cè)和右側(cè)的接近程度完全相等且≠50%時,左典型數(shù)據(jù)和右典型數(shù)據(jù)均取>50%的最小累積頻率(或最小累積權(quán)重)對應的統(tǒng)計數(shù)據(jù)。當每個統(tǒng)計數(shù)據(jù)(分析數(shù)據(jù)、觀測數(shù)據(jù))對應的頻數(shù)或權(quán)數(shù)均相等時,加權(quán)中位數(shù)等于簡單中位數(shù)。
偏態(tài)分布數(shù)據(jù)體的加權(quán)中位數(shù)不等于眾數(shù)。偏態(tài)數(shù)據(jù)體的左累積頻率和右累積頻率(或左累積權(quán)重和右累積權(quán)重)及加權(quán)中位數(shù)的數(shù)學表達式為:
(2)
fri=1-fli
(3)
XME=xLfL+xRfR=xLfL+xR(1-fL)
(4)
(5)
wri=1-wli
(6)
XME=xLwL+xRwR=xLwL+xR(1-wL)
(7)
式(2)—式(7)中:fi為有序數(shù)據(jù)體中第i個(i=1,2,3,…,n)統(tǒng)計數(shù)據(jù)的頻率,f;fli為統(tǒng)計數(shù)據(jù)按升序排列的第i個(i=1,2,3,…,L;L∈[1,n))左累積頻率,f;fL為統(tǒng)計數(shù)據(jù)按升序排列時最接近50%的左累積頻率,統(tǒng)稱左特征頻率,f;fri為統(tǒng)計數(shù)據(jù)按降序排列的第i個(i=n,n-1,n-2,…,R;R∈(1,n];R≥L)右累積頻率,f;fR為統(tǒng)計數(shù)據(jù)按降序排列時最接近50%的右累積頻率,統(tǒng)稱右特征頻率,f;L為數(shù)據(jù)體按升序排列時第L個(自然數(shù)L∈[1,n);L=1,2,3,…)統(tǒng)計數(shù)據(jù);R為數(shù)據(jù)體按升序排列時第R個(R∈(1,n];R≥L;R=n,n-1,n-2,…)統(tǒng)計數(shù)據(jù);wi為有序數(shù)據(jù)體中第i個(i=1,2,3,…,n)統(tǒng)計數(shù)據(jù)的權(quán)重,f;wli為統(tǒng)計數(shù)據(jù)按升序排列的第i個(i=1,2,3,…,L;L∈[1,n))左累積權(quán)重,f;wL為統(tǒng)計數(shù)據(jù)按升序排列時最接近50%的左累積權(quán)重,統(tǒng)稱左特征權(quán)重,f;wri為統(tǒng)計數(shù)據(jù)按降序排列的第i個(i=n,n-1,n-2,…,R;R∈(1,n];R≥L)右累積權(quán)重,f;wR為統(tǒng)計數(shù)據(jù)按降序排列時最接近50%的右累積權(quán)重,統(tǒng)稱右特征權(quán)重,f;xME為加權(quán)中位數(shù);xL為與左特征頻率或左特征權(quán)重對應的統(tǒng)計數(shù)據(jù),統(tǒng)稱左典型數(shù)據(jù);xR為與右特征頻率或右特征權(quán)重對應的統(tǒng)計數(shù)據(jù),統(tǒng)稱右典型數(shù)據(jù)。
正態(tài)分布數(shù)據(jù)體的加權(quán)中位數(shù)等于眾數(shù),其左累積頻率和右累積頻率或左累積權(quán)重和右累積權(quán)重可分別采用式(2)和(3)或式(5)和(6)計算。
對同一組數(shù)據(jù)體的各種平均值而言,哪種平均值能代表有序數(shù)據(jù)體的典型水平是數(shù)據(jù)體分析過程中需要解決的問題,否則會誤導對數(shù)據(jù)體的正確認知。
位置平均數(shù)受控于數(shù)據(jù)體結(jié)構(gòu),一般不隨有序數(shù)據(jù)體中各具體統(tǒng)計數(shù)據(jù)(分析數(shù)據(jù)或觀測數(shù)據(jù))的變化而改變,是決定數(shù)據(jù)體典型水平所屬區(qū)間的指向性數(shù)值。
加權(quán)中位數(shù)作為有序數(shù)據(jù)體的平衡點,能指示數(shù)據(jù)體典型水平在有序數(shù)據(jù)體中的相對位置甚至具體位置。
數(shù)值平均數(shù)隨有序數(shù)據(jù)體中具體統(tǒng)計數(shù)據(jù)(分析數(shù)據(jù)或觀測數(shù)據(jù))的變化而變化,可確定有序數(shù)據(jù)體典型水平的具體數(shù)值。
綜合上述分析表明,平均值的代表性取決于數(shù)據(jù)體結(jié)構(gòu)和平均值計算方法。
數(shù)據(jù)體結(jié)構(gòu)包括數(shù)據(jù)樣本的容量、頻數(shù)或權(quán)數(shù),頻率分布曲線或權(quán)重分布曲線顯現(xiàn)數(shù)據(jù)體特征。數(shù)據(jù)體容量越大,數(shù)據(jù)體特征或統(tǒng)計數(shù)據(jù)的頻率越穩(wěn)定。數(shù)據(jù)體權(quán)衡指標是否合理,決定了頻率分布曲線或權(quán)重分布曲線表現(xiàn)出的特征是否客觀真實。
統(tǒng)計數(shù)據(jù)的權(quán)重和頻率從不同角度評價各統(tǒng)計數(shù)據(jù)在數(shù)據(jù)體中代表權(quán)的大小,權(quán)重越大或頻率越高的統(tǒng)計數(shù)據(jù)表示代表權(quán)越大,反之則越小。在實際應用中,權(quán)衡指標一般選擇統(tǒng)計數(shù)據(jù)單位或平均值計算公式的分母項(史書良,2006)。若數(shù)據(jù)體的權(quán)衡指標合理,頻率分布曲線或權(quán)重分布曲線即可客觀反映有序數(shù)據(jù)體的基本特征,例如,孔隙度、滲透率等巖芯分析數(shù)據(jù)體宜采用儲集巖厚度作權(quán)衡指標,成本類和價格類數(shù)據(jù)體宜采用件數(shù)(或臺數(shù)等)作權(quán)衡指標,產(chǎn)量類數(shù)據(jù)體宜采用生產(chǎn)天數(shù)作權(quán)衡指標,……;若數(shù)據(jù)體的權(quán)衡指標不合理,頻率分布曲線或權(quán)重分布曲線就無法客觀反映有序數(shù)據(jù)體的基本特征,例如,成本類和價格類數(shù)據(jù)體不宜采用總金額作權(quán)衡指標,產(chǎn)量類數(shù)據(jù)體不宜采用生產(chǎn)井數(shù)作權(quán)衡指標,……。對極小值≠0的有序數(shù)據(jù)體,雖然用權(quán)重和頻率計算數(shù)據(jù)體加權(quán)平均值的方法(公式)不同,但確定的典型水平可以相同,如成本類、價格類數(shù)據(jù)體就存在這種情況。
平均值計算方法體現(xiàn)了數(shù)值平均數(shù)的固有屬性,若扣除隨機誤差和系統(tǒng)誤差的影響,簡單平均值客觀上只與數(shù)據(jù)體的規(guī)模有關,加權(quán)平均值還受控于統(tǒng)計數(shù)據(jù)的頻數(shù)或權(quán)數(shù)。同一數(shù)據(jù)體,從加權(quán)算數(shù)平均值到加權(quán)幾何平均值再到加權(quán)調(diào)和平均值,呈單調(diào)遞減的特點。在實際應用中,選用哪種數(shù)值平均數(shù)來代表數(shù)據(jù)體的典型水平需要借助位置平均數(shù)這一標尺,即通過平衡中位數(shù)法則來實現(xiàn)。
平衡中位數(shù)法則:① 當加權(quán)中位數(shù)兩側(cè)緊鄰的自然區(qū)間出現(xiàn)≤50%的最大累積頻率(或最大累積權(quán)重),或≥50%的最小累積頻率(或最小累積權(quán)重)時,將區(qū)間內(nèi)有明確物理意義的數(shù)值平均數(shù)或最靠近加權(quán)中位數(shù)的數(shù)值平均數(shù)作為數(shù)據(jù)體的典型水平或特征平均值;② 在區(qū)間內(nèi)無適合的數(shù)值平均數(shù)時,加權(quán)中位數(shù)即代表數(shù)據(jù)體的典型水平,或用迭代法求取與加權(quán)中位數(shù)相等的冪平均值作為數(shù)據(jù)體的典型水平;③ 當有序數(shù)據(jù)體按升序或降序排列時的累積頻率(或累積權(quán)重)在左側(cè)和右側(cè)接近50%的程度完全相等且≠50%時,左典型數(shù)據(jù)和右典型數(shù)據(jù)均取>50%的累積頻率(或累積權(quán)重)對應的統(tǒng)計數(shù)據(jù)。
應用平衡中位數(shù)法則確定正常有序數(shù)據(jù)體典型水平需滿足2個條件:① 原始數(shù)據(jù)體的數(shù)據(jù)容量足夠大,能滿足最基本的統(tǒng)計分析要求;② 能選擇出合理的權(quán)衡指標。
當正常有序數(shù)據(jù)體的極小值=0時,不能計算調(diào)和平均值與幾何平均值,此時可令數(shù)據(jù)體中的極小值=相應數(shù)據(jù)精度的最小值或1,再根據(jù)平衡中位數(shù)法則確定數(shù)據(jù)體的典型水平。若有序數(shù)據(jù)體的權(quán)衡指標選擇不合理,加權(quán)中位數(shù)指示的平衡點即失去指向性,有明確物理意義的加權(quán)平均值即為有序數(shù)據(jù)體典型水平的最佳選擇;或可重新確定權(quán)衡指標,重新計算加權(quán)中位數(shù)及數(shù)值平均數(shù)等。
當有序數(shù)據(jù)體容量極小,只有2~10個統(tǒng)計數(shù)據(jù)(分析數(shù)據(jù)或觀測數(shù)據(jù)),且眾數(shù)=中位數(shù)時,加權(quán)中位數(shù)即為數(shù)據(jù)體的典型水平。當眾數(shù)≠中位數(shù)時,可采用冪平均值公式計算數(shù)據(jù)體的典型水平,其中階數(shù)k采用左特征頻率和右特征頻率計算,公式為:
k=fR(1+fL),|fL-fR|>0.20)
(8)
冪平均值公式中的頻數(shù)(或權(quán)數(shù))可用頻率(或權(quán)重)替換,則式(1)可簡化為:
(9)
或
(10)
經(jīng)典統(tǒng)計學常采用某一種方法確定或估算數(shù)據(jù)體的中心位置,正態(tài)分布數(shù)據(jù)體的中位數(shù)總能與某一數(shù)值平均數(shù)相同,偏態(tài)分布(非對稱分布)數(shù)據(jù)體中異常值對數(shù)值平均數(shù)的影響較大,對中位數(shù)的影響很小(侯景儒等,1992)。平衡中位數(shù)法則以權(quán)衡中位數(shù)為基礎,將多種方法確定的數(shù)據(jù)體數(shù)值平均數(shù)與權(quán)衡中位數(shù)比對,最終確定數(shù)據(jù)體中心位置(數(shù)據(jù)體的典型水平),較傳統(tǒng)方法確定的數(shù)據(jù)體中心位置更客觀、合理。
對理想情形下的儲層物性正態(tài)分布有序數(shù)據(jù)體及權(quán)衡指標等參數(shù),用不同方法計算儲層物性參數(shù)數(shù)據(jù)體的平均值。例如,孔隙度數(shù)據(jù)體宜選用儲層厚度作權(quán)衡指標,其中權(quán)數(shù)代表相應分析孔隙度的儲層厚度。正態(tài)分布孔隙度數(shù)據(jù)體的左特征權(quán)重和右特征權(quán)重均為50%,左典型數(shù)據(jù)和右典型數(shù)據(jù)的平均值等于數(shù)據(jù)體的眾數(shù)及加權(quán)中位數(shù)和算術平均值。根據(jù)平衡中位數(shù)法則確定加權(quán)算數(shù)平均值作為孔隙度正態(tài)分布數(shù)據(jù)體的典型水平。
表1為滲透率有序數(shù)據(jù)體及相應權(quán)衡指標等參數(shù),分析用不同方法計算滲透率平均值的代表性。
表1 滲透率有序數(shù)據(jù)體及相應權(quán)衡指標參數(shù)
對滲透率數(shù)據(jù)體而言,權(quán)衡指標宜選用儲層厚度,其中權(quán)數(shù)代表相應分析滲透率的儲層厚度。根據(jù)表1,確定滲透率數(shù)據(jù)體的左特征權(quán)重為51.46%,右特征權(quán)重為48.54%,則左典型數(shù)據(jù)為140.07 mD,右典型數(shù)據(jù)為247.28 mD。滲透率數(shù)據(jù)體的平均值見表2。
滲透率數(shù)據(jù)體權(quán)重分布曲線(圖1)表明滲透率數(shù)據(jù)體具多峰偏態(tài)分布特征。由于滲透率的3種加權(quán)平均方法均無明確物理意義,因此采用平衡中位數(shù)法則確定滲透率有序數(shù)據(jù)體的典型水平介于左典型數(shù)據(jù)和右典型數(shù)據(jù)之間,即在140.07~247.28 mD之間,在該區(qū)間內(nèi)沒有數(shù)值平均數(shù)落入,故加權(quán)中位數(shù)190.14 mD即為滲透率數(shù)據(jù)體的典型水平。隨著滲透率數(shù)據(jù)體的變化,幾何平均值會經(jīng)常入選數(shù)據(jù)體的典型水平。
圖1 滲透率數(shù)據(jù)體權(quán)重分布曲線Fig. 1 Weight distribution curve of permeability data volume
對正常偏態(tài)分布的數(shù)據(jù)體,無論單峰、雙峰或多峰,具有明確物理意義的加權(quán)平均值是確定正常偏態(tài)數(shù)據(jù)體典型水平的首選。權(quán)衡指標的選擇也很關鍵,宜選用觀測數(shù)據(jù)單位的分母項(有明確公式或隱含公式形式)作為權(quán)衡指標,當加權(quán)平均值公式?jīng)]有明確物理意義時,選用平衡中位數(shù)法則確定數(shù)據(jù)體典型水平。實際上,具有明確物理意義的加權(quán)平均值即可確定正態(tài)分布或正常偏態(tài)分布數(shù)據(jù)體的典型水平,絕大多數(shù)情況下這2種方法確定的數(shù)據(jù)體典型水平可相互驗證。
某區(qū)塊單井平均日產(chǎn)量有序數(shù)據(jù)體及相應權(quán)衡指標等參數(shù)見表3,分析用不同方法計算數(shù)據(jù)體平均日產(chǎn)量的代表性。
對單井日產(chǎn)量數(shù)據(jù)體而言,選用生產(chǎn)天數(shù)比生產(chǎn)井數(shù)作權(quán)衡指標更合理,其中頻數(shù)代表相應產(chǎn)量的生產(chǎn)天數(shù)。根據(jù)表3確定產(chǎn)量數(shù)據(jù)體的左特征頻率為58.03%,右特征頻率為41.97%,對應左典型數(shù)據(jù)為7.60 m3/d,右典型數(shù)據(jù)為15.20 m3/d。單井平均日產(chǎn)量有序數(shù)據(jù)體的平均值計算結(jié)果見表4。
表2 滲透率有序數(shù)據(jù)體平均值
表3 單井日產(chǎn)量有序數(shù)據(jù)體
表4 單井日產(chǎn)量有序數(shù)據(jù)體平均值
圖2 單井平均日產(chǎn)量數(shù)據(jù)體頻率分布曲線Fig. 2 Frequency distribution curve of average single well daily production data volume
單井日產(chǎn)量數(shù)據(jù)體頻率分布曲線(圖2)表明該數(shù)據(jù)體具單峰偏態(tài)分布特征。根據(jù)平衡中位數(shù)法則,該數(shù)據(jù)體典型水平介于左典型數(shù)據(jù)與右典型數(shù)據(jù)(7.60~15.20 m3/d)之間,雖然加權(quán)算術平均值和加權(quán)幾何平均值均落入該區(qū)間,但由于加權(quán)算數(shù)平均值具有明確的物理意義(總產(chǎn)油量與總生產(chǎn)天數(shù)的比值),因此,加權(quán)算數(shù)平均值13.05 m3/d為單井平均日產(chǎn)量數(shù)據(jù)體的典型水平。
采用生產(chǎn)井數(shù)作權(quán)衡指標確定的單井日產(chǎn)量數(shù)據(jù)體的典型水平為加權(quán)幾何平均值16.33 m3/d,沒有用生產(chǎn)天數(shù)確定的結(jié)果客觀合理。盡管生產(chǎn)井數(shù)不能與生產(chǎn)天數(shù)相互轉(zhuǎn)化,但在生產(chǎn)井的信息量有限時,生產(chǎn)井數(shù)仍可作為單井平均日產(chǎn)量數(shù)據(jù)體特征平均值的較為有效的權(quán)衡指標。
李映濤等(2015)的研究發(fā)現(xiàn),順南4井硅化熱液的鹽度采用幾何平均值作為數(shù)據(jù)體的典型水平較算術平均值更為合理。
(1) 加權(quán)中位數(shù)是正常有序數(shù)據(jù)體的平衡點,中位數(shù)和眾數(shù)是分析正常有序數(shù)據(jù)體典型水平的方向標,加權(quán)中位數(shù)的計算公式對分析油氣勘探開發(fā)各領域正常有序數(shù)據(jù)體的基本特征有指導意義。
(2) 平衡中位數(shù)法則是指當加權(quán)中位數(shù)兩側(cè)緊鄰的自然區(qū)間出現(xiàn)≤50%的最大累積頻率(或最大累積權(quán)重)或≥50%的最小累積頻率(或最小累積權(quán)重)時,將區(qū)間內(nèi)有明確物理意義的加權(quán)平均值或最靠近加權(quán)中位數(shù)的加權(quán)平均值作為數(shù)據(jù)體的典型水平或特征平均值;在區(qū)間內(nèi)無適合的數(shù)值平均數(shù)時,加權(quán)中位數(shù)即代表正常有序數(shù)據(jù)體的典型水平。平衡中位數(shù)法則適用于正常有序數(shù)據(jù)體。
(3) 有序數(shù)據(jù)體的權(quán)衡指標一般選擇統(tǒng)計數(shù)據(jù)單位的分母項,否則權(quán)重分布曲線不能客觀反映數(shù)據(jù)體的基本特征。當權(quán)數(shù)與頻數(shù)可相互轉(zhuǎn)換時,盡管權(quán)重分布曲線不能客觀反映數(shù)據(jù)體的基本特征,但采用有明確物理意義的加權(quán)平均值仍可確定有序數(shù)據(jù)體的典型水平。對成本類、價格類、收入類等有序數(shù)據(jù)體,采用權(quán)數(shù)或頻數(shù)確定數(shù)據(jù)體特征平均值的計算方法有所不同(極小值=0的正常有序數(shù)據(jù)體除外)。
(4) 對正常有序數(shù)據(jù)體,采用有明確物理意義的加權(quán)平均值與用平衡中位數(shù)法則確定的正常有序數(shù)據(jù)體的典型水平可相互驗證。