国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

如何正確運用t檢驗
——兩幾何均值比較一般差異性t檢驗及SAS實現

2020-07-23 03:06于澤洋劉媛媛李長平胡良平
四川精神衛(wèi)生 2020年3期
關鍵詞:均數原始數據算術

于澤洋 ,劉媛媛 *,李長平 ,2,胡良平

(1.天津醫(yī)科大學公共衛(wèi)生學院,天津 300070;2.世界中醫(yī)藥學會聯合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029;3.軍事科學院研究生院,北京 100850

t檢驗主要用于樣本含量較小,總體標準差未知的正態(tài)分布。單從均值比較的角度看,t檢驗主要用于以下三種實驗設計條件下一個定量評價指標算術均數的比較,即“單組設計”“配對設計”和“成組設計”。t檢驗因其所需樣本含量小、計算簡單及檢驗功效較高而成為廣大科研工作者最為熟悉且應用最多的統(tǒng)計分析方法之一[1-2]。本文主要介紹幾何均數以及兩組近似對數正態(tài)分布數據幾何均數的一般差異性t檢驗及SAS實現。

1 基本概念

1.1 幾何均數及其計算公式

在臨床醫(yī)學研究中,一些變量的數值往往并不呈對稱分布,有時會遇到呈等比(即倍數)關系的計量數據或計數數據,例如大氣中某成分的濃度指標,臨床血清學診斷的抗體滴度數據等。由于這類數據往往不符合正態(tài)分布而呈正偏態(tài)分布,在進行統(tǒng)計描述時,不能直接通過算術均數和算術標準差來描述其數據的集中趨勢和離散程度。但這樣的數據經過對數變換(即取對數)后往往呈近似正態(tài)分布,被稱作服從對數正態(tài)分布的數據,此時該變量的對數值的平均水平可以用算術均數來表示,見式(1):

對于以頻數分布表形式給出的數據,同樣可以用組中值xMi估計對應組段中各個觀測值的大小,得到幾何均數的近似計算公式如下:

與幾何均數相比,算術均數的計算相對簡便,是應用最為廣泛的平均數指標。但算術均數對于特大或者特小的觀測值十分敏感。如果數據呈偏態(tài)分布,直接計算出的算術均數往往會偏向拖尾一側,不能很好地反映全部觀測值的平均水平。因此,算術均數主要適用于描述不含極端值的對稱分布變量的平均水平。幾何均數適合于原始數據呈正偏態(tài)分布但經對數轉換后呈近似對稱分布的數據,尤其是醫(yī)學研究中遇到的呈現等比例變化的數據,如抗體滴度、血清凝集效價等[3]。幾何均數的對數值實際上是各變量值對數的算術均數。并且,幾何均數受極端值的影響比算術均數小。但幾何均數在計算時,變量值中不能有零值或者負值。

2 問題與數據結構

【例1】在一項對精神分裂癥患者血脂水平與奧氮平血漿濃度之間關系的研究[4]中,研究者選取患者24人,根據2007年中國成人血脂防治指南推薦標準分為高脂血癥組和血脂正常組,假設測定的患者奧氮平血漿濃度如下(單位為ng/mL),高脂血癥組:x1=40,20,30,25,10,15,25,30,40,10,15,80;血脂正常組:x2=11,87,42,15,20,16,23,10,35,70,95,75。試分析兩組受試者奧氮平血漿濃度之間差異是否有統(tǒng)計學意義。

該例整體數據涉及兩個組,每組有12個觀測值,共24個觀測值,樣本量較小,測量指標為“藥物血漿濃度”,數據所取自的實驗設計類型屬于“成組設計”,該資料的完整描述為“成組設計一元定量資料”。

該研究是考察兩組總體均數之間差異是否有統(tǒng)計學意義,且主要評價指標為藥物血漿濃度,由于同一組數據內部各數據之間呈現近似倍數關系,故宜選用幾何均數G表示其平均水平,因此,應該對幾何均數G的差異性進行統(tǒng)計分析。若進行對數變換后,定量資料滿足獨立性、正態(tài)性和方差齊性的條件,可對其進行成組設計一元定量資料t檢驗,此時,還可以求出每組該定量指標的總體平均值的95%置信區(qū)間,再取反對數,即可得到原始數據的平均值的置信區(qū)間;否則,應該直接對原始數據進行符號秩和檢驗[5]。

3 SAS程序及結果解釋

3.1 SAS主要程序

【程序說明】本示例SAS程序共4步,包括2個數據步和2個過程步。第1個數據步先建立數據集G_mean,利用input語句輸入變量nd(血漿藥物濃度)、group(不同患者類型的分組,組1為高脂血癥組,組2為血脂正常組);第2個數據步調用log函數,取藥物血漿濃度值以e為底數的對數值,定義為新變量y;第3步調用UNIVARIATE過程,通過添加NORMAL選項對原始數據藥物血漿濃度nd以及對數值y按照不同分組進行正態(tài)性檢驗,分組變量為group;第4步為t檢驗,調用TTEST過程,對變量y按照分組變量group進行一般差異性t檢驗。選項COCHRAN表示輸出COCHRAN近似t檢驗的結果。

3.2 主要輸出結果及解釋

以上為正態(tài)性檢驗的結果,由于本例中樣本例數較少,所以參考Shapiro-Wilk檢驗的結果,可知兩組原始數據(變量為nd)不服從正態(tài)分布(W=0.812115、0.853688;P=0.0129、0.0408,P均<0.05),而經對數變換后的數據(變量為y)符合正態(tài)分布(W=0.957749、0.91446;P=0.7513、0.2433,P均>0.05)。

以上均為變量y的基本描述統(tǒng)計量,由輸出結果可知,高脂血癥組變量y的均值為3.1681(95%CI:2.7811~3.5551);標 準 差 為 0.6091(95%CI:0.4315~1.0342);標 準 誤 為 0.1758;最 小 值 為2.3026,最大值為4.3820。血脂正常組變量y的均值為 3.4326(95%CI:2.9090~3.9562);標準差為0.8240(95%CI:0.5837~1.3991);標 準 誤 為0.2379;最小值為2.3026,最大值為4.5539。

以上為t檢驗和方差齊性檢驗的輸出結果,由檢驗兩組方差齊性的結果,可知兩總體方差相等(F=1.83,P=0.3307>0.05),所以本例經對數變換后的數據滿足獨立性、正態(tài)性和方差齊性的條件,可以使用成組設計的一般差異性t檢驗進行均數比較,t=-0.89,P=0.3809>0.05,尚不能認為兩均值之間差異有統(tǒng)計學意義。

兩組原始數據經對數變換后的y值的平均值分別為3.1681和3.4326,對這兩個均值取反對數(即進行指數運算)后,可以得到原始藥物血漿濃度數據的平均值,即幾何均數G,G1=e3.1681=23.76,G2=e3.4326=30.95。由此可以下結論,兩組藥物血漿濃度的幾何均數分別為:高脂血癥組23.76 ng/mL,血脂正常組30.95 ng/mL,且兩組均值差異無統(tǒng)計學意義,尚不能認為高脂血癥患者藥物血漿濃度明顯低于血漿正常組。

4 討論與小結

算術均數和標準差是描述正態(tài)分布計量數據集中趨勢與離散程度的兩個統(tǒng)計量,而幾何均數是用于描述對數正態(tài)分布計量數據集中趨勢的統(tǒng)計量,其區(qū)別在于:算數均數與算數標準差描繪的是算術度量上的集中與離散,而幾何均數描述的是幾何(倍數)度量上的集中趨勢。因此,在對近似服從對數正態(tài)分布的定量資料進行分析時,要對數據的分布情況進行判斷后再選擇合適的描述方式,例如原始數據不能有負值或零值(必要時,可以給每個原始數據都加上同一個正數,并確保不會再出現負值或零值,這樣做在數學上被稱為平移變換,不會改變結果的正確性),對原始數據進行對數變換后再使用t檢驗,仍應進行正態(tài)性檢驗和方差齊性檢驗。需要注意的是,取對數之后求得的均數要經過取反對數才是原始數據的幾何均數。

由于不同類型數據的特征不同,在分析之前的預處理也不同,部分原始數據不一定通過簡單的取對數變換就一定能滿足正態(tài)性要求,還需要更加復雜的變換,例如有時需要進行l(wèi)og(X+K)或log(KX)變換(K為某一常數,通過嘗試確定)或Box-Cox變換才呈正態(tài),需要根據具體數據確定[6-7]。

猜你喜歡
均數原始數據算術
受特定變化趨勢限制的傳感器數據處理方法研究
擔心等
算算術
全新Mentor DRS360 平臺借助集中式原始數據融合及直接實時傳感技術實現5 級自動駕駛
學算術
對物理實驗測量儀器讀數的思考
小狗算算術
關于均數與偏差
關于均數與偏差
治多县| 肇州县| 西盟| 遂溪县| 保康县| 灌南县| 容城县| 彰化市| 凤翔县| 泰来县| 安宁市| 泰州市| 万山特区| 丹寨县| 通化县| 南昌县| 茶陵县| 卓尼县| 扬中市| 兴山县| 墨竹工卡县| 界首市| 河池市| 新田县| 通许县| 全南县| 辉南县| 涿鹿县| 南木林县| 花莲县| 桦川县| 衡水市| 苏尼特左旗| 临安市| 秦安县| 灵山县| 西乌珠穆沁旗| 凤城市| 鹤岗市| 海阳市| 乐业县|