王鑫蕊,竇鑫瑩,楊志清,施建華,2,3,4
模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)和多系列相關(guān)系數(shù)
王鑫蕊1,竇鑫瑩1,楊志清1,施建華1,2,3,4
(1.閩南師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,福建 漳州 363000;2.福建省粒計(jì)算及其應(yīng)用重點(diǎn)實(shí)驗(yàn)室,福建 漳州 363000;3.福建省數(shù)據(jù)科學(xué)與統(tǒng)計(jì)重點(diǎn)實(shí)驗(yàn)室,福建 漳州 363000;4.數(shù)字福建氣象大數(shù)據(jù)研究所,福建 漳州 363000)
在探討2個(gè)隨機(jī)變量的相關(guān)性研究中,隨機(jī)變量型態(tài)已由相同型態(tài)擴(kuò)展至混合型態(tài).然而,在混合隨機(jī)變量組合的條件下,當(dāng)數(shù)據(jù)呈現(xiàn)模糊區(qū)間型態(tài)時(shí),傳統(tǒng)相關(guān)系數(shù)演算法將不適合使用.借鑒傳統(tǒng)點(diǎn)二列相關(guān)系數(shù)研究成果,基于二分類與連續(xù)型以及多類別與連續(xù)型等混合型隨機(jī)變量組合,提出了模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)和模糊區(qū)間多系列相關(guān)系數(shù)的改進(jìn)算法,并通過(guò)蒙特卡洛模擬和實(shí)證分析,驗(yàn)證了該方法的有效性.
模糊區(qū)間;點(diǎn)二列相關(guān)系數(shù);模糊區(qū)間點(diǎn)二列相關(guān)系數(shù);模糊區(qū)間多系列相關(guān)系數(shù)
自19世紀(jì)80年代皮爾遜(Pearson)首次提出了皮爾遜積差相關(guān)系數(shù)的演算方法之后,研究2個(gè)隨機(jī)變量間相關(guān)性的風(fēng)潮隨之開(kāi)啟.與相關(guān)圖和相關(guān)表2種傳統(tǒng)的方法不同,相關(guān)系數(shù)可以將相關(guān)性進(jìn)行量化說(shuō)明,更直觀地反映出變量間相關(guān)關(guān)系的強(qiáng)弱.皮爾遜積差相關(guān)系數(shù)是用線性關(guān)系的方式來(lái)衡量連續(xù)型隨機(jī)變量的相關(guān)性,取值介于區(qū)間,當(dāng)相關(guān)系數(shù)為正數(shù)時(shí)表示2個(gè)變量呈現(xiàn)正向相關(guān),當(dāng)相關(guān)系數(shù)為負(fù)數(shù)時(shí)表示2個(gè)變量呈現(xiàn)負(fù)向相關(guān),系數(shù)值越接近于0,則相對(duì)表示2個(gè)隨機(jī)變量的相關(guān)程度越弱.然而,對(duì)于離散型隨機(jī)變量或定序型隨機(jī)變量,將無(wú)法通過(guò)皮爾遜積差相關(guān)系數(shù)來(lái)衡量隨機(jī)變量間的相關(guān)性,學(xué)者們?yōu)榱颂接戨x散型隨機(jī)變量或定序型隨機(jī)變量的相關(guān)性,提出了等級(jí)相關(guān)系數(shù)方法,如Spearman等級(jí)相關(guān)系數(shù)和Kendall等級(jí)相關(guān)系數(shù),它們都是利用排序秩差的方式來(lái)衡量分級(jí)定序變量之間的相關(guān)性.
此外,當(dāng)2個(gè)變量是離散變量中的類別變量或連續(xù)變量中的定距變量時(shí),往往需要根據(jù)變量的特性導(dǎo)入不同的相關(guān)系數(shù)演算方法,從而更準(zhǔn)確地計(jì)算變量間的實(shí)質(zhì)相關(guān)程度[1].在類別變量的部分,一般采用Harald Cramer于1946年提出的Cramer′s V系數(shù)進(jìn)行變量的相關(guān)性探討,當(dāng)2個(gè)變量完全相關(guān)時(shí)取值為1,完全獨(dú)立時(shí)取值為0.然而,對(duì)于類別變量與定距變量混合型態(tài)的數(shù)據(jù)集,變量之間的相關(guān)性無(wú)法根據(jù)之前所提及的方法進(jìn)行衡量.1960年,Gupta[2]討論了類別變量與定距變量間相關(guān)性的問(wèn)題,推導(dǎo)了一般情況下點(diǎn)二列相關(guān)系數(shù)的大樣本標(biāo)準(zhǔn)差公式,同時(shí)引入了多序列相關(guān)系數(shù),并進(jìn)一步研究了它的一些性質(zhì).
近年來(lái),在類別變量與定距變量混合的環(huán)境條件下,相關(guān)混合數(shù)據(jù)開(kāi)始逐漸涌現(xiàn),如醫(yī)療領(lǐng)域中對(duì)于疾病治愈和用藥量的關(guān)系,教育領(lǐng)域中學(xué)生高考錄取和會(huì)考成績(jī)間的關(guān)系等,反映了混合型態(tài)的數(shù)據(jù)已成為各領(lǐng)域所亟需重視的方向.在投資學(xué)中,點(diǎn)二列相關(guān)系數(shù)可以被用來(lái)研究投資者人格與投資行為的關(guān)系,有利于據(jù)此提出有針對(duì)性的投資建議[3].在教育領(lǐng)域中,文獻(xiàn)[4]利用點(diǎn)二列相關(guān)系數(shù)研究語(yǔ)言偏誤與學(xué)生性別、年齡和社會(huì)環(huán)境間的相關(guān)性,研究結(jié)果說(shuō)明了學(xué)生書(shū)面表達(dá)中存在的偏誤與語(yǔ)文學(xué)業(yè)成績(jī)呈現(xiàn)負(fù)相關(guān),同時(shí)與性別、年齡和社會(huì)環(huán)境之間也存著在不同程度的相互影響;Vincent[5]等在考試環(huán)境下,通過(guò)點(diǎn)二列相關(guān)系數(shù)對(duì)實(shí)際數(shù)據(jù)進(jìn)行了相關(guān)性分析,并對(duì)如何利用點(diǎn)二列相關(guān)系數(shù)解決實(shí)際問(wèn)題進(jìn)行了介紹.在醫(yī)學(xué)領(lǐng)域中,曹盼盼[6]等利用點(diǎn)二列相關(guān)系數(shù)公式分析了年齡、平均收縮壓、空腹血糖、血清白蛋白等與蒙特利爾認(rèn)知評(píng)估量表(MoCA-B量表)評(píng)分的相關(guān)性,研究結(jié)果對(duì)老年慢性腎臟病的預(yù)防與治療起到了積極作用.
隨著現(xiàn)代數(shù)據(jù)收集的更新演化,現(xiàn)實(shí)所觀測(cè)到的數(shù)據(jù)發(fā)生了量與型態(tài)上的改變,數(shù)據(jù)采集的過(guò)程中變量的生成方式也由傳統(tǒng)的單變量轉(zhuǎn)變?yōu)閰^(qū)間型態(tài)變量,這也促進(jìn)了區(qū)間數(shù)據(jù)統(tǒng)計(jì)分析方法的演進(jìn)[7-8].從相關(guān)系數(shù)的研究進(jìn)程來(lái)看,模糊區(qū)間相關(guān)系數(shù)已經(jīng)被提出[9-11].但模糊區(qū)間相關(guān)系數(shù)大部分被用于衡量具有同一變量型態(tài)的模糊區(qū)間變量間的相關(guān)性[12],對(duì)于混合型態(tài)的模糊區(qū)間變量具有一定的局限性.本文將傳統(tǒng)的點(diǎn)二列相關(guān)系數(shù)方法進(jìn)行創(chuàng)新,針對(duì)單一類別變量與模糊區(qū)間定距變量混合型態(tài)的數(shù)據(jù)集,提出模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)這一新方法,并將其推廣到多類別變量與模糊區(qū)間定距變量的相關(guān)系數(shù)研究,進(jìn)一步擴(kuò)展了混合型態(tài)數(shù)據(jù)的應(yīng)用層面,豐富和發(fā)展了多元化數(shù)據(jù)型態(tài)的相關(guān)性理論研究.
由于傳統(tǒng)的點(diǎn)二列相關(guān)系數(shù)在多元化數(shù)據(jù)型態(tài)下具有局限性,它對(duì)于區(qū)間型數(shù)據(jù)不再適用.因此,本文基于傳統(tǒng)的點(diǎn)二列相關(guān)系數(shù)方法提出模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)的新定義,用以探討一組區(qū)間隨機(jī)變量和一組分類變量間的相互影響關(guān)系.具體地,模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)(Point Biserial Correlation Coefficient of Fuzzy Interval,PBCCFI)的定義為:
由于傳統(tǒng)的多系列相關(guān)系數(shù)公式比較復(fù)雜,人們往往需要借助類別變量上下限的正態(tài)曲線高度和正態(tài)分布表來(lái)計(jì)算.為了方便計(jì)算,本文提出了先將多類別變量轉(zhuǎn)化為二分類變量,再由模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)公式來(lái)估計(jì)模糊區(qū)間連續(xù)變量與名義變量間相關(guān)性的方法,由此得到模糊區(qū)間多系列相關(guān)系數(shù)(Multiserial Correlation Coefficient of Fuzzy Interval,MSCCFI).
采用蒙特卡洛(Monte Carlo)方法對(duì)模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)及模糊區(qū)間多系列相關(guān)系數(shù)進(jìn)行模擬分析,通過(guò)模擬結(jié)果對(duì)該方法的效果進(jìn)行評(píng)估.
在模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)的演算過(guò)程中,可以通過(guò)蒙特卡洛模擬方法對(duì)所提出的相關(guān)系數(shù)方法進(jìn)行驗(yàn)證,其模擬步驟為:
表1 模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)
王某表現(xiàn)得一點(diǎn)兒也不跋扈,但有犀利的網(wǎng)友讀出了“威脅”:雖說(shuō)這張關(guān)系譜里沒(méi)啥級(jí)別了不得的官員,但不乏“關(guān)鍵崗位”的人物。譬如表姐夫、姥爺?shù)耐拢徒逃到y(tǒng)關(guān)系密切,說(shuō)不準(zhǔn)還會(huì)影響到老師的前途。所以即便關(guān)系不算近,也要“強(qiáng)蹭”一把。這就有點(diǎn)綿里藏針的味道了。
在模糊區(qū)間多系列相關(guān)系數(shù)的演算過(guò)程中,應(yīng)用蒙特卡洛模擬方法對(duì)模糊區(qū)間多系列相關(guān)系數(shù)的效果進(jìn)行驗(yàn)證,其模擬步驟為:
表2 模糊區(qū)間多系列相關(guān)系數(shù)
從金融機(jī)構(gòu)的信用貸款角度來(lái)看,金融機(jī)構(gòu)在提供信貸專案時(shí),也希望能在風(fēng)險(xiǎn)最小的情況下進(jìn)行,也就是說(shuō)個(gè)人或企業(yè)在申請(qǐng)信用貸款時(shí),金融機(jī)構(gòu)將對(duì)個(gè)人或企業(yè)的信用進(jìn)行評(píng)估,并作為核發(fā)貸款的依據(jù).因此,在金融產(chǎn)業(yè)領(lǐng)域中,對(duì)申請(qǐng)信用貸款的客戶進(jìn)行信用評(píng)等審核,已成為金融機(jī)構(gòu)核撥貸款的常規(guī)做法,同時(shí)也反映出信用評(píng)等與貸款審核結(jié)果之間存在著相互影響的程度[16].鑒于此,為了研究信用貸款審核結(jié)果和信用評(píng)等之間的關(guān)系,本文引用2019-01—2019-12某銀行的2個(gè)地區(qū)分行(分別記為A分行,B分行)的微小企業(yè)信貸計(jì)分卡總分及貸款審核結(jié)果等數(shù)據(jù),進(jìn)行模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)的實(shí)證分析.
根據(jù)地區(qū)各采集了50位貸款申請(qǐng)用戶的數(shù)據(jù),分別采取其信用評(píng)等計(jì)分的最低分和最高分組成區(qū)間數(shù)值,使其信用評(píng)等以區(qū)間型態(tài)呈現(xiàn),同時(shí)記錄用戶的信用貸款審核結(jié)果.具體數(shù)據(jù)見(jiàn)表3.
表3 微小企業(yè)信貸的信用評(píng)等與貸款審核結(jié)果數(shù)據(jù)統(tǒng)計(jì)
該銀行在A,B分行中,一般以信用評(píng)等總分作為衡量貸款申請(qǐng)客戶信用狀況的依據(jù).然而為了避免單一信用評(píng)等總分易造成信用誤評(píng)的現(xiàn)象及更好地維護(hù)客戶權(quán)益,部分銀行采用了雙重信用評(píng)等方式對(duì)貸款申請(qǐng)人進(jìn)行信用評(píng)等.
表4 微小企業(yè)信貸的信用評(píng)等的描述性統(tǒng)計(jì)
續(xù)表4
平均值可以反映信用評(píng)等總分的集中趨勢(shì),但單從平均值來(lái)看,無(wú)法判斷樣本觀測(cè)點(diǎn)的大致分布情況,因此必須結(jié)合標(biāo)準(zhǔn)差統(tǒng)計(jì)量的數(shù)值進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行分析,最后通過(guò)均值和標(biāo)準(zhǔn)差2個(gè)統(tǒng)計(jì)量刻畫(huà)出數(shù)據(jù)的集中和離散程度.如在A分行的部分,以第4項(xiàng)數(shù)據(jù)為例,其平均值為79.9,數(shù)值較大,而其標(biāo)準(zhǔn)差為0.2,數(shù)值較小,此時(shí)可以認(rèn)為該項(xiàng)數(shù)據(jù)的2種信用評(píng)分均較高且差異很小,說(shuō)明該用戶有很大可能通過(guò)審核,這一結(jié)果與實(shí)際審核結(jié)果相一致,說(shuō)明了描述性統(tǒng)計(jì)分析在數(shù)據(jù)分析中有至關(guān)重要的作用.在B分行的部分,以第26項(xiàng)數(shù)據(jù)為例,其平均值為70.9,標(biāo)準(zhǔn)差為0.9,說(shuō)明該用戶的2種信用評(píng)分均較低且較為接近,可以猜測(cè)該用戶的審核結(jié)果應(yīng)為拒絕,這也與實(shí)際審核結(jié)果相符.另外,當(dāng)數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差值均處于居中水平時(shí),則無(wú)法通過(guò)描述性統(tǒng)計(jì)分析對(duì)審核結(jié)果進(jìn)行判斷.
利用模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)對(duì)信用評(píng)等總分與審核結(jié)果之間的相關(guān)性進(jìn)行量化分析,結(jié)果見(jiàn)表5.
表5 信用評(píng)等總分與貸款審核結(jié)果的點(diǎn)二列相關(guān)系數(shù)
相關(guān),而最低總分與該分行的信用貸款核撥不相關(guān).表明該分行進(jìn)行信用貸款核撥時(shí)更關(guān)注客戶信用評(píng)等的最高分,即客戶信用評(píng)等總分的最低分較低時(shí),若最高分足夠高,該客戶有很大可能通過(guò)貸款審核.
本文提出的模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)和模糊區(qū)間多系列相關(guān)系數(shù)方法,適用于模糊區(qū)間類別變量相關(guān)性分析的一類問(wèn)題,能有效地度量混合型模糊區(qū)間隨機(jī)變量的相關(guān)性.其中,模糊區(qū)間點(diǎn)二列相關(guān)系數(shù)方法與傳統(tǒng)點(diǎn)二列相關(guān)系數(shù)相比最大的優(yōu)勢(shì)是可以保持?jǐn)?shù)據(jù)的維度不被改變,將搜集到的區(qū)間觀測(cè)信息充分利用起來(lái),得到的結(jié)果不僅可以體現(xiàn)2個(gè)變量間的相關(guān)性,還可以呈現(xiàn)變量改變時(shí)相關(guān)性變化的程度.而模糊區(qū)間多系列相關(guān)系數(shù)的優(yōu)點(diǎn)在于其不僅簡(jiǎn)化了多系列相關(guān)系數(shù)的演算過(guò)程,而且使多維數(shù)據(jù)在分析過(guò)程中保持維度不變,保證了數(shù)據(jù)信息的完整性,從而使分析結(jié)果更具有說(shuō)服力,為決策者提供更合理的參考依據(jù).
[1] 金林,李研.幾種相關(guān)系數(shù)辨析及其在R語(yǔ)言中的實(shí)現(xiàn)[J].統(tǒng)計(jì)與信息論壇,2019,34(4):3-11.
[2] Gupta S.Point Biserial Correlation Coefficient and Its Generalization[J].Psychometrika,1960,25(4):393-408.
[3] 孔煒.上海市股票投資者的人格與投資行為的關(guān)系的研究[D].上海:華東師范大學(xué),2005.
[4] 孫學(xué)明.初中學(xué)生語(yǔ)文偏誤的統(tǒng)計(jì)學(xué)調(diào)查與研究[D].北京:首都師范大學(xué),2004.
[5] Vincent L B,Michael A,Cox A.Interpretation of the point-biserial correlation coefficient in the context of a school examination[J].The Quantitative Methods for Psychology,2017,13(1):46-56.
[6] 曹盼盼,閻磊,顧玥,等.頸動(dòng)脈內(nèi)中膜厚度增加與老年慢性腎臟病患者發(fā)生認(rèn)知功能障礙的相關(guān)性[J].中華實(shí)用診斷與治療雜志,2019,33(2):124-127.
[7] 王美涵,陳培樂(lè),潘曉映,等.基于相依區(qū)間值數(shù)據(jù)的EWMA FIMSE控制圖[J].閩南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,34(3):1-7.
[8] 李城恩,潘曉映,王美涵,等.基于區(qū)間型數(shù)據(jù)計(jì)量的我國(guó)糧食產(chǎn)量研究[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,40(1):206-215.
[9] Cheng Y T,Yang C.An Approach of Stocks Substitution Strategy Using Fuzzy Interval Correlation Coefficient[J].Communications in Statistics-Simulation and Computation,2016,45(4):1187-1196.
[10] Yang C C.Correlation Coefficient Evaluation for the Fuzzy Interval Data[J].Journal of Business Research,2016,69(6):2138-2144.
[11] 楊志清.計(jì)數(shù)區(qū)間的模糊相關(guān)系數(shù)研究[J].統(tǒng)計(jì)與決策,2020,36(20):28-32.
[12] 王忠玉,吳柏林.一類模糊數(shù)據(jù)的相關(guān)系數(shù)研究[J].經(jīng)濟(jì)研究導(dǎo)刊,2015(2):248-251.
[13] Lev J.The Point Biserial Coefficient of Correlation[J].The Annals of Mathematical Statistics,1949,20(1):125-126.
[14] 秦志仁,董咪達(dá).多系列相關(guān)系數(shù)的矩法估計(jì)[J].重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,21(1):10-13.
[15] 李金華.模糊數(shù)學(xué)方法與統(tǒng)計(jì)賦權(quán)[J].?dāng)?shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2000(10):34-38.
[16] 汪順玉,吳世銀.評(píng)分員信度的多系列相關(guān)分析方法原理及運(yùn)用[J].重慶郵電學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2006(6):945-947.
Point biserial correlation coefficient and multiserial correlation coefficient of fuzzy interval
WANG Xinrui1,DOU Xinying1,YANG Zhiqing1,SHI Jianhua1,2,3,4
(1. School of Mathematics and Statistics,Minnan Normal University,Zhangzhou 363000,China;2. Fujian Key Laboratory of Granular Computing and Applications,Zhangzhou 363000,China;3. Fujian Key Laboratory ofData Science and Statistics,Zhangzhou 363000,China;4. Fujian Institute of Meteorological Big Data,Zhangzhou 363000,China)
In the study of the correlation between two random variables,the type of random variables has been expanded from the same type to the mixed type.However,under the condition of the combination of mixed random variables,the traditional correlation coefficient algorithm is not suitable for use when the data type presents a fuzzy interval pattern.Referring to the research results of traditional point biserial correlation coefficient,based on the mixed random variables combination of binary variables and multi-categorical variables with continuous random variables,the point biserial correlation coefficient and multiserial correlation coefficient of fuzzy interval are proposed.Afterwards,the effectiveness of this method is verified through Monte Carlo simulation and empirical analysis.
fuzzy interval;point biserial correlation coefficient;point biserial correlation coefficient of fuzzy interval;multiserial correlation coefficient of fuzzy interval
1007-9831(2022)11-0008-08
O21
A
10.3969/j.issn.1007-9831.2022.11.002
2022-03-15
國(guó)家社會(huì)科學(xué)基金項(xiàng)目(20XTJ003)
王鑫蕊(1997-),女,河南駐馬店人,在讀碩士研究生,從事應(yīng)用統(tǒng)計(jì)分析研究.E-mail:857273302@qq.com
施建華(1977-),男,福建福清人,教授,博士,從事應(yīng)用統(tǒng)計(jì)分析研究.E-mail:v0085@126. com