利用P值方法對(duì)圖書館編目業(yè)務(wù)外包質(zhì)量檢驗(yàn)方法的改進(jìn)★
朱白
(商洛學(xué)院圖書館陜西 商洛726000)
摘要:圖書館編目業(yè)務(wù)普遍采用外包形式,對(duì)所編書目質(zhì)量如何有效地檢驗(yàn)顯得非常重要,在已有利用假設(shè)檢驗(yàn)臨界值方法對(duì)圖書質(zhì)量檢驗(yàn)的基礎(chǔ)上,提出另一種P值方法計(jì)算拒絕原假設(shè)H0的最小顯著水平,得到比傳統(tǒng)的臨界值法給出拒絕域更多的有關(guān)信息,并利用Excel中的統(tǒng)計(jì)函數(shù)計(jì)算P值以及確定編目外包質(zhì)量檢驗(yàn)的臨界值z(mì)1-α,使得P值的得到更容易.
關(guān)鍵詞:編目業(yè)務(wù)外包;假設(shè)檢驗(yàn);P值方法;顯著性水平
中圖分類號(hào):G254
基金項(xiàng)目:★本文系2014年商洛學(xué)院人文社科項(xiàng)目“數(shù)字化時(shí)代高校圖書館網(wǎng)絡(luò)式管理的研究”(14SKY022)的研究成果之一。
收稿日期:(2015-05-27責(zé)任編輯:劉麗斌)
圖書館為了減少投入的運(yùn)營(yíng)成本,提升服務(wù)效率,以簽訂合同方式委托外包服務(wù)商為其提供相關(guān)服務(wù),在圖書館業(yè)務(wù)外包類型中主要有采訪、編目、排架、信息服務(wù)、期刊報(bào)紙裝訂、書目數(shù)據(jù)庫(kù)建設(shè)、后勤物業(yè)管理等幾種業(yè)務(wù)外包形式[1]。而在這些類型中,編目外包是近年來(lái)被圖書館廣泛采用的一種形式。在圖書館與編目外包商簽訂的合同中都有所編書目質(zhì)量合格率說(shuō)明,由于編目水平影響到一所圖書館檢索書目的效率,直接反映了圖書館為讀者服務(wù)理念的執(zhí)行力,而檢驗(yàn)編目外包書目質(zhì)量最有力的方法就是統(tǒng)計(jì)學(xué)中的假設(shè)檢驗(yàn),對(duì)某一批提交書目進(jìn)行不重復(fù)抽樣檢驗(yàn),根據(jù)抽檢得到的樣本信息來(lái)判定是否拒收這批書目。
1假設(shè)檢驗(yàn)P值方法的引入
假設(shè)檢驗(yàn)是先對(duì)總體參數(shù)提出某種假設(shè),再由樣本信息判定假設(shè)是否正確的過(guò)程。它的邏輯為帶有概率性質(zhì)的反證法。即先承認(rèn)待檢驗(yàn)的假設(shè)成立,然后觀察在此假設(shè)前提下樣本的出現(xiàn)是否屬于小概率事件,如果是小概率事件,則有充分理由懷疑或者否定假設(shè),反之,不能否定假設(shè)[2]。
在編目外包質(zhì)量檢驗(yàn)方面的研究已有黃發(fā)貴教授的論文《推斷統(tǒng)計(jì)在圖書館業(yè)務(wù)外包質(zhì)量檢驗(yàn)中的應(yīng)用》,利用統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)中的臨界值(criticalvalue,根據(jù)給定的顯著性水平確定的拒絕域的邊界值,稱為臨界值。在確定了顯著性水平α后,就可由α的大小確定出拒絕域的邊界值即臨界值)方法從提出假設(shè)、規(guī)定顯著性水平(levelofsignificance)、抽取大樣本、決策四個(gè)步驟加以分析,并補(bǔ)充了假設(shè)檢驗(yàn)中的兩類錯(cuò)誤和樣本大小的確定[3]。這種傳統(tǒng)方法是在檢驗(yàn)之前先給定顯著性水平α,也就是事先確定了拒絕域(rejectionregion,能夠拒絕原假設(shè)的檢驗(yàn)統(tǒng)計(jì)量的所有可能取值的集合,稱為拒絕域。顯著性水平α所圍成的區(qū)域就是拒絕域),這個(gè)固定的顯著性水平α對(duì)質(zhì)量檢驗(yàn)結(jié)果的可靠性起了一定的度量作用,但不足之處是α對(duì)檢驗(yàn)結(jié)果的準(zhǔn)確性只提供一個(gè)大致范圍[4],對(duì)于編目外包質(zhì)量檢驗(yàn)這個(gè)特定的假設(shè)檢驗(yàn)問(wèn)題,不能夠給出樣本數(shù)據(jù)與原假設(shè)之間不一致程度的精確度量,也就是說(shuō),臨界值假設(shè)檢驗(yàn)方法只能給出我們拒絕還是不拒絕原假設(shè),卻不能得知拒絕原假設(shè)的確切概率是多少,對(duì)于同一個(gè)選擇的α,所有檢驗(yàn)結(jié)論的可靠性都一樣。要測(cè)量樣本觀測(cè)數(shù)據(jù)與原假設(shè)H0的偏離程度,就需要引入P值方法。
圖1圖2
若顯著性水平α≥P=0.0256,則對(duì)應(yīng)的臨界值z(mì)α≤1.945,這表示觀察值z(mì)0=1.945落在拒絕域內(nèi)(圖1),所以拒絕H0;若顯著性水平α
1.945,這表示z0=1.945沒(méi)有落在拒絕域內(nèi)(圖2),不拒絕H0。據(jù)此,P值=P{Z≥z0}=0.0256是原假設(shè)H0可能被拒絕的最小顯著性水平。如果原假設(shè)H0為真,得到的樣本結(jié)果會(huì)像實(shí)際觀測(cè)結(jié)果一樣極端甚至更極端的概率,稱為P值,也稱作觀察到的顯著性水平[5]。
2編目業(yè)務(wù)外包質(zhì)量的P值方法檢驗(yàn)
假設(shè)檢驗(yàn)中P值方法有下面四個(gè)步驟,以編目業(yè)務(wù)外包質(zhì)量檢驗(yàn)為例加以說(shuō)明。
2.1提出原假設(shè)和備擇假設(shè)
備擇假設(shè)(alternativehypothesis)與原假設(shè)(nullhypothesis)是一個(gè)完備事件組中相互對(duì)立的兩獨(dú)立事件。由于在編目外包質(zhì)量檢驗(yàn)中,我們所關(guān)心的是合同中給出的總體書目質(zhì)量合格率π0=95%是否有顯著降低,總想收集證據(jù)來(lái)支持合同承包商所提供的總體書目質(zhì)量不合格,所以由一般提出假設(shè)的方法將總體書目質(zhì)量合格率低于π0=95%即總體書目質(zhì)量不合格作為備擇假設(shè)H1,而將它的對(duì)立面總體書目質(zhì)量合格率不低于π0=95%即總體書目質(zhì)量合格作為原假設(shè)H0,這個(gè)假設(shè)是一個(gè)左邊檢驗(yàn),有H0:π≥95%;H1:<95%。
2.2確定檢驗(yàn)統(tǒng)計(jì)量及其分布并由樣本數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值
在規(guī)定了顯著性水平α=0.05(原假設(shè)為真卻拒絕了原假設(shè)的概率,即犯第一類錯(cuò)誤的概率或者該批書目的不合格率)的前提下,編目業(yè)務(wù)外包質(zhì)量檢驗(yàn)是左邊檢驗(yàn),另外由α=0.05查標(biāo)準(zhǔn)正態(tài)分布表得臨界值z(mì)1-α=-zα=-1.645,z1-α在原點(diǎn)左邊小于零。
說(shuō)明:p表示抽檢樣本合格率(樣本比例),n為樣本容量,1-π0表示總體書目不合格率,觀察值z(mì)0=-0.49的含義是:樣本比例p與檢驗(yàn)的總體比例相比,相差 0.49個(gè)抽樣標(biāo)準(zhǔn)差。
2.3構(gòu)造決策準(zhǔn)則
由1的引例知若顯著性水平α≥P值,z0落在拒絕域內(nèi),拒絕原假設(shè)H0;若顯著性水平α
2.4計(jì)算P值,做出決策
由于編目業(yè)務(wù)外包質(zhì)量檢驗(yàn)是一個(gè)左邊檢驗(yàn)(z0<0),代入P值公式,P值=P{Z≤z0} =Φ(z0)=1-Φ(-z0),P值為左側(cè)尾部面積。
P值=P{Z≤-0.49}=Φ(-0.49)= 1-Φ(0.49)=1-0.6879=0.3121,即拒絕這批圖書的最小顯著水平為0.3121,比較P值與α大小,α
圖3
用P值法進(jìn)行假設(shè)檢驗(yàn)的流程總結(jié)如圖4。
圖4
3利用Excel中的統(tǒng)計(jì)函數(shù)計(jì)算編目外包質(zhì)量檢驗(yàn)中的P值
功能強(qiáng)大的統(tǒng)計(jì)分析軟件有SAS、SPASS等等,但是這些專業(yè)軟件由于系統(tǒng)巨大,一般非統(tǒng)計(jì)專業(yè)人員操作不容易,且價(jià)格昂貴,普通大眾難以承受。微軟公司推出的辦公軟件包Office的重要成員之一Excel是一個(gè)功能多、技術(shù)先進(jìn)、使用方便的表格式數(shù)據(jù)綜合管理和分析系統(tǒng),它提供了豐富的函數(shù),可以進(jìn)行數(shù)據(jù)處理、統(tǒng)計(jì)分析和決策輔助。以下就利用Excel中的統(tǒng)計(jì)函數(shù)說(shuō)明計(jì)算編目外包質(zhì)量檢驗(yàn)中的P值。
(1)進(jìn)入Excel2007表格界面,直接點(diǎn)擊公式“fx”(插入函數(shù))命令。
(2)在選擇類別中選擇“統(tǒng)計(jì)”,在選擇函數(shù)中選擇“NORMSDIST”,將檢驗(yàn)統(tǒng)計(jì)量Z的觀察值z(mì)0=-0.49輸入光標(biāo)處,然后單擊“確定”,即彈出對(duì)話框,得到計(jì)算結(jié)果為0.312066949即左側(cè)面積,這與P值法計(jì)算得到的數(shù)值是一致的。也可以利用Excel中的統(tǒng)計(jì)函數(shù)確定編目外包質(zhì)量檢驗(yàn)的臨界值,在選擇函數(shù)中選擇“NORMSINV”,將1-0.05或0.95輸入光標(biāo)處,單擊“確定”,zα=NORMSINV(1-α),計(jì)算結(jié)果為1.644853627,z1-α=-zα=-1.644853627,這與由標(biāo)準(zhǔn)正態(tài)分布表查得的也是一致的。
P值與α大小比較進(jìn)行決策和上面的P值方法檢驗(yàn)是一樣的,α
4P值法進(jìn)行假設(shè)檢驗(yàn)的優(yōu)越性
(1)P值的結(jié)論更清晰和具體。檢驗(yàn)的結(jié)論使用0-1之間的概率來(lái)表示,不再簡(jiǎn)單使用“拒絕”或“不拒絕”的表達(dá)方式,P值能夠表達(dá)對(duì)原假設(shè)H0可信度以及拒絕H0的依據(jù)的強(qiáng)度。若P值非常小(小于0.001),有非常強(qiáng)的證據(jù)說(shuō)明H0非真;若P值較小(小于0.05),有較強(qiáng)的證據(jù)說(shuō)明H0非真;若P值更大(大于0.1),只有極少的證據(jù)說(shuō)明H0非真。
(2)P值的運(yùn)用方便靈活。對(duì)于一個(gè)給定的樣本數(shù)據(jù),其P值是確定的,但對(duì)于不同的α值,結(jié)論可能不同。決策者可以根據(jù)所能承受的風(fēng)險(xiǎn)以及抽樣成本自行決定顯著性水平α進(jìn)行決策,可能會(huì)做出不一樣的決策。
(3)P值為實(shí)施決策提供了更多的信息。臨界值法是事先給出一個(gè)顯著性水平,并以此為依據(jù)進(jìn)行決策,如果拒絕原假設(shè),只知道犯第Ⅰ類錯(cuò)誤的概率不超過(guò)α,但究竟是多少卻不知道,例如當(dāng)取α=0.1時(shí)知道要拒絕H0,再取α=0.05也要拒絕H0,但不知道將α再降低一些是否也要拒絕H0,P值法給出了原假設(shè)H0可能被拒絕的最小顯著性水平,P值也就是犯第Ⅰ類錯(cuò)誤的實(shí)際概率,與其選取適當(dāng)?shù)摩林担蝗鐚z驗(yàn)統(tǒng)計(jì)量實(shí)際的顯著性水平P值算出來(lái),P值法比臨界值法給出了有關(guān)拒絕域更多的信息。
(4)P值的計(jì)算更容易。盡管P值可以通過(guò)計(jì)算查表求出,但實(shí)際數(shù)據(jù)的檢驗(yàn)統(tǒng)計(jì)量的P值可能表中沒(méi)有,計(jì)算一個(gè)精確的P值不是很容易,計(jì)算機(jī)的使用使得P值的計(jì)算十分容易,在統(tǒng)計(jì)軟件的輔助下,計(jì)算P值就比傳統(tǒng)的查表更容易。
參考文獻(xiàn)
[1]韓超.高校圖書館編目業(yè)務(wù)外包的質(zhì)量控制研究[D].保定:河北大學(xué),2007:1.
[2]朱建平,孫小素.應(yīng)用統(tǒng)計(jì)學(xué)[M].北京:清華大學(xué)出社,2009:166.
[3]黃發(fā)貴.推斷統(tǒng)計(jì)在圖書館業(yè)務(wù)外包質(zhì)量檢驗(yàn)中的應(yīng)用[J].江西圖書館學(xué)刊,2006,36(1):31-32.
[4]袁衛(wèi),龐浩,曾五一,等.統(tǒng)計(jì)學(xué)[M].北京:高等教育出版社,2009:155.
[5]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(jì)[M].北京:高等教育出版社,2008:214.