情境判斷測(cè)驗(yàn)的信度與效度研究：以我國公務(wù)員內(nèi)隱知識(shí)測(cè)驗(yàn)為例

2016-06-05 08:41仲志杰

管理工程學(xué)報(bào) 2016年4期

程穎，仲志杰，馮明

程穎1，仲志杰2，馮明1

（1. 重慶大學(xué)經(jīng)濟(jì)與工商管理學(xué)院，重慶400044； 2. 重慶市軌道交通集團(tuán)，重慶400042）

作為一種有效的人事選拔評(píng)價(jià)方法，情境判斷測(cè)試一直受到研究者和企事業(yè)單位的廣泛關(guān)注。但由于受到目前情境判斷測(cè)試的信度和效度研究有限、國內(nèi)公開發(fā)表的數(shù)據(jù)少等的制約，該測(cè)試的有效運(yùn)用受到了一定影響。本文通過《我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》量表對(duì)151名在崗公務(wù)員和61名在讀本科生施測(cè)，檢驗(yàn)了情境判斷測(cè)驗(yàn)量表的信度和效度及其部分影響因素，豐富了相關(guān)研究的實(shí)證證據(jù)，能更好地幫助理解SJT的價(jià)值及其在中國情境中的運(yùn)用規(guī)范。研究結(jié)果表明公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)量表具有較好的構(gòu)思效度，能夠測(cè)到公務(wù)員認(rèn)知能力和工作經(jīng)驗(yàn)；量表也具有較好的效標(biāo)關(guān)聯(lián)效度，能夠預(yù)測(cè)與公務(wù)員工作相關(guān)的指標(biāo)。通過對(duì)不同賦分方式下情境判斷測(cè)驗(yàn)效度以及不同性別的被測(cè)對(duì)象的量表得分進(jìn)行比較，我們發(fā)現(xiàn)賦分方式是公務(wù)員情境判斷測(cè)驗(yàn)效度的影響因素之一，性別因素對(duì)公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)效度沒有顯著影響。

情境判斷測(cè)驗(yàn)；信度；效度；公務(wù)員；內(nèi)隱知識(shí)

0 引言

各種人事測(cè)評(píng)技術(shù)在企事業(yè)單位已得到了廣泛的應(yīng)用[1]～[3]。情境判斷測(cè)驗(yàn)（Situational Judgment Tests，簡(jiǎn)稱SJT）是人力資源評(píng)價(jià)中的重要技術(shù)，它通過模擬實(shí)際工作中的具體情境，考察個(gè)人與工作直接相關(guān)的能力與技術(shù)[4]，通常被認(rèn)為具有自身的獨(dú)特性，能測(cè)到其他測(cè)評(píng)方式或指標(biāo)無法測(cè)到的、與個(gè)體績(jī)效相關(guān)的獨(dú)特因素[5]。典型的SJT會(huì)呈現(xiàn)給被試者在工作中可能遇到的各種情境，這些情境通常來自關(guān)鍵性事件或工作分析，以及伴隨各種情境的各種可能的處理方法或反應(yīng)方式；被試者通常會(huì)被以迫選或Likert方式對(duì)各種可能的行動(dòng)方式作出判斷；然后，評(píng)測(cè)人員把被試者的選擇與參考答案對(duì)比進(jìn)行評(píng)分。在國外的人事選拔中，對(duì)SJT的開發(fā)和應(yīng)用已有較長的歷史。1926年華盛頓大學(xué)制定了社會(huì)智力測(cè)驗(yàn)判斷量表[5]，但在當(dāng)時(shí)沒有引起廣泛的注意，直到20世紀(jì)90年代，Sternberg[6]與Motowidlo[7]等人經(jīng)過研究發(fā)現(xiàn)，SJT是測(cè)量個(gè)體“勝任力”的良好工具，從而引起人們對(duì)SJT的廣泛關(guān)注，此后有關(guān)SJT的研究蓬勃發(fā)展。學(xué)者們普遍認(rèn)為，與其他測(cè)評(píng)技術(shù)相比，SJT具有高表面效度、高保真度、能夠同時(shí)考察多種能力結(jié)構(gòu)等優(yōu)勢(shì)[4]，[8]，[9]，因此自從被引進(jìn)到國內(nèi)以來，SJT一直受到研究者和企事業(yè)單位的廣泛關(guān)注。

目前國內(nèi)企事業(yè)單位對(duì)情境判斷測(cè)試的有效運(yùn)用受到了兩個(gè)主要因素的制約。一是SJT的信度和效度究竟如何，即通過測(cè)驗(yàn)是否及在多大程度上能預(yù)測(cè)與工作相關(guān)的指標(biāo)。從理論上講，具備良好的信度和效度是一個(gè)有效的測(cè)評(píng)工具的必備條件[10]，因而過去二十年以來，相關(guān)研究主要圍繞SJT的信度和效度來展開。早期的經(jīng)典研究對(duì)SJT的效度進(jìn)行了探討，研究結(jié)果表明SJT測(cè)量了認(rèn)知能力及不同程度的人格特質(zhì)，能夠用于評(píng)估特定的構(gòu)思和多維構(gòu)思[5]，[11]～[13]。由于SJT的測(cè)評(píng)工具數(shù)量眾多，相關(guān)的效度研究也很多， McDaniel和同事們進(jìn)行了元分析研究[5]，[14]，以確定這些測(cè)量工具的效標(biāo)關(guān)聯(lián)效度；結(jié)果發(fā)現(xiàn)，SJT的效標(biāo)關(guān)聯(lián)效度較好，但保真度水平（筆紙形式 vs 音像形式）和題目的語境（知識(shí)型 vs 行為型）可能會(huì)影響效度，因此研究者認(rèn)為SJT的保真度和所使用的指導(dǎo)語對(duì)測(cè)量工具的構(gòu)想效度和效標(biāo)關(guān)聯(lián)效度的關(guān)系需要做進(jìn)一步考察，由此引出了當(dāng)前學(xué)者們對(duì)SJT信度和效度的影響因素的探討?？偟膩碚f，從已有的研究結(jié)果來看，盡管我們對(duì)SJT的構(gòu)思效度和效標(biāo)關(guān)聯(lián)的了解已經(jīng)很多，但這僅僅是一個(gè)開始；我們還需要進(jìn)一步了解SJT的特征，以及這些特征對(duì)其效度的影響，此外，目前研究還缺乏一個(gè)有效的理論框架對(duì)SJT信度與效度及其影響因素進(jìn)行整合[4]。

另一個(gè)制約是現(xiàn)有的SJT的實(shí)證研究文獻(xiàn)基本上是美國學(xué)者發(fā)表的，已積累的大量的信度與效度和效標(biāo)關(guān)聯(lián)效度的證據(jù)也基本是在美國文化背景下進(jìn)行的，國內(nèi)SJT的研究起步較晚，公開發(fā)表的SJT的數(shù)據(jù)少[15]，[16]。從理論上講，由于國內(nèi)SJT相關(guān)實(shí)證研究少，我們對(duì)SJT是否會(huì)受文化或種族團(tuán)隊(duì)等情境因素影響仍存在疑問[17]，[18]，使得我國企事業(yè)單位在選用SJT進(jìn)行人才測(cè)評(píng)時(shí)缺乏有力的理論依據(jù)。

本文在開發(fā)公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)量表的基礎(chǔ)上，對(duì)SJT的信度和效度進(jìn)行了實(shí)證研究，并分析了包括賦分方式、被測(cè)對(duì)象特征等前因因素對(duì)SJT信度和效度的影響。在理論上，通過開發(fā)《我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》并進(jìn)行實(shí)證研究，檢驗(yàn)SJT的信度和效度及其影響因素，豐富了目前國內(nèi)外相關(guān)研究的實(shí)證證據(jù)；另一方面，將SJT擴(kuò)展到對(duì)我國公務(wù)員內(nèi)隱知識(shí)的研究，搜集中國情境下的實(shí)證研究數(shù)據(jù)，可以更好地幫助理解SJT的價(jià)值及其在中國情境中的運(yùn)用規(guī)范。在實(shí)踐上，截至2012年底，我國有708.9萬名公務(wù)員①，這支龐大的公務(wù)員隊(duì)伍承擔(dān)著國家行政管理職能；借助開發(fā)和測(cè)試我國公務(wù)員情境判斷測(cè)驗(yàn)工具及對(duì)其進(jìn)行信度和效度的驗(yàn)證，本文希望能為有效識(shí)別和甄選公務(wù)員人才尋找合適的工具，并為類似的其他人才選拔活動(dòng)提供可借鑒的依據(jù)。

1 研究綜述及理論發(fā)展

1.1 SJT信度的相關(guān)研究

SJT的信度是研究者討論比較多的一個(gè)主題。McDaniel等人的元分析研究發(fā)現(xiàn)SJT的內(nèi)部一致性系數(shù)在0.43和0.94之間[5]。有研究驗(yàn)證了一些SJT中影響內(nèi)部一致性的中介變量，例如，Ployhart和Ehrhart的研究發(fā)現(xiàn)SJT的測(cè)評(píng)方式影響其內(nèi)部一致性系數(shù)：測(cè)驗(yàn)要求被試者評(píng)價(jià)每個(gè)選項(xiàng)的有效性，其內(nèi)部一致性系數(shù)為0.73；要求被試者選擇“最好”和“最壞”，其內(nèi)部一致性系數(shù)為0.60；要求被試者只選擇一個(gè)反應(yīng)項(xiàng)（如最有效）時(shí)的內(nèi)部一致性系數(shù)最低，為0.24[19]。Motowidlo等人的研究發(fā)現(xiàn)，SJT的內(nèi)部一致性系數(shù)為0.56；但他們指出，由于SJT測(cè)量的并非是一個(gè)特定的構(gòu)思，所以內(nèi)部一致性系數(shù)不是特別適合于該測(cè)驗(yàn)的信度評(píng)估，而重測(cè)信度更能有效評(píng)估SJT的真實(shí)的信度水平[7]；然而在他們的研究中，作者并沒有對(duì)SJT的重測(cè)信度進(jìn)行檢驗(yàn)，此后對(duì)SJT的重測(cè)信度進(jìn)行檢驗(yàn)的研究也比較少。近期，在Weekley及其同事的研究中，SJT的重測(cè)信度為0.84，這為SJT的信度提供了有力的支持[20]。Lievens和Sackett也認(rèn)為，重測(cè)信息更適合作為SJT的信度評(píng)價(jià)方法，其原因是再次參加測(cè)驗(yàn)的被試者樣本具有更高的相似度，重測(cè)時(shí)可以排除一些因素的影響，從而得到更可靠的估計(jì)[21]。

1.2 SJT效度的相關(guān)研究及研究假設(shè)

1.2.1 構(gòu)思效度研究

從經(jīng)濟(jì)效用來講，SJT具有較高的開發(fā)和使用成本，與其他一些測(cè)評(píng)方式相比較并不具備成本優(yōu)勢(shì)[4]，那么SJT的獨(dú)特性和價(jià)值到底體現(xiàn)在哪里？要回答這個(gè)問題，就必須要進(jìn)一步探討其構(gòu)思效度。和評(píng)價(jià)中心一樣,在SJT的應(yīng)用之初,人們并不十分重視其構(gòu)思效度,隨著測(cè)驗(yàn)的不斷發(fā)展,無論是應(yīng)用界還是理論界,人們?cè)絹碓綇?qiáng)烈地意識(shí)到必須要澄清SJT測(cè)量的典型構(gòu)想[22]。目前的研究對(duì)SJT的構(gòu)思效度還在探索的過程中，主要的分析可以分為兩個(gè)流派：一是認(rèn)為SJT能測(cè)得到一個(gè)獨(dú)特的構(gòu)思，研究重點(diǎn)在探討SJT的測(cè)驗(yàn)內(nèi)容，相關(guān)研究開發(fā)了一些專門測(cè)量特定構(gòu)思的測(cè)驗(yàn)。例如，Becker開發(fā)了測(cè)量員工正直度的SJT[23]；Ascalon等開發(fā)了測(cè)量同情心和種族優(yōu)越感的SJT[24]；Mumford等開發(fā)了測(cè)量團(tuán)隊(duì)合作的SJT[25]?；谶@些研究成果，本研究開發(fā)了《我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》，以測(cè)驗(yàn)我國公務(wù)員的內(nèi)隱知識(shí)。另一些研究則認(rèn)為SJT能夠測(cè)到多維構(gòu)思，包括一般認(rèn)知能力、工作經(jīng)驗(yàn)和人格等[26]，通過討論SJT測(cè)驗(yàn)分?jǐn)?shù)和認(rèn)知、人格之間的相關(guān)性來探討SJT的測(cè)量構(gòu)想。目前大多數(shù)研究遵循了這樣的研究思路。比如，Weekley和Jone的大樣本研究結(jié)果顯示，SJT與一般認(rèn)知能力的平均相關(guān)系數(shù)為0.45[18]。Sternberg通過研究發(fā)現(xiàn)，工作經(jīng)驗(yàn)豐富的被試者與欠缺或沒有工作經(jīng)驗(yàn)的被試者相比，前者在SJT中的得分更高，說明SJT的得分與被試者的實(shí)際工作經(jīng)驗(yàn)存在一定的關(guān)系[27]。Weekley和Jone也發(fā)現(xiàn)SJT與實(shí)際工作經(jīng)驗(yàn)顯著相關(guān)，平均相關(guān)系數(shù)為0.21[18]。McDaniel等通過三個(gè)元分析[5],[11],[28]對(duì)SJT的效度證據(jù)進(jìn)行了總結(jié)，發(fā)現(xiàn)SJT與一般認(rèn)知能力的相關(guān)關(guān)系數(shù)為0.53[5]，行為導(dǎo)向的SJT顯示出于人格測(cè)試之間更高的相關(guān)性[11]等。在這些研究成果的基礎(chǔ)上，本文提出被試公務(wù)員的工作經(jīng)驗(yàn)、認(rèn)知能力等個(gè)體特征與其SJT測(cè)試分?jǐn)?shù)之間存在一定相關(guān)關(guān)系，即：

假設(shè)1：公務(wù)員個(gè)體的認(rèn)知能力影響其內(nèi)隱知識(shí)情境判斷測(cè)試分?jǐn)?shù)，認(rèn)知能力水平較高的被試者的測(cè)驗(yàn)得分高于認(rèn)知能力水平較低的被試者。

假設(shè)2：公務(wù)員個(gè)體的工作經(jīng)驗(yàn)影響其內(nèi)隱知識(shí)情境判斷測(cè)試分?jǐn)?shù)，具備一定工作經(jīng)驗(yàn)的被試者的測(cè)驗(yàn)得分高于缺乏工作經(jīng)驗(yàn)的被試者。

1.2.2 效標(biāo)關(guān)聯(lián)效度研究

測(cè)驗(yàn)的效標(biāo)關(guān)聯(lián)效度是指通過該選拔過程是否能夠很好地預(yù)測(cè)工作相關(guān)的指標(biāo)[4]。以往大量的研究對(duì)SJT的效標(biāo)關(guān)聯(lián)效度進(jìn)行了探討，結(jié)果發(fā)現(xiàn)SJT具有很好的效標(biāo)關(guān)聯(lián)效度，可以較好地預(yù)測(cè)個(gè)體現(xiàn)在和將來的績(jī)效表現(xiàn)。例如，McDaniel等在95個(gè)研究的基礎(chǔ)上對(duì)SJT的效標(biāo)關(guān)聯(lián)效度進(jìn)行元分析發(fā)現(xiàn)，SJT得分與工作績(jī)效之間存在0.34的相關(guān)度[5]；基于118個(gè)研究的數(shù)據(jù)，McDaniel等再次對(duì)SJT的效標(biāo)關(guān)聯(lián)效度進(jìn)行了元分析，結(jié)果顯示在不考慮指導(dǎo)語類型的前提下，SJT的效標(biāo)關(guān)聯(lián)效度達(dá)到0.26[11]。Sternberg等在其對(duì)內(nèi)隱知識(shí)的研究中發(fā)現(xiàn)，SJT得分與多項(xiàng)效標(biāo)的相關(guān)度在0.20到0.40之間[27]。另外還有一些學(xué)者基于將工作績(jī)效細(xì)分為任務(wù)績(jī)效、關(guān)系績(jī)效和管理績(jī)效的基礎(chǔ)上對(duì)SJT的效標(biāo)關(guān)聯(lián)效度進(jìn)行了研究。如O’Connell等研究了SJT與任務(wù)績(jī)效和關(guān)系績(jī)效之間的關(guān)系，結(jié)果顯示SJT與任務(wù)績(jī)效存在0.14的相關(guān)，與關(guān)系績(jī)效存在0.10的相關(guān)[13]。Christian等將工作績(jī)效分為任務(wù)績(jī)效、關(guān)系績(jī)效和管理績(jī)效，進(jìn)而對(duì)SJT的效標(biāo)關(guān)聯(lián)效度進(jìn)行元分析，結(jié)果表明，測(cè)量團(tuán)隊(duì)工作技能、領(lǐng)導(dǎo)力、人際交往技能、責(zé)任心、工作知識(shí)和技能時(shí)的效標(biāo)關(guān)聯(lián)效度在0.19到0.38之間，SJT整體的效標(biāo)關(guān)聯(lián)效度是0.28[22]。在這些已有研究結(jié)果的基礎(chǔ)上，我們提出：

假設(shè)3：公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)的得分與其工作績(jī)效之間存在正相關(guān)關(guān)系。

1.2.3 SJT效度的影響因素研究

在有關(guān)SJT的研究中，被試者的得分有幾種不同的賦分方式。比較常見的賦分方式包括以下兩種[9]：

賦分方式一：將被試者選出的每個(gè)情境題目下的“最優(yōu)選項(xiàng)”和“最差選項(xiàng)”與專家的行為有效性排序結(jié)果作比較，如果被試者將“最優(yōu)”的反應(yīng)項(xiàng)目選為“最優(yōu)選項(xiàng)”，或?qū)ⅰ白畈睢钡姆磻?yīng)項(xiàng)目選為“最差選項(xiàng)”，計(jì)為“1”分；如果被試者將“最優(yōu)”的反應(yīng)項(xiàng)目選為“最差選項(xiàng)”，或?qū)ⅰ白畈睢钡姆磻?yīng)項(xiàng)目選為“最優(yōu)選項(xiàng)”，計(jì)為“-1”分。每個(gè)情境題目下“最優(yōu)選項(xiàng)”和“最差選項(xiàng)”的得分之和，構(gòu)成每個(gè)情境題目的得分。因此，每個(gè)情境題目的得分區(qū)間為[-2,2]。

賦分方式二：按照專家評(píng)出的行為有效性排序?qū)γ總€(gè)反應(yīng)項(xiàng)目賦分，排在“最優(yōu)”位置的反應(yīng)項(xiàng)目計(jì)為“4”分，“次優(yōu)”位置上的反應(yīng)項(xiàng)目計(jì)為“3”分，以此類推，排在“最差”位置上的反應(yīng)項(xiàng)目計(jì)為“0”分。每個(gè)情境題目的得分是被試者選出的“最優(yōu)選項(xiàng)”和“最差選項(xiàng)”對(duì)應(yīng)項(xiàng)目的分值之差，每個(gè)題目的得分區(qū)間是[-4，4]。如果被試者的選擇結(jié)果與專家的結(jié)果一致，則獲得最大的正分?jǐn)?shù)值；如果被試者的選擇結(jié)果與專家的結(jié)果相反時(shí)，則獲得絕對(duì)值最大的負(fù)分?jǐn)?shù)值。每個(gè)情境題目的得分隨被試者選擇結(jié)果與專家評(píng)價(jià)結(jié)果之間的差異大小而變化，差異越大，分值越低。

有學(xué)者提出不同的賦分方式會(huì)產(chǎn)生不同的結(jié)果，基于主觀的差異加權(quán)能夠使得合成測(cè)驗(yàn)結(jié)果更精確、可靠和富有意義[29]。為了檢驗(yàn)賦分方式對(duì)SJT效度的影響，我們提出以下假設(shè)：

假設(shè)4：賦分方式會(huì)對(duì)公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)的效度產(chǎn)生顯著影響。具體來說，由于在信息利用上存在不同，在測(cè)試中賦分方式二優(yōu)于賦分方式一。

以往的研究結(jié)果表明，人力資源選擇程序通常會(huì)表現(xiàn)出性別差異[30],[31]。因此，SJT量表得分是否存在性別差異也是我們關(guān)心的問題，如果SJT測(cè)驗(yàn)的得分在性別上存在差異，那么量表的常模需要根據(jù)性別不同來確定。為了弄清這個(gè)問題，我們提出：

假設(shè)5：公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)的得分在性別上存在顯著差異。

2 研究過程

2.1 公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)量表的開發(fā)過程簡(jiǎn)介

我們通過5個(gè)主要步驟完成了SJT量表的開發(fā)工作：第一，確定量表開發(fā)思路：我們選擇邏輯性模式[32]，在開發(fā)程序的開始環(huán)節(jié)首先明確測(cè)量構(gòu)思；在前期的工作中，我們開發(fā)了我國公務(wù)員內(nèi)隱知識(shí)模型[33]，利用重慶、四川、貴州、新疆、山東、浙江、遼寧等地區(qū)580份公務(wù)員樣本，對(duì)該理論模型進(jìn)行了信度、效度和績(jī)效結(jié)構(gòu)方程模型的分析，據(jù)此確定道德修養(yǎng)、見得思義、服務(wù)群眾、影響他人、公正用權(quán)、處理公務(wù)、留意細(xì)節(jié)等公務(wù)員內(nèi)隱知識(shí)的七個(gè)維度，并以此為基礎(chǔ)開發(fā)《我國公務(wù)員內(nèi)內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》，作為一個(gè)能有效評(píng)價(jià)內(nèi)隱知識(shí)的測(cè)評(píng)工具。第二，開發(fā)測(cè)驗(yàn)題干即情境案例：主要通過查閱大量的有關(guān)我國公務(wù)員的書籍和影像資料，以及對(duì)在崗的公務(wù)員進(jìn)行訪談，來獲取與公務(wù)員內(nèi)隱知識(shí)維度相匹配的關(guān)鍵事件，再通過專家評(píng)價(jià)法對(duì)關(guān)鍵事件進(jìn)行了細(xì)致的篩選，保留具有較高內(nèi)容效度的關(guān)鍵事件，最后保留了28個(gè)情境案例題目。第三，開發(fā)測(cè)驗(yàn)題項(xiàng)即情境反應(yīng)項(xiàng)目：一是保留了在關(guān)鍵事件收集階段中獲取的解決方案，二是通過發(fā)放問卷的方式進(jìn)行了更大范圍的收集；然后采用專家評(píng)定法對(duì)反應(yīng)項(xiàng)目的內(nèi)容效度進(jìn)行了分析，最后每個(gè)情境題目下保留了5個(gè)反應(yīng)項(xiàng)目。第四，確定SJT計(jì)分方式：我們采用了演繹法，通過職務(wù)專家的評(píng)定確定了每個(gè)情境題目下反應(yīng)項(xiàng)目有效性的排序，在正式測(cè)驗(yàn)中以此排序?yàn)榇鸢笜?biāo)準(zhǔn)。第五，選擇SJT賦分方式：通過對(duì)不同賦分方式下效標(biāo)關(guān)聯(lián)效度的比較，本研究確定了本量表采用兩端賦權(quán)方式（賦分方式一），即根據(jù)專家的行為有效性排序結(jié)果，對(duì)被試者選出的每個(gè)情境題目下的“最優(yōu)選項(xiàng)”和“最差選項(xiàng)”賦分：如果被試者將“最優(yōu)”的反應(yīng)項(xiàng)目選為“最優(yōu)選項(xiàng)”，或?qū)ⅰ白畈睢钡姆磻?yīng)項(xiàng)目選為“最差選項(xiàng)”，計(jì)為“1”分；如果被試者將“最優(yōu)”的反應(yīng)項(xiàng)目選為“最差選項(xiàng)”，或?qū)ⅰ白畈睢钡姆磻?yīng)項(xiàng)目選為“最優(yōu)選項(xiàng)”，計(jì)為“-1”分。每個(gè)情境題目下“最優(yōu)選項(xiàng)”和“最差選項(xiàng)”的得分之和，構(gòu)成每個(gè)情境題目的得分。因此，每個(gè)情境題目的得分區(qū)間為[-2,2]。

下面是測(cè)試公務(wù)員內(nèi)隱知識(shí)中“影響他人”維度的一道SJT題目：

市里正在做旅游發(fā)展規(guī)劃，落實(shí)具體任務(wù)時(shí)要求每個(gè)鄉(xiāng)鎮(zhèn)必須發(fā)展至少一個(gè)旅游項(xiàng)目，但你所在的鄉(xiāng)鎮(zhèn)根本就沒有什么好的旅游項(xiàng)目。你作為鄉(xiāng)鎮(zhèn)一把手，如果如實(shí)向上級(jí)報(bào)告此情況，可能會(huì)給上級(jí)留下不好的印象，會(huì)讓領(lǐng)導(dǎo)覺得你完不成任務(wù)，辦事不力；但如果勉強(qiáng)去人工開發(fā)一些景點(diǎn)的話，如果失敗了不但完成不了任務(wù)，還勞民傷財(cái)，得不償失。這時(shí)你會(huì)怎么辦？

解決方案：

①雖然客觀上完成任務(wù)有困難，但還是嚴(yán)格執(zhí)行上級(jí)領(lǐng)導(dǎo)下達(dá)的任務(wù)，寧愿多投入一點(diǎn)也要爭(zhēng)取做出一個(gè)好的旅游項(xiàng)目。

②按照上級(jí)領(lǐng)導(dǎo)要求去發(fā)展一個(gè)旅游項(xiàng)目。但由于客觀條件的限制，很難做出好的項(xiàng)目，所以盡量少投入，完成上級(jí)任務(wù)即可。

③口頭上跟領(lǐng)導(dǎo)解釋說服力不夠，所以先接下任務(wù)，而后再找機(jī)會(huì)帶上級(jí)領(lǐng)導(dǎo)考察本鄉(xiāng)鎮(zhèn)實(shí)際情況，想辦法讓領(lǐng)導(dǎo)意識(shí)到在本鄉(xiāng)鎮(zhèn)發(fā)展旅游項(xiàng)目不現(xiàn)實(shí)，然后請(qǐng)領(lǐng)導(dǎo)指示是否繼續(xù)按規(guī)定開發(fā)旅游項(xiàng)目。

④如實(shí)向上級(jí)領(lǐng)導(dǎo)匯報(bào)本鄉(xiāng)鎮(zhèn)的實(shí)際情況和困難，實(shí)在給領(lǐng)導(dǎo)留下不好印象也沒有辦法，申請(qǐng)不開發(fā)旅游項(xiàng)目，節(jié)省資金投資其他更適合本鄉(xiāng)鎮(zhèn)的項(xiàng)目。

⑤不口頭解釋，而是找機(jī)會(huì)帶領(lǐng)導(dǎo)實(shí)地參觀考察，參觀同時(shí)如實(shí)向領(lǐng)導(dǎo)匯報(bào)本鄉(xiāng)鎮(zhèn)的實(shí)際情況，請(qǐng)領(lǐng)導(dǎo)給予指導(dǎo)，適時(shí)提出結(jié)合本鄉(xiāng)鎮(zhèn)實(shí)際情況發(fā)展其他項(xiàng)目的建議。

2.2 研究樣本及數(shù)據(jù)采集

2011年5月，利用我們開發(fā)的《情境案例解決方案評(píng)估問卷》，通過我國西部某重點(diǎn)高校承辦的行政系統(tǒng)領(lǐng)導(dǎo)干部和業(yè)務(wù)骨干能力提升系統(tǒng)培訓(xùn)項(xiàng)目，我們對(duì)重慶和四川等地的部分在崗公務(wù)員進(jìn)行了測(cè)試，收集到了來自重慶市、四川省的某些政府部門的工作人員的樣本數(shù)據(jù)，總計(jì)151人，是為樣本一，其基本情況見表1。此外，我們還利用同樣的問卷對(duì)來自西部某重點(diǎn)大學(xué)經(jīng)濟(jì)與企業(yè)管理類專業(yè)四年級(jí)的本科生進(jìn)行了測(cè)試，獲得樣本數(shù)61人，是為樣本二，作為驗(yàn)證假設(shè)2的對(duì)比樣本，其中包含女性29人（占比47.5%），男性32人（占比52.4%），

表 1 有效被試者（樣本一）基本信息表

2.3 數(shù)據(jù)處理

數(shù)據(jù)處理和分析主要采用SPSS17.0以及Amos 17.0統(tǒng)計(jì)軟件，對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析、方差分析、驗(yàn)證性因素分析等。

3 數(shù)據(jù)分析與結(jié)果

3.1 信度研究

我們采用Cronbach α即內(nèi)部一致性系數(shù)[19]對(duì)總量表及各分量表測(cè)驗(yàn)結(jié)果的可靠性進(jìn)行分析。結(jié)果顯示總量表的內(nèi)部一致性系數(shù)為0.76，各分量表的內(nèi)部一致性系數(shù)分別為0.71、0.64、0.62、0.75、0.66、0.73、0.69。雖然總量表的內(nèi)部一致性系數(shù)達(dá)到了0.76，但7個(gè)子量表的內(nèi)部一致性系數(shù)比較低，從總體上看，測(cè)驗(yàn)結(jié)果在內(nèi)部一致性方面不是很理想。

3.2 構(gòu)思效度研究

我們將學(xué)歷作為認(rèn)知能力水平的效標(biāo)，對(duì)不同學(xué)歷水平的被試者的測(cè)驗(yàn)得分進(jìn)行了比較研究。為了減少非學(xué)歷因素對(duì)測(cè)驗(yàn)得分的影響，我們隨機(jī)抽取了樣本一中基本情況類似的兩組不同學(xué)歷的被試者，通過卡方檢驗(yàn)發(fā)現(xiàn)兩組被試的年齡、工齡以及性別均無顯著性差異，兩組被試者的基本信息如表2。在對(duì)非學(xué)歷因素進(jìn)行一定控制之后，我們將隨機(jī)抽取的被試按照學(xué)歷水平分為高學(xué)歷組和低學(xué)歷組，并對(duì)兩組被試者測(cè)驗(yàn)得分進(jìn)行檢驗(yàn)，檢驗(yàn)結(jié)果見表3。從表3可以看出，高學(xué)歷組在七個(gè)子量表及總量表的得分均值均高于低學(xué)歷組；在“服務(wù)群眾”（= 2.816,＜0.01）、“留意細(xì)節(jié)”（= 2.751,＜0.01）等子量表以及總量表（= 2.780,＜0.01）得分上，兩組被試者的得分差異達(dá)到了顯著性水平。

表2 高學(xué)歷組和低學(xué)歷組被試者基本信息表

表3 不同學(xué)歷水平的被試者在《我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》量表上的得分比較

**：p＜0.01

為了驗(yàn)證個(gè)體工作經(jīng)驗(yàn)對(duì)SJT得分的影響，我們分別隨機(jī)抽選了具有一定工作經(jīng)驗(yàn)、但不具備管理經(jīng)驗(yàn)的一般公務(wù)員，和完全不具備工作經(jīng)驗(yàn)的本科生組成兩組被試者，并對(duì)這兩組被試者的測(cè)驗(yàn)得分進(jìn)行了檢驗(yàn)。被試者的基本信息見表4，兩組被試者測(cè)驗(yàn)得分的檢驗(yàn)結(jié)果見表5。從表5的結(jié)果可以看出，具有工作經(jīng)驗(yàn)的一般公務(wù)員在七個(gè)子量表及總量表的得分均值均高于本科生；在“服務(wù)群眾”（= 2.154,＜0.01）、“見得思義”（= 4.306,＜0.05）等子量表以及總量表（= 3.883,＜0.01）得分上，兩組被試者的差異達(dá)到了顯著性水平。

表4 本科生組和一般公務(wù)員組被試者基本信息

表5 一般公務(wù)員與本科生在《我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》量表上的得分比較

**：p＜0.01，*：p＜0.05

3.3 效標(biāo)關(guān)聯(lián)效度研究

我們從樣本一中隨機(jī)抽選了135名被試者（基本信息表見表6），取“上一年度績(jī)效考核等級(jí)”作為效標(biāo)，依據(jù)上一年度考核等級(jí)，將被試者分為高績(jī)效組（績(jī)效等級(jí)為“優(yōu)秀”）和一般績(jī)效組（績(jī)效等級(jí)為“稱職”和“基本稱職”），并對(duì)不同績(jī)效水平的被試者的SJT成績(jī)進(jìn)行檢驗(yàn)。從表7中的結(jié)果可以看出，上一年度工作績(jī)效水平較高的高績(jī)效組在7個(gè)子量表及總量表的得分均高于績(jī)效一般組，在“公正用權(quán)”（= 2.042,＜0.05）、“影響他人”（= 2.022,＜0.05）等子量表以及總量表（= 2.496,＜0.05）的得分上，兩組存在顯著差異。

表6 被試者基本信息表

表7 高績(jī)效組與一般績(jī)效組在《我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》量表上的得分比較

*：p＜0.05

3.4 賦分方式對(duì)SJT效度的影響研究

我們使用與效標(biāo)關(guān)聯(lián)效度研究的同一個(gè)樣本，分別采取賦分方式一、賦分方式二對(duì)每個(gè)被試者的作答進(jìn)行賦分，并對(duì)兩種賦分方式下得到的SJT成績(jī)進(jìn)行t檢驗(yàn)，檢驗(yàn)結(jié)果見表8。從檢驗(yàn)結(jié)果來看，采用賦分方式一時(shí)SJT的量表得分顯示出更好的效標(biāo)關(guān)聯(lián)效度，該結(jié)果表明賦分方式對(duì)SJT的效度存在一定影響。

3.5 性別因素對(duì)SJT分?jǐn)?shù)的影響研究

我們對(duì)不同性別的被試者的測(cè)驗(yàn)得分進(jìn)行了檢驗(yàn)，檢驗(yàn)結(jié)果見表9。結(jié)果表明，男性組和女性組在SJT得分上的差異很小，且各個(gè)分量表及總量表的得分差異都未達(dá)到顯著性水平。

表8 兩種賦分方式下高績(jī)效組與一般績(jī)效組的測(cè)驗(yàn)得分比較

*：p＜0.05

表9 不同性別被試者在《我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》量表上的得分比較

4 討論與結(jié)論

4.1 討論

本文對(duì)研究前期開發(fā)的我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)的量表進(jìn)行了信度和效度的檢驗(yàn)，并分析了包括賦分方式、被測(cè)對(duì)象特征等前因因素對(duì)SJT信度和效度的影響。在理論上，通過搜集中國情境中的實(shí)證研究數(shù)據(jù)，豐富了SJT的研究樣本，也為目前對(duì)SJT信度和效度及其影響因素的研究提供了佐證。在實(shí)踐上，本文對(duì)SJT信度和效度的研究能有助于更好地理解SJT相對(duì)于其他測(cè)評(píng)方法的價(jià)值，為我國企事業(yè)單位在選用SJT進(jìn)行人才時(shí)提供了有價(jià)值的參考依據(jù)；此外，通過公務(wù)員內(nèi)隱知識(shí)模型的理論設(shè)計(jì)和測(cè)量量表的開發(fā)，本研究為有效識(shí)別和甄選公務(wù)員人才尋找合適的工具提供了可借鑒的依據(jù)。我們獲得的有意義的結(jié)果和結(jié)論主要包括：

我們采用Cronbach α系數(shù)對(duì)測(cè)驗(yàn)量表的信度進(jìn)行了分析，結(jié)果顯示雖然總量表的內(nèi)部一致性系數(shù)達(dá)到了0.76，但7個(gè)子量表的內(nèi)部一致性系數(shù)較低，所以從總體上，測(cè)驗(yàn)結(jié)果在內(nèi)部一致性上不是很理想。這可能是因?yàn)镾JT測(cè)量的往往不是一個(gè)特定的構(gòu)思，所以內(nèi)部一致性系數(shù)不是特別適合用于評(píng)估其信度水平[7]，[21]；此外，我們認(rèn)為除了SJT的測(cè)量構(gòu)思的原因之外，SJT本身的特征也是影響其內(nèi)部一致性的重要因素。雖然構(gòu)思導(dǎo)向的SJT在測(cè)驗(yàn)的一開始就明確了測(cè)量構(gòu)思，在一定程度上可以提高量表的同質(zhì)性水平，但是由于測(cè)驗(yàn)題目是以情境的方式呈現(xiàn)出來，在測(cè)驗(yàn)開發(fā)以及施測(cè)過程中都存在很多主觀因素和不確定因素，所以對(duì)測(cè)驗(yàn)結(jié)果信度的要求仍需要有別于一般認(rèn)知能力等測(cè)驗(yàn)形式。

從本文表2和表3的結(jié)果來看，我們隨機(jī)抽取的兩組被試者在年齡、工齡及性別比例不存在顯著性差異的情況下，具有較高學(xué)歷水平的被試者的SJT測(cè)驗(yàn)成績(jī)高于學(xué)歷水平較低的被試者，且測(cè)驗(yàn)得分存在顯著性差異（= 2.780,＜0.01），我們認(rèn)為假設(shè)1得到驗(yàn)證，說明SJT的分?jǐn)?shù)在一定程度上受到個(gè)體認(rèn)知能力的影響。從表5的結(jié)果來看，具有工作經(jīng)驗(yàn)的一般公務(wù)員在七個(gè)子量表及總量表的得分均值均高于本科生，在“服務(wù)群眾”（= 2.154,＜0.01）、“見得思義”（= 4.306,＜0.05）等子量表以及總量表（= 3.883,＜0.01）得分上的差異均達(dá)到了顯著性水平，我們認(rèn)為，假設(shè)2得到驗(yàn)證，SJT成績(jī)受到工作經(jīng)驗(yàn)的影響，這為工作經(jīng)驗(yàn)對(duì)SJT成績(jī)的影響提供了更多的實(shí)證支持。

考慮到被試公務(wù)員多為政府機(jī)關(guān)工作人員，在工作中需要承擔(dān)對(duì)下屬行政單位及相關(guān)權(quán)力管轄范圍內(nèi)的企事業(yè)單位進(jìn)行管理的工作，因此我們對(duì)管理經(jīng)驗(yàn)這一特殊的工作經(jīng)驗(yàn)是否會(huì)對(duì)被試者的SJT成績(jī)產(chǎn)生影響進(jìn)行了探索性研究。我們分別從樣本一中抽選了從事領(lǐng)導(dǎo)職務(wù)和非領(lǐng)導(dǎo)職務(wù)的兩組被試者，對(duì)其情境判斷測(cè)驗(yàn)的成績(jī)進(jìn)行檢驗(yàn)。為了減少其他因素對(duì)測(cè)驗(yàn)成績(jī)的影響，我們對(duì)兩組被試者的學(xué)歷水平、年齡、性別和工作經(jīng)驗(yàn)進(jìn)行了控制，這兩組被試者的學(xué)歷均為本科，經(jīng)過卡方檢驗(yàn)他們?cè)谀挲g、性別和工齡均無顯著性差異（見表10）。從兩組被試者測(cè)驗(yàn)成績(jī)的檢驗(yàn)結(jié)果（見表11）可以看出，具有管理經(jīng)驗(yàn)的領(lǐng)導(dǎo)組的被試者與非領(lǐng)導(dǎo)組的被試者相比，領(lǐng)導(dǎo)組的被試者在各子量表及總量表的得分雖略高于非領(lǐng)導(dǎo)組被試者，但均不存在顯著性差異。

表10 領(lǐng)導(dǎo)組和非領(lǐng)導(dǎo)組被試者基本信息

表11 領(lǐng)導(dǎo)組與非領(lǐng)導(dǎo)組在《我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》量表上的得分比較

從此項(xiàng)分析的結(jié)果來看，管理經(jīng)驗(yàn)并不對(duì)SJT成績(jī)產(chǎn)生顯著影響。鑒于公務(wù)員工作性質(zhì)的特殊性，管理經(jīng)驗(yàn)對(duì)公務(wù)員績(jī)效有重要影響，在公務(wù)員選拔中往往會(huì)強(qiáng)調(diào)個(gè)體的管理能力和管理經(jīng)驗(yàn)，本文建議今后的研究工作應(yīng)收集更多的樣本數(shù)據(jù)，特別是領(lǐng)導(dǎo)崗位的樣本數(shù)據(jù)，驗(yàn)證管理經(jīng)驗(yàn)對(duì)SJT成績(jī)的影響，以進(jìn)一步確定SJT 是否能測(cè)到管理經(jīng)驗(yàn)及其構(gòu)思效度。綜合上述結(jié)果，本文的研究結(jié)果支持了以往的研究結(jié)論，SJT的得分受到個(gè)體的認(rèn)知能力和工作經(jīng)驗(yàn)的影響[5] ,[11],[18],[27]，支持了可以通過探討SJT與一般認(rèn)知能力、實(shí)際工作經(jīng)驗(yàn)等之間的關(guān)系來研究SJT構(gòu)思效度的研究思路。

為進(jìn)一步探索公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)試的構(gòu)思效度，我們利用結(jié)構(gòu)方程建模軟件Amos17.0對(duì)《我國公務(wù)員內(nèi)隱知識(shí)測(cè)試量表》的七維構(gòu)思進(jìn)行了驗(yàn)證性因素分析，檢測(cè)在本研究中SJT是否測(cè)到了內(nèi)隱知識(shí)的七個(gè)維度。模型擬合度指數(shù)見表12。與判斷標(biāo)準(zhǔn)[34]相比，在絕對(duì)擬合優(yōu)度指標(biāo)中，χ在自由度為14的條件下的顯著性概率為0.65，大于0.05的水平；的值為0.818，小于2；的值均大于0.9，的值小于0.05，這些結(jié)果表明模型的絕對(duì)擬合效果符合標(biāo)準(zhǔn)。在增量擬合優(yōu)度指標(biāo)中，的值均大于0.9且接近1，表明模型的增量擬合優(yōu)度指標(biāo)符合標(biāo)準(zhǔn)。

表12 我國公務(wù)員內(nèi)隱知識(shí)結(jié)構(gòu)模型擬合度指數(shù)

表12的結(jié)果顯示，我們的理論模型與實(shí)證數(shù)據(jù)擬合較好，這表明SJT測(cè)量到了公務(wù)員內(nèi)隱知識(shí)七維構(gòu)思，能夠?qū)Α胺?wù)群眾”、“見得思義”、“處理公務(wù)”、“留意細(xì)節(jié)”、“公正用權(quán)”、“影響他人”和“道德修養(yǎng)”七種內(nèi)隱知識(shí)做出較好地評(píng)價(jià)。該結(jié)果有力地支持了以往學(xué)者提出的SJT能測(cè)驗(yàn)到多維構(gòu)思的研究假設(shè)[26]，對(duì)SJT構(gòu)思效度的研究和量表開發(fā)具有一定的理論意義。結(jié)合之前的研究結(jié)果，本研究進(jìn)一步認(rèn)為認(rèn)知能力和工作經(jīng)驗(yàn)之所以可以影響SJT的成績(jī)，是因?yàn)镾JT測(cè)到了公務(wù)員的內(nèi)隱知識(shí)，而公務(wù)員的認(rèn)知能力和工作經(jīng)驗(yàn)有助于其內(nèi)隱知識(shí)的積累和提高。

根據(jù)以往研究基礎(chǔ)，針對(duì)SJT的效標(biāo)關(guān)聯(lián)效度，我們提出了假設(shè)3。從表7的結(jié)果來看，上一年度工作績(jī)效水平較高的高績(jī)效組在7個(gè)子量表及總量表的得分均高于績(jī)效一般組，在“公正用權(quán)”（= 2.042,＜0.05）、“影響他人”（= 2.022,＜0.05）等子量表以及總量表（= 2.496,＜0.05）的得分上，兩組存在顯著差異。該結(jié)果驗(yàn)證了我們提出的SJT的得分與工作績(jī)效之間存在密切關(guān)系的研究假設(shè)。我們的結(jié)果也表明《我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》具有較好的效標(biāo)關(guān)聯(lián)效度，能夠預(yù)測(cè)公務(wù)員工作績(jī)效。

針對(duì)賦分方式對(duì)SJT得分的影響，我們提出了假設(shè)4。我們分別采用賦分方式一和二對(duì)同一組被試者的SJT得分進(jìn)行計(jì)算，并對(duì)成績(jī)進(jìn)行了檢驗(yàn)。結(jié)果顯示，兩種賦分方式下SJT的效度不同，該結(jié)果為SJT效度的影響因素研究提供了實(shí)證支持。但我們的檢驗(yàn)結(jié)果發(fā)現(xiàn)賦分方式一的效度優(yōu)于賦分方式二的效度。對(duì)于這個(gè)結(jié)果，我們認(rèn)為原因主要是賦分方式二體現(xiàn)的是等距尺度的思想，等距尺度要求不同項(xiàng)目間的差距是相等的，允許進(jìn)行加減運(yùn)算，而SJT情境題目下的反應(yīng)項(xiàng)目很難達(dá)到等距尺度的要求，因此，采用賦分方式二雖然獲取了更多的信息，但這些信息并不能真實(shí)的反映出被試者的水平。

在年齡、學(xué)歷、工齡、崗位類別均不存在顯著差異的情況下，我們對(duì)男性組和女性組的SJT得分進(jìn)行了檢驗(yàn)。研究結(jié)果顯示，在總量表和各子量表得分上，男性組和女性組不存在顯著差異，假設(shè)5沒有得到支持。這表明在對(duì)我國公務(wù)員內(nèi)隱知識(shí)的評(píng)價(jià)上，SJT不存在之前部分學(xué)者認(rèn)為的“相對(duì)于性別的不利影響”[35]。性別并沒有構(gòu)成《我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》的影響因素，該結(jié)果為今后確定《我國公務(wù)員內(nèi)隱知識(shí)情境判斷測(cè)驗(yàn)》常模提供了實(shí)證依據(jù)。

4.2 研究不足

本研究主要存在以下不足：第一，學(xué)者們?cè)岢鍪褂弥販y(cè)信度可使SJT測(cè)得的信度水平更加可信[7]，[21]，由于研究條件的限制，本文沒有對(duì)SJT的重測(cè)信度進(jìn)行檢驗(yàn)，未來的研究需要對(duì)此進(jìn)行補(bǔ)充，以更好地檢驗(yàn)SJT的信度。第二，在效標(biāo)關(guān)聯(lián)效度檢驗(yàn)過程中，我們僅以公務(wù)員“上一年度考核等級(jí)”作為效標(biāo)，未能體現(xiàn)工作績(jī)效多維性的特征[36]，也沒有對(duì)SJT所測(cè)量的內(nèi)隱知識(shí)與工作績(jī)效多個(gè)維度之間的關(guān)系進(jìn)行檢驗(yàn)，這是本研究存在的最大不足。第三，由于人力、時(shí)間、資料收集等因素的限制，我們沒有獲得足夠多和足夠廣泛的測(cè)驗(yàn)樣本來檢驗(yàn)研究提出的各項(xiàng)假設(shè)；特別是本文獲得的領(lǐng)導(dǎo)崗位的公務(wù)員樣本數(shù)量非常有限，無法對(duì)不同職級(jí)被試者的SJT成績(jī)進(jìn)行比較研究，我們希望在未來的研究中加以改進(jìn)和補(bǔ)充。

[1] 孫健敏, 彭文彬. 無領(lǐng)導(dǎo)小組討論的設(shè)計(jì)程序與原則 [J]. 北京行政學(xué)院學(xué)報(bào), 2005(01)：35-40

[2] 徐長江, 梁崇理, 劉爭(zhēng)光. 結(jié)構(gòu)化面試預(yù)測(cè)效度的貢獻(xiàn)成分分析 [J]. 心理科學(xué)進(jìn)展, 2013(5)：940-950.

[3] 黎恒, 丁曉嵐. 無領(lǐng)導(dǎo)小組討論的實(shí)務(wù)操作——中層管理人才選拔案例 [J]. 中國人力資源開發(fā), 2002（09): 39-41

[4] Lievens, F., Peeters, H., Schollaert, E. Situational judgment tests: A review of recent research [J]. Personnel Review, 2008, 37: 426-441.

[5] McDaniel, M. A., Morgeson, F. P., Finnegan, E. B., Campion, M. A., Braverman, E. P. Predicting job performance using situational judgment tests: A clarification of the literature [J]. Journal of Applied Psychology, 2001, 86: 730-740.

[6] Sternberg, R. J., Wagner, R. K., Okagaki, L. Practical intelligence: The nature and role of tacit knowledge in work and at school [C]. H. Reese J. Puckett. Advances in lifespan development. Hillsdale, NJ: Erlbaum. 1993: 205-227.

[7] Motowidlo, S. J., Dunnette, M. D., Carter, C. W. An alternative selection procedure: the low-fidelity simulation [J]. Journal of Applied Psychology, 1990, 75: 640-647.

[8] Weekley, J. A., Ployhart, R. E. Situational judgment: Antecedents and relationships with performance [J]. Human Performance, 2005, 18: 81-104.

[9] 杰夫?威克利，羅伯特?普勞哈特，柳恒超等譯. 情境判斷測(cè)驗(yàn)：理論、測(cè)量與應(yīng)用 [M]. 上海: 復(fù)旦大學(xué)出版社. 2013.

[10] 楊國樞. 社會(huì)及行為科學(xué)研究法 [M]. 重慶: 重慶大學(xué)出版社. 2006.

[11] McDaniel, M. A., Hartman, N. S., Whetzel, D. L., Grubb, W. L. Situational judgment tests, response instructions, and validity: A meta-analysis [J]. Personnel Psychology, 2007, 60: 63-91.

[12] McDaniel, M. A., Whetzel, D. L. Situational judgment tests: An IPMAAC workshop [M]. 2005. Retrieved 3, August, 2012 http://www.ipmaac.org/conf/05/mcdaniel.pdf

[13] O'Connell, M. S., McDaniel, M. A., Grubb, W. L., Hartman, N. S., Lawrence, A. Incremental validity of situational judgment tests for task and contextual job performance [J]. International Journal of Selection and Assessment, 2007, 15: 19-29.

[14] McDaniel, M. A., Hartman, N. S., Grubb, W. L. Situational judgment tests, knowledge, behavioral tendency, and validity: A meta-analysis. Paper presented at the 18th annual conference of the Society for Industrial and Organizational Psychology, Orlando, FL. 2003.

[15] 徐守森, 車宏生, 祖彬, 林絢暉. 北京奧運(yùn)志愿者的勝任特征模型——情境判斷測(cè)驗(yàn)的應(yīng)用 [J]. 首都體育學(xué)院學(xué)報(bào), 2008, 20(6): 35- 38.

[16] 袁方, 谷向東, 鄧希馮. 基于情境判斷測(cè)驗(yàn)的領(lǐng)導(dǎo)人才領(lǐng)導(dǎo)力狀況調(diào)查研究 [J]. 中國人力資源開發(fā), 2012(12): 43- 46.

[17] Motowidlo, S. J., Tippins, N. Further studies of the low-fidelity simulation in the form of a situational inventory [J]. Journal of Occupational and Organizational Psychology, 1993, 66(4): 337-344.

[18] Weekley, J. A., Jones, C. Further studies of situational tests [J]. Personnel Psychology, 1999, 52(3): 679-700.

[19] Ployhart, R. E., Ehrhart, M. G. Be careful what you ask for: effects of response instructions on the construct validity and reliability of situational judgment tests [J]. International Journal of Selection and Assessment, 2003(11): 1-16.

[20] Weekley, J. A., Ployhart, R. E., Harold, C. M. Personality and situational judgment tests across applicant and incumbent contexts: An examination of validity, measurement, and subgroup differences [J]. Human Performance, 2004(17): 433-461.

[21] Lievens, F., Sackett, P. R. Situational judgment tests in high-stakes settings: Issues and strategies with generating alternate forms [J]. Journal of Applied Psychology, 2007(92): 1043-1055.

[22] Christian, M. S., Edwards, B. D., Bradley, J. C. Situational judgment tests: constructs assessed and a meta-analysis of their criterion-related validities [J]. Personnel Psychology, 2010(63): 83?117.

[23] Becker, T. E. Development and validation of a situational judgment test of employee integrity [J]. International Journal of Selection and Assessment, 2005, 13(3): 225-232.

[24] Ascalon, M. E., Schleicher, D. J., Born, M. P. Cross-Cultural Social Intelligence: An Assessment for Employees Working in Cross-National Contexts [J]. Purdue CIBER Working Papers, 2006, Paper 42.

[25] Mumford, T. V., Van Iddekinge, C. H., Morgeson, F. P., Campion, M. A. The team role test: development and validation of a team role knowledge situational judgment test [J]. Journal of Applied Psychology, 2008, 93 (2), 250-267.

[26] Schmidt, F., Hunter, J. The validity and utility of selection methods in personnel psychology: Practical and Theoretical Implications of 85 years of research findings [J]. Psychological Bulletin, 1998, 124(2): 262- 274.

[27] Sternberg, R. J., Wagner, R. K., Williams, W. M., Horvath, J. Testing common sense [J]. American Psychologist, 1995(50): 912-927.

[28] McDaniel, M. A., Nguyen, N. T. Situational judgment tests: A review of practice and constructs assessed [J]. International Journal of Selection and Assessment, 2001(9): 103?113.

[29] Ghiselli, E. E., Campbell, J. P., Zedeck, S. Measurement theory for the behavioral sciences [M]. San Francisco: W. H. Freeman and Company. 1981.

[30] Ployhart，Robert E.，Holtz，Brian C. The diversity–validity dilemma: Strategies For reducing racioethnic and sex Subgroup differences and adverse impact in selection [J]. Personnel Psychology, 2008(61): 153–172

[31] Pyburn，K. M. Jr., Ployhart, R. E, Kravitz，D. A. The diversity-validity dilemma: Overview and legal context [J]. Personnel Psychology, 2008(61): 143–151.

[32] 漆書青, 戴海琦. 情境判斷測(cè)驗(yàn)的性質(zhì)、功能與開發(fā)編制 [J]. 心理學(xué)探析, 2003(4): 42-46.

[33] 馮明, 廖冰, 程穎. 中國公務(wù)員內(nèi)隱知識(shí)管理研究 [M]. 北京: 科學(xué)出版社. 2013.

[34] 榮泰生. AMOS與研究方法 [M]. 重慶: 重慶大學(xué)出版社. 2009.

[35] Lievens, F., Coetsier, P. Situational tests in student selection: An examination of predictive validity, adverse impact, and construct validity [J]. International Journal of Selection and Assessment, 2002(10): 245-257.

[36] Katz, D., Kahn, R. L. The social psychology of organizations [M]. New York: Wiley press. 1978.

① 該數(shù)據(jù)來自《北京晚報(bào)》（2013- 7-2）。708.9萬名公務(wù)員不包括參照公務(wù)員法管理的群團(tuán)機(jī)關(guān)、事業(yè)單位工作人員。

Evaluation of Reliability and Validity of Situational Judgment Tests:A Study of Implicit Knowledge of Chinese Civil Servants

CHENG Ying1, ZHONG Zhi-jie2, FENG Ming1

(1. School of Economics and Management, Chongqing University, Chongqing 400044, China; 2. Chongqing Rail Transit Group, Chongqing 400042, China)

In personnel selection, situational judgment tests (SJT) can identify unique individual characteristics, which other assessment tools or indicators are unable to discover. SJT has emerged as an important and useful complement to traditional cognitively oriented tests. It has been paid extensive attention since being introduced to China. However, two aspects limit the effective implementation of SJTs in China. The first constraint concerns the reliability and validity of SJTs, namely, whether and to what extent an SJT is able to predict individuals’ future work performance. In the last two decades, through studying the reliability and validity of SJTs as well as the factors which can influence the predictiveness of SJTs, scholars have gained considerable knowledge of SJTs’ construct validity and criterion-related validity. However, there is a lack of an effective theoretical framework to examine these findings. We also need to further study the characteristics of SJTs, as well as their influence on the validity of SJTs. The second constraint arises from the research context. The existent literature is mainly provided by American scholars, and the current empirical evidence is dominantly derived from American context. Studies that concentrated on Chinese context have only been developed lately, yet very little data has been published. The limited context-related empirical evidence did not provide strong support for organizations to adopt SJTs when choosing from multiple methods to select and assess their employees.

The current paper discusses the reliability and validity of SJTs, based on an empirical test of an SJT carried on a group of Chinese civil servants. It is composed of three sets of studies. The first study discusses the construct validity of SJTs, that is, whether SJT can measure cognitive ability and work experience of individuals, and whether SJT can measure a multidimensional construct, such as tacit knowledge of Chinese civil servants. The second study examines criteria validity of SJTs, that is, whether the SJT can predict work-related performance. The last study discusses whether two factors, including scoring methods and gender differences, would influence the validity of SJTs.

In a previous study, we developed a model of implicit knowledge of Chinese civil servants. We proposed that Chinese civil servants’ implicit knowledge includes seven dimensions: cultivating morality, loyalty, serving others, influencing others, fair use of power, processing official business, and attentive to details. Based on this model, we developed the "Situational Judgment Tests Inventories of Implicit Knowledge of Chinese Civil Servants". In May 2011, we distributed our questionnaires to some civil servants and business students in the western part of China. Eventually we collected a valid sample of 151 on-the-job civil servants and 61 business undergraduate students. We examined our data by using multiple methods including descriptive statistics analysis, variance analysis, and confirmatory factor analysis.

Our results supported the previous conclusion that SJTs are able to measure individuals’ cognitive ability and work experience. We obtained a satisfactory fit between our empirical data and the proposed 7-dimensional model. This finding indicates that SJTs are able to measure a multinational construct. Furthermore, our inventories demonstrated satisfactory criteria validity, indicating that SJT inventories are able to predict civil servants’ work-related performance. At last, through comparing the validity of SJTs by using different scoring methods, we found that scoring method could influence the validity of SJTs. Through comparing the scores of different gender groups, we found that there was no significant variance between males and females. This indicates that gender differences did not have significance influence on the validity of our SJT.

To sum up, our study collected empirical data in Chinese context and thus provided strong evidence for the values of SJTs. Through developing and verifying SJT inventories of implicit knowledge of Chinese civil servants, our study formed a valid tool for selecting civil servants and other similar personnel. The study can also be considered a reliable reference for future SJT-related studies and practices, in particular for those who are interested in designing and implementing SJTs.

situational judgment test; reliability; validity; civil servants; implicit knowledge

中文編輯：杜 ?。挥⑽木庉嫞篊harlie C. Chen

F270

1004-6062(2016)04-0053-08

10.13587/j.cnki.jieem.2016.04.007

2013-11-19

2014-03-26

國家自然科學(xué)基金資助項(xiàng)目（70872121)；重慶大學(xué)中央高校基本科研業(yè)務(wù)費(fèi)科研專項(xiàng)資助基金（CQDXWL-2012-173）

程穎（1981—），女，四川榮縣人；重慶大學(xué)經(jīng)濟(jì)與工商管理學(xué)院講師，研究方向：領(lǐng)導(dǎo)力開發(fā)與團(tuán)隊(duì)建設(shè)、創(chuàng)業(yè)團(tuán)隊(duì)與企業(yè)家精神。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

情境判斷測(cè)驗(yàn)的信度與效度研究：以我國公務(wù)員內(nèi)隱知識(shí)測(cè)驗(yàn)為例

0 引言

1 研究綜述及理論發(fā)展

2 研究過程

3 數(shù)據(jù)分析與結(jié)果

4 討論與結(jié)論