文/余嘉元
南京師范大學(xué)心理學(xué)院 南京 210097
翻開人類文明發(fā)展的絢麗畫卷,處處閃爍著數(shù)學(xué)的光輝。恩格斯說,數(shù)學(xué)在一門科學(xué)中應(yīng)用的程度,標(biāo)志著這門科學(xué)的成熟程度。自從馮特(W.Wundt)于1879年在萊比錫大學(xué)建立了第一個心理學(xué)實驗室以來,人們采用定量方法研究個體差異的興趣就一直沒有停止過。詩人贊美數(shù)學(xué)是科學(xué)皇冠上的明珠,心理學(xué)家孜孜不倦地把這顆明珠鑲嵌到自己的皇冠上,在這個艱辛的過程中誕生了心理測量學(xué)。
在人類文明初期就有識人用人的需求,它引發(fā)了古代哲人對心理特質(zhì)定量描述的思考。我國春秋時期,孔子就將人區(qū)分為中人、中人以上和中人以下,古希臘則把人的氣質(zhì)分為多血質(zhì)、膽汁質(zhì)、黏液質(zhì)、抑郁質(zhì)4種類型,這是人類最早的研究探索。
科學(xué)家是最富有探索性的人群,馮特、高爾頓(F.Galton)、卡特爾(J.M.Cattell)的杰出工作為心理測量學(xué)誕生寫下了濃墨重彩的篇章[1]。馮特在實驗心理學(xué)研究中,發(fā)現(xiàn)了人的個別差異,并給出了定量的描述,這直接導(dǎo)致了心理測量的開展。英國劍橋大學(xué)教授高爾頓建立了人類學(xué)測量實驗室,把統(tǒng)計學(xué)方法運用到心理測量數(shù)據(jù)的分析中。美國賓夕法尼亞大學(xué)教授卡特爾綜合了馮特和高爾頓的學(xué)說,對于個別差異進行了深入的研究,指出“心理學(xué)若不立根于實驗和測量上,決不能有自然科學(xué)的準(zhǔn)確[2]?!边@些心理學(xué)家的研究比孔子遲了2000多年,是什么讓遠(yuǎn)隔萬水千山的中國人記住了他們的名字呢?重要的原因是他們采用了實證和測量的方法,把數(shù)學(xué)融合進了自己的研究工作,運用定量的方法對人的心理特質(zhì)進行了描寫。
社會需求是科學(xué)發(fā)展的動力,1904年,法國教育部組織了一個委員會,研究公立學(xué)校中低能兒童班級的管理問題,該委員會成員比納(A.Binet)和他的助手西蒙(T.Simon)經(jīng)過精心研究,于1905年提出了世界上第一個科學(xué)的心理量表,稱為比納-西蒙智力量表,使得心理測量擺脫了對顱相、面相、手相的分析,步入了運用科學(xué)量表進行測量的新時代[3]。美國著名心理學(xué)家波林(E.G.Boring)指出,在心理測量領(lǐng)域,“19世紀(jì)80年代是高爾頓的10年,90年代是卡特爾的10年,20世紀(jì)頭10年是比納的10年[4]?!边@是對心理測量學(xué)誕生時期各位代表人物所做貢獻的最好總結(jié)。
在社會強勁需求的推動下,涌現(xiàn)出了許多著名的智力測驗,例如推孟(L.M.Terman)教授修訂的斯坦福-比納量表,從此智商(Intelligence Quotient,IQ)一詞風(fēng)靡全球。韋克斯勒智力量表、瑞文推理測驗的推出,都是智力測量領(lǐng)域的大事。在教育測量方面,桑代克(E.L.Thorndike)把統(tǒng)計理論引入了心理和教育測量,為測驗的編制奠定了理論基礎(chǔ)。心理測量的方法也進入了人格領(lǐng)域,1917年第一個現(xiàn)代意義上的人格問卷伍德沃斯個人資料調(diào)查表發(fā)表,接著明尼蘇達多相人格調(diào)查表(MMPI)、加利福尼亞心理調(diào)查表(CPI)、卡特爾16種人格因素問卷(16PF)、艾森克人格問卷(EPQ)、羅夏墨跡測驗等相繼問世。
心理測量學(xué)的誕生,就是為社會服務(wù)的,它向著教育、醫(yī)學(xué)、軍事、工業(yè)等各個領(lǐng)域浩浩蕩蕩地進軍,經(jīng)過100多年的勤奮努力,終于筑成了目前這座心理測量學(xué)的大廈。在這座高聳如云的建筑中,每個窗戶都有圓溜溜的腦袋在向你呼喚:你要知道自己孩子的智力嗎?你要了解朋友的性格嗎?你要招聘到優(yōu)秀的員工嗎?你要明白自己最適合從事什么職業(yè)嗎?請到我這里來吧!這一浪高一浪的吆喝聲,也許會讓你感到迷惑:僅僅憑著回答的這幾十道題目,就能把復(fù)雜的心理特質(zhì)測量出來嗎?如果我們對大廈地基進行仔細(xì)探測,就可以找到問題的答案。
心理測量學(xué)家是兼有科學(xué)家和工程師素質(zhì)的人才,他們試圖對心理特質(zhì)進行定量描述的同時,兼顧研制心理測量的工具。為了解答測量數(shù)據(jù)是否精確可信、是否真正測到了想測的特質(zhì)、如何編制測量的工具、怎樣解釋測驗的分?jǐn)?shù)等問題,他們建立了心理測量學(xué)的基本理論。
首先出現(xiàn)的是經(jīng)典測驗理論(Classical Test Theory,CTT),也稱為真分?jǐn)?shù)理論,這是英國心理學(xué)家斯皮爾曼(C.Spearman)提出并經(jīng)過洛德(F.M.Lord)、諾維克(M.R.Novick)等多位學(xué)者重新陳述和精心構(gòu)建的理論[5]。它的數(shù)學(xué)模型是:X=T+E,其中X是測驗分?jǐn)?shù),T是真分?jǐn)?shù),E是隨機誤差。該理論提出了重測信度、復(fù)本信度、同質(zhì)性信度、評分者信度等多種估計測量精度的方法,以及內(nèi)容效度、構(gòu)念效度和效標(biāo)關(guān)聯(lián)效度等一系列估計測量有效性的方法。它采用難度、區(qū)分度作為分析題目質(zhì)量的指標(biāo),運用常模對測驗分?jǐn)?shù)進行解釋和比較,它成為心理測量學(xué)大廈的第一塊基石。
在CTT得到廣泛應(yīng)用的同時,人們也發(fā)現(xiàn)了它的缺陷,首先是測驗分?jǐn)?shù)依賴于題目的難度,因此在高難度測驗中得到低分的考生就可能受到“虎媽狼爸”的嚴(yán)懲。同時題目難度是依賴于考生水平的,如果是根據(jù)弱智考生的作答分?jǐn)?shù)計算題目難度,那么每道題目都會難于上青天。為了解決這些問題,項目反應(yīng)理論(Item Response Theory,IRT)在心理學(xué)家的探索中誕生了。
人的心理特質(zhì)是潛在的、無法直接觀察到的,心理學(xué)家是通過被試對于題目(又稱“項目”)的作答來推測其心理特質(zhì)的,因此就必須探索具有某種水平心理特質(zhì)的人是如何對某個題目做出反應(yīng)的,這就是項目反應(yīng)理論的由來。經(jīng)過洛德[6]、漢布爾頓(Hambleton)[7]等人的持續(xù)努力,建立了該理論的數(shù)學(xué)模型,其中最常用的是三參數(shù)邏輯斯諦模型:
該模型表示能力為θ的被試,對于區(qū)分度為 ai、難度為 bi、猜測參數(shù)為 ci的第 i道題目的正確作答概率為Pi(θ)。在這個公式中,被試的能力、題目的3個參數(shù)和正確作答的概率都是未知的,測量學(xué)家的工作就是要根據(jù)被試對于一組題目的作答情況(通常稱為“反應(yīng)矩陣”)把這些未知量估計出來。如果有N個被試,對n道題目進行了作答,那么需要估計的參數(shù)就有N+3n個,這顯然是一個非常困難的問題。幸運的是,心理學(xué)家是一支高智商的隊伍,很快就提出了運用極大似然法[8]、貝葉斯方法[9]、馬爾可夫鏈蒙特卡羅方法(MCMC)[10]等參數(shù)估計技術(shù)。在IRT的發(fā)展過程中,還涌現(xiàn)出了多級記分模型[11]、多維項目反應(yīng)模型[12]、展開式模型[13]等,這些模型組成了項目反應(yīng)理論豐富多彩的大家庭。
概化理論(Generability Theory,GT)也是為了克服經(jīng)典測驗理論(CTT)的缺點而發(fā)展起來的。CTT把測驗分?jǐn)?shù)劃分為真分?jǐn)?shù)和誤差分?jǐn)?shù),這種貌似簡單的方法使得人們不能判斷誤差究竟是何種原因造成的,也就無法針對性地尋找減少誤差的措施。GT采用了方差分析的方法,把造成誤差的各種來源都進行了考慮和分析,并提出了絕對誤差和相對誤差的概念和計算方法。
CTT的信度理論建立在嚴(yán)格平行測驗的強假設(shè)基礎(chǔ)上,也就是要求兩個平行測驗的實測分?jǐn)?shù)必須具有相同的平均數(shù)和方差,這對于實際工作者來說,是勉為其難的事情。GT在這方面就比較有人情味,它的分析計算建立在隨機平行測驗基礎(chǔ)上,即隨機取自同一題庫的長度相同的測驗,這讓大多數(shù)實際工作者松了口氣。
在CTT中通常用多種信度來描述同一個測驗的精確度,而這些信度之間又缺乏內(nèi)在的關(guān)系。GT則采用了概化系數(shù)、可靠性指標(biāo)、信噪比等指標(biāo)來描述測驗的精確程度,而這些指標(biāo)具有內(nèi)在邏輯關(guān)系[14]?;诟呕碚?,人們可以對諸如作文、面試等多個評委主觀打分的測量結(jié)果進行深入分析,并找到減少誤差的方法。
心理測量學(xué)是一門充滿靈氣的學(xué)科,它深知要持續(xù)汲取高科技的雨露,才能永葆青春的活力。自20世紀(jì)后期以來,計算機科學(xué)、認(rèn)知科學(xué)、計算智能等迅速發(fā)展,心理測量學(xué)盡情地吸允這些新興科學(xué)技術(shù)的營養(yǎng),使自己成長得更加枝繁葉茂。
在“國家形象宣傳片”中有姚明和丁俊暉站在一起的鏡頭,設(shè)想讓他們穿上完全相同的服裝,那一定會使觀眾忍俊不禁??墒窃谖覀兊纳钪校藗兛偸橇?xí)慣地認(rèn)為,讓所有的考生都使用相同試卷是最公正的,其實并非如此,考生的能力水平有高有低,對于同一張試卷,優(yōu)秀考生的水平不能充分發(fā)揮,而后進考生則是依靠猜測來答題,對他們來說,這是一張不公正的試卷。
心理學(xué)家機靈地把項目反應(yīng)理論和計算機科學(xué)相結(jié)合,提出了計算機化自適應(yīng)測驗[15],其核心是由計算機根據(jù)考生的能力水平自動選擇測試題目,并最終對考生能力進行估計。心理學(xué)家設(shè)計了多種試題選擇方法,包括最大全局信息量、最大加權(quán)信息量、分層選題、全貝葉斯準(zhǔn)則等策略[16,17],這樣每個考生所面對的是最適合其水平的題目,考生能力可以得到充分發(fā)揮,考試時間將會大大縮短,同時也保證了題庫的安全性。
認(rèn)知科學(xué)是21世紀(jì)的前沿科學(xué),認(rèn)知診斷理論是心理測量學(xué)和認(rèn)知科學(xué)相結(jié)合的產(chǎn)物。傳統(tǒng)的測驗只能提供一個分?jǐn)?shù),但實際上,得分相同的考生未必是完全相同的,例如兩位數(shù)學(xué)得分相同的中學(xué)生,可能其中一位的代數(shù)能力較強,而另一位則是幾何能力較強。如果只看其數(shù)學(xué)測驗的總分,就無法將他們區(qū)分開來。
認(rèn)知科學(xué)的蓬勃發(fā)展為心理學(xué)家提供了天賜良機,他們果斷地將心理測量學(xué)和認(rèn)知科學(xué)聯(lián)姻,誕生了嶄新的認(rèn)知診斷理論[18]。從線性邏輯斯蒂模型、多成分潛在特質(zhì)模型、規(guī)則空間模型、屬性層次模型[19]到統(tǒng)一模型、總分模型、NIDA模型、貝葉斯網(wǎng)絡(luò)模型、DINA模型[20]等數(shù)十種認(rèn)知診斷模型相繼問世。這些研究成果能夠為學(xué)生提供診斷性報告,使得他們擺脫題海戰(zhàn)術(shù),提高學(xué)習(xí)效率。
計算智能是以生物進化的觀點認(rèn)識和模擬智能,它的主要方法有人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、模擬退火、蟻群算法、粒子群算法等,心理學(xué)家始終對該學(xué)科的發(fā)展保持敏銳的關(guān)注。
人工神經(jīng)網(wǎng)絡(luò)具有很強的自學(xué)習(xí)能力,已經(jīng)被應(yīng)用于各個領(lǐng)域的模式識別,認(rèn)知診斷的實質(zhì)就是對學(xué)生進行模式識別,Almond等人在2007年就提出將神經(jīng)網(wǎng)絡(luò)方法運用于認(rèn)知診斷[21]。由于神經(jīng)網(wǎng)絡(luò)能夠很好地對各個變量間的非線性關(guān)系進行擬合,它通常被運用于測驗效度檢驗,如,心理學(xué)家采用該方法幫助軍隊進行人員選拔[22]。在遠(yuǎn)程教育中,它還和心理測量的項目反應(yīng)理論結(jié)合起來,用于設(shè)計個性化的e-learning系統(tǒng)[23]。
遺傳算法作為一種高效的全局并行搜索優(yōu)化算法,適合于處理多目標(biāo)優(yōu)化問題。在心理測量中存在很多優(yōu)化問題,如項目反應(yīng)模型的參數(shù)估計,就是要尋找一組項目參數(shù)和被試能力值,使得它們代入模型后所得到的反應(yīng)矩陣和被試的實際作答情況最為接近,有學(xué)者將遺傳算法運用于項目反應(yīng)模型的參數(shù)估計,取得了很好的結(jié)果[24]。測驗試卷的組卷是多目標(biāo)優(yōu)化問題,它要滿足測量誤差最小、試卷的內(nèi)容最符合預(yù)先設(shè)計要求等目標(biāo),因此遺傳算法也是智能組卷的好方法[25]。
在心理學(xué)的歷史上,心理測量學(xué)就是這樣與新時代同步,永遠(yuǎn)保持著青春的活力;和高科技結(jié)緣,時刻放射著燦爛的光輝。
幾十年來,心理測量理論從CTT的線性模型到IRT的非線性模型,從IRT的單維模型到多維模型,從只考慮單個方差的CTT模型到專注方差分解GT模型,從只有一個總分的測驗?zāi)P偷綄Ρ辉囘M行模式識別的認(rèn)知診斷模型,從使用統(tǒng)計方法到計算智能的應(yīng)用,心理測量學(xué)從來沒有停止過前進的步伐。
教育是使用測量手段最多的領(lǐng)域,其中最主要的就是考試。我國對于教育考試一貫高度重視,無論是在考試的科學(xué)性還是安全性方面都做了大量卓有成效的工作。但是,從測量理論的角度來看,還有許多課題值得深入研究。
首先是項目反應(yīng)理論、概化理論、認(rèn)知診斷理論等測量理論如何與我國的各種考試相結(jié)合。高考牽動著億萬人民的神經(jīng),究竟如何將現(xiàn)代的測量理論運用到高考中,使之更加科學(xué)、更加公平?由于我國高考的內(nèi)容多、題型多,測驗的數(shù)據(jù)是否能夠擬合于現(xiàn)有的測量模型?是否還需要研發(fā)新的模型?
對于一個使用區(qū)域?qū)拸V的考試,應(yīng)該重視對它的項目功能差異(Differential of Item Function,DIF)進行研究[26]。任何一個測驗都會受到各種無關(guān)因素的影響,而這些因素對于考生全域中的各子總體的影響是不同的,這樣就會形成項目功能差異。我國幅員遼闊、民族眾多、城鄉(xiāng)差異明顯,這些都可能使得高考試題中出現(xiàn)項目功能差異,然而我們對高考中DIF的研究進行了多少呢?這是否會影響考試的公平性呢?
在教育考試中,還存在測驗的統(tǒng)一性和人才需求多樣性的矛盾。在教育改革中已經(jīng)涌現(xiàn)出了多種測評方法,其中有許多采用了主觀評價的方法,那么概化理論是否可以運用到這些方法中?
我國設(shè)立的各種資格證書考試對于規(guī)范人才培養(yǎng)和用人制度雖然起到了重要作用,但也存在著某些亟需解決的問題。
首先是合格分?jǐn)?shù)線的制定,也稱為“標(biāo)準(zhǔn)設(shè)置”。這是心理學(xué)家長期關(guān)注的問題,不合格的醫(yī)生會讓病人血染手術(shù)臺,不稱職的律師會在法庭里上演鬧劇,心理測量專家研發(fā)了多種劃定分?jǐn)?shù)線的方法[27],包括Nedelsky法、Angoff法、Ebel法、Bookmark法等多種方法,每種方法都有各自的優(yōu)缺點,我國的資格證書考試是否對這些方法進行過深入研究?采用何種方法來劃定分?jǐn)?shù)線?其科學(xué)性如何?標(biāo)準(zhǔn)誤差是多少?
其次是測驗的等值,測驗如同一把尺子,對于同一種資格證書考試,每年的試題都不同的,因此要把不同年份的測驗分?jǐn)?shù)轉(zhuǎn)換到同一把尺子上,這就是測驗的等值,它是保證測驗公平性的重要手段。心理學(xué)家提出了多種測驗等值的方法,包括平均數(shù)等值、線性等值、等百分位等值、動差方法等值、特征曲線等值,同時還給出了等值誤差的計算方法[28]。在我國的各種資格證書考試中,采用何種等值方法?等值的誤差是多少?能否做到每年都是用相同的尺子去度量考生?
在國際上,心理測量還被廣泛地應(yīng)用于工業(yè)和組織心理學(xué)領(lǐng)域[29],人員的招聘、選拔和考核,員工滿意度、工作負(fù)荷、組織氛圍、自我效能感、團體凝聚力的測量都是成熟企業(yè)的常規(guī)工作。
在民用產(chǎn)品開發(fā)方面,國際上通常采用“消費者驅(qū)動的產(chǎn)品開發(fā)”[30],新產(chǎn)品的設(shè)計決不是技術(shù)人員拍腦袋的產(chǎn)物,而是首先測量消費者對于產(chǎn)品功能和外形的需求,然后根據(jù)測量結(jié)果進行產(chǎn)品設(shè)計,否則等產(chǎn)品問世后再去做推銷工作,就事倍功半了。
由此可見,一個優(yōu)秀的企業(yè)對于內(nèi)部的員工和外部的消費者都需要進行心理測量,我們的企業(yè)做到了嗎?
心理測量學(xué)是我們身邊的明珠,人們愛她疼她。愛她,是因為她毫無半點私心,來到人間就是為了蒼生;愛她,是因為她絕不說半句假話,她是建立在CTT、IRT和GT科學(xué)基礎(chǔ)上的;愛她,是因為她永遠(yuǎn)那樣坦誠,非但向你提供測量的數(shù)據(jù),還告訴你估計的誤差;愛她,是因為她和時代同步,與科技結(jié)合,不斷朝氣蓬勃向前進;愛她,是因為她有廣闊的前景,社會各領(lǐng)域都在期待她的加盟。疼她,是因為在前進的道路上,她還面臨著巨大的挑戰(zhàn),多維模型的參數(shù)估計、測驗等值、項目功能差異、標(biāo)準(zhǔn)設(shè)置等都有許多困難需要克服。對于這樣的學(xué)科,我們要愛她疼她,更要竭盡全力支持她。
測驗是一把尺子,各類考試機構(gòu)揮舞著這把尺子,給考生們貼上合格和不合格、錄用和不錄用的標(biāo)簽。對于這關(guān)系到廣大人民群眾切身利益的事情,我們是否應(yīng)該制定一些法規(guī)?中國心理學(xué)會公布過《心理測驗管理條例》和《心理測驗工作者的道德準(zhǔn)則》,但這僅僅是學(xué)術(shù)團體的文件。政府是否也應(yīng)該有所作為?是不是可以要求考試機構(gòu)把他們?nèi)绾卧O(shè)計和制造這些尺子、如何保證尺子質(zhì)量的信息向社會公示?國家是否應(yīng)該制定相應(yīng)的法律來規(guī)范這些尺子的研制工作?政府是否應(yīng)該有專門機構(gòu)來監(jiān)督各種測驗的編制和施測?
作為一門學(xué)科,心理測量學(xué)工作者不僅需要掌握心理學(xué)的知識,還需有深厚的數(shù)學(xué)和計算機功底,這就需要在學(xué)科規(guī)劃、教學(xué)計劃制定方面站得更高、看得更遠(yuǎn)。要培養(yǎng)優(yōu)秀的學(xué)生,首先要有潛心做學(xué)問的老師,可以調(diào)查一下,一年365天中,我們的老師有多少日子是全身心地投入到測量理論的鉆研和計算機程序的編制中呢?如果這些專業(yè)工作者都不能潛心于學(xué)問,哪里還能培養(yǎng)出高質(zhì)量的學(xué)生?
心理測量學(xué)是通過對人的外顯行為的分析,做出對其內(nèi)隱心理特質(zhì)的定量描寫,這個任務(wù)非常艱巨!然而研究手段很少,除了測驗還有哪些是真正有戰(zhàn)斗力的?只有加強科研力度,才能讓這顆明珠更加閃亮!
心理測量學(xué),當(dāng)我第一次和她相見時,就被她的無窮魅力所吸引。她讓各種內(nèi)隱的心理特質(zhì)用數(shù)字的形式呈現(xiàn)在我的面前,她把心理變量間的復(fù)雜關(guān)系轉(zhuǎn)化為清晰的數(shù)學(xué)公式,她讓數(shù)學(xué)的明珠在心理學(xué)的皇冠上閃爍光芒。我真心希望每天跟她一起去迎接前進道路上的挑戰(zhàn):建模、參數(shù)估計、等值、項目功能差異、標(biāo)準(zhǔn)設(shè)置、認(rèn)知診斷等等。心理測量學(xué)向我描繪著美好的前景:教育、醫(yī)學(xué)、工業(yè)、軍事等各個領(lǐng)域都可以大顯身手,讓我永遠(yuǎn)充滿青春的激情。
致謝感謝南京師范大學(xué)錢錦昕、沙如雪、張瀟,丹麥哥本哈根大學(xué)梅竹等同志在文獻搜集、資料整理等方面給予的幫助和大力支持。
1 Anastasi A.Psychological Testing(7th ed.).New York:Macmillan,2009.
2 Cattell J.Mental tests and measurement.Mind,1890,15:373-381.
3 Weimer W B.The history of psychology and its retrieval from historiography:The problematic nature of history.Social Studies of Science,1974,4:235-259.
4 Boring E G.AHistory of Experimental Psychology(2nd ed.).Englewood Cliffs,NJ:Prentice-Hall,1950.
5 Lord F R,Novik M R.Statistical Theories of Mental Test Scores.Mass:Addison-Wesley,1968.
6 Lord F M.Application of Item Response Theory to Practical Testing Problems.Hillsdale,NJ:Lawrence Erlbaum,1980.
7 Hambleton R K,Swaminathan H.Item Response Theory:Principles and Applications.Boston,MA:Kluwer-Nijhoff,1985.
8 Bock R D.Aitkin M.Marginal maximum likelihood estimation of item parameters:Application of an EM algorithm.Psychometrika,1981,46(4):443-459.
9 Baker F B,Kim S H.Item Response Theory:Parameter Estimation Techniques(2nd ed.).New York:Marcel Dekker,2004.
10 Kim J,Bolt D M.Estimating item response theory models using Markov Chain Monte Carlo methods.Educational Measurement:Issues and Practice,Winter,2007,38-50.
11 Samejima F.Estimation of latent ability using a response pattern of graded scores.Psychometrika Monograph Supplement.1969,34:386-415.
12 Reckase M D.Multidimensional Item Response Theory.In:C.R.Rao(Ed.),Handbook of Statistics(Volume 26).Elsevier B.V.2009.
13 Andrich D,Luo G.Ahyperbolic cosine latent trait model for unfolding dichotomous single-stimulus responses.Applied Psychological Measurement.1993,17:253-276.
14 Brennan R L.Generalizability theory.New York:Springer-Verlag,2001.
15 van der Linden W J,Pashley P J.Item selection and ability estimation.In W.J.van der Linden&C.A.Glas(Eds.),Elements of Adaptive Testing.New York,NY:Springer,2010.
16 Barrada J R,Olea J,Ponsoda V,Abad F J.Amethod for the comparison of item selection rules in computerized adaptive testing.Applied Psychological Measurement,2010,34,438-452.
17 Chang H H,Qian J H,Ying Z L.A-Stratified multistage computerized adaptive testing with b blocking.Applied Psychological Measurement,2001,25:333-341.
18 DiBello L W,Stout W.Editors’Introduction and overview:IRT-based cognitive diagnostic models and related methods.Journal of Educational Measurement.2007,44:285-291.
19 Gierl M J.Making diagnostic inferences about cognitive attributes using the rule-space model and attribute hierarchy method.Journal of Educational Measurement,2007,44:325-340.
20 de la Torre J.DINAmodel and parameter estimation:A didactic.Journal of Educational and Behavioral Statistics,2009,34(1):115-130.
21 Almond R G,DiBello L,Moulder B et al.Modeling diagnostic assessments with Bayesian networks.Journal of Educational Measurement,2007,44:341-359.
22 Arendasy M,Sommer M,Hergovich A.Statistical judgment formation in personnel selection:Astudy in military aviation psychology.Military Psychology,2007,19(2):119-136.
23 Baylari A,Montazer G A.Design a personalized e-learning system based on item response theory and artificial neural network approach.Expert Systems with Applications,2009,36(4):8013-8021.
24 Li F,Jing F.Estimation of multidimensional item response theory models in person parameter base on genetic algorithm.Proceedings 2010 International Conference on Anti-Counterfeiting,Security and Identification,2010,207-210.
25 Yong O Y,Luo H F.Design of personalized test paper generating system of educational telenet based on genetic algorithm.Proceedings of 20094th International Conference on Computer Science and Education,2009,170-173.
26 Kim S H,Cohen AS,Alagoz C et al.DIF detection and effect size measures for polytomously scored items.Journal of Educational Measurement,2007,44(2):93-116.
27 Lin J.The bookmark procedure for setting cut-scores and finalizing performance standards:strengths and weaknesses.The Alberta Journal of Educational Research,2006,52(1):36-52.
28 Kolen MJ.Brennan R L.Test Equating,Scaling,and Linking:Methods and Practices.New York,NY:Springer,2004.
29 Budworth M,Latham G P.New directions in industrialorganizational psychology.Canadian Journal of Behavioral Science,2009,41(4):193-194.
30 Sandmeier P,Morrison P D,Gassmann O.Integrating customers in product innovation:Lessons from industrial development contractors and in-house contractors in rapidly changing customer markets.Creativity and Innovation Management,2010,19(2):89-106.