基于COSMIN方法的環(huán)境恢復性量表測量性能系統(tǒng)評價

2022-08-13 02:45李樹華

中國園林 2022年7期

劉暢李樹華

1 背景與目的

20世紀80年代，斯蒂芬·卡普蘭(S.Kaplan)與蕾切爾·卡普蘭(R.Kaplan)提出注意力恢復理論(Attention Restoration Theory，ART)[1-2]，認為某些環(huán)境具有一種可感知的抽象特征，可以使個體進入被動注意模式，使主動注意(或稱定向注意)從疲勞中恢復，而后者被認為對機體健康有重要意義。這種可感知的特征即環(huán)境恢復性，被認為包含4個基本因素①：1)吸引(fascination)，在注意力恢復理論中意同“被動注意”，指人不自覺地被環(huán)境吸引并產(chǎn)生興趣和代入感，是環(huán)境恢復性體驗產(chǎn)生的先決條件；2)遠離(being away)，指人在精神層面遠離了那些需要消耗主動注意的對象，如工作、學習、日?，嵤碌龋h離感是注意模式轉(zhuǎn)換的前提；3)延展(extent)，指環(huán)境要素在結構上連接有序，在形式和內(nèi)容上和諧統(tǒng)一(coherence)，使人感到環(huán)境在空間或時間維度上能夠不斷延展至一個足夠的范圍(scope)，形成“一個完整的世界”；4)相容(compatibility)，指環(huán)境與使用者的特質(zhì)和行為相匹配，并能為使用者提供與行為相關的信息。

近年來，以四因素為結構原型發(fā)展出了諸多環(huán)境恢復性測量量表，迅速推動了環(huán)境恢復性研究的發(fā)展。為了系統(tǒng)性提高該領域研究質(zhì)量，有必要對環(huán)境恢復性量表的測量性能進行系統(tǒng)評價，為研究工具的選擇提供基礎性依據(jù)。

2 材料與方法

“基于共識的健康測量工具選擇標準”(Consensus-based Standards for the Selection of Health Measurement Instrument，COSMIN)是當前以自評式健康測量工具為對象，實施系統(tǒng)評價與形成選擇意見的共識標準[3-4]，流程包括納入量表、評價量表測量性能和形成量表推薦等級3個階段。

2.1 納入量表

2.1.1 檢索策略

1)一次檢索：選擇Web of Science(WOS)、Scopus、中國知網(wǎng)(CNKI)為數(shù)據(jù)庫進行高級檢索。在WOS中使用檢索式：TI=("environmental restorativeness" OR"restorative environment" OR "perceived environmental restorativeness" OR"perceived restorativeness" OR "perceived restoration" OR "restorative component"OR "restorative quality") AND TI=(scale OR measur＊ OR assess＊ OR evaluat＊)；在Scopus中將“TI=”替換成“TITLE”；在CNKI中使用檢索式：TI= '環(huán)境恢復性' + '恢復性環(huán)境' + '環(huán)境復愈性' + '復愈性環(huán)境' + '恢復性感知' + '感知恢復性' + '恢復性成分' + '恢復性品質(zhì)' + '恢復性' + '復愈性' AND TI= '量表' + '測量工具' + '測量' + '評價' + '評估'。2)二次檢索：對一次檢索中符合納入標準的文獻使用雪球法查找其參考文獻和施引文獻中的相關文獻，直至飽和。檢索時不限文獻發(fā)表時間。

2.1.2 納入標準

檢索到的文獻、量表和研究符合以下標準的將被納入系統(tǒng)評價：1)以開發(fā)或效驗量表為目的的研究，如果一篇文獻既包含量表的開發(fā)效驗研究，也包含以該量表為工具的其他目的研究，則只納入前者；2)量表所測構念(construct)是注意力恢復理論所定義的環(huán)境恢復性；3)量表的結構或內(nèi)容發(fā)展以經(jīng)典四因素為原型；4)量表測量的是視覺環(huán)境的恢復性，不是其他對象(如聲音、活動)的恢復性；5)文獻中含量表正文，且量表的發(fā)表語言與施測語言一致；6)每個分量表包含不少于3個項目；7)考慮本文受眾，只納入以英文或中文發(fā)表的文獻、英文或中文施測的量表；8)同一量表的不同語言版本視為不同量表，分別納入；9)不限制量表人群對象和環(huán)境對象的亞類。

2.1.3 篩選流程

首先合并2個英文數(shù)據(jù)庫的檢索記錄并用NoteExpress軟件刪除重復題錄；之后對英文文獻、中文文獻分別依次進行題目閱讀、摘要閱讀、全文閱讀，排除不符合納入標準的文獻、量表、研究；再后對二次檢索到的文獻進行全文閱讀篩選。2名評價員獨立完成篩選過程后合議(圖1)。

圖1 文獻篩選流程(注：GS=Google Scholar)

2.2 評價量表測量性能

2.2.1 提取信息

1)提取量表設置與施測信息。

提取量表施測語言、分量表、項目與選項設置、量表施測的人群對象和環(huán)境對象特征，以及環(huán)境呈現(xiàn)方式等信息。

2)提取待評測量性能信息。

內(nèi)容效度、結構效度、內(nèi)部一致性的評價結果是形成COSMIN推薦等級的必要條件，因此選擇其作為主要評價項；部分量表效驗了穩(wěn)定性和跨文化效度，因此選擇它們作為輔助評價項。由于缺乏金標準(Gold Standard)和構念相關關系假設集，無法在COSMIN框架下評價校標效度和構念效度，另外環(huán)境恢復性量表主要用于橫向研究，一般不包含基于縱向方法的測量誤差和反應度研究，因此不予評價。

2.2.2 評價測量性能質(zhì)量

1)內(nèi)容效度。

基于開發(fā)研究結果、內(nèi)容效度研究結果、評價者評分三方面證據(jù)，使用《COSMIN內(nèi)容效度評價手冊》評價量表內(nèi)容的相關性、全面性和可理解性。相關性指項目內(nèi)容是否與所測構念、目標人群等相關；全面性指量表內(nèi)容是否全面反映所測構念；可理解性指量表的項目、選項、指導語的表述是否可被目標人群理解。三者均良好則總評良好(＋)，三者均不良則總評不良(－)，三者評級不一致則總評為不一致(±)[5]。

2)其他性能。

使用《COSMIN良好測量性能標準》評價結構效度、內(nèi)部一致性、穩(wěn)定性和跨文化效度，達到標準則評為良好(＋)，反之不良(－)，當信息不足或存在不一致時可被評為不確定(？)。結構效度良好的標準是結構方程模型的RMSEA＜0.06，或SRMR＜0.08，或CFI＞0.95，或提取的因素解與理論預設基本一致且累計方差貢獻率≥60%②；內(nèi)部一致性良好的標準是在至少有低等級的證據(jù)證明結構效度良好的前提下，Cronbach'sα值≥0.7；穩(wěn)定性良好的標準是組內(nèi)相關系數(shù)(ICC)或加權Kappa值≥0.7；跨文化效度良好的標準是在多組分析(MGCFA)中沒有發(fā)現(xiàn)重要差異[4]。

2.2.3 證據(jù)定級

COSMIN方法要求在報告測量性能質(zhì)量評價結果的同時報告其可信性，即證據(jù)等級。證據(jù)等級有4級：高(H)、中(M)、低(L)、很低(VL)。先將證據(jù)等級定為“高”，再根據(jù)以下風險大小進行降級：1)偏倚風險，使用《COSMIN偏倚風險評價清單》[6]評價性能研究的方法學質(zhì)量，結果包含很好(V)、合格(A)、存疑(D)、不合格(I)4個等級，匯總同一性能的所有研究的方法學質(zhì)量評價結果，確定偏倚風險；2)不一致風險，即同一性能不同研究結果評級不一致；3)不精確風險，性能研究總樣本＜100時，存在誤差大、結果不精確的風險；4)間接風險，量表開發(fā)的施測情境與擬研究情境差異較大時，存在間接風險。

2.3 形成量表推薦等級

匯總各量表各性能的質(zhì)量評價結果及其證據(jù)等級。COSMIN規(guī)定當有任意等級的證據(jù)表明量表的內(nèi)容效度良好，且有低等級以上證據(jù)表明內(nèi)部一致性良好時，歸為A類(推薦)；當有高等級證據(jù)表明量表存在不良的測量性能時，歸為C類(不推薦)；無法歸至A類或C類時即為B類(暫時推薦)。

3 結果

3.1 納入量表的總體特征

去重后的110條檢索記錄中，14篇文獻(英文10篇、中文4篇)及對應的14個量表和20個研究符合納入標準(表1)，發(fā)表時間為1996—2020年。根據(jù)量表的目標對象，可分為不限人群和環(huán)境對象的基本表、以8～11歲兒童為人群對象的兒童表，以及以旅游地為環(huán)境對象的旅游表等類型。量表全部為李克特式，項目數(shù)為11～30個，選項等級有5、7、11級。量表維度設置除吸引因素外，差異明顯：延展方面，PRS-16等9個量表只設1個分量表測量延展或連貫，PRS-26與PRS-11分別設置了連貫和范圍2個分量表，PDRQ同時設置了延展和連貫分量表；遠離方面，PRS-16等8個量表只設置1個分量表測量遠離或心理遠離，PRCQ等5個量表分別設置了新奇(物理遠離)和逃逸(心理遠離)分量表；相容方面，除PRS-11外，均設置相容分量表。施測人群方面，旅游表和兒童表的施測樣本與目標人群基本相同，基本表多以大學生為樣本。施測環(huán)境方面，PRS-16等9個量表同時施測了多個環(huán)境，PRS-22等5個量表只施測了1個環(huán)境樣本。環(huán)境呈現(xiàn)方式方面，旅游表和兒童表多用現(xiàn)場或回憶呈現(xiàn)，基本表多用照片或錄像呈現(xiàn)。

表1 量表設置與施測信息匯總

3.2 測量性能評價結果

14個量表中，4個量表內(nèi)容效度達到良好但證據(jù)等級不佳，7個量表結構效度良好，4個量表內(nèi)部一致性良好(表2)；2個量表效驗了穩(wěn)定性，2個量表效驗了跨文化效度，研究方法不一致(表3)。

表2 內(nèi)容效度、結構效度、內(nèi)部一致性研究信息與評價結果

表3 穩(wěn)定性、跨文化效度研究信息與評價結果

3.2.1 內(nèi)容效度

1)開發(fā)研究。COSMIN框架下的開發(fā)研究指項目編寫階段的內(nèi)容評價。10個量表沒有實施開發(fā)研究，4個實施開發(fā)研究的量表或未報告具體內(nèi)容或研究方法存在偏倚。其中，PDRQ使用調(diào)查法詢問受試者對量表的理解度，但樣本量不足30的最低要求；PRCS-C采用專家法評價量表的人群適用性，但未評價項目與構念的相關性、量表的全面性等；TPRQ通過受試者訪談收集項目表述，但未對編寫后的項目進行內(nèi)容評價。

2)內(nèi)容效度研究。COSMIN框架下的內(nèi)容效度研究指項目集固定后的正式內(nèi)容評價。嚴格來講，納入的所有量表都沒有進行內(nèi)容效度研究，盡管PRS-22(CH)和TPRE報告了內(nèi)容效度研究結果，但實際統(tǒng)計的是項目與總體的施測結果相關性。然而，項目與量表在結果上相關并不等同于項目與構念在內(nèi)容上相關，結果相關性統(tǒng)計通常是在量表開發(fā)階段完成內(nèi)容評價后用于進一步優(yōu)化量表長度[21]，不是內(nèi)容效度研究的共識性方法。

3)評價者評分。在內(nèi)容效度研究缺失，同時開發(fā)研究缺失或方法學質(zhì)量不足時，證據(jù)等級直接降至低或極低，并由系統(tǒng)評價員直接評價量表內(nèi)容效度。2名評價員獨立審閱14個量表的正文及其開發(fā)過程，之后合議確定量表的相關性、全面性、可理解性。結果顯示，僅PRS-26、RCS、PRS-11、PRS-ch的內(nèi)容效度達到良好標準，具體如下。

相關性方面，項目與目標人群的相關性均良好，與構念的相關性(相關項目≥85%為良好)主要受2個不良分量表影響：一是存在于PRS-16、PRS-22、PRS-22(CH)、PRS-23(CH)、PDRQ中的反向表述和計分的連貫分量表，其內(nèi)容核心是“混亂”，反向計分后僅表示“不混亂”，無法體現(xiàn)“物質(zhì)實體在結構上連接有序，在形式和內(nèi)容上和諧統(tǒng)一”的復雜內(nèi)涵；二是新奇分量表，勞曼等在對RCS進行探索性因素分析時發(fā)現(xiàn)遠離分量表被分解成2個因素，一個表示精神活動遠離日常瑣事，命名為逃逸(escape)，另一個表示環(huán)境物質(zhì)特征與日常環(huán)境不同，命名為新奇(novelty)。由于ART強調(diào)“遠離”指精神活動的轉(zhuǎn)換，與環(huán)境新舊無關，加之相關分析中新奇因素與其他因素的協(xié)變性較差，RCS的編者明確提出新奇不是恢復性因素，因此評價組在統(tǒng)計相關項目比時不計入反向連貫與新奇分量表的項目。全面性方面，PRS-16、PRS-22、PRS-22(CH)、PRS-23(CH)僅有反向連貫分量表支撐延展概念，因此判定量表缺失重要內(nèi)涵，全面性不足。另外，由于相容與行為意愿相關，易受評分者主觀因素影響，與研究情境協(xié)變性高，加之概念寬泛，受到較多爭議，被認為普適性低于另外3個因素[11，22]，屬于恢復性模型中的次要因素。因此評價組認為PRS-11、PRS-ch雖未測量相容因素內(nèi)容，但不算遺漏“關鍵”概念，不影響全面性?？衫斫庑苑矫妫{入的14個量表的項目、選項、指導語等的表述均可被其目標人群理解，可理解性良好。

3.2.2 結構效度

使用結構方程模型法的量表中，PRS-22、PRS-11、PDRQ的結構效度達到良好；使用因素分析法的量表中，PRCS-CⅡ、PRS-22(CH)、TPRE、TPRQ的結構效度達到良好。PRS-16、PRS-26、PRCQ、PRCS-C的因素解與量表維度設置差異較大，PRS-23(CH)則因為模型擬合參數(shù)不達標，因此結構效度不良。在證據(jù)定級時，根據(jù)COSMIN標準，驗證性因素分析優(yōu)于探索性因素分析，因此對使用探索性因素分析的PRS-26等6個量表進行證據(jù)降級；由于4個恢復性因素在理論上相互關聯(lián)，在因素提取的旋轉(zhuǎn)策略上應采取斜交旋轉(zhuǎn)，因此對使用正交旋轉(zhuǎn)的PRS-22(CH)進行證據(jù)降級；另外，PRS-16和PRS-26因素分析的樣本量不足，作相應降級處理。

3.2.3 內(nèi)部一致性

在結構效度良好的前提下，RCS、PDRQ、PRS-22(CH)、TPRQ的絕大部分Cronb.α值大于0.7，內(nèi)部一致性良好。盡管PRCQ與PRS-ch的α值也大于0.7，但由于其結構效度未達良好，因此內(nèi)部一致性不確定。不考慮結構效度的情況下，PRCS-C與PRCS-CⅡ只有吸引分量表的α值超過0.7，性能最差；PRS-16等6個量表都在連貫(包括反向連貫)上出現(xiàn)了α低值。

3.2.4 穩(wěn)定性和跨文化效度

PRS-22(CH)使用ICC值估算評分者間的一致性，大部分結果達到良好標準；PRS-23(CH)使用α值估算重測穩(wěn)定性、PRS-16使用重復測量方差分析比較不同呈現(xiàn)方式下的評價結果，均不符合COSMIN方法學要求。PRS-16比較了英語和芬蘭語版本的表面因素結構，但未做統(tǒng)計分析；PRS-11計算了英語和意大利語版本、男性和女性群體中模型的擬合參數(shù)差值，結果良好(表3)。

3.3 量表推薦等級

為服務日趨多樣的研究需求，本系統(tǒng)評價未規(guī)定目標研究情境，即未對證據(jù)在間接風險上降級。綜合各量表各性能質(zhì)量評價結果和相應的證據(jù)等級，僅RCS達到A類標準，推薦在與其開發(fā)研究情境相似的研究中直接使用；有高等級證據(jù)證明PRCS-C、PRS-23(CH)存在不良性能，將其歸為C類，不予推薦；其余量表歸為B類，在A類表不適用時暫時推薦。

4 討論

4.1 所納量表的突出問題

1)缺乏內(nèi)容效度研究。當代心理測量理論認為內(nèi)容效度是量表最重要的測量性能[23]。本研究所納14個量表中僅少部分在開發(fā)階段實施了內(nèi)容評價，但無一在項目集固定后進行真正意義上的內(nèi)容效度研究。盡管內(nèi)容效度研究在所有測量性能研究中程序最煩瑣，但良好的內(nèi)容效度是其他性能良好的先決條件，應予以最高程度的重視。2)研究方法異質(zhì)性高。除了內(nèi)部一致性，其他性能研究均存在方法不統(tǒng)一的問題，增加了系統(tǒng)評價的難度和風險。建議量表編者遵循COSMIN等量表編制指南的方法學規(guī)范，開發(fā)可被評測的高質(zhì)量研究工具。3)背景理論模型尚未成熟。量表在維度設置上的不斷調(diào)整，既源于研究者對恢復性真實結構的不斷探索，也源于性能研究結果始終未能達到全面良好(如PRS系列、PRCS-C和PRCS-CⅡ)，反映出理論模型仍未成熟。另外，所納量表在環(huán)境對象的選擇上缺少統(tǒng)一參考系(表1)，對不同環(huán)境恢復性差異的假設仍處于“自然環(huán)境高于非自然環(huán)境”的初級階段，且各研究對“自然”的理解也不相同，有的側(cè)重“低建成性”——較少受到人為干擾；有的側(cè)重“高生物性”——以動植物或水體為主要表征(圖2)。本文所納量表施測結果(表4)及目前以環(huán)境恢復性量表為工具的評價研究結果[24-25]多數(shù)支持象限2的恢復性高于象限4，但相鄰象限間及同一象限內(nèi)的不同亞類環(huán)境間是否存在差異，以及差異的結構化水平尚無明確假設。另外，RCS、PRCQ和PRCS-C的因素結構在不同施測環(huán)境中存在不同程度的差異，盡管目前關于環(huán)境類型與恢復性的嵌套關系、環(huán)境實質(zhì)特征對恢復性的影響已有部分證據(jù)積累[26-27]，但尚未形成成熟的細分理論模型，面向不同對象的量表仍然共用一套基礎模型，未差異化發(fā)展量表結構。

圖2 量表施測環(huán)境對象分類

表4 納入量表對不同施測環(huán)境的區(qū)分性研究方法與結果

4.2 量表決策路徑建議

由于所納量表總體性能欠佳，且A類量表適用的研究情境有限，因此在一些研究情境中需要對擬采用的A、B類量表進行翻譯、改編或改良，并重新效驗后再使用，若仍不滿足研究需求，則應考慮開發(fā)新量表或選擇其他類型研究工具。本文將研究情境要素歸集，為不同研究情境提供量表決策建議(圖3)。其中，12歲是COSMIN提出的閱讀理解能力分界線；是否伴隨旅游行為可影響評分者對環(huán)境的心理預期；研究粒度影響其對量表性能質(zhì)量的要求。如果擬評價的環(huán)境分屬圖2不同象限，如森林步道和城市街道，則部分B類量表也可直接使用；如果擬評價對象屬于圖2同一象限，如森林和湖泊，所納量表尚不能滿足這種細粒度研究，建議改良A、B類量表或重新開發(fā)。對于圖3無法覆蓋的研究情境，應在本研究結果的基礎上，判定擬研究情境與擬選量表開發(fā)情境間的差異，評估間接風險后再次確定證據(jù)等級和量表推薦等級。

圖3 量表決策路徑參考

5 結論

研究遵循COSMIN方法對納入的14個環(huán)境恢復性量表的5個測量性能進行了系統(tǒng)評價。結果表明，在不考慮間接風險的前提下，14個量表中，RCS達到直接推薦等級，可直接應用于相似研究情境；PRS-16等11個量表屬于暫時推薦等級，可用于相似研究情境的粗粒度研究或根據(jù)研究需求進行更新修訂；PRCS-C和PRS-23(CH)由于被高等級證據(jù)證明存在不良性能，不予推薦。所納量表均嚴重缺乏內(nèi)容效度研究，研究方法異質(zhì)性高，背景理論模型粗糙，無法適應細粒度研究需求。上述問題亟待解決，以系統(tǒng)性提高工具性能和相關研究質(zhì)量。另外，由于系統(tǒng)評價需要設置嚴格的納入標準，本研究結論不可推論至分量表項目少于3個[28-29]、評價對象不是視覺環(huán)境[30-31]、以其他模型或復合模型發(fā)展的[32-34]環(huán)境恢復性測量工具。

注：文中圖片均由作者繪制。

注釋：

① 目前，fascination被翻譯為吸引、魅力(性)、迷人(性)；being away被翻譯為遠離(度)、離開、距離感；extent被翻譯為豐富、程度、延展(性)；compatibility被翻譯為兼容(性)、相容(性)；coherence被翻譯為一致(性)、和諧(性)。由于環(huán)境恢復性特征是人與環(huán)境交互過程的特征，因此本研究在命名extent時，使用了其核心動詞——延展。另外，coherence現(xiàn)在常譯作“一致”來表達環(huán)境中物質(zhì)實體在形式和內(nèi)容上的和諧統(tǒng)一，但coherence在ART原論述中還包含結構上的連接性，因此使用“連貫”這個更復合的詞語，以“連”表達結構上的連接性，以“貫”表達形式和內(nèi)容上的一貫性。

② COSMIN沒有規(guī)定基于因素提取法的結構效度良好標準，建議自行確定。本研究通過詢問專家意見，將累計方差貢獻率≥60%定為良好標準。

③ 各中文量表的分量表名稱不統(tǒng)一，表1內(nèi)的名稱表示的是分量表的實質(zhì)內(nèi)涵。

④ PRS-16修訂時間與卡普蘭將coherence更新成extent的時間重疊，因此PRS-16用“Ext/Coh”雙名并列，但引用時一般用coherence，即連貫。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡