高飛,石蕾,王健,張貴蘭,劉建平
(1.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2.國家科技基礎(chǔ)條件平臺(tái)中心,北京 100862)
科學(xué)數(shù)據(jù)用戶相關(guān)性指標(biāo)研究*
高飛1,石蕾2,王健1,張貴蘭1,劉建平1
(1.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2.國家科技基礎(chǔ)條件平臺(tái)中心,北京 100862)
通過對科學(xué)數(shù)據(jù)用戶相關(guān)性判斷行為的研究,探索科學(xué)數(shù)據(jù)相關(guān)性判斷過程中所使用的指標(biāo)及模式,加深對科學(xué)數(shù)據(jù)相關(guān)性判定機(jī)制的理解,為設(shè)計(jì)開發(fā)智能化數(shù)據(jù)搜索引擎提供算法和理論支撐。使用出聲思考和事后訪談兩種方法對用戶相關(guān)性判斷行為進(jìn)行研究。數(shù)據(jù)在真實(shí)的環(huán)境中收集,使用攝像機(jī)記錄實(shí)驗(yàn)過程,采用扎根理論對訪談數(shù)據(jù)進(jìn)行編碼分析。在定性研究的基礎(chǔ)上設(shè)計(jì)問卷,開展大樣本問卷調(diào)查。科學(xué)數(shù)據(jù)用戶相關(guān)性判斷過程使用的標(biāo)準(zhǔn)可以分為數(shù)據(jù)本體性和數(shù)據(jù)可用性兩類,共9個(gè)指標(biāo)。與其他信息類型相比,科學(xué)數(shù)據(jù)檢索有更強(qiáng)的目的性,相關(guān)性判斷過程不能缺少對數(shù)據(jù)主題性、質(zhì)量和權(quán)威性的評估,其他指標(biāo)在具體情境中,只有受到相關(guān)信息需求刺激才會(huì)調(diào)用。
信息檢索;科學(xué)數(shù)據(jù);用戶相關(guān)性;標(biāo)準(zhǔn)
科學(xué)數(shù)據(jù)指通過科技活動(dòng)或其他方式所獲取的反映客觀世界本質(zhì)、特征、變化規(guī)律等的原始基本數(shù)據(jù),根據(jù)不同科技活動(dòng)需要進(jìn)行系統(tǒng)加工整理的各類數(shù)據(jù)集,及用于支撐科研活動(dòng)的科學(xué)數(shù)據(jù)集合[1]。任何一項(xiàng)科研活動(dòng)都離不開對數(shù)據(jù)資源的分析、實(shí)驗(yàn)、綜合等活動(dòng),然而隨著數(shù)據(jù)規(guī)模的擴(kuò)大和數(shù)據(jù)共享工作的進(jìn)行,科學(xué)數(shù)據(jù)獲取效率依舊很低。造成這種現(xiàn)象的直接原因是沒有高效的科學(xué)數(shù)據(jù)檢索工具,而更深層次的原因是對科學(xué)數(shù)據(jù)相關(guān)性判斷機(jī)制理解不足,特別是基礎(chǔ)的科學(xué)數(shù)據(jù)相關(guān)性標(biāo)準(zhǔn)不健全及指標(biāo)使用研究薄弱。針對此問題,本文采用實(shí)證的研究方式,探索科學(xué)數(shù)據(jù)用戶相關(guān)性判斷過程中的使用指標(biāo)。
科學(xué)數(shù)據(jù)是科技工作者在研究工作中觀測、收集或加工處理后得到的反映世界客觀本質(zhì)的數(shù)據(jù)。數(shù)據(jù)生產(chǎn)的目的是支持科研活動(dòng)開展。通過文獻(xiàn)調(diào)研發(fā)現(xiàn),現(xiàn)有科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)多基于元數(shù)據(jù),其目的是進(jìn)行科學(xué)數(shù)據(jù)存儲(chǔ)管理和實(shí)現(xiàn)數(shù)據(jù)共享。國外的元數(shù)據(jù)標(biāo)準(zhǔn)發(fā)展比較完善,知名的元數(shù)據(jù)標(biāo)準(zhǔn)有都柏林核心元數(shù)據(jù)、生命科學(xué)元數(shù)據(jù)、地球科學(xué)元數(shù)據(jù)、社會(huì)科學(xué)元數(shù)據(jù)等[2]。都柏林核心元數(shù)據(jù)不是專門的科學(xué)數(shù)據(jù)標(biāo)準(zhǔn),是最早制定的關(guān)于網(wǎng)絡(luò)信息資源的元數(shù)據(jù)標(biāo)準(zhǔn),很多類型的信息資源元數(shù)據(jù)標(biāo)準(zhǔn)都參考都柏林核心元數(shù)據(jù)制定。在地球科學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)中比較常用的有美國聯(lián)邦地理數(shù)據(jù)委員會(huì)元數(shù)據(jù)標(biāo)準(zhǔn)和國際標(biāo)準(zhǔn)化組織地理信息技術(shù)委員會(huì)標(biāo)準(zhǔn)兩類,美國聯(lián)邦地理數(shù)據(jù)委員會(huì)元數(shù)據(jù)標(biāo)準(zhǔn)主要包括標(biāo)識(shí)信息、數(shù)據(jù)質(zhì)量信息、空間數(shù)據(jù)組織信息、空間參照系統(tǒng)信息、實(shí)體和屬性信息、分發(fā)信息和元數(shù)據(jù)參考信息,國際標(biāo)準(zhǔn)化組織地理信息技術(shù)委員會(huì)標(biāo)準(zhǔn)主要包括標(biāo)識(shí)信息、數(shù)據(jù)質(zhì)量信息、數(shù)據(jù)志信息、空間數(shù)據(jù)表示信息、參照系統(tǒng)信息、要素分類信息、分發(fā)信息、元數(shù)據(jù)參考信息。生命科學(xué)元數(shù)據(jù)主要包括達(dá)爾文核心元數(shù)據(jù),其標(biāo)準(zhǔn)可分為標(biāo)識(shí)信息、事件信息、生物發(fā)現(xiàn)信息、生物分類信息、地質(zhì)環(huán)境信息、位置信息、位置資源關(guān)系信息和參考信息。社會(huì)科學(xué)類元數(shù)據(jù)標(biāo)準(zhǔn)可分為文檔描述信息、研究描述信息、數(shù)據(jù)文件描述、變量描述信息、其他相關(guān)材料和描述信息。其他標(biāo)準(zhǔn)分類限于篇幅不逐一贅述。國內(nèi)元數(shù)據(jù)標(biāo)準(zhǔn)研究起步較晚,但發(fā)展迅速。如中國科學(xué)院核心元數(shù)據(jù)標(biāo)準(zhǔn)、中國國家圖書館資源信息核心元數(shù)據(jù)標(biāo)準(zhǔn)、醫(yī)藥衛(wèi)生科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)等。科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)的研究初衷并不是為某一科學(xué)領(lǐng)域制定,但從后續(xù)發(fā)展看,學(xué)者更傾向制定適用于某個(gè)學(xué)科領(lǐng)域的數(shù)據(jù)標(biāo)準(zhǔn)。所以科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)越來越多,但并沒有很好地解決數(shù)據(jù)共享問題。
用戶相關(guān)性指標(biāo)研究主要圍繞信息對象、用戶認(rèn)知和情境三要素間的復(fù)雜關(guān)系展開[3],通過不斷增加信息對象類型和情境類型的方法來探索更多的相關(guān)性標(biāo)準(zhǔn)及其使用模式。早期主要針對學(xué)術(shù)論文等學(xué)術(shù)信息類型,之后逐漸擴(kuò)展到新聞、音樂、視頻、醫(yī)學(xué)影像等類型。相關(guān)性指標(biāo)使用模式研究的數(shù)量相對較少,主要思想是借助標(biāo)準(zhǔn)使用頻率評估其在不同情境下的重要性,進(jìn)而估算其使用概率。Park認(rèn)為影響用戶相關(guān)性判斷的因素有用戶認(rèn)知背景、主題相關(guān)背景和信息使用動(dòng)機(jī)三類[4];Cool等探索除主題相關(guān)外其他對文檔相關(guān)性判斷存在影響的因素,分別為主題、內(nèi)容或信息、格式、表述、價(jià)值取向以及用戶自身等[5];Barry認(rèn)為影響用戶文檔選擇的因素主要有七類,包括文獻(xiàn)內(nèi)容、用戶研究背景和經(jīng)歷、用戶個(gè)人偏好、與其他信息和資源的關(guān)系、文獻(xiàn)來源、文獻(xiàn)本身的情況,以及用戶個(gè)人情況[6];Wang等建立了用戶文檔選擇認(rèn)知模型,并提出11項(xiàng)相關(guān)性標(biāo)準(zhǔn),具體為主題性、研究方向和水平、研究領(lǐng)域、新穎性、期望質(zhì)量、實(shí)時(shí)性、閱讀時(shí)間、可獲取性、特殊需求、權(quán)威性、來源[7];Markkula等根據(jù)記者對圖片的選擇行為提出7個(gè)圖像的相關(guān)性標(biāo)準(zhǔn),具體為主題性、技術(shù)性、文本影響、視覺效果、花費(fèi)、時(shí)效性、個(gè)人情感[8];Rieh認(rèn)為用戶主要根據(jù)主題性、信息質(zhì)量和認(rèn)知權(quán)威性對網(wǎng)頁信息進(jìn)行判斷[9];Balatsoukas等使用眼動(dòng)儀探索用戶在網(wǎng)絡(luò)環(huán)境中如何進(jìn)行相關(guān)性判斷,用戶使用最多的標(biāo)準(zhǔn)依次為主題性、范圍、使用者的背景和質(zhì)量[10]。
綜合已有的研究,用戶相關(guān)性標(biāo)準(zhǔn)研究在信息對象和標(biāo)準(zhǔn)數(shù)量上有了比較重大的進(jìn)展,但一些重要信息類型(如科學(xué)數(shù)據(jù))的研究較少?,F(xiàn)有基于元數(shù)據(jù)的科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)的目的僅是對數(shù)據(jù)進(jìn)行科學(xué)地存儲(chǔ)管理,并沒有注重用戶查詢數(shù)據(jù)時(shí)判斷決策的主體地位。因此,雖然數(shù)據(jù)共享的規(guī)模日益擴(kuò)大,但用戶獲取數(shù)據(jù)的效率很低。本文針對此問題,進(jìn)行科學(xué)數(shù)據(jù)用戶相關(guān)性標(biāo)準(zhǔn)研究。
選取被試人員36名,其專業(yè)分別為生物化學(xué)與分子生物學(xué)、微生物學(xué)、農(nóng)業(yè)遙感、農(nóng)業(yè)經(jīng)濟(jì)等。其中,碩士研究生32名,博士研究生4名;男生14名,女生22名。被試人員都參與了科研項(xiàng)目,對于科學(xué)數(shù)據(jù)有較強(qiáng)需求,符合實(shí)驗(yàn)條件。
被試人員根據(jù)當(dāng)前研究任務(wù)和真實(shí)需求自擬任務(wù)進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)檢索。主試人員提供可以自由檢索的環(huán)境,保證被試人員能夠進(jìn)行出聲思考,不受外界影響。被試人員的檢索時(shí)間在30分鐘以內(nèi),實(shí)驗(yàn)結(jié)束分3種情況:(1)查詢到相關(guān)數(shù)據(jù),并打開瀏覽;(2)查詢到相關(guān)數(shù)據(jù),并進(jìn)行下載;(3)對多個(gè)檢索結(jié)果進(jìn)行評估后,沒有得到相關(guān)數(shù)據(jù)。使用錄像機(jī)記錄檢索過程和出聲思維數(shù)據(jù)。
檢索實(shí)驗(yàn)反映被試人員當(dāng)前階段的真實(shí)需求。該任務(wù)通過20—30分鐘的檢索會(huì)話完成,反映被試人員短時(shí)記憶中信息的加工情況。檢索實(shí)驗(yàn)完成后立刻進(jìn)行訪談,訪談時(shí)讓被試人員觀看自己檢索數(shù)據(jù)的視頻。訪談主要圍繞需要哪些數(shù)據(jù),數(shù)據(jù)來源,是否找到相關(guān)數(shù)據(jù),從哪些線索判斷數(shù)據(jù)相關(guān)/不相關(guān),為什么這些線索可以判斷數(shù)據(jù)相關(guān)/不相關(guān)。訪談全程錄像,以便于后續(xù)數(shù)據(jù)分析。
情景實(shí)驗(yàn)結(jié)束后,根據(jù)分析結(jié)果設(shè)計(jì)用戶相關(guān)性指標(biāo)重要程度測量問卷,并進(jìn)行問卷調(diào)查。通過網(wǎng)絡(luò)問卷的形式,對問卷進(jìn)行有償發(fā)放與回收。調(diào)查目標(biāo)對象是碩士及以上學(xué)歷研究生和數(shù)據(jù)使用頻率較多的本科生,這類對象具有一定的數(shù)據(jù)科研基礎(chǔ),學(xué)習(xí)或工作中經(jīng)常使用科學(xué)數(shù)據(jù),能夠根據(jù)自身經(jīng)驗(yàn)對標(biāo)準(zhǔn)的重要程度作出判斷。共發(fā)放問卷669份,回收669份,其中有效問卷544份?;厥章?00%,有效率81%。
出聲思考和訪談轉(zhuǎn)錄為文本數(shù)據(jù),基于扎根理論進(jìn)行編碼分析,重點(diǎn)是對文本中出現(xiàn)的相關(guān)性判斷指標(biāo)進(jìn)行編碼。這些指標(biāo)是用戶頭腦存儲(chǔ)的知識(shí),是用戶評估數(shù)據(jù)價(jià)值的工具性概念或邏輯關(guān)系判斷根據(jù),在文本中體現(xiàn)為“與我研究相關(guān)”“最新的”“有名的”“因?yàn)樗容^準(zhǔn)確,所以”等概念性語句。將標(biāo)志性文本編碼,并根據(jù)其意義命名(在編碼過程中不斷進(jìn)行修改),分別為“主題性”“時(shí)效性”“權(quán)威性”“準(zhǔn)確性”,由此得到指標(biāo)集合。編碼出現(xiàn)不一致的情況時(shí),對原材料進(jìn)行備忘記錄與上下文分析,重新編碼。編碼表在編碼過程中不斷修改,最終的編碼如圖1所示。編碼由第一作者完成,并由其他3位編碼員進(jìn)行信度檢驗(yàn),編碼間的信度分別為80%、81%和79%,均在Krippendorff認(rèn)可的探索研究可靠性結(jié)論的概率范圍內(nèi)(67%—80%)[11]。編碼實(shí)例如表1所示。
圖1 編碼表
表1 編碼實(shí)例
對文本數(shù)據(jù)編碼、概念歸類后得到9個(gè)科學(xué)數(shù)據(jù)用戶相關(guān)性指標(biāo)定義(見表2)。
從表3可見,主題性是使用頻率最多的標(biāo)準(zhǔn),92.66%的數(shù)據(jù)進(jìn)行了主題性判斷。主題性應(yīng)該滿足空間位置相符、時(shí)間覆蓋度相符、內(nèi)容與研究主題相符的條件。
專業(yè)需求指數(shù)據(jù)能夠滿足用戶研究領(lǐng)域的特殊需要,如數(shù)據(jù)發(fā)揮的作用、數(shù)據(jù)的特定格式要求等。專業(yè)需求使用頻率僅次于主題性,44.04%的數(shù)據(jù)對其進(jìn)行評估。
時(shí)效性指數(shù)據(jù)在時(shí)間上滿足研究需求。用戶對時(shí)效性的評估主要包括兩個(gè)方面:一是數(shù)據(jù)的時(shí)間覆蓋度符合研究需求;二是數(shù)據(jù)是實(shí)時(shí)的,能夠不斷更新。通常數(shù)據(jù)滿足一個(gè)方面就能達(dá)到用戶要求。17名用戶使用這條標(biāo)準(zhǔn),44.95%的數(shù)據(jù)對時(shí)效性進(jìn)行評估。用戶通過數(shù)據(jù)起止時(shí)間、數(shù)據(jù)更新時(shí)間等評估數(shù)據(jù)的時(shí)效性。
質(zhì)量指數(shù)據(jù)的優(yōu)劣,包括數(shù)據(jù)的完整性、準(zhǔn)確性、可信程度。質(zhì)量是用戶數(shù)據(jù)相關(guān)性判斷的重要指標(biāo),33.94%的數(shù)據(jù)對該標(biāo)準(zhǔn)進(jìn)行評估。在科技工作中,數(shù)據(jù)質(zhì)量決定研究結(jié)果的可靠性,因此在選擇數(shù)據(jù)時(shí),用戶會(huì)對數(shù)據(jù)質(zhì)量進(jìn)行仔細(xì)篩查。
權(quán)威性指數(shù)據(jù)在專業(yè)領(lǐng)域內(nèi)的認(rèn)可程度。14.68%的數(shù)據(jù)權(quán)威性進(jìn)行評估。用戶的一次相關(guān)性判斷不會(huì)對所有數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行加工,通常是根據(jù)具體情境選擇使用標(biāo)準(zhǔn)。當(dāng)需要判斷的數(shù)據(jù)量過大時(shí),用戶可使用權(quán)威性指標(biāo)對數(shù)據(jù)進(jìn)行篩選。一般是從發(fā)布數(shù)據(jù)的機(jī)構(gòu)、數(shù)據(jù)所在平臺(tái)、發(fā)表數(shù)據(jù)的期刊、數(shù)據(jù)發(fā)布者等方面來判斷數(shù)據(jù)的權(quán)威性。
表2 相關(guān)性指標(biāo)定義
可獲取性指外界條件不影響用戶通過各種方式獲取數(shù)據(jù)??色@取性的使用頻率較低,11.01%的數(shù)據(jù)對該標(biāo)準(zhǔn)進(jìn)行評估??色@取性影響用戶對數(shù)據(jù)的使用,通常用戶在初步判斷數(shù)據(jù)相關(guān)后才關(guān)注該標(biāo)準(zhǔn)。但也有部分用戶在相關(guān)性判斷過程中先關(guān)注數(shù)據(jù)的獲取途徑,在確定數(shù)據(jù)可下載之后,才會(huì)進(jìn)行下一步判斷。
新穎性指未接觸過或者不熟悉的數(shù)據(jù)。新穎性指標(biāo)使用頻率較低,僅有5.50%的數(shù)據(jù)對新穎性進(jìn)行評估。這說明科學(xué)數(shù)據(jù)用戶在選擇數(shù)據(jù)資源時(shí),通常已經(jīng)明確對數(shù)據(jù)的需求,數(shù)據(jù)選擇的目的性強(qiáng)。
便利性指用戶得到數(shù)據(jù)和使用數(shù)據(jù)的難易程度。在相關(guān)性判斷過程中,用戶更傾向于選取檢索結(jié)果排列靠前的數(shù)據(jù),認(rèn)為這些數(shù)據(jù)更容易得到,同時(shí)用戶也會(huì)考慮數(shù)據(jù)獲取后的使用情況,他們更希望獲取的數(shù)據(jù)容易使用。
表3 用戶相關(guān)性指標(biāo)使用情況
可理解性指數(shù)據(jù)是否容易被理解和接受。只有2個(gè)用戶在檢索過程中涉及這條標(biāo)準(zhǔn)。在一個(gè)簡短的檢索會(huì)話中,用戶對數(shù)據(jù)的可理解性關(guān)注較少。造成這種現(xiàn)象的原因有兩個(gè):一是用戶熟悉檢索平臺(tái)使用,對所呈現(xiàn)的數(shù)據(jù)格式比較了解,不會(huì)刻意關(guān)注;二是數(shù)據(jù)呈現(xiàn)的內(nèi)容更加直接,用戶可以在獲取數(shù)據(jù)后使用專業(yè)工具進(jìn)行數(shù)據(jù)分析,對于不熟悉的檢索環(huán)境,用戶則希望系統(tǒng)提供的數(shù)據(jù)檢索結(jié)果更容易理解。
研究發(fā)現(xiàn),一次相關(guān)性判斷不會(huì)對所有相關(guān)性指標(biāo)進(jìn)行加工;一條數(shù)據(jù)相關(guān)性判斷常使用1—4個(gè)指標(biāo),平均一次使用1.88個(gè)指標(biāo);使用2個(gè)指標(biāo)的情況最多,占數(shù)據(jù)總量的71.56%;使用1個(gè)指標(biāo)的情況占比22.02%;使用3—4個(gè)指標(biāo)的情況較少,占比6.42%(見表4)。
主題性是使用最廣泛的指標(biāo),所有的數(shù)據(jù)相關(guān)性判斷均使用了該指標(biāo),其中22.02%的數(shù)據(jù)僅對主題性一個(gè)指標(biāo)進(jìn)行評估。可以認(rèn)為,主題性是相關(guān)性判斷的基礎(chǔ)。在特定情況下,尤其是非相關(guān)性判斷時(shí),僅使用主題性指標(biāo)就能得到判定結(jié)果。對主題性進(jìn)行加工后,用戶一般還會(huì)對質(zhì)量、專業(yè)需求、時(shí)效性、便利性、可獲取性進(jìn)行評估。在2個(gè)指標(biāo)的評估模式中,“主題性+專業(yè)需求”“主題性+質(zhì)量”和“主題性+時(shí)效性”組合出現(xiàn)的頻率較高,分別占數(shù)據(jù)總量的38.53%、14.68%和11.93%。在真實(shí)檢索環(huán)境中,在判定數(shù)據(jù)主題相關(guān)后,數(shù)據(jù)的質(zhì)量、專業(yè)需求或者時(shí)效性滿足其一,基本就能得到相關(guān)結(jié)果。數(shù)據(jù)可獲取性也是比較重要的判斷指標(biāo),關(guān)系著用戶是否能得到數(shù)據(jù)實(shí)體,但需要和其他指標(biāo)一起使用。用戶對數(shù)據(jù)進(jìn)行相關(guān)性判斷時(shí),頭腦對指標(biāo)的加工速度是非常迅速的。用戶一次加工的指標(biāo)不會(huì)超過4個(gè)。只有遇到特殊信息需求時(shí),才會(huì)對相應(yīng)指標(biāo)進(jìn)行加工。
表4 相關(guān)性指標(biāo)使用模式
用戶根據(jù)其相關(guān)性判斷時(shí)標(biāo)準(zhǔn)使用情況,對9個(gè)標(biāo)準(zhǔn)的重要性作出判斷。評價(jià)標(biāo)準(zhǔn)為非常重要5分,比較重要4分,一般3分,不太重要2分,不重要1分。對量表信度進(jìn)行α信度系數(shù)檢驗(yàn),Cronbach'sα為0.882(α>0.5),信度系數(shù)表現(xiàn)良好,量表可信度高。
對用戶而言,數(shù)據(jù)質(zhì)量是最重要的指標(biāo)(均值為4.18),其次是數(shù)據(jù)的主題性(均值為4.12)、權(quán)威性(均值為4.06)。相對而言,數(shù)據(jù)新穎性、可理解性和便利性重要程度一般,均值分別為3.49、3.48和3.48(見表5)。在科研工作中數(shù)據(jù)質(zhì)量決定研究的成敗,因而在數(shù)據(jù)選擇時(shí)質(zhì)量評估占據(jù)最多的權(quán)重。主題性的重要程度僅次于質(zhì)量,只有符合研究主題的數(shù)據(jù),用戶才有進(jìn)一步探索的興趣。數(shù)據(jù)權(quán)威性評分也較高,位列第三,說明數(shù)據(jù)在研究領(lǐng)域里獲得認(rèn)可的程度對用戶判斷有重要影響。時(shí)效性均值為3.84,略低于質(zhì)量、主題性和權(quán)威性指標(biāo)。數(shù)據(jù)的時(shí)效性較易評估,用戶通常會(huì)關(guān)注數(shù)據(jù)的發(fā)布時(shí)間和更新時(shí)間,期望得到實(shí)時(shí)的數(shù)據(jù)以及符合其研究需求的數(shù)據(jù)??色@取性均值為3.71,用戶比較關(guān)注能否得到具體的數(shù)據(jù)資源,并不介意獲取過程需要付出的費(fèi)用。用戶對數(shù)據(jù)新穎性要求不高,但如果數(shù)據(jù)能對用戶帶來一定啟發(fā),用戶判斷數(shù)據(jù)是相關(guān)的可能性增大。用戶認(rèn)為數(shù)據(jù)可理解性的重要程度一般,但若有多項(xiàng)數(shù)據(jù)可供選擇,用戶會(huì)選擇更容易理解的數(shù)據(jù)。專業(yè)需求是比較重要的指標(biāo)(均值為3.82),在科研項(xiàng)目進(jìn)行過程中,用戶對數(shù)據(jù)的專業(yè)性要求會(huì)逐步提高。便利性在用戶感知評分中均值為3.48,相較其他指標(biāo),用戶認(rèn)為數(shù)據(jù)的便利性不太重要。通常用戶在數(shù)據(jù)查詢時(shí)對數(shù)據(jù)獲取的便利性要求不高,在數(shù)據(jù)篩選使用過程時(shí),才會(huì)對該指標(biāo)進(jìn)行評估。
表5 指標(biāo)重要程度
對標(biāo)準(zhǔn)量表進(jìn)行KMO和Bartlett的檢驗(yàn),KMO值為0.899(KMO>0.5),Bartlett球形度檢驗(yàn)顯著性為0(p<0.01),各指標(biāo)間關(guān)系良好,適合進(jìn)行因子分析。由圖2可知,曲線在第二個(gè)拐點(diǎn)處趨于平穩(wěn),提取兩個(gè)因子比較合理。兩個(gè)因子累計(jì)貢獻(xiàn)率為62.64%。在社會(huì)學(xué)研究中,累計(jì)貢獻(xiàn)率大于60%即滿足數(shù)據(jù)要求。
第一公因子方差貢獻(xiàn)率為35.21%,主題性、時(shí)效性、新穎性、質(zhì)量和權(quán)威性有較大的因子負(fù)荷值(見表6)。這些指標(biāo)可以共同反映用戶在相關(guān)性判斷時(shí)對數(shù)據(jù)本體的需求,命名為數(shù)據(jù)本體性。第二公因子方差貢獻(xiàn)率為27.43%,可獲取性、便利性、專業(yè)需求和可理解性有較大的因子負(fù)荷值。這些指標(biāo)共同反應(yīng)了用戶數(shù)據(jù)獲取與使用階段的需求,命名為數(shù)據(jù)可用性。研究發(fā)現(xiàn),用戶在進(jìn)行相關(guān)性判斷時(shí),兩個(gè)因子多數(shù)情況下同時(shí)發(fā)揮作用;但在信息不足或者用戶想快速找到相關(guān)數(shù)據(jù)時(shí),只對數(shù)據(jù)本體性進(jìn)行判斷也能滿足用戶需求。如用戶可在判斷過程中使用“主題性”“主題性+質(zhì)量”“主題性+時(shí)效性”等判定模式。數(shù)據(jù)可用性對用戶相關(guān)性判斷也有重要影響,但需結(jié)合數(shù)據(jù)本體性同時(shí)進(jìn)行加工才能發(fā)揮作用,單獨(dú)對數(shù)據(jù)可用性進(jìn)行評價(jià)無法得到數(shù)據(jù)是否相關(guān)的判定結(jié)果。
表6 旋轉(zhuǎn)成分矩陣
綜合兩個(gè)實(shí)驗(yàn)不難發(fā)現(xiàn),用戶相關(guān)性判斷過程中常用的指標(biāo)為主題性、時(shí)效性、質(zhì)量、權(quán)威性和可獲取性。而在用戶指標(biāo)的重要性感知中,比較重要的指標(biāo)有主題性、質(zhì)量和權(quán)威性。這表明在用戶認(rèn)知中,相關(guān)性判斷過程不能缺少對數(shù)據(jù)主題性、質(zhì)量和權(quán)威性的評估,其他指標(biāo)在具體情境中,受到相關(guān)信息需求刺激才會(huì)調(diào)用。用戶的相關(guān)性判斷過程是在自我認(rèn)知的控制下,對感知線索有意識(shí)加工和無意識(shí)加工共同進(jìn)行的。
用戶在數(shù)據(jù)檢索過程中,進(jìn)行一次相關(guān)性判斷平均使用1.88個(gè)指標(biāo),最多不會(huì)超過4個(gè)指標(biāo)。智能搜索引擎的設(shè)計(jì)不需要添加過多篩選條件,可以提供用戶自定義設(shè)置搜索模式的功能。研究發(fā)現(xiàn),數(shù)據(jù)主題相關(guān)是用戶相關(guān)性判斷的先決條件。在此基礎(chǔ)上,用戶更重視數(shù)據(jù)的質(zhì)量、時(shí)效性與權(quán)威性。此外,用戶也比較注重?cái)?shù)據(jù)的專業(yè)需求,數(shù)據(jù)能否滿足用戶的專業(yè)需求通常可以決定數(shù)據(jù)的相關(guān)性,在數(shù)據(jù)搜索引擎開發(fā)的過程中應(yīng)該重視這個(gè)指標(biāo)。
與其他信息類型相比,科學(xué)數(shù)據(jù)檢索具有更強(qiáng)的目的性。Barry認(rèn)為新穎性是文檔選擇的重要評估指標(biāo),用戶會(huì)因?yàn)楹闷嫦肓私庑碌闹R(shí)而選擇一個(gè)文檔;科學(xué)數(shù)據(jù)用戶則檢索目標(biāo)十分明確,更需要對其研究有支持效果的數(shù)據(jù)[6-7]。Wang等研究發(fā)現(xiàn),用戶對超過半數(shù)的文檔評估只用了1個(gè)指標(biāo)[7],但在數(shù)據(jù)選擇時(shí)使用的指標(biāo)更多,相關(guān)性判斷過程中71.56%的數(shù)據(jù)使用了2個(gè)指標(biāo)。科學(xué)數(shù)據(jù)用戶需要能表達(dá)數(shù)據(jù)權(quán)威性的指標(biāo)信息,如數(shù)據(jù)被引用率,目前這些信息并不完善,用戶會(huì)通過發(fā)表文章的影響因子判斷數(shù)據(jù)的權(quán)威性。
與科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)相比,用戶相關(guān)性指標(biāo)更注重用戶判斷的主體地位。用戶在數(shù)據(jù)相關(guān)性判斷過程中從數(shù)據(jù)的本體性和可用性對數(shù)據(jù)進(jìn)行評價(jià)。在判斷時(shí)能夠加工的信息量有限,信息量過大可能會(huì)造成用戶選擇困難??茖W(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)的目的在于能夠合理完整地描述信息資源,在進(jìn)行數(shù)據(jù)存儲(chǔ)時(shí)保證信息資源不會(huì)丟失,所以元數(shù)據(jù)標(biāo)準(zhǔn)是對數(shù)據(jù)資源本身的描述。用戶相關(guān)性指標(biāo)同樣注重?cái)?shù)據(jù)本身,如數(shù)據(jù)的主題性、質(zhì)量、時(shí)效性。同時(shí),用戶也需要數(shù)據(jù)的使用信息,如數(shù)據(jù)是否能獲得、是否能滿足專業(yè)需求等。
圖2 碎石圖
科學(xué)數(shù)據(jù)作為一種總量與經(jīng)濟(jì)效益不斷提升的信息載體,以其為對象開展相關(guān)性研究具有重要意義。本文通過實(shí)證研究探討科學(xué)數(shù)據(jù)用戶相關(guān)性判斷過程中使用的指標(biāo),以便于能更好地理解科學(xué)數(shù)據(jù)用戶相關(guān)性判斷機(jī)制,為設(shè)計(jì)開發(fā)智能搜索引擎提供理論和算法基礎(chǔ)。
研究的被試人員根據(jù)方便取樣原則,均為來自農(nóng)業(yè)領(lǐng)域的研究生,其在研究工作中有數(shù)據(jù)需求,也對數(shù)據(jù)有一定程度了解,符合本研究的被試人員要求。但相對廣泛的科學(xué)數(shù)據(jù)用戶而言,研究被試人員類型比較單一。因此,后續(xù)研究需要擴(kuò)大被試人員范圍,增加專家用戶和普通用戶。情景實(shí)驗(yàn)選取被試人員的數(shù)量雖達(dá)到要求,但就每個(gè)學(xué)科的被試人員數(shù)量仍相對較少,被試人員在檢索中使用的平臺(tái)也具有一定的局限性,在后續(xù)研究中不僅要增加每個(gè)學(xué)科的被試人數(shù),還要增加學(xué)科的領(lǐng)域范圍,以便于獲取更加全面和可靠的數(shù)據(jù)和實(shí)驗(yàn)結(jié)果。
[1]中華人民共和國科學(xué)技術(shù)部.科學(xué)數(shù)據(jù)共享概念與術(shù)語_概念_1.2[EB/OL].
(2010-08-14)[2017-04-19].http://www.docin.com/p-149852222.html.
[2]趙華,王健.國內(nèi)外科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)及內(nèi)容分析[J].情報(bào)探索,2015,208(2):21-24.
[3]王健,周國民,王劍,等.認(rèn)知導(dǎo)向信息需求研究綜述[J].圖書情報(bào)工作,2013,57(10):136-141.
[4]PARK T K.The nature of relevance in information retrieval:an empirical study[J].Library Quarterly,1993,63(3):318-351.
[5]COOL C,BELKIN N J,FRIEDER O,et al.Characteristics of text affecting relevance judgments[J].Automotive News,1993,17(4):77-84.
[6]BARRY L C.User-de fi ned relevance criteria:an exploratory study[J].Journal of the American Social for Information Science and Technology,1994,45(3):149-159.
[7]WANG P,SOERGEL D.A cognitive model of document use during a research project.study I.document selection[J].Journal of the American Society for Information Science,1998,49(2):115-133.
[8]MARKKULA M,SORMUNEN E.End-user searching challenges indexing practices in the digital newspaper photo archive[J].Information Retrieval,2000,1(4):259-285.
[9]RIEH S Y.Judgment of information quality and cognitive authority in the web[J].Journal of the Association Society for Information Science and Technology,2002,53(2):145-161.
[10]BALATSOUKAS P, RUTHVEN I.An eye-tracking approach to the analysis of relevance judgments on the web:the case of Google search engine[J].Journal of the American Society for Information Science and Technology,2012,63(9):1728-1746.
[11]KRIPPENDORFF K H.Content analysis:an introduction to its methodology[M].Beverly Hills:CA:Sage,2004.
高飛,女,1988年生,博士研究生,研究方向:信息檢索,E-mail:gaofei20120214@163.com。
石蕾,女,1982年生,碩士,副研究員,研究方向:科技管理。
王健,男,1971年生,博士,研究員,研究方向:信息處理。
張貴蘭,女,1993年生,博士研究生,研究方向:信息檢索。
劉建平,男,1989年生,博士研究生,研究方向:信息檢索。
An Exploratory Research on Scientific Data User Relevance Criteria
GAO Fei1, SHI Lei2, WANG Jian1, ZHANG GuiLan1, LIU JianPing1
(1.Agricultural Information Institute of CAAS, Beijing 100081, China; 2.National Technology Foundation Platform Center, Beijing 100862, China)
The paper aimed at exploring the scienti fi c user relevance criteria by studying the relevance judgment behavior, to deepen the understanding of user relevance judgment mechanism, and to provide algorithm and theoretical basis for designing and developing intelligent data search engine. The study was conducted by two methods, which is think aloud and interview. The data were collected in real environment, and the whole process was recorded by camera. The analysis of verbal reports was based on Grounded Theory. On the basis of qualitative research, a questionnaire was designed to carry out a large sample of questionnaires. The scienti fi c user relevance criteria can be divided into two categories: data ontology and data availability, a total of 9 criteria. Compared with other information types, scienti fi c data retrieval was more purposeful so it was necessary to evaluate the topicality, quality and authority of the data in relevance judgment process. Other criteria would be called only when stimulated by the relevant information needs in speci fi c circumstances.
Information Retrieval; Scienti fi c Data; User Relevance; Criteria
G250
10.3772/j.issn.1673-2286.2017.11.005
* 本研究得到中國農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程項(xiàng)目(編號(hào):CAAS-ASTIP-2016-AII)資助。
2017-09-25)