智能手機搜索引擎的可用性評估

2015-10-13 03:38:30孔寧張常潔

數(shù)字圖書館論壇 2015年10期

關鍵詞：搜狗被試者可用性

孔寧，張常潔

（浙江工業(yè)大學心理學系，杭州 310000）

智能手機搜索引擎的可用性評估

孔寧，張常潔

（浙江工業(yè)大學心理學系，杭州 310000）

研究目的在于評估目前市場上發(fā)展迅速卻又探討相對較少的手機搜索引擎。研究對象分別為神馬、百度、搜狗和必應。首先通過實驗法比較了手機搜索引擎的有效性，進而采用問卷法收集了關于被測搜索引擎的準確度、省時性與總體滿意度三個維度的主觀傾向性信息。實驗結果表明，百度在搜索中表現(xiàn)最好，其它搜索引擎都在某些層面需要優(yōu)化。研究有效區(qū)分了手機搜索引擎的性能，為手機引擎系統(tǒng)的發(fā)展與改進提供了方向。

智能手機；搜索引擎；評估

1　引言

隨著3G網絡與移動互聯(lián)網絡的不斷發(fā)展，手機搜索引擎因其便捷性、及時性以及操作簡易性等特點被越來越多的智能機使用者所使用。CNIT發(fā)布的《2014 年7月中國移動搜索市場研究報告》顯示，截至2014年7月底，移動搜索用戶規(guī)模達4.13億，在中國手機網民中的滲透率為76.8%［1］。從主要移動搜索月活躍用戶在手機網民中的滲透率來看，百度搜索（71.3%）位居首位，其次是神馬（25.1%）和搜狗（23.9%）。以往搜索引擎的研究大多局限于PC端，涉及移動端的較少。中國手機用戶在如何選擇最佳手機搜索引擎時也缺少相關的知識與途徑。基于此，本文在參考國內外相關研究的基礎上提出了一種快速有效的可用性評估方法，評估手機搜索引擎的可用性。

2　相關研究

2.1手機搜索引擎

作為一種智能手機應用（APP），手機搜索引擎被越來越多的用戶所使用。盡管在技術上取得了一系列的創(chuàng)新與進展，但其可用性仍需進一步評估與完善［2］。國內一些研究曾對PC端搜索引擎做過評估，如劉子慧、張鋒深層分析了谷歌和百度在內容有效性與直接性方面的差異［3］，但是，手機與PC平板在界面、系統(tǒng)運行等方面有較大不同，設計一種能夠有效評估手機應用的技術方法仍是非常必要的［4］。尼爾森也在自己的專欄中指出，在移動設備上使用網頁得分很低，因為這個網頁不是為手機設計的［5］。筆者通過對手機搜索引擎的比較研究發(fā)現(xiàn)，人們最常用的幾款手機搜個引擎（百度、搜狗等）的信息搜索在結構組織、具體內容、結果排列等方面也是存在差異的。

2.2搜索結果的相關性

可用性評估可以將搜索引擎的檢索表現(xiàn)量化分析［6］。盡管搜索系統(tǒng)的評估表現(xiàn)在諸多方面，但最重要的還是搜索結果的相關性［7］；其中，搜索結果的排列起主要作用，然而這方面卻很少有研究者關注。Vaughan指出，如果不能很好地將結果排列，人們幾乎不能從數(shù)以萬計的結果中篩選出有用的項目［8］。因此，搜索引擎原有結果排列與用戶項目排列的相關性越高，說明搜索系統(tǒng)越有效。以往研究中，相關性的主要測量方法是二元相關與等級相關。二元相關指在判斷一個項目是否相關時，只有是/否兩種選擇；等級相關表示在判斷一個項目時，可按等級來評價相關程度，如分為非常相關、相關、部分相關與不相關四個等級。二元相關常用于評估具有明確性或者唯一性的項目［9］。等級相關應用更為廣泛，Tang發(fā)現(xiàn)在評估項目時，七級的等級評定具有最高的可信度［10］。李玨伶設計并應用5分等級進行等級評定，實驗結果證明5分等級評定要好于4分等級［11］。本研究不是對單個項目進行獨立評定，而是通過對搜索結果進行連續(xù)的等級評定，即將搜索結果項目按照相關性從高到低排列，進而將用戶給出的等級評定與原有搜索結果的排列進行進一步的數(shù)據(jù)分析。

2.3可用性評估的理論模型

可用性指特定產品在特定使用背景下用于特定目的時所具有的有效性、效率和用戶主觀滿意度［12］。如果一個產品的可用性不好，那么它會導致產品出現(xiàn)一系列不同程度的問題［13］?？捎眯栽u估模型不僅指出可用性包含的要素，更重要的是它闡釋了這些因素之間的作用關系，從而針對這些要素進行評估。在實際操作中，研究者須結合具體實驗的評估目標、研究對象、實驗條件等因素選擇具有針對性的評估方法及操作流程。

（1）EASON模型。1984年Kenneth Eason在信息技術領域首次提出此模型［14］，主要包括任務、用戶和系統(tǒng)三個因素。任務包括頻率和開放性兩個子屬性，用戶有知識、動機和自由決定三個子屬性，系統(tǒng)包括易學性、易用性和任務匹配。該模型把用戶、系統(tǒng)和任務看作自變量作為一種輸入，用戶的反應則是因變量。這種模型是因果式的，認為可用性是幾個相互作用變量的結果。

（2）Shackel模型。該模型包括4個因素，有效性、易學性、靈活性和態(tài)度［15］。這些屬性根據(jù)實際情況具有不同的權重，強調對人的行為和態(tài)度等一些人為因素的測量。在改進版的模型中包括有效性、易學性和態(tài)度而不包含靈活性，因為出于測評真正有效的角度，Shackel認為很難確定和測量系統(tǒng)的靈活性。親和性與用戶感知、情感有著顯著的相關性，因此也被認為是可用性重要的構成要素。

（3）Nielson模型。該模型主要強調系統(tǒng)的可接受性和可用性［16］。系統(tǒng)的設置應該是人們樂于接受的，也就意味著它能夠真正符合人們的需求可用性包括5個主要因素，即易學性、效率、可記憶性、出錯率和滿意度。與Shackel模型相同，Nielson也沒有給出各因素固定的權重，這些權重應根據(jù)不同的項目而各有差異。

3　研究方法

3.1被試者的選擇

本研究采用網絡完全隨機招募的方式進行被試者選取并進一步篩選。實驗共選定24名被試者，男女各半，年齡為19～23歲，平均年齡20歲，均為大學本科在校學生。所有被試者目前所使用手機均為iphone4/ iphone4s，使用時間都在半年以上，且均有操作手機搜索引擎的經驗。

3.2實驗條件

測試所用手機為iphone4/iphone4s。其他設備和工具包括聯(lián)想電腦（Win7系統(tǒng)，帶有E-PRIME系統(tǒng)）以及手機固定架。

3.3實驗材料與任務

實驗材料包括自編的手機使用滿意度調查問卷和測試相關材料。實驗測試任務包括兩類：

第一類任務：按照電腦顯示任務說明找到相關網頁，對搜索到的項目按照相關程度從高到低進行等級排列。實驗選用的query主要來源于Heting Chu 的研究［17］。采用這些query的原因是它們復雜程度不同，并且經過美國長島大學圖書館員大量真實案例提煉，本文亦是對該研究［17］的拓展與延續(xù)。這些搜索項目包括三種類型，即詞語搜索、句子搜索與通過布爾搜索詞“和”將詞語連結組成的搜索。其中，考慮到實驗涉及的具體情況，筆者對其中的句子搜索做了相應修改。具體的搜索項如下：

①社會志愿者（詞語搜索）

②抄襲（詞語搜索）

③記憶和神經生物學（布爾詞語搜索）

④作家海子的心理分析（句子搜索）

第二類任務：以問卷形式從三個維度考察手機搜索引擎可用性，分別是準確性、省時性以及總體滿意度。問卷采用李克特7分量表，例如，在省時性維度上，1代表極小程度的節(jié)省，7代表被試者認為該搜索引擎能夠幫助自己節(jié)省了大量的時間去完成搜索任務。

3.4實驗設計

實驗的自變量為手機搜索引擎類型，包括神馬、百度、搜狗和必應四種。

任務類型一的因變量是相關性等級排列，任務類型二的因變量為主觀評定分數(shù)。

為排除被試間效應，實驗采用被試內設計，24名被試者隨機分為4組，每名被試者要完成4種搜索引擎的所有任務操作，共16個任務。拉丁方法被用來消除實驗之間的順序效應。

3.5實驗流程

實驗開始首先由主試者向被試者詳細介紹實驗指導語，然后是手機搜索引擎熟悉的過程，大約10分鐘左右，進入練習階段。練習結束后，被試者完成基本信息的填寫，正式進入實驗。

被試者按照電腦顯示的任務流程進行操作，要求每名被試者按照自己的判斷標準獨立完成每個搜索任務的排列（例如，“快樂”這個搜索詞，輸入后點擊搜索，被試者要對這一頁的前十個搜索項完成相關性從高到低排列），并且記錄下自己的判別標準。然后小組成員對自己的等級評定和判定標準進行討論。這種小組討論的目的是為了提高排列質量，在以往的研究中這種團體共識的方法被證明是有效的［18］。被試者可以基于小組的討論改變他們的排序，個人的排序結果會聚合到小組的平均水平，這一過程將減少因個別差異所造成的影響。

最后，所有搜索任務完成后，以問卷的形式獲得被試者對每組搜索引擎的準確性、省時性和總體滿意度水平。

4　實驗結果及分析

4.1搜索結果的等級排序

通過使用斯皮爾曼等級相關的方法，我們得出搜索引擎的等級排列與用戶等級排列間的的相關程度。相關度越高，則搜索引擎的結果排列越優(yōu)秀。具體內容參見表1。百度在四個搜索中均達到顯著性水平，都在0.7以上。神馬在布爾搜索中得到0.754的高顯著性，其余搜索則不顯著。搜狗和必應都在布爾搜索和句子搜索中達到高顯著性，詞語搜索并不顯著。

表1　手機搜索引擎排序與用戶等級排序的相關度

4.2召回率

召回率是指搜索到的相關項目與搜索到的所有項目的百分比［19］。召回率一直以來被認為是評價搜索引擎功能指標之一。本文計算的是前50%搜索結果的召回率，具體內容見表2。

表2　召回率（搜索結果的前50%）

百度在四個query搜索中均達到80%的召回率。所有搜索引擎在布爾搜索中召回率都較好，皆在80%以上。神馬與搜狗在前兩個搜索詞中表現(xiàn)是60%以上，必應是50%左右。

4.3用戶主觀滿意度

被試者使用四款搜索引擎的滿意度評價結果如表3所示，在測試的三個可用性維度上，都達到了顯著性水平。在準確性維度上，F(xiàn)（3，92）=7.431，P=0.02。對于省時性，F(xiàn)（3，92）=4.191，P=0.019。最后，用戶總體滿意度也達到顯著性，F(xiàn)（3，92）=4.85，P=0.01。這表明，被試者對四款引擎的主觀評價是存在明顯差異的。

表3　手機搜索引擎主觀滿意度

4.4結果分析

由表1我們可以看出，百度表現(xiàn)出了最佳的排列。在四個query搜索中都表現(xiàn)出了顯著相關，搜狗與必應在布爾搜索與句子搜索中都表現(xiàn)出了顯著相關，但詞語搜索的排列結果顯示它們并沒有很好地與人們的搜索習慣保持一致。相比較而言，在詞語搜索方面，搜狗要好于必應。在小組討論中，測試用戶反應他們在應用必應搜索詞語時，很難找到與搜索詞有效且直接相關的信息。例如，在搜索“社會志愿者”時，搜索結果大都局限于地方性的志愿者招募信息，并且這些信息很多已經不具有時效性。

盡管神馬搜索是目前市場上應用排名第二的手機搜索引擎，但在四個query中只有布爾搜索達到了顯著相關，同其他搜索引擎相比，在句子測試中表現(xiàn)出較低的相關。我們對神馬引擎搜索結果進行了分析，發(fā)現(xiàn)在句子搜索結果中，只有第十個選項與“心理分析”有關，前九個選項都只顯示了與海子有關的信息。沒能充分的分析句子中的主要成分或許是造成其在句子搜索中表現(xiàn)不理想的重要原因之一。需要說明的是，本文所用測評句子只有一例，可能會因為句子特殊性而造成誤差，需要在今后研究中進一步討論。

被試者主觀滿意度的實驗結果中，在有效性、省時程度（效率）和主觀滿意度層面體驗最佳的分別是百度（M=5.166）、神馬（M=5.375）、百度（M=5.333）。筆者進一步對這四款手機搜索引擎做兩兩比較，發(fā)現(xiàn)在這三個維度上，神馬、百度以及搜狗間的差異性皆不顯著，這可能說明被試者對三款引擎滿意度上沒有絕對的判定結論，而只是在不同維度上有相應的滿意傾向性。對于必應，則提示可能需要開發(fā)者做出更多的改進，以滿足人們的使用需求。

5　結語

本文采用實驗法與問卷法分別評估了手機搜索引擎的有效性及主觀傾向性。實驗提供的針對排列結果的等級相關使研究者能在短時間內判斷一個搜索引擎的有效性，相對于以往研究針對單個項目的評價具有更高的效率。另外，這種技術提供給用戶更多的可比較的信息及線索，用戶通過結果比較所提出的意見可以提供給研究者更多的用戶評價標準或操作習慣等信息，而這些內容對于豐富開發(fā)者對產品可用性的認識及進一步優(yōu)化產品是非常重要的。當然，這種技術也有其不足之處，等級排列相對于單個結果的評價施加給人們更多的認知負荷，進而產生疲勞影響到結果排列的質量。合理安排實驗程序、適當?shù)卦黾有菹⒛軌蛴行p少認知負荷所帶來的影響。結合問卷法，研究者可以高效地收集手機搜索引擎可用性綜合信息，做出較全面的評估。結合所有研究結果，本研究得到以下結論：

（1）從被試者等級排列結果來看，百度搜索引擎的表現(xiàn)最好，搜狗在四個搜索中有三個是顯著相關，可以認為是令人滿意的。神馬在本研究中句子搜索中表現(xiàn)較差，但需要更多的測試與研究來驗證。必應雖然在布爾搜索與句子搜索中有較好的表現(xiàn)，但被試反應其詞語搜索結果令人失望。

（2）從主觀滿意度角度來看，被試者對神馬、百度和搜狗的評價沒有明顯的差異，必應評價較低，在準確度以及滿意度等方面還有待提高。

［1］中國IT研究中心. 2014年7月中國移動搜索市場研究報告［EB/ OL］.［2015-09-08］. http://www.cnit-research.com/content/201408/612. html.

［2］ Nah F F-H， Siau K， Sheng H. The Value of Mobile Applications: a Utility Company Study ［J］. Communications of the ACM， 2005， 48（2）: 85-90.

［3］劉子慧，張鋒，陳碩. 基于用戶體驗的谷歌和百度搜索有效性比較研究［J］. 浙江大學學報（理學版）， 2010， 37（5）: 605-610.

［4］ Barnard L， Yi J S， Jacko J A， et al. An Empirical Comparison of Usein-motion Evaluation Scenarios for Mobile Computing Devices ［J］. International Journal of Human-Computer Studies， 2005， 62（4）: 487-520.

［5］ Nielsen J. Mobile Usability. Jakob Nielsen’s Alert Box ［M］. 2009.

［6］ Croft W B， Metzler D， Strohman T. Search Engines: Information Retrieval in Practice ［M］. Addison-Wesley Reading， 2010.

［7］ Kent A， Berry M M， Luehrs F U， et al. Machine Literature Searching VIII. Operational Criteria for Designing Information Retrieval Systems ［J］. American documentation， 1955， 6（2）: 93-101.

［8］ Vaughan L. New Measurements for Search Engine Evaluation Proposed and Tested ［J］. Information Processing & Management，2004， 40（4）: 677-691.

［9］ Kantor P B， Voorhees E M. The TREC-5 Confusion Track: Comparing Retrieval Methods for Scanned Text ［J］. Information Retrieval， 2000， 2（2-3）: 165-176.

［10］ Tang R， Shaw Jr W M， Vevea J L. Towards the Identification of the Optimal Number of Relevance Categories ［J］. Journal of the Association for Information Science and Technology， 1999， 50（3）: 254.

［11］李玨伶. 搜索引擎網頁相關性評估方法設計及其在 rank 模型上的應用［D］. 北京:北京交通大學， 2011.

［12］ Standardization I O f. ISO 9241-11: Ergonomic Requirements for Office Work with Visual Display Terminals（VDTs）: Part 11: Guidance on Usability ［M］. 1998.

［13］ Jordan P W. An Introduction to Usability ［M］. CRC Press， 1998.

［14］ Madan A， Dubey S K. Usability Evaluation Methods: a Literature Review ［J］. International Journal of Engineering Science and Technology， 2012， 4（2）:590-599.

［15］ Dubey S K， Rana A. Analytical Roadmap to Usability Definitions and Decompositions ［J］. International Journal of Engineering Science and Technology， 2010， 2（9）: 4723-4729.

［16］ Nielsen J. Usability Engineering ［M］. Elsevier， 1994.

［17］ Chu H， Rosenthal M. Search Engines for the World Wide Web: A Comparative Study and Evaluation Methodology ［C］.Proceedings of the PROCEEDINGS OF THE ANNUAL MEETING-AMERICAN SOCIETY FOR INFORMATION SCIENCE， 1996.

［18］ Zhang X M. Collaborative Relevance Judgment: A Group Consensus Method for Evaluating User Search Performance ［J］. Journal of the American Society for Information Science and Technology， 2002，53（3）: 220-231.

［19］ Kumar R， Suri P， Chauhan R. Search Engines Evaluation ［J］. DESIDOC Journal of Library & Information Technology， 2003，25（2）.

張常潔，女，1965年生，碩士，浙江工業(yè)大學副教授，研究方向：應用心理學。

Usability Evaluation of Search Engines for Smart Phone

KONG Ning ， ZHANG ChangJie
（Zhejiang University of Technology，Hangzhou 310000，China）

The purpose of this study is to assess the smart phone search engines， which are rapidly developed but little researched. The subjects are God horse， Baidu，Sogou and Bing. First， we compared the effectiveness of the search engine by experiment. Then， the accuracy of the search engines， saving time and overall satisfaction were collected through questionnaire. Experimental results show that Baidu shows the best performance， while other search engines require some optimization in different aspects. The results effectively distinguish the performance of search engines， which also provides a direction for improvement and development.

Smart Phone；Search Engine；Evaluation

TB18

10.3772/j.issn.1673-2286.2015.10.012

孔寧，男，1988年生，碩士，研究方向：應用心理學、信息檢索，E-mail：kongning52678@126.com。

2015-09-09；編輯：雷雪）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

智能手機搜索引擎的可用性評估

1 引言

2 相關研究

3 研究方法

4 實驗結果及分析

5 結語

1　引言

2　相關研究

3　研究方法

4　實驗結果及分析

5　結語