劉明珠 楊建林
摘 要:文章通過對已有研究成果的分析總結(jié),結(jié)合專家建議,將用戶進行微博搜索時的信息需求歸納為七類:新聞信息、實時信息、明星公眾人物信息、社交人際關(guān)系信息、公眾輿論信息、機構(gòu)公司信息、知識性信息,并基于這七類信息需求設(shè)計調(diào)查問卷,考察了微博搜索對用戶信息需求的滿足能力,同時與網(wǎng)頁搜索進行對比研究,分析了兩種搜索方式在滿足用戶不同信息需求方面的能力差異,以及產(chǎn)生差異的原因。
關(guān)鍵詞:微博搜索;網(wǎng)頁搜索;信息需求;問卷調(diào)查
中圖分類號: G254.97 文獻標識碼: A DOI:10.11968/tsyqb.1003-6938.2016104
Abstract Based on the study of existing research results and expert suggestions, the information needs of users when searching in micro-blog are divided into 7 categories: news information, real time information, celebrity information, people information, public opinion, organization information and informative information. According to these categories, a questionnaire is designed to examine the ability of micro-blog search and web search in meeting users' information need. A comparative study is conducted to show the differences of two search engines' ability and the reasons behind the differences.
Key words micro-blog search;web search;information need;questionnaire survey
1 引言
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)應(yīng)用模式已經(jīng)由傳統(tǒng)的“人-機”交互模式變?yōu)椤吧鐣苯换ツJ絒1]。在用戶生成海量內(nèi)容的Web2.0時代,如何對信息資源進行再組織,使得用戶快速高效地搜索到所需信息或知識,已經(jīng)成為業(yè)界學(xué)界廣泛關(guān)注的話題和研究領(lǐng)域。
傳統(tǒng)的網(wǎng)頁搜索引擎利用爬蟲軟件采集資源,而爬蟲軟件抓取信息的滯后性會影響搜索結(jié)果的質(zhì)量,此外,許多用戶不再滿足于舊式的“人-機”搜索體驗,他們更期望利用在線社會網(wǎng)絡(luò)(Online Social Networks,OSN)進行溝通協(xié)作來獲得質(zhì)量更高的智能化搜索結(jié)果[2]。于是,“社會化搜索”的理念應(yīng)運而生。
Teevan J等[3]認為傳統(tǒng)搜索引擎建立了信息與信息之間的關(guān)系,在線社會網(wǎng)絡(luò)建立了人與人之間的關(guān)系,而社會化搜索則將信息與人關(guān)聯(lián)起來,重建了一種人與信息之間的映射。當前,實現(xiàn)社會化搜索的平臺與工具可以分為四類:一是專業(yè)的社會化搜索引擎,如谷歌的Social Searcher;二是在線問答社區(qū),如知乎、百度知道;三是社會化標注系統(tǒng),如CiteULike;第四類則是社會化媒體,包括Facebook、Twitter、人人網(wǎng)以及本文討論的新浪微博等。
微博因其開放、簡潔、易操作的特點吸引了眾多用戶,而用戶在發(fā)布、傳播信息的同時使得微博又成為一個重要的信息平臺。Jansen B J等[4]研究表明,人們不僅利用微博分享信息,還利用微博搜索所需信息。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《2014年中國網(wǎng)民搜索行為研究報告》顯示,截至2014年6月,中國互聯(lián)網(wǎng)用戶在微博上進行搜索的比例達到57.1%。作為社會化搜索的重要實現(xiàn)方式,微博搜索也引起了學(xué)界的關(guān)注與研究。當前學(xué)界對微博搜索的研究多著眼于微博短文本的特征,通過改善、革新算法、檢索策略等方式提高檢索結(jié)果的質(zhì)量,很少有研究從用戶的視角對當前各類微博平臺的搜索功能進行探索與評價。
本文通過對已有研究成果的分析總結(jié),結(jié)合專家建議,將用戶進行微博搜索時的信息需求歸納為七類:新聞信息、實時信息、明星公眾人物信息、社交人際關(guān)系信息、公眾輿論信息、機構(gòu)公司信息、知識性信息,并基于這七類信息需求設(shè)計調(diào)查問卷,考察微博搜索對用戶信息需求的滿足能力,同時與網(wǎng)頁搜索進行對比研究,分析兩種搜索方式在滿足用戶不同信息需求方面的能力差異,并探究產(chǎn)生差異的原因。希望研究結(jié)果對改進現(xiàn)有微博搜索系統(tǒng)的工作有參考價值。
2 相關(guān)研究
微博自出現(xiàn)就吸引了眾多學(xué)者的研究興趣,早期的微博研究多集中于微博的文本特征、微博用戶及其行為、微博傳播模式等方面[5]。如曹鵬等[6]認為Twitter允許用戶以多種格式自由轉(zhuǎn)發(fā)消息,使得系統(tǒng)中存在大量重復(fù)或近似消息,他們提出通過統(tǒng)計字符種類和最短編輯距離兩種字符串距離計算方法來判定Twitter中近似或重復(fù)的消息。J Weng等[7]在分析Twitter用戶之間的關(guān)注(follow)與被關(guān)注關(guān)系后,提出了一種基于PageRank的擴展算法Twitter Rank,用以衡量微博用戶的影響力。B Suh等[8]在大規(guī)模數(shù)據(jù)分析基礎(chǔ)之上,總結(jié)影響微博轉(zhuǎn)發(fā)率的因素,并據(jù)此建立了一個預(yù)測微博轉(zhuǎn)發(fā)模型。
微博在不同情景下的應(yīng)用與影響一直是一個研究熱點。如Hawn C[9]探究了包括微博在內(nèi)的一系列社會化媒體為現(xiàn)代醫(yī)療行業(yè)帶來的變革;吳敏[10]通過實例分析研究了媒體微博營銷的現(xiàn)狀,通過分析微博的傳播特性指出微博用于商業(yè)營銷的可能性以及優(yōu)勢,并結(jié)合媒體特點提出對未來微博營銷的設(shè)想和建議,等等。
近年來,隨著微博信息量的快速增長,用戶從微博中獲取信息的需求逐漸增多,微博檢索也得到了越來越多的關(guān)注與研究。當前,國內(nèi)外學(xué)界對微博搜索的研究多從搜索服務(wù)提供方的角度出發(fā),通過改進各類搜索引擎的檢索策略與算法,來提高檢索結(jié)果的質(zhì)量。
微博檢索與傳統(tǒng)文本檢索之間的差異使得傳統(tǒng)的網(wǎng)頁檢索技術(shù)不能滿足微博搜索的需求:一是微博文檔相較于網(wǎng)頁具有很多獨有特征,如文本短?。ú怀^140個字符)、含有大量縮寫、表情符號之類的不規(guī)范用語以及有特殊含義的標簽“@”、“#”等;二是在對微博搜索結(jié)果進行排序展示時,除了要考慮文本的語義相似度外,還需要考慮時間遠近、微博發(fā)布者的影響力等因素[11]。圍繞以上問題,學(xué)者們做了大量相關(guān)研究。如李銳等[12]認為:每條微博都有發(fā)布者,發(fā)布者都有或多或少的個人信息,如果將作者的信息融入檢索模型,作為對微博短文本的補充,可以提高檢索效果,他們在TREC公開數(shù)據(jù)集上進行了實驗,驗證了新模型的合理性; Massoudi 等[13]在微博檢索過程中考慮了多種能刻畫微博質(zhì)量的因子,如是否包含表情符號、用戶的粉絲數(shù)、微博長度、轉(zhuǎn)發(fā)數(shù)等,通過對這些因素經(jīng)驗性的線性加權(quán)來提高檢索結(jié)果的質(zhì)量;除了對檢索策略的改進外,還有學(xué)者研究可視化在微博搜索結(jié)果中的應(yīng)用,如周霞娟等[14]用關(guān)注度傳遞算法對搜索進行擴展,將返回的特征詞對微博用戶進行可視化展示,并提供用戶可查看的,與選定特征詞或用戶相關(guān)的微博,方便用戶高效地定位感興趣的微博信息。
有少量學(xué)者也從用戶角度出發(fā),對微博的搜索功能進行研究。如Golovchinsky G等[15]在分析Twitter現(xiàn)有搜索功能的不足后,通過問卷調(diào)查的方式研究Twitter用戶進行微博搜索的原因,并提出了一種新的、改進的twitter搜索結(jié)果展示方法;Teevan J等[3]先以小部分人群為樣本,通過訪談?wù){(diào)查等形式總結(jié)用戶為何使用微博搜索功能,又通過對大規(guī)模 Web 搜索日志和 Twitter 搜索日志進行對比研究分析,驗證上述動機,發(fā)現(xiàn)人們在微博檢索中更加趨向于搜索實時性的內(nèi)容 ,而且在Twitter中的檢索表達式平均長度短于網(wǎng)頁檢索; Elsweiler D等[16]結(jié)合日記研究和網(wǎng)上問卷調(diào)查兩種方式,調(diào)查了用戶進行微博搜索的動機以了解他們的信息需求,相關(guān)結(jié)論有助于設(shè)計出更好的微博搜索系統(tǒng)。這些學(xué)者關(guān)于用戶使用微博搜索原因的研究是本文對微博搜索中的用戶信息需求進行分類的基礎(chǔ)。
3 研究方法
3.1 問卷設(shè)計
3.1.1 信息需求種類的確定
調(diào)查微博搜索對用戶信息需求的滿足能力,首先要確定用戶想借助微博搜索滿足哪些方面的信息需求,更簡明的說法就是用戶利用微博搜索哪些方面的信息。
通過文獻調(diào)研可以發(fā)現(xiàn),已經(jīng)有多名學(xué)者對“用戶利用微博搜索尋找什么?”這一問題進行了研究,如Gene Golovchinsky和Miles Efron[15]探討了用戶進行微博搜索的原因,他們通過發(fā)放網(wǎng)絡(luò)問卷的方法獲得了23名Twitter用戶關(guān)于搜索頻率、信息需求類型的反饋。結(jié)果顯示,最為常見的四類信息需求是事件、找人、流行話題、文檔信息;Jaime Teevand等對微軟公司的54名Twitter用戶進行問卷調(diào)查,讓被調(diào)查者用文字描繪自己使用Twitter搜索什么類型的信息。在得到調(diào)查結(jié)果后,用扎根理論總結(jié)出Twitter搜索的信息需求類型,并請4位Twitter活躍用戶對結(jié)果進行了改進完善,最后共總結(jié)出三大類信息需求。第一類是即時信息,其中又包括新聞事件信息與實時信息兩小類,其中實時信息指的是如路況、天氣、網(wǎng)絡(luò)狀況等信息;第二大類是社會信息,社會信息又分為幾小類,第一小類是關(guān)于“人”的信息,如公眾人物、用戶自身、用戶相識的人、陌生人等;第二小類社會信息是社會群體對某一特定事物的整體意見,可概括為公眾意見及輿論;第三大類信息需求是話題信息,指的是Twitter中有標簽標注的特定討論話題。David Elsweiler和Morgan Harvey[16]探討了用戶進行微博搜索的原因,其中對用戶的信息需求類型有簡單提及,如尋找公眾意見等,但更多側(cè)重于用戶的動機,如反復(fù)搜索以跟進事件信息、尋找之前瀏覽過的微博等。由于對本文關(guān)于信息需求類型的界定幫助不大,在此不再贅述。
通過對比參照可以發(fā)現(xiàn),上述三個研究關(guān)于“微博搜索滿足用戶哪些方面的信息需求”的研究結(jié)果有很多共同之處,同時也存在一些差異。通過對三篇文獻研究結(jié)果的整合、改進,并結(jié)合3位專家的建議,本文決定從新聞、實時信息、明星公眾人物、社交人際關(guān)系、公眾輿論、機構(gòu)公司、知識性信息七個方面設(shè)計問卷問題,以考察微博搜索滿足用戶信息需求的能力。
3.1.2 具體問題設(shè)置
由于問卷問題多、耗時長,且被訪者要具有相當?shù)木W(wǎng)絡(luò)檢索能力,所以可以獲得的樣本數(shù)量比較少,約100人。為了避免因為樣本數(shù)量少產(chǎn)生偶然性偏差以致得出不正確的結(jié)論,本文以七個方面的信息需求為基礎(chǔ),設(shè)計相似但不相同的兩份問卷(問卷A、B),將被訪者分為兩組,一組作答A卷,另一組作答B(yǎng)卷,方便在結(jié)果分析階段進行對照。
傳統(tǒng)的網(wǎng)絡(luò)搜索引擎(如百度搜索)與新興的微博搜索有著密切的關(guān)系,為了對這二者進行對比研究,每份問卷的11道大題下又分為A、B兩小題(見表1)。同一道大題的兩小題題干相同,不同之處在于題A要求用新浪微博搜索完成,題B要求用百度搜索完成。
3.1.3 問項設(shè)置
在每一道小題之后,都會請參與調(diào)查者記錄下完成該題的搜索次數(shù)、所用時間、使用的搜索功能,同時請用戶對自己完成任務(wù)的程度、以及任務(wù)難度進行評估(時間單位為分鐘);微博搜索功能提供“1.綜合 2.找人 3.圖片 4.興趣主頁”四個選項,百度的搜索功能提供“1.網(wǎng)頁 2.新聞 3.視頻 4.地圖 5.貼吧 6.其他”六個選項;完成程度提供“1.無從下手 2.基本解決 3.完全解決”三個選項;任務(wù)難度提供“1.很容易 2.容易 3.一般 4.困難 5.很困難”五個選項。
此外,每道大題之后,被訪者已經(jīng)分別用微博搜索、百度搜索完成了同樣任務(wù),會請他們選擇更傾向用新浪微博還是百度搜索完成這種類型的題,以做后續(xù)分析。
除了上述必填問項外,每道小題后還提供填寫檢索結(jié)果頁面網(wǎng)址的空格以及檢索表達式的空格,但不是必填項(以問卷A的第四大題為例,問題及必填問項設(shè)置見表2,問卷A、B完整內(nèi)容見附錄)。
3.2 樣本選擇及問卷發(fā)放
本文通過參與調(diào)查者完成任務(wù)的程度來衡量微博對用戶信息需求的滿足能力,而參與調(diào)查者的信息檢索能力會影響任務(wù)的完成程度。本次問卷調(diào)查選取重點高校信息管理專業(yè)的本科生參與調(diào)查,因為相較于其他群體,他們具有較高的信息檢索能力,并且能力差別不大。
由于問卷需要邊進行網(wǎng)絡(luò)檢索邊填寫,故采取了網(wǎng)絡(luò)問卷調(diào)查方式。為了使被參與調(diào)查者能夠充分利用微博、百度的搜索功能完成檢索任務(wù),在填寫問卷之前,對被參與調(diào)查者進行了簡單但是必要的
檢索功能說明。
4 調(diào)查結(jié)果及分析
4.1 調(diào)查結(jié)果
本次調(diào)查共回收98份合格問卷,其中A問卷48份,B問卷50份(進行數(shù)據(jù)處理、分析后的部分結(jié)果見表3、表4)。
4.2 結(jié)果分析
對表3中的數(shù)據(jù)進行分析,可以發(fā)現(xiàn):參與調(diào)查者在用微博搜索完成11項任務(wù)后,對于每項任務(wù)的完成程度的評估均值均大于2(從1到3分別為無從下手、基本完成、完全解決),其中問卷A中11項任務(wù)的完成程度均值為2.4,問卷B則為2.6;而在網(wǎng)頁搜索方面,雖然有個別任務(wù)完成程度高于微博搜索,但與此同時,也存在完成度低于2,即不能基本滿足此類信息需求的任務(wù),如問卷A中的第6題,問卷6中的第5題,這兩項任務(wù)目標都是搜尋關(guān)于社交人際關(guān)系方面信息。由此可以得到如下兩個結(jié)論:
結(jié)論1:微博搜索可以基本滿足用戶對于新聞、實時信息、公眾人物、社交人際關(guān)系、公眾輿論、機構(gòu)公司以及知識性信息這七個方面的信息需求;
結(jié)論2:在微博搜索可以滿足的信息需求類型中,百度搜索可以滿足其中部分需求,但在如社交人際關(guān)系類信息方面,微博搜索有網(wǎng)頁搜索不可替代的優(yōu)勢。
為了更直觀地分析微博搜索與網(wǎng)頁搜索在滿足7類信息需求方面的能力,對同種搜索方式在滿足不同類型信息需求方面的表現(xiàn)進行比較,根據(jù)表3中的數(shù)據(jù),對考察同一類信息需求的任務(wù)數(shù)據(jù)進行計算匯總(見表5),以分別找出微博搜索、百度搜索中完成難度最高、最低及完成程度最高、最低的信息需求類型,并在表中加粗顯示。
可以發(fā)現(xiàn),無論是微博搜索還是百度搜索,難度最低且完成程度最高的,都是對機構(gòu)公司信息進行搜尋的任務(wù)。結(jié)合具體題目設(shè)置,以及對部分參與調(diào)查者的詢問,筆者發(fā)現(xiàn):問卷A及問卷B中通過尋找公司機構(gòu)的官微、官網(wǎng)來考察兩種搜索方式滿足用戶對公司機構(gòu)信息需求的能力,而無論是搜索官微還是官網(wǎng),對于參與調(diào)查者來說步驟操作都十分簡單:用微博搜索時只需要在找人功能中輸入所要尋找的機構(gòu)名稱,如果該機構(gòu)建立了官方微博賬戶,就可以輕松找到;同樣,用百度搜索尋找機構(gòu)官網(wǎng)時,也只需要在搜索框中輸入該機構(gòu)的名稱,如果機構(gòu)設(shè)有官方網(wǎng)站,就會在搜索結(jié)果中相對靠前的位置出現(xiàn),并且會標有“官網(wǎng)”字樣。并且,尋找?guī)ぬ柕娜蝿?wù)只要搜索到結(jié)果,便可以評測為“完全解決”,所以,完成程度較其他需要考慮檢索結(jié)果質(zhì)量高低的任務(wù)更高。
在微博搜索中,完成難度最高的是新聞信息的搜尋,結(jié)合具體題目設(shè)置、對部分參與調(diào)查者的詢問及微博搜索的特點,筆者認為原因在于問卷A、B中對搜索的新聞信息附加了時間限制,一個要求最新發(fā)生,一個要求最早發(fā)布,因而參與調(diào)查者要在大量搜索結(jié)果中再進行篩選,加大了任務(wù)難度。并且,微博搜索在進行檢索結(jié)果展示時,通常將最新發(fā)布的微博顯示在前面,這給搜尋發(fā)布時間較早但更有價值的微博增加了難度。
在微博搜索中,完成程度最低的是對明星、公眾人物信息的搜索,結(jié)合題目設(shè)置及微博信息的特點進行分析,得出的結(jié)論是問卷A、B要求參與調(diào)查者對明星一段時間內(nèi)的活動信息進行搜集,而微博信息具有文本短、信息零碎片段化等特點,參與調(diào)查者需要搜集多條微博并進行整合才能完成任務(wù),因而任務(wù)完成度較低。
在百度搜索中,任務(wù)難度最大且完成度最低的是對社交、人際關(guān)系類信息的搜索,原因在于社交、人際關(guān)系類涉及個人隱私的信息多集中在如微博、人人網(wǎng)一類的社交平臺上,很少有人在公開網(wǎng)頁上發(fā)布。
4.2.1 新聞信息
在問卷A與問卷B中,分別設(shè)置了第一、第二兩道題來考察微博搜索滿足用戶新聞信息需求的能力。兩份問卷中第一道題是相同的,都要求參與調(diào)查者分別利用微博和百度搜索三個最新發(fā)生的新聞事件,并盡量精確地填寫新聞事件的發(fā)生時間。問卷A的第二道題要求參與調(diào)查者尋找最早報道巴黎恐怖事件的博文和網(wǎng)頁,問卷B則將“巴黎恐怖襲擊”換為“俄羅斯戰(zhàn)機墜毀”,其它要求相同。
一個被較為廣泛認同的說法是:微博信息較傳統(tǒng)網(wǎng)頁更有時效性,因此,筆者做出猜測:在滿足用戶新聞信息需求方面,微博更具有優(yōu)勢。為了驗證這一猜想,筆者對表3中關(guān)于第一、第二兩道題的數(shù)據(jù)進行分析。
第一題的統(tǒng)計結(jié)果顯示,無論是問卷A、問卷B,參與調(diào)查者都認為使用百度搜索的完成度更高(問卷A: 微博2.5,百度2.6;問卷B:微博2.6與百度2.8),并且用百度搜索完成該任務(wù)時搜索次數(shù)、用時更少,難度也更低。表4中的數(shù)據(jù)也顯示,參與調(diào)查者更愿意用百度搜索完成此類任務(wù),這些結(jié)果恰恰與上文提出的猜測相悖。
為了進一步印證猜測是不合理的,筆者又分別計算了使用微博搜索到的新聞事件與使用百度搜索尋找的新聞事件距2015年12月02日0點的相隔時間(所有問卷在此之前已回收完畢)。結(jié)果顯示,問卷A中使用微博搜索的新聞事件的時間差是36.2小時,百度搜索則為34小時;問卷B中這兩項結(jié)果分別為42小時與33小時。也就是說,通過百度搜索的新聞事件更“新”,這也與之前幾項調(diào)查數(shù)據(jù)相吻合。
為了探索現(xiàn)象出現(xiàn)的原因,筆者對“所用功能”問項的結(jié)果進行分析,發(fā)現(xiàn)參與調(diào)查者在用微博搜索完成任務(wù)時,絕大部分都使用綜合搜索功能,而用百度搜索則使用專門的新聞搜索功能。
第一題只對新聞事件的發(fā)生時間進行限制(要求盡量新),第二題則給出特定的新聞事件,讓兩組參與調(diào)查者分別完成。統(tǒng)計結(jié)果顯示,搜尋關(guān)于某個特定新聞事件的最早信息,微博搜索比百度搜索完成程度更高(問卷A: 微博2.2,百度2.1;問卷B:微博2.4,百度2.2),筆者通過訪問被調(diào)查者留下的URL鏈接,也驗證了微博會比網(wǎng)頁更早出現(xiàn)相關(guān)事件信息這一點。
但是,盡管微博搜索的完成度高于百度搜索,參與調(diào)查者利用微博搜索時卻要比用百度搜索嘗試更多的搜索次數(shù),耗費更多的時間。而且表4的數(shù)據(jù)顯示,傾向于使用百度搜索完成類似任務(wù)的人依然占多數(shù),只是所占比例較第一題有所下降。
在兩種搜索方式的功能選擇上,與第一題相似,使用微博搜索多用“綜合”功能,使用百度搜索多用“新聞”功能。
結(jié)論3:微博搜索可以為用戶提供更早、更新的新聞事件信息,但是由于網(wǎng)頁搜索中的新聞搜索功能具有操作簡單、設(shè)計合理等優(yōu)勢,更多的用戶還是愿意用百度搜索新聞。
4.2.2 實時信息
問卷A、問卷B的第三題考察微博搜索滿足用戶實時信息需求的能力。問卷A要求參與調(diào)查者分別用微博搜索和百度搜索了解所在城市的路況信息,問卷B則要求參與調(diào)查者搜索一個沒有去過但感興趣的城市的天氣情況。
表3中的數(shù)據(jù)顯示,百度搜索比微博搜索完成程度更高(問卷A: 微博2.4,百度2.6;問卷B:微博2.7,百度2.8),搜索次數(shù)、花費時間更少,難度更低;而根據(jù)表4中的數(shù)據(jù),也可清晰看到:參與調(diào)查者傾向于使用百度搜索解決這類問題的所占比例更大。
通過訪問參與調(diào)查者在網(wǎng)絡(luò)問卷中記錄下的結(jié)果網(wǎng)頁鏈接,筆者發(fā)現(xiàn):參與調(diào)查者在微博上搜尋路況、天氣信息時,檢索結(jié)果信息來源主要有兩種:一種是諸如“南京路況直播間”之類的官微,他們會定時不定時地發(fā)送包含相關(guān)信息的微博;另一種是位于目標位置的普通微博用戶發(fā)送的微博,一般會附帶地理位置信息。而利用百度搜尋路況、天氣等實時信息時,參與調(diào)查的用戶大多選擇專業(yè)的網(wǎng)站,如“實時路況網(wǎng)”“中國氣象網(wǎng)”等。這正好解釋了為何網(wǎng)頁搜索比微博搜索能更好地完成實時信息的查找。
結(jié)論4:在實時信息搜索方面,諸如路況、天氣這些在生活中有廣泛頻繁需求的信息,由專業(yè)的網(wǎng)站提供信息服務(wù),因而,網(wǎng)頁搜索能更好地滿足用戶信息需求。
4.2.3 明星公眾人物信息
問卷A、問卷B的第四題考察微博搜索滿足用戶對公眾人物信息需求的能力。問卷A要求參與調(diào)查者搜索出TFboys組合2015年11月參加的活動,問卷B則將TFboys組合換成演員胡歌。
表3中的數(shù)據(jù)顯示,百度搜索比微博搜索完成程度更高(問卷A: 微博2.3,百度2.6;問卷B:微博2.3,百度2.5),參與調(diào)查的用戶傾向于用百度搜索解決這類問題所占比例也更大,但是在完成難度方面,微博搜索卻低于百度搜索。
為了解釋這個現(xiàn)象,我們繼續(xù)分析這兩種搜索方式所用的功能,并結(jié)合參與調(diào)查者記錄的結(jié)果頁面網(wǎng)址進行分析發(fā)現(xiàn):在微博上進行搜索時,絕大部分參與調(diào)查者使用“找人”功能,通過尋找明顯本人微博或后援會之類的微博來了解明星的活動,這些微博帳號關(guān)于明星活動的信息并不全;而用百度搜索時更多的用戶選擇在“貼吧”中搜索,知名度、人氣較高的明星在個人貼吧中都有粉絲發(fā)表的關(guān)于明星行程的帖子,由于貼吧中人數(shù)、帖數(shù)眾多,相關(guān)信息也更加全面。
結(jié)論5:用戶可以通過找人功能快速找到開通微博帳號的公眾人物及其相關(guān)組織,而這些微博賬戶可以提供關(guān)于該公眾人物的信息;在網(wǎng)頁搜索中,貼吧一類的公眾人物專屬BBS,也可以提供大量的相關(guān)信息;兩項比較,微博中的信息相對比較零散;無論是微博還是貼吧,某位公眾人物相關(guān)信息的多少都因人而異,受知名度、粉絲數(shù)量等因素影響。
4.2.4 社交人際關(guān)系信息
問卷A、問卷B的第五、第六題考察微博搜索滿足用戶對社交人際關(guān)系類信息需求的能力。
問卷A的兩道題要求參與調(diào)查者用兩種檢索方式查找“別人發(fā)表的關(guān)于自己的”信息,以及一個好友的微博帳號和聯(lián)系方式(先前未知);問卷B則要求參與調(diào)查者分別用兩種搜索方式搜尋一個與自己有相同興趣愛好的陌生人的微博帳號或聯(lián)系方式,以及了解一個朋友最近的活動和心情。
從表3的數(shù)據(jù)可以看出,除了問卷A中尋找關(guān)于自身信息的一題外,即問卷A第五題外,其他三項任務(wù),微博搜索的完成度都遠高于百度搜索,并且花費時間、搜索次數(shù)也少于百度搜索,完成難度也較低。
從表4的數(shù)據(jù)來看,同樣除了問卷A中要求尋找關(guān)于自身信息的第五題,其他三題參與調(diào)查者都更傾向于用微博搜索完成同類任務(wù)。
為了解釋問卷A第五題結(jié)果與其它三題結(jié)果不符的現(xiàn)象,筆者訪問參與調(diào)查者記錄下的結(jié)果頁面鏈接,并隨機訪談了幾位參與調(diào)查者,發(fā)現(xiàn):參與調(diào)查者用百度搜索時直接輸入自己的姓名,如果不是特別常見的姓名,有很大機率在第一頁出現(xiàn)關(guān)于自己的信息,如學(xué)校網(wǎng)站發(fā)布的錄取名單、獲獎名單等等;而在微博中輸入自己的姓名卻很難找到,一是因為微博作為一個社交平臺,正式的文件、通知信息很少,而微博好友發(fā)微博提及自己時,很少用全名,一般只@微博昵稱,而即使提及,微博內(nèi)容中也不一定有真正相關(guān)的信息。
結(jié)論6:微博搜索在滿足用戶關(guān)于社交人際關(guān)系信息的需求上,較傳統(tǒng)的網(wǎng)頁搜索有明顯優(yōu)勢,但在某些特定方面,如自身信息等,微博搜索處于劣勢。
4.2.5 公眾輿論信息
問卷A、問卷B的第七題、第八題考察微博搜索滿足用戶對公眾意見、輿論類信息需求的能力。
其中第七題要求參與調(diào)查者分別用兩種搜索方式搜尋大眾關(guān)于某一政策的意見態(tài)度;第八題則要求參與調(diào)查者了解大眾對某一影片的評價。
從表3關(guān)于第七題的相關(guān)數(shù)據(jù)來看,在了解關(guān)于某項政策(事件)的公眾輿論方面,微博搜索比百度搜索的完成度更高(問卷A: 微博2.6,百度2.5;問卷B微博2.4,百度2.3),難度低,花費時間及搜索次數(shù)少。同時,表4中的數(shù)據(jù)顯示,參與調(diào)查者更傾向于用微博搜索完成此類問題,也驗證了這一點。
由此可見,在搜索大眾對某項政策、事件的看法態(tài)度上,微博搜索更有優(yōu)勢。而表3中關(guān)于第八題的相關(guān)數(shù)據(jù)顯示,在搜索大眾對某部電影的評價上,微博搜索和百度搜索在完成度(問卷A: 微博2.6,百度2.6;問卷B微博2.7,百度2.7)、難度、用時、搜索次數(shù)方面都相當接近,表4中的數(shù)據(jù)也與表3相互驗證,在問及今后搜索該類信息時的搜索方式使用傾向上,更多的參與調(diào)查者表示兩者并無太大差別。
分析原因可以發(fā)現(xiàn),在微博上搜索影評信息時,可以同第七題一樣,采用加“#”的方式,進入話題頁查看不同用戶所發(fā)的關(guān)于該電影的微博;而用百度輸入關(guān)鍵詞搜索后,也很容易找到專門的影評網(wǎng)站,如豆瓣等。
結(jié)論7:微博搜索在滿足用戶關(guān)于公眾輿論信息的需求方面,較傳統(tǒng)網(wǎng)頁搜索更有優(yōu)勢,但在某些特定方面,如影視劇評價等,因為有專業(yè)的網(wǎng)站存在,利用傳統(tǒng)的網(wǎng)頁搜索也可以方便地找到所需信息,優(yōu)勢并不明顯。
4.2.6 公司機構(gòu)信息
問卷A、問卷B的第九題、第十題考察微博搜索滿足用戶對公司機構(gòu)類信息需求的能力。
問卷A的第九題要求參與調(diào)查者分別找到武漢大學(xué)信息管理學(xué)院的官方微博帳號和官方網(wǎng)址,問卷B則要求搜索南京大學(xué)計算機系的官微和官網(wǎng)。從表3顯示的結(jié)果來看,問卷A中,微博搜索比百度搜索完成度低(問卷A: 微博2.6,百度2.8)、難度大、耗時長、搜索次數(shù)多,并且相對地表4顯示,參與調(diào)查者更傾向于用百度搜索完成任務(wù);而問卷B的結(jié)果顯示,用微博或百度搜索南大計算機系的官微或官網(wǎng)完成度(問卷B:微博2.9,百度2.9)、難度、用時、搜索次數(shù)方面都相當接近,表4中參與調(diào)查者中認為兩種搜索方式區(qū)別不大的也占多數(shù)。
為了分析兩項相似的任務(wù)產(chǎn)生較大差異的原因,筆者按照要求,分別在微博與百度中檢索武大信息管理學(xué)院與南大計算機系,發(fā)現(xiàn)武漢大學(xué)信息管理學(xué)院并沒有官方微博帳號,只有武大信息管理學(xué)院學(xué)生會這一組織開設(shè)了官微,有一個名為“武漢大學(xué)信息管理學(xué)院”的微博帳號,并沒有通過官方認證,關(guān)注者少,從所發(fā)微博來看,并不是官微,而南大計算機系則有相應(yīng)的官微。在官網(wǎng)方面,兩個學(xué)院都有自己的官方網(wǎng)站。
由此可見,問卷A第九題中微博搜索完成情況較百度搜索差的原因在于武漢大學(xué)信息管理學(xué)院只開設(shè)了官網(wǎng)并沒有開設(shè)官微。
問卷A、B關(guān)于第十題的調(diào)查結(jié)果則是一致的,在搜索自己感興趣的公司的官微、官網(wǎng)上,微博搜索和百度搜索完成度、難度、用時等數(shù)據(jù)都十分接近,但是參與調(diào)查的用戶還是更傾向于用百度搜索解決類似的問題,同時,表示兩種搜索方式差別不大的也有相當比例。
結(jié)論8:同一個機構(gòu)或公司官微和官網(wǎng)發(fā)布的信息種類、數(shù)量不盡相同,尤其在其只有官網(wǎng)沒有官微的情況下,在搜尋公司機構(gòu)信息方面,微博搜索并不比傳統(tǒng)網(wǎng)頁搜索有優(yōu)勢。
4.2.7 知識性信息
問卷A、B的第十一題考察微博搜索滿足用戶對知識性信息需求的能力。其中問卷A要求參與調(diào)查者分別用兩種方式檢索有關(guān)轉(zhuǎn)基因食品的科普信息,問卷B則要求參與調(diào)查者檢索有關(guān)ISIS起源及發(fā)展過程。
從表3中的數(shù)據(jù)可以看出,利用百度搜索比利用微博搜索完成程度更高(問卷A: 微博2.3,百度2.7;問卷B:微博2.4與百度2.7),搜索次數(shù)、花費時間更少,難度更低;而根據(jù)表4中的數(shù)據(jù),也可清晰地看到,參與調(diào)查的用戶傾向于用百度搜索解決這類問題的所占比例更大。
結(jié)論9:在進行知識性信息搜尋方面,傳統(tǒng)的網(wǎng)頁搜索比微博搜索更有優(yōu)勢。
4.3 調(diào)查結(jié)果總結(jié)
用戶主要使用微博進行七類信息的搜索:新聞、實時信息、明星公眾人物、社交人際關(guān)系、公眾輿論、機構(gòu)公司、知識性信息,而微博搜索可以基本滿足用戶對這七個方面的信息需求。在微博搜索可以滿足用戶需求的信息類型中,網(wǎng)頁搜索也可以滿足其中部分需求,但在有些方面,微博搜索仍有不可替代的優(yōu)勢。
與傳統(tǒng)網(wǎng)頁搜索相比,微博搜索優(yōu)勢明顯的是:公眾輿論、社交人際關(guān)系信息的搜索;而在新聞信息、實時信息、公眾人物信息搜索方面,微博搜索有其獨特長處,但是傳統(tǒng)網(wǎng)頁搜索推出的專業(yè)性功能如百度的新聞搜索、貼吧,以及其它專業(yè)性網(wǎng)站如路況網(wǎng)、各類影評網(wǎng)等,削弱了微博搜索的優(yōu)勢,使用戶更傾向選擇百度搜索完成這些類型的任務(wù);在機構(gòu)信息和知識性信息方面,傳統(tǒng)網(wǎng)頁搜索能更好地滿足用戶需求。
此外,從調(diào)查結(jié)果中還可以觀察到兩個變化趨勢:
(1)網(wǎng)頁信息不斷豐富,微博搜索的原有優(yōu)勢正在逐漸減少。這一點由參與調(diào)查者相較于用微博搜索新聞信息,更愿意使用百度的新聞搜索功能搜索新聞信息、百度的貼吧搜索功能可以為用戶提供較微博更多更全的明星信息、以及專業(yè)的影評網(wǎng)站可以與微博搜索的“話題”討論一樣,很好地滿足用戶對影視作品口碑信息的需求等方面可以看出。
(2)當微博搜索和百度搜索能同等程度滿足用戶信息需求,甚至是微博搜索較網(wǎng)頁搜索的表現(xiàn)更有優(yōu)勢的情況下,利用微博搜索往往耗費更多時間精力,用戶還是更傾向于用百度搜索。如參與調(diào)查者完成問卷A、B第二大題搜索關(guān)于某特定新聞事件最早發(fā)布的博文或網(wǎng)頁信息時,微博搜索完成程度更好,但耗時更久、難度大、搜索次數(shù)多,因而更多的人傾向于用百度搜索完成類似任務(wù)。
第一種現(xiàn)象產(chǎn)生的原因是網(wǎng)頁信息的豐富以及網(wǎng)頁搜索功能的擴展,相較之下,微博搜索的改進集中在算法、檢索策略上,信息資源數(shù)量、檢索功能設(shè)置仍顯薄弱。新浪微博官方團隊也意識到了這一點,并嘗試進行改進,如他們推出的“長微博”功能,可以彌補微博文本短小,不能承載長篇文字信息的短板,但是長微博的本質(zhì)是圖片,用戶如何高效檢索到長微博所含內(nèi)容又成為一個新的問題。微博搜索功能的添加、改進工作需要更多的關(guān)注與研究。
第二種現(xiàn)象表明相較于傳統(tǒng)網(wǎng)頁檢索,微博檢索的效率還有待提高,其中既包括檢索策略、算法的改進,如提高查全率、查準率,還包括檢索結(jié)果的顯示、用戶頁面的設(shè)置等等。
5 結(jié)語
微博不僅是一個基于用戶關(guān)系的社交網(wǎng)絡(luò)平臺,同時也是一個擁有海量數(shù)據(jù)的信息資源寶庫,微博用戶數(shù)量的增長、微博信息的豐富,也更加凸顯了微博搜索的重要性。微博平臺的搜索功能,可以基本滿足用戶的信息需求,與傳統(tǒng)網(wǎng)頁搜索相比,在社交人際關(guān)系、公眾輿論信息的搜索方面,有明顯優(yōu)勢。
與此同時,微博搜索也有許多待改進之處,如豐富檢索功能、提高檢索效率等,此外,盡管微博搜索的本質(zhì)仍是檢索系統(tǒng),但是微博的特殊性決定了微博檢索系統(tǒng)要為用戶提供區(qū)別于普通檢索系統(tǒng)的服務(wù)。因此,微博檢索系統(tǒng)在強調(diào)普遍性的同時,還應(yīng)該突出其固有的特性,從而為用戶提供更為全面準確的個性化檢索服務(wù)[17]。
在微博搜索不斷發(fā)展改進的同時,傳統(tǒng)搜索引擎也注意到了微博檢索巨大的潛在價值,微博平臺向網(wǎng)頁搜索引擎提供部分微博檢索結(jié)果也成為一種潮流趨勢,如微軟的必應(yīng)搜索引擎,通過購買的方式獲得Twitter的數(shù)據(jù)授權(quán),在其檢索結(jié)果中加入微博檢索結(jié)果;國內(nèi)的百度搜索也整合微博內(nèi)容,在搜索結(jié)果中顯示與關(guān)鍵字相關(guān)的最新微博內(nèi)容。對于微博搜索來說,如何處理自身檢索系統(tǒng)建設(shè)與網(wǎng)頁搜索的覆蓋、替代,也是一個新的挑戰(zhàn)。
微博搜索的巨大作用日益凸顯,許多不足之處尚待改進,新的挑戰(zhàn)也不斷出現(xiàn),值得更多學(xué)者的關(guān)注與研究。
參考文獻:
[1] 秦嘉杭.社會化搜索研究述評[J].情報資料工作, 2014(6):61-66.
[2] 孫曉寧, 朱慶華, 趙宇翔,等. 社會化搜索研究進展綜述[J].圖書情報工作,2014,58(17):5-13.
[3] Teevan J,Ramage D,Morris M R.TwitterSearch:a comparison of microblog search and web search[C].Proceedings of the Forth International Conference on Web Search and Web Data Mining,WSDM,35-44.
[4] Jansen B J,Zhang M,Sobel K,et al.Twitter power:Tweets as electronic word of mouth[J].Journal of the American Society for Information Science & Technology,2009,60(11):2169-2188.
[5] 李緒維.微博短文本檢索關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.
[6] 曹鵬,李靜遠,滿彤,等.Twitter中近似重復(fù)消息的判定方法研究[J].中文信息學(xué)報,2011,25(1):20-27.
[7] Weng J,Lim E P,Jiang J,et al.TwitterRank:finding topic-sensitive influential twitterers[C].Proceedings of the third ACM international conference on Web search and data mining.ACM,2010:261-270.
[8] Suh B,Hong L,Pirolli P,et al.Want to be Retweeted?Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C].Social Computing/IEEE International Conference on Privacy,Security,Risk and Trust,2010 IEEE International Conference on.IEEE,2010:177-184.
[9] Hawn C.Take Two Aspirin And Tweet Me In The Morning:How Twitter, Facebook, And Other Social Media Are Reshaping Health Care[J].Health Affairs,2009,28(2):361-368.
[10] 吳敏.基于微博的媒體營銷研究[D].廣州:暨南大學(xué),2010.
[11] 衛(wèi)冰潔,王斌,張帥,等.微博檢索的研究進展[J].中文信息學(xué)報,2015,29(2):10-23.
[12] 李銳,王斌.一種基于作者建模的微博檢索模型[J].中文信息學(xué)報,2014,28(2):136-143.
[13] Massoudi K,Tsagkias M,Rijke M D,et al.Incorporating Query Expansion and Quality Indicators in Searching Microblog Posts[C].Advances in Information Retrieval-33rd European Conference on IR Research,2011:362-367.
[14] 周霞娟,汪飛,金玲,等.用戶驅(qū)動的微博可視化搜索[J].中國圖象圖形學(xué)報,2015,20(5):715-723.
[15] Golovchinsky G,Efron M.Making sense of Twitter Search[J].Proc Chi Workshop on Microblogging What & How Can We Learn from It,2011.
[16] Elsweiler D,Harvey M.Engaging and maintaining a sense of being informed:Understanding the tasks motivating twitter search[J].Journal of the American Society for Information Science & Technology,2015,66(2):264-281.
[17] 劉薇.基于系統(tǒng)設(shè)計的微博檢索系統(tǒng)評價研究——新浪微博搜索與百度搜索之比較[J].知識管理論壇,2012(7):12-20.
作者簡介:劉明珠,女,南京大學(xué)信息管理學(xué)院、江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室碩士研究生,研究方向:智能信息處理、學(xué)術(shù)評價;楊建林(1970-),男,南京大學(xué)信息管理學(xué)院、江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室教授,研究方向:數(shù)據(jù)挖掘、信息檢索、學(xué)術(shù)評價。