一“框”打盡搜索需求
“搜索引擎正從一個象牙塔里的高級系統(tǒng),變成人們生活中必不可缺的日常工具。5年以來,中文用戶的搜索行為,并沒有變得更‘高級,更熟練,而是相反,變得更‘傻瓜了。甚至是當(dāng)年的‘高級用戶,搜索行為也慢慢地‘墮落了。”百度首席產(chǎn)品設(shè)計師孫云豐甚至覺得,現(xiàn)在的搜索引擎所面臨的狀況,完全不能讓人樂觀。
回首搜索引擎的創(chuàng)新之路,從表面上看,搜索引擎可以說是最簡單、最簡潔的,但它又是最復(fù)雜、最有深度的。10年間,搜索框還是原來那個搜索框,但其背后蘊含的技術(shù)已經(jīng)發(fā)生了翻天覆地的變化。
百度要“框”誰?
2004年孫云豐加入百度時,百度只有4歲,那時候他甚至不知道李彥宏發(fā)明的超鏈分析技術(shù),這早已成為一個百度內(nèi)部廣為流傳的玩笑。一直從事搜索引擎相關(guān)的用戶需求分析和產(chǎn)品設(shè)計工作的孫云豐,算得上是對用戶需求了解程度最深的幾個百度人之一。
孫云豐對記者說:“在過去一年中,中國網(wǎng)民在搜索框中輸入的關(guān)鍵字越來越長,大于16個字節(jié)的搜索比例已經(jīng)達到了29%。甚至有的網(wǎng)民直接在搜索框中輸入一個問句,比如‘身體瘦弱,性格內(nèi)向,一男孩應(yīng)該報考什么高職專業(yè)?這些用戶把搜索引擎當(dāng)成一個活生生的人來提問?!彼J為搜索引擎的作用并不是要教會人們?nèi)绾问褂脧?fù)雜的關(guān)鍵字匹配技術(shù),來達到“一擊必中”的效果,而是要更聰明地去理解網(wǎng)民想要干什么,從而把更準(zhǔn)確的結(jié)果提供給他。
這一個看似簡單的搜索請求,首先需要被拆成不同粒度的20個語義單位進行分析,要在后臺經(jīng)過3億次計算來識別這個需求,并在100億個網(wǎng)頁資源中檢索并進行需求分配,而整個過程需要在不到十分之一秒內(nèi)完成。
隨著網(wǎng)民對信息獲取的要求越來越高,搜索引擎正在面臨新的挑戰(zhàn),只有追求創(chuàng)新、保持專注才能突破瓶頸。對此,百度在今年提出了“框計算”(Box Computing)技術(shù)理念和下一代搜索引擎阿拉丁平臺。未來,框計算將被應(yīng)用到各種互聯(lián)網(wǎng)應(yīng)用上,為用戶提供一站式服務(wù),而阿拉丁即是框計算的重要組成部分。
“框”的野心是,不僅要解答用戶需要的知識,還要響應(yīng)用戶的情感需求;不僅希望用戶通過搜索框能找到知識的答案,還希望能給用戶以人性化的結(jié)果。類似于“電腦不顯示桌面上的圖標(biāo)鼠標(biāo)也不能右擊怎么辦”、“聽起來讓人覺得開心的MP3”、“北京哪里能找到女朋友結(jié)婚”,這樣似乎不符合傳統(tǒng)搜索規(guī)范的問題將都能在百度得到解決。
稀奇古怪的挑戰(zhàn)
記者了解到,網(wǎng)絡(luò)信息的爆炸式增長和網(wǎng)民的個性化需求不斷增加,使搜索引擎靠傳統(tǒng)方式抓取信息很難滿足現(xiàn)狀,而百度在優(yōu)化傳統(tǒng)抓取方式的同時,采用了“推”的思路獲取資源。孫云豐說,未來搜索框的應(yīng)用將無限擴展,成為一個便捷的紐帶,將用戶與信息、應(yīng)用連接起來。
或許,未來的電腦將只有一個“框”。我們曾經(jīng)在命令行中輸入“Dir”來獲取目錄列表,如今在搜索框中卻可以輸入千奇百怪的句式。網(wǎng)民搜索請求正在變得多元化、個性化,甚至到了稀奇古怪的地步。
隨著搜索引擎的普及,它已經(jīng)成為人類獲取信息最重要的途徑之一。而在中國,百度的網(wǎng)民覆蓋率已經(jīng)超過92.2%,預(yù)計將成為第一個覆蓋率達到100%的中文互聯(lián)網(wǎng)服務(wù)。根據(jù)百度對搜索關(guān)鍵詞的監(jiān)測發(fā)現(xiàn),來自網(wǎng)民的Unique Query(唯一檢索請求)累計已經(jīng)超過1億,而在2003年的時候,這個數(shù)字只有幾百萬。
這也就是說,以往網(wǎng)民的需求往往“同質(zhì)化”,傾向于了解“是什么”、“什么樣”這樣的問題,而現(xiàn)在,網(wǎng)民越來越傾向于通過搜索引擎幫助他做決策。比如,之前網(wǎng)民搜索“周杰倫”,主要是了解這位明星的資訊、專輯、歌曲等,現(xiàn)在網(wǎng)民或許希望知道“周杰倫有哪些緋聞女友”或者“周杰倫的媽媽是誰”等問題。
孫云豐說,用戶正在變得越來越“懶惰”,他們希望得到直接的答案,而非一堆鏈接。這實際上可以大大降低用戶獲取信息的時間和判斷成本。歸結(jié)搜索引擎面臨的挑戰(zhàn),實際上其本質(zhì)便是用戶需求的提高。
照亮無限暗網(wǎng)
所謂暗網(wǎng)就是那些數(shù)以萬億計的沒有被搜索到的信息。實際上,用戶能夠搜索到的信息只是互聯(lián)網(wǎng)中的冰山一角。
很顯然,搜索引擎必須直面用戶需求的變化,否則將被用戶淘汰。百度在2008年4月就推出的開放搜索平臺阿拉丁作為框計算技術(shù)理念的一部分,除了應(yīng)對互聯(lián)網(wǎng)上的暗網(wǎng)信息,更重要的是帶來了搜索體驗的革命,讓查詢的需求得到直接滿足。
“暗網(wǎng)的存在是因為很多網(wǎng)絡(luò)技術(shù)人員不懂得合理的建站技術(shù),不恰當(dāng)?shù)亟ㄔO(shè)網(wǎng)站和管理信息所導(dǎo)致的,對于這些人來說,暗網(wǎng)搜索或許是救星?!睂O云豐表示,他將暗網(wǎng)分成四大類,包括:1.網(wǎng)上存在,但未公開。比如企業(yè)法人資質(zhì)查詢。2.網(wǎng)上公開,但難獲取。比如很多數(shù)據(jù)庫類的網(wǎng)站——北大圖書館。3.現(xiàn)實中存在,但未上網(wǎng)。Google正在做的數(shù)字圖書館計劃,就是期望解決這類問題。4.人腦中存在,但未記錄。這類浩如煙海的信息,完全沒法統(tǒng)計。
阿拉丁平臺的推出,正是為解決現(xiàn)有搜索引擎無法抓取和檢索“暗網(wǎng)”信息的問題?!叭绻覀儼寻俣人阉饕姹茸鲆粋€探照燈,在無邊無際的信息宇宙中掃射并且記錄下來掃射到的信息,那么,那些探照燈從來掃射不到的區(qū)域,都是‘暗網(wǎng)。如何將這些已知和未知信息分門別類地融合,有序地納入到我們的知識范疇,并且為廣大互聯(lián)網(wǎng)用戶提供零成本、無障礙、無時差的精準(zhǔn)送達,是百度有史以來在技術(shù)上面臨的最大挑戰(zhàn)。”孫云豐深感阿拉丁計劃的壓力。