郭銳 (微視互聯(lián)(天津)科技有限公司 天津300456)
隨著我國互聯(lián)網(wǎng)應(yīng)用的日益普及,人們的衣食住行都和網(wǎng)絡(luò)發(fā)生了直接或者間接的聯(lián)系,特別是搜索引擎的出現(xiàn),可以說是改變了人們獲取知識和信息的方式,其重要性毋庸置疑。然而類似百度和Google這樣的通用搜索引擎,在某些特定的領(lǐng)域,從信息的準(zhǔn)確性、實(shí)用性和及時性來講,往往并不如人意,夾雜大量無用的信息,用戶還必須逐個點(diǎn)擊篩選。特定領(lǐng)域的垂直搜索引擎正是為了解決這一問題而產(chǎn)生的,其目標(biāo)是在限定領(lǐng)域范圍內(nèi)提供更加精準(zhǔn)有用的信息。在育兒這個領(lǐng)域的知識和信息有其自身的特性,而且用戶有特定的人群,即主要為0~6歲的父母,我們基于對育兒知識信息和父母用戶的深入研究,研發(fā)了一款新型的垂直育兒搜索引擎——智能育兒通。
智能育兒通的主要創(chuàng)新點(diǎn)在于,該搜索引擎的內(nèi)核包括一個自動問答系統(tǒng),用戶能夠以平常說話的自然語言形式提問,系統(tǒng)自動給出相關(guān)的答案;搜索結(jié)果的展示不僅包括傳統(tǒng)的圖文,而且還能夠提供視頻形式,從而信息以一種多媒體的立體角度進(jìn)行呈現(xiàn);系統(tǒng)還為用戶建立了用戶模型,智能分析用戶的需求和使用習(xí)慣,在搜索的同時主動推送相關(guān)的用戶可能感興趣的育兒資訊;并且提供多種客戶端,以供用戶可以隨時隨地進(jìn)行訪問,用戶操作接口包括網(wǎng)頁瀏覽、手機(jī)短信、手機(jī)客戶端程序和及時聊天。
由于網(wǎng)絡(luò)信息的爆炸式增長,網(wǎng)民面對海量數(shù)據(jù)不得不借助搜索引擎這一強(qiáng)大的工具去尋找自己的目標(biāo)信息,百度和Google是我國網(wǎng)民使用最多的兩個通用搜索引擎。各大門戶網(wǎng)站也有自己的搜索引擎,如搜狐的搜狗、網(wǎng)易的有道、騰訊的搜搜,這些搜索引擎也各有特色和定位。
在垂直搜索引擎方面,英文比較著名的有KidsClick兒童搜索、AddAll購物搜索、PicSearch圖片搜索、MusiDB個性化的音樂搜索。而在中文方面,258商業(yè)搜索(http://www.258.com/)、愛幫生活搜索(http://www.aibang.com/)、跳哪工作搜索引擎(http://www.tiaona.com)是比較典型的代表??梢哉f,在通用搜索引擎占據(jù)主導(dǎo)地位的同時,垂直搜索引擎作為一個重要的補(bǔ)充,是互聯(lián)網(wǎng)發(fā)展的必然趨勢,也是整合網(wǎng)絡(luò)資源的一個不可超越的階段。
中國人均年出生人口是1 500~1 700萬,保守估計(jì)潛在父母用戶群在1.2億左右。互聯(lián)網(wǎng)的普及化和移動互聯(lián)網(wǎng)的迅猛發(fā)展已經(jīng)改變了新一代父母獲取育兒知識的方式,二者已經(jīng)成為媽媽獲取育兒信息的主要手段。但是目前,網(wǎng)絡(luò)上各種信息龐雜,真假難辨,如何讓媽媽更有效的獲取最權(quán)威的知識信息是目前存在的最大問題。
我們所研發(fā)的智能育兒通的出發(fā)點(diǎn)就是利用先進(jìn)的人工智能技術(shù)和互聯(lián)網(wǎng)技術(shù),為媽媽提供一個迅速獲取權(quán)威育兒知識,解決育兒難題的有力工具,過濾掉無用的虛假信息,給出最有效的育兒知識,為父母的育兒過程提供極大的便利,其目標(biāo)是力爭在育兒領(lǐng)域,能夠做到比百度更智能,比google更精準(zhǔn)。
與傳統(tǒng)的垂直搜索引擎相比,智能育兒通的最大不同點(diǎn)就是基于人工智能技術(shù)以及科學(xué)育兒方法和知識體系構(gòu)建的,強(qiáng)調(diào)用戶體驗(yàn),父母用戶能夠以各種接入方式,使用貼近自然語言的形式向這個系統(tǒng)提問有關(guān)育兒方面的各種問題,系統(tǒng)能夠自動給出答案或者資料,并且可以智能地根據(jù)用戶資料及其使用習(xí)慣進(jìn)行深入分析,提供相關(guān)聯(lián)的育兒知識或信息,使用戶可以獲取到全面貼心的服務(wù)。因此,智能化的自動問答系統(tǒng)是智能育兒通的重要核心之一。
從接入方法來講,系統(tǒng)的用戶可以通過瀏覽網(wǎng)頁、發(fā)送手機(jī)短信、使用手機(jī)客戶端程序或是即時聊天工具等方式向智能育兒通提問,從而能夠隨時隨地獲取育兒信息。智能育兒通基于SOA體系架構(gòu),可以對第三方應(yīng)用程序開放方便的服務(wù)接口以供靈活的集成。
從數(shù)據(jù)來源來講,系統(tǒng)致力于打造一個全面綜合、立體呈現(xiàn)的育兒知識庫,主體數(shù)據(jù)來源包括來自專業(yè)育兒網(wǎng)站的數(shù)據(jù)庫(包括視頻,圖文形式的育兒知識、育兒活動、育兒專家、育兒機(jī)構(gòu)、育兒產(chǎn)品、育兒資訊等),國內(nèi)主要的問答系統(tǒng),如百度知道、搜搜問問的問題數(shù)據(jù),以及從各種育兒專業(yè)網(wǎng)站抓取過來的網(wǎng)頁資源。
從返回結(jié)果來講,系統(tǒng)能夠根據(jù)用戶輸入的請求,提供搜索引擎的搜索結(jié)果或是智能問答的答案,同時還可以根據(jù)內(nèi)容的相關(guān)性,提供育兒知識庫中的相關(guān)育兒信息,以圖文、視頻多種方式進(jìn)行立體呈現(xiàn)。
此外,系統(tǒng)能夠針對用戶提供的資料和用戶的使用行為,建立用戶模型,除了用戶搜索的結(jié)果之外,還能夠主動推送用戶可能感興趣的相關(guān)育兒信息。
從整體架構(gòu)來說,可以將系統(tǒng)分為6個子系統(tǒng)(見圖1),分別是多客戶端子系統(tǒng)、輸入輸出子系統(tǒng)、自動問答子系統(tǒng)、關(guān)鍵詞搜索子系統(tǒng)、育兒知識庫與查詢子系統(tǒng)以及用戶行為分析與反饋?zhàn)酉到y(tǒng)。
圖1 智能育兒通的整體架構(gòu)示意圖
2.2.1 多客戶端子系統(tǒng) 提供多種客戶端,以供用戶可以隨時隨地進(jìn)行訪問,用戶操作接口包括網(wǎng)頁瀏覽、手機(jī)短信、手機(jī)客戶端程序和及時聊天。各種客戶端以統(tǒng)一的方式對用戶輸入進(jìn)行處理,即加入用戶身份信息,進(jìn)行加密之后,發(fā)送請求到“輸入輸出子系統(tǒng)”。
育兒問題答案的展現(xiàn)形式會隨著用戶操作接口的不同而不同,在網(wǎng)頁瀏覽的形式下,答案的主體應(yīng)以圖文加視頻的方式呈現(xiàn),并且將顯示相關(guān)的輔助信息和相類似的問題。
2.2.2 輸入輸出子系統(tǒng) 輸入輸出子系統(tǒng)的核心是用戶提問請求的分析和提問結(jié)果的輸出。請求分析模塊的功能包括:對于請求進(jìn)行解密和認(rèn)證,過濾非法請求;做必要的字符串處理,過濾非法字符;要能夠分析出用戶的提問是問句形式還是關(guān)鍵詞組合形式,前者將請求傳給問答系統(tǒng),后者將請求傳給垂直搜索子系統(tǒng);在用戶輸入的同時,能夠給出相關(guān)提示,類似百度的搜索體驗(yàn);分析出用戶提問所屬的育兒知識分類,向育兒知識庫提出請求。結(jié)果輸出模塊的功能包括:以統(tǒng)一的形式格式化獲得的提問結(jié)果和相關(guān)知識的結(jié)果,包裝之后返回相應(yīng)的客戶端;針對相似問題的輸出,要有統(tǒng)一的處理模式;針對不同的客戶端形式,做不同的結(jié)果處理,如結(jié)果的字?jǐn)?shù)限制、結(jié)果的條數(shù)、結(jié)果的字段數(shù)。
2.2.3 自動問答子系統(tǒng) 用戶能以自然語言形式提問,系統(tǒng)會通過自動分析,給出最佳匹配的答案,同時還能給出相類似的問題。主要功能如下:問題庫來自百度知道、搜搜問問、新浪愛問等各大知名問答網(wǎng)站;通過對于提問進(jìn)行語法分析,匹配出相關(guān)問題,在各種問題庫中搜索問題,找到該問題庫中最佳答案,并且可以在最佳答案中選擇一個或多個作為提問結(jié)果;給出相似或者相關(guān)聯(lián)的問題,并且格式化后推送給輸入輸出系統(tǒng);對于問題庫、關(guān)鍵詞等關(guān)鍵因素可以設(shè)置一系列的參數(shù),并可以靈活調(diào)節(jié);根據(jù)用戶模型,給出問題答案的調(diào)節(jié);根據(jù)用戶對于提問答案的滿意程度的反饋結(jié)果,對于問題系統(tǒng)的算法模型進(jìn)行調(diào)節(jié)。
2.2.4 關(guān)鍵詞搜索子系統(tǒng) 首先對于網(wǎng)絡(luò)育兒資源進(jìn)行全面整理和收集,包括各大網(wǎng)站的文字和視頻育兒知識,在此基礎(chǔ)上進(jìn)行歸納分析主題,建立專業(yè)的育兒詞匯表,對育兒資源數(shù)據(jù)進(jìn)行解析和提取,在專業(yè)的育兒知識體系框架下實(shí)現(xiàn)網(wǎng)頁內(nèi)容的智能分析、網(wǎng)頁的分類,從而為育兒關(guān)鍵詞的搜索提供更加精準(zhǔn)專業(yè)的結(jié)果。
現(xiàn)在對于育兒視頻的搜索各大網(wǎng)站幾乎都沒有,或者效果并不理想,而育兒通提供基于標(biāo)簽和視頻文字描述的育兒視頻搜索,搜索結(jié)果可以以視頻形式直接呈現(xiàn)。另外,我們也注意到,用戶想購買產(chǎn)品或服務(wù)時,許多人的習(xí)慣是先搜索關(guān)于這個東西的正面或負(fù)面評價,而這些評價信息又很大程度影響用戶的購買行為。因此我們著重挖掘各種育兒機(jī)構(gòu)和母嬰產(chǎn)品的評價、評論信息,對于每個機(jī)構(gòu)和產(chǎn)品可以計(jì)算口碑指數(shù),并表明負(fù)面評價和正面評價,在用戶搜索的結(jié)果中提供這些經(jīng)過整理之后的口碑評價。
2.2.5 育兒知識庫與查詢子系統(tǒng) 建立爬蟲系統(tǒng),持續(xù)更新育兒知識庫,從第三方網(wǎng)站抽取和整理形成統(tǒng)一的知識庫資料。將抓取自各大育兒網(wǎng)站的資源數(shù)據(jù)統(tǒng)一整理,其中包括發(fā)布文章、視頻、問答、博客、帖子等各種內(nèi)容形式,經(jīng)過語料過濾、清洗、重新格式化,形成一個綜合性的育兒知識庫。首先是為自動問答子系統(tǒng)和關(guān)鍵詞搜索子系統(tǒng)提供訓(xùn)練語料的支撐;其次支持育兒知識查詢,能夠直接接收育兒知識分類請求,返回育兒知識內(nèi)容,并且能夠根據(jù)用戶模型,返回針對該用戶定制的育兒知識。
2.2.6 用戶行為分析與反饋?zhàn)酉到y(tǒng) 育兒通能夠針對用戶提供的資料和用戶的使用行為建立用戶模型,在用戶提問之后,不僅給出問題的答案,還能夠主動推送各種用戶可能感興趣的相關(guān)育兒信息,如母嬰機(jī)構(gòu)、幼教產(chǎn)品、打折信息等等。主要功能包括:建立完整全面的父母用戶資料庫;記錄完整的用戶訪問智能育兒通的行為;保存所有的提問請求及其對應(yīng)的答案結(jié)果,一方面可以作為提問的緩存,提高系統(tǒng)響應(yīng),另一方面可以作為提高答案準(zhǔn)確率的訓(xùn)練集;用戶可以對于提問的答案進(jìn)行評價,記錄所有的滿意度,并結(jié)合提問回答的結(jié)果進(jìn)行針對性訓(xùn)練,提高搜索模型的精確度;對于提問行為進(jìn)行分析,給出熱門問題、熱門關(guān)鍵詞等指標(biāo);通過分析用戶資料和行為,將用戶進(jìn)行特定指標(biāo)的分類,并能智能推送和定制育兒知識提供決策依據(jù)。
智能育兒通整體采用SOA體系架構(gòu),對外提供基于Web Services的在線應(yīng)用服務(wù),從而為第三方應(yīng)用程序提供方便的服務(wù)接口實(shí)現(xiàn)集成。主體程序使用Java EE技術(shù)構(gòu)建,客戶端覆蓋各種操作系統(tǒng)和編程語言。搜索引擎的實(shí)現(xiàn)上使用了大量的開源軟件,其中利用Apache Nutch負(fù)責(zé)抓取(crawling)和提?。╡xtracting)內(nèi)容。Apache Solr作為處理搜索結(jié)果的源和入口,使用Solr作為搜索后端,在Nutch和Solr的整體框架下,實(shí)現(xiàn)根據(jù)育兒知識和信息體系定制的分詞、語法分析、索引、匹配等算法。
用戶操作接口包括網(wǎng)頁瀏覽、手機(jī)短信、手機(jī)客戶端程序和及時聊天。其中及時聊天工具應(yīng)包括但不限于QQ、MSN和Fetion(飛信),手機(jī)客戶端程序的操作系統(tǒng)包括但不限于Android、iOS(iPhone)和 Symbian。
智能育兒通的核心技術(shù)來源于本公司與清華大學(xué)計(jì)算機(jī)系合作開發(fā)的技術(shù)成果,共同享有自主知識產(chǎn)權(quán)。智能育兒通預(yù)計(jì)2011年內(nèi)發(fā)布公測版,將在本公司的運(yùn)營的真實(shí)同城育兒社區(qū)“父母在線”(http://www.ifumu.com)中發(fā)布,為廣大中國父母提供精準(zhǔn)的育兒信息和貼心的母嬰服務(wù)。
智能育兒通在傳統(tǒng)搜索引擎的技術(shù)基礎(chǔ)之上,創(chuàng)新地使用人工智能技術(shù)以及科學(xué)育兒方法和知識體系進(jìn)行構(gòu)建,為全中國的父母提供更精準(zhǔn)、更全面的搜索和問答服務(wù),是一種全新的用戶體驗(yàn)和服務(wù)模式,其技術(shù)水平方面在國內(nèi)也屬領(lǐng)先。未來在不斷優(yōu)化搜索效果和提高用戶體驗(yàn)的同時,還將拓展商業(yè)應(yīng)用和增值服務(wù),實(shí)現(xiàn)大規(guī)模的商業(yè)化運(yùn)營?!?/p>
[1]鄭實(shí)福,劉挺,秦兵,等.中文自動問答系統(tǒng)綜述[J].中文信息學(xué)報(bào),2002,6(16):46-52.
[2]H uizhong D uan1,Y unbo Cao,Chin-Y ew Lin ,etal.Searching Q uestions by Identifying Q uestion Topic and Q uestion Focus[J].Proceedings of A CL,2008(8):156-164.
[3]P Raghavan,H Schtze.Introduction to Information Retrieval[M].Cambridge U niversity Press N ew Y ork,N Y,U SA,2008:100-152.