周 明
(微軟亞洲研究院,北京 100080)
搜索引擎是用戶到互聯(lián)網(wǎng)的入口,對來自通用領(lǐng)域和各類垂直領(lǐng)域的信息起到了信息聚合和流量分配作用。作為互聯(lián)網(wǎng)的研究平臺,搜索引擎不斷催生并持續(xù)推動著大規(guī)模數(shù)據(jù)的搜集、理解、索引、檢索、可視化以及云計算的發(fā)展。有了搜索引擎,使得人類得以在大規(guī)模真實數(shù)據(jù)上建立有效的知識系統(tǒng),推動粗知識粒度的基于邏輯的推理發(fā)展為細致知識粒度的基于實例的推理,由原來依賴專家建立的靜態(tài)知識系統(tǒng)演變?yōu)橐詳?shù)據(jù)驅(qū)動和機器學(xué)習(xí)為基礎(chǔ)的演進式系統(tǒng)。
搜索引擎成為用戶獲取信息的不可替代的工具。然而,過去的幾年,搜索引擎卻沒有質(zhì)量上的同步提高。據(jù)統(tǒng)計40%的搜索結(jié)果不能滿意回答用戶的問題,50%的搜索關(guān)鍵詞需在搜索過程中不斷修正以試探最佳結(jié)果。搜索引擎提供千人一面的搜索結(jié)果,但尚無法提供個性化的信息。
理想的搜索引擎不僅應(yīng)該快捷地幫助找到所需要的信息,還應(yīng)該像銀行的窗口一樣提供個性化的服務(wù)。更進一步,它還應(yīng)該像專家一樣輔助用戶做出決策并快速完成各種交易。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心的報告顯示,中國網(wǎng)民規(guī)模達到4.85億。同時,社交網(wǎng)絡(luò)的用戶呈現(xiàn)出同步的高速增長, 2011年中國微博用戶數(shù)量已增長到1.95億,半年增幅達208.9%。中國龐大的網(wǎng)民數(shù)量為搜索的發(fā)展提供了廣闊的空間。同時,社會關(guān)系網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)推動搜索引擎的技術(shù)將會發(fā)生重大的改變。自然語言處理對用戶意圖的理解和對文本的理解能力的提高,將使得搜索的準確性也將持續(xù)改善?;ヂ?lián)網(wǎng)搜索領(lǐng)域醞釀著前所未有的新機遇。然而搜索引擎的成功是多方面因素共同作用的結(jié)果,需要技術(shù)和戰(zhàn)略的巧妙配合。本文將深入分析目前搜索引擎技術(shù)發(fā)展的趨勢,指出應(yīng)該關(guān)注的若干重要領(lǐng)域,并且探討了搜索引擎的研發(fā)戰(zhàn)略。
首先,搜索引擎將會更加注重強大的信息的整合能力。搜索結(jié)果通過多角度、多數(shù)據(jù)渠道和多媒體展現(xiàn)。譬如搜索北朝鮮,關(guān)于朝鮮的簡介、新聞、博客、論壇、視頻、電視訪談、圖片、還有Wiki搜索結(jié)果、電子商務(wù)搜索結(jié)果(比如亞馬遜的書),實時的微博,等等各類信息分門別類整齊排列。為了達到完美的整合,需要對諸數(shù)據(jù)源作深入的信息挖掘。通過一套整合協(xié)議,通用搜索引擎平臺可以包容來類垂直領(lǐng)域的資源,使用互聯(lián)網(wǎng)中的龐大的暗網(wǎng)數(shù)據(jù)。垂直搜索引擎和通用的搜索引擎從原來的競爭關(guān)系演變成雙贏的生態(tài)和諧關(guān)系。與此相關(guān)的另外一個明顯的趨勢是,搜索引擎業(yè)務(wù)和其他業(yè)務(wù)整合在一起,搜索成為其中的一個功能。例如,微軟的英庫(http://engkoo.com)把搜索、翻譯、語音等技術(shù)綜合起來,構(gòu)建英語學(xué)習(xí)的平臺[1-2]。電子商務(wù)公司把搜索和電子商務(wù)整合在一起。通用搜索的結(jié)果可鏈接到電子商務(wù)網(wǎng)店,而電子商務(wù)網(wǎng)站則提供更加針對性的商品搜索。還有,即時通信工具上植入搜索。而社會關(guān)系網(wǎng)絡(luò)則將搜索整合進來為用戶提供一站式全方位的服務(wù)。可以說搜索無處不在。
第二,越來越注重實時搜索能力。擁有上億用戶的Twitter、中文微博、各類社會關(guān)系網(wǎng)絡(luò),使得任何人可以快速發(fā)布信息和個人感想?;谶@些信息發(fā)展的實時搜索可提供靈活的關(guān)鍵詞搜索,譬如以指定在紐約市最近1個小時內(nèi)的消息。還可提供很多關(guān)于地點敏感、人物敏感、情感敏感的搜索功能。發(fā)展獨立的微博搜索和社會關(guān)系網(wǎng)絡(luò)搜索或者把微博和社會關(guān)系網(wǎng)網(wǎng)絡(luò)的內(nèi)容納入到通用的搜索,都是實時搜索的重要應(yīng)用。
但是微博信息太過繁雜,若沒有適當?shù)倪^濾功能,將使得搜索的結(jié)果雜亂無章,甚至充斥著很多灌水、廣告、欺詐的信息,從而利用價值大打折扣。另外,使用目前的基于page rank和關(guān)鍵詞索引和搜索的技術(shù),用戶只能得到一組按照時間順序排列的微博,用戶需要花很長時間去閱讀。語義分析技術(shù)從大規(guī)模雜亂無章的微博中萃取結(jié)構(gòu)化的信息,支持后續(xù)的數(shù)據(jù)挖掘和搜索,應(yīng)該引起更多的關(guān)注。語義分析技術(shù)除了常規(guī)的自然語言處理包括分詞、抽取關(guān)鍵詞、適度的句法分析、分類之外,要進行語義角色標注和情感分析[3-4]。
第三,社會關(guān)系網(wǎng)絡(luò)和搜索的互相影響。社會關(guān)系網(wǎng)絡(luò)昭示了下一代互聯(lián)網(wǎng)的趨勢。社會關(guān)系網(wǎng)絡(luò)有望成為互聯(lián)網(wǎng)的門戶和目的地。譬如Facebook已經(jīng)有7億用戶,用戶在其內(nèi)停留的時間是花在搜索引擎的時間170%和花在郵件和門戶的時間的200%。在社會關(guān)系網(wǎng)絡(luò)內(nèi)提供了涉及新聞、視頻、游戲、電子商務(wù)等幾乎所有服務(wù)。人們使用社會關(guān)系網(wǎng)絡(luò)進行信息發(fā)布,與別人通信和保持聯(lián)絡(luò),表達自己的觀點。企業(yè)可以跟蹤用戶對其品牌的認知度和反饋并進行新品牌的營銷推廣。
在日常生活當中,人們每天都從自己信賴的人那里獲取信息并在此基礎(chǔ)上作出決定。如我向同事詢問公司附近哪兒能找到最好的飯店;我向父母詢問自己是否應(yīng)該出國留學(xué)。在社會關(guān)系網(wǎng)絡(luò)的支持下,當你進行搜索時,你可以看到好友的推薦信息。利用社會關(guān)系網(wǎng)絡(luò)可加強搜索能力[5]。用戶使用“贊”可以標記對所搜索或者所閱讀網(wǎng)頁文檔的評定。這些人工評價的信息可以幫助搜索引擎的結(jié)果排序。當用戶搜索一個主題時,來自好友和其他公開Facebook賬號的“贊”過的網(wǎng)頁都將會推薦出來。最為重要的是,社會關(guān)系網(wǎng)絡(luò)知道用戶的搜索和閱讀習(xí)慣,以及他的社會關(guān)系,因此可以進行個性化的搜索。即使用戶不進行搜索,系統(tǒng)也可以為用戶利用他的行為習(xí)慣和好友關(guān)系直接推薦他所感興趣的內(nèi)容。利用社會關(guān)系網(wǎng)絡(luò)和互聯(lián)網(wǎng),“人肉搜索”也許可以進入規(guī)?;僮鞑⑶胰〉帽茸詣铀阉饕娌荒芷蠹暗男Ч?。目前已有一些新興的網(wǎng)站開始利用SNS來進行回答服務(wù)。
第四,搜索結(jié)果更加精準。精準是用戶對搜索引擎的不變的需求,尤其是在移動互聯(lián)網(wǎng)時代,由于手機屏幕尺寸狹小且用戶在移動中,不能讓用戶一頁一頁地翻找答案。未來利用用戶在搜索時的豐富環(huán)境信息(發(fā)出搜索的時間和地點、用戶個人信息、社會關(guān)系、過去的搜索行為),有望大大提高對用戶搜索請求的理解能力,對搜索結(jié)果提供更加精準的排序。利用基于社會關(guān)系的問答服務(wù)(俗稱人肉搜索),也可以進一步提高搜索的精度。
第五,搜索的移動化。在手機和平板電腦上網(wǎng)普及化的前提下,移動辦公、移動電子商務(wù)、移動支付、移動游戲、移動新聞、移動學(xué)習(xí)、移動交友、移動博客、移動看視頻、聽音樂都成為常態(tài)。移動搜索將成為移動互聯(lián)網(wǎng)發(fā)展的助推器。移動搜索會考慮到動態(tài)導(dǎo)航、位置識別,需要把地理信息加入到搜索參數(shù)。手機瀏覽器需要提供更加方便的閱讀和瀏覽功能。在搜索基礎(chǔ)上,需方便用戶完成其他后續(xù)功能。譬如提供商品信息的比較、獲取購物優(yōu)惠券、進行評論。這一切使得人和互聯(lián)網(wǎng)服務(wù)的互動更加直接。
第六,逐漸由搜到用的快速遷移。目前,多種形式的應(yīng)用平臺集合了最優(yōu)秀的應(yīng)用程序。用戶搜索到相應(yīng)的應(yīng)用程序,就可以快速完成某一項任務(wù)。以蘋果為代表的應(yīng)用程序店為第三方軟件的提供者提供了方便而又高效的軟件銷售平臺,使得第三方軟件的提供者參與其中的積極性空前高漲,適應(yīng)了手機用戶們對個性化軟件的需求。各類應(yīng)用程序平臺覆蓋了商業(yè)應(yīng)用、游戲、音樂、娛樂、教育、社會關(guān)系網(wǎng)絡(luò)、旅游指南、個人理財、辭典、輸入法、博客編輯器等眾多領(lǐng)域。用戶通過搜索得到相關(guān)應(yīng)用程序之后,需要一個通暢的下載并且使用的過程。而且,針對應(yīng)用程序的搜索,目前多數(shù)局限在分類目錄和簡單關(guān)鍵詞,可以預(yù)見,未來會逐漸過渡到語義檢索以提高搜索的精準度和覆蓋面。
第七,靈活的人機接口。利用自然語音、自然語言,圖像、配上基于地理位置的各項服務(wù)創(chuàng)造出的嶄新搜索體驗,將會在移動場合(如開車)愈顯重要。譬如如下的自然語言查詢表達式: 最近的加油站;從新中關(guān)到王府井的行車路線;上地到農(nóng)大沿線的小區(qū);公司附近的飯店等。這些可以用自然語言也可以用語音輸入。另外,用音樂搜索音樂和用圖片搜索圖片等多媒體內(nèi)容作為查詢進行搜索也會成為主流的搜索服務(wù)。
第八,個性化。社會關(guān)系網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)的發(fā)展使得夢寐以求的個性化搜索逐步成為現(xiàn)實。它按照每個用戶的需求來進行搜索,并且根據(jù)用戶以前的行為來定制搜索結(jié)果的排列方式。另外還會提供強大的推薦功能。用戶打開桌面或者手機,系統(tǒng)根據(jù)你以往的搜索行為、你所處的位置和時間會自動彈送你需要的信息供你查閱。
首先,要加強對用戶意愿的理解。根據(jù)用戶的查詢,了解用戶需要什么,是給出好的搜索結(jié)果的前提。了解用戶的意愿可提升用戶對搜索的信賴和忠誠度。當用戶輸入城市名的時候,他很可能要找當?shù)氐木频辍⒌貓D、名勝等;當用戶輸入某些癥狀時,他很可能要找疑似病的特征、原因、治愈方法、可信的專家和醫(yī)院等。為此,需要加強自然語言理解,譬如抽取用戶查詢表達式的核心詞、修飾成分,如果是自然語言的問題,還需要準確知道問題目標、問題類型。更加重要的是,需要增強對查詢?nèi)罩镜姆治觯柚脩暨^去的使用行為,配合他所處的社會關(guān)系網(wǎng)絡(luò),增強對用戶查詢的理解能力。
第二,實體和知識的獲取。從互聯(lián)網(wǎng)的內(nèi)容中抽取人、事、產(chǎn)品、服務(wù)、內(nèi)容等實體,并且進而抽取實體之間的關(guān)系。從而建立對某些領(lǐng)域甚至全網(wǎng)的本體知識庫。搜索引擎可以利用它增強對查詢表達的理解,改善查詢擴展、適當進行推理,抽取搜索結(jié)果并更好地進行排序。
第三,加強自然語言處理技術(shù)對搜索的影響。第一個層面就是在建立搜索索引的時候,對采集的網(wǎng)頁或者文檔進行深層的理解。傳統(tǒng)上是把所有的詞按照bag of word模型,利用一定的加權(quán)措施,建立索引。如果要到深層的理解,從海量信息中提取結(jié)構(gòu)化數(shù)據(jù),要依賴更加魯棒的文本挖掘技術(shù)和信息抽取技術(shù),包括命名實體的識別、情感分析、指代消解、語義角色標注、歧義詞辯識。第二個層面就是對搜索系統(tǒng)返回的匹配的結(jié)果實現(xiàn)有序地進行分類,提取主題,排序,快速找到最佳的搜索結(jié)果。第三個層面就是多語言的處理。利用跨語言檢索,用戶可以用自己的母語搜索外國的網(wǎng)頁內(nèi)容或者在外國旅行的時候搜索本地的內(nèi)容。機器翻譯技術(shù)用來進行查詢的翻譯、摘要的翻譯還有文檔的翻譯。對搜索來講,通過翻譯豐富了內(nèi)容增加了流量。把對翻譯用于搜索的應(yīng)用得到大量的用戶反饋,加上從互聯(lián)網(wǎng)搜索得到的大規(guī)模的雙語數(shù)據(jù),會有效地提升機器翻譯系統(tǒng)的質(zhì)量。
利用互聯(lián)網(wǎng)、Web2.0和社會關(guān)系網(wǎng)絡(luò),可有效地支持自然語言處理的研究?;ヂ?lián)網(wǎng)已經(jīng)成了最大的數(shù)據(jù)資源和最大的人際關(guān)系網(wǎng)絡(luò)。Web2.0通過眾包方式,可以建立龐大的數(shù)據(jù)庫和知識庫,并且進行低成本的標注。社會關(guān)系網(wǎng)絡(luò)給我們提供了用戶個性化的信息,其朋友關(guān)系也有助于提高文本處理和搜索的相關(guān)性。
在這樣的時代下,過去的自然語言處理的方法(我們稱之為NLP1.0)需要重新調(diào)整。NLP1.0的特點是對每一項單元技術(shù)(譬如分詞、實體抽取、句法分析、雙語詞匯對齊等)做深加工以追求局部技術(shù)的完美,但是不太考慮該項技術(shù)在整個應(yīng)用系統(tǒng)里面和其他技術(shù)配合從而得到系統(tǒng)級的最優(yōu)。有很多研究片面追求方法的新穎性(哪怕很細小)以便助于發(fā)表,但是忽略了方法的簡單可靠以支持規(guī)?;S泻芏嘌芯酷槍︻A(yù)先規(guī)定的數(shù)據(jù)集合進行訓(xùn)練和測試,但是卻無法適用于大規(guī)模的真實場景。很多研究囿于小的實驗環(huán)境卻不考慮用戶需求和市場因素。我認為有必要適當調(diào)整以往的重算法輕數(shù)據(jù),重單元技術(shù)輕系統(tǒng),重新穎輕實用,重研究輕用戶體驗,重實驗輕推廣,重開發(fā)輕商業(yè)運營的做法。作為在研究方法論上的一個嘗試,我們提出了NLP2.0。其核心思想就是把互聯(lián)網(wǎng)當成一個研究平臺,在其上進行數(shù)據(jù)獲取、模型訓(xùn)練、實施、與用戶互動[6]。同時,把自然語言研究和用戶需求和市場因素適度地聯(lián)絡(luò)起來,爭取互動。為此我們倡導(dǎo): 第一,利用互聯(lián)網(wǎng)的海量數(shù)據(jù)來支持各類應(yīng)用?;ヂ?lián)網(wǎng)的各類數(shù)據(jù),包括網(wǎng)頁數(shù)據(jù)、論壇、博客、社區(qū)問答、用戶標簽、搜索日志和網(wǎng)絡(luò)服務(wù)日志都需要充分地利用起來。第二,呼吁快速實施。系統(tǒng)在雛形階段就需考慮盡快投放使用以便根據(jù)用戶反饋改善功能并且完備界面設(shè)計。對搜索而言,可以根據(jù)用戶日志優(yōu)化問題理解并改變排序的權(quán)重。第三,充分利用社區(qū)問答、維基百科和用戶標簽加強訓(xùn)練和測試。 第四,要加強多學(xué)科的交叉,數(shù)據(jù)挖掘,機器學(xué)習(xí),搜索、廣告、人機交互、互聯(lián)網(wǎng)經(jīng)濟學(xué)和社會學(xué)和自然語言處理充分交融。第五,建立大規(guī)模的數(shù)據(jù)處理平臺以支持網(wǎng)絡(luò)挖掘、信息抽取、模型訓(xùn)練和系統(tǒng)實施。我們通過進行微軟對聯(lián)(http://duilian.msra.cn)[7]和英庫(www.engkoo.com)[1-2]的研究,對NLP2.0有了更深的體會。在Web上獲取大規(guī)模對聯(lián)數(shù)據(jù)以及雙語例句,然后利用統(tǒng)計機器學(xué)習(xí)算法建立知識庫、對聯(lián)引擎和翻譯引擎。在此基礎(chǔ)上,針對用戶需求建立系統(tǒng),然后迅速把系統(tǒng)部署到互聯(lián)網(wǎng)供用戶使用。通過對用戶的反饋和對用戶使用日志的分析,了解詳細的用戶需求,獲知系統(tǒng)的不足,從而改進系統(tǒng)能力。以微軟對聯(lián)為例,上個月還對不好的上聯(lián),下個月也許就可以給出完美的下聯(lián)。英庫也是一樣,昨天還查不到的新詞,今天就可以查到了,昨天還翻譯不好的句型,今天就可以翻譯得很好。這些都得益于NLP2.0的策略。
一個搜索引擎的成功非一蹴而就之功。為了支持可持續(xù)的發(fā)展,需要重視如下幾個層次的工作。
為了支持搜索引擎以及建立在其上的各種漸次展開的應(yīng)用,一個低價的、可擴展的、容錯的、安全的服務(wù)器陣列所需要的軟件和硬件整體配合的基礎(chǔ)架構(gòu)體系是關(guān)系到搜索引擎未來長久穩(wěn)定發(fā)展的基礎(chǔ)。大公司應(yīng)建立內(nèi)部的云計算平臺支持搜索引擎、門戶、廣告等系統(tǒng)。一個初創(chuàng)公司可考慮租用云計算服務(wù)以避免創(chuàng)新被基礎(chǔ)設(shè)施的沉重負擔而耽擱。
我們需要研究如何幫助用戶良好地表達自己的搜索需求;其次,研究把順序排列的搜索結(jié)果變成結(jié)構(gòu)化的層次性的或者表格化的搜索結(jié)果的呈列形式。需要重視提升整體上的用戶體驗,比如簡明的題目和摘要。在垂直領(lǐng)域比如新聞,可以提供深層的新聞事件分析和情感分析。在內(nèi)容的獲取方面,加強對實時內(nèi)容的搜集和聚合。開發(fā)垂直服務(wù)使得搜索到任務(wù)的完成變得方便。譬如旅游、新聞、購物、交通、地圖、辭典等垂直領(lǐng)域。在開發(fā)創(chuàng)新的互聯(lián)網(wǎng)服務(wù)時,要有深遠的眼光和跨越技術(shù)、市場、用戶的視角來決定努力的方向,又要把握切入的時機和與之配套的其他服務(wù)使得新的搜索系統(tǒng)與已有的生態(tài)系統(tǒng)內(nèi)的服務(wù)可以很好地共存。在與搜索配套的廣告領(lǐng)域,要持續(xù)探索創(chuàng)新的廣告模式,加強廣告系統(tǒng)的用戶自主式服務(wù)。在社會關(guān)系網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)時代,要考慮各種個性化的廣告方式。
創(chuàng)新可以是一個新穎的算法,把時間復(fù)雜性和空間復(fù)雜性降低。也可以是一個系統(tǒng),也許該系統(tǒng)的每一個部件都不是創(chuàng)新,但是整個系統(tǒng)的巧妙構(gòu)造解決了一個新的問題。也可以是一個新的商業(yè)模式,該商業(yè)模式無奇之處,但是適應(yīng)天時地利和人和。因此,我們不一定要去啃局部硬骨頭,倒是可以鼓勵拿來主義,快速掌握人類已有的知識和技術(shù)并使之適應(yīng)本地文化和用戶習(xí)慣從而解決一個用戶頭疼的問題。Twitter的成功也發(fā)人深思。其構(gòu)思也許沒有太多技術(shù)成分,但是它創(chuàng)造了一個嶄新的交流方式,使得人們可以沒有負擔地完成信息發(fā)布、分享、評論、推薦等任務(wù),很快使用者云集。
我們應(yīng)該提倡做有用的研究。第一,問題要從市場需求中來;第二,既然叫研究,就要有獨特的創(chuàng)意,而不是別人做了一些東西,你跟著做了一些東西;第三,其結(jié)果應(yīng)該是提供針對某一個問題的整體解決方案。
要建立創(chuàng)新的文化,讓所有人都敢于創(chuàng)新,伴隨著創(chuàng)新成長。對每一個人要制定一個明確的職業(yè)發(fā)展路線,并通過嚴格的考核制度保證執(zhí)行力。我們需要不拘一格降人才。企業(yè)需要找到對科技和創(chuàng)新有獨到見解并在數(shù)學(xué)和編程有扎實基礎(chǔ)的人。但是一個人不可能什么都強。因此需要大膽起用并且通過團隊合作彌補每一個人的不足。搜索系統(tǒng)需要面對海量的不斷變化的數(shù)據(jù),面對各種各樣的網(wǎng)民訴求而建立起來的互相協(xié)同的產(chǎn)品和服務(wù)體系,需要多方面的人才,同時也需要人才要不斷提高自己增加其他方面的技能。搜索引擎遲早是一個全球化的業(yè)務(wù),需要我們既有本地意識也要有全球視野。
搜索引擎的發(fā)展從依賴機器算法(譬如基于關(guān)鍵詞和page rank)進入到引入人的因素(社區(qū)、問答、百科)提高精準性、用戶的黏度和技術(shù)門檻,從通用搜索進入到各種垂直領(lǐng)域的精耕細作(譬如新聞、旅游),從粗放型的10個鏈接加上翻頁進入到精美的個性化的答案展示。而社會關(guān)系網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)的大潮催生著搜索引擎領(lǐng)域的新的創(chuàng)新。我們要順應(yīng)技術(shù)潮流,建立有前瞻性的研究規(guī)劃,培育創(chuàng)新的技術(shù),創(chuàng)造顛覆性的商業(yè)模式。
[1] Matthew R. Scott, Xiaohua Liu, Ming Zhou. Engkoo: Mining the Web for Language Learning[C]//Proceedings of ACL 2011(System Demonstrations).
[2] Matthew R. Scott, Xiaohua Liu, Ming Zhou. Towards a Specialized Search Engine for Language Learners[C]//Proc. of the IEEE, 2011, 99(9): 1462-1465.
[3] Xiaohua Liu, Long Jiang, Furu Wei, et al. QuickView: Semantic Search For Tweets[C]//SIGIR 2011 (System Demonstrations).
[4] Ming Zhou. Semantic Analysis and Search of Twitter and Chinese Weibo[C]//Tutorial at International Conference on Neural Information Processing http://iconip2011.sjtu.edu.cn/T6.html, Nov. 13, 2011.
[5] 李飛,搜索引擎與社交網(wǎng)絡(luò)的博弈[J].計算機學(xué)會通訊,2011,7(9): 54-57.
[6] 周明. 互聯(lián)網(wǎng)時代的自然語言處理[DB/OL]//第六屆哈工大—微軟亞洲研究院人類語言技術(shù)暑期學(xué)校講座, http://mitlab.hit.edu.cn/2011summerschool/related/HIT-Summer-School-2011@Imingzhou.pdf.
[7] Long Jiang, Ming Zhou. Generating Chinese Couplets using a Statistical MT Approach[C]//COLING 2008: 377-384.