郭建偉,燕娜,陳佳宇
(北京市科學(xué)技術(shù)情報研究所信息資源部,北京 100044)
互聯(lián)網(wǎng)搜索的查詢被劃分成少數(shù)幾個關(guān)鍵詞而不是以自然語言表述的實際的問題。人們可以用基于社區(qū)的問答系統(tǒng)通上下文獲得更為明確的理解而給出更好的回答。相比而言,一個互聯(lián)網(wǎng)搜索引擎對于一段很長的查詢只能給出很差的返回結(jié)果或不返回任何有價值的東西。人們只能將他們的問題轉(zhuǎn)化成一個或幾個貼切的關(guān)鍵詞去嘗試相對貼切的回復(fù)。信息檢索研究的長期目標(biāo)是開發(fā)檢索模型來為更長、更專門的查詢提供精確的結(jié)果。因此需要更好的理解文本信息。嚴(yán)格來說,自然語言處理[1][2](Natural Language Processing),包括自然語言理解和自然語言生成兩部分。
自然語言就是人交流用的語言。自然語言處理的研究方向包括以下幾種[2]:
規(guī)則方法:可以用規(guī)則的方法預(yù)先準(zhǔn)備好一些先驗知識。然后用統(tǒng)計的方法來處理未知的情況。把些人工經(jīng)驗放入規(guī)則庫。很多時候,人講話并不是按概率來的,除非是隨便說說。比如說,怎么減肥,只能說吃那么幾樣減肥的食品。
統(tǒng)計方法:語料庫就是一個文檔的樣本庫。需要有很大的規(guī)模,オ有概率統(tǒng)計的意義,可以假設(shè)很多詞和句子都會在其中出現(xiàn)多次。
計算框架:算法設(shè)計是一件非常困難的工作,需要有很好的數(shù)據(jù)結(jié)構(gòu)基礎(chǔ),采用的算法設(shè)計技術(shù)主要有迭代法、分治法、動態(tài)規(guī)劃法等,互聯(lián)網(wǎng)搜索經(jīng)常面臨海量數(shù)據(jù),需要分布式的計算框架來執(zhí)行對網(wǎng)頁重要度打分等計算。
語義庫:自然語言中的語義復(fù)雜多變,如:在“買玩偶送女友”中,“送”這個詞不止一個義項,Opence 提供了OWL 格式的英文知識庫。
自動句法分析[3]主要有兩種模式:一是短語結(jié)構(gòu)語法,二是依存語法,依存語法更能體現(xiàn)句子中詞與詞之間的關(guān)系。StanfordParser 實現(xiàn)了一個基于要素模型的句法分析器,其主要思想就是把一個詞匯化的分析器分解成多個要素(factor)句法分析器。Stanford Parser 將一個詞匯化的模型分解成一個概率上下文無關(guān)文法(PCFG)和一個依存模型,Sharpnlp 可以圖形化顯示句法樹,它是用C#實現(xiàn)的,可以利用依存關(guān)系改進一元分詞,也可以利用依存關(guān)系改進二元分詞等。
互聯(lián)網(wǎng)給人們提供了數(shù)不盡的信息和網(wǎng)頁,其中有許多是重復(fù)和多余的,這就需要文檔排重[4]。比如,央行的征信中心會收到來自不同銀行申請貸款的客戶資料,需要合并重復(fù)信息,并整合成一個更完整的客戶基本信息,這就可以通過計算信息的相似性合并來自不同數(shù)據(jù)來源的數(shù)據(jù)。文檔排重的方法中語義指紋是可行的方法之一。在具體的針對句子做抄襲性檢測的實踐中,可以按句子生成Simhash,然后根據(jù)生成的文檔指紋信息對文檔分類。
同義詞替換:“年糕”也叫作“切糕”,如果有人聽不懂某個詞,可以換個說法再重復(fù)一遍。需要把說法統(tǒng)一,例如把“國家稅務(wù)局”替換成“國稅局”,“國稅局”是“國家稅務(wù)局”的縮略語企業(yè)的簡稱和全稱可以看成是語義相同的。一般來說,可以用長詞替換短詞。在地址方面有時會有各種不同的寫法和行政區(qū)域編碼,這時同義詞替換的方法之一是可以把門牌號碼中文串轉(zhuǎn)成阿拉伯?dāng)?shù)字。例如:“甘家口一號樓”轉(zhuǎn)換成:“甘家口1 號樓”。漢語中構(gòu)造縮略語的規(guī)律很詭異,目前也沒有一個定論。初次聽到這個問題,幾乎每個人都會做出這樣的猜想:縮略語都是選用各個成分中最核心的字,比如“海關(guān)檢查”縮成“海檢”“人民法官”縮成“法官”等。不過,反例也是有的,“郵政編碼”就被縮成了“郵編”,但“碼”無疑是更能概括“編碼”一詞的。當(dāng)然,這幾個縮略語已經(jīng)逐漸成詞,可以加進詞庫了。
信息抓?。↖nformation Extraction,IE),是把文本里包含的信息進行結(jié)構(gòu)化處理[5],變成表格一樣的組織形式。在信息抓取系統(tǒng)中,輸入的是原始文本,輸出的是固定格式的信息點。這些被抓取的信息點以統(tǒng)一的形式集成在一起。這就是信息抽取的主要任務(wù)。例如草莓價格上漲,櫻桃價格下跌,語義標(biāo)注出草莓和櫻桃都是水果,得到關(guān)鍵詞“水果”。信息抽取技術(shù)并不試圖全面理解整篇文檔,只是對文檔中包含相關(guān)信息的部分進行分析。在信息抽取中,要完成指代消解的任務(wù),從網(wǎng)頁中如何抓取有用的信息并將其歸類的方法。比如,如何從一個大的正確詞表中找和輸入詞編輯距離小于k 的詞集合,使用了兩個有限狀態(tài)機求交集的方法。
圖1 關(guān)鍵詞提取流程圖
關(guān)健詞提取是文本信息處理的一項重要任務(wù),例如可以利用關(guān)鍵詞提取來發(fā)現(xiàn)新聞中的熱點題。和關(guān)鍵詞類似,很多政府公文也有主題詞描述,上下文相關(guān)廣告系統(tǒng)也可能會用到關(guān)鍵詞提取技術(shù),統(tǒng)計詞頻和詞在所有文檔中出現(xiàn)的總次數(shù)。TF(Term Frequence)代表詞頻,IDF(Invert Document Frequence)代表文檔頻率的倒數(shù)。比如說“的”在100文檔中的40 篇文檔中出現(xiàn)過,則文檔頻率DF(Document Frequence)是40,IDF 是140?!暗摹痹诘谝黄臋n中出現(xiàn)了15 次,則TFWIDI(的)=15*140-0.375。另外一個詞“反腐數(shù)”在這100 篇文檔中的5 篇文檔中出現(xiàn)過,則DF 是5,IDF 是15?!胺锤瘮 痹诘谝黄臋n中出現(xiàn)了5 次,則TF*IDF(反腐?。?*1/5=1,結(jié)果是:TF*DF(反腐敗)TF+DF(的)。
模糊匹配問題:從用戶查詢詞中挖掘正確提示詞表,一般不需要提示沒有任何用戶搜索過的詞,可以輸入任何詞,然后自動機可以基于是否和目標(biāo)詞的編輯距離最多不超過給定距離從而接收或拒絕它。而且,由于FSA 的內(nèi)在特性,可以在O(n)時間內(nèi)實現(xiàn)。這里,m 是測試字符串的長度。而標(biāo)準(zhǔn)的動態(tài)規(guī)劃編輯距離計算方法需要O(m*)時間,這里m 和n 是兩個輸入單詞的長度。因此編輯距離自動機可以更快地檢查許多單詞和一個目標(biāo)詞是否在給定的在最大距離內(nèi)。
所謂自動摘要,就是利用計算機自動地從原始文獻中提取摘要[6]。比如,手機顯示屏的大小是有限的,因此智能手機上顯示新聞的短摘要。對于論壇中長篇的帖子,有的網(wǎng)友會求摘要。最簡單的自動生成摘要的方法是返回文格的第一句,稍微復(fù)雜點的方法是首先確定最重要的幾個句子,然后根據(jù)最重要的幾個句子生成摘要。
文本分類就是讓計算機對一定的文本集合按照一定的標(biāo)準(zhǔn)進行分類。比如,小李是個足球迷,喜歡看足球類的新聞,新聞推薦系統(tǒng)使用文本分類技術(shù)為小李自動推薦足球類的新聞。文本分類程序把一個未見過的文檔分成已知類別中的一個或多個,例如把新聞分成國內(nèi)新聞和國際新聞。利用文本分類技術(shù)可以對網(wǎng)頁分類,也可以用于為用戶提供個性化新聞或者垃圾郵件過濾把給定的文檔歸到兩個類別中的一個叫作兩類分類,例如垃圾郵件過濾,就只需要確定“是”還是“不是”垃圾郵件。分到多個類別中的一個叫作多類分類,例如中圖法分類目錄把圖書分成22 個基本大類文本分類主要分為訓(xùn)練階段和預(yù)測階段。訓(xùn)練階段得到分類的依據(jù),也叫作分類模型。預(yù)測階段根據(jù)分類模型對新文本分類。訓(xùn)練階段一般先分詞,然后提取能夠作為分類依據(jù)的特征詞,最后把分類特征詞和相關(guān)的分類參數(shù)寫入模型文件。提取特征詞這個步驟叫作特征提取。早期經(jīng)常采用樸素貝葉斯的的文本分類方法,后來支持向量機方法成為首選。除此之外,還可以對人的行為聚類。90 年代末期,美國S.Reis 教授通過對2300 多名被試者的300 多種行為所做的因素分析表明,人類的所有行為可以聚類為15 種行為。
語音識別技術(shù)[7],也被稱為自動語音識別(Automatic Speech Recognition,ASR),它是一種交叉學(xué)科,與人們的生活和學(xué)習(xí)密切相關(guān),其目標(biāo)是將說話者的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。比如,將來打銀行的客服電話,可以直接和銀行系統(tǒng)用口語對話,而不是“普通話請按1”這樣把人當(dāng)成機器的詢問,實現(xiàn)語音交互。初學(xué)者不會寫代碼,有經(jīng)驗的程序員可以口述代碼,然后讓初學(xué)者把代碼敲進去,為了節(jié)約程序員的時間,可以用語音識別代碼根據(jù)語音翻譯成文字,進一步,還可以根據(jù)識別出的文字識別語意,這樣可以讓機器和人交流。兒童識別圖片后,可以說出這個圖是老虎還是大象。系統(tǒng)使用語音識別技術(shù)判斷孩子回答是否正確。對于不正確的,系統(tǒng)自動給出提示。開放式語音識別做好不容易,可以輔助人工輸入字幕,類似語音輸入法。Julius是日本京都大學(xué)和一家日本公司開發(fā)的大詞匯量語音識別引弊,是一種高性能、與語音相關(guān)的研究和開發(fā)的解碼器軟件,基于字的N-gram 和上下文相關(guān)的HMM 模型,目前已經(jīng)應(yīng)用于日語和漢語的大規(guī)模連續(xù)語音識別。在Juis 系統(tǒng)中存在連個模型:語言模型和聲學(xué)模型。
圖2 語音識別結(jié)構(gòu)
自然語言處理技術(shù)包括很多方面,如文本分類、對話系統(tǒng)、機器翻譯等。人們經(jīng)常用到的查詢功能使用的是搜索引擎技術(shù),用戶在搜索引擎中輸入較長的問題時,計算機要能夠給出準(zhǔn)確的答案。在幾乎是所有的我們從電影或電視上看到的未來,搜索引擎已經(jīng)進化到類似人類助手一樣能回答針對任何事物的復(fù)雜問題的程度。然而,盡管互聯(lián)網(wǎng)搜索引擎能夠?qū)Ш椒浅>薮蟮闹R范圍,但是我們要達到智能助手的能力還很遠。