文/張全
讓計算機擁有像人類一樣的語言智能、理解人類的語言,是自然語言理解的宏偉目標(biāo),也是當(dāng)今信息時代面臨的一項重大科學(xué)難題。這一目標(biāo)一旦獲得突破,就相當(dāng)于掌握了制造語言超人的能力。這個語言超人可以不眠不休,一天24小時,一目萬行閱讀資料,從中提取有用的知識。這將有力推進信息時代的發(fā)展,從當(dāng)前以數(shù)據(jù)處理為中心的初級階段演進到以知識處理為中心的高級階段,形成巨大的語言知識處理和知識服務(wù)產(chǎn)業(yè),并深刻影響計算機科學(xué)與技術(shù)的發(fā)展。
隨著因特網(wǎng)的發(fā)展,網(wǎng)絡(luò)上電子文本急速增長,高效準(zhǔn)確地從因特網(wǎng)的海量信息中獲取有效信息已成為社會生活中的迫切需求。中國科學(xué)院聲學(xué)研究所研究員黃曾先生響應(yīng)這一時代的號召,面向整個自然語言處理的一系列問題創(chuàng)立了概念層次網(wǎng)絡(luò)(簡稱HNC)理論,并發(fā)展形成了深入語義內(nèi)容計算的HNC語言理解處理技術(shù)。HNC是這一理論與技術(shù)的統(tǒng)稱。HNC的出發(fā)點就是運用局部聯(lián)想脈絡(luò)和全局聯(lián)想脈絡(luò)來“幫助”計算機理解自然語言,HNC通過交互引擎的研制來實現(xiàn)計算機對語言的理解過程。
HNC與傳統(tǒng)的自然語言理解處理對比
下面將HNC與傳統(tǒng)的自然語言理解處理作一個簡單對比。
HNC的研究在多個國家級項目的資助下不斷深化,不僅應(yīng)用于實際的網(wǎng)絡(luò)信息處理服務(wù),而且在評測中展示出優(yōu)越的性能。2009年中文信息學(xué)會組織了句法評測(CIPS-Pars Eval-2009),共有來自美國、歐洲、中國大陸和香港地區(qū)的24支隊伍參加。HNC參加了漢語事件描述單元識別和漢語功能塊分析兩項目的開放評測,盡管語言理論體系上存在比較大的差異,但是仍然取得了第一名和第二名的成績。
“HNC智能網(wǎng)絡(luò)信息檢測系統(tǒng)”的最大特點是能夠深入自然語言的語義內(nèi)容深層完成語言分析處理,而不是僅僅利用語言的表層信息進行淺層處理,因而能夠準(zhǔn)確獲取文字文本所表達(dá)的語言內(nèi)容。盡管涉及同樣的詞語,HNC技術(shù)卻能夠區(qū)分并準(zhǔn)確判斷網(wǎng)絡(luò)內(nèi)容是否是用戶關(guān)注的內(nèi)容。HNC面向整個自然語言處理,不僅可以完成單個語句的分析處理,還可以完成多個語句圍繞一個表達(dá)中心形成的句群處理,萃取其中的主題境單元知識,從而具有強大的語義區(qū)分能力。
HNC團隊已經(jīng)取得了多項科研成果,形成了自主知識產(chǎn)權(quán)的自然語言理解處理技術(shù)體系,為構(gòu)造各種滿足信息時代需求的信息處理應(yīng)用技術(shù)奠定了堅實的基礎(chǔ)。同時,以HNC為基礎(chǔ)的各種應(yīng)用技術(shù)已經(jīng)面市,并成功應(yīng)用于智能網(wǎng)絡(luò)信息檢測軟件系統(tǒng)中,正在為保障信息安全、凈化互聯(lián)網(wǎng)的網(wǎng)絡(luò)內(nèi)容發(fā)揮著重要作用?!癏NC智能網(wǎng)絡(luò)信息檢測系統(tǒng)”融合了HNC自然語言理解處理技術(shù)與先進的網(wǎng)絡(luò)技術(shù),主要特點包括:1.根據(jù)用戶需求,針對網(wǎng)絡(luò)上出現(xiàn)的特定信息文本內(nèi)容進行檢測(例如色情、反動、低俗等不良信息)報警;2.基于最新的自然語言內(nèi)容理解技術(shù),不同于以往的基于關(guān)鍵字詞的檢測系統(tǒng),準(zhǔn)確率高;3.對不能做出判斷的內(nèi)容能提出警告,供人工判別,和傳統(tǒng)的檢測系統(tǒng)相比能夠大大地提高網(wǎng)頁的處理數(shù)量和減少監(jiān)管人員人工干預(yù)的工作量;4.可為用戶定制語言知識,兼容關(guān)鍵詞處理;5.可對特定網(wǎng)站內(nèi)容進行下載、解析、檢測并自動生成檢測報告;6.支持靜態(tài)檢測和動態(tài)監(jiān)測;7.支持多種編碼方式;8.支持多傳輸協(xié)議解析;9.支持云計算,快速處理海量文本內(nèi)容。
處理的困境
根據(jù)中國教育和科研計算機網(wǎng)CERNET面向高招網(wǎng)服務(wù)的需求,在“HNC智能網(wǎng)絡(luò)信息檢測系統(tǒng)”基礎(chǔ)的上建立形成了“不良信息檢測系統(tǒng)”。這一系統(tǒng)已經(jīng)成為賽爾網(wǎng)絡(luò)體檢中心的一項體檢功能,開始為高招網(wǎng)提供不良信息檢測的服務(wù)。截止目前已經(jīng)注冊了一百多個網(wǎng)站,每次掃描檢測的網(wǎng)頁數(shù)超過14萬個,檢測系統(tǒng)根據(jù)掃描結(jié)果自動生成檢測報告,供系統(tǒng)管理員參考。