国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

張全:給網(wǎng)絡(luò)裝上“電子眼”

2009-05-31 09:47

姜 靖

今年1月底,正當(dāng)全國(guó)上下開展整治互聯(lián)網(wǎng)低俗之風(fēng)專項(xiàng)行動(dòng)之際,中科院聲學(xué)所研發(fā)出一種具有語義理解特點(diǎn)的“網(wǎng)絡(luò)不良信息檢測(cè)系統(tǒng)”,能幫助監(jiān)管部門和網(wǎng)站管理者監(jiān)控色情和低俗等不良信息。張全正是該項(xiàng)目的負(fù)責(zé)人,本來就很忙的他,一下子又讓新聞界給“包圍”了。

“我沒有故事,就是一個(gè)普通人?!睆埲辉購?qiáng)調(diào)。然而,隨著采訪的深入,記者仿佛從這個(gè)“普通人”身上看到千千萬萬科研工作者的身影,他們的喜憂苦樂是那樣的真實(shí),可愛。

三個(gè)月研發(fā)出系統(tǒng)

“你用‘三點(diǎn)造個(gè)句,如何?”一開始,記者本想請(qǐng)張全簡(jiǎn)單介紹一下這套“網(wǎng)絡(luò)不良信息檢測(cè)系統(tǒng)”,孰料他先給記者出了一道考題。

“三點(diǎn)確定一個(gè)平面。我三點(diǎn)有個(gè)采訪……”記者隨口答。

“你的造句發(fā)到網(wǎng)上,很有可能被當(dāng)成不良信息被屏蔽掉?!睆埲⑿Φ卣f。

記者愕然。這時(shí),他不慌不忙地打開電腦,調(diào)出一個(gè)程序,輸入了一個(gè)網(wǎng)址。不一會(huì)兒,屏幕開始提示有幾十個(gè)“不良信息”。然而,打開這些所謂的“不良信息”一看,其實(shí)就是幾則再正常不過的反邪教信息。

張全解釋說,傳統(tǒng)的網(wǎng)絡(luò)監(jiān)測(cè)系統(tǒng),一般是基于關(guān)鍵詞對(duì)網(wǎng)絡(luò)信息進(jìn)行機(jī)械的識(shí)別和過濾,只要文本里含有設(shè)定的關(guān)鍵詞,不管這個(gè)詞是什么意思,甚至如“小三點(diǎn)了一杯咖啡”里“三點(diǎn)”都不是一個(gè)詞,也會(huì)被屏蔽掉。

與傳統(tǒng)的網(wǎng)絡(luò)監(jiān)測(cè)系統(tǒng)不同,他們的這套系統(tǒng)主要根據(jù)語句的意義來判斷哪些網(wǎng)頁信息需要過濾。用戶只要輸入目標(biāo)網(wǎng)站的網(wǎng)址,系統(tǒng)便會(huì)自動(dòng)打開該網(wǎng)站的所有網(wǎng)頁,同時(shí)模擬人瀏覽網(wǎng)頁的方式來審查是否還有不良信息,對(duì)于不能做出判斷的內(nèi)容系統(tǒng)還能提出警告,供人工判別。

張全說,這就好比為網(wǎng)絡(luò)裝上了“電子眼”,能幫助監(jiān)管部門和網(wǎng)站管理者從源頭上“遏制不良信息傳播,凈化網(wǎng)絡(luò)環(huán)境?!?/p>

為了提供檢測(cè)標(biāo)準(zhǔn),他們課題組針對(duì)網(wǎng)絡(luò)上出現(xiàn)的色情、反動(dòng)、低俗等不良信息進(jìn)行了搜集,對(duì)其語言特征和語意特點(diǎn)進(jìn)行了提取,建立了一個(gè)龐大的不良信息知識(shí)庫,為軟件搜索不良信息提供了文字基礎(chǔ)。

目前,他們對(duì)該系統(tǒng)進(jìn)行的語料測(cè)試已超過3萬篇,測(cè)試成功率達(dá)85%以上,“完全達(dá)到了商品化的要求”。通過更換知識(shí)庫,該系統(tǒng)就可廣泛應(yīng)用在熱點(diǎn)信息跟蹤、輿情分析等領(lǐng)域。

出人意料的是,這套系統(tǒng)的研發(fā)時(shí)間并不長(zhǎng),“去年下半年才開始做,滿打滿算也就3個(gè)月的時(shí)間?!睂?duì)于這點(diǎn),張全很是自豪。

好技術(shù)竟然賣不出去

張全告訴記者,“網(wǎng)絡(luò)不良信息檢測(cè)系統(tǒng)”是自然語言理解處理技術(shù)與先進(jìn)的網(wǎng)絡(luò)技術(shù)結(jié)合的產(chǎn)物。從20世紀(jì)80年代末,中科院聲學(xué)所黃曾陽研究員就開始探索模擬人腦語言智能的自然語言理解處理模式,創(chuàng)立了“概念層次網(wǎng)絡(luò)(HierarchicalNetworkof Concepts,簡(jiǎn)稱HNC)理論”,并發(fā)展形成了HNC自然語言理解處理技術(shù)。HNC的最大特點(diǎn)是能夠進(jìn)入語義深層處理自然語言的內(nèi)容,而不是僅僅利用語言的表層信息進(jìn)行處理。通過多年的科研攻關(guān),HNC團(tuán)隊(duì)已經(jīng)取得了多項(xiàng)成果,形成了自主知識(shí)產(chǎn)權(quán)的自然語言理解處理技術(shù),為形成滿足信息時(shí)代要求的各種特定的信息處理技術(shù)奠定了堅(jiān)實(shí)的基礎(chǔ)。

然而,張全從事自然語言理解處理研究卻是在讀博士以后。1993年,從西北工業(yè)大學(xué)碩士畢業(yè)的他面臨人生的一次重大抉擇?!拔冶究啤⒀芯可鷮W(xué)的都是信號(hào)處理,研究生畢業(yè)的時(shí)候,希望自己的研究方向有所改變?!币粋€(gè)偶然的機(jī)會(huì),他認(rèn)識(shí)了黃曾陽老師。與黃老師的幾次深談,堅(jiān)定了他轉(zhuǎn)行的決心。

然而,這次轉(zhuǎn)行并沒有想象的那么輕松,而是“痛苦的像是重新生了一回?!睆埲f,自然語言處理是語言學(xué)與計(jì)算機(jī)技術(shù)的交叉學(xué)科,對(duì)語言學(xué)和計(jì)算機(jī)的要求都非常高,單單寫幾千行的程序這一項(xiàng)就讓他“吃不消”。

不過,與技術(shù)上的困難相比,張全面臨最大的挑戰(zhàn)是如何將技術(shù)產(chǎn)業(yè)化。張全說:“一項(xiàng)再完美的技術(shù),只有在市場(chǎng)中才能體現(xiàn)出其應(yīng)用的價(jià)值,停留在實(shí)驗(yàn)室無異于死路一條?!睆埲f。1996年博士畢業(yè)后,他的工作重心就轉(zhuǎn)向技術(shù)轉(zhuǎn)化上來。當(dāng)時(shí),盡管國(guó)內(nèi)做自然語言處理的不止他們一家,然而如何將自然語言處理技術(shù)進(jìn)行技術(shù)轉(zhuǎn)化,是大家都在探索的問題,沒有現(xiàn)成的模式可循,同時(shí),自己?jiǎn)挝挥譀]有產(chǎn)業(yè)化的平臺(tái),致使產(chǎn)業(yè)化一度陷入困境。2000年年底,他們嘗試?yán)肂NC理論的無形資產(chǎn)與外面公司聯(lián)合成立了按企業(yè)模式獨(dú)立運(yùn)營(yíng)的研究院,計(jì)劃將其打造成產(chǎn)業(yè)化基地,因種種原因,這一目標(biāo)還在努力之中。

去年下半年,國(guó)內(nèi)凈化網(wǎng)絡(luò)環(huán)境的呼聲日益高漲,張全他們?cè)诙虝r(shí)間內(nèi)研發(fā)出“網(wǎng)絡(luò)信息不良信息監(jiān)測(cè)系統(tǒng)”,希望搭乘國(guó)家整治不良信息的快車,打開市場(chǎng)。

也曾遭遇“無米下鍋”

身為自然處理項(xiàng)目負(fù)責(zé)人,張全不得不花時(shí)間精力去談項(xiàng)目,找經(jīng)費(fèi)?!拔腋憧蒲谐錾?,以前總想著做好研究就行了”。然而,現(xiàn)在他坐在這個(gè)位置上,就不可能對(duì)這些事完全置身事外,如果有一個(gè)好項(xiàng)目,覺得機(jī)會(huì)好,他也會(huì)花時(shí)間來談。

張全說,雖然聲學(xué)所做自然語言處理已有45年的歷史,但是至今在很多人眼里,做語言處理應(yīng)該不是聲學(xué)所的事,聲學(xué)所來做就難以形成品牌效應(yīng),每次拿出去跟人家談都要解釋一番,項(xiàng)目更不會(huì)主動(dòng)找上門來。很長(zhǎng)一段時(shí)間,課題組“吃了上頓沒下頓?!?/p>

張全回憶說,1996年到1998年間,課題組基本上申請(qǐng)不到課題,沒有課題就沒有經(jīng)費(fèi),當(dāng)時(shí)中科院系統(tǒng)已開始全成本核算,所里給予了一定的幫助但非常有限,課題組成員的收入很難和其他課題組相比,一些研究人員選擇了離開。課題組只剩下幾個(gè)人。因?yàn)樵谕饷嬲也坏阶√帲瑥埲缓迷诓┦可奚帷百嚒绷艘荒甓?。有個(gè)細(xì)節(jié)張全印象特別深,那時(shí)有很多同學(xué)在外面混的特別好,每次同學(xué)聚會(huì),他只管去吃,同學(xué)從來不忍心讓他付錢。

“也不覺得苦,當(dāng)時(shí)也沒小孩,物價(jià)水平也不高,生活還是沒有太大問題?!睆埲⑿Φ卣f。

一直到1998年底,課題組申請(qǐng)到新的課題,一切才漸漸恢復(fù)正常。1999年年底,聲學(xué)所被批準(zhǔn)進(jìn)入中科院創(chuàng)新基地后,所領(lǐng)導(dǎo)給予了課題組很大的經(jīng)費(fèi)、人員和機(jī)制的支持,使得課題組人員一度達(dá)到20多人。那段時(shí)間,課題組科研進(jìn)展很快,成果出得也多。

張全說,隨著信息時(shí)代的發(fā)展,對(duì)自然語言處理技術(shù)的需求將愈來愈多,計(jì)算機(jī)的功能必將由以簡(jiǎn)單的數(shù)值計(jì)算為主逐步過渡到以信息知識(shí)處理為主。那時(shí),他們的自然語言理解處理技術(shù)將大有可為。

然而,在培育產(chǎn)業(yè)環(huán)境的同時(shí),他們最為迫切的任務(wù)是完善專業(yè)知識(shí)庫,但是因?yàn)榻?jīng)費(fèi)不足,這項(xiàng)工作進(jìn)展一直不太順利。

华宁县| 修文县| 黎城县| 漠河县| 长春市| 岚皋县| 明溪县| 石嘴山市| 巴青县| 凌海市| 天长市| 汕尾市| 桦甸市| 朝阳区| 巴马| 秦皇岛市| 松江区| 东阳市| 济宁市| 东乡县| 内乡县| 宁海县| 乌拉特中旗| 滁州市| 武强县| 乡城县| 台前县| 滦平县| 宜兰市| 江门市| 兴安盟| 金沙县| 贞丰县| 乌拉特后旗| 南皮县| 襄城县| 康保县| 兴化市| 睢宁县| 敦化市| 玉屏|