国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機器學習的文本分類技術研究進展

2016-03-27 18:14孫逸菲
移動信息 2016年11期
關鍵詞:研究進展機器概念

孫逸菲

?

基于機器學習的文本分類技術研究進展

孫逸菲

沈陽化工大學信息工程學院,遼寧 沈陽 110142

信息化時代信息容量出現(xiàn)爆發(fā)性增長的趨勢,信息量的增加在豐富人們生活的同時也會造成一定麻煩,為了實現(xiàn)科學高效工作就需要對海量信息進行有效管理。文本分類就是這樣一種技術,這種技術能夠幫助人們迅速獲取準確信息。同傳統(tǒng)的文本分類技術相比,基于機器學習的文本分類方式應用更為廣泛,效果也更為明顯。這項技術所發(fā)揮的作用也越來越重要,正因為如此就需要對基于機器學習的文本分類技術進行深入分析。從文本分類概念入手重點分析了當前的研究進展。

文本分類;機器學習;計算機

在經濟社會快速發(fā)展的背景下,網絡信息急劇增長,文本形式的信息更是呈現(xiàn)出了爆炸性增長趨勢。在這樣的背景下為了有效提升信息管理效率就要利用更為高效地文本分類技術?;跈C器學習的文本分類技術已經成為近些年來人們普遍采用的一種方式,這樣一種方式的應用能夠起到非常重要的現(xiàn)實意義。

1 文本分類概念

文本是當前語言應用的主要形態(tài),所謂文本分類實際上就是要在既定分類體系下來根據文本內容或者是屬性把文本劃分為一個或者多個預先定義的類別當中。如果從數學角度來看文本分類實際上就是一個映射過程,這個映射過程既可以是一一映射,又可以是一對多映射。[1]

文本分類是一項非常專業(yè)地工作,這項工作的進行是包含多個環(huán)節(jié)的,文本預處理、文本表示、特征提取、分類器選擇訓練、分類結果評價及反饋就是其中主要環(huán)節(jié)。文本預處理就是要把原始語了格式化成規(guī)范格式,文本模型實際上就是要把文本分解成基本處理單元;特征處理就是要總結出特征,然后進行科學分類,最后就是要對分類效果進行科學評價。

2 機器學習思想

當前對于機器學習還沒有統(tǒng)一定義,對于這一概念也很難作出一個公正的定義。從當前實際研究情況來看人們通常把利用計算機來模擬人類學習活動看作是機器學習,通過機器學習最終目的是為了能夠獲得新技能和新知識。多數情況下所謂機器學習主要指的是計算機學習。這一概念誕生以來人們就開始探索如何利用機器學習能夠更緊密地貼近人類學習,能夠讓計算機掌握人類智能。在這方面人們對此是取得了不小成果的。[2]

自20世紀50年代以來,人們對此研究正式開始。無知學習是50年代到60年代機器學習研究的階段,在這一階段的主要目標就是為了能夠研究出各類自組織系統(tǒng)及自適應系統(tǒng)。在實際研究過程中為了提升系統(tǒng)執(zhí)行力,人們也對系統(tǒng)控制參數進行不斷改進。盡管如此機器學習還是難以滿足人們需求。

第二階段是從60年代中葉到70年代中葉。研究目標是模擬人類的概念學習過程,并采用邏輯結構或圖結構作為機器內部描述。機器能夠采用符號來描述概念(符號概念獲?。⑻岢鲫P于學習概念的各種假設。這種學習系統(tǒng)取得了較大的成功,但只能學習單一概念。

第三階段是從70年代中葉到80年代中葉。在這個時期,人們從學習單個概念擴展到學習多個概念,搜索不同的學習策略和各種學習方法。機器的學習過程一般都建立在大規(guī)模的知識庫上,實現(xiàn)知識強化學習。尤其令人鼓舞的是,該階段已開始把學習系統(tǒng)與各種應用結合起來,并取得了很大的成功,促進了機器學習的發(fā)展。1980年,在美國CMU大學召開的第一屆機器學習國際研討會,標志著機器學習研究已經在全世界興起。[3]

到了80年代中葉,人們對機器學習的研究開始越來越深入,診斷分類專家系統(tǒng)、聲圖文識別系統(tǒng)、工程控制等技術也得到了廣泛應用。這些技術的應用使得機器學習所發(fā)揮的影響越來越大。

3 研究進展和現(xiàn)狀

在了解基本概念之后本文將重點探討基于機器學習的文本分類方法的研究進展,通過對研究進展的梳理能夠使人們對此能夠有更加深刻地認識。

(1)研究進展。20世紀50年代末人們開始對自動分類進行研究,美國IBM公司在這一領域更是起到了先驅作用,詞頻統(tǒng)計思想的提出和應用就是IBM的重大貢獻。1964年Maron則是提出了關于自動分類的論文。進入60年代文本分類從原來的基于知識途徑正式發(fā)展到了基于機器學習的階段。在實際發(fā)展過程中基于機器學習的文本分類方法取得了豐碩成果,到了90年代正式取代了知識工程方法。從理論研究到正式應用,基于機器學習的文本分類法經過了多年發(fā)展,直到1975年以后這種方法才得以正式應用,其作用也才得以充分發(fā)揮。[4]

從國內研究情況來看,國內對于基于機器學習的文本分類方法的研究最早開始于20世紀80年代,候漢清教授是國內第一位對自動分類進行研究的學者,在實際研究過程中對國外計算機管理分類表等方面的內容進行了詳細介紹。當時國內文本分類研究的方法也是非常單一的,在分類過程中主要是在英文文本分類基礎上來結合中文文本自身特點從而來采取相應措施。在經過多年發(fā)展滯后,當前我國已經出現(xiàn)了一批自動分類系統(tǒng),目前國內的自動分類系統(tǒng)主要是分為基于詞典法的自動分類系統(tǒng)和基于專家系統(tǒng)的自動分類系統(tǒng)。總的來看當前我國基于機器學習的文本分類方法同外國相比還是有明顯差距的,要想實現(xiàn)更為科學廣泛地應用,今后工作中還需要不斷加強研究。這樣才能夠滿足需要。

(2)研究現(xiàn)狀。當前針對基于機器學習的文本分類方法的研究是取得了不少進展的,同時也應該看到,在實際研究過程中也還存在著不少問題,具體而言存在以下問題:

缺少統(tǒng)一的中文語料庫。至今尚無標準的用于文本分類的中文語料庫,各個研究者分頭收集自己的訓練文本集,并在此基礎上開展研究。因此語料庫基本上都是針對自己的系統(tǒng)而規(guī)劃的,不具有普遍性。

特征向量形成方法有待改進。特征向量的形成包括特征提取和權重確定兩個方面,是文本分類中十分重要的一個環(huán)節(jié),對文本分類正確率有著決定性的影響。在目前適用的方法中,普遍采取與詞頻和倒文檔頻率相關函數確定權重的方法,文本中很多其他的信息沒有用上,造成了特征詞權重的片面性。

分類方法的準確度。目前文本分類方法主要以機器學習方法為主,取得了較好的效果。但單一的分類方法往往在保證分類準確度和高效率之間難以取得平衡,實際需要建立一個即能保證分類準確度又能取得高效率的文本分類系統(tǒng)。

基于機器學習的文本分類方法是一種非常典型地方法,這種方法在實際工作中的應用對于提升信息管理效率具有非常重要的意義。為了能夠滿足實際需要,今后對于這種方法就必須要加強研究才能夠滿足實際需要。本文結合文本分析和機器學習的概念對基于機器學習的文本分類的研究進展進行了重點分析,通過詳細分析可以發(fā)現(xiàn)當前的研究雖然取得了一定成果,但同時也應該看到也還存在著不少問題。對于這些問題今后應該展開深入研究,探討針對性對策。

[1]李道國,苗奪謙,俞冰.決策樹剪枝算法的研究與改進[J].計算機工程,2005,31(8):19-21.

[2]張云濤,龔玲.數據挖掘原理與技術[M].北京:電子工業(yè)出版社,2003.

[3]楊善林,倪志偉.機器學習與智能決策支持系統(tǒng)[M].北京:科學出版社,2004.

[4]楊學兵,張俊.決策樹算法及其核心技術[J].計算機技術與發(fā)展,2007,17(1):43-45.

Research progress of text categorization technology based on machine learning

Sun Yifei

School of Information Engineering,Shenyang University of Chemical Engineering,Liaoning Shenyang 110142

The information age information capacity of explosive growth trend,the increase in the amount of information in the rich people's life but also caused some trouble,in order to realize the scientific and efficient work required to effectively manage the mass information. Text classification is such a technique that can help people quickly get accurate information. Compared with the traditional text classification,text classification based on machine learning is more widely used,and the effect is more obvious. This technology is playing a more and more important role,and it is necessary to conduct in-depth analysis of the text classification technology based on machine learning. This article will start with the concept of text categorization to analyze the current research progress.

text classification;machine learning;computer

TP181

A

1009-6434(2016)11-0144-02

猜你喜歡
研究進展機器概念
機器狗
Birdie Cup Coffee豐盛里概念店
機器狗
MiRNA-145在消化系統(tǒng)惡性腫瘤中的研究進展
幾樣概念店
離子束拋光研究進展
學習集合概念『四步走』
未來機器城
獨腳金的研究進展
聚焦集合的概念及應用
平陆县| 建昌县| 集贤县| 绥宁县| 怀集县| 龙泉市| 桓台县| 吉隆县| 清水河县| 文安县| 长葛市| 芦山县| 庆城县| 科尔| 南平市| 阿合奇县| 本溪市| 应用必备| 大名县| 怀柔区| 临江市| 阿尔山市| 元氏县| 马尔康县| 昌邑市| 蓝田县| 商水县| 西乌| 霍邱县| 比如县| 嘉禾县| 和硕县| 万安县| 襄樊市| 宁南县| 英吉沙县| 平阴县| 新密市| 延吉市| 富锦市| 彰化县|