国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互聯(lián)網(wǎng)大數(shù)據(jù)的自然語義分析研究

2019-01-18 01:15姚艷松
關(guān)鍵詞:分詞向量單詞

◆邵 嵐 姚艷松 李 宣

?

基于互聯(lián)網(wǎng)大數(shù)據(jù)的自然語義分析研究

◆邵 嵐 姚艷松 李 宣

(CLO 北京 100054)

隨著互聯(lián)網(wǎng)中的自然語言數(shù)量越來越龐大,各種自然語言處理技術(shù)在不同行業(yè)的需求也日益增長,同時一些新的算法和模型也應(yīng)運(yùn)而生。本文首先對這些自然語言處理技術(shù)進(jìn)行了研究與比較,然后應(yīng)用這些技術(shù)于互聯(lián)網(wǎng)數(shù)據(jù)上,對比了不同參數(shù)下算法的性能,實現(xiàn)了對互聯(lián)網(wǎng)數(shù)據(jù)的自動分類。

自然語言處理;分詞;關(guān)鍵詞提??;詞嵌入技術(shù)

0 引言

最近幾年, 隨著深度學(xué)習(xí)技巧的紛紛出爐[1],并且在自然語言處理方面獲得了一些尖端成果,例如語言模型[2],語法分析[3]等。隨著自然語言處理技術(shù)的逐漸成熟,它越來越多地被應(yīng)用于人們的生活、學(xué)習(xí)和工作等方面,并給人們帶來了極大的方便。

互聯(lián)網(wǎng)中包含了海量的自然語言數(shù)據(jù),使用各種自然語言處理技術(shù)以及它們的組合,可以深度挖掘其中的有用信息。

本文主要對這些技術(shù)進(jìn)行簡要介紹,并使用互聯(lián)網(wǎng)中的自然語言數(shù)據(jù)對這些技術(shù)進(jìn)行性能測試。

1 中文自動分詞算法

中文自動分詞是指使用計算機(jī)算法程序?qū)χ形奈谋咀詣幼鲈~語切分,就像英文那樣,使得中文句子中的詞與詞之間也有空格分開。中文自然語言處理中的一個最基本的步驟就是自動分詞,其準(zhǔn)確率會直接影響到后續(xù)步驟的結(jié)果。

現(xiàn)有的中文分詞算法主要分為三類:一是基于字符串匹配的分詞、二是基于理解的分詞、三是基于統(tǒng)計的分詞。這些算法各有優(yōu)缺點,在技術(shù)上它們有各自的特點,在用途上它們也有各自的差異[4]。

2 關(guān)鍵詞提取算法

目前最流行的關(guān)鍵詞提取算法主要有:基于 TF-IDF 算法的關(guān)鍵詞抽取和基于 TextRank 算法的關(guān)鍵詞抽取兩種算法。

2.1 基于 TF-IDF 算法的關(guān)鍵詞抽取技術(shù)[5]

TF-IDF(term frequency–inverse document frequency)是一種常常被用于文本挖掘和資訊檢索的加權(quán)技術(shù),同時它也是一種統(tǒng)計方法,用以評估某個給定的詞對于一個文檔集或一個語料庫中的某一份文檔的重要程度。某個詞的重要性與它在文檔中的出現(xiàn)頻率成正比,但同時也隨著它在語料庫中的出現(xiàn)頻率成反比。TF-IDF加權(quán)算法的各種形式經(jīng)常作為文檔與用戶查詢之間相關(guān)性的度量或評級并被應(yīng)用于搜索引擎中。

TF-IDF的計算公式如下:

TF-IDF的優(yōu)點是計算簡單,易于理解,性價比高。但是它也有明顯的缺陷,首先單純依據(jù)文章中的TF來衡量重要性,會忽略掉詞語的位置信息。比如,段首和句首一般應(yīng)該有更高權(quán)重。其次,雖然有的文章中核心關(guān)鍵詞只出現(xiàn)了1~2次,但也有可能通篇都是圍繞其進(jìn)行闡述和解釋的,所以單純靠TF仍然不能解決所有的情況。

2.2 基于 TextRank 算法的關(guān)鍵詞抽取技術(shù)[6]

TextRank算法是一個基于圖排序的文本處理算法,它的核心思想是從PageRank的迭代思想中衍生過來的,其計算公式如下:

TextRank屬于無監(jiān)督學(xué)習(xí)算法,不要求使用者具備深入的語言學(xué)背景或?qū)I(yè)領(lǐng)域的知識;TextRank算法綜合考慮了文本的整體信息,從而可以確定哪些詞語或句子能更好的表達(dá)該段文本。

3 詞嵌入技術(shù)

詞嵌入是自然語言處理(NLP)中的語言模型與表征學(xué)習(xí)技術(shù)的統(tǒng)稱。從算法上來看,它會把一個維數(shù)是所有詞語數(shù)量的高維空間嵌入到一個維數(shù)低得多的連續(xù)向量空間中,每個單詞或詞組會被映射為實數(shù)域上的向量。

目前主流的詞嵌入方法有:人工神經(jīng)網(wǎng)絡(luò)算法、對詞語同現(xiàn)矩陣的降維算法、概率模型以及單詞所在上下文的顯式表示等。

Word2Vec模型屬于無監(jiān)督學(xué)習(xí)算法,它可以從文本語料中學(xué)習(xí)語義知識,是現(xiàn)在自然語言處理中的常用的模型之一。Word2Vec模型主要包含Skip-Gram和CBOW兩種模型。概括地說,Skip-Gram是使用輸入單詞來預(yù)測上下文,而CBOW是使用上下文來預(yù)測輸入單詞。

3.1 Skip-Gram模型[7][8]

圖1 Skip-Gram模型示意圖

Skip-Gram(Continuous Skip-gram Model)模型可以通過輸入的單詞來推算該單詞附近最可能出現(xiàn)的單詞。其核心思想是通過圖1的神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)語料庫中單詞的共現(xiàn)信息,在學(xué)習(xí)完成后,隱藏層的權(quán)重矩陣中的每一行就是一個詞向量。在實際中,還經(jīng)常使用負(fù)采樣技術(shù)來加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

3.2 CBOW模型

CBOW(Continuous Bag-Of-Words Model)模型可以通過某未知單詞的上下文來推算該未知單詞。CBOW模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與Skip-Gram模型非常相似,它們之間的關(guān)系如圖2所示。

圖2 圖例集中CBOW模型與Skip-Gram模型的關(guān)系

4 實驗

(1)數(shù)據(jù)源

本次實驗數(shù)據(jù)來自互聯(lián)網(wǎng)開放數(shù)據(jù),使用Python的數(shù)據(jù)采集工具共采集了百度貼吧的11,568,989條帖子,文本大小0.99G,含蓋了28183個貼吧,3850382名用戶。

(2)實驗環(huán)境

實驗環(huán)境為三臺RedHat linux 6操作系統(tǒng)、64G內(nèi)存的服務(wù)器,安裝hadoop-2.7.3、Spark2.1.0、Hanlp1.6.3。

數(shù)據(jù)存儲在hadoop中,spark負(fù)責(zé)分布式運(yùn)算,Hanlp實現(xiàn)分詞算法。

(3)實驗方法

首先對百度貼吧數(shù)據(jù)進(jìn)行分詞并構(gòu)建詞典,之后使用所有數(shù)據(jù)進(jìn)行詞向量訓(xùn)練,然后從每個帖子中提取關(guān)鍵詞,并用詞向量表示該詞在空間中的位置,最后使用t-SNE非線性降維技術(shù)將結(jié)果展示在二維空間中,并使用聚類算法后對不同的類別的帖子進(jìn)行著色。

(4)實驗結(jié)果

在訓(xùn)練詞向量時使用了不同的參數(shù)進(jìn)行測試,其中固定參數(shù)參見表1,不同維度詞向量的訓(xùn)練時間的對比參見表2,訓(xùn)練時算法占用的內(nèi)存對比參見表3。本次實驗,最終訓(xùn)練生成了詞向量140171條。

表1 詞向量算法使用的參數(shù)

表2 詞向量算法運(yùn)行時間(單位:秒)

表3 詞向量算法運(yùn)行所需要的空間

使用訓(xùn)練的詞向量對帖子進(jìn)行分類,如圖3所示,每個點代表一個帖子,可見不同內(nèi)容的帖子各自聚成了小群組。

圖3 算法最短模式串長度下時間對比

實驗說明,對于訓(xùn)練不同維度的詞向量算法所用的時間有較大差異,而算法所占用內(nèi)存的差異卻比較小。最后,經(jīng)人工驗證發(fā)現(xiàn),使用詞向量可以對文本進(jìn)行有效的語義分類。

5 結(jié)束語

本文研究了TF-IDF與TextRank兩種關(guān)鍵詞提取算法,以及Skip-Gram與CBOW兩種詞嵌入模型,并將以上模型應(yīng)用于互聯(lián)網(wǎng)中的自然語言數(shù)據(jù)上,實現(xiàn)了互聯(lián)網(wǎng)信息的自動分類,并給出了實驗的參數(shù)與實驗的結(jié)果對比,以供讀者參考。

[1]Yoav G.A Primer on Neural Network Models for Natural Language Processing[J]. Journal of Artificial Intelligence Research 57(2016).

[2]Rafal J,Oriol V,Mike S,Noam S,Yonghui W.Exploring the Limits of Language Modeling[J].arXiv:1602.02410.2016.

[3]Do K.C.and Eugene C.Parsing as Language Modeling[J].Computer Science at Brown University.2016.

[4]周程遠(yuǎn).中文自動分詞系統(tǒng)的研究與實現(xiàn)[J].華東師范大學(xué),2010.

[5]Salton G.,Fox E.A.and Wu H.Extended Boolean informat ion retrieval[J].1983 ACM 26,1022–1036.

[6]Rada M and Paul T.TextRank: Bringing Order into Texts[J].Association for Computational Linguistics,2004.

[7]McCormick,C.Word2Vec Tutorial-The Skip-Gram Mo del.2016.[EB/OL].http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/.

[8]Omer L.and Yoav G.Dependency-Based Word Embeddi ngs[J].Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (pages 302–308),23-25 2014.

[9]Tomas M.,Kai C.,Greg C.,Jeffrey D.Efficient Estimation of Word Representations in Vector Space[J].arXiv:1301.3781.2013.

猜你喜歡
分詞向量單詞
向量的分解
聚焦“向量與三角”創(chuàng)新題
分詞在英語教學(xué)中的妙用
單詞連一連
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
看圖填單詞
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
Playing with / i? /