国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代的數(shù)據(jù)研究與應(yīng)用

2022-05-05 09:27:00王保成
關(guān)鍵詞:分詞結(jié)構(gòu)化文本

王保成

(襄陽(yáng)職業(yè)技術(shù)學(xué)院, 湖北 襄陽(yáng) 441050)

在我們的生活中,數(shù)據(jù)無(wú)處不在。尤其是在大數(shù)據(jù)和人工智能飛速發(fā)展的時(shí)代,數(shù)據(jù)成為人們關(guān)注的重點(diǎn)。比如我們幾乎每天都在使用的淘寶、京東等電商平臺(tái),單位時(shí)間產(chǎn)生的數(shù)據(jù)都是不可估量的。還有我們?yōu)g覽各類網(wǎng)站時(shí),后臺(tái)也會(huì)自動(dòng)產(chǎn)生大量的數(shù)據(jù)。這些數(shù)據(jù)既可以幫助平臺(tái)開發(fā)者改變決策,也可以為使用者提供更為便利的信息服務(wù)。當(dāng)你多次瀏覽相似的網(wǎng)頁(yè)信息或多次購(gòu)買同一類商品時(shí),數(shù)據(jù)就會(huì)“說(shuō)話”了,他會(huì)在你下次打開網(wǎng)絡(luò)時(shí),自動(dòng)為你提供你所關(guān)注的信息。[1]正確認(rèn)識(shí)現(xiàn)實(shí)社會(huì)中的各類數(shù)據(jù),掌握它們的有效研究方法,可以讓我們的學(xué)習(xí)、工作、生活更加智慧化。

一、數(shù)據(jù)的基本內(nèi)涵

(一)數(shù)據(jù)

簡(jiǎn)單說(shuō)來(lái),數(shù)據(jù)就是為了某種應(yīng)用而收集和轉(zhuǎn)換的任意字符的集合。數(shù)據(jù)的形式既包括文本、數(shù)字,也包括圖像、語(yǔ)音和視頻等。將數(shù)據(jù)記錄下來(lái),可以幫助我們分析、整理和提取數(shù)據(jù)中蘊(yùn)含的知識(shí)以及規(guī)律。在計(jì)算機(jī)系統(tǒng)中,所有的數(shù)據(jù)最終都是以二進(jìn)制的形式來(lái)存儲(chǔ)的,即用0或1字符串來(lái)表示。

(二)大數(shù)據(jù)

大數(shù)據(jù)(Big Data),它是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征(麥肯錫全球研究所)。

我們生活在一個(gè)數(shù)據(jù)爆炸的時(shí)代,大數(shù)據(jù)越來(lái)越多地出現(xiàn)在我們的生活中并對(duì)我們的生活產(chǎn)生諸多影響。大數(shù)據(jù)說(shuō)到底就是海量數(shù)據(jù)的集合,必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化等技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。大數(shù)據(jù)的專業(yè)化處理,是未來(lái)數(shù)據(jù)發(fā)展的主要方向,也是智能時(shí)代的利器。[2]

二、數(shù)據(jù)的類型

存儲(chǔ)在計(jì)算機(jī)系統(tǒng)中的數(shù)據(jù)一般分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

(一)結(jié)構(gòu)化數(shù)據(jù)

結(jié)構(gòu)化數(shù)據(jù)就是指數(shù)據(jù)的結(jié)構(gòu)已經(jīng)定義好,在使用時(shí)嚴(yán)格按照定義好的結(jié)構(gòu)進(jìn)行存儲(chǔ)、計(jì)算機(jī)和管理。最常見(jiàn)的結(jié)構(gòu)化數(shù)據(jù)就是關(guān)系型數(shù)據(jù)庫(kù)中的二維表,表中的每一行稱為一條數(shù)據(jù)記錄,它包含多個(gè)字段,即表中的每一個(gè)列數(shù)據(jù)。比如,我們建立一個(gè)學(xué)生成績(jī)數(shù)據(jù)庫(kù),每名學(xué)生占一行為一條數(shù)據(jù)記錄,每條記錄都包括4個(gè)字段:姓名、班級(jí)、成績(jī)、名次。見(jiàn)表1。

表1 學(xué)生成績(jī)數(shù)據(jù)庫(kù)

定義好結(jié)構(gòu)后,我們可以往表中存儲(chǔ)三條記錄,分別表示張三、李四、王五等三名同學(xué)的學(xué)習(xí)成績(jī)。這樣的一個(gè)表格就稱為一個(gè)二維表,它是一個(gè)典型的結(jié)構(gòu)化數(shù)據(jù)表。

(二)非結(jié)構(gòu)化數(shù)據(jù)

非結(jié)構(gòu)化數(shù)據(jù),是指數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,甚至沒(méi)有預(yù)定義的數(shù)據(jù)模型。我們的生活和工作中,往往存在大量的非結(jié)構(gòu)化數(shù)據(jù),比如文本、圖像、視頻和語(yǔ)音等,這些非結(jié)構(gòu)化數(shù)據(jù)對(duì)我們的生活非常重要。在很多行業(yè)領(lǐng)域里,80%的業(yè)務(wù)相關(guān)的信息都是來(lái)自于非結(jié)構(gòu)化數(shù)據(jù),特別是文本數(shù)據(jù)。[3]圖1展示了近五年非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)情況。

圖1 2014-2019年非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)情況

1.文本數(shù)據(jù)。文本數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)的一種類型,利用計(jì)算機(jī)處理文本數(shù)據(jù)是非常關(guān)鍵和常見(jiàn)的一項(xiàng)技術(shù),也是一個(gè)技術(shù)難點(diǎn)。讓計(jì)算機(jī)理解文本數(shù)據(jù),需要進(jìn)行編譯,這也是人工智能發(fā)展的一個(gè)方向——自然語(yǔ)言處理。文本數(shù)據(jù)要比一般的結(jié)構(gòu)化數(shù)據(jù)占用更多的存儲(chǔ)空間。比如,“hello!”這樣一個(gè)簡(jiǎn)單的詞語(yǔ),計(jì)算機(jī)要用二進(jìn)制表示出來(lái),會(huì)是一長(zhǎng)串的0、1字符串,如下所示。

文本數(shù)據(jù):hello!

計(jì)算機(jī)表示:01001000 01100101 01101100 01101100 01101111 00100001

2. 圖像數(shù)據(jù)。圖像是另一種非結(jié)構(gòu)化數(shù)據(jù)。一般圖像是由很多像素點(diǎn)(分辨率)組成,像素點(diǎn)越多,圖像就越清晰。

假設(shè):數(shù)字8的圖像中,橫排有16個(gè)像素點(diǎn),豎排有22個(gè)像素點(diǎn),一共由16*22個(gè)像素點(diǎn)組成。如果圖像是黑白的灰度圖,我們可以用256個(gè)等級(jí)(0~255)來(lái)區(qū)分每個(gè)像素點(diǎn)顏色的深淺度,此時(shí)我們得到一個(gè)矩陣。其實(shí),計(jì)算機(jī)就是用數(shù)字矩陣的形式來(lái)存儲(chǔ)圖像的。如圖2。

圖2 數(shù)字8的數(shù)字矩陣圖

如果圖像是彩色的,顏色種類會(huì)更多,處理起來(lái)就會(huì)比黑白的圖像更加復(fù)雜。

3.語(yǔ)音數(shù)據(jù)。語(yǔ)音是第三種非結(jié)構(gòu)化數(shù)據(jù)形式。在計(jì)算機(jī)中,記錄語(yǔ)音是通過(guò)將連續(xù)的聲波進(jìn)行數(shù)字化來(lái)完成的。數(shù)字化的過(guò)程包括采樣、量化、編碼等。采樣是第一步,按照一定的時(shí)間間隔,對(duì)聲音信號(hào)的幅值進(jìn)行一個(gè)瞬時(shí)的取值。然后進(jìn)行第二步量化,將瞬時(shí)取值得到的信號(hào),按就近原則對(duì)應(yīng)到二進(jìn)制數(shù)值,這樣就可以把一個(gè)模擬的、連續(xù)的聲波信號(hào)轉(zhuǎn)換成一串二進(jìn)制編碼。

4. 視頻數(shù)據(jù)。第四類非結(jié)構(gòu)化數(shù)據(jù)是視頻,它是由一系列的靜態(tài)影像與聲音組合而成的。視頻按照一定的刷新頻率進(jìn)行刷新和播放,利用人眼的視覺(jué)暫留原理,當(dāng)播放的速率超過(guò)人眨眼的頻率(每秒24幀以上)時(shí),可以給人一種平滑連續(xù)變化的動(dòng)態(tài)視覺(jué)效果。因此,視頻的本質(zhì)實(shí)際上是不斷變化的圖像,可以把它看作是單位時(shí)間內(nèi)聲音的存儲(chǔ)和若干幀圖像的存儲(chǔ)處理,只不過(guò)處理視頻需要更強(qiáng)大的存儲(chǔ)和計(jì)算能力。

三、數(shù)據(jù)的處理流程

利用科學(xué)的方法、過(guò)程或算法,從結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)中提煉知識(shí)、洞察規(guī)律,這是讓數(shù)據(jù)智能化“說(shuō)話”的主要途徑。

(一)數(shù)據(jù)采集

借助相關(guān)的技術(shù)和手段來(lái)進(jìn)行數(shù)據(jù)的收集。數(shù)據(jù)管理環(huán)節(jié)中,通過(guò)將收集的數(shù)據(jù)存儲(chǔ)在介質(zhì)中,來(lái)對(duì)數(shù)據(jù)進(jìn)行管理和維護(hù)。

(二)數(shù)據(jù)治理

通過(guò)對(duì)數(shù)據(jù)進(jìn)行有效組織,可以高效地提升數(shù)據(jù)的質(zhì)量,為后面的分析過(guò)程提供更好、更可用的數(shù)據(jù)。

(三)數(shù)據(jù)分析

通過(guò)對(duì)數(shù)據(jù)進(jìn)行詳細(xì)的研究和概括總結(jié),提煉有價(jià)值的信息來(lái)洞察規(guī)律。數(shù)據(jù)分析是整個(gè)數(shù)據(jù)研究過(guò)程中最為重要的環(huán)節(jié),它是從數(shù)據(jù)中提取有價(jià)值信息的關(guān)鍵步驟。

(四)數(shù)據(jù)可視化

數(shù)據(jù)可視化,就是指運(yùn)用圖形、圖表等多種有效的可視化方法來(lái)展示數(shù)據(jù),以便更清晰明確地傳遞數(shù)據(jù)中所蘊(yùn)含的價(jià)值,也幫助人們更好地理解數(shù)據(jù)。

(五)數(shù)據(jù)安全

我們?cè)诜治龊瓦\(yùn)用數(shù)據(jù)的過(guò)程中,是否會(huì)產(chǎn)生數(shù)據(jù)安全問(wèn)題?是否會(huì)侵犯用戶的隱私?我們運(yùn)用算法得出的一些結(jié)論,是否會(huì)對(duì)某些特定群體產(chǎn)生不公平現(xiàn)象?是否會(huì)存在認(rèn)知上的偏見(jiàn)?這些既是數(shù)據(jù)倫理問(wèn)題,也是數(shù)據(jù)安全問(wèn)題,需要有更深入的研究。[4]

(六)數(shù)據(jù)應(yīng)用

對(duì)于數(shù)據(jù)的應(yīng)用,就是通過(guò)對(duì)數(shù)據(jù)的分析,得出知識(shí)、見(jiàn)解、原理,或者是相關(guān)關(guān)系。這是數(shù)據(jù)智能化的體現(xiàn)。數(shù)據(jù)應(yīng)用必將對(duì)相關(guān)行業(yè)領(lǐng)域產(chǎn)生影響,并帶來(lái)應(yīng)用價(jià)值。

四、數(shù)據(jù)分析技術(shù)的運(yùn)用

數(shù)據(jù)分析的主要技術(shù)是探索性數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。探索性數(shù)據(jù)分析(Exploratory Data Analy?sis,EDA)是通過(guò)探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律來(lái)分析數(shù)據(jù)間關(guān)系的一種數(shù)據(jù)分析技術(shù),它注重描述數(shù)據(jù)的真實(shí)分布情況,強(qiáng)調(diào)對(duì)數(shù)據(jù)的可視化呈現(xiàn),以啟發(fā)和幫助數(shù)據(jù)分析者找出數(shù)據(jù)中隱含的規(guī)律。機(jī)器學(xué)習(xí)是近年來(lái)發(fā)展非常迅速的一種方法,也是大數(shù)據(jù)時(shí)代的重要數(shù)據(jù)分析技術(shù)。機(jī)器學(xué)習(xí)利用數(shù)據(jù)來(lái)建立模型,進(jìn)而獲取對(duì)信息的理解,發(fā)現(xiàn)其中的規(guī)律。相對(duì)于探索性數(shù)據(jù)分析,機(jī)器學(xué)習(xí)被廣泛用于數(shù)據(jù)的預(yù)測(cè)性分析中。[5]

(一)數(shù)據(jù)分析技術(shù)的工作過(guò)程

下文以房?jī)r(jià)預(yù)測(cè)運(yùn)用為例,來(lái)說(shuō)明機(jī)器學(xué)習(xí)這種數(shù)據(jù)分析技術(shù)的工作過(guò)程。

在房?jī)r(jià)預(yù)測(cè)問(wèn)題中,我們將房屋的面積、布局、建成年代、現(xiàn)知價(jià)格等數(shù)據(jù)輸入計(jì)算機(jī)中,采用某種機(jī)器學(xué)習(xí)算法,通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行計(jì)算,建立一個(gè)房?jī)r(jià)的預(yù)測(cè)模型。利用這個(gè)模型,當(dāng)再次輸入房屋面積、布局等相關(guān)數(shù)據(jù)時(shí),就可以自動(dòng)輸出這個(gè)房屋的價(jià)格。在這個(gè)過(guò)程中,最關(guān)鍵的是預(yù)測(cè)模型的建立,即要建立一個(gè)準(zhǔn)確、科學(xué)的輸入數(shù)據(jù)與預(yù)測(cè)房?jī)r(jià)之間的映射關(guān)系。假設(shè)預(yù)測(cè)房?jī)r(jià)為目標(biāo)變量y,輸入的數(shù)據(jù)稱為特征變量x,其模型可以表示為:y=f(x),其中x代表房屋建成年代、房屋面積、布局等數(shù)據(jù),f表示特征變量與目標(biāo)變量之間的映射。如下所示。

在建立這個(gè)模型時(shí),機(jī)器學(xué)習(xí)的方法需要將收集到的數(shù)據(jù)集合分為訓(xùn)練集和測(cè)試集兩組。訓(xùn)練集用來(lái)訓(xùn)練模型,即得出函數(shù)關(guān)系y=f(x);測(cè)試集用來(lái)評(píng)估模型的有效性,即我們得出的函數(shù)關(guān)系y=f(x)與真實(shí)情況相比,準(zhǔn)確度有多高。一般情況下,在擁有的數(shù)據(jù)樣本中,我們至少要拿出70%的數(shù)據(jù)樣本來(lái)進(jìn)行模型訓(xùn)練,再用剩下30%的數(shù)據(jù)樣本來(lái)對(duì)得出的模型進(jìn)行測(cè)試。

除了房?jī)r(jià)的預(yù)測(cè)之外,孩子身高的預(yù)測(cè)、銀行貸款客戶的信用風(fēng)險(xiǎn)評(píng)估、電商客戶消費(fèi)和購(gòu)買行為預(yù)測(cè)等領(lǐng)域,機(jī)器學(xué)習(xí)都有著廣泛的應(yīng)用。

(二)數(shù)據(jù)分析技術(shù)的典型應(yīng)用:中文分詞系統(tǒng)NLPIR

分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,比如“Hello world!”有兩個(gè)單詞,而中文分詞比之英文要復(fù)雜得多、困難得多。例如:“這個(gè)門把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開”中,“把手”就不是一個(gè)詞;在句子“他被任命為中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別?

分詞準(zhǔn)確性對(duì)搜索引擎來(lái)說(shuō)十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于搜索引擎來(lái)說(shuō)也是不可用的。因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁(yè),如果分詞耗用的時(shí)間過(guò)長(zhǎng),會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對(duì)于搜索引擎來(lái)說(shuō),分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求。研究中文分詞的大多是科研院校,中科院、清華、北大、哈工大、北京語(yǔ)言大學(xué)、山西大學(xué)、東北大學(xué)、IBM研究院、微軟中國(guó)研究院等都組建了研究團(tuán)隊(duì)。比較好的中文分詞方案有中科院漢語(yǔ)分詞、哈工大分詞器、清華大學(xué)THULAC、斯坦福分詞器、Hanlp分詞、結(jié)巴分詞工具等等。

NLPIR是中科院張華平博士開發(fā)的中文分詞系統(tǒng),被譽(yù)為自然語(yǔ)言處理奠基之作,目前國(guó)際、國(guó)內(nèi)測(cè)評(píng)雙第一。NLPIR分詞系統(tǒng)前身為2000年發(fā)布的ICTCLAS詞法分析系統(tǒng),從2009年開始,調(diào)整命名為NLPIR分詞系統(tǒng),推廣NLPIR自然語(yǔ)言處理與信息檢索共享?,F(xiàn)在的NLPIR大數(shù)據(jù)語(yǔ)義分析系統(tǒng)能夠全方位多角度完成對(duì)大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)抓取、正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取、語(yǔ)義信息抽取、文本分類、情感分析、語(yǔ)義深度擴(kuò)展、繁簡(jiǎn)編碼轉(zhuǎn)換、自動(dòng)注音、文本聚類等。

猜你喜歡
分詞結(jié)構(gòu)化文本
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
在808DA上文本顯示的改善
結(jié)巴分詞在詞云中的應(yīng)用
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
值得重視的分詞的特殊用法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
如何快速走進(jìn)文本
基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
东城区| 土默特右旗| 鄂州市| 鹤庆县| 合川市| 六盘水市| 凤翔县| 桑植县| 涟水县| 咸阳市| 开平市| 木兰县| 旅游| 洪泽县| 浑源县| 上栗县| 泸溪县| 民乐县| 常州市| 昌图县| 鄱阳县| 唐河县| 咸丰县| 靖西县| 田林县| 屏边| 祥云县| 公安县| 博罗县| 苏尼特右旗| 潮州市| 吉木萨尔县| 乐山市| 滦平县| 信宜市| 澄江县| 汪清县| 桑植县| 雷州市| 长垣县| 绥阳县|