国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高校圖書館智能設(shè)備的信息提取

2019-12-05 08:39張旋
關(guān)鍵詞:字符串預(yù)處理數(shù)據(jù)庫

張旋

[摘 ? ? ? ? ? 要] ?隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,將會(huì)有更多智能設(shè)備通過校園WiFi設(shè)備接入互聯(lián)網(wǎng)。了解智能設(shè)備的準(zhǔn)確信息可以進(jìn)一步提高網(wǎng)絡(luò)運(yùn)營商的網(wǎng)絡(luò)服務(wù)質(zhì)量以及服務(wù)提供商的安全性,并為高校智慧圖書館建設(shè)提供數(shù)據(jù)分析依據(jù)。提出一種基于Hadoop平臺(tái)和用戶自定義功能的校園WiFi網(wǎng)絡(luò)智能設(shè)備信息提取方案。用戶自定義函數(shù)是根據(jù)高校圖書館日常服務(wù)中的常見參數(shù)開發(fā)的,用于處理大量非標(biāo)準(zhǔn)化數(shù)據(jù)。提出的信息提取方案的核心是將處理后的輸入數(shù)據(jù)與預(yù)先構(gòu)建的智能設(shè)備規(guī)則數(shù)據(jù)庫進(jìn)行字符串匹配。測(cè)試是基于高校圖書館日常師生登陸平臺(tái)檢索數(shù)據(jù)集進(jìn)行的。測(cè)試結(jié)果表明,提出的方法能準(zhǔn)確地從校園WiFi網(wǎng)絡(luò)中提取設(shè)備信息。

[關(guān) ? ?鍵 ? 詞] ?高校圖書館;智能設(shè)備;信息提取;無線網(wǎng)絡(luò)

[中圖分類號(hào)] ?G647 ? ? ? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] ?A ? ? ? ? ? ?[文章編號(hào)] ?2096-0603(2019)25-0224-02

在校園網(wǎng)絡(luò)中,讀者用戶使用各種智能設(shè)備(如手機(jī)、平板電腦、智能手表等),通過校園無線網(wǎng)絡(luò)接入互聯(lián)網(wǎng)。隨著智慧圖書館的發(fā)展,更多的智能設(shè)備將通過無線網(wǎng)絡(luò)接入互聯(lián)網(wǎng)。為了向服務(wù)訂閱者提供更好的網(wǎng)絡(luò)服務(wù)質(zhì)量和業(yè)務(wù)體驗(yàn),高校圖書館服務(wù)人員將收集大量的測(cè)量數(shù)據(jù),包括安全性和用戶行為信息。然后進(jìn)一步執(zhí)行數(shù)據(jù)處理,如測(cè)試網(wǎng)絡(luò)管理的瓶頸,并提高用戶的體驗(yàn)質(zhì)量。智能設(shè)備的提取是上述數(shù)據(jù)處理過程中的關(guān)鍵任務(wù)之一。本文通過高等院校圖書館在校園網(wǎng)絡(luò)環(huán)境下提取數(shù)據(jù)流量以此建立分析智能設(shè)備信息的方案。傳統(tǒng)蜂窩網(wǎng)絡(luò)的運(yùn)營商可以通過分析信息流量獲取大部分設(shè)備信息,如國際移動(dòng)設(shè)備標(biāo)識(shí)通常嵌入信息通信量中。然而,這些信息在默認(rèn)情況下不包含在WiFi條件下的數(shù)據(jù)流量信息。為了獲得校園無線網(wǎng)絡(luò)中智能設(shè)備等此類信息,一種可能的方法是收集和解析智能設(shè)備與云之間交換的超文本傳輸協(xié)議(HTTP)消息中的用戶代理(UA)字符串。圖1顯示了UA的一個(gè)例子。如圖所示,可以通過解析過程提取瀏覽器類型、操作系統(tǒng)、字符集等信息。

盡管有兩個(gè)公共標(biāo)準(zhǔn)可用于格式化設(shè)備標(biāo)簽,但大多數(shù)制造商都忽略了這些標(biāo)準(zhǔn),從而使信息提取更加困難。對(duì)這個(gè)問題,現(xiàn)有兩種解決方案。一種是無線通用資源文件(WURFL),這是一種基于唯一內(nèi)容的UA識(shí)別方法,如設(shè)備信息。通過將唯一標(biāo)識(shí)的內(nèi)容與預(yù)定義的文件進(jìn)行匹配,可以從Web服務(wù)器中提取設(shè)備信息。然而,由于新設(shè)備的出現(xiàn)和現(xiàn)有設(shè)備的頻繁升級(jí),WURFL不能保證長(zhǎng)期的高精度。另一種解決方案基于UA字符串匹配。應(yīng)用UA字符串匹配,需要使用包含UA字符串和設(shè)備模型的匹配規(guī)則預(yù)先設(shè)置數(shù)據(jù)庫。提取設(shè)備信息的方法是將捕獲的字符串映射到數(shù)據(jù)庫中的預(yù)置值。雖然實(shí)現(xiàn)起來很簡(jiǎn)單,但是這種方法效率很低,尤其是在大數(shù)據(jù)背景的今天,我們提出的方案旨在克服現(xiàn)有兩種方法的缺點(diǎn),特別是我們?cè)诜桨钢袑?shí)現(xiàn)Hadoop以快速高效地處理大量數(shù)據(jù)。此外,Hive UDF以統(tǒng)一數(shù)據(jù)格式對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。

本文的其余部分組織如下:給出智能設(shè)備信息提取方案的框架;介紹基于Hadoop的數(shù)據(jù)處理技術(shù),并描述了如何實(shí)現(xiàn)UDF函數(shù);給出實(shí)驗(yàn)結(jié)果;總結(jié)這項(xiàng)實(shí)驗(yàn)工作。

一、方案概述

圖2顯示了所提議的信息提取方案的概述??傮w而言,該方案包括4個(gè)部分,即流量采集、數(shù)據(jù)預(yù)處理、智能設(shè)備信息提取和智能設(shè)備信息記錄(SDIR)。

流量收集是指從目標(biāo)網(wǎng)絡(luò)中收集原始數(shù)據(jù)流量。流量收集點(diǎn)可以部署在通信網(wǎng)絡(luò)的不同位置,如核心網(wǎng)絡(luò)、聚合層、基于遠(yuǎn)程服務(wù)器的訪問節(jié)點(diǎn)和網(wǎng)絡(luò)網(wǎng)關(guān)。

數(shù)據(jù)預(yù)處理是對(duì)采集到的交通數(shù)據(jù)進(jìn)行凈化和過濾,因?yàn)椴杉降慕煌〝?shù)據(jù)可能存在噪聲。經(jīng)過數(shù)據(jù)預(yù)處理后,核心函數(shù)(即基于DPI9的核心函數(shù))只處理采集數(shù)據(jù)的一小部分,大大降低了方案的計(jì)算開銷。研究發(fā)現(xiàn),大多數(shù)移動(dòng)應(yīng)用程序使用HTTP與服務(wù)器通信。在本文中,我們將使用HTTP演示所提出的信息提取方案。我們提出的方案可以很容易地?cái)U(kuò)展,如應(yīng)用報(bào)頭/消息字段以更好地兼容其他專有協(xié)議。在大量實(shí)驗(yàn)基礎(chǔ)上設(shè)計(jì)該方案的濾波策略,使近98%的原始數(shù)據(jù)能夠被準(zhǔn)確地清洗和濾波。策略包括用戶類型、位置、通信協(xié)議等。

智能設(shè)備信息提取是本方案的核心功能。此函數(shù)用于匹配從預(yù)定義庫中捕獲的、經(jīng)常維護(hù)和更新的UA字符串。

SDIR是提取方案的匯總。在此步驟中,從原始數(shù)據(jù)流量中成功地提取了所需的信息,如設(shè)備類型、品牌、模型等。收集SDIRs以進(jìn)行進(jìn)一步的數(shù)據(jù)統(tǒng)計(jì)、分析和挖掘。SDIR的詳細(xì)應(yīng)用超出了信息提取方案的范圍。

二、基于UDF的智能設(shè)備信息提取方案

經(jīng)過數(shù)據(jù)預(yù)處理后,可以獲得包含接入網(wǎng)絡(luò)用戶賬戶、用戶訪問統(tǒng)一資源定位器(URL)和UA字符串的有用數(shù)據(jù)流,用于基于UDF-方案的信息提取。為了處理大量的UA字符串,實(shí)現(xiàn)基于Hadoop的MapReduce支持并行處理。Hadoop需要處理的5個(gè)步驟如下:

1.在Hive數(shù)據(jù)庫中收集和預(yù)處理原始流量。

2.從預(yù)處理中清除和過濾UA字符串?dāng)?shù)據(jù)。

3.使用在MapReduce上實(shí)現(xiàn)的UDF函數(shù)解析和正則化UA字符串?dāng)?shù)據(jù)。

4.通過WebMagic.11創(chuàng)建和管理一個(gè)智能設(shè)備規(guī)則數(shù)據(jù)庫。

5.通過與數(shù)據(jù)庫匹配的UA字符串提取智能設(shè)備信息。

在第1步中,Hive是一個(gè)基于Hadoop的數(shù)據(jù)倉庫,它使用Hadoop-HDFS作為數(shù)據(jù)存儲(chǔ)并提供HiveQL。除了內(nèi)置功能外,Hive還提供用戶定義功能(UDF)來增強(qiáng)數(shù)據(jù)處理。由于非標(biāo)準(zhǔn)的UA字符串不能由HiveQL內(nèi)置in語句處理,因此我們定義了一個(gè)UDF,它將非標(biāo)準(zhǔn)數(shù)據(jù)格式處理為期望的格式,以便進(jìn)行信息匹配。

要啟動(dòng)步驟3中的調(diào)節(jié)過程,將一個(gè)UA字符串的正則表達(dá)式文件作為數(shù)據(jù)結(jié)構(gòu)列表讀入內(nèi)存。正則表達(dá)式包含智能設(shè)備信息,用于解析原始的UA字符串。表1顯示了正則表達(dá)式的一個(gè)示例。當(dāng)原始的UA字符串與正則表達(dá)式匹配時(shí),將得到解析過的UA字符串。表2顯示了一些原始UA刺和相應(yīng)的解析過的刺的例子。

? 在步驟4中,WebMagic是一個(gè)簡(jiǎn)單而靈活的Java web爬蟲程序框架。它被用于從可信的電子商務(wù)網(wǎng)站收集智能設(shè)備相關(guān)信息,信息數(shù)據(jù)庫也由WebMagic自動(dòng)定期更新。最終結(jié)果存儲(chǔ)在SDIR數(shù)據(jù)結(jié)構(gòu)中。

三、實(shí)驗(yàn)與案例分析

在本節(jié)中,我們以實(shí)際網(wǎng)絡(luò)數(shù)據(jù)為基礎(chǔ),通過實(shí)驗(yàn)驗(yàn)證所提出的信息提取方案。通過與中國一家網(wǎng)絡(luò)運(yùn)營商的合作,以天津音樂學(xué)院圖書館為調(diào)研地點(diǎn)收集了為期5天的原始數(shù)據(jù)。數(shù)據(jù)來自2種類型的智能設(shè)備。其中手機(jī)3630臺(tái),平板電腦1609臺(tái)。正如我們所看到的,智能手機(jī)在收集數(shù)據(jù)中占主導(dǎo)地位。然而,為了提供更好的用戶體驗(yàn),網(wǎng)絡(luò)運(yùn)營商可能需要更詳細(xì)的信息,如設(shè)備類型、設(shè)備品牌、操作系統(tǒng)等。在不損失通用性的前提下給出利用該方案提取設(shè)備類型和品牌的結(jié)果。特別是我們的虛擬計(jì)算集群配備了8核心中央處理器(CPU)和64GB隨機(jī)存取內(nèi)存(RAM)。整個(gè)信息提取過程包括數(shù)據(jù)預(yù)處理,在12小時(shí)內(nèi)完成。通過運(yùn)行我們提出的信息提取方案可以準(zhǔn)確地提取出各類智能設(shè)備的品牌。在真實(shí)的實(shí)驗(yàn)中,所有類型的智能設(shè)備的準(zhǔn)確率都達(dá)到了92%以上,準(zhǔn)確度是通過正確檢測(cè)的數(shù)量與智能設(shè)備總數(shù)的比值來衡量的。

有了這些信息,網(wǎng)絡(luò)運(yùn)營商將能更有效地提供服務(wù)和管理他們的網(wǎng)絡(luò)資源,以提高用戶的使用感受。如網(wǎng)絡(luò)運(yùn)營商可以根據(jù)用戶設(shè)備的不同為視頻流服務(wù)分配不同的緩存大小和優(yōu)先級(jí)。類似網(wǎng)絡(luò)資源管理可以應(yīng)用于其他應(yīng)用程序,如游戲、在線購物、社交網(wǎng)絡(luò)等。為了進(jìn)一步提高用戶的使用感受,智能設(shè)備制造商和應(yīng)用程序開發(fā)人員可以通過固件和應(yīng)用程序更新等方式對(duì)產(chǎn)品進(jìn)行改進(jìn),從而充分利用優(yōu)化后的網(wǎng)絡(luò)資源。

四、結(jié)語

本文提出了一種智能設(shè)備信息提取方案。該方案將UDF應(yīng)用于處理非標(biāo)準(zhǔn)的UA字符串格式,因此,可以使用基于Hadoop的平臺(tái)進(jìn)行處理,實(shí)驗(yàn)基于真實(shí)的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行。結(jié)果表明,在實(shí)際應(yīng)用中,該方法在智能設(shè)備信息提取中可以達(dá)到92%以上的精度。此外,在今后的工作中還將探討一些開放的問題,如UA簽名數(shù)據(jù)庫的更新和維護(hù),更快的匹配等。我們還將與未來可能進(jìn)行的相關(guān)工作進(jìn)行性能比較。

編輯 馮永霞

猜你喜歡
字符串預(yù)處理數(shù)據(jù)庫
菌劑預(yù)處理秸稈與牛糞混合對(duì)厭氧發(fā)酵產(chǎn)氣的影響
手術(shù)器械預(yù)處理在手術(shù)室的應(yīng)用
一種基于PowerBuilder環(huán)境字符串相似度算法
數(shù)據(jù)庫
液化天然氣技術(shù)及其應(yīng)用探析
SQL server 2008中的常見的字符串處理函數(shù)
淺談C語言中預(yù)處理
倍增法之后綴數(shù)組解決重復(fù)子串的問題
數(shù)據(jù)庫
數(shù)據(jù)庫
罗江县| 广丰县| 开远市| 沂水县| 武强县| 罗江县| 泊头市| 荔浦县| 那曲县| 北票市| 射洪县| 天峻县| 澎湖县| 额济纳旗| 怀远县| 洪湖市| 京山县| 青冈县| 东丰县| 日土县| 龙门县| 吉林省| 平陆县| 施秉县| 湘潭市| 江西省| 乌鲁木齐县| 宁蒗| 东明县| 游戏| 荔波县| 樟树市| 云南省| 敖汉旗| 北海市| 玉溪市| 尼勒克县| 福建省| 乡宁县| 合作市| 仁怀市|