劉 姜
(貴州電網(wǎng)有限責(zé)任公司凱里供電局,貴州 凱里 556000)
從工業(yè)角度到計(jì)算機(jī)角度、從人機(jī)交互到智能駕駛、從虛擬實(shí)現(xiàn)到物體自動識別、從智能解譯到遙感解譯,大數(shù)據(jù)正像水電氣一樣持續(xù)地為人類造福,并且成為信息基礎(chǔ)設(shè)備不可缺少的一個(gè)重要環(huán)節(jié)。大數(shù)據(jù)環(huán)境之下的智能互聯(lián)平臺,能夠把具備海量、異構(gòu)、多維、多尺度等特性的用戶數(shù)據(jù)從終端聚集到云端并且進(jìn)行實(shí)時(shí)監(jiān)控、解析與管控。同時(shí)它是無所不在、具備自我學(xué)習(xí)能力的終端,能夠不斷從云端當(dāng)中吸取很多智慧,如此正向循環(huán),就能夠成就“大數(shù)據(jù)”向“智能數(shù)據(jù)”的過渡。
用戶肖像是主要基于實(shí)際生活中對用戶數(shù)據(jù)的數(shù)學(xué)建模。主要包含三個(gè)含義,使用者肖像的構(gòu)建需要社會屬性、生活習(xí)慣、用戶消費(fèi)行為的數(shù)據(jù)。用戶數(shù)據(jù)的累積就是用戶的肖像基礎(chǔ)。用戶肖像和商業(yè)是不可分開的,這樣才可以滿足商業(yè)需求的特定用戶肖像。數(shù)學(xué)的建模,是從當(dāng)前的用戶數(shù)據(jù)中去挖掘出能夠接觸到的用戶需求,通過數(shù)據(jù)就能夠可視化地顯示出有用的信息以及深層的信息。用戶畫像的本質(zhì)就是讓用戶的信息和行為都“可視化”地呈現(xiàn)在企業(yè)面前[1]。
結(jié)合各種數(shù)據(jù)源來創(chuàng)設(shè)用戶肖像的方法主要涉及人文科學(xué)研究方向以及計(jì)算機(jī)數(shù)據(jù)統(tǒng)計(jì)研究方向,其中前者所涉及的數(shù)據(jù)往往都是來源于業(yè)務(wù)系統(tǒng)以及相關(guān)信息。其主要缺點(diǎn)是肖像畫的結(jié)構(gòu)不能更準(zhǔn)確更全面。后者的數(shù)據(jù)源主要依賴移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)等,可以通過多種渠道獲取產(chǎn)品信息、用戶社會信息、用戶活動信息,構(gòu)建全面的多維度用戶肖像畫。由于對數(shù)據(jù)的完全依賴,肖像畫相對缺乏情感傾向,很難獲得深刻的用戶動力。為了更好地促進(jìn)產(chǎn)品和用戶的關(guān)系,獲得用戶的熱情和期望,商業(yè)決策領(lǐng)域的專家認(rèn)為,只有單一的模式和經(jīng)驗(yàn)是不夠的,需要進(jìn)行組合來提高可靠性??偨Y(jié)出了在人的思維模式的定性以及定量集成方法的理論基礎(chǔ)上所創(chuàng)設(shè)的知識框架。定量分析通常都是運(yùn)用機(jī)械和定量研究的方法來對分支問題進(jìn)行剖析,并且創(chuàng)設(shè)邏輯模型。定性的研究方法可以運(yùn)用到解釋問題的定義、屬性以及與其他領(lǐng)域的關(guān)聯(lián)關(guān)系上。整合集成解決方案層,利用整合問題邏輯模型來獲取定量結(jié)論,利用專門的領(lǐng)域知識來判斷解決實(shí)際問題的入手點(diǎn)[2]。
用戶的肖像需要創(chuàng)建多維屬性標(biāo)記,行業(yè)對用戶的肖像屬性進(jìn)行了大量相關(guān)主題的研究。當(dāng)前,用戶的肖像屬性的大小被定義為6類:基本屬性、興趣屬性、社會屬性、行為習(xí)慣、心理屬性和能力屬性。電子商務(wù)采購決策的人群分析提出了將這6種屬性細(xì)分為主屬性和精細(xì)的輔助屬性標(biāo)簽,輔助屬性標(biāo)簽主要是基本信息,而主要屬性標(biāo)簽是信息要素。
文本挖掘的概念首先由羅恩·費(fèi)爾德曼等提出。在大量的文本和語料庫數(shù)據(jù)中,可以潛在地找到寶貴的定位信息。文本挖掘的主要方法包括分類、聚類、意見挖掘、情感分析、自動關(guān)鍵字搜索、主題發(fā)現(xiàn)和聚類、語義分析、自動文檔聚合、實(shí)體關(guān)系模型等。作為卡內(nèi)基梅隆大學(xué)開發(fā)的網(wǎng)絡(luò)監(jiān)控工具,Web-Watcher可以通過監(jiān)控用戶的點(diǎn)擊行為來分析用戶的行為和興趣。AutoTrader是世界上最大的汽車銷售網(wǎng)站,它主要就是通過數(shù)據(jù)上的挖掘來獲得用戶們對于產(chǎn)品的喜愛進(jìn)而提供相對的服務(wù)。經(jīng)過專業(yè)人士的綜合研究發(fā)現(xiàn),文本數(shù)據(jù)挖掘?qū)嵸|(zhì)就是利用文本數(shù)據(jù)來掌握更全面準(zhǔn)確的知識,并且利用這些知識來組成信息,從而為后續(xù)信息利用創(chuàng)造良好的基礎(chǔ)。因?yàn)橛脩粼诰W(wǎng)絡(luò)平臺上十分的活躍,海量用戶屬于信息平臺中擁有傳遞信息功能的一個(gè)基本單位,諸多后臺數(shù)據(jù)樣本也可以為數(shù)據(jù)挖掘技術(shù)的運(yùn)用創(chuàng)造良好的條件[3]。
要獲取用戶屬性、收集訪問網(wǎng)頁的分?jǐn)?shù)并將其用于機(jī)器學(xué)習(xí),用戶肖像的建立必須基于用戶自身。用戶們在網(wǎng)絡(luò)平臺上自發(fā)地輸入消息,它是企業(yè)和企業(yè)之間去滿足客戶實(shí)際需求的主要途徑,在用戶們的評論中有很多的潛在用戶需求以及情感信息。劉青、鄭西和其他專家與學(xué)者依據(jù)主體去篩選出模型或者情感解析所評論的文章。在情感態(tài)度上去分析出產(chǎn)品的主要特征。雖然有多種檢索文本數(shù)據(jù)(如網(wǎng)頁數(shù)據(jù))的方法,但該數(shù)據(jù)首先放棄HTML標(biāo)記,然后對單詞進(jìn)行分段,這樣就可以轉(zhuǎn)變?yōu)樾枰奈谋緮?shù)據(jù)。在對文本進(jìn)行加工的時(shí)候,需要對無用的、低頻率使用的單詞進(jìn)行清楚。隨后,在文本中進(jìn)行分段標(biāo)記,利用統(tǒng)計(jì)的方法來獲取高頻詞片段,并且組織專業(yè)人士對這些詞分段進(jìn)行綜合分析。因?yàn)橛脩舢嬒裢际墙Y(jié)合用戶行為以及目標(biāo)實(shí)際需要來創(chuàng)設(shè)原型結(jié)構(gòu)的,所以在將文本挖掘技術(shù)加以實(shí)際運(yùn)用的時(shí)候,需要從諸多文本中選擇潛在用戶的信息,將其視作用戶屬性[4]。
為了將用戶合并到不同的組中,屬性標(biāo)簽可以將具有相似想法和共同興趣的用戶聚集在一起,從而形成特定的社交組。集群分析是根據(jù)個(gè)人獨(dú)特的特性進(jìn)行分類的方法,將數(shù)據(jù)劃分為外部差異較大的多個(gè)組,但組內(nèi)的相似性較高。目前,聚類分析的研究領(lǐng)域包括圖像處理、模式識別和市場分析等。k均值算法和模糊c均值聚類算法(FCM算法)是使用最廣泛的兩種方法。k均值是專用于群集的硬分區(qū)算法。有兩個(gè)一致度高的集群時(shí),無法區(qū)別K-means。貝爾曼等人為了處理聚類問題,在20世紀(jì)60年代提出了模糊集的概念。在模糊聚類分析中,每個(gè)樣本都屬于具有特定成員資格的特定集群。這個(gè)分區(qū)可以更準(zhǔn)確地描述樣本的真實(shí)分布,因此可以得到更好的聚類結(jié)果。雖然FCM算法有能夠快速應(yīng)對大數(shù)據(jù)集的完美理論,但其目的和功能僅限于最小值,不能形成最為高效的解決方案。針對上述問題,專業(yè)人員將完善后的遺傳算法與FCM算法進(jìn)行整合運(yùn)用,這樣就可以有效地促進(jìn)計(jì)算的綜合性能的提升。(1)設(shè)計(jì)期初代碼。挑選各個(gè)組內(nèi)涉及到的c群集的對象組,結(jié)合相關(guān)規(guī)定和要求將n.c對象分解為c群集。(2)計(jì)算健身函數(shù)。(3)進(jìn)行選擇、交叉、突變操作,維護(hù)下一代具有高適應(yīng)性的父母和個(gè)人,合成新的下一代。(4)達(dá)到集再生代數(shù)時(shí),算法結(jié)束。否則,請轉(zhuǎn)至上一個(gè)步驟[5]。
就現(xiàn)如今實(shí)際情況來說,移動用戶畫像創(chuàng)設(shè)的主要平臺涉及到Spark以及Hadoop。其中Spark通常屬于內(nèi)存計(jì)算方法的分布式計(jì)算模式,能夠切實(shí)地提高數(shù)據(jù)的處理效率和效果,并且也使得整個(gè)平臺的兼容性和綜合性得以提升,為Spark在硬件中發(fā)揮出良好的作用起到了積極的推動作用,借助分布式計(jì)算方法能夠?qū)⒎植即鎯Φ臄?shù)據(jù)實(shí)施統(tǒng)一的統(tǒng)計(jì),并且將任務(wù)設(shè)置到關(guān)鍵節(jié)點(diǎn)在短時(shí)間內(nèi)完成計(jì)算,也可以將磁盤中的數(shù)據(jù)統(tǒng)計(jì)到內(nèi)存之中,從而提升計(jì)算的效率。其次,Spark還具備高效性、易操控、兼容性強(qiáng)等優(yōu)越性,在移動用戶畫像的創(chuàng)設(shè)中得到了大范圍的運(yùn)用。Hadoop是由HDFS以及Hive等元素組合而成,但是在實(shí)踐運(yùn)用的過程中,HDFS系統(tǒng)所起到的作用是最為巨大的,能夠有效地將集群內(nèi)部涉及到的全部節(jié)點(diǎn)文件加以統(tǒng)一存儲,這樣才可以將其引擎的作用充分發(fā)揮出來。
移動用戶畫像的創(chuàng)設(shè)所需要運(yùn)用到的數(shù)據(jù)樣本數(shù)量較多,并且牽涉到的內(nèi)容和種類較多,一般都是將人工標(biāo)注以及自動標(biāo)注加以整合運(yùn)用。其中,自動標(biāo)注往往都是結(jié)合樣本的實(shí)際情況和特征以及相關(guān)關(guān)鍵詞來完成標(biāo)注,諸如:結(jié)合行業(yè)內(nèi)的各個(gè)重點(diǎn)詞語來實(shí)施標(biāo)注。自動標(biāo)注也可以利用半監(jiān)督的方法來對樣本實(shí)施標(biāo)注,之后針對其余標(biāo)注的樣本進(jìn)行分類處理。當(dāng)下,使用最為頻繁的自動標(biāo)注方法為:自動訓(xùn)練法、多視角計(jì)算方法以及圖論方法等等,人工標(biāo)注往往就是專業(yè)技術(shù)人員通過手動的方式來對重點(diǎn)詞語進(jìn)行分類和標(biāo)注,標(biāo)注工作整體效果較差,但是具有較強(qiáng)的準(zhǔn)確性,能夠有效地規(guī)避分詞不合理的情況發(fā)生。其次,在樣本標(biāo)注工作結(jié)束之后,還需要實(shí)施文本語義理解相關(guān)工作[6]。
機(jī)器學(xué)習(xí)技術(shù)能夠十分高效地完成對移動用戶的分類,文章主要以移動商務(wù)環(huán)境中“孕婦標(biāo)簽”為實(shí)際實(shí)例,針對大數(shù)據(jù)深度學(xué)習(xí)建模的整個(gè)過程進(jìn)行詳細(xì)的闡述。首先,將移動用戶在所有品類中所實(shí)施的采購行為當(dāng)做基礎(chǔ)模型訓(xùn)練的特征,并且將各個(gè)品類進(jìn)行切實(shí)的分類,這樣才可以確定與“孕婦標(biāo)簽”相一致的品類,諸如:孕婦套裝、孕產(chǎn)品等商品,結(jié)合這類采購行為來實(shí)施篩選,從而確定出訓(xùn)練的正負(fù)樣本。諸如:結(jié)合移動用戶所有品類中的實(shí)際購買情況和次數(shù)來實(shí)施分類,如果與“孕婦標(biāo)簽”相統(tǒng)一的品類購買次數(shù)超過了3次,那么孕婦裝以及營養(yǎng)品就可以被標(biāo)記為正樣本。如果與孕婦的表現(xiàn)不統(tǒng)一的購買次數(shù)超出了3次,那么就將這些樣本標(biāo)記為負(fù)樣本。通過這樣的標(biāo)記行為,能夠有效獲取模型訓(xùn)練所需要的特征數(shù)據(jù),從而創(chuàng)設(shè)出原始網(wǎng)絡(luò)模型,并且對網(wǎng)絡(luò)模型是否可以為自我學(xué)習(xí)給予幫助進(jìn)行判斷。因?yàn)椤霸袐D標(biāo)簽”往往對時(shí)間有較強(qiáng)的敏感性,在創(chuàng)設(shè)網(wǎng)絡(luò)模型的時(shí)候還需要對時(shí)間維度的影響加以綜合考慮。
將國內(nèi)手機(jī)年輕用戶相機(jī)拍照的行為當(dāng)做項(xiàng)目的研究背景,選擇年齡在18-25周歲的年輕用戶手機(jī)拍照的要求來作為研究對象,創(chuàng)設(shè)相關(guān)用戶畫像結(jié)構(gòu)。定量分析線上數(shù)據(jù)都來自于開放的數(shù)據(jù)平臺,線下樣本都是從一些經(jīng)濟(jì)較為發(fā)達(dá)的城市進(jìn)行挑選,并且會對各個(gè)地區(qū)用戶的生活習(xí)慣以及風(fēng)土人文加以綜合考慮。
GooSeeker爬蟲工具實(shí)質(zhì)就是一種將網(wǎng)頁抓取、數(shù)據(jù)抽取和頁面信息提取加以整合的一種先進(jìn)的工具包,其在實(shí)踐運(yùn)用中具有較強(qiáng)的靈活性和實(shí)用性,其能夠自行產(chǎn)生指令文件,針對指定的網(wǎng)頁URL和HTML內(nèi)元素實(shí)施定期提取,這樣就可以從中獲取需要的信息,并且將文件中有需要的文本數(shù)據(jù)進(jìn)行打包輸出。所以在選擇運(yùn)用這一軟件包當(dāng)做抓取評論數(shù)據(jù)的工具時(shí),為了獲取年輕用戶的相關(guān)評論數(shù)據(jù),挑選從2015-2017年兩年時(shí)間內(nèi)中國年輕用戶攝影社交活躍度較高的平臺的評論網(wǎng)頁,借助專業(yè)的工具實(shí)施信息的采集工作,將獲取的信息利用表格的形式進(jìn)行存儲,但是因?yàn)椴糠中畔⑤敵龈袷綖閄ML文件,所以無法在實(shí)踐中加以直接的利用,還需要使用專門的Swift軟件將其轉(zhuǎn)變?yōu)樾枰奈募袷?。因?yàn)閷⑴老x技術(shù)加以實(shí)踐運(yùn)用的時(shí)候,數(shù)據(jù)中往往會涉及到一些無效評論數(shù)據(jù),如果不能將這些數(shù)據(jù)進(jìn)行清除,那么必然會對后續(xù)的模型分析工作造成諸多的影響,在將爬山虎采集器的篩選功能加以實(shí)踐運(yùn)用的時(shí)候篩選的條件為:首先,評論內(nèi)容與拍照的主題二者并不存在任何的關(guān)聯(lián)。其次,形式重復(fù)的文案以及辨識度較高的廣告內(nèi)容,在經(jīng)過專門的處理之后會產(chǎn)生大量的有效樣本評論數(shù)據(jù)。借助天據(jù)英眼工具利用機(jī)器學(xué)習(xí)的模式來對導(dǎo)入有效評論數(shù)據(jù)進(jìn)行自行分詞,這個(gè)工具中設(shè)置了HowNet情感詞典能夠?yàn)樽匀徽Z言實(shí)施高效處理,將日常中使用較為頻繁的詞,但是使用價(jià)值較差的詞語進(jìn)行篩選,并且這些工具擁有一定的分詞標(biāo)記的功能,能夠?qū)⒏哳l分詞進(jìn)行統(tǒng)計(jì),并且將其當(dāng)做文本詞語庫。所以將預(yù)處理過的有效評論當(dāng)做文檔,通過達(dá)標(biāo)的分詞獲取文本詞語庫當(dāng)做基礎(chǔ),利用專用語言編程將其轉(zhuǎn)變?yōu)榉衷~。因?yàn)闄C(jī)器處理最終獲得的部分主題分詞的詞意往往無法滿足用戶的實(shí)際需要,所以還應(yīng)當(dāng)對所有的分詞進(jìn)行二次篩選,并且安排專業(yè)人士將所有的主題分詞進(jìn)行綜合評估,判斷分詞所具有的權(quán)重值,通過上述工作最終選擇權(quán)重值較為靠前的部分分詞作為需求屬性詞。
針對文本數(shù)據(jù)進(jìn)行深入的分析,并且對其中涉及到的高頻需求屬性詞加以判斷,這樣就可以將所有用戶的需求屬性當(dāng)做用戶畫像屬性,并且將這些信息進(jìn)行標(biāo)簽處理,為創(chuàng)設(shè)用戶畫像提供需要的信息和維度條件。5W2H法是在情境分析法(Scenario Analysis)的基礎(chǔ)上演變而來的一種新型方法,利用概括影響因素的方法來創(chuàng)設(shè)出產(chǎn)品的框架。借助5W2H法對用戶屬性量表來實(shí)施設(shè)計(jì),量表可以劃分為2個(gè)部分,首先是將拍照的過程劃分為10個(gè)功能場景,對于用戶拍照的整個(gè)過程進(jìn)行詳細(xì)記錄,并且也能夠?qū)λ袌鼍暗氖褂妙l率進(jìn)行記錄。第二部分主要涉及到5個(gè)影響因素??梢詫τ脩羯顚哟蔚呐恼招枨蠛蛣訖C(jī)判斷,涉及拍攝的動機(jī)、拍攝的對象、拍攝的時(shí)間空間等等。結(jié)合主題詞的種類劃分,針對所有的影響因素挑選出5個(gè)詞頻排列較為靠前的需求屬性詞當(dāng)做屬性因子。
文章主要以大數(shù)據(jù)挖掘以及模糊聚類的方式為基礎(chǔ),解析我國的年輕用戶在拍照時(shí)的行為屬性具體特征。以5W2H的方式功能以及文本挖掘去獲得相關(guān)的需求屬性語言為基礎(chǔ),在拍照的過程中設(shè)定與用戶相關(guān)的屬性尺度之后,從主觀以及客觀兩個(gè)方面對用戶的定量價(jià)值數(shù)據(jù)加以獲取,將優(yōu)化的FCM算法運(yùn)用到聚類用戶屬性的原始形態(tài)之中,這樣就可以協(xié)助代表用戶以及相關(guān)產(chǎn)品的肖像創(chuàng)建更多的幫助。在和傳統(tǒng)的用戶研究方式進(jìn)行對比,前者的效果更加完美,適合在實(shí)踐中大范圍加以運(yùn)用。
數(shù)據(jù)分析的用戶調(diào)查方法更加客觀,相關(guān)的用戶屬性可以通過多個(gè)渠道獲得。另一方面,由于是大型數(shù)據(jù)庫,提高了用戶屬性的可靠性,同時(shí)避免了用戶屬性主觀定義的因素過多而影響到屬性的準(zhǔn)確性判斷?;诖?,用戶肖像的建立有助于促進(jìn)產(chǎn)品開發(fā)效率的提高。本文主要從用戶屬性的定量提取和屬性尺寸的聚類角度研究用戶肖像畫的施工方法,但由于沒有全面研究將屬性尺寸轉(zhuǎn)換為立式需求設(shè)計(jì)的方法,因此跟進(jìn)工作需要進(jìn)一步研究。