国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA模型的校友導(dǎo)師數(shù)字標(biāo)簽研究

2021-07-27 00:04:36高儼劉亞娟周玉國沈梅常琳
中國教育信息化 2021年6期
關(guān)鍵詞:用戶畫像

高儼 劉亞娟 周玉國 沈梅 常琳

摘? ?要:校友導(dǎo)師是指邀請優(yōu)秀校友擔(dān)任在校學(xué)生的培養(yǎng)導(dǎo)師。文章在對校友導(dǎo)師分類的基礎(chǔ)上,結(jié)合高校人才培養(yǎng)過程中存在的問題,從實踐操作的角度,提出校友導(dǎo)師數(shù)字標(biāo)簽構(gòu)建的層次結(jié)構(gòu),嘗試?yán)肔DA模型對校友導(dǎo)師行業(yè)類數(shù)字標(biāo)簽進行構(gòu)建,為研究校友導(dǎo)師用戶畫像提供了一種可實踐的方法,促進在校生對校友導(dǎo)師的選擇,提高雙方匹配程度,探索校友工作,促進高校人才培養(yǎng)。

關(guān)鍵詞:校友導(dǎo)師;用戶畫像;數(shù)字標(biāo)簽;LDA模型

中圖分類號:TP391 文獻標(biāo)志碼:A 文章編號:1673-8454(2021)11-0041-04

校友是高校寶貴的人力資源,校友導(dǎo)師計劃是由學(xué)校聘請優(yōu)秀校友擔(dān)任校外導(dǎo)師,通過項目、講座、論壇等形式,搭建校友與在校生溝通、交流、學(xué)習(xí)、指導(dǎo)的平臺,激發(fā)學(xué)生學(xué)習(xí)熱情、規(guī)劃學(xué)業(yè)目標(biāo)、積累創(chuàng)業(yè)經(jīng)驗、擴展學(xué)業(yè)半徑的創(chuàng)新創(chuàng)業(yè)類活動。校友導(dǎo)師與在校生具有天然的聯(lián)系,他們具有相似的入學(xué)背景,接受過相同的教育資源培養(yǎng),了解母校的學(xué)風(fēng)、教風(fēng)和校園文化,具備較高的認(rèn)同感和相近的價值觀。校友離開母校經(jīng)歷社會實踐后,對學(xué)校在培養(yǎng)人才過程中存在的優(yōu)勢和不足具有更多的感悟,在參與母校人才培養(yǎng)過程中更具有針對性和目標(biāo)性,擔(dān)當(dāng)導(dǎo)師能夠大大提升學(xué)生創(chuàng)新創(chuàng)業(yè)實踐的質(zhì)量。

一、校友導(dǎo)師類別及內(nèi)涵

在開展校友導(dǎo)師計劃的實踐中,根據(jù)校友導(dǎo)師自身參與學(xué)校人才培養(yǎng)方式的特點,可將校友導(dǎo)師分為學(xué)業(yè)指導(dǎo)類導(dǎo)師、職業(yè)咨詢類導(dǎo)師和創(chuàng)業(yè)指導(dǎo)類導(dǎo)師三類。

1.學(xué)業(yè)指導(dǎo)類導(dǎo)師

該類導(dǎo)師在校期間,學(xué)習(xí)成績優(yōu)異,社會實踐、創(chuàng)新能力、綜合素質(zhì)等方面表現(xiàn)突出,在學(xué)術(shù)研究上取得顯著成績。開展教學(xué)時主要以在校期間的學(xué)業(yè)、科研、生活和社會實踐等內(nèi)容為主題組織論壇分享,可以用榜樣的力量啟發(fā)在校學(xué)生在大學(xué)生活中確立發(fā)展目標(biāo),規(guī)劃發(fā)展道路,形成良好的學(xué)風(fēng)、校風(fēng),增強校園的活力,有助于樹立良好的社會風(fēng)尚。

2.職業(yè)咨詢類導(dǎo)師

該類導(dǎo)師在行業(yè)和專業(yè)領(lǐng)域內(nèi)有豐富的工作經(jīng)驗,具有較強的演講能力、溝通能力與親合能力,具備彈性時間,能講授學(xué)生關(guān)心的行業(yè)熱點問題。組織教學(xué)時主要通過講座、論壇、會面、電話、郵件及新媒體技術(shù)與學(xué)生進行深入探討交流,對學(xué)生的咨詢能及時給予回復(fù),能根據(jù)學(xué)生實際情況進行個人成長與發(fā)展方面的指導(dǎo),幫助學(xué)生做好成長與發(fā)展規(guī)劃。

3.創(chuàng)業(yè)指導(dǎo)類導(dǎo)師

該類導(dǎo)師在專業(yè)領(lǐng)域內(nèi)富有創(chuàng)業(yè)經(jīng)驗,能結(jié)合自身閱歷、專業(yè)背景及實際情況,為在校生設(shè)立創(chuàng)業(yè)實操項目,同時也愿意接受學(xué)校對該項目的審核及管理,并與學(xué)校保持順暢溝通。組織教學(xué)時主要與在校學(xué)生形成傳、幫、帶、結(jié)對子的形式,在創(chuàng)業(yè)項目實施過程中,親自參與指導(dǎo)學(xué)生,切實幫助學(xué)生激發(fā)創(chuàng)業(yè)熱情、學(xué)習(xí)創(chuàng)業(yè)知識、提升創(chuàng)業(yè)能力。

在校生參與到校友導(dǎo)師計劃時需對校友導(dǎo)師進行選擇,要綜合考慮導(dǎo)師類型、行業(yè)屬性、教學(xué)風(fēng)格、教學(xué)計劃、自身的時間計劃、發(fā)展需求等各個維度的信息。因此,一個有效的校友導(dǎo)師身份畫像可以讓學(xué)生在選擇校友導(dǎo)師的過程中獲得一個較為清晰、完整的導(dǎo)師概念,使其在參與導(dǎo)師項目時更有針對性和有效性,是開展校友導(dǎo)師工作一個有效的技術(shù)手段。

二、用戶畫像構(gòu)建方法

用戶畫像也稱用戶角色,這個概念由交互設(shè)計之父Alan Cooper首先提出,作為一種以用戶為中心的交互設(shè)計工具,其目標(biāo)是形成一組抽象的、高度精煉的特征標(biāo)識,進而完成研究對象的深層次刻畫。

現(xiàn)有的研究中存在著兩類刻畫用戶畫像的方法:一類是對目標(biāo)對象進行人為抽象,進而形成能代表其典型特征的數(shù)字標(biāo)簽體系。其特點是依靠行業(yè)內(nèi)專家,憑借其專業(yè)素養(yǎng),對目標(biāo)給予直覺評價,形成標(biāo)簽體系。其主觀因素影響較大,不同的行業(yè)內(nèi)專家可能會形成不同的標(biāo)簽體系,同時在目標(biāo)對象發(fā)展變化過程中,維護難度較大。另一類是通過收集目標(biāo)對象相關(guān)的信息、行為、觀點等數(shù)據(jù),經(jīng)過相關(guān)技術(shù)形成目標(biāo)對象的數(shù)字特征標(biāo)簽集合,這些基礎(chǔ)性工作能根據(jù)用戶畫像表示的用戶特征通過可視化數(shù)據(jù)圖表分析用戶需求。[1]其特點是直接從相關(guān)數(shù)據(jù)中提取、提煉信息,減少標(biāo)簽體系建立過程中人為主觀因素的影響,進而形成統(tǒng)一的、可更新的、維護難度低的標(biāo)簽體系,但存在數(shù)據(jù)稀疏性和情感分析偏差較大等問題,同時由于標(biāo)簽體系主要依據(jù)歷史數(shù)據(jù)形成,因此對于前瞻性的用戶變化趨勢不能很好刻畫。綜上,一套較為客觀的標(biāo)簽應(yīng)該是綜合以上兩類方法的優(yōu)點、從數(shù)據(jù)的角度得到明確的體系,同時能結(jié)合主觀分析,對目標(biāo)對象的時空動態(tài)進行概括性總結(jié)。

在實踐過程中,用戶畫像構(gòu)建方法主要有六種:[2]①基于設(shè)計與思維;②基于本體或概念;③基于主題或話題模型(LDA);④基于興趣或偏好;⑤基于行為或日志;⑥基于多維或融合。其中基于主題或話題模型主要是通過LDA主題模型發(fā)現(xiàn)文本信息中隱含的主題或話題, 進而據(jù)此刻畫出用戶,其具有較好的建模能力和較低的運算復(fù)雜度,屬于一種非監(jiān)督的機器學(xué)習(xí)技術(shù)。[2]范哲[3]通過訪談法收集用戶相關(guān)數(shù)據(jù),抽取用戶行為過程中的階段性特征構(gòu)建多種典型的用戶畫像。徐彬等[4]深入分析了微博用戶數(shù)據(jù),總結(jié)了微博用戶標(biāo)簽的特點,對微博用戶標(biāo)簽運用主題模型分析計算用戶的主題分布,對標(biāo)簽詞進行聚類,并最終為用戶推薦標(biāo)簽。阮光冊[5]針對網(wǎng)絡(luò)用戶評論信息,提出基于LDA主題發(fā)現(xiàn)模型對網(wǎng)絡(luò)評論進行主題發(fā)現(xiàn)的研究。通過LDA主題模型將用戶評論的內(nèi)容映射到主題上,實現(xiàn)對用戶評論信息主題的發(fā)現(xiàn)。傅魁等[6]結(jié)合語義分析和概率模型提出了一種基于主題模型的虛擬社區(qū)用戶建模方法,有效地解決了虛擬社區(qū)用戶生成內(nèi)容存在的問題。范宇等[7]將LDA 模型用于專利信息聚類,通過結(jié)合使用 OPTICS 算法和 k 近鄰準(zhǔn)則,大幅度降低專利信息表示的維度,同時能夠高效地實現(xiàn)信息自動聚類,從而提高了專利分析的效率。姜曉偉等[8]將主題模型用于微博重要話題發(fā)現(xiàn)與排序方法,提出了一種特定產(chǎn)品相關(guān)的微博重要話題發(fā)現(xiàn)和排序方法,這種方法兼顧話題的影響力、突發(fā)性和相關(guān)性,關(guān)鍵詞之間聯(lián)系更緊密,語義相關(guān)性更強,其表現(xiàn)的話題更凝聚。

三、校友導(dǎo)師標(biāo)簽的構(gòu)建

1.標(biāo)簽的層次結(jié)構(gòu)

校友導(dǎo)師標(biāo)簽的構(gòu)建,是信息不斷提煉和抽象的過程,應(yīng)具有以下層級結(jié)構(gòu)。

(1)原始數(shù)據(jù)層

原始數(shù)據(jù)是指校友導(dǎo)師在校期間和畢業(yè)之后形成的歷史數(shù)據(jù)信息。主要包括學(xué)籍信息、在校期間學(xué)習(xí)成績和獎勵信息、工作簡歷、工作業(yè)績、歷屆在校生對校友導(dǎo)師的評價、導(dǎo)師開展工作計劃等相關(guān)信息。

(2)特征提取層

該層需要應(yīng)用機器學(xué)習(xí)、數(shù)據(jù)挖掘、統(tǒng)計分析等相關(guān)技術(shù)手段,對原始數(shù)據(jù)層進行清洗、提煉、抽象,從深層次來體現(xiàn)目標(biāo)特征信息。比如可以通過TF-IDF、TextRank、LDA等文本挖掘算法,結(jié)合K均值、DBSccan等分類聚類算法發(fā)現(xiàn)校友導(dǎo)師的聚集特征;通過Apriori、SVD矩陣分解等推薦算法形成與在校生需求匹配度高的校友導(dǎo)師推薦排序列表。

(3)標(biāo)簽表示層

該層通過特征提取層獲得的凝練信息,對校友導(dǎo)師相關(guān)業(yè)務(wù)關(guān)注點進行標(biāo)簽化展示。該層是整個標(biāo)簽化過程中的重點,因此在標(biāo)簽化的過程中,應(yīng)充分結(jié)合主、客觀標(biāo)簽化方法的優(yōu)點,使標(biāo)簽刻畫能準(zhǔn)確地概括目標(biāo)群體信息。標(biāo)簽的最終結(jié)果可以讓學(xué)生根據(jù)自身需要迅速獲得校友導(dǎo)師關(guān)注點,同時也為校友導(dǎo)師提供一種反饋,不斷調(diào)整自身組織活動或項目的形式與內(nèi)容。

2.基于LDA模型的校友導(dǎo)師行業(yè)標(biāo)簽提取

依據(jù)本文的標(biāo)簽構(gòu)建層次結(jié)構(gòu),將LDA主題模型應(yīng)用于校友導(dǎo)師行業(yè)類標(biāo)簽提取流程。通過一個高度濃縮的詞語讓學(xué)生了解校友導(dǎo)師行業(yè)屬性,同時利用該標(biāo)簽進行分類索引,也便于學(xué)校對校友導(dǎo)師分組管理。

LDA(Latent Dirichlet Allocation)是一種文本生成模型,其屬于一個三層貝葉斯概率模型,構(gòu)建了詞、主題、文檔三層結(jié)構(gòu)。[9]首先根據(jù)詞的層次,采用了詞袋模型,將所有文檔的詞語形成一個詞典;其次根據(jù)主題的層次,每個主題都有基于詞典的詞分布,詞分布為多項分布,其參數(shù)滿足Dirichlet分布;最后根據(jù)文檔的層次,將每篇文檔視為由詞頻組成的向量,并且有各自基于主題的概率分布,該分布是一個多項分布,同時其參數(shù)也滿足Dirichlet分布。對于一篇文檔的某個詞,首先從該文檔的主題分布中采樣一個主題,然后在這個主題對應(yīng)的詞分布中采樣一個詞,不斷重復(fù)上面的這個過程,直至遍歷文檔中的每一個單詞。

基于LDA模型對校友導(dǎo)師身份進行數(shù)字化標(biāo)簽過程中,首先假設(shè)存在K個校友數(shù)字標(biāo)簽、M個校友文檔,每個校友文檔看成由Nm個單詞組成的一個向量,所有的單詞組成一個大的詞庫VOC。其次,第m個校友可形成基于數(shù)字標(biāo)簽下的概率向量θm;第k個數(shù)字標(biāo)簽,基于詞庫VOC形成一個對應(yīng)的概率向量?覫k,并且第m個校友文檔描述中第n個詞對應(yīng)的數(shù)字化標(biāo)簽定義為Zmn?;谝陨霞僭O(shè),其LDA模型可用圖1表示。

給定校友文檔形成的集合,wmn是可以觀察到的已知變量,α、β為服從Dirichlet分布的先驗參數(shù),Zmn、θm、?覫n是需要通過Gibbs Sampling過程來不斷逼近真實值的隱含變量。在采樣過程中每次選取一個向量維度,用其他維度的變量值來采樣當(dāng)前選取的向量維度,不斷迭代以上過程,直到收斂輸出隱含變量。[10]具體過程如下。

首先,對校友導(dǎo)師詞庫VOC中的每個詞分別賦值一個隨機的數(shù)字化標(biāo)簽K0。

其次,對于可觀測變量wmn,統(tǒng)計每個數(shù)字化標(biāo)簽k下,當(dāng)前觀測結(jié)果wmn=t 的數(shù)量以及每個校友文檔中出現(xiàn)當(dāng)前標(biāo)簽k的數(shù)量,并且利用其他詞語的分布來估計當(dāng)前觀測結(jié)果的分布,即p(k|k-i,?覫,θ)。

再次,獲得當(dāng)前觀測結(jié)果在所有標(biāo)簽下的概率后,為它采樣一個新的主題。

最后,循環(huán)以上過程,更新下一個詞的標(biāo)簽,直到參數(shù)?覫、θ收斂到平穩(wěn),算法停止。

3.校友導(dǎo)師行業(yè)標(biāo)簽提取結(jié)果

實驗中收集了有效信息共計297條數(shù)據(jù)。先對文本進行規(guī)范性處理,包括分詞,記錄停用詞詞庫的構(gòu)建;同時根據(jù)分詞的結(jié)果將所有的校友企業(yè)行業(yè)信息形成一個詞向量空間。計算每個詞語的TF-IDF值,在此基礎(chǔ)上形成校友行業(yè)信息的語料庫。最后,對上面形成的語料庫進行LDA分析,同時發(fā)現(xiàn),將α、β設(shè)置為0.01和0.5時效果最佳,設(shè)置形成9個類別校友數(shù)字標(biāo)簽的分類結(jié)果,迭代次數(shù)為1000次,得到校友導(dǎo)師身份標(biāo)簽,如表1所示。

其中,某個行業(yè)標(biāo)簽下的關(guān)鍵詞分布排序如圖2所示。

對于每個校友導(dǎo)師,可獲得其在每個標(biāo)簽身份上的分布概率,隨機選擇4位導(dǎo)師,可得表2所示相應(yīng)的標(biāo)簽概率分布。

同時可獲得相應(yīng)校友導(dǎo)師在標(biāo)簽上的分布圖,如圖3所示。

從表1中的詞分布中可結(jié)合人工經(jīng)驗歸納出各校友導(dǎo)師身份的數(shù)字標(biāo)簽,標(biāo)簽1是關(guān)于農(nóng)業(yè)種植、養(yǎng)殖類行業(yè)導(dǎo)師;標(biāo)簽2是關(guān)于工業(yè)工程行業(yè)類導(dǎo)師;標(biāo)簽3是關(guān)于商業(yè)服務(wù)類導(dǎo)師;標(biāo)簽4是關(guān)于醫(yī)藥健康服務(wù)類行業(yè)導(dǎo)師;標(biāo)簽5是關(guān)于生活服務(wù)類行業(yè)導(dǎo)師;標(biāo)簽6是關(guān)于旅游服務(wù)類行業(yè)導(dǎo)師;標(biāo)簽7是關(guān)于教育培訓(xùn)類行業(yè)導(dǎo)師;標(biāo)簽8是關(guān)于物流物質(zhì)供銷類行業(yè)導(dǎo)師;標(biāo)簽9是關(guān)于保險類行業(yè)導(dǎo)師。

四、結(jié)語

學(xué)校在人才培養(yǎng)和教學(xué)改革發(fā)展過程中,校友可以憑借對母校學(xué)科設(shè)置、師資力量和科研水平的熟悉程度,結(jié)合其就業(yè)經(jīng)歷、專業(yè)素養(yǎng)、創(chuàng)業(yè)經(jīng)驗和失敗教訓(xùn),通過擔(dān)任校友導(dǎo)師參與到職業(yè)發(fā)展規(guī)劃、創(chuàng)新創(chuàng)業(yè)教育過程中,把學(xué)業(yè)信息、就業(yè)信息、行業(yè)信息、科技信息及相關(guān)經(jīng)驗傳授給在校學(xué)生,是新常態(tài)下推動高校育人模式轉(zhuǎn)變的有益探索與實踐。

校友導(dǎo)師身份標(biāo)簽的構(gòu)建可以讓學(xué)生在參與校友導(dǎo)師計劃過程中,首先獲得對導(dǎo)師清晰完整形象的把握,提升導(dǎo)師計劃與學(xué)生之間的匹配程度。本文基于校友導(dǎo)師計劃提出了校友導(dǎo)師標(biāo)簽構(gòu)建的層級結(jié)構(gòu),同時通過利用LDA模型對構(gòu)建校友導(dǎo)師行業(yè)類數(shù)字標(biāo)簽進行探索,為提高校友信息的區(qū)分度,使用詞語的TF-IDF值構(gòu)建模型。今后,將結(jié)合學(xué)生對校友導(dǎo)師的評價及情感分析進一步提升校友導(dǎo)師數(shù)字標(biāo)簽的準(zhǔn)確性和實用性。

參考文獻:

[1]黃文彬,徐山川,吳家輝等.移動用戶畫像構(gòu)建研究[J].現(xiàn)代情報,2016,36(10):54-61.

[2]高廣尚.用戶畫像構(gòu)建方法研究綜述[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(3):25-35.

[3]范哲.基于用戶畫像的數(shù)字原住民社會化媒體采納意愿的階段性分析[J].現(xiàn)代情報, 2017,37(6):99-106.

[4]徐彬,楊丹,張昱等.面向微博用戶標(biāo)簽推薦的關(guān)系約束主題模型[J].計算機科學(xué)與探索, 2014,8(3):288-295.

[5]阮光冊.基于LDA的網(wǎng)絡(luò)評論主題發(fā)現(xiàn)研究[J].情報雜志,2014,33(3):161-164.

[6]傅魁,周良俊,王慧敏.基于主題模型的虛擬社區(qū)用戶建模[J].武漢理工大學(xué)學(xué)報(信息與管理工程版),2014,36(5):663-667,672.

[7]范宇,符紅光,文奕.基于LDA模型的專利信息聚類技術(shù)[J].計算機應(yīng)用, 2013,33(z1):87-89,93.

[8]姜曉偉,王建民,丁貴廣.基于主題模型的微博重要話題發(fā)現(xiàn)與排序方法[J].計算機研究與發(fā)展,2013,50(z1):179-185.

[9]李文波,孫樂,張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計算機學(xué)報, 2008(4):620-627.

[10]張明慧,王紅玲,周國棟.基于LDA主題特征的自動文摘方法[J].計算機應(yīng)用與軟件, 2011,28(10):20-22,46.

(編輯:王天鵬)

猜你喜歡
用戶畫像
基于數(shù)據(jù)分析高校學(xué)生自畫像的初探
分析用戶畫像在企業(yè)精準(zhǔn)營銷中的應(yīng)用方式
基于用戶畫像的數(shù)字原住民社會化媒體采納意愿的階段性分析
基于大數(shù)據(jù)技術(shù)的廣電用戶收視行為建模
基于大數(shù)據(jù)的電商活動頁面設(shè)計策略研究
計算機時代(2017年4期)2017-04-26 08:35:33
用戶畫像在內(nèi)容推送中的研究與應(yīng)用
貝葉斯網(wǎng)絡(luò)在用戶畫像構(gòu)建中的研究
移動通信(2016年22期)2017-03-07 21:59:13
把聲音的魅力發(fā)揮到極致
中國廣播(2017年1期)2017-02-21 13:40:10
移動用戶畫像構(gòu)建研究
基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營銷
拉萨市| 通渭县| 阿合奇县| 湖州市| 泸西县| 无棣县| 景德镇市| 桐城市| 白朗县| 禹城市| 马龙县| 崇文区| 古蔺县| 安福县| 南岸区| 阜新| 福州市| 聊城市| 寿光市| 德江县| 南岸区| 犍为县| 新建县| 巴马| 韶关市| 宿州市| 达日县| 安康市| 九江县| 太保市| 武宣县| 太谷县| 吴旗县| 峡江县| 嵩明县| 青河县| 阜宁县| 德兴市| 阳城县| 阜平县| 五台县|