国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高校區(qū)域大學(xué)生微博身份的精確識別方法①

2017-02-20 07:40何國東郭雨宸朱玲萱
關(guān)鍵詞:帳號預(yù)處理用戶

姜 贏, 何國東, 郭雨宸, 朱玲萱

?

高校區(qū)域大學(xué)生微博身份的精確識別方法①

姜 贏, 何國東, 郭雨宸, 朱玲萱

(北京師范大學(xué)珠海分校管理學(xué)院, 珠海 519087)

對高校大學(xué)生微博身份進(jìn)行精確識別有利于盡早的定位大學(xué)生網(wǎng)絡(luò)謠言、高校輿情事件的起源, 為高校輔導(dǎo)員及相關(guān)管理部門采取線下補(bǔ)救措施、及時處理突發(fā)事件爭取時間. 以學(xué)校提供的學(xué)生信息資料為背景, 讓挖掘到的大學(xué)生微博信息盡可能地去匹配已有的背景信息, 從而識別高校區(qū)域大學(xué)生微博帳號. 分別采用3種閾值進(jìn)行實驗分析, 證明這種循環(huán)匹配的方法可以獲得較好的識別效果.

網(wǎng)絡(luò)輿情; 微博帳號; 身份識別; 模式匹配; 學(xué)生微博

在高校的微博社區(qū)中, 大學(xué)生使用微博的頻率極高, 大多數(shù)的大學(xué)生都會利用微博來傳達(dá)信息. 獲取和分析高校大學(xué)生的微博信息有助于了解大學(xué)生學(xué)習(xí)生活狀況, 以便更好地做好學(xué)生管理工作. 然而, 獲取大學(xué)生微博信息的首先要從茫茫的微博“大海”中識別出大學(xué)生微博帳號. 有些高校要求學(xué)生入學(xué)時提供手機(jī)、電子郵箱信息, 其中也包括微博帳號. 從這些帳號獲取微博信息雖然能解決一部分問題, 但是目前大學(xué)生個人隱私保護(hù)觀念普遍較強(qiáng), 并不愿意毫無保留的提供給高校專業(yè)老師、輔導(dǎo)員個人私密信息. 筆者在前期研究中也發(fā)現(xiàn)部分大學(xué)生提供虛假微博帳號給學(xué)校, 并另開通一個或多個“小號”的現(xiàn)象[1]. 另外, 大學(xué)生微博帳號也會隨轉(zhuǎn)專業(yè)、換班級、加入/退出社團(tuán)等交友圈子變化而變動. 因此目前亟待一種能夠快速有效識別特定區(qū)域范圍(例如某個班級)大學(xué)生微博帳號的方法(微博身份識別), 才能在此基礎(chǔ)之上獲取特定群體或個體大學(xué)生微博信息并進(jìn)行分析. 特別對于高校微博輿情監(jiān)控與引導(dǎo)工作來說, 盡早的精確定位大學(xué)生網(wǎng)絡(luò)謠言、高校輿情事件的起源至關(guān)重要. 如果快速能識別出網(wǎng)絡(luò)輿情相關(guān)的大學(xué)生微博帳號的真實身份, 就可以立刻采取線下補(bǔ)救措施, 為高校輔導(dǎo)員及相關(guān)管理部門及時處理突發(fā)事件爭取時間, 這也是本文的研究意義所在.

1 研究現(xiàn)狀分析

徐強(qiáng)等通過獲取微博上的用戶以及用戶之間的關(guān)系作為研究樣本, 構(gòu)建網(wǎng)絡(luò)社區(qū)模型, 并利用GN算法對微博用戶進(jìn)行社區(qū)劃分, 用于社交網(wǎng)絡(luò)中的社區(qū)發(fā)現(xiàn)[2]. 劉勘等通過隨機(jī)森林算法設(shè)計微博中機(jī)器用戶的識別模型有效地區(qū)分微博中的機(jī)器用戶和普通用戶[3]. 黃磊等將用戶名和用戶發(fā)表的微博文本作為表示用戶的樣本, 使用基于最大熵算法進(jìn)行用戶分類, 利用認(rèn)證用戶對非認(rèn)證用戶進(jìn)行類型分類, 能夠?qū)€人用戶和非個人用戶進(jìn)行自動分類[4]. 劉金寶等結(jié)合個人信息、帳號行為及微博內(nèi)容3類特征的識別方法能有效識別自媒體帳號, 不同類別的特征也能夠相互補(bǔ)充[5]. 薛云霞根據(jù)微博用戶產(chǎn)生的相關(guān)數(shù)據(jù)對用戶的個體屬性進(jìn)行自動識別, 包括一種基于交互式信息的半監(jiān)督性別分類方法和一種基于文本和社交信息的半監(jiān)督年齡回歸方法[6]. 張進(jìn)等提出一種改進(jìn)的微博炒作賬戶識別方法,從賬戶狀態(tài)、歷史微博以及賬戶鄰居3個方面對炒作賬戶的特征進(jìn)行分析, 構(gòu)建炒作賬戶特征集, 并利用數(shù)據(jù)挖掘中的樸素貝葉斯、支持向量機(jī)及K最近鄰分類等算法對正常賬戶和炒作賬戶進(jìn)行自動分類[7]. 韓忠明等構(gòu)建了一個識別微博水軍的概率圖模型計算用戶為水軍的概率, 能夠區(qū)分普通用戶和水軍的屬性特征與行為特征, 將用戶的屬性特征作為識別水軍的前提條件, 而行為特征則是判別其是否為水軍的驗證結(jié)果[8]. 趙巖利用僵尸粉發(fā)帖的內(nèi)容特征,將文本復(fù)制檢測技術(shù)應(yīng)用到博文文本特征分析問題中,提出了一種基于信息指紋的微博文本查重技術(shù), 并利用此技術(shù)實現(xiàn)了僵尸粉的識別[9]. 高尚等選取“加V”和“透露職業(yè)”變量作為身份識別標(biāo)準(zhǔn), 將2446個樣本聚為五類(群眾、學(xué)生、打拼族、達(dá)人、權(quán)威), 并分析了其在人口統(tǒng)計特征、信息公開程度、微博使用痕跡、微博影響力等方面的特征和差異; 又對其中248個重度使用者的博文進(jìn)行了內(nèi)容分析, 從活動、興趣、觀點完整地描述了五類群體[10]. 國外輿情監(jiān)控主要是宏觀趨勢研究, 而微博賬戶身份識別的個體研究較少: Jalal Mahmud在Twitter平臺上推測微博用戶的家庭位置, 但是無法精確到用戶身份識別[11]. Kapanipathi使用層級知識庫對Twitter用戶興趣進(jìn)行了識別和分類[12], 類似的Zarrinkalam也提出基于語義技術(shù)的用戶興趣識別技術(shù)[13], 也都未能精確定位到用戶身份.

綜上所述, 目前關(guān)于微博身份識別的研究主要是利用微博賬戶信息、微博內(nèi)容信息, 采取數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等方法對微博賬戶進(jìn)行屬性定性(例如, 僵尸粉、水軍等)和特征分類(例如, 性別、興趣、身份、社區(qū)等). 這些研究都本質(zhì)上都是只是“模糊分類”, 無法做到“精確定位”到個人身份. 本文的研究目標(biāo)不僅僅要識別大學(xué)生微博賬戶所屬的高校區(qū)域范圍(例如, 所屬哪個班級、哪個社團(tuán)), 還力求精確定位到單個學(xué)生的身份. 也就是說, 給定某個微博帳號之后, 要能識別出他到底是哪個學(xué)生. 然而目前基于大學(xué)生微博的高校教育相關(guān)研究也主要還是在已獲得大學(xué)生微博帳號身份之后再做進(jìn)一步分析(例如, 微博社交網(wǎng)絡(luò)中的學(xué)生用戶抑郁癥識別方法[14]), 尚未見精確識別單個大學(xué)生微博帳號身份的相關(guān)研究報道.

2 技術(shù)原理

圖1 技術(shù)原理圖

如圖1所示, 高校區(qū)域大學(xué)生微博身份精確識別方法的技術(shù)原理為: 以學(xué)校提供的學(xué)生信息資料為背景, 讓挖掘到的大學(xué)生微博信息盡可能地去匹配已有的背景信息, 最后計算匹配度作為識別的結(jié)果. 第一部分為范圍匹配, 數(shù)據(jù)來源于教育信息表和微博內(nèi)容信息表: 教育信息表含有微博用戶的教育信息, 例如學(xué)校名稱、學(xué)院名稱以及專業(yè)名稱等; 微博內(nèi)容信息表是利用分詞技術(shù), 挖掘相關(guān)的關(guān)鍵詞, 若在教育信息中, 微博用戶沒有填寫, 那么將在微博內(nèi)容中盡量提取有關(guān)于教育信息的內(nèi)容, 內(nèi)容關(guān)鍵詞涉及到學(xué)校名稱、學(xué)院和專業(yè)名稱. 利用以上的兩張微博用戶表, 首先與個人信息中的學(xué)校表、學(xué)院表進(jìn)行匹配, 若與個人信息表中的信息匹配不成功, 將返回專業(yè)匹配參數(shù)以及讓微博用戶信息與背景信息進(jìn)行循環(huán)匹配, 直至循環(huán)匹配結(jié)束為止. 這樣的匹配方法是為了讓微博信息表與最小范圍的個人信息表進(jìn)行循環(huán)匹配, 對目標(biāo)進(jìn)行盡可能的排除操作, 目的是為縮小對象范圍, 提高步驟檢索效率, 從而提高匹配效率.

3 微博信息挖掘方法

3.1 微博信息存儲設(shè)計

圖2 微博數(shù)據(jù)表實體關(guān)系圖

如圖2所示, 根據(jù)本次研究的主題以及匹配機(jī)制原理, 筆者將需要被挖掘的微博信息種類分為以下5類: (1)粉絲列表類: 授權(quán)用戶的粉絲列表信息, 獲取的信息有粉絲UID、以及粉絲昵稱、出生年月日、籍貫、性別等信息. (2)粉絲微博內(nèi)容類: 獲取粉絲近期發(fā)表的100條微博內(nèi)容(新浪開放平臺限制, 最多下載條數(shù)為100條), 對粉絲微博內(nèi)容進(jìn)行分詞、提取關(guān)鍵詞, 例如: “信息管理與信息系統(tǒng)”、“信管”、“人力”、“人力資源”等. (3)標(biāo)簽類: 粉絲微博的標(biāo)簽上, 大多數(shù)微博用戶會設(shè)置個人特色標(biāo)簽, 例如: “90后”、“星座信息”、“愛好”等; 獲取標(biāo)簽信息后采用分詞技術(shù)提取星座等關(guān)鍵詞. (4)教育類: 獲取粉絲的教育信息, 在注冊微博用戶過程中需要填寫目前教育情況, 因此, 通過該接口可以提取用戶教育情況, 一般可以提取學(xué)校名稱、年級信息以及學(xué)院名稱. (5)郵箱類: 獲取用戶填寫的郵箱信息, 個人資料中存在學(xué)生郵箱信息, 與此匹配可以提高識別率.

如圖2所示, 筆者將微博信息數(shù)據(jù)庫模式采用為星型模式, 原因在于用于系統(tǒng)運行的是一張巨大的微博信息事實表, 因此, 為了提高靈活性以及代碼易開發(fā)性, 本文將微博信息數(shù)據(jù)庫模式采用微星狀模式; 再者, 由于微博信息數(shù)據(jù)庫中存在的數(shù)據(jù)已經(jīng)進(jìn)行過初步的數(shù)據(jù)預(yù)處理, 考慮到不需要在多次進(jìn)行數(shù)據(jù)預(yù)處理環(huán)節(jié), 因此采用星狀模式關(guān)系數(shù)據(jù)庫是最佳設(shè)計方案.

3.2 微博信息獲取方式

筆者通過新浪微博API授權(quán)方式進(jìn)行微博信息的挖掘, 在取得授權(quán)碼的前提下, 在平臺開放包進(jìn)行信息挖掘操作. 筆者只能獲得新浪微博普通權(quán)限, 受微博系統(tǒng)限制比較多, 因此在微博信息采集的策略上, 分為多帳號采集方式、代理IP采集方式. 多帳號采集方式是找到多個學(xué)校官方的微博賬戶, 對這些官方帳號進(jìn)行授權(quán), 獲取相應(yīng)的授權(quán)碼; 代理IP采集方式, 微博系統(tǒng)對單一個的IP請求是受限制的, 那么可以采用代理IP突破限制, 對于普通權(quán)限, 每小時30000次的下載次數(shù), 對于本次研究數(shù)據(jù)量要求是足夠的.

3.3 微博信息預(yù)處理

圖3 微博信息預(yù)處理流程圖

被挖掘的微博信息的特點有雜亂無序和具有太多無規(guī)律的標(biāo)簽符號, 因此在系統(tǒng)利用數(shù)據(jù)之前, 需要對微博信息進(jìn)行數(shù)據(jù)預(yù)處理操作. 高校微博用戶以學(xué)生為主, 每所高校僅在校生數(shù)量就有幾千到幾萬不等, 微博內(nèi)容更是海量存在. 如果數(shù)據(jù)預(yù)處理完全靠人工手動處理, 將花費大量的時間和人力物力, 不具有可行性和可推廣性. 本次研究將按照系統(tǒng)利用數(shù)據(jù)階段把微博信息數(shù)據(jù)預(yù)處理分為系統(tǒng)調(diào)用前數(shù)據(jù)預(yù)處理和系統(tǒng)內(nèi)運行時數(shù)據(jù)預(yù)處理, 所有的數(shù)據(jù)預(yù)處理操作都在系統(tǒng)內(nèi)進(jìn)行, 不利用人工手動處理.

(1) 影響詞預(yù)處理方式是指將一些無關(guān)緊要的詞進(jìn)行刪除的, 需要利用這一方式進(jìn)行預(yù)處理的信息由微博內(nèi)容、標(biāo)簽內(nèi)容. 本文將微博內(nèi)容、標(biāo)簽內(nèi)容進(jìn)行影響詞處理的原因在于微博內(nèi)容以及標(biāo)簽內(nèi)容所含有的英文、符號等標(biāo)簽過多, 盡量去除該類標(biāo)簽對于匹配精準(zhǔn)度取到關(guān)鍵性作用.

(2) 分詞預(yù)處理是將經(jīng)過影響詞預(yù)處理的微博內(nèi)容和標(biāo)簽內(nèi)容進(jìn)行分詞, 對研究中所需的關(guān)鍵詞進(jìn)行提取. 微博用戶在編輯微博內(nèi)容時可能會涉及到某些具有身份信息的內(nèi)容, 例如, “在人力資源的專業(yè)課上, 我收獲良多. ”, “人力資源”能夠進(jìn)行身份定位的關(guān)鍵詞; 在標(biāo)簽關(guān)鍵詞的提取方面可以提取類似于星座等關(guān)鍵詞.

(3) 信息存放預(yù)處理指的是將微博數(shù)據(jù)按照一定的格式(位置關(guān)系等)存放在txt文檔中, 該步驟的目的在于將微博數(shù)據(jù)存儲在數(shù)據(jù)庫上時易于提取, 代碼的開發(fā)難度將小, 能夠減少程序員的開發(fā)工作, 提高工作效率.

4 實驗分析

筆者以北京師范大學(xué)珠海分校管理學(xué)院597名學(xué)生作為實驗分析對象. 根據(jù)學(xué)院提供的學(xué)生正確個人信息, 在實驗過程中, 筆者將這些個人信息分成模糊信息、較唯一信息和唯一信息; 其中模糊信息中包括了個人姓名、性別、星座、出生地、學(xué)校名稱、學(xué)院名稱、專業(yè)名稱、年級等; 較唯一信息包括QQ帳號、出生年月日等; 唯一信息則含有身份證號、學(xué)號、手機(jī)號碼等.

4.1 實驗參數(shù)設(shè)置

筆者對模糊信息、較唯一信息、唯一信息所設(shè)置的參數(shù)是不一樣的, 唯一信息的參數(shù)高, 三者之中參數(shù)最低的是模糊參數(shù); 然而在模糊信息中的信息參數(shù)也不相同, 比如姓名參數(shù)高于性別、星座等信息, 主要是根據(jù)信息在微博人群中出現(xiàn)的概率大小確定的. 因此本次實驗將匹配參數(shù)的設(shè)置類型分為3個階段, 每個階段的匹配參數(shù)作為準(zhǔn)確率和召回率的閥值. 3個階段的閥值為參數(shù)的標(biāo)準(zhǔn)差, 參數(shù)表由下表所示.

(1) 較唯一信息匹配參數(shù)總和大于60%

閥值1中較唯一信息匹配參數(shù)總和大于60%的設(shè)定原因在于設(shè)定60%以上匹配度為匹配合格線, 因此, 考慮信息重要程度以及出現(xiàn)頻數(shù)講qq帳號、出生年月以及微博名設(shè)為各20%(閥值1號).

(2) 模糊信息考慮出現(xiàn)頻數(shù)

閥值2為模糊信息考慮出現(xiàn)頻數(shù), 越重要出現(xiàn)的頻數(shù)越高則設(shè)置的匹配參數(shù)越高, 但是總的模糊信息匹配參數(shù)總和不超過60%.

(3) 不考慮出現(xiàn)頻數(shù)與重要性

閥值3為不考慮任何出現(xiàn)的頻率和重要性, 閥值3主要被作為參考參數(shù)值.

表1 個人信息匹配參數(shù)表(%)

表2 循環(huán)匹配示例(10號微博用戶與13號學(xué)生)

在個人姓名信息中, 主要與微博昵稱進(jìn)行匹配, 將姓名拆分成姓、名各自添加匹配參數(shù), 拆分的原理在于微博用戶采用真實姓名作為微博昵稱; 在出生年月日信息方面, 同樣采取與個人姓名的拆分方式, 拆分成出生年、出生月、出生日, 拆分的原理主要根據(jù)微博用戶填寫信息不完整的可能. 以上參數(shù)的設(shè)置存在匹配重要性高低之分, 在模糊信息分類中, 重要性: 個人姓名>出生地=專業(yè)名稱>學(xué)院名稱=星座>年級>學(xué)校名稱=性別, 因此在參數(shù)設(shè)置上依據(jù)重要性由高到低設(shè)置. 在較唯一信息中, QQ帳號信息的重要性等于出生年月日重要性. 唯一信息中, 因為新浪微博系統(tǒng)不披露關(guān)于微博用戶的絕密信息, 因此唯一信息不再本次研究的范圍之內(nèi).

例如, 依據(jù)表2的匹配數(shù)據(jù), 采取閾值號為1的參數(shù)進(jìn)行匹配, 可得10號微博用戶與13號學(xué)生的匹配度為90%, 直到匹配完所有的學(xué)生; 最后返回所有學(xué)生的匹配度.

4.2 實驗樣本基本情況

本次研究的微博樣本數(shù)量有597人, 統(tǒng)計的學(xué)生微博信息樣本完整度情況如圖4所示. 在個人微博資料中, 郵箱以及qq填寫的情況是最少的, 597人中只有86人和82人填寫; 性別資料有481人填寫, 所在地高達(dá)458人填寫, 出生年月日大概有將近177人填寫, 畢業(yè)院校的填寫情況超304人. 從以上的數(shù)據(jù)可以看出, 對于微博社交平臺上, 較唯一的信息填寫的相對較少, qq號碼占總?cè)藬?shù)的14.4%, 出生年月日占總?cè)藬?shù)的30.1%; 于是這些因素都會對系統(tǒng)的匹配度有所影響, 根據(jù)所挖掘的信息, 必須對匹配參數(shù)做出相應(yīng)的調(diào)整.

圖4 微博樣本數(shù)據(jù)完整度圖

較唯一信息被學(xué)生填寫的次數(shù)較少, 而模糊信息被學(xué)生填寫的次數(shù)較多. 如果根據(jù)定量來分配匹配參數(shù)顯然是不正確的方式, 也就是說, 按照出現(xiàn)的頻數(shù)來分配匹配參數(shù), 性別列被填的次數(shù)最多, 但是確實最為模糊和能夠被匹配上的參數(shù), 因此只是利用定量的方法來確定參數(shù)是存在錯誤的, 必須引入定性變量. 獲取的微博基本信息存在重要性程度不同, 例如將所有的基本信息分為唯一信息、較唯一信息和模糊信息; 唯一信息中只要能夠匹配上一列, 即可對用戶進(jìn)行準(zhǔn)確定位. 如果較唯一信息中, 如初生年月日、qq號碼可能會出現(xiàn)少量的重復(fù)和誤填情況, 而模糊信息則重復(fù)出現(xiàn)的概率更大, 例如性別只分為男和女、出生地也可能重復(fù). 在同等性質(zhì)的信息中也可以分出不同的重要性, 例如在模糊信息中, 重復(fù)出現(xiàn)的概率較大的為性別和星座; 在較唯一信息中, 出生年月比qq號碼重要.

4.3 實驗結(jié)果

表3 匹配度>60%的識別準(zhǔn)確率和召回率表

表4 匹配度>80%的識別準(zhǔn)確率和召回率表

圖5 準(zhǔn)確率與召回率比值曲線圖(匹配度>60%)

圖6 準(zhǔn)確率與召回率比值曲線圖(匹配度>80%)

從圖5和圖6可以看出, 準(zhǔn)確率隨著參數(shù)標(biāo)準(zhǔn)的關(guān)系為開口向下的二元一次方程關(guān)系, 而召回率與標(biāo)準(zhǔn)差的關(guān)系為開口向上的二元一次方程關(guān)系, 在某一標(biāo)準(zhǔn)差下準(zhǔn)確率和召回率分別取得最大值. 在第三號閥值中匹配度大于60%和80%的準(zhǔn)確率和召回率最為接近; 準(zhǔn)確率和召回率是一對相對矛盾的性能指標(biāo), 在圖5和圖6中可以看出, 準(zhǔn)確度和召回率在70%處相交, 但此時的準(zhǔn)確度和召回率并不是本系統(tǒng)的最佳數(shù)值, 應(yīng)該在一定的召回率的基礎(chǔ)上提高識別準(zhǔn)確度, 因此應(yīng)該以準(zhǔn)確度為重.

4.3 局限性分析

根據(jù)以上分析, 不難看出本方法的主要局限性在于: (1)抓取的微博內(nèi)容中大部分學(xué)生的基本信息殘缺, 由于基本信息的殘缺導(dǎo)致了的匹配度較低. (2)本次研究的匹配原理采用的匹配方法過少: 本文采用的匹配方法為基本信息的絕對匹配原理, 由于匹配方法的單一導(dǎo)致匹配結(jié)果良莠不齊.

5 未來工作

(1) 模糊匹配: 對微博名等信息進(jìn)行模糊匹配, 本文采用的微博名匹配方法為絕對匹配(匹配值為100%), 因此存在著不足. 為了提高匹配值, 增加采用模糊匹配的方法, 例如, 微博名為“Jiang浩”, 真實姓名為“姜浩”. 為了增加匹配值, 應(yīng)該對微博名進(jìn)行英文和漢字的轉(zhuǎn)換、以及漢語拼音首字母的提取等操作, 利用以上操作后的結(jié)果進(jìn)行匹配來增大匹配值. 例如, 模糊匹配可以利用LCS(最長公共子序列)或GTS(貪婪串匹配)來計算拼音字符串的匹配值[15]. 模糊匹配計算的結(jié)果是一個0%~100%之間匹配值, 不是一個絕對的錯誤匹配或正確匹配. 匹配值可設(shè)置閾值范圍(如80%以上)用作匹配參數(shù)設(shè)定, 也直接用于每次循環(huán)匹配的加權(quán)參數(shù)設(shè)定.

(2) 信息內(nèi)容匹配細(xì)化: 信息內(nèi)容匹配細(xì)化是對信息內(nèi)容進(jìn)行細(xì)化匹配, 目的是讓微博內(nèi)容盡可能匹配用戶信息增大匹配值. 信息匹配細(xì)化的原理是利用Lucene的搜索技術(shù)代替匹配值, 例如一名微博用戶的出生地為四川綿陽, 真實出生地為四川省綿陽市, 本應(yīng)該是正確的, 如果利用絕對匹配原理, 將匹配不上, 那么應(yīng)該利用Lucene的匹配原理對該條信息進(jìn)行匹配, 自定義一個返回的匹配度并返回匹配度作為匹配參數(shù).

1 姜贏,萬里鵬,張婧,葛思坤.微博環(huán)境下高校網(wǎng)絡(luò)輿情的監(jiān)測與引導(dǎo)研究——以政治敏感信息的監(jiān)測與引導(dǎo)為例.現(xiàn)代教育技術(shù),2013,4:92–96.

2 徐楊,蒙祖強(qiáng).基于GN算法的微博社區(qū)識別方法.廣西大學(xué)學(xué)報(自然科學(xué)版),2013,6:1413–1417.

3 劉勘,袁蘊英,劉萍.基于隨機(jī)森林分類的微博機(jī)器用戶識別研究.北京大學(xué)學(xué)報(自然科學(xué)版),2015,2:289–300.

4 黃磊,李壽山,王晶晶.基于認(rèn)證用戶信息的微博用戶類型識別方法.計算機(jī)科學(xué)與探索,2015,6:719–725.

5 劉金寶,盛達(dá)魁,張銘.微博自媒體帳號識別研究.計算機(jī)研究與發(fā)展,2015,11:2527–2534.

6 薛云霞.微博用戶屬性識別方法研究[碩士學(xué)位論文].蘇州:蘇州大學(xué),2015.

7 張進(jìn),劉琰,羅軍勇,董雨辰.基于特征分析的微博炒作賬戶識別方法.計算機(jī)工程,2015,4:48–54,59.

8 韓忠明,許峰敏,段大高.面向微博的概率圖水軍識別模型. 計算機(jī)研究與發(fā)展,2013,S2:180–186.

9 趙巖.微博僵尸粉識別技術(shù)研究與實現(xiàn)[碩士學(xué)位論文].長沙:國防科學(xué)技術(shù)大學(xué),2013.

10 高尚,林升棟,翁路易,梁玉麒,宋玉蓉,趙成棟.基于身份識別對中國微博活躍用戶的分群研究.現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報),2013,10:116–121.

11 Mahmud J, Nichols J, Drews C. Home location identification of twitter users. ACM Trans. Intell. Syst. Technol., 2014, 5(3): 1–47.

12 Kapanipathi P, Jain P, Venkataramani C, Sheth A. User interests identification on Twitter using a hierarchical knowledge base. The Semantic Web: Trends and Challenges, ESWC 2014. Lecture Notes in Computer Science, 2014, 8465: 99–113.

13 Zarrinkalam F, Fani H, Bagheri E, Kahani M, Du W. Semantics-enabled user interest detection from twitter. Proc. of 2015 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. 2015. 103–110.

14 李鵬宇.微博社交網(wǎng)絡(luò)中的學(xué)生用戶抑郁癥識別方法研究[碩士學(xué)位論文].哈爾濱:哈爾濱工業(yè)大學(xué),2014.

15 于海英.字符串相似度度量中LCS和GST算法比較.電子科技,2011,24:101–103,124.

Accurate Identification Method of College Student Microblogs in Certain Area of University

JIANG Ying, HE Guo-Dong, GUO Yu-Chen, ZHU Ling-Xuan

(School of Management, Beijing Normal University, Zhuhai 519087, China)

The accurate identification of college student microblogs is helpful to location the sources of college student rumors and university public opinion events early, which can gain time for the university tutors and related authorities to take remedial measures and deal with emergencies promptly. It matches the college student microblogs information with the student background information from the university as much as possible, so that the student microblog accounts can be identified in certain area of university. The experiments are performed on three different threshold values, and the results prove the effectiveness of the identification by this loop matching method.

online public opinion; microblog account; identification recognition; pattern matching; student microblog

廣東省省級學(xué)校德育創(chuàng)新項目(2015DYZD015);廣東省科技計劃(2014A080804001)

2016-04-17;收到修改稿時間:2016-05-16

[10.15888/j.cnki.csa.005527]

猜你喜歡
帳號預(yù)處理用戶
KR預(yù)處理工藝參數(shù)對脫硫劑分散行為的影響
求解奇異線性系統(tǒng)的右預(yù)處理MINRES 方法
污泥預(yù)處理及其在硅酸鹽制品中的運用
基于預(yù)處理MUSIC算法的分布式陣列DOA估計
關(guān)注用戶
關(guān)注用戶
關(guān)注用戶
關(guān)注用戶
麻城市| 凉城县| 青浦区| 衡水市| 本溪| 同心县| 四会市| 两当县| 平潭县| 珠海市| 洛南县| 土默特左旗| 江华| 山西省| 衡阳县| 大英县| 高雄县| 德保县| 黔江区| 丰城市| 察哈| 襄樊市| 陵川县| 石棉县| 双牌县| 平湖市| 高陵县| 舞钢市| 沙坪坝区| 颍上县| 苍溪县| 岳普湖县| 南川市| 乌鲁木齐市| 广饶县| 曲麻莱县| 金华市| 福州市| 廊坊市| 八宿县| 易门县|