鄒序焱,蔣利娜
(宜賓學(xué)院人工智能與大數(shù)據(jù)學(xué)部,四川宜賓 644000)
在日常生活與工作中可以通過個(gè)人行為習(xí)慣來了解其個(gè)性,一個(gè)人喜好的文學(xué)作品和影視作品也能反映一個(gè)人的性格特征[1],管理方即可針對(duì)不同性格群體作出不同的決策.如王紅等人[2]通過館藏圖書分類和流通數(shù)據(jù),探索受眾與圖書流通之間的隱含規(guī)律,發(fā)現(xiàn)受眾特征與館藏流通之間的關(guān)聯(lián)關(guān)系,建立線性回歸模型,通過模型擬合與預(yù)測(cè),為圖書館智慧管理提供技術(shù)與手段的支持.陶相榮[3]以圖書館現(xiàn)刊閱覽室的受眾和期刊種類為研究對(duì)象,對(duì)所收集的原始資料進(jìn)行非條件邏輯回歸分析,得出影響期刊受眾的主要因素為高年級(jí)、男性、偏遠(yuǎn)地區(qū)等,為圖書館的征訂工作提供了幫助.武同雁等[4]針對(duì)高校圖書館逐步向社會(huì)開放的現(xiàn)狀,提出通過分析社會(huì)受眾群體特征和閱讀需求來評(píng)價(jià)開放效果,從而不斷增強(qiáng)圖書館服務(wù)社會(huì)的能力,為社會(huì)受眾提供更加優(yōu)質(zhì)的服務(wù),也為其他高校圖書館面向社會(huì)開放提供工作思路.鄭云濤等人[5]利用52萬余條有效的紙質(zhì)圖書借閱記錄,分析受眾借閱圖書的內(nèi)在需求,對(duì)受眾借閱行為信息進(jìn)行挖掘,從而為更好服務(wù)受眾提供決策幫助.
本文通過問卷調(diào)查收集受眾的個(gè)性特征數(shù)據(jù)、受眾喜好的文學(xué)作品數(shù)據(jù)及影視作品數(shù)據(jù),然后進(jìn)行整理、分析以及量化,建立基于受眾個(gè)性特征的模糊聚類分析模型,把受眾群進(jìn)行分類,并對(duì)每類受眾群的性格進(jìn)行分析,提煉出每類受眾群主要的性格特點(diǎn),得到每類受眾群喜歡的文學(xué)作品及影視作品.為了能夠通過每位受眾個(gè)體喜好的作品了解受眾的個(gè)性,本文將聚類分析的結(jié)果作為監(jiān)督學(xué)習(xí)的標(biāo)記值,建立受眾閱讀作品喜好程度的多分類SVM模型,由此判別出未知受眾群的性格種類.
為了能系統(tǒng)地了解各受眾的性格,除受眾的基本信息外,還從性格的四個(gè)緯度(即力量型、完美型、寬容型、自我型4類人格)設(shè)計(jì)了16個(gè)關(guān)于受眾個(gè)性的問題(即受眾性格的感性、樂觀、主動(dòng)、倔強(qiáng)程度,謹(jǐn)慎、低調(diào)、注重原則、追求完美程度,冷靜、接納他人、懦弱、注重效率程度,同理心、自我、穩(wěn)定、分裂程度),通過調(diào)查問卷,獲取不同年齡階段的142位調(diào)查對(duì)象的性格特征數(shù)據(jù)、所喜好的文學(xué)作品數(shù)據(jù)、受眾喜歡的角色數(shù)據(jù)以及影視作品數(shù)據(jù).
通過在微信、QQ發(fā)放調(diào)查問卷以及線下發(fā)放紙質(zhì)問卷,共收集到142份有效數(shù)據(jù).其中男性占54.93%,女性占45.07%,年齡段分布集中在21-30歲,如圖1、圖2所示.
圖1 性別分布
圖2 年齡階段
關(guān)于調(diào)查對(duì)象的性格特征設(shè)置的16個(gè)問題中,每個(gè)問題的答案包含“幾乎不”“稍微”“一般”“非?!彼膫€(gè)偏向程度指標(biāo)選項(xiàng),并進(jìn)行量化處理,其量化標(biāo)準(zhǔn)如表1所示.
表1 受眾性格偏向程度定義
記142位受眾分別為X1,X2,...,X142,利用上述量化標(biāo)準(zhǔn),得到142位受眾性格特征數(shù)據(jù),結(jié)果如表2所示.
表2 受眾性格偏向程度定義表
本文主要采用模糊聚類算法[6-8]對(duì)受眾進(jìn)行聚類.為了方便進(jìn)行數(shù)值驗(yàn)證,在聚類分析過程中只選擇142位調(diào)查對(duì)象中的前122個(gè)受眾數(shù)據(jù)進(jìn)行計(jì)算,剩余的20個(gè)受眾數(shù)據(jù)則用于驗(yàn)證算法的準(zhǔn)確性.分析調(diào)查問卷的收集結(jié)果可得,聚類分析的樣本數(shù)據(jù)為D={X1,X2,...,X122},其中Xi=(xi1,xi2,...,xi16)代表第i個(gè)受眾,每一個(gè)受眾都是由16個(gè)不同的屬性值構(gòu)成,即:xi1代表第i個(gè)受眾性格的感性程度,xi2代表第i個(gè)受眾性格的樂觀程度,xi3代表第i個(gè)受眾性格的主動(dòng)程度等,具體屬性見表2.
聚類分析是利用受眾性格特征的相似度對(duì)受眾進(jìn)行的聚類,也就是同一類別下的受眾性格特征相似.假設(shè)將142位調(diào)查對(duì)象中的前122個(gè)受眾分為c個(gè)簇類,即C1,C2,...,Cc.在模糊聚類中,樣本與簇的關(guān)系不再是非此即彼,而是每個(gè)樣本按照一個(gè)隸屬度屬于某個(gè)簇.設(shè)Xi屬于簇Cj的隸屬度為αij,其中αij∈[0,1]且
從而得到模糊聚類算法的優(yōu)化函數(shù)為:
其中uj為簇Cj的聚類中心,p為控制隸屬度的影響參數(shù),通常取2.整理得到優(yōu)化模型為:
模型(3)是一個(gè)帶約束條件的優(yōu)化模型,可以利用拉格朗日數(shù)乘法將約束優(yōu)化問題轉(zhuǎn)化為無約束優(yōu)化問題,即:
從而得到模糊聚類算法的步驟為:
在算法1中,設(shè)置簇?cái)?shù)c為5,參數(shù)p為1.5,利用Python編寫程序,得到5個(gè)聚類中心為:
第一種聚類中心為:L1=(0.6258,0.7077,0.6193,0.6340,0.6819,0.6777,0.7720,0.6169,0.6336,0.7122,0.4518,0.7460,0.7473,0.3807,0.6939,0.4176),其包含17個(gè)個(gè)體.通過對(duì)樣本屬性的特征分析可知,該類為寬容型,體現(xiàn)在為人寬容大度,對(duì)自己和身邊的人都較為友好,接納性強(qiáng),情感豐富但善于控制,自我認(rèn)知清晰目標(biāo)明確,這類人具有主見但不自我,原則性很強(qiáng),更適于管理他人.
第二種聚類中心為:L2=(0.6206,0.6966,0.6094,0.6363,0.6740,0.6754,0.7593,0.6134,0.6279,0.7083,0.4732,0.7350,0.7364,0.4210,0.6835,0.4539),其包含4個(gè)個(gè)體.通過對(duì)樣本屬性的特征分析可知,該類為善解人意型,體現(xiàn)在為人同理心強(qiáng),往往善解人意,更在乎他人而非自我,做事注重效率,行動(dòng)力強(qiáng)但情感力量較為缺乏,此類人群往往需要有一個(gè)能被他們所接受的人來督促他們的進(jìn)步,是需要引領(lǐng)的潛力股.
第三種聚類中心為:L3=(0.6314,0.7044,0.6593,0.6901,0.6901,0.7059,0.7353,0.6755,0.6757,0.7224,0.6399,0.7011,0.7310,0.6425,0.6919,0.6670),其包含51個(gè)個(gè)體.通過對(duì)樣本屬性的特征分析可知,該類為矛盾型,體現(xiàn)在自我認(rèn)知明確,行事低調(diào)性格內(nèi)斂,性格更為復(fù)雜多元,較為矛盾分裂,具有多面性且各方面較為平衡,具有一定程度的雙重性格,往往使人感到神秘.他們是現(xiàn)實(shí)生活中最為普遍的性格類型,感性與理性程度持平,較為樂觀勇敢,情緒穩(wěn)定,無論是其自身還是身邊人往往都能受到此類人群的力量感染,因此能夠擁有較為和諧的社交關(guān)系和較強(qiáng)的工作執(zhí)行力.
第四種聚類中心為:L4=(0.6175,0.6899,0.6033,0.6320,0.6686,0.6717,0.7558,0.6081,0.6258,0.7052,0.4772,0.7303,0.7298,0.4282,0.6794,0.4524),其包含12個(gè)個(gè)體.通過對(duì)樣本屬性的特征分析可知,該類為倔強(qiáng)認(rèn)真型,體現(xiàn)在倔強(qiáng)認(rèn)真,同時(shí)善于聽取他人意見與建議,關(guān)心他人,也關(guān)注自己,溫和但有底線,有鋒芒而不外露,思考力相對(duì)缺乏,性格溫和,較為被動(dòng),自律性相對(duì)較低.
第五種聚類中心為:L5=(0.6307,0.7253,0.6365,0.6336,0.6931,0.6846,0.7866,0.6242,0.6413,0.7186,0.4202,0.7585,0.7640,0.3341,0.7078,0.3855),其包含38個(gè)個(gè)體.通過對(duì)樣本屬性的特征分析可知,該類為助人型,體現(xiàn)在更具理性思維,積極樂觀行為低調(diào),主體性不強(qiáng),與人交往時(shí)往往屬于付出方,務(wù)實(shí)但做事往往更重效率不重結(jié)果.
本文收集受眾性格特征的同時(shí)也收集了受眾喜歡的作品類型數(shù)據(jù),即讓每一受眾從20部書籍、20部影視劇及20個(gè)經(jīng)典角色人物中按喜愛程度選擇前5部文學(xué)作品、5部影視劇作品和與5個(gè)人物角色.調(diào)查共收集了142份有效數(shù)據(jù).根據(jù)前文對(duì)122位受眾進(jìn)行的聚類分析,作為監(jiān)督學(xué)習(xí)的標(biāo)注值,如表3所示.
表3 受眾喜歡的作品示例表
本文需要按受眾喜歡的作品與人物類型特征對(duì)受眾進(jìn)行歸類,通過分析受眾所喜愛的作品類型和人物角色提煉出各類受眾的性格特征.假設(shè)作品與人物類型的特征屬性向量為Y=(y1,y2,…,y60),其中yi代表受眾喜好某一作品或人物的程度,y1至y20依次表示受眾對(duì)《西游記》《活著》《三國演義》《平凡的世界》《聊齋志異》《水滸傳》《阿Q正傳》《簡·愛》《紅樓夢(mèng)》《邊城》《悲傷逆流成河》《追風(fēng)箏的人》《百年孤獨(dú)》《麥田里的守望者》《紅高粱》《人間失格》《殺死一只知更鳥》《史記》《變形記》《雙城記》這20部文學(xué)作品的喜愛程度.y21至y40依次表示受眾對(duì)《我不是藥神》《我和我的祖國》《大話西游1:月光寶盒》《你好,李煥英》《大魚海棠》《請(qǐng)回答1988》《甄嬛傳》《星際穿越》《釜山行》《七宗罪》《海賊王》《盜夢(mèng)空間》《隱秘的角落》《我的前半生》《霸王別姬》《小敏家》《寄生蟲》《死寂》《地球最后的夜晚》《暗殺》這20部影視劇作品的喜愛程度.y41至y60依次表示受眾對(duì)孫悟空、哆啦A夢(mèng)、諸葛亮、阿Q、簡·愛、哈姆萊特、豬八戒、秦風(fēng)、唐三藏、沙僧、林黛玉、朱朝陽、卡西莫多、格里高爾、王熙鳳、潘金蓮、魯侍萍、張東升、康敏、賈寶玉這20個(gè)人物角色的喜愛程度.為了便于對(duì)數(shù)據(jù)進(jìn)行分析,建立如下的量化標(biāo)準(zhǔn):
為了能夠利用受眾喜歡的作品與人物類型對(duì)受眾的性格進(jìn)行歸類,本文采用多分類SVM模型進(jìn)行分類.SVM[9-11]為一個(gè)二分類模型[12],是處理小樣本、非線性問題的有力工具.假設(shè)數(shù)據(jù)集D={(X1,y1),(X2,y2),...,(Xn,yn)},其中yi=-1或者1,SVM就是找到一個(gè)超平面把正樣本和負(fù)樣本劃分開來[6].超平面的數(shù)學(xué)表達(dá)式[13]可表示為
式中:X為超平面上的向量,w為超平面的法向量,b為超平面的截距.求解優(yōu)化問題,獲取w及b的值:
SVM最初是為處理二分類問題而設(shè)計(jì)的,實(shí)際應(yīng)用中多分類問題更為普遍,所以需要對(duì)SVM進(jìn)行“加工”,讓其在多分類問題中也能發(fā)揮出色的性能[14].多分類問題可以通過多個(gè)SVM的組合來解決,一般有“直接求解”法和“分類-重組”法.“分解-重組”法主要是通過組合多個(gè)二分類器來解決實(shí)際問題,常用的有一對(duì)多SVM分類、一對(duì)一SVM分類、有向無環(huán)圖SVM分類等[15].本文采用一對(duì)一SVM分類方法.
利用機(jī)器學(xué)習(xí)庫sklearn中的SVM模塊編程,對(duì)訓(xùn)練集中的122個(gè)受眾數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果與模糊聚類結(jié)果如表4所示(表中第二列的Xi代表受眾i)
表4 受眾性格歸類
由表4的結(jié)果可知,利用多分類SVM模型可以將受眾的性格類型按他們喜歡的作品與人物類型完全區(qū)分開來,即在訓(xùn)練數(shù)據(jù)集上的準(zhǔn)確率為1.
為了驗(yàn)證本文多分類SVM模型的準(zhǔn)確度,選擇在由142位調(diào)查對(duì)象中的后20位受眾構(gòu)成的測(cè)試集上進(jìn)行.首先利用2.2節(jié)的聚類結(jié)果計(jì)算出該20份樣本中受眾的性格特征數(shù)據(jù)到每一個(gè)聚類中心的距離,并按距離最短原則進(jìn)行歸類.對(duì)第i個(gè)樣本,其計(jì)算公式為:
其中:c代表樣本Xi所歸類別,Cj代表聚類中心.然后利用多分類SVM模型按照受眾喜歡的作品與人物類型的數(shù)據(jù)對(duì)每一個(gè)測(cè)試集上的樣本進(jìn)行分類.最后,對(duì)第i個(gè)樣本來說,如果通過受眾喜好的作品與人物類型進(jìn)行的分類與聚類分析得到的歸類是相同的,則可以看作該受眾根據(jù)其喜愛的作品與人物類型來判斷其性格種類是正確的,相反則判斷錯(cuò)誤,從而計(jì)算出模型的準(zhǔn)確度,其計(jì)算公式為:其中:Nc代表測(cè)試集種樣本的個(gè)數(shù),Nct代表測(cè)試集中判斷正確的個(gè)數(shù),Nx代表訓(xùn)練集中樣本的個(gè)數(shù),Nxt代表訓(xùn)練集中判斷正確的個(gè)數(shù).計(jì)算得P1=0.6,P2=0.85,因此,本文所提出的個(gè)性判斷方法具有較高的準(zhǔn)確率,即通過了解受眾的閱讀喜好可以了解到大部分人群的性格特征.
本文重點(diǎn)通過受眾的閱讀喜好來了解該受眾的性格特征.首先問卷調(diào)查收集受眾的個(gè)性特征數(shù)據(jù),其中包含了16個(gè)受眾的性格特征,如感性、樂觀、主動(dòng)、倔強(qiáng)等;同時(shí)收集了受眾喜歡的文學(xué)作品數(shù)據(jù)、影視作品及人物角色數(shù)據(jù).然后建立了關(guān)于人物個(gè)性特征的模糊聚類模型,從而對(duì)受眾進(jìn)行分類.最后利用模糊聚類的結(jié)果,建立了關(guān)于受眾閱讀作品喜好程度的多分類SVM模型,利用多分類SVM模型可以判別未知受眾群的性格種類.通過對(duì)20名受眾的測(cè)試可知,利用受眾喜愛的作品類型來判別其性格種類的準(zhǔn)確度為60%,在全體數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了85%.由此可知可以通過受眾喜歡的文學(xué)作品類型來了解受眾的性格特征.