張家普 胡佳敏 畢以霖 李貴鑫
(北京外國語大學(xué)國際商學(xué)院 北京 100089)
隨著社會(huì)經(jīng)濟(jì)的發(fā)展,企業(yè)財(cái)富積累在迅速增長。Wind數(shù)據(jù)顯示,截至2022年11月,中國非金融企業(yè)存款已達(dá)74.6萬億元,近10年平均增長率達(dá)8.5%。然而,面臨通貨膨脹的巨大壓力,銀行存款利率低于CPI指數(shù)及股票市場(chǎng)的高風(fēng)險(xiǎn),使企業(yè)在缺乏合適投資渠道的情況下,必須要確保自身資產(chǎn)保值增值,因此收益好、風(fēng)險(xiǎn)可控的理財(cái)產(chǎn)品越來越受到企業(yè)的青睞。與此同時(shí),商業(yè)銀行加強(qiáng)對(duì)企業(yè)財(cái)富管理需求的關(guān)注,短期公司理財(cái)產(chǎn)品、公募基金、私募資管計(jì)劃等各類理財(cái)產(chǎn)品如雨后春筍般在各銀行推出,為企業(yè)提供了很多選擇。企業(yè)購買銀行的理財(cái)產(chǎn)品,于企業(yè)而言,可以兼顧收益性和流動(dòng)性,提高資產(chǎn)配置能力和使用效率;于銀行而言,不僅可以幫助其從中獲取利潤,也是商業(yè)銀行在存款業(yè)務(wù)之外募集資金、獲取客戶的重要方式。因此,銀行對(duì)企業(yè)客戶財(cái)富管理需求的深入把握,從而為企業(yè)制定精準(zhǔn)營銷策略及差異化服務(wù),將成為銀行提高機(jī)構(gòu)理財(cái)產(chǎn)品銷售份額、搶占市場(chǎng)先機(jī)的關(guān)鍵,而企業(yè)客戶畫像的分析,是實(shí)現(xiàn)客戶隱性特征顯性化,幫助深入探究客戶需求的有效技術(shù)手段。企業(yè)畫像模式的提出不僅有利于快速識(shí)別出哪些企業(yè)有財(cái)富管理的需求,幫助其根據(jù)產(chǎn)品特點(diǎn)找到目標(biāo)客戶,提高對(duì)公服務(wù)效率,還有利于銀行在客戶偏好的渠道上與其進(jìn)行溝通,實(shí)現(xiàn)精準(zhǔn)營銷,提升企業(yè)客戶在理財(cái)需求方面的體驗(yàn)。
值得注意的是,目前有關(guān)用戶畫像的研究多以個(gè)人用戶為主,對(duì)企業(yè)畫像——尤其是金融營銷需求的企業(yè)畫像研究相對(duì)較少。因此,本文以中國某股份制P銀行為例,獲取2022年7月購買了該商業(yè)銀行某個(gè)理財(cái)產(chǎn)品的企業(yè)客戶名稱,通過Python在企查查官網(wǎng)上爬取企業(yè)基本信息后,基于圖表的描述性分析、詞頻統(tǒng)計(jì)、文本向量化和K均值聚類等方法對(duì)該銀行的企業(yè)客戶畫像進(jìn)行分析,以期為銀行對(duì)該理財(cái)產(chǎn)品的營銷提供啟示。
近年來,用戶畫像的刻畫已經(jīng)從自然人逐漸過渡到各類實(shí)體,在此過程中,企業(yè)畫像也得到了學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注。由于企業(yè)畫像的研究經(jīng)常涉及文本語言等非結(jié)構(gòu)化數(shù)據(jù),如提取年報(bào)中的標(biāo)簽信息、分析企業(yè)所屬行業(yè)或經(jīng)營范圍、對(duì)企業(yè)評(píng)價(jià)分析等,因此越來越多的學(xué)者在企業(yè)畫像的研究框架中運(yùn)用了文本分析或自然語言處理等技術(shù)。如田娟等(2018)提出構(gòu)建基于大數(shù)據(jù)平臺(tái)的企業(yè)畫像標(biāo)簽體系模型和建設(shè)框架時(shí),對(duì)四種企業(yè)特征提取方法——Kmeans、LDA、NB、CNN——各自的優(yōu)缺點(diǎn)進(jìn)行比較分析。黃曉斌和張明鑫(2020)通過K均值聚類、層次聚類、密度聚類等方法分析企業(yè)競(jìng)爭(zhēng)對(duì)手的特征向量,提出一套融合多源數(shù)據(jù)的企業(yè)競(jìng)爭(zhēng)對(duì)手畫像構(gòu)建模式。曹麗娜等(2022)采用TensorFlow深度學(xué)習(xí)框架,從質(zhì)量創(chuàng)新能力、過程質(zhì)量控制、產(chǎn)品質(zhì)量水平等維度對(duì)中小微企業(yè)綜合質(zhì)量畫像體系進(jìn)行構(gòu)建。
實(shí)踐應(yīng)用方面,《中國稅務(wù)報(bào)》2016年就曾報(bào)道,大連稅務(wù)局等政府部門利用企業(yè)經(jīng)營、誠信、風(fēng)險(xiǎn)和貢獻(xiàn)等大數(shù)據(jù)信息構(gòu)建出口企業(yè)畫像(王磊,2016)。近年來,Chung等(2021)運(yùn)用社會(huì)網(wǎng)絡(luò)分析和文本挖掘等方法進(jìn)行合作伙伴識(shí)別分析,蔡盈芳等(2021)將用戶畫像技術(shù)引入涉企政務(wù)檔案信息管理中,通過采集企業(yè)用戶基本信息、參與政務(wù)服務(wù)事項(xiàng)、產(chǎn)生或需要的檔案信息、利用政務(wù)檔案信息的特征及偏好等,充分了解企業(yè)用戶產(chǎn)生和利用政務(wù)檔案信息的具體情況;而宋凱和冉從敬(2022)則將企業(yè)畫像應(yīng)用到高校專利推薦過程,依托文本聚類、主題模型、文本相似度計(jì)算等技術(shù),構(gòu)建“專利匹配度”指標(biāo),實(shí)現(xiàn)向企業(yè)進(jìn)行高校專利的個(gè)性化推薦。當(dāng)前,已有如騰訊云、京東數(shù)科、中科聚信等大數(shù)據(jù)企業(yè)面向社會(huì)提供企業(yè)畫像服務(wù),用于支持相關(guān)機(jī)構(gòu)進(jìn)行企業(yè)安全風(fēng)險(xiǎn)評(píng)估與監(jiān)管(黃家娥等,2022)。
縱觀現(xiàn)有文獻(xiàn),針對(duì)企業(yè)客戶畫像的技術(shù)研究,在理論框架分析上已日臻成熟,并且已經(jīng)在稅務(wù)、專利推薦、檔案管理、風(fēng)險(xiǎn)評(píng)估等方面得到了應(yīng)用,然而這一技術(shù)在金融行業(yè)的應(yīng)用研究相對(duì)較少。在“互聯(lián)網(wǎng)+”的背景下,金融企業(yè)必須加快數(shù)字化轉(zhuǎn)型,運(yùn)用現(xiàn)有的企業(yè)畫像技術(shù)分析方法實(shí)現(xiàn)更好的精準(zhǔn)化營銷和決策。因此,本文利用詞頻統(tǒng)計(jì)、TFIDF、無監(jiān)督學(xué)習(xí)等方法,對(duì)銀行的企業(yè)客戶畫像進(jìn)行研究,為銀行針對(duì)企業(yè)客戶進(jìn)行理財(cái)產(chǎn)品的營銷提供指導(dǎo)意義。
本文獲取某P銀行2022年7月購買該銀行某理財(cái)產(chǎn)品的企業(yè)客戶相關(guān)數(shù)據(jù)集,內(nèi)容包括企業(yè)名稱及企業(yè)購買理財(cái)產(chǎn)品時(shí)所在的一級(jí)分行。該數(shù)據(jù)集包含216家企業(yè)、24家一級(jí)分行。基于企業(yè)客戶名稱的信息,本文利用Python,從公開的企業(yè)信用信息查詢平臺(tái)“企查查”上爬取企業(yè)的基本信息,包括登記狀態(tài)、成立日期、注冊(cè)資本(萬元)、納稅人資質(zhì)、所屬行業(yè)、企業(yè)類型、人員規(guī)模、企業(yè)地址、行業(yè)標(biāo)簽、經(jīng)營范圍等10個(gè)字段。
對(duì)于爬取結(jié)果,做如下預(yù)處理。首先,通過觀察發(fā)現(xiàn),變量“登記狀態(tài)”的內(nèi)容均為“存續(xù)(在營、開業(yè)、在冊(cè))”;變量“納稅人資質(zhì)”的內(nèi)容為“一般納稅人”或“增值稅一般納稅人”,兩者沒有顯著差別;變量“企業(yè)地址”涉及的地域信息與企業(yè)所在的“一級(jí)分行”信息基本一致。以上三個(gè)變量對(duì)企業(yè)區(qū)分度不大,因此對(duì)“登記狀態(tài)”“納稅人資質(zhì)”“企業(yè)地址”三個(gè)變量進(jìn)行剔除;其次,將“成立日期”轉(zhuǎn)換為企業(yè)到目前為止的“成立年份”,利于統(tǒng)計(jì)分析。進(jìn)行處理后,每個(gè)企業(yè)共有8個(gè)字段信息可供分析(見表1),其中“行業(yè)標(biāo)簽”變量是對(duì)“所屬行業(yè)”的進(jìn)一步補(bǔ)充;企業(yè)所在的“一級(jí)分行”“成立年份”“注冊(cè)資本”“所屬行業(yè)”,“企業(yè)類型”“人員規(guī)?!?個(gè)變量屬于數(shù)值型或類別型變量,對(duì)其做描述性統(tǒng)計(jì)分析,針對(duì)“行業(yè)標(biāo)簽”“經(jīng)營范圍”2個(gè)文本型變量,運(yùn)用NLP的詞頻統(tǒng)計(jì)、文本向量化處理、K均值聚類等方法進(jìn)行分析。
表1 企業(yè)基本信息數(shù)據(jù)集
首先,通過統(tǒng)計(jì)各個(gè)分行的企業(yè)數(shù)量觀察企業(yè)的地域分布,結(jié)果顯示企業(yè)數(shù)量超過10家的分行主要為北京、南京、寧波、廣州等一線或新一線城市分行,其中北京分行的企業(yè)客戶數(shù)量最多,企業(yè)數(shù)量有97家,占比接近45%,以絕對(duì)優(yōu)勢(shì)領(lǐng)先于第二、三名分行;其次,從成立年份看,216家企業(yè)中成立最久的企業(yè)為42年,成立時(shí)間不足5年的企業(yè)有53家,超過5年但不足10年的企業(yè)有51家,兩者合計(jì)占比接近50%,可見多數(shù)企業(yè)成立時(shí)間不長。從注冊(cè)資本來看,共有210家企業(yè)公布了注冊(cè)資本,其中注冊(cè)資本規(guī)模最小為6萬元,最大為1130000萬元,近25%的企業(yè)注冊(cè)資本不到500萬,資本規(guī)模較小,多數(shù)企業(yè)(約68%)的注冊(cè)資本規(guī)模在5000萬元以下。從人員規(guī)模來看,157家企業(yè)公布了人員規(guī)模,其中人員規(guī)模少于50人的企業(yè)數(shù)量最多,有95家,占比超過60%,可見絕大多數(shù)企業(yè)為中小規(guī)模。所有企業(yè)按照企查查提供的企業(yè)類型大致可分為9類,其中企業(yè)類型為有限責(zé)任公司的數(shù)量最多,為191家,占比超過88%。此外,在所有企業(yè)中,上市企業(yè)僅有1家,國有獨(dú)資企業(yè)僅有1家,進(jìn)一步反映出購買理財(cái)產(chǎn)品的多為中小企業(yè);最后,215家企業(yè)公布了所屬行業(yè),按照企查查提供的企業(yè)類型共分為46類,可見購買理財(cái)產(chǎn)品的企業(yè)行業(yè)分布之廣泛。然而,從各行業(yè)的企業(yè)數(shù)量來看,僅有8個(gè)行業(yè)的企業(yè)數(shù)量超過5家(見表2),其中科技推廣和應(yīng)用服務(wù)業(yè)、商務(wù)服務(wù)業(yè)和批發(fā)業(yè)的企業(yè)數(shù)量最多,合計(jì)占比超過50%,而餐飲畜牧業(yè)、加工制造等行業(yè)的企業(yè)數(shù)量則屈指可數(shù),說明購買理財(cái)產(chǎn)品的企業(yè)多分布在高新技術(shù)產(chǎn)業(yè)、高端服務(wù)業(yè)等第三產(chǎn)業(yè)。
表2 企業(yè)所屬行業(yè)分布
“行業(yè)標(biāo)簽”“經(jīng)營范圍”這2個(gè)文本型變量無法做分類統(tǒng)計(jì),對(duì)此本文對(duì)這兩個(gè)變量做詞頻統(tǒng)計(jì)分析并繪制詞云圖,以挖掘出文本中的高頻詞語特征。其中,由于前文分析的“所屬行業(yè)”只是對(duì)企業(yè)所在的一級(jí)大類行業(yè)進(jìn)行劃分,劃分顆粒度不夠精細(xì),因此通過爬取的“行業(yè)標(biāo)簽”可對(duì)此做進(jìn)一步補(bǔ)充。
本文在進(jìn)行詞頻統(tǒng)計(jì)前,還需要進(jìn)行文本預(yù)處理。變量“行業(yè)標(biāo)簽”的詞語已經(jīng)成形,按照符號(hào)“#”進(jìn)行切割即可。變量“經(jīng)營范圍”屬于長文本,本文使用python的jieba分詞模塊對(duì)其進(jìn)行全模式分詞,分詞之后導(dǎo)入中文停用詞表,去除文本中常見的停用詞。由于采用的是全模式切詞,切出字符長度小于2的詞語體現(xiàn)的語義不夠明顯,因此統(tǒng)計(jì)出“經(jīng)營范圍”詞語長度大于2的詞頻。之后,運(yùn)用wordcloud模塊分別繪制“行業(yè)標(biāo)簽”和“經(jīng)營范圍”的詞云圖。
圖1基于詞頻統(tǒng)計(jì)做出的詞云圖。數(shù)據(jù)顯示,出現(xiàn)頻次排名前三的為“科學(xué)研究和技術(shù)服務(wù)業(yè)”“批發(fā)和零售業(yè)”“制造業(yè)”,此外,“租賃和商務(wù)服務(wù)業(yè)”“商務(wù)服務(wù)業(yè)”“科技推廣和應(yīng)用服務(wù)業(yè)”等服務(wù)業(yè)詞語出現(xiàn)頻次也較高。
圖1 企業(yè)行業(yè)標(biāo)簽詞云圖
圖2 是詞頻統(tǒng)計(jì)制作的詞云圖。數(shù)據(jù)顯示,出現(xiàn)頻次排名靠前的詞語除了“進(jìn)出口”外,“計(jì)算機(jī)”“機(jī)械設(shè)備”“電子產(chǎn)品”“化工產(chǎn)品”等和工業(yè)相關(guān)的詞語出現(xiàn)的頻率較高,與“技術(shù)開發(fā)”“技術(shù)咨詢”“技術(shù)轉(zhuǎn)讓”等高新技術(shù)服務(wù)業(yè)相關(guān)的詞頻排名也很靠前。
圖2 企業(yè)經(jīng)營范圍詞云圖
對(duì)“行業(yè)標(biāo)簽”和“經(jīng)營范圍”的高頻詞分析只能對(duì)企業(yè)客戶所在的行業(yè)得到初步了解,但無法確定企業(yè)所在的行業(yè)主要有哪些,因此本文運(yùn)用無監(jiān)督學(xué)習(xí)——K均值聚類法分別對(duì)“行業(yè)標(biāo)簽”和“經(jīng)營范圍”進(jìn)行聚類分析,以找出購買理財(cái)產(chǎn)品的企業(yè)的主要行業(yè)。
由于K均值模型的輸入必須是數(shù)值型向量類型,需把每條由詞語組成的句子轉(zhuǎn)換成一個(gè)數(shù)值型向量,所以本文使用TF-IDF算法對(duì)文檔進(jìn)行向量化。TF-IDF(李春梅,2015)在信息檢索、文本挖掘等場(chǎng)景中是常用的加權(quán)技術(shù),用以評(píng)估一字詞對(duì)于一個(gè)文件集或一份文件對(duì)于一個(gè)語料庫的重要程度。字詞重要性與其在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著其在語料庫中出現(xiàn)的頻率成反比下降。本文使用Sklearn模塊的TF-IDF算法把所有文本數(shù)據(jù)轉(zhuǎn)換為詞頻矩陣,作為K均值模型的輸入,并將TF-IDF的最大特征值設(shè)為20000。
K均值聚類是一種自上而下(top-down)的聚類方法,須預(yù)先確定樣本中的聚類數(shù)目,即K的具體取值,比如根據(jù)經(jīng)驗(yàn)或試錯(cuò)。在對(duì)“行業(yè)標(biāo)簽”進(jìn)行K-means聚類時(shí),分別測(cè)試當(dāng)K等于3、4、5類的結(jié)果,對(duì)比發(fā)現(xiàn),當(dāng)K=4時(shí),“行業(yè)標(biāo)簽”的聚類結(jié)果區(qū)分更為清晰,因此將K設(shè)定為4,結(jié)果如圖3和表3所示。
圖3 企業(yè)行業(yè)標(biāo)簽聚類結(jié)果圖
表3 企業(yè)行業(yè)標(biāo)簽聚類分析結(jié)果
從表3可以看出,P銀行購買理財(cái)產(chǎn)品的企業(yè)主要集中于以下四類行業(yè):第一類以文體娛行業(yè)為主;第二類主要為批發(fā)和零售業(yè);第三類主要為科學(xué)研究和技術(shù)服務(wù)業(yè);第四類主要為現(xiàn)代商務(wù)服務(wù)業(yè),包括組織管理服務(wù)、投資管理服務(wù)等。
企業(yè)“經(jīng)營范圍”的K-means聚類結(jié)果如圖4所示。由于多數(shù)企業(yè)的“經(jīng)營范圍”登記內(nèi)容較多,因此從圖4可以看出,對(duì)“經(jīng)營范圍”的聚類劃分并沒有“行業(yè)標(biāo)簽”那么明確,但結(jié)論與基于“行業(yè)標(biāo)簽”聚類分析的結(jié)果一致,即企業(yè)經(jīng)營范圍同樣集中在“文體娛樂”“批發(fā)零售”“科學(xué)研究和技術(shù)服務(wù)”“租賃和商貿(mào)服務(wù)”這四類行業(yè)。受篇幅限制,聚類劃分結(jié)果不再展示。
圖4 企業(yè)經(jīng)營范圍聚類結(jié)果圖
本文基于以上對(duì)216家企業(yè)基本信息的描述性分析、詞頻統(tǒng)計(jì)分析、K均值聚類分析等,可以初步總結(jié)出P銀行2022年7月購買其理財(cái)產(chǎn)品的企業(yè)客戶畫像:企業(yè)主要集中于一線或新一線城市,以北京居多;大多數(shù)企業(yè)成立時(shí)間為10年左右或不足10年,注冊(cè)資本規(guī)模多在5000萬以下,人員規(guī)模多數(shù)少于50人,企業(yè)類型以有限責(zé)任公司居多,多數(shù)為非上市、非國有的獨(dú)資中小企業(yè);所屬行業(yè)主要集中于文體娛樂業(yè)、批發(fā)和零售業(yè)、科學(xué)研究和技術(shù)服務(wù)業(yè)、現(xiàn)代商務(wù)服務(wù)業(yè)等第三產(chǎn)業(yè),經(jīng)營范圍既包括與“計(jì)算機(jī)”“機(jī)械設(shè)備”“電子產(chǎn)品”“化工產(chǎn)品”等工業(yè)相關(guān)的內(nèi)容,也有與“技術(shù)開發(fā)”“技術(shù)咨詢”“技術(shù)轉(zhuǎn)讓”等高新技術(shù)服務(wù)業(yè)相關(guān)的內(nèi)容。
本文以某股份制P銀行為例,獲取2022年7月購買了該商業(yè)銀行某個(gè)理財(cái)產(chǎn)品的企業(yè)客戶名稱,通過Python在企查查官網(wǎng)上爬取企業(yè)的基本信息后,基于描述性分析、文本分析和K均值聚類等方法對(duì)該銀行的企業(yè)客戶畫像進(jìn)行分析,總結(jié)發(fā)現(xiàn):購買該理財(cái)產(chǎn)品的企業(yè)主要集中于一線或新一線城市,以北京居多;大多數(shù)企業(yè)成立時(shí)間為10年左右或不足10年,注冊(cè)資本規(guī)模多數(shù)在5000萬以下,人員規(guī)模多數(shù)少于50人,企業(yè)類型以有限責(zé)任公司居多,多數(shù)為非上市、非國有獨(dú)資的中小企業(yè);所屬行業(yè)主要集中于文體娛樂業(yè)、批發(fā)和零售業(yè)、科學(xué)研究和技術(shù)服務(wù)業(yè)、現(xiàn)代商務(wù)服務(wù)業(yè)等第三產(chǎn)業(yè),經(jīng)營范圍既包括與“計(jì)算機(jī)”“機(jī)械設(shè)備”“電子產(chǎn)品”“化工產(chǎn)品”等工業(yè)相關(guān)的內(nèi)容,也有與“技術(shù)開發(fā)”“技術(shù)咨詢”“技術(shù)轉(zhuǎn)讓”等高新技術(shù)服務(wù)業(yè)相關(guān)的內(nèi)容。銀行在進(jìn)行產(chǎn)品營銷時(shí),可通過以上總結(jié)的企業(yè)特征,尋找或挖掘出企業(yè)客戶潛在的理財(cái)需求。
本文涉及的企業(yè)基本為未上市的中小企業(yè),多數(shù)企業(yè)甚至沒有官方網(wǎng)站,因此只能在“企查查”等公開的信息登記網(wǎng)站上爬取企業(yè)的基本信息。如果能從銀行獲得更多維企業(yè)相關(guān)的數(shù)據(jù),如企業(yè)在該銀行登記的財(cái)務(wù)數(shù)據(jù)、該企業(yè)歷史存貸款數(shù)據(jù)、企業(yè)歷史購買理財(cái)產(chǎn)品的數(shù)據(jù)、企業(yè)理財(cái)需求的偏好數(shù)據(jù)等,對(duì)企業(yè)畫像的研究也將更加全面豐富,從而幫助銀行更快、更高效地判斷出哪些企業(yè)有購買該理財(cái)產(chǎn)品的可能性。