談立
摘要:人工智能領(lǐng)域中的語義分析技術(shù)近年來發(fā)展迅猛,已經(jīng)在自動駕駛、影像識別等多個領(lǐng)域取得了突破性進展。我們開創(chuàng)性地將語義分析技術(shù)應(yīng)用于滿意度測評研究,以汽車4S店服務(wù)質(zhì)量作為樣品樣本進行研究,經(jīng)過數(shù)據(jù)采集與預(yù)處理、語義分析、分析和統(tǒng)計三個階段,在水軍過濾、主題發(fā)現(xiàn)、知識圖譜搭建、文本細粒度分析等關(guān)鍵環(huán)節(jié)應(yīng)用TML語義分析技術(shù),快速地分析出汽車4S店服務(wù)行業(yè)中消費者關(guān)注的重點,驗證了語義分析技術(shù)在滿意度測評領(lǐng)域應(yīng)用的可行性,為滿意度測評的前期行業(yè)分析提供了一種新的思路。
關(guān)鍵詞:語義分析技術(shù) 滿意度測評 4S店 知識圖譜
Abstract: Semantic analysis technology in the artificial intelligence field has developed rapidly in recent years, and has made breakthroughs in many fields such as autonomous driving and image recognition. We apply semantic analysis techniques in satisfaction measurement studies, using the 4S shop service quality as a sample.
Through three stages of data collection and pretreatment, semantic analysis, analysis and statistics, HTML semantic analysis technology is applied in the key links of hydraulic filtering, subject discovery, knowledge map construction and text fine granularity analysis, it analyzes the focus of consumers concerned in the service industry of 4s shop quickly, validates the feasibility of the application of semantic analysis in the field of satisfaction evaluation the measurement. It provides a new idea for the early industrial analysis of satisfaction evaluation.
Key words: semantic analysis technology, satisfaction evaluation, 4S shop, knowledge map
語義分析(Semantic Analysis)是人工智能的一個分支,是自然語言處理技術(shù)的幾個核心任務(wù),涉及語言學(xué)、計算語言學(xué)、機器學(xué)習(xí),以及認知語言等多個學(xué)科。人工智能中的語義分析技術(shù),特別是深度學(xué)習(xí)技術(shù)近年來發(fā)展迅猛,已經(jīng)在圍棋對弈、自動駕駛、影像識別、語音識別等多個領(lǐng)域取得了突破性進展。我們開創(chuàng)性地將語義分析技術(shù)應(yīng)用于滿意度測評研究,經(jīng)過半年的探索,這一研究現(xiàn)在已經(jīng)取得初步的成果?,F(xiàn)將我們研究的思路和具體做法做一個分享,希望能對中國人工智能技術(shù)的應(yīng)用場景拓展提供有益的經(jīng)驗,同時推動滿意度測評技術(shù)的發(fā)展。
1 研究背景
2016年初,武漢市標(biāo)準(zhǔn)化研究院開始涉足滿意度測評領(lǐng)域,前期主要涉及各級政府、職能部門的服務(wù)質(zhì)量測評。從2017年開始,測評的領(lǐng)域逐步擴展到服務(wù)業(yè)領(lǐng)域。隨著業(yè)務(wù)的拓展,我們面臨一個重要挑戰(zhàn)是:如何在有限的時間里面深入了解特定目標(biāo)行業(yè)的痛點。畢竟服務(wù)業(yè)細分領(lǐng)域眾多,不可能對每個領(lǐng)域都有深入的研究,而沒有深入的研究,就不可能拿出高質(zhì)量的滿意度測評問卷,進而嚴(yán)重影響測評質(zhì)量。直接通過互聯(lián)網(wǎng)搜索相關(guān)信息,會發(fā)現(xiàn)有價值的信息散落在浩如煙海的大數(shù)據(jù)之中,收集整理的工作量十分巨大,同時還受到大量水軍數(shù)據(jù)的干擾。因此,能不能通過人工智能技術(shù)來輔助滿意度測評,是我們思考的重點問題。帶著這個需求,我們接觸了多家人工智能領(lǐng)域公司,最終選擇南京網(wǎng)感至查科技公司作為合作單位,同時雙方商定本次合作的研究樣本為汽車4S店服務(wù)質(zhì)量。在本次合作中,我們應(yīng)用語義分析技術(shù)對網(wǎng)上汽車4S店服務(wù)質(zhì)量口碑?dāng)?shù)據(jù)進行數(shù)據(jù)挖掘,并進行正負面情感、投訴問題類別等多維度分析歸類。通過這樣的一種手段,快速地了解在為汽車4S店服務(wù)行業(yè)中消費者關(guān)注的重點,為開展該行業(yè)的消費者滿意度調(diào)查提供重要參考。
2 技術(shù)路徑
2.1 數(shù)據(jù)采集與預(yù)處理
第一階段是數(shù)據(jù)采集與預(yù)處理階段。根據(jù)需求,運用爬蟲技術(shù)從主流媒體、社交平臺、汽車專業(yè)論壇等渠道全面深入地搜集4S店行業(yè)信息、用戶評論。為避免大量的垃圾數(shù)據(jù),嚴(yán)格控制采集的范圍,聚焦關(guān)注主體,重點采集所有4S店相關(guān)的認證用戶,認證用戶的問題及回答,同時需要過濾宣傳貼等無效數(shù)據(jù)。
下面以知乎為例,簡要說明數(shù)據(jù)采集的過程(見圖1)。
1)選定范圍:知乎有專欄和話題,此類評論和主題具有可信度高、內(nèi)容深入、真實性高的特點,是我們采集的重點。首先從所有有關(guān)“4S店”、4S店別稱(汽車維修、代理店、四兒子店等)的知乎問題為入口,深度采集問題回答者,以及回答者信息。
2)采集元數(shù)據(jù):從回答的評論進行二級采集,收集有關(guān)4S店關(guān)注用戶的元數(shù)據(jù),再以元數(shù)據(jù)為中心,廣泛采集關(guān)注的問題及回答。
3)采集權(quán)重賦值:定制每個平臺的采集信息來源的權(quán)重,以此作為信息預(yù)處理的一個基礎(chǔ),在知乎平臺,專欄>話題>定制搜索,相同內(nèi)容下以權(quán)重作為過濾條件,提升采集的質(zhì)量和準(zhǔn)確度。
4)數(shù)據(jù)過濾:收集完數(shù)據(jù),過濾非關(guān)注主題的問題、評論、回答,去除重復(fù)評論、與主題無關(guān)的評論。
5)獲取數(shù)據(jù):采集策略和過濾策略搭建完成后,進行分布式爬蟲獲取數(shù)據(jù),同時為避免觸發(fā)社交平臺的反爬策略,我們進行模擬用戶爬蟲策略,盡可能避免出現(xiàn)臟數(shù)據(jù)的可能。
前四個階段,可以被稱為預(yù)處理階段,其中數(shù)據(jù)過濾的工作量最大,涉及的情況也最為復(fù)雜,其中高效地進行水軍貼的過濾是后續(xù)工作的基石,也是整個工作的難點和亮點。
如圖2所示,針對內(nèi)容水軍過濾我們主要采用了三個策略:
1)關(guān)鍵詞過濾。定義好廣告詞庫,通過水軍關(guān)鍵詞匹配,簡單過濾低端水軍、刷好評等的評論,將大量重復(fù)的水軍貼、無用貼進行過濾。
2)文本規(guī)則過濾。深入分析水軍文本所具備的特點,對此類特點進行特征化、規(guī)則化,如:重復(fù)使用大量無實義的形容詞、語言多具有重復(fù)部分等,先對文本進行依存句法分析,再根據(jù)依存句法分析結(jié)果,用總結(jié)的水軍規(guī)則進行識別、過濾。先對文本進行分詞,再使用句法分析算法,最后使用規(guī)則引擎過濾水軍文本。
3)機器學(xué)習(xí)過濾。這里應(yīng)用到了網(wǎng)感至查公司的核心技術(shù)(TML),TML是擁有自主知識產(chǎn)權(quán)的編程語言,可以用來提升計算機系統(tǒng)對復(fù)雜的語言表述的理解能力。 由于中文表述的復(fù)雜性,只從句法和詞性上的分析是不夠的。TML充分發(fā)揮了其在自然語言處理上的技術(shù)優(yōu)勢,以及對來自不同來源內(nèi)容的深入了解,結(jié)合規(guī)則和詞性過濾,使用貝葉斯分類算法從信息特征、用戶行為、多角度、多方式進行全面的信息過濾,數(shù)據(jù)清洗,保障最終分析結(jié)果的高精度。
經(jīng)過兩個多月的數(shù)據(jù)挖掘和預(yù)處理,獲取了本次研究的基礎(chǔ)數(shù)據(jù),數(shù)據(jù)的基本情況如下:共采集評論50余萬條,相關(guān)帖子22783篇,知乎用戶54389名,微博認證4S店用戶1000名。其中微博和知乎用戶可信度高,回復(fù)內(nèi)容豐富,內(nèi)容信息量大。是本次采集的重點,所占的比例也最大。按數(shù)據(jù)量來統(tǒng)計:知乎占比40%、微博占比45%,汽車之家占比5%,其他新聞媒體占比10%。
2.2 基于TML的語義分析
在獲取了大量的原始數(shù)據(jù)后,還需要對數(shù)據(jù)進行深入分析,從中提煉出消費者真正關(guān)注的重點。由于獲取的數(shù)據(jù)都來自互聯(lián)網(wǎng)上的帖子,是非結(jié)構(gòu)化數(shù)據(jù),如何了解發(fā)帖人的本意并對其進行分類,這就需要再次用到基于TML的語義分析技術(shù)。
2.2.1 基于人工智能下的主題發(fā)現(xiàn)
首先需要從海量的數(shù)據(jù)中智能分析出100個主題,使用機器學(xué)習(xí)主題發(fā)現(xiàn)模型,利用TML技術(shù)在自然語言領(lǐng)域的技術(shù)積累,智能發(fā)現(xiàn)用戶評論的焦點,用戶所關(guān)注的方面。
基于條件隨機的實體發(fā)現(xiàn),結(jié)合LDA主題模型和CRF算法,TML能夠通過數(shù)據(jù)訓(xùn)練,迭代出用戶發(fā)表的主要主題。同時可以解決冷啟動問題,使用規(guī)則引擎大范圍提升標(biāo)注性能,使用標(biāo)注后的詞序列充分訓(xùn)練模型,讓機器學(xué)會實體識別前后的文本規(guī)則,例如,當(dāng)文本中出現(xiàn)了百家姓、機構(gòu)名稱時,模型能夠提取出命名實體的精度達到90%以上。經(jīng)過訓(xùn)練后,精度還能實現(xiàn)較大提升。
通過改進訓(xùn)練方法,來優(yōu)化主題發(fā)現(xiàn)。具體步驟為:
1)選取初始訓(xùn)練主題數(shù)量值,得到初始模型,計算各主題之間的相似度。
2)減少設(shè)定主題數(shù)量的值,重新訓(xùn)練得到模型,再次計算主題之間的相似度。
3)重復(fù)第二步直至得到最優(yōu)的主題數(shù)量。將主題初始值設(shè)置為30,通過主題模型訓(xùn)練出30個主題,使用文本相似度計算,合并相似的文本,將得到新的主題數(shù)量。重新更改算法模型主題數(shù)量,將訓(xùn)練得到的主題,進一步進行相似度計算、同義詞計算,重復(fù)迭代,最后我們得到一組30個的文本主題名詞,通過對名詞進行初步校驗,得到一個簡單的詞云圖。文本主題包括:電話預(yù)約、試駕服務(wù)、接待服務(wù)、提車時間、維修保養(yǎng)價格等。
2.2.2 專家校驗
主題與主題之間是具有關(guān)聯(lián)關(guān)系的,使用主題發(fā)現(xiàn)可以基本確認用戶所發(fā)表的主要對象,但實體對象之間的關(guān)系,與行業(yè)有著很高的聯(lián)系,實際應(yīng)用中不能直接根據(jù)技術(shù)所提取的主題,直接進行主題下的數(shù)據(jù)訓(xùn)練,文本挖掘。因此,我們邀請了汽車4S行業(yè)專家,利用專家對4S店的深入了解,使用專業(yè)詞匯修正網(wǎng)絡(luò)用戶隨意表達的主題,同時將主題進行類別劃分。通過對機器自動識別的30個4S店主題進行校驗,列出主題之間的關(guān)聯(lián)關(guān)系,將生成的主題與實際領(lǐng)域信息進行合并與分離,建立具有層級關(guān)聯(lián)的知識體系。最終將主題歸納成13個大類:售前服務(wù)、費用解釋、售前配件、提車環(huán)節(jié)、新車核對、承諾兌現(xiàn)、新車掛牌、新車貸款、售后保養(yǎng)、霸王條款、售后維修、投訴處理、保險等。同時將各個主題細分至大類下,完善整個類別關(guān)系。
2.2.3 基于TML的4S店知識圖譜搭建、文本細粒度分析
關(guān)于4S店服務(wù),網(wǎng)絡(luò)上的表達各式各樣,既有正規(guī)語言,也有大量網(wǎng)絡(luò)用語。網(wǎng)絡(luò)用語日新月異,如果沒有可迭代、可持續(xù)發(fā)展的知識圖譜技術(shù),就無法勝任當(dāng)前大數(shù)據(jù)環(huán)境下的語義分析。4S店、四兒子店、汽車、奔馳、機動車輛等這些詞匯都是人類可快速識別并進行歸類分析的,但計算機處理需要進行實體識別、關(guān)系關(guān)聯(lián)、文本分類等一系列處理,尤其是文本的邏輯推理是技術(shù)的關(guān)鍵。例如,人類一看到“SUV”這幾個字母,即可推導(dǎo)出背后的汽車,甚至是汽車的廠商、產(chǎn)地、價格范圍等。同樣,如何讓計算機也能擁有此等處理能力才是關(guān)鍵,所以TML知識圖譜在此充當(dāng)推理的邏輯基礎(chǔ),擁有完備的領(lǐng)域知識圖譜才能讓機器有更高的推理精度,更準(zhǔn)確地實體識別,文本分類。
TML的誕生就是為了解決目前從海量數(shù)據(jù)中提煉、發(fā)掘信息存在的難題,同時深入企業(yè)、客戶業(yè)務(wù),將人類復(fù)雜語言表達成文字,解析成計算機可統(tǒng)計、可識別的語料。通過學(xué)習(xí)人類關(guān)聯(lián)事物的思維模式,將文本中抽取的概念,用龐大的知識體系建立網(wǎng)絡(luò)狀聯(lián)系,讓枯燥的文本之間,搭建成相互依存的關(guān)聯(lián)關(guān)系。
例如,用TML技術(shù)來分析“我喜歡這輛SUV”這句話,可以提煉出文本中的概念要素“我”“SUV”,同時利用網(wǎng)絡(luò)狀的知識圖譜體系,可以讓計算機理解和關(guān)聯(lián)到SUV→汽車,我和SUV汽車之間提取情感傾向:“喜歡”。
知識圖譜的搭建是整個文本處理的關(guān)鍵,有了知識圖譜關(guān)系,將得到文本背后的關(guān)聯(lián),文本之間不再只是文字上的差異而是擁有了聯(lián)系,讓機器擁有了實際生活中人類的知識體系。4S店服務(wù)構(gòu)成較為復(fù)雜,傳統(tǒng)的文本匹配挖掘算法無法很好地解決關(guān)系實體發(fā)現(xiàn),每一個主題之間都擁有復(fù)雜的內(nèi)在關(guān)系,如何分析出用戶的評論到底屬于哪一個細分領(lǐng)域是技術(shù)關(guān)鍵。具體來說就是利用TML技術(shù),提取出每一條評論的具體實際意義,再運用TML知識圖譜,將分析提取出概念背后的關(guān)聯(lián)關(guān)系,根據(jù)網(wǎng)絡(luò)狀的實體關(guān)系圖,推理出網(wǎng)絡(luò)用戶隨意性的文字下所代表的準(zhǔn)確含義。
以13個服務(wù)分類為基礎(chǔ)搭建4S店知識圖譜,利用TML規(guī)則引擎快速訓(xùn)練和迭代出初步的知識體系,再利用機器學(xué)習(xí)算法深化知識圖譜結(jié)構(gòu)。4S店行業(yè)知識圖譜搭建完成后,接著進行評論的文本結(jié)構(gòu)化處理、文本細粒度分類處理。將抓取并處理后的評論,使用TML引擎進行處理,TML引擎會根據(jù)定義的13種大類、27小類進行評論的分類。同時,TML引擎會匹配出該類別下的關(guān)鍵實體,匹配分析出實體關(guān)系,并通過計算機存儲技術(shù),將分析后的結(jié)構(gòu)化數(shù)據(jù)結(jié)果存儲下來。
至此,整個數(shù)據(jù)處理流程結(jié)束。最后將結(jié)構(gòu)化的數(shù)據(jù)進行統(tǒng)計運算,統(tǒng)計每個類別下評論所占的比例,由此推測出該主題在4S店服務(wù)中的熱度。統(tǒng)計每個大類別中小類別的具體數(shù)據(jù),由此推測出小類出現(xiàn)的熱度。
2.3 數(shù)據(jù)統(tǒng)計和分析
2.3.1 4S店各服務(wù)環(huán)節(jié)用戶關(guān)注占比分析
我們對用戶在4S店的服務(wù)環(huán)節(jié)的關(guān)注度,共計13個服務(wù)類別進行了統(tǒng)計分析。這13個環(huán)節(jié)類別包括了4S店的整個服務(wù)流程,包括:售前服務(wù)、費用解釋、售前配件、提車環(huán)節(jié)、新車核對、承諾兌現(xiàn)、新車掛牌、新車貸款、售后保養(yǎng)、霸王條款、售后維修、投訴處理和保險等。針對這13個類別選出最受關(guān)注服務(wù)前5類、較受關(guān)注的4類、關(guān)注度較低的4類。
4S店每環(huán)節(jié)服務(wù)所受關(guān)注占比分析結(jié)果,如圖3所示。
圖3 4S服務(wù)環(huán)節(jié)用戶關(guān)注占比
最受消費者關(guān)注的服務(wù)前5類分別是:售前服務(wù)占33.67%、售后保養(yǎng)17.71%、新車核對占15.05%、提車環(huán)節(jié)占10.13%、售后維修占6.65% ;其次,比較受消費者關(guān)注的服務(wù)環(huán)節(jié)的4類分別是:投訴處理5.06%、車輛保險4.82%、費用解釋3.26%、售前配件2.24%。
整體服務(wù)類別受關(guān)注的占比結(jié)果反映了從看車、選車、購車到售后保養(yǎng)、售后維修等整個與4S店往來過程中,消費者最在意的是哪些環(huán)節(jié)、最關(guān)注的是哪些服務(wù)或品質(zhì)。
2.3.2 4S店最受關(guān)注服務(wù)的關(guān)注點分析
在所有的服務(wù)環(huán)節(jié)中一共設(shè)置分析了27個相關(guān)關(guān)注點。分別是:接待服務(wù)、預(yù)約咨詢服務(wù)、產(chǎn)品介紹服務(wù)、試駕服務(wù)、講價態(tài)度、售前服務(wù)費用解釋說明、維修保養(yǎng)費用解釋說明、配件價值、原廠配件供應(yīng)、提車時間拖延、合同上提車日期缺失、提車加價、口頭承諾兌現(xiàn)、新車質(zhì)量及相關(guān)證件核對問題、上牌困難、強制保險、保險理賠、新車貸款及利息、保養(yǎng)里程提前、保養(yǎng)服務(wù)項目、維修保養(yǎng)價格、維修等待時間、維修一次修復(fù)率、維修質(zhì)量預(yù)期、維修偷換零件、售后霸王條款、投訴處理態(tài)度等。
通過對每個服務(wù)環(huán)節(jié)進行熱點分析,所有的關(guān)注熱點占比排列結(jié)果如圖4所示。
通過以上的數(shù)據(jù),我們還可以對每個環(huán)節(jié)中消費者具體關(guān)注點的關(guān)注度進行數(shù)據(jù)分析。由于篇幅所限,僅選取一個關(guān)注點做示例。
售前服務(wù)環(huán)節(jié)在4S店服務(wù)流程中占比33.67%,位居最受關(guān)注第1名。此環(huán)節(jié)中,消費者比較關(guān)注的具體服務(wù)內(nèi)容包括門店的接待服務(wù)、電話預(yù)約咨詢、產(chǎn)品介紹服務(wù)、車輛試駕服務(wù)、講價還價的態(tài)度這五個關(guān)注點。我們通過采集的數(shù)據(jù)做了分析統(tǒng)計,可以得出每一個關(guān)注點在售前服務(wù)這一環(huán)節(jié)所占的比重。
分析結(jié)果顯示,在售前服務(wù)環(huán)節(jié),門店的接待服務(wù)比例90.7%,所占比重最大,消費者買車或看車時進店的第一印象尤為重要;其次是試駕服務(wù)所占比例4.37%,試駕是對這輛車最直觀的感受,消費者對試駕的良好體驗也比較看重;然后是產(chǎn)品的介紹服務(wù)所占比例2.40%,大多數(shù)消費者都很在意是否得到銷售員熱情的服務(wù),而較懂車的消費者不僅要求服務(wù)人員的態(tài)度,而且對產(chǎn)品介紹的專業(yè)度也很在意;最后是講價的態(tài)度所占比例1.77%,部分消費者在意與銷售員講價或咨詢買車優(yōu)惠時其表現(xiàn)的態(tài)度,這讓消費者感覺是否受到對方的尊重;也有極少數(shù)的消費者會在電話預(yù)約咨詢時在意服務(wù)的質(zhì)量問題,在售前服務(wù)環(huán)節(jié)中占0.72%。
3 總結(jié)與展望
通過對4S店消費者信息進行挖掘和處理,我們清楚地了解到消費者在接受4S店服務(wù)全流程中的主要關(guān)注點,可以對關(guān)注度實現(xiàn)量化分析。這是以往的技術(shù)手段無法達到的效果。給滿意度調(diào)查問卷的編制提供了非常有價值的數(shù)據(jù)。
這類工作在大數(shù)據(jù)行業(yè)中屬于典型的用戶輿情發(fā)現(xiàn),通過對海量的網(wǎng)上用戶評論的深度分析,洞察用戶對行業(yè)的不滿和建議,通過語義分析技術(shù)對互聯(lián)網(wǎng)信息的整合分析,消除行業(yè)與消費者之間的信息鴻溝。對于專業(yè)的滿意度調(diào)查公司來說,也是快速了解行業(yè)的重要輔助手段。
TML技術(shù)在整個數(shù)據(jù)洞察過程中,充分體現(xiàn)了其優(yōu)勢。能夠?qū)崿F(xiàn)對消費者不同關(guān)注點的定量分析,對于準(zhǔn)確把握消費者的實際關(guān)注點,具有極為重要的參考價值。
對本次人工智能進行的分類結(jié)果進行核查,準(zhǔn)確性達到了95%左右,我們的結(jié)論是現(xiàn)有的人工智能技術(shù)在用戶輿情發(fā)現(xiàn)方面,已經(jīng)具備了實用的價值,其準(zhǔn)確性已經(jīng)達到了較高的水平,完全滿足滿意度調(diào)查工作的需要。
另外一方面,知識圖譜的建立和數(shù)據(jù)的訓(xùn)練相對成本較高,整個工作的周期仍然較長,如果想要在滿意度調(diào)查中大面積推廣該項技術(shù),下一步還應(yīng)不斷完善數(shù)據(jù)過濾及文本分析技術(shù),對重要的行業(yè)提前建立行業(yè)的知識圖譜,確保行業(yè)應(yīng)用的效率。構(gòu)建云服務(wù)平臺,共享知識圖譜,共享訓(xùn)練成果,其服務(wù)效率將大幅提高,成本也會逐步降低。在可以預(yù)見的將來,人工智能技術(shù)將成為滿意度測評領(lǐng)域的重要技術(shù)手段,并應(yīng)用于質(zhì)量研究的更多領(lǐng)域。
參考文獻
[1] 李佳靜, 李曉明, 孟濤. TML:一種通用高效的文本挖掘語言[J]. 計算機研究與發(fā)展, 2015, 52(3):553-560.
[2] 車海燕, 馮鐵, 張家晨,等. 面向中文自然語言文檔的自動知識抽取方法[J]. 計算機研究與發(fā)展, 2013, 50(4):834-842.