基于大數(shù)據(jù)的交通運輸公眾評議指數(shù)設計及應用

2022-09-28 02:30劉勇鳳成倩倩李緒茂

公路交通科技 2022年9期

李弢，劉勇鳳，成倩倩,李緒茂

(1.交通運輸部規(guī)劃研究院，北京 100028; 2.綜合交通規(guī)劃數(shù)字化實驗室，北京 100028)

0 引言

交通運輸是經(jīng)濟社會發(fā)展的“先行官”。經(jīng)過改革開放40 a來的不懈努力，我國已邁入交通大國行列，基礎(chǔ)設施網(wǎng)絡規(guī)模居于世界前列，客貨運運輸量穩(wěn)居世界第一，科技創(chuàng)新處于世界先進水平。當前我國已邁入建設社會主義現(xiàn)代化強國階段，對交通運輸提出了更新更高的要求，交通運輸?shù)拈_路先鋒作用日益增強，因此我國交通運輸事業(yè)發(fā)展的當務之急是加快實現(xiàn)從交通大國向交通強國的轉(zhuǎn)變。黨的十九大提出了“交通強國”發(fā)展戰(zhàn)略，需要綜合推進交通運輸業(yè)各方面共同進步，包括基礎(chǔ)設施的發(fā)展、服務水平的提高、轉(zhuǎn)型工作的落實等等[1]。實現(xiàn)“交通強國”戰(zhàn)略，首先需要對我國目前的交通運輸綜合服務能力進行科學客觀的評價。

互聯(lián)網(wǎng)的飛速發(fā)展為建立更加準確真實的評價體系提供了新思路。近年來，互聯(lián)網(wǎng)規(guī)模持續(xù)增長、成果顯著普惠化。在交通運輸方面，我國網(wǎng)絡出行服務發(fā)展迅速，在線購票服務已成為人們長途出行的主要選擇。同時，依托共享經(jīng)濟形成的共享出行市場也在不斷發(fā)展。截至2021年底，我國網(wǎng)約車用戶總規(guī)模已超過4.5億人，基于互聯(lián)網(wǎng)的交通出行業(yè)務逐漸普及，大量公眾出行的交通運輸行業(yè)數(shù)據(jù)也被相關(guān)企業(yè)收集積累起來，行業(yè)大數(shù)據(jù)由此產(chǎn)生。通過對相關(guān)海量數(shù)據(jù)挖掘與應用，可對目前交通運輸行業(yè)發(fā)展情況進行整體評價。

為了更好、更真實地反映我國交通運輸業(yè)的綜合服務能力，本研究提出4類新型的基于大數(shù)據(jù)的交通運輸公眾評議指數(shù)，包括客運企業(yè)評議指數(shù)、貨運企業(yè)評議指數(shù)、運輸行業(yè)十大事件公眾輿情情感度指數(shù)、1次死亡10人及以上道路運輸行車事故輿情情感度指數(shù)。上述指數(shù)基于大型運輸服務企業(yè)的在線評價或在線社交應用上發(fā)布的交通運輸相關(guān)內(nèi)容，綜合公眾對于其提供的直接或第三方服務的評價、意見、投訴等，通過文本分析方法對其整體表現(xiàn)進行綜合評價，并得出相應指數(shù)。

1 文獻綜述

基于大數(shù)據(jù)的評議指數(shù)較傳統(tǒng)指數(shù)，其來源更加直接，內(nèi)容更加全面，對于信息的挖掘更加深入，能夠作為對傳統(tǒng)評價指標的補充。一般來說，基于大數(shù)據(jù)的評議指數(shù)主要包含輿情分析、公眾評議、服務評價等若干方面。

1.1 輿情分析

輿情分析是指針對某一社會熱點問題，通過社交媒體等渠道了解民眾對該問題的態(tài)度，并對其進行分析研判，進而提出相應的輿情引導策略[2-7]。輿情分析的發(fā)展主要包括以下3個階段：傳統(tǒng)輿情分析、基于互聯(lián)網(wǎng)的輿情分析、基于大數(shù)據(jù)的輿情分析。

隨著大數(shù)據(jù)時代的到來，越來越多的研究者采用大數(shù)據(jù)分析技術(shù)對社會熱點問題輿情進行分析。

1.2 公眾評議

公眾評議是通過搭建公共對話平臺，讓我國民眾有效參與到政府績效評估的形式之一。公眾評議作為政府績效管理的重要組成部分，對公共服務水平的提升和公眾滿意度的提高都具有重要影響。

互聯(lián)網(wǎng)的不斷發(fā)展與普及，為公眾評議帶來了新的發(fā)展方向，如在線電子政務的產(chǎn)生帶來了網(wǎng)上評議的新模式[3]。然而，在實踐過程中，出現(xiàn)了參與程度低、評議結(jié)果不透明等問題[4]。

目前，各省(市、縣)交通運輸廳(局)均采用公眾評議方法收集群眾意見，經(jīng)過整合相關(guān)建議后，確定進一步的整改方案，同時進行交通運輸服務的績效考評。已有的公眾評議渠道包括12328交通運輸服務監(jiān)督電話系統(tǒng)、相關(guān)部門電子政務網(wǎng)站等。

1.3 綜合運輸服務能力

提高交通運輸服務能力要求構(gòu)建普惠均等、便捷高效、智能智慧、安全可靠、綠色低碳的綜合運輸服務系統(tǒng)，不斷優(yōu)化升級，進而增加社會公眾的滿意度和獲得感[5]。

為了有效衡量我國綜合運輸服務體系的發(fā)展成效，需提出科學客觀的指標體系對公眾滿意度進行評價[6]。依照交通運輸行業(yè)的分類規(guī)則，綜合運輸服務能力可分為客運服務能力和貨運服務能力。同時，“安全可靠”作為交通運輸服務能力的重要體現(xiàn)之一，也應對公眾態(tài)度加以考量。

1.4 基于大數(shù)據(jù)的綜合運輸服務能力公眾評議

由于傳統(tǒng)的公眾評議方法存在參與度低、數(shù)據(jù)失真等問題，將基于大數(shù)據(jù)的輿情分析與已有的政府績效公眾評議方法結(jié)合起來，利用大數(shù)據(jù)海量、真實的特點彌補傳統(tǒng)公眾評議數(shù)據(jù)收集過程中存在的問題。提出基于在線社交媒體的海量數(shù)據(jù)，從民眾的日常發(fā)布內(nèi)容中發(fā)掘其對于交通部門公眾服務能力水平的態(tài)度。在此基礎(chǔ)上，為更加全面地衡量綜合運輸服務能力，分別對貨運、客運、運輸行業(yè)10件大事和1次死亡10人及以上道路運輸行車事故4個方面的輿情展開分析，分別得到相應的評議指數(shù)[7]。

2 評議指數(shù)計算模型

基于大數(shù)據(jù)應用的綜合運輸能力評議指數(shù)模型(以下簡稱 “綜合評議模型”)，是結(jié)合機器學習模型與自然語言處理模型，對民眾在社交媒體等平臺中發(fā)布的交通運輸相關(guān)內(nèi)容進行綜合分析后加權(quán)得出相關(guān)指數(shù)。綜合評議模型的應用架構(gòu)如圖1所示，主要包含數(shù)據(jù)收集、數(shù)據(jù)預處理、模型訓練、指數(shù)計算4個部分[8]。

圖1 評議指數(shù)計算框架Fig.1 Evaluation index calculation framework

2.1 數(shù)據(jù)采集

首先，確定數(shù)據(jù)來源。為了能夠全面地對我國交通運輸客貨運、重大事件、重大安全事故等方面的公眾態(tài)度進行分析，針對上述4個方面選擇了5類數(shù)據(jù)源。其中，共享交通平臺、在線票務平臺、出行服務平臺用來進行客運企業(yè)評議指數(shù)的測算，電子商務平臺用來進行貨運企業(yè)評議指數(shù)的測算，社交媒體平臺則用來進行各領(lǐng)域(客運企業(yè)、貨運企業(yè)、重大事件和重大安全事故)公眾情感度的測算[9]。

其次，確定搜索關(guān)鍵詞。根據(jù)平臺對應指數(shù)進行數(shù)據(jù)爬取，如在線票務平臺和出行服務平臺中，以“火車”、“航班”、“機場”等詞語作為關(guān)鍵詞，在海量評價數(shù)據(jù)中進行搜索，得到需要的發(fā)布內(nèi)容。其中，運輸行業(yè)10件大事和1次死亡10人及以上道路運輸行車事故的搜索關(guān)鍵詞可參照中國交通新聞網(wǎng)等網(wǎng)站公布的年度報告[10]。

而后，針對不同平臺的特點進行文本數(shù)據(jù)的爬取。部分平臺為研究者提供數(shù)據(jù)接口，通過調(diào)用相應接口即可得到所需數(shù)據(jù)。部分網(wǎng)站平臺可以通過網(wǎng)絡爬蟲等方式，將數(shù)據(jù)由線上下載到本地數(shù)據(jù)庫，以便后續(xù)處理。確定爬取模式后，根據(jù)需要頻率定期獲取數(shù)據(jù)[11]。

2.2 數(shù)據(jù)預處理

數(shù)據(jù)預處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換3個流程。

數(shù)據(jù)清洗從樣本和詞語2個層級分別進行。首先，刪除重復的、內(nèi)容過短(少于10個字符)的樣本；其次，對爬取到的文本進行處理，將其中包含的數(shù)字、鏈接、停用詞、標點符號、空白符、特殊字符等去除，只保留具有實際意義的文本。

數(shù)據(jù)集成是將文本的內(nèi)容按照綜合運輸服務能力的4個方面分別進行融合。后續(xù)模型構(gòu)建的工作將分別在細分好的4個數(shù)據(jù)集上進行。

數(shù)據(jù)轉(zhuǎn)換是指隨著增量數(shù)據(jù)的不斷累積，根據(jù)適合的數(shù)據(jù)結(jié)構(gòu)對數(shù)據(jù)本身進行轉(zhuǎn)換。

2.3 模型訓練

為了能夠更好地綜合評價運輸服務能力，將分別從文本的內(nèi)容和文本的感情值2個方面對其進行衡量。

2.3.1 文本分類器

訓練文本分類器的過程中，首先要對文本特征進行提取，常用的文本向量特征表示方法包括文本分詞、詞集模型、詞袋模型等。在將文本進行向量化處理后，通過機器學習模型對文本進行分類，常用的模型包括傳統(tǒng)的機器學習模型及深度學習模型等?；贚u等[12]的研究，在試驗中采用獨熱碼(one-hot encoding)對文本特征進行提取和表示，而后采用卷積神經(jīng)網(wǎng)絡模型對文本進行分類。

訓練領(lǐng)域分類器的過程中，首先將搜索文本時使用的標簽所屬領(lǐng)域進行融合，如“航班”、“機場”、“機票”等標簽下的文本內(nèi)容歸為“客運空運”，并將歸納好的大類作為因變量展開訓練。

訓練內(nèi)容分類器的過程中，首先應用無監(jiān)督機器學習方法(如聚類)基于文本特征向量的相似性對樣本進行劃分。而后，根據(jù)領(lǐng)域知識，對劃分后的類進行合并標注，得到有標簽樣本；應用標注后的樣本訓練機器學習分類模型。

在對增量文本進行判斷時，對分類錯誤的文本進行人工分析，并將正確標記后的文本分類作為樣本加入到訓練集中。

2.4 情感分析器

情感分析主要分為基于情感詞典和基于機器學習2種方法。但由于在現(xiàn)實情況中，標注好的文本數(shù)量很少，如果使用基于機器學習的情感分析需要首先對文本進行人工標注，消耗很多時間和人力。因此，在對收集的文本進行情感分析時，本研究采用基于情感詞典的分析方法[13]。

基于情感詞典的分析方法指根據(jù)已構(gòu)建的情感詞典，對待分析文本進行文本處理抽取情感詞，進而計算該文本的情感傾向，即根據(jù)語義和依存關(guān)系來量化文本的情感色彩[14]。

常用的中文情感詞典有清華大學李軍中文褒貶義詞典、臺灣大學NTUSD簡體中文情感極性詞典、知網(wǎng)Hownet情感詞典等等。同時，在已有的權(quán)威字典的基礎(chǔ)上，針對性地添加或修改綜合交通運輸方面的詞匯，并且使用N-Gram方法來進行新詞的挖掘，以期獲得更好的性能。

訓練情感分析器將文本中體現(xiàn)的民眾對綜合運輸服務的態(tài)度分為5種等級，包括非常消極、較消極、中性、較積極、非常積極。在訓練過程中，通過調(diào)整各情感等級間的閾值來提高模型分類能力。

2.5 指數(shù)計算

在定義指數(shù)時，為不同領(lǐng)域、不同內(nèi)容賦予不同的權(quán)重，將文本中的情感值和領(lǐng)域內(nèi)容方向的權(quán)重相結(jié)合，得到相關(guān)評議指數(shù)。

確定權(quán)重時，采用專家打分法請交通運輸領(lǐng)域?qū)＜覟楦鱾€具體的方向給出分數(shù)，該方法具有簡便、直觀、計算簡單等特點[15-16]。

隨著交通運輸行業(yè)的不斷發(fā)展，可以根據(jù)計算得出的指數(shù)值與整體行業(yè)發(fā)展情況定期對權(quán)重進行更新。

3 實證分析

3.1 平臺選取

大數(shù)據(jù)平臺的選擇是影響基于第2節(jié)中模型框架計算得出的評議指數(shù)質(zhì)量的重要因素。交通運輸服務綜合影響人們生活的方方面面，因此可以從多渠道、多角度、多平臺挖掘人們對于運輸服務水平的看法與態(tài)度。為了更加全面、客觀、真實地反映公眾對于我國交通運輸服務水平的感受，在確定文本數(shù)據(jù)來源的過程中，將以下指標作為各交通運輸子領(lǐng)域(如共享交通、旅游出行、快遞物流等)數(shù)據(jù)平臺的選擇標準。

3.1.1 頁面瀏覽量(page view, PV)

頁面瀏覽量是每個用戶對網(wǎng)站中任意網(wǎng)頁的訪問次數(shù)的總和，同一用戶對同一頁面的多次訪問，其訪問量累計。頁面瀏覽量可作為衡量網(wǎng)站流量的重要指標，用來反映網(wǎng)站用戶的活躍程度。頁面瀏覽量越多，則表示該網(wǎng)站在其所在領(lǐng)域受到公眾任認可的程度越高。

3.1.2 獨立用戶數(shù)量(unique visitor, UV)

獨立用戶數(shù)量又稱獨立IP數(shù)量，是指一定時期內(nèi)訪問網(wǎng)站的用戶的數(shù)量，通常通過IP地址來代表1個唯一的用戶。獨立用戶數(shù)量是網(wǎng)站流量的另一重要指標，其更加真實地描述了網(wǎng)站的訪問量。

3.1.3 重復用戶數(shù)量(repeat visitor,RV)

重復用戶數(shù)量又稱重復訪問者，是指在一定時期內(nèi)訪問網(wǎng)站2次及以上的用戶數(shù)量。該指標側(cè)面反映了網(wǎng)站對于用戶的價值水平，當且僅當網(wǎng)站中的內(nèi)容對用戶有價值時，用戶才會選擇再次訪問。

3.1.4 文本數(shù)據(jù)量

文本數(shù)據(jù)量是指網(wǎng)站中由用戶發(fā)布所有文本的數(shù)據(jù)總量。通常數(shù)據(jù)越多，訓練得到的模型其表現(xiàn)效果越好。因此，將文本數(shù)據(jù)量指標作為公眾評議指數(shù)計算選取數(shù)據(jù)平臺的指標具有重要意義。

綜上，前3個指標是通過網(wǎng)站訪問量的各項指標來表示網(wǎng)站在其領(lǐng)域的用戶覆蓋及內(nèi)容價值水平，而第4個指標則是針對公眾評議指數(shù)基于文本數(shù)據(jù)進行分類計算的特點，用來反映數(shù)據(jù)平臺是否有助于提高指數(shù)準確性。

3.2 數(shù)據(jù)獲取

基于第3節(jié)中提出的模型框架，利用不同的平臺和搜索關(guān)鍵詞可計算得出4個不同的指數(shù)。本試驗以客運相關(guān)企業(yè)評議指數(shù)為例，根據(jù)4.1節(jié)中提出的選擇指標，選取馬蜂窩在線出行服務平臺，爬取平臺中對于客運相關(guān)服務的評價文本作為試驗數(shù)據(jù)[17]。

本研究通過“飛機”、“火車”、“大巴”、“晚點”、“準時”等關(guān)鍵詞進行問答搜索，得到75 879條文本數(shù)據(jù)。去除其中的重復文本以及對于國外交通信息的問答，得到38 906條有效數(shù)據(jù)。數(shù)據(jù)爬取通過python 3.5實現(xiàn)[18]。

3.3 評價指標

本次試驗使用了正確率(precision)、召回率(recall)、F均值(F1)作為評價指標來檢驗試驗效果。

(1)

(2)

(3)

式中，TP(True Positive)為將樣本歸類為其實際的分類；FP(False Positive)為將樣本歸類為該類別但實際不是；FN(False Negative)為將樣本標記為其他類別但實際為該類別。

3.4 試驗結(jié)果3.4.1 領(lǐng)域分類器

試驗中，將分別從空運、道路、鐵路3個領(lǐng)域?qū)瓦\服務進行領(lǐng)域劃分。文本樣本的領(lǐng)域標簽是通過爬取該文本時使用的標簽進行標注的，文本樣本的分布見圖2。

圖2 馬蜂窩問答領(lǐng)域分布Fig.2 Domain distribution of hornet’s nest question and answer

訓練所得的領(lǐng)域分類器分類表現(xiàn)如表1所示，結(jié)果表明，分類器可以將75%以上的問答文本正確分類。雖然根據(jù)搜索關(guān)鍵詞對問答文本進行分類會導致數(shù)據(jù)噪聲較大，但其操作簡便、效率較高，省去了人工標注的工程，因此，認為使用該方法在初始狀態(tài)下進行標注是可行的。

表1 領(lǐng)域分類器初始分類結(jié)果Tab.1 Initial classification result of domain classifier

同時，也進一步提出，在定期采集數(shù)據(jù)更新評議指數(shù)的過程中，對增量數(shù)據(jù)文本中少量的誤判樣本進行人工分類校正后，將其放入訓練數(shù)據(jù)集中，重新訓練模型。在此過程中，逐漸對初始自動分類導致的信息偏差進行糾正。

在驗證過程中，在訓練模型時，首先在訓練數(shù)據(jù)集中剔除最近10個月的文本數(shù)據(jù)，應用已訓練好的模型對新加入的接下來1個月的文本數(shù)據(jù)進行分類；選出分類錯誤的文本樣本，并對其進行人工標注，將人工標注與原始標注不一致的樣本加入到訓練數(shù)據(jù)集中重新訓練模型。如此重復10次，其正確率結(jié)果如圖3所示。

圖3 模型迭代結(jié)果變化趨勢Fig.3 Change trend of model iteration result

從圖3可以看出，隨著新的人工標注樣本的補充，分類模型的效果也會首先穩(wěn)步提升，此后穩(wěn)定在較高水平。轉(zhuǎn)折點是在第5次模型時，其模型效果提升速度最快的是道路領(lǐng)域，其次是鐵路，最后是空運。在實際應用過程中，可在計算評議指數(shù)的前5次對模型進行迭代更新。

3.4.2 內(nèi)容分類器

試驗中，將聚類后的文本內(nèi)容分類分別標注為依法行政、業(yè)務工作、服務態(tài)度、安全保障4種類型。各內(nèi)容類型文本分布圖如圖4所示。

圖4 馬蜂窩問答內(nèi)容分布Fig.4 Content distribution of hornet’s nest question and answer

訓練得到的內(nèi)容分類器分類表現(xiàn)如表2所示。結(jié)果表明，利用無監(jiān)督算法輔助文本標注的方法切實可行，分類器的準確率可以達到79.68%。但由于樣本分布過于不均，導致樣本量少的“依法行政”、“服務態(tài)度”與“安全保障”3類文本內(nèi)容的分類準確度過低。

表2 內(nèi)容分類器初始分類結(jié)果Tab.2 Initial classification result of content classifier

該問題可通過4.3.1節(jié)中介紹的利用增量數(shù)據(jù)集的方式加以解決，即將新爬取的“依法行政”、“服務態(tài)度”與“安全保障”3類文本數(shù)據(jù)全部加入到訓練集中，直至4種類型的文本數(shù)據(jù)基本平衡或模型效果達到穩(wěn)定狀態(tài)。

3.4.3 情感分析器

試驗中，將所有文本數(shù)據(jù)采用獨熱碼對向量特征提取和表示后，利用現(xiàn)有的情感詞典進行計算，每條文本均得到1個0到1之間的值作為其情感值。

通過人工抽樣標注的方式，協(xié)助模型調(diào)整參數(shù)確定閾值，根據(jù)情感值將文本數(shù)據(jù)分為非常消極、較消極、中性、較積極、非常積極5種態(tài)度。

將所有文本按照確定的閾值進行分類后，其分布如圖5所示。為了驗證模型的有效性，從中抽取100條(之前未抽到的)樣本進行人工分類，其結(jié)果與分類器判斷的情感態(tài)度一致的樣本占抽出樣本的95%。

3.4.4 指數(shù)計算

經(jīng)過上述3個分類器，此時每個樣本都帶有3個標簽，分別是領(lǐng)域標簽、內(nèi)容標簽和情感標簽。綜合交通運輸評議指數(shù)的最終目的是反映民眾對客運、貨運、重大事件、重大事故的整體情感態(tài)度。因此選取交通行業(yè)的領(lǐng)域?qū)＜?，分別根據(jù)領(lǐng)域標簽和內(nèi)容標簽下的分類方向?qū)C合運輸?shù)闹С肿饔茫x予該標簽不同的權(quán)重。

將每個方向下每個文本的情感值分別乘以領(lǐng)域標簽和內(nèi)容標簽對應的權(quán)重后求和，即可得到評議指數(shù)。

由于本試驗只選取了馬蜂窩1個平臺，其內(nèi)容不足以使得計算得出的指數(shù)具備實際意義，因此在文中未給出具體數(shù)值。

3.5 討論

本試驗以馬蜂窩平臺中的問答數(shù)據(jù)為例，論證了第3節(jié)中提出的公眾評議指數(shù)計算框架的可行性。試驗結(jié)果顯示，該框架能夠簡單、高效地完成模型的訓練并達到較高的分類準確率，在實際應用中具有可行性優(yōu)勢。

結(jié)合圖2與圖3可以發(fā)現(xiàn)，領(lǐng)域分類模型效果提升速度由快到慢依次是道路、鐵路、空運，與其領(lǐng)域分布下的樣本數(shù)量成反比。這有可能是因為初始樣本不足導致的模型得到信息不足的情況在后續(xù)增量數(shù)據(jù)的補充過程中得到了緩解，這同時也解釋了初始分類結(jié)果中3個領(lǐng)域分類結(jié)果的排名。

利用上述發(fā)現(xiàn)，提出了解決內(nèi)容分類器樣本不均衡導致的分類準確率低問題的方法。該方法有效地利用了評議指數(shù)需定期更新這一特點，利用增量數(shù)據(jù)來平衡各類別樣本的數(shù)量。

4 結(jié)論

為了更加準確客觀地評價我國綜合運輸服務能力，為實現(xiàn)“交通強國”戰(zhàn)略打好基礎(chǔ)，提出了基于大數(shù)據(jù)的交通運輸公眾評議指數(shù)。該指數(shù)利用我國現(xiàn)有的在線出行服務等平臺積累的海量民眾發(fā)布的文本數(shù)據(jù)，采用自然語言處理技術(shù)對其含有的情感態(tài)度進行分析，加權(quán)整合后用來反映我國民眾在一定時期內(nèi)對客運服務(長短途出行等)、貨運服務(快遞服務等)、重大事件以及重大事故的態(tài)度看法。得出的主要結(jié)論如下：

(1)基于大數(shù)據(jù)的指數(shù)評議方法較傳統(tǒng)指數(shù)來源更加直接，內(nèi)容更加全面，對于信息的挖掘更加深入，基于大數(shù)據(jù)的輿情分析與已有的政府績效公眾評議方法結(jié)合起來，利用大數(shù)據(jù)海量、真實的特點可彌補傳統(tǒng)公眾評議數(shù)據(jù)收集過程中存在的參與度低、數(shù)據(jù)失真等問題。

(2)提出了基于文本分析算法和情感分析算法的公眾評議指數(shù)計算模型，該模型針對我國交通運輸客貨運、重大事件、重大安全事故等方面的公眾評議，通過網(wǎng)絡爬蟲等方式在相關(guān)數(shù)據(jù)源上獲取數(shù)據(jù)并對數(shù)據(jù)進行清洗、集成與轉(zhuǎn)換?；陬I(lǐng)域、內(nèi)容、情感分析器對模型進行訓練，最后通過對不同領(lǐng)域、不同內(nèi)容賦予不同的權(quán)重，將文本中的情感值和領(lǐng)域內(nèi)容方向的權(quán)重相結(jié)合，得到相關(guān)評議指數(shù)。

(3)利用指數(shù)評議方法對客運相關(guān)企業(yè)進行指數(shù)評議，通過正確率、召回率、F均值等指標驗證驗證了綜合評議指數(shù)計算框架中提出的領(lǐng)域、內(nèi)容、情感3個分類器的有效性。結(jié)果表明，領(lǐng)域、內(nèi)容、情感分類器的準確率分別為75%, 79.68%, 95%。因此，確立的計算框架能夠高效地完成模型的訓練并達到較高的分類準確率。針對分類器樣本不均衡導致的分類準確率低的問題，通過增量數(shù)據(jù)的方法，使得各種類型的文本數(shù)據(jù)基本平衡或模型效果達到穩(wěn)定狀態(tài)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡