如何評價移動政務服務質量？
——基于省級政務客戶端用戶評論的探索性研究

2022-01-05 12:29冀翠萍

湖北社會科學 2021年11期

冀翠萍，馬亮

（1.山東省委黨校公共管理教研部，山東濟南 250000；2.中國人民大學公共管理學院，北京 100872）

一、引言

移動政務是電子政務和數(shù)字政府的前沿領域，各地正如火如荼地建設實踐，形成了政務微博、政務微信、政務小程序和政務客戶端（App）等構成的移動政務服務體系，有效解決了政務服務的最后一公里，政務服務效率和質量得到顯著提升。[1](p99-111)特別是政務App 作為一種獨立運行的移動端應用程序，面向公眾和企業(yè)辦事需求提供多對象、多流程的復雜業(yè)務功能，成為政府提供政務服務的主渠道和主陣地。[2](p31-38)因此，對政務App發(fā)展績效進行研究有重要意義。

移動政務是政務服務創(chuàng)新的重要手段，是溝通公眾與政府的重要橋梁，是影響公眾政府信任和公眾滿意度的重要載體，如果移動政務服務績效欠佳，就會顯著負向影響用戶的使用意愿和體驗。[3](p198-207)當前，各政務App績效表現(xiàn)怎樣，又如何去評價和測量發(fā)展績效？現(xiàn)有研究認為技術質量、服務質量、安全性能等是衡量電子政務服務質量與滿意度的重要指標，[4](p60-64)提出可通過政務App的系統(tǒng)兼容度、穩(wěn)定度、便捷度、流暢度等過程化指標進行衡量。[3](p198-207)但是，當前的研究實踐較多采用問卷調查、訪談等方式獲取數(shù)據(jù)，問卷和訪談屬于小樣本研究，樣本范圍受到抽樣條件等限制，并且都是封閉式的、高度結構化的設計，其指向性、主觀性較強，調研過程易受到外部因素的干擾，數(shù)據(jù)的客觀真實性難以得到有效保證。盡管有部分研究實踐采用了體驗團、體驗官等形式，[3](p198-207)然而，政務App 要面向海量用戶群，他們的手機型號、操作系統(tǒng)、使用環(huán)境、網(wǎng)絡速度、年齡差異、數(shù)字素養(yǎng)等均不一致，僅靠數(shù)量較少的體驗團、體驗官難以完整、準確、全面獲得真實評測結果。

政務服務的對象是公眾和企業(yè)，政務服務績效的優(yōu)劣也應該由公眾和企業(yè)來評價。2019 年國務院政府工作報告提出建立政務服務“好差評”制度，就是要采集和歸集公眾和企業(yè)對各類政務服務的真實評價信息，[5](p51-58)然而在實際推行中卻遭遇數(shù)據(jù)收集困難的尷尬。[6](p14-22)移動互聯(lián)網(wǎng)的發(fā)展創(chuàng)新了收集公眾真實意見的方法，比如，用戶評論就是評價移動服務質量的重要數(shù)據(jù)，但是對其開發(fā)和利用得還較少。[7](p71-85)政務App 在手機應用商店上架推廣，用戶可對應用商店中的政務App 發(fā)表評論，這些評論數(shù)據(jù)內容豐富、更新及時、易于獲取，并且只有那些留下深刻印象的應用才會促使用戶有動力去發(fā)表評論，因此這些評論數(shù)據(jù)能夠真實表達用戶最為關心的內容。[8](p43-53)

當前，31 個省、直轄市和自治區(qū)以及新疆生產建設兵團均推出了基于App的移動政務服務，積累了大量用戶評論數(shù)據(jù)。這些數(shù)據(jù)是從用戶體驗出發(fā)對政務App 服務效能的檢視，可以測量政務App服務質量，可以用于完善移動政務的績效評估。本研究采集各省級政務App的用戶評論數(shù)據(jù)，分析這些數(shù)據(jù)在不同手機平臺上的表現(xiàn)，以此探求將用戶評論數(shù)據(jù)引入政務App績效評估的可行性。

二、文獻回顧

（一）關于政務App績效測評的研究。

近年來我國政務App 發(fā)展迅速，應用數(shù)量、服務模式不斷增長創(chuàng)新，但卻并沒有相應提升公眾的使用率和參與度，某些時候對政務App服務質量的評價甚至有所下降。[1](p99-111)研究發(fā)現(xiàn)，政務App 存在更新維護不及時、運行不順暢等技術問題，[9](p83-91)這類基礎問題的存在，導致用戶對政務App 無感，難以形成“用戶黏性”，無法發(fā)揮出其作為政務服務提供和政民互動渠道的價值和作用，[10](p76-81)這可能與政府較多關注政務App 的建設而忽視后期維護和完善有關。[11](p74-84)政務App建設發(fā)展特別需要發(fā)揮績效評價的“指揮棒”作用，引導各級政府部門重視建設和發(fā)展中的薄弱環(huán)節(jié)和關鍵問題，對癥下藥地進行整改。[1](p99-111)

學界已經關注到政務App 績效問題的研究。首先，研究關注到政務App 績效評價體系的構建。朱春奎等對電子政務研究的梳理總結發(fā)現(xiàn)，電子政務服務質量與滿意度的評價主要包含信息質量、服務質量、組織表現(xiàn)、技術質量、安全性能、滿意度六個方面。[4](p60-64)徐緒堪等構建了政務App 服務效能的評價指標體系，還組建了評估團隊，對樣本App進行了參與式體驗和評價。[3](p198-207)其次，研究關注到要從用戶感知出發(fā)評估政務App 發(fā)展績效。Hung 指出，移動政務帶有強制性使用色彩，感知有用性和感知易用性可以顯著影響用戶的滿意度。[12](p33-44)王法碩等研究發(fā)現(xiàn)系統(tǒng)質量是顯著影響政務App用戶滿意度的重要因素，政務App系統(tǒng)能否正常訪問、運行是否穩(wěn)定、設計與功能是否合理直接決定了用戶的使用意愿。[13](p65-74)最后，學界和業(yè)界積極探索政務App 績效評估的實踐。復旦大學數(shù)字與移動治理實驗室構建“掌上好辦”指標體系，從可得性、有用性、易用性、滿意度、安全度五個方面，對省級移動政務App 發(fā)展情況進行評測，同時關注到技術和用戶的重要作用，設立“技術性體驗”和“用戶體驗評價”指標并占有一定權重。[14]

綜上所述，研究已經關注到政務App服務質量的重要性，以及用戶感知的重要作用。但是，已有研究多是從政務服務供給側出發(fā)，站在政務App的外部對可獲得的功能模塊進行評測，考察政務App有什么，比如有哪些信息、服務、渠道和方式。[7](p71-85)但是，政務App 服務的對象是公眾和企業(yè)，公眾和企業(yè)自有對政務服務的主觀感知和評測，也就是用戶的使用效果，這是從需求側出發(fā)對政務App服務質量的真實評價，如果用戶側評價指標缺失將導致評估的完整性和全面性受到挑戰(zhàn)。既有研究發(fā)現(xiàn)，公眾與政府的“合供”可以很好地幫助政府提升服務質量，對于電子政務發(fā)展具有顯著推動作用。[15](p68-89)政務App發(fā)展有賴于用戶提供的反饋，用戶的積極參與對于提升其質量和績效至關重要。

實際上，大數(shù)據(jù)時代的到來，為政府更好感知公眾、與公眾互動提供了可能。美國聯(lián)邦政府實施了一項數(shù)字分析計劃（DAP），對政府提供的移動政務建立數(shù)據(jù)跟蹤，實時獲取政務App 下載量、平臺商店用戶評論等，并以此作為移動政務績效評估和服務優(yōu)化改進的支點。[16](p97-107)公眾的政務服務使用行為、使用頻率、在線評論等反映了公眾的問題、需求、態(tài)度和意愿，這些海量數(shù)據(jù)可以幫助政府發(fā)現(xiàn)公共服務中存在的問題，決定如何提供更好的公共服務，[17](p1011–1026)實現(xiàn)“以評促建”“以評促改”，發(fā)揮績效評估的積極作用。

（二）關于用戶評論數(shù)據(jù)的應用研究。

私營部門較早注意到用戶評論對商品或服務發(fā)展的重要作用，認為用戶的體驗和使用反饋是商品優(yōu)化改進的支點，用戶的吐槽和意見建議是App迭代更新的重要指南，因此私營部門會將各個渠道的用戶評論視為“富礦”。有研究對攜程酒店、豆瓣影評、美團等用戶評論數(shù)據(jù)和評論行為進行挖掘，為商家精準營銷提供決策依據(jù)。[18](p99-104)[19](p99-104)[20](p85-93)

現(xiàn)有研究還關注公共服務中用戶評論數(shù)據(jù)的應用。Herbst 等利用Yelp 中美國40 個城市消費者的評論數(shù)據(jù)，使用自然語言處理技術分析評論中的情感和心理狀態(tài)，探討群體收入、環(huán)境安全、環(huán)境質量、孩子與老師之間的互動等影響父母選擇托育機構的因素。[21](p288-306)張文亮爬取了39所省級公共圖書館在大眾點評App上的評分和用戶評論，揭示用戶評論的傾向性，分析公共圖書館評價要素之間的關系。[22](p51-60)第三方應用市場上的評論數(shù)據(jù)也開始得到重視和利用。[23](p53-61)范建軍以移動知識付費平臺“得到”為例，對用戶在App Store上的評論和評分進行分析，發(fā)現(xiàn)用戶最為關注的是內容和功能，也較為接受付費內容的價格。[24](p67-70)張莉曼等以學術知識類App“丁香園”的用戶評論為樣本，進行主題識別分析和語義關聯(lián)分析，為App運營者完善平臺功能提供借鑒。[25](p155-162)

與私營部門廣泛使用用戶評論的現(xiàn)狀相比，公共部門卻少有效仿。僅有網(wǎng)絡輿情、網(wǎng)絡問政的應用相對充分些，分析網(wǎng)民評論中的情感極性、[26](p37-42)評論主題語義網(wǎng)絡，[27](p77-90)幫助政府部門理解網(wǎng)民觀點、情感的變化，為輿情處置提供參考。令人欣慰的是，已經有研究者開始關注到政務服務中的用戶評論數(shù)據(jù)。比如，劉桂琴獲取武漢市政務公開數(shù)據(jù)網(wǎng)上的用戶評論數(shù)據(jù)，分析定位用戶痛點、用戶關注以及政府工作中存在的問題。[28](p18-23)公眾的在線評論資源豐富也很有見地，提供了關于公共服務的各方面意見建議，是傳統(tǒng)統(tǒng)計調查方法難以代表和覆蓋的，基于對在線評論數(shù)據(jù)的有效挖掘，可以聚合公眾意見，將公眾反饋有效納入公共服務的改革范疇。[29](p1011–1026)

三、理論框架

（一）對用戶評論信息來源進行再評估。

利用應用商店中各政務App的評分評論數(shù)據(jù)，可以觀測各地區(qū)移動政務服務質量。但是，各手機平臺面向用戶群不同、使用習慣有差異，加上用戶生產內容過程中傳統(tǒng)意義上的“把關人”缺失，用戶評論質量參差不齊，各手機平臺上的用戶評論是否都值得花力氣去挖掘？如果這些數(shù)據(jù)價值密度低，無法有效反映用戶意愿和需求，那就很難為政務App運維者提供有用可信的反饋信息。[30](p55-63)因此，本研究需要去衡量和評價承載用戶評論的信息來源（手機平臺）質量，最終篩選出較高質量的平臺，從而對高質量平臺上的用戶評論數(shù)據(jù)進行挖掘分析。

于文軒和馬亮建構了一個對第三方評估進行再評估的分析框架，認為可以從獨立性、相關性、效度、信度、易懂性、功能性等六個方面對第三方評估進行評估，[31](p144-171)并對中國兩個大型公共服務績效測評項目進行比較。本研究中各手機平臺形成的用戶評論可看作是對政務App的第三方評估，當前就需要對這些手機平臺進行再評估，因此本研究可借鑒其分析框架。

信度和效度是評價績效的兩個重要標準。信度指可靠性，即不同測量者使用不同測量方法測量的結果應該具有很高的一致性。如果測量的信度不高，那就說明測量的結果是不可靠的、不穩(wěn)定的，被評價對象就會接收到差別較大的“績效信號”，他們在彷徨猶豫中不知道該選擇和相信誰，測量的效用就會大打折扣，甚至會影響被評價對象對于評價主體的印象和態(tài)度。效度是評測程序、指標、方法等是否科學，能在多大程度上客觀地反映現(xiàn)實，可以通過觀測評價原數(shù)據(jù)是否公開、統(tǒng)計技術是否科學、樣本量是否充足等，獲得對效度的度量。

（二）信息來源質量評價模型。

基于信度和效度的度量標準，我們構建本研究的評價模型（如圖1）。我們認為手機平臺上政務App 的用戶群越廣泛、用戶評論越積極、樣本量越大、數(shù)據(jù)內容越豐富、用戶評論越客觀、用戶評論可持續(xù)性越好，用戶評論信息來源的質量就越高，就越適合用于移動政務服務績效的評估。

圖1 信息來源質量評價模型

滲透性。下載量是評判一個App 運維質量的關鍵指標，高下載量也是信度與效度的重要保障。消費者在消費過程中會表現(xiàn)出馬太效應，用戶受到應用程序下載量的影響，通常選擇高下載量的應用程序使用。[32](p742-749)因此，App 運營者非?？粗谹pp下載量指標，也較多采用市場推廣的手段提高下載量。本研究以省份為行政區(qū)劃的政務App，其用戶群有較強的地域性，省份與省份之間、省份與各直轄市之間的人口基數(shù)差異較大，因此不能單純考察用戶下載量這一絕對值指標，應該體現(xiàn)出不同人口基數(shù)下的下載量差異，用滲透性表征更恰當，滲透性能夠有效地測量政務App 在本地用戶群中的普及和流行程度。

活躍度。評論數(shù)量是用戶就某一產品或服務發(fā)表的評論數(shù)的總量，是用戶人數(shù)的直接體現(xiàn)，也是產品或服務信息量的間接體現(xiàn)。Duan 等對電影的在線評論研究發(fā)現(xiàn)，電影評論的數(shù)量和電影票房之間有相互影響關系。[33](p233-242)Chen 等發(fā)現(xiàn)評論數(shù)量能造成一種積極的觀察學習效應，評論數(shù)量越多，越促使更多的用戶有意愿去知曉和了解該App。[34](p238-254)評論數(shù)量顯示了用戶對該產品或服務的關注程度，可以作為其影響力的重要指標。[35](p162-171)對于政務App來說，評論數(shù)量同前述的下載量一樣，還要與地區(qū)實際相結合，考察政務App的影響力實際就是考察有多少用戶積極進行評論，即用戶的活躍度?；钴S度越高，代表用戶越積極發(fā)表評論，越能為政務App績效評測提供數(shù)據(jù)資源。

客觀性。政務App績效受地區(qū)經濟發(fā)展水平、互聯(lián)網(wǎng)普及程度、地方數(shù)字治理能力等影響，在客觀上是不均衡的，《省級政府和重點城市一體化政務服務能力（政務服務“好差評”）調查評估報告（2021）》《2021 年省級移動政務服務能力調查評估報告》均顯示當前省級政務發(fā)展績效有“好”“中等”“差”，總體呈現(xiàn)倒U 形的正態(tài)分布。Sussman 等認為，信息的客觀屬性是體現(xiàn)信息質量的重要指標。[36](p47-65)因此，我們預測不同手機平臺上的各個省級政務App評價也應該服從正態(tài)分布，意味著測量指標能夠真實有效地度量出每個樣本的績效。

極端性。對Yelp旅游類產品的研究發(fā)現(xiàn)，用戶更喜歡極端評價，極端評價能夠表達評論者觀點的鮮明方向，比中立評價更能影響后續(xù)用戶的選擇。[37](p67-83)對亞馬遜網(wǎng)站手機產品的研究發(fā)現(xiàn)，極端評價對評論有用性有積極的正向影響。[38](p16-27)我們認為，對政務App使用無感的用戶一般不參與評價，而那些對政務App使用感觸較深（糟糕或愉快）的用戶會參與評價，通過極端評價反映用戶態(tài)度，極端評價的評論中往往會深入對問題、需求和痛點的描述。因此，極端性的評論有更多的特征點可以給后續(xù)用戶或者App運營者參考，更能有效地體現(xiàn)評論的價值。

有用性。由于網(wǎng)絡的開放性，用戶發(fā)布在線評論的成本很低，導致部分虛假、無效信息充斥于在線評論，甚至部分評論數(shù)量多、噪音大，無益于其他用戶的決策和運營者服務的改善，反而增加評論的無序性，降低評論的可信性。因此，評價用戶的評論文本是否有用，是否真正表達用戶體驗，開發(fā)運營者能否從評論文本中提煉出優(yōu)化完善的建議點，這是觀測用戶評論效度的重要手段，也是測量信息來源質量的重要指標。

可持續(xù)性。應用商店在提供服務的同時，負有網(wǎng)絡生態(tài)治理的平臺主體責任，因此應用商店設置刪除評論的功能，對產生的攻擊性言論、反黨反社會言論等進行必要的清理。但是，部分應用商店將這種功能進行市場化運作，受利益等因素的驅動，將刪除用戶評分評論的權力泛化、擴大化，這就影響評分數(shù)、評論內容等數(shù)據(jù)的抓取和分析，也影響用戶對該平臺的認可度。因此，將用戶評論在平臺上的存活情況視為評論利用的可持續(xù)性，這是應用商店信度的重要保證，是測量信息來源質量的重要指標。

四、研究方法

（一）數(shù)據(jù)采集與處理。

隨著各地政府加快推進移動政務服務的集約化建設，省級移動政務客戶端日益取代市縣鄉(xiāng)和職能部門單獨開發(fā)的App，而成為地方移動政務的主入口。因此，我們對省級移動政務服務App進行研究，來考察用戶評論數(shù)據(jù)如何用于“好差評”制度實施。

數(shù)據(jù)采集面向App Store和Android平臺（華為、小米、VIVO、OPPO），獲取應用商店中31個?。ㄗ灾螀^(qū)、直轄市）和新疆生產建設兵團（不含港澳臺）開發(fā)和運營的移動政務App 中的相關數(shù)據(jù)，政務App以國家政務服務平臺中的地方移動政務和各省份政務服務官網(wǎng)提供的鏈接為準（如表1），采集App評分、用戶評分數(shù)、用戶評論數(shù)據(jù)、App下載量、App評分等級分布等數(shù)據(jù)，數(shù)據(jù)采集截至2021 年8 月7日。因樣本數(shù)據(jù)類型較多、數(shù)據(jù)更新頻率高，所以在采集期內樣本數(shù)據(jù)會略有波動，但是不影響本文的主要研究發(fā)現(xiàn)。七麥數(shù)據(jù)平臺匯聚了移動客戶端的各類用戶評論數(shù)據(jù)，為本研究提供了主要數(shù)據(jù)來源。在本研究中，我們主要關注如下數(shù)據(jù)。

表1 政務App樣本一覽表

App評分。App評分是用戶群體對該應用的綜合定量評價，可以體現(xiàn)用戶對App 的認可程度，同時也是應用商店對App 進行推廣排名的參考指標。[39](p193-200)App 評分取值1～5 之間，是連續(xù)數(shù)值型變量。

用戶評分數(shù)。用戶對政務App 的星級評定會計入用戶評分數(shù)。評分數(shù)過少，App 評分就缺乏客觀性和精準性。因此，本研究剔除少于20個用戶評分數(shù)的App評分，用戶評分數(shù)以次為計量單位。

App下載量。App下載量是用戶下載該App的實際次數(shù)，用戶每下載一次，App 下載量數(shù)據(jù)增長一個，下載量數(shù)據(jù)以萬次為計量單位。

用戶評論數(shù)據(jù)。用戶自主發(fā)表的對App 應用的評論。評論數(shù)據(jù)由中文字符、英文字符、標點符號與表情符號等組成，鑒于直接抓取的用戶評論數(shù)據(jù)噪音較大，本研究需要對用戶評論數(shù)據(jù)進行清洗，剔除廣告評論、無效評論、純表情符號、開發(fā)者回復。特別說明的是，iOS 平臺提供了開發(fā)者與用戶的互動渠道，以便開發(fā)者對用戶提出的問題和建議進行反饋，也就是“開發(fā)者回復”，這部分數(shù)據(jù)不屬于用戶產生數(shù)據(jù)，無益于本研究的分析，因此剔除開發(fā)者回復評論數(shù)據(jù)。用戶評論數(shù)據(jù)是非結構化文本數(shù)據(jù)，對評論數(shù)據(jù)的采集處理，同時可以獲得用戶評論數(shù)。

評分等級分布。應用商店通常設定1星到5星五個評定等級，用戶評分時選擇不同星級，應用商店根據(jù)各用戶評分星級生成App總體評分，通過對各應用商店的數(shù)據(jù)計量發(fā)現(xiàn)，App總體評分值=（5*5 星評分數(shù)+4*4 星評分數(shù)+3*3 星評分數(shù)+2*2 星評分數(shù)+1*1星評分數(shù)）/當前總評分數(shù)，該測量辦法既體現(xiàn)了不同星級的權重，也充分考慮星級間的差異性，評分等級分布顯示了五個評定等級各自的評分數(shù)據(jù)。需說明的是，小米應用商店設定“差評”和“好評”兩個等級，無法獲取本研究的研究特征，因此，我們未采集和分析小米應用商店。

其他數(shù)據(jù)。本研究涉及的地區(qū)人口數(shù)據(jù)來源于國家統(tǒng)計局網(wǎng)站，以各地區(qū)2020 年末常住人口（萬人/單位）為來源數(shù)據(jù)；省級電子政務發(fā)展水平數(shù)據(jù)來源于中央黨校（國家行政學院）電子政務中心發(fā)布的《省級政府和重點城市一體化政務服務能力（政務服務“好差評”）調查評估報告（2021）》中的省級政府調查評估總體指數(shù)。這些數(shù)據(jù)均為政府統(tǒng)計數(shù)據(jù)或政府委托的權威調查報告，具有較強的可靠性和穩(wěn)定性。

（二）測量指標量化。

本研究中用i代表手機平臺的編號，用j 代表樣本App 的編號，五個手機平臺各自都有對樣本App的評分，用Si,j表示每個App在一個手機平臺上的評分，下載量用Di,j表示，評分數(shù)用SDi,j表示，評論數(shù)用RDi,j表示，地區(qū)人口總數(shù)用Totalj表示。

滲透性（Penetration）。手機平臺在本地區(qū)用戶中的普及和占有情況，取值為：政務App 下載量與本地區(qū)人口總數(shù)的比值，具體數(shù)值化是Pi,j=Di,j/Totalj。滲透性越高，代表該平臺輻射和覆蓋的用戶面越大，對用戶的影響也就越大。滲透性計量單位為百分比。

活躍度（Activity）。手機平臺用戶參與政務App 評價的情況，取值為：政務App 評分數(shù)與政務App下載量的比值，具體數(shù)值化是Ai,j=SDi,j/Di,j，指的是已經下載App的用戶群中有多少用戶參與App使用的反饋評價。活躍度計量單位為萬人。

客觀性（Objectivity）。手機平臺各政務App 評分分布情況，用評分數(shù)據(jù)是否服從正態(tài)分布來表征，客觀性的考察以Shapiro-Wilk檢驗結果SWi,j為依據(jù)，SWi,j>0.05，說明評分數(shù)據(jù)服從正態(tài)分布，否則不服從正態(tài)分布。

極端性（Polarization）。政務App評分內部極端評分的占比情況。5 個評定等級中，1 星為極差，5星為極好，統(tǒng)計每個App評分中的1星、5星評分的總數(shù)為極端評分數(shù)SEi,j，看極端評分數(shù)在總體評分數(shù)中的占比情況，具體數(shù)值化Pi,j=SEi,j/SDi,j。極端性計量單位為百分比。

有用性（Usefulness）。評論文本有多種度量指標，包括評論發(fā)表時間、評論字符串長度、評論文本語義特征、評論情感特征等。Mudambi 等嘗試過用評論字數(shù)來衡量評論質量，結果發(fā)現(xiàn)，評論的篇幅越長，涉及商品的介紹便越多，消費者也會獲得更多的有用信息，正向影響評論有效性和購買決策。[40](p185-200)還有學者對評論文本長度與評論有用性的關系進行了深入研究，證明評論的文本長度與評論有用性呈顯著的正相關關系。[41](p598-612)Huang等學者發(fā)現(xiàn)，文本長度對評論有用性的影響有一個臨界值（144 詞），閾值內為正向影響，超過這一閾值，其影響就會顯著減弱或幾乎不存在。[42](p17-27)本研究對每個手機平臺上的政務App 評論文本進行文本長度的計量，并取均值為Li,j，當Li,j<144 時，Li,j越大說明評論文本的有用性越強。有用性以詞為計量單位。

可持續(xù)性（Sustainability）。用戶評分數(shù)不同于評論數(shù)，是因為用戶在評分時可以選擇既評分也評論，也可選擇只評分不評論，所以App 的評分數(shù)通常意義上要大于或者等于評論數(shù)。如果出現(xiàn)評分數(shù)小于評論數(shù)的情況，通常就是應用商店刪除用戶評分導致的。因此本研究用評分數(shù)與評論數(shù)的差值就能顯示是否存在刪除評分的情況，用差值在評分數(shù)中的占比就能顯示刪除評分的程度，也就是用戶評分評論的存活程度，具體數(shù)值化是SSi,j=(SDi,j-RDi,j)/SDi,j?？沙掷m(xù)性以百分比為計量單位。

五、研究發(fā)現(xiàn)

（一）政務App評分的可用性分析。

各手機平臺對政務App 的評價情況與官方的評估報告之間是怎樣的關系，這是能否將政務App評分納入政務服務“好差評”的重要因素。要兼顧各個手機平臺的評分貢獻，得到每個樣本App的總評分Scorej，本研究認為下載量是用戶需求和認可的表現(xiàn)，在計算總評分時需要充分考慮下載量所占的比重，并將其作為評分值的系數(shù)。下載量Di,j與地區(qū)總人口數(shù)Totalj比值為加權系數(shù)Wi,j，樣本App在應用商店中的總體評分就可以通過以下公式獲得：Scorej=

《省級政府和重點城市一體化政務服務能力（政務服務“好差評”）調查評估報告2021》中關于省級政府調查評估的總體指數(shù)是連續(xù)數(shù)值型變量，將樣本評分Scorej與省級政府調查評估的總體指數(shù)進行相關性分析，發(fā)現(xiàn)兩者在1%水平上顯著，相關系數(shù)為0.708，表現(xiàn)為強相關。也就是說公眾對政務App 的總體評價與權威調查報告的趨勢基本一致。因此，公眾的評價可以用于衡量政務App發(fā)展的績效，對移動政務“好差評”評價有可用性。

（二）信息來源質量的評價分析。

依據(jù)前述的信息來源質量評價模型，我們對樣本數(shù)據(jù)進行六個方面的分析。

1.滲透率分析。

樣本缺失iOS 版本、Android 版本、小米數(shù)據(jù)、VIVO數(shù)據(jù)等，會帶來樣本個數(shù)的變化，因此樣本的個案數(shù)量不一致。描述性統(tǒng)計分析（如表2）顯示，華為平臺滲透率均值58.75%，是所有手機平臺中最高的；iOS 平臺滲透率均值5.79%，是所有手機平臺中最低的。

表2 主要變量的描述性統(tǒng)計分析

數(shù)據(jù)顯示有多個地區(qū)的滲透率大于100%，這可能有幾個方面原因：一是用戶存在反復下載的情況。有調查顯示，用戶人均安裝App 數(shù)量約40 個。政務App具有低頻特點，公眾需要辦理政務事項的時候下載并使用，使用完畢后為了減輕手機運行負擔又進行卸載，直到下一次有需求時再次下載安裝。所以，這會造成同一個用戶多次下載，而高下載量也從側面反映了公眾的需求以及政務服務能夠滿足公眾需求的能力。二是地區(qū)外用戶因為跨省辦理、跨地區(qū)辦理等原因，也需要安裝本行政區(qū)域外的政務App。本研究中的滲透率將本行政區(qū)域內的常住人口界定為測量基數(shù)，但是隨著人口的頻繁流動，跨地區(qū)跨區(qū)域辦理需求旺盛，政務App的便捷性可以滿足這種需求?？绲貐^(qū)用戶也會帶來一定的下載量，說明本地區(qū)有比較高的移動政務服務能力。三是開發(fā)運營者組織的測試、研究者的測試等也會帶來一定下載量，導致滲透率的提高。

2.活躍度分析。

前述已說明，當評分數(shù)SDi,j<20 時，評分數(shù)、評分值兩項都將設置為缺失項。實際情況是有多個地區(qū)如黑龍江、陜西、青海等地的評分數(shù)都是個位數(shù)，所以描述性統(tǒng)計里的個案數(shù)較低。從各平臺的活躍度來看（如表2），iOS 平臺的活躍度均值為16.19，也即每萬次下載量中有16.19個評分數(shù)，明顯高于其他四個平臺，說明其用戶較愿意表達自己的態(tài)度和觀點。華為平臺的活躍度最低，均值為0.09，且標準差較小，也即各政務App在華為平臺的用戶參與度和活躍度不足。相較于其他三個平臺，VIVO 平臺的活躍度有一定優(yōu)勢，體現(xiàn)出其用戶比較愿意參與政務App的評分評價。

需要說明的是，我們發(fā)現(xiàn)華為應用商店存在明顯的刪除評論現(xiàn)象，每日的評分數(shù)據(jù)波動較大。對被刪除的評論進行數(shù)據(jù)抓取發(fā)現(xiàn)，歷史評論數(shù)并不低，說明華為平臺的用戶參與也很積極活躍。至于應用商店刪除評論的原因，則有待未來探查。

3.客觀性分析。

因樣本量小于2000，采用Shapiro-Wilk 檢驗數(shù)據(jù)分布的正態(tài)性。結果顯示（如表2），iOS 平臺（p=0.156）、華為平臺（p=0.110）、小米平臺（p=0.168）評分均服從正態(tài)分布，而VIVO 平臺和OPPO 平臺評分不服從正態(tài)分布。從各平臺的均值上看，iOS 平臺、華為平臺、VIVO平臺均值相當。

對五組數(shù)據(jù)進行方差分析發(fā)現(xiàn)，僅有小米平臺與OPPO平臺（p=0.011）在5%的水平上存在顯著差異。從描述性分析中可以看到，小米平臺的評分均值為3.35 分，顯著高于其他平臺。OPPO 平臺均值則顯著低于其他平臺。其他平臺間不存在顯著組間差異。

此外，研究發(fā)現(xiàn)“隨申辦”“愛山東”“粵商通”在小米平臺上收獲了滿分5.0 分的贊譽，但同時三個省份的政務App 在其他平臺的評分趨勢卻不甚相同。尤其是“愛山東”在其他四個平臺的評分分別為2.7分、1.9分、2.9分和2.7分，其標準差達1.16，與小米平臺的評分顯著不同。因此，本研究希望探求小米平臺為什么給予滿分的評價，是否存在其他因素。

對三個政務App 小米平臺上的評論文本做內容分析，將評論文本清洗后輸入ROST CM6，通過社會網(wǎng)絡分析提取高頻詞，通過情感分析生成情感極性和得分（如表3）。結果發(fā)現(xiàn)，三個政務App 評價內容均跨越了多個版本，“隨申辦”的372個評論數(shù)就跨越了24個版本，評論數(shù)相對均衡；但“愛山東”僅2.3.7 版本就有1986 條評論，而且時間段相對集中，出現(xiàn)一定程度的失衡。三個政務App情感得分均為正面積極，高頻詞多聚焦于“實用”“體驗”“功能”等，缺乏對每個政務App特征點的具體描述，評論的豐富性和有用性略顯不足。

表3 小米平臺滿分政務App內容分析

4.極端性分析。

五個平臺均存在極端評分情況（如表2），極端占比均高于80%，并且標準差較小，說明各個政務App 在極端評分上的表現(xiàn)趨同；VIVO 平臺和OPPO平臺的極端評分占比為92%和93%，說明用戶在給政務App打分時很少選擇中立評分，一般選擇極端評分來表達自己的態(tài)度。其中，“全省事”在華為、VIVO、OPPO 平臺上的評分量不太充足，卻全部都給予“極好”和“極差”評分，未見中立評分。用戶都希望通過極端評分來表達態(tài)度，希望引起App開發(fā)運營者的關注和反饋。

5.有用性分析。

五個平臺的有用性存在顯著區(qū)別（如表2），iOS平臺文本長度均值為35.28詞，高于其他四個平臺，最大的文本長度為92.34 詞低于閾值144 詞。閾值范圍內文本長度越長，文本的有用性就越高，說明iOS平臺評論的有用性最好。華為平臺文本長度適中，標準差較小，說明文本長度分布比較均衡。VI?VO平臺的評論文本長度最短，僅有15個左右的詞，很難表達有特征性的觀點和看法，說明其評論的有用性較差。

6.可持續(xù)性分析。

五個平臺的可持續(xù)性存在顯著差異（如表2），iOS 平臺可持續(xù)性最好，僅有一個為負值，其余全為正值，均值為0.51，說明評分數(shù)與評論數(shù)之間的差距較小，較少存在刪除評分情況，標準差為0.3，說明整體比較均勻，iOS 應用商店中用戶的評分和評論數(shù)據(jù)存活性好，可持續(xù)利用狀態(tài)好。華為平臺的可持續(xù)性最差，僅有一個樣本是評分數(shù)與評論數(shù)持平，其他均是評分數(shù)少于評論數(shù)，最高的達到-40.81。查看原始數(shù)據(jù)發(fā)現(xiàn)，該政務App 當前僅有26個評分數(shù)，但歷史數(shù)據(jù)中有1087個評論數(shù)，均值也為負值，這說明華為平臺存在普遍的刪除評分情況，用戶評分評論被大量刪除會帶來數(shù)據(jù)的不穩(wěn)定，也帶來信息來源的不可靠。此外，小米平臺、OPPO平臺也存在不同程度的刪除評分情況，而VI?VO 平臺的情況則要好一些，均值為正值且標準差較小。查看原始數(shù)據(jù)發(fā)現(xiàn)，VIVO 平臺僅有一個政務App的存活占比為負值，其他均為正值。

綜上所述（如表4），我們認為在這5 個主流平臺中，“好差評”制度應主要使用iOS 平臺的評分和評論數(shù)據(jù)，可以參考運用部分Android 平臺的評論數(shù)據(jù)。

六、結論與討論

（一）結果討論。

手機應用商店中積累了大量的用戶評分評論數(shù)據(jù)，用戶評論大量指向了政務App 運維問題，是移動政務服務供給能力、技術服務能力的重要表現(xiàn)，可以進行數(shù)據(jù)挖掘分析，用于完善移動政務績效評估體系。但是，目前這方面的研究還比較稀缺。本研究以5 個主流手機平臺上的32 個省級政務App為研究對象，收集和分析不同平臺用戶的評分評論情況。

首先，研究發(fā)現(xiàn)用戶評論是衡量政務App服務質量的有益補充。研究發(fā)現(xiàn)，只有對政務App使用有比較深刻感悟的用戶才參與政務App評價，通過打分來表達自己使用的（不）滿意；更進一步，公眾是在自主空間內根據(jù)自己的切身感受給出的分值，沒有外界因素的干擾，打分更具真實性和客觀性。用戶評論也不是簡單的褒獎或發(fā)泄，特別是一些看似負面的評論信息，實際是將用戶的需求和痛點展現(xiàn)出來。

有研究發(fā)現(xiàn)，用戶評論強烈的負面消極情緒會降低評論的有效性，而中等程度的負面消極情緒則可以提高評論的有用性。[43](p79-86)部分負面情緒的評論文本包含使用體驗、功能需求、錯誤反饋和優(yōu)化建議等信息，而部分語氣溫和的評論則缺少具體的評價特征點，具體的問題和優(yōu)勢指向都不明確。也就是說，適度表達情感極性的用戶評論更有助于運營者發(fā)現(xiàn)問題。政務服務的開發(fā)運營者應該包容這種情緒的存在，積極挖掘和吸納用戶建設性的意見建議。

其次，研究發(fā)現(xiàn)用戶評論的信息來源質量表現(xiàn)出一定差異（如表4）。本文構建了政務App用戶評論信息來源質量評價模型，在滲透性、活躍度、客觀性、極端性、有用性和可持續(xù)性六個維度進行了數(shù)據(jù)比較分析。結果顯示，iOS 平臺的活躍性表現(xiàn)極好，在客觀性、極端性、有用性、可持續(xù)性上表現(xiàn)最好，但是其滲透性還比較低，用戶群的覆蓋面還不足。這表明iOS 平臺上的評分評論數(shù)據(jù)有用、管用且易用，但是iOS平臺的用戶群代表性略顯不足。

表4 各平臺在政務App評論可靠性維度的表現(xiàn)

華為平臺在滲透性、客觀性、極端性上表現(xiàn)較好，在有用性上表現(xiàn)適中，但是華為平臺的活躍性與可持續(xù)性不足（與應用商店刪除評分評論有關）。這表明其評分評論數(shù)據(jù)客觀、有用，需要達到一定規(guī)模才能發(fā)揮作用。但是，其對評分評論的管控機制又限制了其長效發(fā)展。

小米平臺的總體評分偏高，因其只有“好評”和“差評”的打分機制使得其客觀性減弱，也使得最低分和最高分并存?？傮w來看，小米平臺在滲透性、可持續(xù)性方面表現(xiàn)還不足，活躍性、客觀性、有用性表現(xiàn)中規(guī)中矩。

VIVO和OPPO平臺在極端性方面表現(xiàn)突出，表明用戶群希望通過極端表達引發(fā)關注。但是，二者在滲透性、活躍性、客觀性、有用性等方面表現(xiàn)較差，說明評分和評論數(shù)據(jù)很難說明真實問題。最后，VIVO平臺相較于OPPO平臺在可持續(xù)性方面表現(xiàn)較好。

我們認為，不同手機平臺的表現(xiàn)可能與用戶群有關。Bertrand 的研究發(fā)現(xiàn)，iPhone 是最常見的財富象征，“擁有一部iPhone”給了研究者68.1%的概率可以正確地推斷其擁有者屬于“高收入”群體。[44]然而，國內第三方數(shù)據(jù)服務平臺Mob Data 發(fā)布的《2018 年第三季度中國智能手機市場調研報告》顯示，一部分iPhone用戶的月收入低于3000元；華為手機的用戶群收入較高，以中老年用戶為主；小米手機用戶群主要是中產階層和年輕群體，OP?PO和VIVO的用戶畫像偏重更為年輕群體。[45]

iPhone 群體受到手機開放生態(tài)和應用習慣的影響，更愿意發(fā)表自己的觀點。但是，受價格、經濟貿易等多重因素的影響，iPhone 在用戶普及率和滲透性方面很難有大的提升；華為手機用戶由于年齡、工作以及應用習慣等影響，較多默默接受和使用，而不善于去發(fā)表自己的意見建議。小米、VI?VO、OPPO 等年輕群體相對活躍，但是表達的客觀性和有用性還有待提高。因此，從政務App服務質量評價的角度來看，iOS 平臺的評分數(shù)據(jù)更具客觀性，可以考慮引入，或者引入政務App 總評分作為評價服務情況的一個側面；從用戶評論挖掘的角度來看，在對政務APP 進行評價時應重點挖掘iOS 平臺和華為平臺的用戶評論，同時兼顧考察其他平臺上的用戶反饋。

最后，研究發(fā)現(xiàn)政務App可得性問題是影響用戶評論的重要因素。用戶要使用App，首先要順暢便捷地登錄到App中，但是研究發(fā)現(xiàn)大量用戶評論指向了登錄問題，特別是在1 星評論中“注冊”“認證”“登錄”等成為高頻詞，而評論原內容顯示“注冊不上”“認證通不過”“人臉識別沒用”等是反饋較多的問題。

政務App可得性是首先應該得到保證，也是較容易得到保證的。但是，總體來說省級政務App可得性做得還不夠，這可能涉及運營者的測試范圍、測試機型、測試網(wǎng)絡等局限。規(guī)模以上的用戶群提供了天然的測試環(huán)境，用戶在政務App評論中提出的這些訴求是App改進和完善的方向。但是，部分App 并沒有很好吸納用戶反饋，即使經過了長時間的迭代更新，問題依然沒有徹底解決。

從組織角度出發(fā)，政務App可得性還有一個推廣問題，而這是公共部門不太擅長的事情。1 星評論中大量出現(xiàn)“推廣”“強制”等高頻詞，說明App管理運營與公眾間存在認知偏差，強制使用的做法拉開了公眾與政府間的距離。公眾認為好的政務App 不需要推廣，這也賦予了政務App“不好用”的刻板印象。但是，App 運營者重視用戶評論就容易得到用戶的肯定?！霸粕腺F州多彩寶”對iOS 平臺上的負面評論（1 星）進行了“開發(fā)者回復”，開發(fā)者回復會發(fā)送到用戶的郵箱。這種一對一的跟蹤回復，是把用戶的感受和評價擺在至關重要的位置，也必然提升用戶對于政務App的好感和滿意度。

（二）研究不足和未來方向。

本文還存在一些不足，未來研究需要予以深化和發(fā)展。首先，我們構建了用戶評論信息來源質量的評價維度，這些維度僅是從能夠抓取到的用戶評分、評價、下載量角度，是否就能夠全面刻畫App用戶評論的質量，能否用于App 服務績效的評價，甚至輔助“好差評”制度的實踐，還需要深入研究和探討。其次，我們對采集到的政務App評價數(shù)據(jù)進行了初步的描述性統(tǒng)計，但是還缺乏深度利用。比如，利用一段時間的用戶評論數(shù)據(jù)去探求用戶評論與軟件版本升級之間有沒有關系，或者對用戶評論數(shù)據(jù)進行挖掘，分析滿意和不滿意背后的因素，發(fā)現(xiàn)究竟哪些因素真正能提升政務App 績效，等等。最后，我們構建了政務App 總評分的計算方法，目前是將用戶滲透率作為系數(shù)，與政務App評分加權而得。本研究發(fā)現(xiàn)，五個平臺的可靠性是有區(qū)別的，僅僅用滲透率作為加權系數(shù)是否科學，是不是可以考慮適當提高iOS 和華為平臺的權重，適當降低其他平臺的權重，這些問題都需要在未來進一步探索。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

如何評價移動政務服務質量？——基于省級政務客戶端用戶評論的探索性研究

一、引言

二、文獻回顧

（一）關于政務App績效測評的研究。

（二）關于用戶評論數(shù)據(jù)的應用研究。

三、理論框架

（一）對用戶評論信息來源進行再評估。

（二）信息來源質量評價模型。

四、研究方法

（一）數(shù)據(jù)采集與處理。

（二）測量指標量化。

五、研究發(fā)現(xiàn)

（一）政務App評分的可用性分析。