徐思紅 張力丹 田晶晶 齊月 孫寧
摘 要:消費(fèi)品召回已成為產(chǎn)品質(zhì)量安全后市場監(jiān)管最重要的措施之一。消費(fèi)品缺陷線索是發(fā)現(xiàn)潛在缺陷的數(shù)據(jù)源,準(zhǔn)確、及時、有效地收集與分析消費(fèi)品缺陷線索是快速掌握消費(fèi)品缺陷并實(shí)施召回的基礎(chǔ)。如何基于消費(fèi)品缺陷線索快速定位產(chǎn)品潛在缺陷是召回管理的關(guān)鍵,消費(fèi)品具有產(chǎn)品類型多、故障模式雜的特點(diǎn),獲取缺陷線索到缺陷線索可深入分析而后初步判定潛在缺陷之間存在一定的差距,本文主要從消費(fèi)品缺陷線索采集監(jiān)測、標(biāo)簽字典、數(shù)據(jù)篩選、數(shù)據(jù)清洗等環(huán)節(jié)提出數(shù)據(jù)預(yù)處理的要求,為消費(fèi)品缺陷線索分析提供參考。
關(guān)鍵詞:消費(fèi)品,缺陷線索,數(shù)據(jù)預(yù)處理
DOI編碼:10.3969/j.issn.1674-5698.2023.01.018
1 引 言
隨著社會經(jīng)濟(jì)和科學(xué)技術(shù)的快速發(fā)展,消費(fèi)品的種類以及功能越來越豐富,但是也帶來了一系列安全隱患。近年來,消費(fèi)品的安全性問題引發(fā)社會公眾的普遍關(guān)注。如何通過產(chǎn)品質(zhì)量安全監(jiān)管,減少產(chǎn)品安全傷害、保護(hù)消費(fèi)者人身和財產(chǎn)安全,是市場監(jiān)管的工作方向。缺陷產(chǎn)品召回是產(chǎn)品質(zhì)量安全監(jiān)管的國際通行做法,是后市場監(jiān)管的重要手段[1]。我國消費(fèi)品召回工作從2004年開始,隨著2015年發(fā)布的《缺陷消費(fèi)品召回管理辦法》、2020年發(fā)布的《消費(fèi)品召回管理暫行規(guī)定》的相繼實(shí)施以及相關(guān)配套文件的出臺,我國消費(fèi)品召回管理工作的法律依據(jù)日趨完善。
根據(jù)《2021年全國消協(xié)組織受理投訴情況分析》,2021年全國消協(xié)組織共受理消費(fèi)者投訴約104.5萬件,相較2020年增長6.37%,其中消費(fèi)者關(guān)心的質(zhì)量問題與使用安全問題占22.9%。消費(fèi)者對于消費(fèi)品質(zhì)量安全的要求越來越高,保護(hù)自身權(quán)益的意識越來越強(qiáng)。根據(jù)《市場監(jiān)管總局關(guān)于2021年全國汽車和消費(fèi)品召回情況的通告》,2021年受市場監(jiān)管部門調(diào)查影響的消費(fèi)品召回占全年召回總量的90.5%,而消費(fèi)者投訴以及其他形式的缺陷線索是引發(fā)缺陷調(diào)查導(dǎo)致召回最重要的信息源,隨著召回制度的逐步完善,我國消費(fèi)品召回監(jiān)管已初步形成全國聯(lián)動工作格局,通過數(shù)據(jù)交換共享與業(yè)務(wù)協(xié)同,為消費(fèi)品缺陷調(diào)查和召回工作提供了有效支撐。通過多種方式增強(qiáng)消費(fèi)品多源缺陷線索信息的采集力度,信息量呈現(xiàn)爆發(fā)性的增長,與此同時,由于消費(fèi)品具有種類多、故障模式復(fù)雜等特性,導(dǎo)致多源缺陷線索中產(chǎn)品信息不統(tǒng)一、故障描述不準(zhǔn)確、缺陷線索信息重復(fù)等系列問題。為快速從消費(fèi)品多源缺陷線索信息中提取有價值、有效的線索信息,采取高效技術(shù)措施做好數(shù)據(jù)預(yù)處理工作顯得尤為重要。在缺陷線索數(shù)據(jù)挖掘與發(fā)現(xiàn)有潛在缺陷的過程中,消費(fèi)品多源缺陷線索信息的數(shù)據(jù)預(yù)處理是核心環(huán)節(jié)之一。在數(shù)據(jù)預(yù)處理過程中,主要解決的數(shù)據(jù)問題包括:(1)重復(fù)性;(2)不完整性;(3)噪音;(4)不一致性;(5)不精簡性。
2 消費(fèi)品缺陷線索采集內(nèi)容
消費(fèi)品缺陷線索根據(jù)來源不同主要包括:消費(fèi)者投訴、產(chǎn)品安全網(wǎng)絡(luò)輿情、境外召回信息、電商平臺評價信息、國內(nèi)召回信息、其他信息等。根據(jù)消費(fèi)品缺陷線索的用途,提出了不同類型缺陷線索采集內(nèi)容(如圖1所示)。
(1)消費(fèi)者投訴信息:產(chǎn)品類別、生產(chǎn)者名稱、產(chǎn)品名稱、產(chǎn)品品牌、產(chǎn)品型號、產(chǎn)品產(chǎn)地、購買日期、產(chǎn)品應(yīng)用場景、故障描述、是否造成傷害、聯(lián)系人及聯(lián)系方式等。
(2)產(chǎn)品安全網(wǎng)絡(luò)輿情:產(chǎn)品類別、標(biāo)題、描述、鏈接地址、相似新聞條數(shù)、發(fā)布時間等。
(3)境外召回信息:通報日期、通報國家、產(chǎn)品名稱、產(chǎn)品類別、缺陷原因(危險描述)、措施、鏈接地址等。
(4)電商平臺評價信息:評價時間、電商平臺、評價內(nèi)容、鏈接地址等。
(5)國內(nèi)召回信息:產(chǎn)品類別、產(chǎn)品名稱、品牌、缺陷描述、召回措施、受理單位等。
(6)產(chǎn)品檢驗(yàn)檢測信息:產(chǎn)品類別、品牌、產(chǎn)品名稱、主要不合格項(xiàng)目、檢測單位、檢測批次等。
(7)其他信息:產(chǎn)品類別、品牌、產(chǎn)品名稱、問題描述等。
3 消費(fèi)品故障標(biāo)簽字典構(gòu)建
產(chǎn)品故障現(xiàn)象作為消費(fèi)品綜合分析判定產(chǎn)品安全風(fēng)險缺陷線索案例的基礎(chǔ)信息,決定著是否存在安全性問題。多源信息中對于產(chǎn)品故障的描述文字量長短不一、表述隨意多樣化、故障問題多,針對這些復(fù)雜的內(nèi)容,只有通過數(shù)據(jù)歸納,減少數(shù)據(jù)分析的信息量才能在分析挖掘的過程中提高效率。以已有的信息為基礎(chǔ),首先對產(chǎn)品故障現(xiàn)象進(jìn)行歸類,整理出每一類故障描述問題涉及的關(guān)鍵詞,然后根據(jù)實(shí)際需求,分為兩級,而后再根據(jù)描述提煉提取出同義詞,進(jìn)行同義詞擴(kuò)展,基于多個特征維度對近義詞表進(jìn)行過濾,形成同義描述集合,豐富故障描述特征,形成產(chǎn)品故障現(xiàn)象標(biāo)簽字典[2](見表1)。
4 消費(fèi)品缺陷線索預(yù)處理
由于消費(fèi)品缺陷線索信息的數(shù)據(jù)種類和數(shù)據(jù)結(jié)構(gòu)模式多元化,關(guān)聯(lián)性較為復(fù)雜,在數(shù)據(jù)分析和信息挖掘環(huán)節(jié)中存在較大難度。在消費(fèi)品缺陷線索信息收集和選擇的初期環(huán)節(jié),通過對數(shù)據(jù)的重復(fù)、缺失、噪音等問題進(jìn)行預(yù)處理,然后將數(shù)據(jù)中與分析發(fā)掘相關(guān)性較高的數(shù)據(jù)通過數(shù)據(jù)清洗的方法再進(jìn)行預(yù)處理,以獲得可靠性較高的有效數(shù)據(jù)。相關(guān)實(shí)踐證明,數(shù)據(jù)預(yù)處理在數(shù)據(jù)分析和挖掘過程中所占時間達(dá)70%以上,數(shù)據(jù)預(yù)處理的好壞對整個數(shù)據(jù)分析和挖掘結(jié)果有著至關(guān)重要的影響[3]。在消費(fèi)品缺陷線索信息分析前的數(shù)據(jù)預(yù)處理主要包含以下幾方面。
4.1 缺陷線索數(shù)據(jù)篩選
面對消費(fèi)品多源缺陷線索信息,無論是通過系統(tǒng)被動采集消費(fèi)者投訴信息、人工記錄信函或舉報,還是主動通過網(wǎng)絡(luò)、電商平臺主動采集產(chǎn)品安全網(wǎng)絡(luò)輿情信息、境外召回信息、電商評價信息、檢驗(yàn)檢測信息,都要確保信息數(shù)據(jù)的有效性和唯一性,如果在信息數(shù)據(jù)的初始收集過程中就確保數(shù)據(jù)的有效性和唯一性,那么相比于先采集后篩選數(shù)據(jù)更為便捷和高效、準(zhǔn)確。在數(shù)據(jù)選擇的初始階段確保有效性和唯一性,包括以下幾項(xiàng)。
(1)有效性。產(chǎn)品信息的品牌、產(chǎn)品分類、類別信息完整,故障描述信息真實(shí)描述產(chǎn)品使用中出現(xiàn)的故障,排除消費(fèi)糾紛、服務(wù)質(zhì)量以及懷疑揣測等問題。如果有聯(lián)系人信息,聯(lián)系人手機(jī)號碼有效。
(2)唯一性。同一來源的信息避免重復(fù)。
(3)字體和詞性轉(zhuǎn)化。多源信息同一數(shù)據(jù)字段的信息字體和詞性保持一致。
對于不符合上述有效性要求的信息數(shù)據(jù)不進(jìn)行采集或是不進(jìn)行選擇和選取。消費(fèi)者投訴信息通過采集信息頁面的必填項(xiàng)、手機(jī)號碼驗(yàn)證的設(shè)置,確保信息有效性,重復(fù)性需要系統(tǒng)后臺管理人員通過產(chǎn)品、手機(jī)號碼和故障描述判定;產(chǎn)品安全網(wǎng)絡(luò)輿情信息根據(jù)采集內(nèi)容數(shù)據(jù)項(xiàng)采集信息,確保信息有效性,網(wǎng)絡(luò)輿情信息本身具有隨意性和開放性特性,所以真實(shí)性待定,故這類信息也是綜合判定安全風(fēng)險缺陷線索案例的輔助信息,應(yīng)用網(wǎng)絡(luò)信息爬取工具排除重復(fù)信息;境外召回信息主要是監(jiān)測翻譯國外消費(fèi)品召回主管機(jī)構(gòu)網(wǎng)絡(luò)發(fā)布的召回信息,信息來源本身具有有效性和唯一性;電商評價信息根據(jù)采集內(nèi)容數(shù)據(jù)項(xiàng)采集信息,確保信息有效性,評價信息是消費(fèi)者購買和應(yīng)用產(chǎn)品后真實(shí)反饋的內(nèi)容,具有信息真實(shí)性的屬性,應(yīng)用爬取工具排除同一電商平臺的重復(fù)信息;國內(nèi)召回信息和檢驗(yàn)檢測信息是國家政府機(jī)關(guān)發(fā)布的信息,信息來源本身具有有效性和唯一性;其他來源信息根據(jù)采集內(nèi)容數(shù)據(jù)項(xiàng)采集信息,確保信息有效性和唯一性,通過與已有數(shù)據(jù)的產(chǎn)品信息、手機(jī)號碼和故障描述來判定是否重復(fù),重復(fù)數(shù)據(jù)在已有數(shù)據(jù)的基礎(chǔ)上進(jìn)行特殊標(biāo)注。
4.2 數(shù)據(jù)清洗
美國社會保險號錯誤糾正是數(shù)據(jù)清洗技術(shù)的最早起源,隨著信息業(yè)和商業(yè)的高速發(fā)展,數(shù)據(jù)清洗也進(jìn)一步發(fā)展,并根據(jù)各行各業(yè)的不同需求,有著不同的數(shù)據(jù)清洗方法,消費(fèi)品缺陷線索信息的數(shù)據(jù)預(yù)處理,根據(jù)現(xiàn)有需求以及經(jīng)驗(yàn)的積累,其中的數(shù)據(jù)清洗主要包括忽略部分?jǐn)?shù)據(jù)項(xiàng)、基礎(chǔ)數(shù)據(jù)核實(shí)、故障標(biāo)簽標(biāo)注、智能與人工結(jié)合,各自解決不同的問題以達(dá)到缺陷線索信息的預(yù)處理數(shù)據(jù)優(yōu)化效果。
4.2.1 忽略部分?jǐn)?shù)據(jù)項(xiàng)
消費(fèi)品多源缺陷線索信息各自具有其特殊屬性和信息內(nèi)容,而這些信息內(nèi)容在綜合判定安全風(fēng)險的缺陷線索案例過程中不是分析的內(nèi)容,影響分析判定結(jié)果的準(zhǔn)確性,在信息預(yù)處理過程中,不影響消費(fèi)品多源缺陷線索信息各自數(shù)據(jù)的基礎(chǔ)上,采取忽略元組的方式將這些信息數(shù)據(jù)進(jìn)行暫時忽略,忽略多源信息內(nèi)容的數(shù)據(jù)項(xiàng)實(shí)例見表2。
4.2.2 基礎(chǔ)數(shù)據(jù)核實(shí)
產(chǎn)品品牌、產(chǎn)品分類、產(chǎn)品類別作為關(guān)聯(lián)消費(fèi)品多源缺陷線索信息的產(chǎn)品基礎(chǔ)數(shù)據(jù)信息,統(tǒng)一性、標(biāo)準(zhǔn)化對于后續(xù)信息數(shù)據(jù)的分析挖掘尤為重要,消費(fèi)品品牌繁多、種類復(fù)雜、產(chǎn)品多樣、,明確這些信息才能確定是哪個產(chǎn)品。消費(fèi)品品牌信息的研究發(fā)現(xiàn),目前沒有相關(guān)標(biāo)準(zhǔn)可借鑒,通過對已有信息數(shù)據(jù)的分析概括、同時借鑒電商平臺中經(jīng)銷商對于產(chǎn)品的描述、網(wǎng)絡(luò)輿情中消費(fèi)者對于產(chǎn)品的描述,最終再通過平衡學(xué)習(xí)總結(jié)的方法,形成品牌字典。產(chǎn)品分類和產(chǎn)品類別字典可直接應(yīng)用標(biāo)準(zhǔn)GB/T 36431-2018《消費(fèi)品分類與代碼》,同時借鑒電商平臺中經(jīng)銷商對于產(chǎn)品的描述,進(jìn)行數(shù)據(jù)的統(tǒng)一和規(guī)范(見表3)。
4.2.3 故障標(biāo)簽標(biāo)注
根據(jù)已形成的產(chǎn)品故障現(xiàn)象字典,對采集和選擇的消費(fèi)品多源缺陷線索信息:消費(fèi)品的消費(fèi)者投訴信息、產(chǎn)品安全網(wǎng)絡(luò)輿情、境外召回信息、電商評價信息、國內(nèi)召回信息、檢驗(yàn)檢測信息、其他的信息中的故障描述、描述、缺陷原因(危險描述)、評價內(nèi)容、缺陷描述、主要不合格項(xiàng)目、問題描述的內(nèi)容分別進(jìn)行故障標(biāo)簽標(biāo)注,最終將不規(guī)范的故障現(xiàn)象描述數(shù)據(jù)進(jìn)行規(guī)范(見表4)。
在產(chǎn)品安全網(wǎng)絡(luò)輿情信息和電商評價信息的爬取和選擇時,將爬取信息的關(guān)鍵詞匯設(shè)置為需要的品牌、產(chǎn)品分類和產(chǎn)品類別、產(chǎn)品故障現(xiàn)象字典的組合或是產(chǎn)品分類和產(chǎn)品類別、產(chǎn)品故障現(xiàn)象字典的組合,最大限度和精準(zhǔn)地采集與消費(fèi)品安全相關(guān)的信息線索。
4.2.4 人工智能修正
在信息數(shù)據(jù)采集和選擇過程中,不可避免地會產(chǎn)生不規(guī)范、錯誤、重復(fù)等問題,采用計(jì)算機(jī)和人工判斷結(jié)合的方式制定方案,完善或剔除問題信息,最終保留有效信息。消費(fèi)品的多樣性和故障現(xiàn)象的復(fù)雜性,在構(gòu)建品牌字典數(shù)據(jù)和故障現(xiàn)象標(biāo)簽字典數(shù)據(jù)時,必定會存在字典數(shù)據(jù)不完整的問題,結(jié)合消費(fèi)品各類產(chǎn)品的相關(guān)標(biāo)準(zhǔn)以及行業(yè)經(jīng)驗(yàn),通過計(jì)算機(jī)和人工專業(yè)知識不斷完善字典數(shù)據(jù),更好地為精準(zhǔn)產(chǎn)品、簡化故障描述奠定基礎(chǔ)。
5 多源缺陷線索信息數(shù)據(jù)預(yù)處理實(shí)例
某A品牌耳機(jī)過敏的多源缺陷線索信息的數(shù)據(jù)預(yù)處理實(shí)例見表5~表7。
6 結(jié) 語
隨著消費(fèi)品多源缺陷線索信息數(shù)量的不斷增加,相信數(shù)據(jù)預(yù)處理一定會越來越重要,為數(shù)據(jù)分析挖掘提供更加干凈、高質(zhì)量的信息源。消費(fèi)品多源缺陷線索信息預(yù)處理方式完善建議:與專業(yè)知識應(yīng)用融合,且貫穿預(yù)處理各環(huán)節(jié);嚴(yán)控預(yù)處理各環(huán)節(jié)質(zhì)量,保證高效[4];應(yīng)用計(jì)算機(jī)智能學(xué)習(xí)和語義識別技術(shù),解放人工,提高效率和準(zhǔn)確性。
參考文獻(xiàn)
林建軍. 淺談我國消費(fèi)品召回的特點(diǎn)及其重要意義[J]. 質(zhì)量與市場, 2020, (20) :46-48.
姜肇財, 宋黎, 王雯.基于電商評論信息的產(chǎn)品故障標(biāo)簽體系構(gòu)建研究[J]. 標(biāo)準(zhǔn)科學(xué), 2021, (12) :128-131.
胡遠(yuǎn)樟,程小恩,何黎, 等. 一種基于糖尿病的中醫(yī)數(shù)據(jù)挖掘預(yù)處理方法[J]. CJCM 中醫(yī)臨床研究, 2021, (30) :75-77.
田桂豐, 諶頏, 尹幫治. 信息熵和灰色關(guān)聯(lián)分析在企業(yè)大數(shù)據(jù)分析中的應(yīng)用[J]. 信息記錄材料, 2021, 22(3):151-152.
唐成龍,諶頏,唐海春,等. 大數(shù)據(jù)背景下數(shù)據(jù)預(yù)處理方法研究運(yùn)用[J]. 信息記錄材料, 2021, 22(9):199-200.
鄭杰昌, 謝志利, 王長林. 消費(fèi)品召回追溯體系研究[J]. 標(biāo)準(zhǔn)科學(xué), 2020, (5):32-52.
許輝.數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J]. 電腦知識與技術(shù),2022, (2):27-31.
李顏平,吳剛. 基于典型數(shù)據(jù)集的數(shù)據(jù)預(yù)處理方法對比分析[J]. 沈陽工業(yè)大學(xué)學(xué)報, 2022, 44(2):165-192.
楊忠誠. 數(shù)據(jù)挖掘工具WEKA及其應(yīng)用研究[J]. 企業(yè)科技與發(fā)展, 2018, (9):38-39.
張治斌,劉威. 淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)[J]. 數(shù)字技術(shù)與應(yīng)用, 2017(10):216-217.