国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向食品安全監(jiān)理話題檢測方法的研究

2016-12-14 08:36:06馮振海劉宏志
食品科學技術(shù)學報 2016年5期
關鍵詞:文檔準確率監(jiān)理

馮振海, 劉宏志

(北京工商大學 計算機與信息工程學院, 北京 100048)

面向食品安全監(jiān)理話題檢測方法的研究

馮振海, 劉宏志

(北京工商大學 計算機與信息工程學院, 北京 100048)

食品安全問題一直是國民熱切關注的話題,關系到社會的多個領域。為及時知曉食品安全領域關注的熱點問題,對比了食品安全熱點話題與其他熱點話題在檢測方法上的異同,構(gòu)建了食品安全監(jiān)理話題檢測模型,運用聚類算法對食品安全數(shù)據(jù)進行文本挖掘來實現(xiàn)話題檢測,并對食品安全數(shù)據(jù)進行分析。通過實驗說明,采用Single-Pass算法的評價優(yōu)于K-Means算法的評價,能夠有效地對食品安全話題進行檢測。

食品安全監(jiān)理; 文本挖掘; 話題檢測

食品是人類生存和發(fā)展的必需物質(zhì),食品安全是重大的社會問題,涉及國民的身體健康和生命安全,關系到社會的穩(wěn)定和發(fā)展。近年來,食品安全問題時有發(fā)生,每次都成為社會輿論關注的焦點,影響著民眾對我國食品安全監(jiān)管的信任[1-2]。為了掌握民眾對食品安全的社會輿情,可以借鑒信息工程監(jiān)理的機制來實現(xiàn)對食品安全的監(jiān)督和管理?!氨O(jiān)理”和“監(jiān)管”都有監(jiān)督管理的意思,但它們有所不同。第一,依據(jù)不同。前者側(cè)重于技術(shù)規(guī)范、標準,具有自主性,有利于大眾對食品安全的監(jiān)督;而后者側(cè)重法律法規(guī)、行政,具有強制性。第二,性質(zhì)不同?!氨O(jiān)理”屬于企業(yè)行為,“監(jiān)管”屬于政府行為。通過構(gòu)建食品安全監(jiān)理話題檢測模型,再利用K-Means算法和Single-Pass算法對食品文本數(shù)據(jù)進行聚類,從而識別出一個個重要話題。這對監(jiān)管部門快速掌握社會大眾輿情有很大的幫助,相關部門根據(jù)實際情況可及時采取措施降低負面影響,力爭把食品安全問題降到最低。

1 食品安全監(jiān)理話題檢測機制及數(shù)據(jù)收集

為能夠多方面對食品安全進行監(jiān)督和管理,需要完善并豐富相應的監(jiān)管機制。現(xiàn)階段國內(nèi)已經(jīng)建立了食品安全監(jiān)理體系[3],物聯(lián)網(wǎng)[4]和云計算[5-6]在食品安全監(jiān)理方面得到了很好的應用,從食品供應鏈角度構(gòu)建預測模型[7],并進行了深入的研究,有較好的理論基礎。Peng和Wu等[8-9]采用多種話題檢測方法,對話題進行了追蹤和排名;另外,還有部分學者針對特定領域進行話題的檢測[10-11]。在國外還有學者提出建立食品安全模型庫[12]的策略來提高食品安全的監(jiān)管效率??偟膩碚f,國內(nèi)外大多數(shù)學者研究點集中在用戶興趣和用戶傳播影響力對話題檢測的影響。在輿論導向上,郭林宇等[13]探討了食品質(zhì)量的網(wǎng)絡輿情特點。本研究擬利用文本聚類算法[14],通過語義分析食品安全的隱含知識來進行話題檢測[15-16],從而實現(xiàn)食品安全話題的檢測。

1.1 食品安全數(shù)據(jù)的采集

食品安全數(shù)據(jù)的采集主要是對網(wǎng)頁的采集,即把從微博、論壇、貼吧等原始網(wǎng)頁或文本下載到本地計算機存儲設備上,作為處理的數(shù)據(jù)源。

采集器是從食品安全數(shù)據(jù)種子網(wǎng)頁開始,然后使用這些網(wǎng)頁中的鏈接再去獲取其他頁面。從已獲取到的網(wǎng)頁再一次獲取鏈接地址,然后根據(jù)地址去定位相應的頁面并訪問。重復這一過程,直到滿足結(jié)束條件為止。

1.2 面向食品安全數(shù)據(jù)的獲取

主題采集器是針對某一領域里的采集器,它和一般通用采集器最大的區(qū)別就是抓取的內(nèi)容只針對這一領域,在制定規(guī)則時只考慮特定領域就可以。一個采集器的采集流程如圖1。

圖1 采集器采集流程Fig.1 Processes of crawling for food safety data

設有一目標主題集合為T={t1,t2…tn},ti表示一個主題文檔,與之對應的有相應的主題采集器。一組關鍵詞K={k1,k2…kn},表示一個主題資源的關鍵特征,在用一系列樣本集w來描述一個主題,其中w={,},ui是一個樣本URL:li=0或1,值為1表示ui與主題相關,為0表示ui與主題無關。

由于這些資源都是與某個主題相關的,它們必然存在共同的特征C={c1,c2…cn},ci表示提取出的共同特征,根據(jù)公共特征可以檢查網(wǎng)頁內(nèi)容是否符合判定規(guī)則[17]。

實驗數(shù)據(jù)采用該方法搜集,為了增加數(shù)據(jù)源的權(quán)威性,數(shù)據(jù)來源不僅包含互聯(lián)網(wǎng)的數(shù)據(jù),更主要是國家食品藥品監(jiān)督管理局定期發(fā)布的關于食品安全表格、文本、圖文等不同類型的數(shù)據(jù)。這些食品安全數(shù)據(jù)表現(xiàn)為個體之間層次關系,并且呈現(xiàn)多維數(shù)據(jù)特征[18]。對數(shù)據(jù)進行整理分析后就可以對數(shù)據(jù)預處理,使數(shù)據(jù)滿足模型的要求。

1.3 食品安全數(shù)據(jù)預處理

采集好數(shù)據(jù)后,有些數(shù)據(jù)通常不是實驗所需要的理想數(shù)據(jù),需要對其進行一些處理,主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約等操作[19-20]。

2 食品安全監(jiān)理話題檢測模型

話題檢測模型采用向量空間模型,是使用最廣泛的模型之一。該模型是將文檔表示為詞向量,是在文檔集上進行搜索的一個框架,核心思想是文檔與查詢都是高維空間中的一個向量[21]。作為話題檢測的重點之一,向量空間模型的基本思路和構(gòu)建過程,可概括為5個方面。

2.1 文檔向量

在向量空間模型中,首先要計算文檔的詞頻率(TF)或者是計算逆向文檔頻率表(TF-IDF),然后得到一個數(shù)值的向量,該向量表示文檔。該模型是將非結(jié)構(gòu)化的文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化的多維空間向量,這樣做可以使得計算機能夠識別并進行計算。

設N是準備實驗的文本文檔的總數(shù),dfi為其中含有至少一次詞ti的文檔數(shù)目,fij為詞ti出現(xiàn)在文檔dj中的次數(shù)。那么dj中的ti的正規(guī)范化詞頻(定義為tfij)如式(1):

(1)

在式(1)中,分母取fij中最大的那個值,tfij=0代表ti在dj中沒有出現(xiàn)。|V|為文檔數(shù)據(jù)集的詞匯表的大小。

詞ti的逆向文檔頻率(idfi)的計算公式如式(2):

(2)

從式(2)中我們可以看出,如果很多文檔中都含有文檔集中的這個詞,那么它的重要程度很低或者說是不重要,也可以說沒有區(qū)別度。詞逆向文檔頻率權(quán)值計算如式(3):

wij=tfij×idfi。

(3)

一個非停用詞對于文檔集合上的搜索而言,具有兩個基本性質(zhì):

1)對于一個文檔,該詞出現(xiàn)的次數(shù)越多,則該詞越重要;

2)對于多個文檔構(gòu)成的文檔集,包含該詞的文檔數(shù)越少,則該詞越重要。

2.2 話題相似度計算

在文本挖掘過程中,一般要進行文檔與主題、文檔與文檔相似度計算,實現(xiàn)文本聚類。

常用方法之一是通過計算2個向量內(nèi)積空間夾角的余弦值來度量2個文本的相似性,可以應用在任何維度的向量中,其計算公式如式(4)。

(4)

式(4)中,Wij是詞頻- 逆向文檔頻率(TF-IDF),q是查詢。余弦相似度用于用戶對內(nèi)容的評分,用來區(qū)分興趣的相似度和差異。

2.3 食品安全話題檢測的步驟

話題檢測的過程是從眾多的觀點中抽取所需的話題,然后根據(jù)檢測指標和檢測條件判斷所抽取的話題是否是想要的話題內(nèi)容。檢測流程如圖2。

圖2 話題檢測流程Fig.2 Processes of topic detection

步驟1:數(shù)據(jù)準備階段。采集官方發(fā)布的食品安全數(shù)據(jù)、各大網(wǎng)站食品安全的正文;把采集好的數(shù)據(jù)放入相應的數(shù)據(jù)存儲介質(zhì)中。

步驟2:數(shù)據(jù)預處理。主要包括對采集文本數(shù)據(jù)進行去重、合并、變換、規(guī)約等操作;如果是文本數(shù)據(jù),還要對其進行分詞操作。

步驟3:話題的抽取。首先要計算食品安全相關文本相似度,然后利用Single-Pass算法抽取相應的話題。

步驟4:熱點話題識別。根據(jù)話題的檢測指標,判斷抽取出來的話題是否為熱點話題。

2.4 食品安全話題檢測與其他話題檢測的區(qū)別

食品安全話題檢測與互聯(lián)網(wǎng)熱點話題檢測方法上有區(qū)別也有關聯(lián),整體過程大致都是收集語料庫、分詞操作、詞頻統(tǒng)計、特征詞權(quán)重的計算以及采用不同的算法對語料庫做聚類。但在實現(xiàn)過程中,還有許多不同于互聯(lián)網(wǎng)話題檢測的地方。

2.4.1 語料庫的內(nèi)容選取

食品安全話題檢測所需語料庫是針對食品安全數(shù)據(jù)相關的語料,該領域的語料庫內(nèi)容專一,數(shù)據(jù)特征鮮明。而互聯(lián)網(wǎng)話題檢測面對的是所有眾多的海量數(shù)據(jù),數(shù)據(jù)的內(nèi)容廣泛,結(jié)構(gòu)多元復雜,數(shù)據(jù)量驚人,難以整理和處理。

2.4.2 熱點詞權(quán)值的計算

熱點詞語通常是在論壇或者網(wǎng)頁中多次出現(xiàn)的詞語,在同一個論壇中,會在多個文檔中出現(xiàn),這樣的詞語權(quán)重值就大。在食品安全語料庫中,我們選取出現(xiàn)頻率高的詞語作為熱點詞,這些詞語的權(quán)重值與互聯(lián)網(wǎng)的熱點詞的權(quán)重是不同的,也體現(xiàn)了不同語料庫相似度不同。

2.5 聚類算法的評價

對語料庫數(shù)據(jù)處理后,使用聚類算法對話題進行識別和抽取,并對算法結(jié)果進行評價。

2.5.1 常用的評價標準

常用的評價標準包括準確率P、召回率R、模型綜合指標F1-measure。

準確率P:反映檢出的文檔中有多高相關度,見式(5)。

(5)

式(5)中,a為相關文檔數(shù),b為不相關文檔數(shù)。

召回率R:反映檢出的相關文檔數(shù)量,見式(6)。

(6)

式(6)中,c為未被檢出的相關文檔數(shù)。

模型綜合指標,見式(7)。

(7)

召回率與準確率在理論上是不相關的,但是在實際應用中,準確率高了相應的召回率就低了。同樣的道理,準確率低了對應召回率就高了。在具體應用中,到底哪個評估標準更為重要取決于計算結(jié)果的特性,為了平衡兩者的大小,可用模型綜合指標F1-measure計算。

2.5.2 替代性指標P-R曲線

P-R曲線作為一種評價指標,可以很直觀地描述出評價結(jié)果,并且可以隨著某一變量的變化而變化。在實際中,召回率與準確率成負相關關系,即隨著召回率的升高準確率就降低,反之,隨著召回率降低準確率就升高。所以,召回率與準確率曲線更能清晰地描述評價結(jié)果。

3 食品安全話題檢測算法及分析

本實驗的話題檢測運用K-Means算法和Single-Pass算法來實現(xiàn)對文本的聚類。K-Means算法是基于原型的算法,它必須先定義聚類中心,按照算法的迭代執(zhí)行,其算法復雜度為O(nkt),其中n為文檔數(shù)量,k為聚類的個數(shù),t為要迭代的次數(shù)。Single-Pass算法是按照一定的次序,把第一個文檔當作聚類依據(jù),按照順序比較相似度,如果相似度達到閾值要求,將其歸入同類;否則,將選取新的聚類依據(jù)再進行上述操作,其算法復雜度為O(nk),其中n為文檔數(shù)量,k為聚類的個數(shù),其內(nèi)存資源消耗小于K-Means算法的內(nèi)存資源消耗。

實驗所用到的食品安全數(shù)據(jù)來自國家食品藥品監(jiān)督管理局公布的食品安全數(shù)據(jù)以及各大網(wǎng)站的食品安全新聞數(shù)據(jù),經(jīng)過抓取最終獲得4144條食品安全數(shù)據(jù)。對這些數(shù)據(jù)進行整理,從中檢測出排名前5的話題。

采用K-Means算法聚類實驗結(jié)果見表1。

采用Single-Pass算法聚類實驗結(jié)果見表2。

通過比較發(fā)現(xiàn),采用Single-Pass算法在漏檢率和誤檢率方面都比K-Means算法效果更好。

表1 K-Means算法聚類實驗結(jié)果

表2 Single-Pass算法聚類實驗結(jié)果

然后,再采用查全率和查準率曲線來檢測效果,如圖3。

圖3 兩種算法對應的評價P-R曲線Fig.3 Comparison of two algorithms evaluations for P-R curve

圖3是兩種算法的P-R曲線,正方形線代表Single-Pass算法的P-R曲線,三角形線代表K-Means算法的P-R曲線,該曲線動態(tài)地反映了不同階段準確率和召回率的表現(xiàn),當召回率(recall)固定時,正方形線對應的準確率(precision)數(shù)值大于三角形線的數(shù)值。總的來說,Single-Pass算法的評價好于K-Means算法的評價。由此可見,對于食品安全的文本聚類,采用Single-Pass算法更利于該實驗進行。

4 結(jié) 論

研究針對食品安全話題的發(fā)現(xiàn)過程和聚類算法進行了研究。通過對國內(nèi)外的話題檢測方法進行詳細分析后,針對食品安全話題的特征構(gòu)建模型,并使用數(shù)據(jù)挖掘方法解決話題檢測問題。通過實驗發(fā)現(xiàn),采用Single-Pass算法在漏檢率、誤檢率、準確率、召回率方面好于K-Means算法,提高了文本聚類的精度。采用該方法對食品安全話題檢測具有一定的參考價值,便于對食品安全進行監(jiān)督和管理,有利于降低食品安全問題發(fā)生的概率。

[1] 孫寶國, 王靜, 孫金沅. 中國食品安全問題與思考[J]. 中國食品學報, 2013, 13(5):1-5. SUN Baoguo,WANG Jing,SUN Jinyuan.Perspectives on China food safety problems[J].Journal of Chinese Institute of Food Science and Technology, 2013, 13(5):1-5.

[2] 孫寶國, 周應恒, 溫思美,等. 我國食品安全的監(jiān)管與治理政策研究:第93期“雙清論壇”學術(shù)綜述[J]. 中國科學基金, 2013(5):265-270. SUN Baoguo, ZHOU Yingheng, WEN Simei,et al. Research of China’s food safety supervision and governing policy: summary of the 93th shuangqing forum of NSFC[J]. Science Foundation in China,2013(5):265-270.

[3] 張云霄, 劉宏志. 我國食品安全監(jiān)理體系研究[J].食品科學技術(shù)學報,2014,32(1):77-82. ZHANG Yunxiao,LIU Hongzhi.Study on food safety surveillance system in China[J]. Journal of Food Science and Technology,2014,32(1):77-82.

[4] 鄧小云, 劉宏志. 基于云計算的食品安全監(jiān)理研究[J].北京工商大學學報(自然科學版),2012,30(4):75-78. DENG Xiaoyun,LIU Hongzhi.Study on food safety surveillance based on cloud computing[J]. Journal of Beijing Technology and Business University (Natural Science Edition),2012,30(4):75-78.

[5] 李夢尋, 劉宏志. 基于物聯(lián)網(wǎng)的食品安全監(jiān)理模型研究[J].北京工商大學學報(自然科學版),2011,29(2):54-58. LI Mengxun,LIU Hongzhi.Study on food safety surveillance model based on internet of things[J]. Journal of Beijing Technology and Business University (Natural Science Edition),2011,29(2):54-58.

[6] LIU Hongzhi,XIONG Jieqiong.Research on the city emergency logistics scheduling decision based on cloud theory based genetic algorithm[J].Communications in Computer and Information Science,2011,417:182-185.

[7] 韓福霞,劉宏志. 基于云服務的食品安全監(jiān)理實時化研究[J]. 食品科學技術(shù)學報,2015,33(3):74-78. HAN Fuxia, LIU Hongzhi. Study on real-time analysis in food safety surveillance based on cloud service[J].Journal of Food Science and Technology,2015, 33(3):74-78.

[8] PENG Feifei,QIAO Xu,LI Gaoren. A research of hot topic detection through microblogging[C]∥2012 4th International Conference on Intelligent Human-Machine System and Cybernetics. Nanchang, China: IEEE, 2012:185-188.

[9] WU X M,IDE I,SATON S. New topic tracking and re-ranking with query expansion based on near-duplicate detection[M]. Heidelberg: Springer, 2009:755-766.

[10] 李勁,張華,吳浩雄,等. 基于特定領域的中文微博熱點話題挖掘系統(tǒng)BTopicMiner[J]. 計算機應用,2012(8):2346-2349. LI Jin ,ZHANG Hua ,WU Haoxiong ,et al.BTopicMiner: domain-specific topic mining system for Chinese microblog[J]. Journal of Computer Applications, 2012(8):2346-2349.

[11] ZHU Mingliang,HU Weiming,WU Ou. Topic detection for discussion threads with domain knowledge [C]∥Proc of International Conference on Web Intelligence and Inteligent Agent Technology. New York:ACM Press,2010:545-548.

[12] PLAZA-RODRIGUEZ C, THOENS C, FALENSKI A, et al. A strategy to establish food safety model repositories[J].International Journal of Food Microbiology, 2015,204:81-90.

[13] 郭林宇, 戚亞梅, 李艷,等. 農(nóng)產(chǎn)品質(zhì)量安全網(wǎng)絡輿情監(jiān)控體制機制研究[J]. 食品科學, 2013, 34(3):312-316. GUO Linyu,QI Yamei,LI Yan,et al.Monitoring of internet public opinion toward agricultural products quality and safety[J].Food Science, 2013, 34(3):312-316.

[14] WANG Chunhong, NAN Lili, REN Yaopeng. Research on the text clustering algorithm based on latent semantic analysis and optimization[C]∥2011 IEEE International Conference on CSAE. Shanghai: IEEE, 2011,4:470-473.

[15] WANG Zhiming, HOU Xusheng. A topic detection method based on bicharacteristic vectors[C]. Wuhan: IEEE, 2009: 683-687.

[16] CATALDI M, BALLATORE A, TIDDI I, et al. Good location, terrible food: detecting feature sentiment in user-generated reviews[J]. Social Network Analysis & Mining, 2013, 3(4):1149-1163.

[17] ADAR E, TEEVAN J, DUMAIS S T, et al. The web changes everything: understanding the dynamics of web content[C]∥Proc 2nd ACM Int Conf on Web Search and Data Mining. Chicago ACM, 2009: 282-291.

[18] 陳為, 沈則潛, 陶煜波, 等. 數(shù)據(jù)可視化 [M]. 北京:電子工業(yè)出版社, 2013: 10-20. CHEN Wei,SHEN Zeqian,TAO Yubo,et al.Data visualization[M].Beijing: Publishing House of Electronics Industry,2013: 10-20.

[19] 聶飛霞,付敏. 數(shù)據(jù)預處理:數(shù)字圖書館的“清洗機”[J]. 圖書館界,2013(4):52-55. NIE Feixia,FU Min.Data preprocessing: digital library “washing machine”[J].Library World,2013(4):52-55.

[20] 孟巍. 數(shù)據(jù)倉庫數(shù)據(jù)質(zhì)量評價研究及其應用[D]. 天津: 河北工業(yè)大學,2004:48. MENG Wei.Evaluation and realization of data quality of data warehouse[D]. Tianjin: Hebei University of Technology,2004:48.

[21] 郝文寧, 穆新國, 陳剛,等. 基于軍事訓練本體的文檔向量空間模型構(gòu)建[J]. 計算機應用, 2012, 32:10-12. HAO Wenning,MU Xinguo,CHEN Gang,et al.Document vector space model construction based on ontology in military training[J].Journal of Computer Applications, 2012, 32:10-12.

Research of Topic Detection Method for Food Safety Surveillance

FENG Zhenhai, LIU Hongzhi*

(SchoolofComputerScienceandInformationEngineering,BeijingTechnologyandBusinessUniversity,Beijing100048,China)

Food safety problem has been a hot topic of national concern, which related to many areas of society. In order to know hot issues that relate to food safety in timely, food safety hot topics and other hot topics of the similarities and differences in detection methods were compared. The food safety surveillance topic detection model was constructed and the clustering algorithm was used for text mining for food safety data to achieve the topic detection. Through the experimental results, the evaluation of the Single-Pass algorithm was better than the K-Means algorithm, which could effectively detect food safety topics.

food safety surveillance; text mining; topic detection

檀彩蓮)

10.3969/j.issn.2095-6002.2016.05.013

2095-6002(2016)05-0089-06

馮振海,劉宏志. 面向食品安全監(jiān)理話題檢測方法的研究[J]. 食品科學技術(shù)學報,2016,34(5):89-94. FENG Zhenhai,LIU Hongzhi. Research of topic detection method for food safety surveillance[J]. Journal of Food Science and Technology, 2016,34(5):89-94.

2015-07-13

北京市屬高等學??茖W技術(shù)與研究生教育創(chuàng)新工程建設項目(PXM2012_014213_000037)。

馮振海,男,碩士研究生,研究方向為信息工程與食品安全監(jiān)理;

*劉宏志,男,教授,博士,主要從事信息工程監(jiān)理、電子商務與電子政務等方面的研究。

。

TS201.6; R155; TP18

A

猜你喜歡
文檔準確率監(jiān)理
有人一聲不吭向你扔了個文檔
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
高速公路車牌識別標識站準確率驗證法
關于建設工程監(jiān)理發(fā)展趨勢的探討
消費導刊(2017年24期)2018-01-31 01:28:30
工程監(jiān)理管理模式創(chuàng)新探索
基于RI碼計算的Word復制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
不讓他人隨意下載Google文檔
電腦迷(2012年4期)2012-04-29 06:12:13
阳原县| 遂溪县| 屏山县| 阳新县| 东城区| 江口县| 阿拉尔市| 施秉县| 台安县| 亚东县| 报价| 大连市| 齐河县| 茌平县| 罗定市| 什邡市| 英德市| 海丰县| 龙岩市| 丰台区| 柳江县| 鄱阳县| 清流县| 扎赉特旗| 公主岭市| 天津市| 轮台县| 桑日县| 衢州市| 柯坪县| 陆川县| 黔东| 兴化市| 绵竹市| 竹北市| 牙克石市| 襄城县| 遂川县| 临沂市| 睢宁县| 谢通门县|