唐興萍,周 兵,楊文慶,劉天霞,徐國富,馬 喆,吳文斗,
(1.云南農業(yè)大學食品科學技術學院,云南昆明 650201;2.云南農業(yè)大學理學院,云南昆明 650201;3.云南農業(yè)大學大數據學院,云南昆明 650201)
人們的生活時時刻刻都在產生著數據,大數據已日漸滲入社會的各行各業(yè),當前,數據已成為重要的生產要素[1],大數據是以容量大,類型多存取速度快、應用價值高為主要的數據集合,其正快速發(fā)展為對數量巨大、來源分散、格式多樣的數據進行采集、存儲、關聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的新一代信息技術和服務業(yè)態(tài)[2]。大數據產業(yè)以數據生成、采集、存儲、加工、分析、服務為主,是加快經濟社會發(fā)展質量變革、效率變革、動力變革的重要引擎[3]?!笆濉睍r期,中國大數據產業(yè)規(guī)模年均復合增長率超過30%,其發(fā)展成效顯著,逐漸成為支撐中國經濟社會發(fā)展的優(yōu)勢產業(yè)[4]。大數據本身既能形成新產業(yè),也能推動其他產業(yè)的發(fā)展[5]。食品各領域與大數據技術相結合,使得食品大數據得到了一定程度的發(fā)展,目前大數據在食品領域的研究,主要集中在食品的安全管理[6]、食品的智能制造[7]和食品的膳食營養(yǎng)健康[8]三個方面。本文主要綜述大數據與膳食營養(yǎng)健康相關的研究,大數據在膳食營養(yǎng)健康的運用主要表現(xiàn)為結合營養(yǎng)學、醫(yī)學等相關學科利用云計算、物聯(lián)網和大數據等現(xiàn)代信息技術進行數據挖掘、分析,根據個人生理指標情況提供個性化的信息服務,如提供個性化、精確化的膳食營養(yǎng)指導和參考方案[9-11]。
我國近年已出臺多項政策促進大數據前沿技術與營養(yǎng)健康融合發(fā)展,國民營養(yǎng)計劃(2017~2030年)提出加強營養(yǎng)健康基礎數據共享利用[12];《“健康中國2030”規(guī)劃綱要》提出要發(fā)揮營養(yǎng)大數據共建共享對全民健康的技術支撐作用[13];2022年4月,中國營養(yǎng)學會營養(yǎng)大數據和健康分會第二屆學術會議采用線上模式順利舉行,會議以“構建營養(yǎng)大數據體系”為主題展開,可見大數據在膳食營養(yǎng)健康中的應用越來越受重視,營養(yǎng)大數據是未來人類健康的重要數據。大數據在該領域的應用主要體現(xiàn)在對食物成分數據庫的管理及運用、營養(yǎng)健康服務平臺或模型的建立、進行營養(yǎng)調查、進行與營養(yǎng)相關的疾病檢測,目前中國已有很多的健康管理平臺,根據健康監(jiān)測和健康評估結果,結合食物營養(yǎng)大數據給出具有個性化的健康膳食解決方案,但由于我國膳食營養(yǎng)健康管理產業(yè)起步較晚,針對中國居民營養(yǎng)需求和代謝機制的基礎研究數據也較為缺乏,距離形成科學完善的健康管理的解決方案還有一段距離。目前大數據在該領域主要面臨的問題是:膳食營養(yǎng)大數據的全面性和準確性有待提高;缺少國家層面的大數據整合和共享平臺以及數據更新維護機制和機構;數據價值沒有充分發(fā)揮;數據累積和人才資源不足。
現(xiàn)在,中國人民健康水平持續(xù)提升,但受多因素的影響,中國居民的膳食營養(yǎng)健康還存在很多的問題,主要表現(xiàn)為:膳食結構不平衡,高油高鹽的攝入普遍存在,全谷物、深色蔬菜、水果、奶類、魚蝦類及大豆類攝入普遍不足;能量攝入和消耗控制失衡,超重肥胖成為重要公共衛(wèi)生問題,膳食相關慢性病問題日趨嚴重;城鄉(xiāng)發(fā)展不平衡;嬰幼兒、孕婦、老年人等重點人群的營養(yǎng)問題應得到特殊的關注[14]。中國居民膳食營養(yǎng)健康存在眾多需要解決的問題,大數據技術的應用給予了食品領域解決相關問題的新思維、新方法[15]。大數據的應用強調以新的理念輔助決策、發(fā)現(xiàn)新的知識,因此說,大數據不僅“大”,而且“新”,是新資源、新工具和新應用的綜合體[16]。結合大數據產業(yè)、食品大數據以及中國膳食營養(yǎng)健康情況來看,將大數據與膳食營養(yǎng)健康相結合發(fā)展是很有必要的一項研究。大數據在該領域的應用能夠促進膳食營養(yǎng)健康的科學化、數字化、智能化的發(fā)展;同時大數據的數據挖掘、分析及決策能力,能夠促進食品產業(yè)高質量的發(fā)展,促使食品產業(yè)的轉型升級,促進膳食營養(yǎng)健康的發(fā)展,進一步推動中國營養(yǎng)與健康數字化產業(yè)體系建立及科技成果轉化應用,將大數據運用于膳食營養(yǎng)健康領域能夠促進數據的互通共享,發(fā)揮營養(yǎng)大數據共建共享對全民健康的技術支撐作用[17]。本文結合Web of Science核心合集數據庫(WOS)和中國知網(CNKI),利用文獻計量學分析工具VOSviewer對近10年大數據與膳食營養(yǎng)健康領域的相關文獻進行年度發(fā)文量和關鍵詞分析,綜述了大數據在食物成分數據庫的建立和管理、營養(yǎng)健康管理平臺的建立、進行營養(yǎng)調查以及與營養(yǎng)相關的疾病進行監(jiān)測四個方面的應用,探討了大數據在該領域應用所面臨的挑戰(zhàn),旨在為相關方面的研究提供一定的參考。
以Web of Science數據庫(WOS)和中國知網(CNKI)作為文獻來源數據庫。在CNKI中文數據庫中,以“大數據營養(yǎng)”、“大數據健康管理”、“大數據個性化營養(yǎng)”、“大數據膳食”、“大數據膳食營養(yǎng)”為主題進行檢索,檢索到大數據與膳食營養(yǎng)健康領域聯(lián)系密切的文獻98篇(2011~2021年,2011~2013年相關的文獻為0)以EndNote格式從知網導出,用VOSviewer(1.6.17)進行分析。在Web of Science核心數據庫中設置主題=“big data”AND“precision nutriton”O(jiān)R“nutrition healthy”O(jiān)R“personalized nutrition”O(jiān)R“dietary nutrition”時間設置為2011-01-01——2021-12-31,國家/地區(qū)選擇中國,文獻類型為:論文、綜述論文、會議論文、會議摘要,檢索到相關文獻123篇,以純文本文件導出,用VOSviewer(1.6.17)進行分析。
1.2.1 發(fā)文數量 發(fā)文量在一定程度上體現(xiàn)了該領域受科學界的關注程度,可以從一定意義上反映該研究領域的發(fā)展速度和趨勢。結合Web of Science 數據庫和CNKI共檢索到相關中英文文獻共計221篇,其中WOS 123篇,CNKI 98篇??傮w來看,2011~2021年論文發(fā)文量總體呈上升趨勢,2011~2015年間發(fā)文較少,2015后發(fā)文量數量增長較快(圖1),說明大數據在膳食營養(yǎng)健康領域的研究逐漸加強,就目前檢索的文獻來看,2021年發(fā)文量最多,且自2019年來發(fā)文量增長速度較快,表明該領域額的研究逐漸得到了學術界越來越多的關注。
圖1 2011~2021年大數據在膳食營養(yǎng)健康領域研究的文獻數量圖Fig.1 Distribution of the number of literatures on big data in the field of dietary nutrition and health from 2011 to 2021
1.2.2 關鍵詞及研究熱點分析 將從CNKI、WOS導出的文獻,分別用VOSviewer(version 1.6.17)進行關鍵詞共現(xiàn)分析,詞頻分析方法是在文獻信息中提取能夠表達文獻核心內容的關鍵詞或主題詞頻次的高低分布,來研究該領域發(fā)展動向和研究熱點的方法[18]。在分析過程中將一個關鍵詞出現(xiàn)的最小次數設置為2(目前在大數據與膳食營養(yǎng)領域相關的研究較少,為了盡可能的顯示出大數據在膳食營養(yǎng)領域的研究的同時保證各關鍵詞間的較強聯(lián)系,因此將一個關鍵詞出現(xiàn)的最小次數設置為2)。對CNKI導出的數據進行關鍵詞共現(xiàn)分析,共分析到41個關鍵詞,進行篩選去除重復及與大數據、膳食營養(yǎng)健康無聯(lián)系的詞后有39個關鍵詞,共12個聚類;對WOS導出的數據進行關鍵詞分析,共分析到40個關鍵詞,去除重復及無關詞后有32個關鍵詞,7個聚類,結果如表1所示,結合關鍵詞共現(xiàn)網絡圖(圖2),大數據在膳食營養(yǎng)健康領域的研究熱點可歸納為:一是利用現(xiàn)代信息技術(大數據、云計算、物聯(lián)網、機器學習等)進行膳食營養(yǎng)健康領域的數據挖掘,聚集相關的數據信息,從而提供科學的健康管理服務[19-21];二是利用大數據技術進行與營養(yǎng)相關的疾病管理,提供個性化的營養(yǎng)服務[22-24];三是利用大數據開展與營養(yǎng)相關的研究[25]三個方面。根據聚類表可以看出,知網導出的數據主要是體現(xiàn)前兩個方面的研究,WOS主要體現(xiàn)了利用大數據進行與營養(yǎng)相關的研究。
圖2 CNKI關鍵詞共現(xiàn)網絡圖Fig.2 CNKI keyword co-occurrence network diagram
表1 2011~2021年間大數據在膳食營養(yǎng)健康相關研究關鍵詞共現(xiàn)聚類簇Table 1 Co-occurrence clusters of big data in dietary nutrition and health related research from 2011 to 2021
關鍵詞共現(xiàn)圖節(jié)點越大表示出現(xiàn)的頻次越高,節(jié)點之間的連線表示關聯(lián)程度,連線越多代表該關鍵詞與其他關鍵詞共同出現(xiàn)的頻次越高,連線越粗,表明兩關鍵詞共現(xiàn)頻次越高,節(jié)點之間的關聯(lián)程度越強。由詞圖譜可以看出“大數據”與“健康管理”之間的關聯(lián)性最強,“大數據”與“營養(yǎng)管理”、“精準營養(yǎng)”與“慢性病預防和管理”間關聯(lián)性較弱,說明目前大數據在健康管理方面的研究相對較多;結合大數據開展與營養(yǎng)相關的研究主要集中在腸道菌群[25](gut microbiota)、基因檢測[26](genetic testing)、3D打印[27](3D printing)、精準營養(yǎng)(precision nutrition)等方面。圖2、圖3中顏色由深到淺,不同顏色對應不同的時間,圖2分析可知“機器學習”、“深度學習”、“數據挖掘”等與大數據相關的詞逐漸出現(xiàn),但其出現(xiàn)頻次較低,表明相關研究較少,在WOS關鍵詞共現(xiàn)圖譜(圖3)中與大數據相關的關鍵詞也較少,說明大數據技術正與膳食營養(yǎng)健康領域不斷的融合發(fā)展,大數據在膳食營養(yǎng)健康方面具有很大的發(fā)展空間,需要研究學者進行深入研究,促進大數據技術與膳食營養(yǎng)健康領域的發(fā)展,不斷發(fā)掘膳食營養(yǎng)健康領域大數據的價值。
圖3 WOS關鍵詞共現(xiàn)網絡圖Fig.3 WOS keyword co-occurrence network diagram
結合大數據在膳食營養(yǎng)與健康領域的研究進展來看,大數據在膳食營養(yǎng)與健康領域的應用可歸納為于食物成分數據庫的建立和管理、營養(yǎng)健康服務平臺的建立、開展與營養(yǎng)調查相關的工作、進行與營養(yǎng)相關的疾病的監(jiān)測四個方面的應用。
數據庫(Database)是按照數據結構來組織、存儲和管理數據的倉庫[28]。食物成分數據庫是各種食物成分含量所組成的一個數據集,是一個國家制定相關法規(guī)標準、實施有關營養(yǎng)政策、開展食品貿易和進行營養(yǎng)健康教育的基礎,具有學術、經濟、社會等多種價值,是一個國家和地區(qū)重要的資源[29-30]。目前我國食物成分數據庫主要包含安全性指標及新食品原料、食品抽檢信息、化學污染、微生物、營養(yǎng)數據等查詢系統(tǒng)[31],數據量巨大,但這些數據僅僅作為數據進行分類存儲和管理,后用作相關的參考標準或是規(guī)范標準,食品數據資源未能被充分的利用。數據經過有目的的加工可以形成信息,將食品數據變?yōu)橛袃r值的信息就需要對這些數據進行數據分析。數據分析指用適當的統(tǒng)計、分析方法對收集來的大量數據進行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數據的功能,發(fā)揮數據的作用[32]。數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程,大數據技術的利用能夠更好的挖掘食品數據的信息。文獻[33]通過開展具有中國特色的國家食物成分監(jiān)測,建立了1個國家級食物成分數據庫,20個省及自治區(qū)的食物成分子數據庫,構建了用于食物監(jiān)測的網絡平臺,促進了膳食營養(yǎng)與健康領域的研究。2020年,中國食物成分數據庫經過系統(tǒng)、完善、精準一些列的監(jiān)測,極大程度上豐富了中國食物營養(yǎng)成分數據庫,給予以后有關膳食營養(yǎng)的研究提供了數據基礎。中國不同地區(qū)、不同民族,飲食習慣存在差異,食物的攝入量也有所差異,可根據不同地區(qū)、不同民族、不同人群等建立相應的數據庫,促進膳食個性化、營養(yǎng)精準化的發(fā)展[34]?,F(xiàn)在中國食物成分數據庫主要用于中國居民攝入量的依據、用于營養(yǎng)知識的傳播,距離實現(xiàn)精準化、個性化膳食營養(yǎng)還較遠。
國外的食物成分數據庫,本文主要搜集了五個國家的食物成分數據庫,分別是阿拉伯食物成分數據庫、愛爾蘭食物成分數據庫、DietSys(巴西人口的飲食數據處理系統(tǒng))、myfood24 FCDB(英國新的綜合電子食品數據庫)、喀里多尼亞食物成分數據庫,其分別所包含的主要內容及用途如表2所示。
表2 國外食物成分數據庫相關信息Table 2 Relevant information of foreign food composition databases
國外食品數據庫與在線飲食記錄工具(myfood24)相結合,可以更好的在膳食評估中發(fā)揮其作用,利用大數據技術能夠更好的挖掘食物成分數據庫的數據價值,給予居民更加準確的膳食營養(yǎng)指導,進行營養(yǎng)干預。而中國食物成分數據庫目前對于進行居民營養(yǎng)干預還需要繼續(xù)研究發(fā)展。食品成分數據庫在公共衛(wèi)生營養(yǎng)學中發(fā)揮著重要作用。因此,需要充分利用大數據技術來挖掘數據信息,使食品數據庫信息發(fā)揮盡可能大的價值,以便更好地解決當前和未來公共衛(wèi)生、營養(yǎng)和其他社會問題[40]。
現(xiàn)在人們對食品具有更高的要求,對食品成分的數據進行管理,以更加公開性透明化的方式呈現(xiàn)給大眾,讓人們能夠充分了解食物營養(yǎng)成分,能進行合理的膳食,大數據技術的運用能夠讓大眾更加清晰、透徹的了解食物成分。目前中國營養(yǎng)師較少,每個人不能擁有專門的營養(yǎng)師為自己制定科學合理的膳食食譜,大數據技術的運用可以讓其成為可能,讓人們擁有更加專業(yè)、科學的膳食指導。為了能夠利用食品領域所產生的大量的數據,相關的研究學者研究建立了相關的平臺、模型對該領域的數據進行挖掘,如表3所示,是學者研究的有關的平臺及相關的信息,他們的研究為后續(xù)的研究奠定了基礎,雖然其多為初步構建,但其基本框架可供以后的學者參考,進行下一步的研究。
表3 營養(yǎng)健康服務平臺信息Table 3 Information on nutrition and health service platform
除了以上平臺和系統(tǒng)的運用外,大數據技術在膳食營養(yǎng)領域應用還有個性化膳食推薦[44-45],推薦系統(tǒng)通過科學的計算后根據用戶需求推薦其科學、合理的膳食指導方案,因而個性化膳食推薦深受人們的喜愛。近年來個性化膳食推薦系統(tǒng)被越來多的學者進行研究[46],隨著精準醫(yī)學的出現(xiàn),精準營養(yǎng)也逐漸被人們所認識[47-48],Xu等[49]開發(fā)了用于精確膳食攝入管理的中國食品營養(yǎng)數據分析系統(tǒng)。未來的研究中個性化營養(yǎng)、精準營養(yǎng)的服務平臺將會被越來越多的相關領域的研究者所重視。
營養(yǎng)調查是對人民群眾的營養(yǎng)狀況進行調查,是營養(yǎng)健康工作重要的組成部分,是國家制定相關政策的依據,是修訂居民膳食指南的重要依據,它反映了居民的營養(yǎng)健康情況[50]。中國傳統(tǒng)的營養(yǎng)調查,調查內容多、耗時長、工作量大;調查技術采用紙質問卷、電腦平板等相關設備,這些設備僅是簡單替代了傳統(tǒng)的紙筆的錄入方式,卻未能真正發(fā)揮其信息化作用;信息利用程度低,難以為新形勢下個性化的健康服務所利用,不能提供個體化的營養(yǎng)健康指導和干預[51]。
美國的營養(yǎng)調查,包括41474個個體和1191個變量。變量包括每個個體的表型和環(huán)境暴露信息,人口統(tǒng)計信息、體檢結果(例如身高、體重指數)、實驗室結果(例如膽固醇、葡萄糖和環(huán)境暴露)和問卷項目。其調查所產生的數據描述符描述了一個字典,分析人員能夠按類別及可讀的描述查找變量。數據集可在DataDryad上獲得,通過新的大數據平臺,BD2K以患者為中心的信息共享空間(http://pic-sure.org),提供一種通過web瀏覽器瀏覽數據集的新方法(https://nhanes.hms.harvard.edu)并為編程訪問提供應用程序編程接口[52]。日本國家健康和營養(yǎng)調查(NHNS)旨在收集有關成人和兒童健康、營養(yǎng)和生活方式的基本數據,促進居民健康發(fā)展。衛(wèi)生、勞動和福利部(MHLW)對NHN進行規(guī)劃和預算編制,MHLW和信息部對調查區(qū)域進行抽樣。地方政府執(zhí)行行政程序,公共衛(wèi)生中心與調查訪問人員一起準備并實施實地調查。調查訪問人員檢查和審查已完成的問卷,使用專門為調查開發(fā)的軟件輸入膳食攝入數據。后由地方政府向國家健康和營養(yǎng)研究所發(fā)送調查問卷和輸入數據。公共衛(wèi)生中心將血液樣本發(fā)送給商業(yè)檢測實驗室,實驗室將檢測結果發(fā)送給國家健康和營養(yǎng)研究所。國家健康和營養(yǎng)研究所營養(yǎng)流行病學系分析數據,MHLW發(fā)布結果[53]。
與國外營養(yǎng)調查相比,大數據技術在中國的營養(yǎng)調查中未能使數據充分發(fā)揮其應有的價值(數據共享較慢、膳食指導個性化欠缺),美國對于營養(yǎng)調查數據的共享工作做的較好,日本對營養(yǎng)調查數據的處理迅速,能夠即時掌握居民的膳食攝入,能夠給予居民膳食指導。目前中國的營養(yǎng)調查還在不斷的完善中,利用新型膳食調查方法與大數據技術融合,建立共享的大數據營養(yǎng)與健康平臺,促進營養(yǎng)調查數據的共享[54-56];通過物聯(lián)網設備、計算機圖像處理等設備,收集和監(jiān)測居民的特定營養(yǎng)健康數據,并通過互聯(lián)網上傳至基層監(jiān)測節(jié)點;再通過可移動監(jiān)測中心、實驗室管理等系統(tǒng)獲取可溯源的人體和生物樣本檢測結果,完成基本情況、膳食調查、體格檢測和生物樣本檢測,及時由被調查人員收集自身數據,加快數據處理的速度及時對居民進行營養(yǎng)干預、膳食指導[57]。現(xiàn)在大數據技術逐漸發(fā)展成熟將其運用于營養(yǎng)調查能夠將歷屆全國性、專項及地方性的營養(yǎng)和健康狀況調查的數據得以匯總,并進行深度系統(tǒng)的挖掘,可以全面描述中國城鄉(xiāng)居民、重點人群、重點地區(qū)的膳食結構和營養(yǎng)水平及其相關慢性疾病的流行病學特點及變化規(guī)律、找出中國居民不同時期存在的營養(yǎng)健康問題,發(fā)現(xiàn)營養(yǎng)缺乏和營養(yǎng)過剩的高危人群,為政府部門制定營養(yǎng)與健康相關政策和疾病防控措施提供了基礎數據[58]。因此要加強大數據在營養(yǎng)調查方面的研究,充分利用大數據技術。
大數據的使用可以推動營養(yǎng)相關慢性疾病的管理[59],通過數據挖掘,對大量的健康數據進行綜合分析,從而及時對健康危險信號做出預警[60]。文獻[61]采用hadoop框架結構、spark計算框架、SDB分布式數據庫為構建健康檔案大數據平臺提供了新的技術方案和思路。文獻[62]設計了基于可穿戴設備的個性化健康監(jiān)管平臺,將醫(yī)療信息、物聯(lián)網、大數據技術融合在一起,為用戶定制個性化數據指標指導。文獻[63]利用HBase和Phoenix構建了高性能的健康監(jiān)測大數據平臺,并對平臺的讀寫性能進行了優(yōu)化,為健康監(jiān)測大數據存儲和管理有很高的借鑒意義。本文簡述了大數據技術在高血壓、肥胖、糖尿病三種疾病中的運用,如表4。高血壓、肥胖、糖尿病的發(fā)生通常會伴隨相應并發(fā)癥的出現(xiàn),高血壓、肥胖、糖尿病給人們的生活帶來極大的不便,因高血壓、肥胖、糖尿病的危害較大,受國家和社會的廣泛關注,相應的研究也較多,選擇高血壓、肥胖、糖尿病作為本部分的綜述對象,其相關研究較為成熟,數據來源豐富;同時與高血壓、肥胖、糖尿病相關的因素眾多,涉及到各種數據類型,可以參考相關的數據處理便于用于其他慢性疾病的監(jiān)測。
表4 三種疾病監(jiān)測系統(tǒng)信息Table 4 Information of three disease surveillance systems
結合表3可以看出,慢性病的管理系統(tǒng)主要包含數據的采集、儲存、共享幾個模塊,結合患者身體狀況,給予個性化的管理服務。除了管理系統(tǒng)外衛(wèi)生部門還可通過患者電子病歷數據庫,對營養(yǎng)相關疾病及其他疾病患者的數據進行綜合分析,將分析結果及指導通過移動網絡等反饋給醫(yī)生、社區(qū)衛(wèi)生服務人員以及患者。這樣能夠讓醫(yī)務人員全面掌握病人的情況,給出有針對性的治療和指導的同時還可以給患者適時的提醒,兩方面相結合,更有助于疾病的管理和控制[67]。新冠肺炎疫情期間,治病救人是重中之重,膳食供給和營養(yǎng)保障是輔助治療,也是增加抗病能力以及促進康復的重要措施,大數據、物聯(lián)網等技術,為突發(fā)公共衛(wèi)生事件暴發(fā)時期的營養(yǎng)遠程干預提供了可能[68]。使用大數據和機器學習有助于提高營養(yǎng)流行病學調查結果的可靠性和有效性[69],將大數據和機器學習納入流行病學分析可以減少測量誤差,更好地表示飲食及其混雜因素的復雜性,并更好地考慮飲食與疾病之間的復雜關系。這些改進可以幫助改善關于飲食和疾病之間關系的預測和推論。
大數據在膳食營養(yǎng)健康的應用現(xiàn)還處于發(fā)展的初級階段,還面臨著很多的挑戰(zhàn),主要表現(xiàn)在以下方面。
食品大數據在生產、加工、儲藏、運輸、銷售等過程中,其產生的數據來源是多源的,其形式是多模態(tài)的。數據的多源、多模態(tài)的不確定性和多樣性,會導致數據的質量存在差異,影響數據的可用性,數據的可用性取決于數據質量,數據的質量包含精確性、一致性、完整性、統(tǒng)一性、實效性和真實性六個性質。為保證大數據的可用性,需要在數據源頭上把好質量關,做好從原始數據到高質量信息的預處理。因此需要建立數據源的質量評估理論模型,針對各種模態(tài)數據的特點,建立高質量多模態(tài)數據的獲取方法來確保數據源的質量。建立數據正確性語義模型、數據約束規(guī)則、數據錯誤模型等來清除不合理、錯誤的數據,對重要的信息進行修復,保證數據的完整性[70]??傊?,食品數據的采集和預處理是食品大數據的源頭,在源頭上把質量關,對食品大數據的后續(xù)處理和分析至關重要,因此有關政府部門應建立關于食品大數據數據質量的標準,保證食品大數據的統(tǒng)一質量,有效保證大數據的利用價值。
膳食營養(yǎng)健康大數據在數據儲藏及管理方面面臨的挑戰(zhàn)表現(xiàn)為:存儲規(guī)模大,存儲管理復雜,需要兼顧結構化、非結構化和半結構化的數據;隨著數據的規(guī)模、產生的速度與復雜度的增加,如飲食記錄、膳食膳食攝入等數據,會使系統(tǒng)引入各種數據類型的誤差、錯誤,使得膳食營養(yǎng)健康大數據的應用產生分布式數據清洗、質量檢測等挑戰(zhàn)性問題,各種存儲技術缺少統(tǒng)一標準,無法達到兼容,會使大量數據丟失,從而對新舊系統(tǒng)數據的遷移產生影響[71]。在大數據帶來的新挑戰(zhàn)下,解決數據儲存、管理的問題,需要更進一步的研究存儲與管理軟件技術。在大數據環(huán)境下,目前最適用的技術是分布式文件系統(tǒng)、分布式數據庫以及訪問接口和查詢語言,在大數據存儲系統(tǒng)的發(fā)展中實時/流式大數據存儲與處理成為其發(fā)展的趨勢。
大數據環(huán)境下的分析和挖掘方法與傳統(tǒng)的小樣本統(tǒng)計分析所不同,其面臨的挑戰(zhàn)表現(xiàn)為:數據量的膨脹,隨著該領域數據生成的自動化、數據生成速度的加快,數據分析需要處理的數據量急劇膨脹;數據深度分析需求的增長,為了從數據中發(fā)現(xiàn)信息并加以利用進而指導人們的決策,必須對大數據進行深入的分析,這些復雜的分析需要依賴于復雜的分析模型;自動化、可視化分析需求的出現(xiàn),因為數據規(guī)模很大,要對大數據進行有效分析,分析過程需要按照完全自動化的方式進行,故此一個好的適于分析的數據表示模式是非常重要的[72]。
大數據時代,傳統(tǒng)的隱私數據內涵與外延有了巨大突破與延伸,隱私數據保護不力,隱私數據保護技術面臨更多的挑戰(zhàn)。膳食營養(yǎng)健康數據包含眾多內容,涉及群眾的隱私、身體健康情況等的安全以及其他的特殊要求,這些數據的集中存儲增加數據泄露風險,這些數據不被濫用,也成為人身安全的一部分;使用數據過程中的安全問題,進行數據挖掘和數據分析時,黑客可以利用大數據分析向企業(yè)發(fā)起攻擊,黑客可能會最大限度地收集有用信息,使得數據安全局面異常嚴峻;目前還沒有嚴格的法律法規(guī)來保證用戶的數據隱私安全,因此膳食營養(yǎng)健康數據的應用存在法律安全隱患。安全隱私保護不夠完善,會對數據共享范圍造成影響,目前大數據技術操作還不算完善,對于安全隱私的保護還有待研究[73-74]。目前所使用的方法主要有文件訪問控制技術、基礎設備加密、匿名化保護技術、加密保護技術等。最后,大數據的保護需要學術界、商業(yè)界、政府部門的共同參與,需要形成有效的安全機制和國家法律法規(guī)來約束和保護大數據的安全隱私,從而保證大數據時代的健全、安全發(fā)展。
大數據既是一種科技,也是一種資產,隨著社會的快速發(fā)展,食品行業(yè)累積了大量來源廣泛,增長速度快,價值密度低而應用價值高的數據,如何使用大數據技術挖掘食品數據更多潛在的應用價值,從而促進食品行業(yè)的可持續(xù)發(fā)展,促進膳食營養(yǎng)健康的數字化、信息化發(fā)展,成為食品領域重點研究的問題[75]。本文對大數據在該領域的運用歸納為:利用大數據技術進行與營養(yǎng)相關的疾病管理,提供個性化的營養(yǎng)服務;利用現(xiàn)代信息技術進行膳食營養(yǎng)健康領域的數據挖掘,聚集相關的數據信息,從而提供科學的健康管理服務;利用大數據開展與營養(yǎng)相關的研究三個方面。綜上來看大數據技術與進行營養(yǎng)相關的疾病管理以及健康管理方面研究結合較為緊密,但是大數據技術的運用不夠深入,Hadoop、Hbase、Spark等技術的利用較少;大數據在開展營養(yǎng)相關的研究結合也不夠明顯,該方面的研究含有大量的菌群、基因等數據應用較多的是儲存技術,但相關的研究并沒有介紹大數據技術在數據儲存的應用,其研究較少。大數據技術在本文所述的應用領域應用程度較低,大多處于起步階段,但已有很多學者從不同的角度,開始了該領域的研究營養(yǎng)健康管理平臺如貴州銅仁學生智慧營養(yǎng)云平臺[76],個性化食譜推薦等的研究。在未來的研究中結合個人的飲食喜好及自身的營養(yǎng)健康的個性化、智能化的飲食以及數字化的健康管理將成為未來的研究趨勢。目前中國膳食營養(yǎng)健康大數據面臨數據的采集與預處理、數據的存儲及管理、如何進行數據分析挖掘數據價值方面的困難及挑戰(zhàn),缺乏安全隱私保護措施、缺少復合型人才的挑戰(zhàn),針對以上困難挑戰(zhàn)還需要相關的學者進行深入的研究。大數據在食物成分數據庫以及營養(yǎng)調查更多的是結合國家政策由政府作為主要的研究人員進行研究,與飲食相關的疾病監(jiān)測更多的是結合相關的醫(yī)學進行研究,因此大數據在膳食營養(yǎng)健康領域的研究需要很多的復合型人才,固然需要加強有關的人才培養(yǎng),從而促進膳食營養(yǎng)健康大數據的發(fā)展,發(fā)掘數據的潛在價值,從而能更好的服務人民,促進社會發(fā)展、促進食品行業(yè)的數字化、信息化的發(fā)展。