趙瑋 侯方東 吳昊 馮青 侯亞銘 劉衍喜 王旭
關(guān)鍵詞:NLP;主數(shù)據(jù)管理;標(biāo)準(zhǔn)化
中圖分類號:F252 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-7934(2024)03-0027-13
隨著經(jīng)濟全球化和信息技術(shù)的發(fā)展,企業(yè)為了提高運營效率和市場競爭力,紛紛建設(shè)信息化管理系統(tǒng)。在運營過程中,信息化系統(tǒng)中的數(shù)據(jù)快速增長,企業(yè)“大數(shù)據(jù)”漸漸成為企業(yè)資產(chǎn)的一部分。利用和挖掘數(shù)據(jù)資產(chǎn)價值,能讓企業(yè)在激烈的市場競爭中及時調(diào)整業(yè)務(wù)發(fā)展方向、優(yōu)化資源配置,進(jìn)一步提高市場競爭力。《中共中央國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》指出,數(shù)據(jù)作為新型生產(chǎn)要素,是數(shù)字化、網(wǎng)絡(luò)化、智能化的基礎(chǔ),已快速融入生產(chǎn)、分配、流通、消費和社會服務(wù)管理等各環(huán)節(jié),深刻改變著生產(chǎn)方式、生活方式和社會治理方式。
對于大型企業(yè)來說,物料采購是生產(chǎn)經(jīng)營的關(guān)鍵環(huán)節(jié)之一,涉及物料分類、編碼、描述及屬性等方面,實現(xiàn)采購物料主數(shù)據(jù)的標(biāo)準(zhǔn)化是采購供應(yīng)鏈數(shù)字化轉(zhuǎn)型的基礎(chǔ)。大型企業(yè)存在多個應(yīng)用系統(tǒng),相同的信息以不同的采購物料主數(shù)據(jù)形式存在于不同的系統(tǒng)中,各應(yīng)用系統(tǒng)間容易形成“信息孤島”。一方面,隨著企業(yè)并購及企業(yè)間合作導(dǎo)致企業(yè)業(yè)務(wù)范圍擴大,跨組織信息資源共享需求及對采購物料主數(shù)據(jù)進(jìn)行協(xié)調(diào)和集中存儲的需求增加。另一方面,受企業(yè)內(nèi)部各單元信息化水平參差不齊等因素影響,采購物料管理長期面臨主數(shù)據(jù)顆粒度不統(tǒng)一、物料數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)投入大周期長等問題,亟待治理以提升數(shù)據(jù)資產(chǎn)質(zhì)量。
作為黨和國家在農(nóng)糧領(lǐng)域可信賴的中央企業(yè)之一,某集團業(yè)務(wù)范圍聚焦糧、油、糖、棉、肉、乳等品類,同時涉及金融、地產(chǎn)等領(lǐng)域,形成了以核心產(chǎn)品為主線的若干家專業(yè)化公司。近年來,某集團高度重視數(shù)智化建設(shè),致力于提升信息技術(shù)創(chuàng)新能力和數(shù)字化管控水平,當(dāng)前正在穩(wěn)步實施《“十四五”信息化發(fā)展規(guī)劃》。作為數(shù)據(jù)治理領(lǐng)域一項基礎(chǔ)性、長期性任務(wù),統(tǒng)一旗下專業(yè)化公司采購物料主數(shù)據(jù),形成一套適合某集團特色物料標(biāo)準(zhǔn)化數(shù)據(jù),成為亟需解決的問題。在物料標(biāo)準(zhǔn)化過程中,某集團將自然語言處理技術(shù)內(nèi)嵌至物料分類、物料規(guī)范描述、物料管理等環(huán)節(jié),能夠減少人員投入50%、建設(shè)周期縮短65%,整體人天投入降低77%。
通過探討大型企業(yè)采購物料標(biāo)準(zhǔn)化的實踐路徑及其創(chuàng)新應(yīng)用,主要實現(xiàn)兩個目標(biāo):一是探索嘗試人工智能自然語言處理技術(shù)在數(shù)據(jù)治理過程中可能的應(yīng)用場景,二是重點關(guān)注數(shù)據(jù)采集、清洗、整合和共識建立等環(huán)節(jié),從定性和定量兩個維度分析其效益提升的路徑。
作為數(shù)據(jù)資產(chǎn)的一部分,主數(shù)據(jù)是指企業(yè)經(jīng)營中的“基礎(chǔ)數(shù)據(jù)”或者“公用數(shù)據(jù)”,是用來定義業(yè)務(wù)對象、具有持續(xù)性、相對靜態(tài)、非交易類的數(shù)據(jù),并且在企業(yè)整個價值鏈上被重復(fù)使用、共享于多個業(yè)務(wù)流程的具有高價值的數(shù)據(jù)。常見的主數(shù)據(jù)有物料、供應(yīng)商、客戶、銀行、會計科目等。物料主數(shù)據(jù)是主數(shù)據(jù)的重要組成之一,包括物料的基本信息及業(yè)務(wù)相關(guān)的基本信息。其中,物料主數(shù)據(jù)相關(guān)的企業(yè)業(yè)務(wù)有:采購、銷售、供應(yīng)鏈管理、物流管理等。一致的、完整的、唯一的物料主數(shù)據(jù)能給企業(yè)帶來價值,例如,對于采購部門,通過對物料主數(shù)據(jù)的整合,使全集團采購業(yè)務(wù)統(tǒng)一化、資源調(diào)度規(guī)范化,從而降低采購成本、避免違規(guī)采購;再如,完善的、精確的物料主數(shù)據(jù)保證了商務(wù)智能階段決策分析結(jié)果的正確性,從而使高層決策的結(jié)果真正為企業(yè)帶來預(yù)期價值。因此,主數(shù)據(jù)是數(shù)據(jù)治理的基礎(chǔ)和重點,而物料主數(shù)據(jù)又是重中之重,治理不當(dāng)會導(dǎo)致數(shù)據(jù)的不一致性和錯誤,進(jìn)而影響企業(yè)的高效運營和正確決策。當(dāng)前,已有的研究已經(jīng)提出了各種方法和工具來解決物料主數(shù)據(jù)治理的問題,但對于大型企業(yè)而言,針對性和實用性還不夠強,面臨的挑戰(zhàn)仍然嚴(yán)峻。
目前,國內(nèi)外學(xué)術(shù)界對主數(shù)據(jù)管理的研究點包括主數(shù)據(jù)管理方案架構(gòu)、基于主數(shù)據(jù)的信息集成技術(shù)、主數(shù)據(jù)存儲結(jié)構(gòu)、主數(shù)據(jù)的分析建模方法等。國外學(xué)術(shù)界的研究主要有:康奈爾(CornelLoser)將主數(shù)據(jù)管理系統(tǒng)分為三類:操作型(MasterDataManagement,以下簡稱“MDM”)、分析型MDM和企業(yè)級MDM;亞歷克斯(AlexBerson)對主數(shù)據(jù)管理方案的架構(gòu)決策、與客戶數(shù)據(jù)集成關(guān)系及實施技術(shù)進(jìn)行了論述;加馬(Gamma)和蒂奇(Teachey)分別指出MDM解決方案涉及的技術(shù)流程為:源數(shù)據(jù)剖析、數(shù)據(jù)標(biāo)準(zhǔn)化、匹配、數(shù)據(jù)合并以及同步。
國內(nèi)對主數(shù)據(jù)的研究主要集中在以下幾個方面:主數(shù)據(jù)識別及建模、基于主數(shù)據(jù)的信息集成及其相關(guān)問題。張進(jìn)德研究了企業(yè)主數(shù)據(jù)的分析建模和表達(dá)建模,主數(shù)據(jù)分析建模包括以業(yè)務(wù)梳理為核心的主數(shù)據(jù)識別和主數(shù)據(jù)整合,主數(shù)據(jù)表達(dá)建模從數(shù)據(jù)分類、數(shù)據(jù)描述和數(shù)據(jù)交換三方面進(jìn)行了闡述。李媛闡述了基于主數(shù)據(jù)管理的企業(yè)信息集成方法;錢鵬程討論了主數(shù)據(jù)管理系統(tǒng)與業(yè)務(wù)系統(tǒng)的集成方法以及異構(gòu)數(shù)據(jù)模式映射算法。張煒研究了基于本體的主數(shù)據(jù)管理方法:利用本體技術(shù)進(jìn)行主數(shù)據(jù)的語義識別、整合以及與異構(gòu)系統(tǒng)之間的訪問。張義強闡述了物料主數(shù)據(jù)標(biāo)準(zhǔn)化在企業(yè)資源規(guī)劃系統(tǒng)中的作用,列舉了中國中車通過實施物料主數(shù)據(jù)標(biāo)準(zhǔn)化方案減少物料“一物多碼”現(xiàn)象、提高企業(yè)物料管理水平的典型案例。畢子健和鄭文分別研究了物料主數(shù)據(jù)標(biāo)準(zhǔn)化的內(nèi)容,包括物料主數(shù)據(jù)分類方法、編碼原則及方法,同時對管理組織作了說明。
大數(shù)據(jù)時代,企業(yè)信息資源整合的關(guān)鍵是依托企業(yè)主數(shù)據(jù)管理,強化數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè),實現(xiàn)信息資源模式的統(tǒng)一。主數(shù)據(jù)管理平臺使得企業(yè)能夠集中管理數(shù)據(jù),將分散在不同系統(tǒng)中的主數(shù)據(jù)進(jìn)行集中的標(biāo)準(zhǔn)化和清洗,再將統(tǒng)一的、完整的、準(zhǔn)確的、權(quán)威的主數(shù)據(jù)分發(fā)至應(yīng)用系統(tǒng)。在物料標(biāo)準(zhǔn)化領(lǐng)域,某集團目前主要采用物料主數(shù)據(jù)或物料編碼的方式來管理物料基礎(chǔ)數(shù)據(jù)。具體來說,就是通過定義物料數(shù)據(jù)的分類以及不同分類數(shù)據(jù)的屬性模板,在新增物料主數(shù)據(jù)時選擇分類,再逐項填寫模板。物料主數(shù)據(jù)的建設(shè)周期根據(jù)企業(yè)體量大小有所不同,大部分建設(shè)周期超過6個月,有些特大型企業(yè)甚至需要1-2年才能建成。
自然語言處理技術(shù)(NaturalLarguageProcessing,以下簡稱“NLP”)是人工智能領(lǐng)域的代表技術(shù)之一,是指計算機可以理解人類語言并能閱讀和書寫的信息技術(shù)。得益于深度學(xué)習(xí)算法和機器學(xué)習(xí)算法,該技術(shù)能使計算機對文本數(shù)據(jù)進(jìn)行系統(tǒng)分析,從中提取關(guān)鍵信息幫助使用者處理海量數(shù)據(jù)。NLP能快速處理單篇大量文本數(shù)據(jù)或者相似篇章,從邏輯上分為字詞、句法和篇章級別。
1.字詞級別
字詞級別的分析是NLP的基石,它關(guān)注于文本中單詞和短語的識別、處理和組織。自20世紀(jì)50年代以來,隨著計算機用于處理自然語言文本的需求增加,詞匯處理的重要性顯著提升。初期,詞典的編制是手工進(jìn)行的,后來發(fā)展出自動工具,能夠更高效地生成或修改詞典。詞法分析不僅關(guān)注于單詞的識別和標(biāo)記,而且分析詞與詞之間的聯(lián)系,從而獲得對文段局部表達(dá)信息的抓取。例如,詞性標(biāo)注(POS)是詞法分析的一個重要方面,它涉及為文本中的每個單詞賦予一個詞性標(biāo)簽。這個過程比在詞典中查找單詞及其詞性更加復(fù)雜,因為許多單詞可以在不同語境下具備多種詞性。例如,英文中的復(fù)數(shù)名詞“dogs”既可以表示名詞,也可以表示動詞。此外,詞形還原和停用詞刪除也是詞法級別分析的重要組成部分。詞形還原旨在通過識別一個單詞在特定語境下的語義并依此將其還原為元形態(tài),而停用詞刪除則是篩除在后續(xù)分析過程中不需要的詞匯。字詞級常用技術(shù)主要包含五個方面。一是詞性標(biāo)注技術(shù),它涉及給定句子中的每個單詞從給定標(biāo)簽組中賦予詞性標(biāo)簽。1993年由馬庫斯(Marcus)等提出的賓州樹庫(PennTreebank)項目提供了對英文文本的詞性標(biāo)簽集合。中文詞性標(biāo)注任務(wù)由思(Ng)和洛(Low)在2004年提出,其任務(wù)目標(biāo)是在聯(lián)合分割標(biāo)注的任務(wù)中,計算基于詞級別的精確率和召回率以及F1分?jǐn)?shù)。早期詞性標(biāo)注工作多使用基于隱馬爾可夫模型的序列標(biāo)注方法。在神經(jīng)序列模型興起后,最新研究成果集中在使用條件隨機場CRF以及循環(huán)神經(jīng)網(wǎng)絡(luò)、BERT模型進(jìn)行序列詞性標(biāo)注工作。例如,2020年Tian等人提出的基于知識以及注意力機制的漢語詞性聯(lián)合標(biāo)注方法取得了較好的標(biāo)注效果。二是命名實體識別技術(shù)(NER),它涉及識別文本中的特定實體,如人名、物料名、價格等。Collobert等的多任務(wù)方法中包括該任務(wù),但沒有報告結(jié)果。NER在信息抽取、問答系統(tǒng)和文本摘要等應(yīng)用中起著關(guān)鍵作用。它通常依賴于深度學(xué)習(xí)技術(shù)和大量的標(biāo)注數(shù)據(jù)來訓(xùn)練模型,以達(dá)到高精度的實體識別。在多任務(wù)學(xué)習(xí)的概念下,NER的實現(xiàn)通常涉及復(fù)雜的模型和算法。例如,使用卷積神經(jīng)網(wǎng)絡(luò)和最大池化執(zhí)行詞性以及命名實體識別標(biāo)記。這些方法需要依賴專家知識和人工構(gòu)建的規(guī)則提取特征。三是同義詞分析技術(shù),在于理解和識別不同詞匯在特定上下文中可能具有相同的意義。這要求對詞匯的語義屬性有深入的理解,通常借助于大規(guī)模的語義網(wǎng)絡(luò)和語料庫來實現(xiàn)。Zheng等使用簡單的CNN分類句子中元素之間的多種關(guān)系。例如,在詞義消歧任務(wù)中,同一詞匯在不同上下文中可能具有不同的含義,識別這些含義對于理解文本至關(guān)重要。四是中文分詞技術(shù),中文的書寫特性,詞匯之間缺乏明顯的界限,中文分詞成為理解和處理中文文本的首要步驟。這個過程涉及使用算法將連續(xù)的文本字符串分割成有意義的單元或詞匯。中文分詞的任務(wù)目標(biāo)是在聯(lián)合分割標(biāo)注的任務(wù)中,計算基于詞級別的精確率和召回率以及F1分?jǐn)?shù)。隨著技術(shù)的發(fā)展,中文分詞方法從基于規(guī)則的方法轉(zhuǎn)向了基于統(tǒng)計和機器學(xué)習(xí)的方法,大大提高了分詞的準(zhǔn)確性和效率。五是字詞向量分析技術(shù),涉及將詞匯轉(zhuǎn)化為數(shù)值形式的向量,從而能夠被計算機程序處理。Word2vec、GloVe和FastText等模型在字詞向量分析領(lǐng)域取得顯著成果。Mikolov等提出Word2vec方法通過使用神經(jīng)網(wǎng)絡(luò)模型以無監(jiān)督的方式從大規(guī)模文本語料中學(xué)習(xí)單詞的分布式表示,這種分布式表示方式可捕捉到單詞之間的語義和語法關(guān)系,將單詞轉(zhuǎn)化為具有語義信息的向量表示。例如,Word2vec可以使用Skip-gram和CBOW兩種語言模型建模方式以更好地建模上下文和目標(biāo)單詞之間的關(guān)系。相比于以往的方式,Word2vec能從大規(guī)模文本數(shù)據(jù)中自動學(xué)習(xí)單詞的分布式表示,避免傳統(tǒng)方法中手工設(shè)計特征的繁瑣過程。Word2vec的提出和成功應(yīng)用極大地推動了單詞嵌入研究的發(fā)展,激發(fā)了更多研究者探索和提出改進(jìn)的單詞嵌入模型。這些模型不僅在詞義表示上取得了重大進(jìn)步,而且在各種自然語言處理任務(wù)中展現(xiàn)出顯著的效果,豐富了對詞語表示和語義關(guān)系的理解。
2.句法級別
句法級別的分析通過分析句子的語法結(jié)構(gòu)來獲知句子的正確構(gòu)成,它涉及短語和句子的結(jié)構(gòu)以及短語或句子中單詞之間的關(guān)系。例如,改變語序會改變單詞之間的依賴關(guān)系,也可能影響句子的理解。句法分析要求輸入保留原始文本形態(tài),即與詞形還原以及停用詞篩除等操作不兼容,這些操作會改變原有句子的意思以及讓詞匯喪失其語法特征。在許多研究中,詞法分析被視為句法分析的子任務(wù)。句子級別的句法處理任務(wù)包括文本組塊分析、依存解析等,這些任務(wù)為下游自然語言處理任務(wù)提供有效的信息基礎(chǔ)。例如,文本組塊分析將句子分割成不重疊的部分,并且依據(jù)句法作用給單詞打上句法作用標(biāo)簽,例如名詞短語和動詞短語。這有助于機器學(xué)習(xí)句子結(jié)構(gòu)和單詞之間的關(guān)系,為下游自然語言處理任務(wù)(如命名實體識別、文本摘要和情緒分析等)提供基礎(chǔ)。
3.篇章級別
篇章級別分析關(guān)注于文本整體的邏輯和結(jié)構(gòu),這包括解釋句子之間的關(guān)系以及從多個層面揭示文本的語言結(jié)構(gòu)。篇章級分析的常見任務(wù)是共指消解,其目的是在一段文段或篇章中找到所有對同一實體的描述表達(dá)式。2017年,李(Lee)等首次提出端到端的共指消解模型。例如,共指消解是自然語言處理任務(wù)之一,這項任務(wù)旨在對同一實體的不同描述進(jìn)行查找,這一技術(shù)在較多的下游NLP任務(wù)中使用。通過理解句子之間的關(guān)系,篇章級分析揭示了整個篇章的語義信息,確保其連貫性和一致性。例如,文本中“他”“她”“它”等代詞的正確指代是篇章分析的關(guān)鍵部分,這對于理解文本的意圖和情感至關(guān)重要。
隨著人工智能技術(shù)的逐步普及,自然語言的識別與理解的準(zhǔn)確率與效率有了較大提升,NLP在多個領(lǐng)域都有了專業(yè)應(yīng)用。在快遞寄遞過程中,借助NLP可以準(zhǔn)確識別目的地點、收件人姓名、手機號等信息,識別效率高。在新聞分析過程中,借助NLP能將有效提取新聞關(guān)鍵信息,包括時間、地點、人物、事項等,形成初步結(jié)構(gòu)化的內(nèi)容,可進(jìn)行更加快捷、精準(zhǔn)的信息搜索。當(dāng)前,在采購物料領(lǐng)域采用NLP實現(xiàn)主數(shù)據(jù)有效治理的文獻(xiàn)還不多,相關(guān)解決方案較少,亟需填補該領(lǐng)域的空白。本研究使用NLP來加速數(shù)據(jù)清洗,以提高數(shù)據(jù)治理的速度和準(zhǔn)確度。
本研究基于某集團各專業(yè)化公司現(xiàn)有物料分類及物料編碼數(shù)據(jù),通過NLP技術(shù)的識別及算法優(yōu)化,形成一套某特色的主數(shù)據(jù)標(biāo)準(zhǔn)體系。在此基礎(chǔ)上,將NLP技術(shù)融合到主數(shù)據(jù)管理系統(tǒng)及相關(guān)業(yè)務(wù)系統(tǒng)中,實現(xiàn)數(shù)據(jù)的規(guī)范及深度應(yīng)用,如圖1所示。
圖1 物料主數(shù)據(jù)治理創(chuàng)建流程
物料標(biāo)準(zhǔn)化建設(shè)必須基于企業(yè)的實際業(yè)務(wù)活動,與業(yè)務(wù)人員息息相關(guān)。在進(jìn)行物料標(biāo)準(zhǔn)化體系建設(shè)前,必須對相關(guān)單位、部門的實際物料管理需求進(jìn)行全面調(diào)研,內(nèi)容包括:現(xiàn)有物料的分類體系、編碼規(guī)則、數(shù)據(jù)模型等,同時還要對物料的管理流程、管理部門、管理系統(tǒng)進(jìn)行全面盤點,在此基礎(chǔ)上進(jìn)行數(shù)據(jù)采集。
研究團隊共收集到集團各專業(yè)化公司物料分類13套,物料編碼數(shù)據(jù)約140余萬條,涉及糧、油、糖、棉、肉等主要物料,以及企業(yè)生產(chǎn)經(jīng)營過程中的包裝材料、儀器儀表、機械設(shè)備及備品備件等多種物料。對于收集的數(shù)據(jù)進(jìn)行初步的匯總分析,借鑒國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、國家統(tǒng)計相關(guān)制度等,重點關(guān)注農(nóng)產(chǎn)品、農(nóng)產(chǎn)制品等品類,結(jié)合實施方法論,形成了物料標(biāo)準(zhǔn)化整體工作藍(lán)圖,初步規(guī)劃了物料28個一級大類,如表1所示。
物料主數(shù)據(jù)建設(shè)重點是主數(shù)據(jù)標(biāo)準(zhǔn)的建立。主數(shù)據(jù)標(biāo)準(zhǔn)包括:物料分類、物料描述、物料編碼等要素。本研究中,主數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)采用“算法為核心、人工專家輔助”的方法,標(biāo)準(zhǔn)由數(shù)據(jù)而來,再通過物料專家進(jìn)行人工輔助優(yōu)化。
主數(shù)據(jù)標(biāo)準(zhǔn)中的分類對應(yīng)NLP技術(shù)的目錄提取功能,對物料描述中的實體進(jìn)行識別,去除修飾性內(nèi)容,得到物料的末級分類,同時也是物料的基準(zhǔn)名稱。主數(shù)據(jù)標(biāo)準(zhǔn)中的物料描述對應(yīng)NLP技術(shù)的標(biāo)簽管理功能,需要對物料描述中的內(nèi)容進(jìn)行分詞、標(biāo)注,以此來訓(xùn)練物料描述中關(guān)鍵特征參數(shù)的提取。
(1)目錄提取。在目錄提取階段,采用深度學(xué)習(xí)方法前向和后向長短期記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)+條件隨機場(ConditionalRandomFields,以下簡稱“CRF”)實現(xiàn)命名實體識別。BiLSTM循環(huán)神經(jīng)網(wǎng)絡(luò)通過雙向設(shè)置,能學(xué)習(xí)到觀測序列之間的依賴關(guān)系,自動提取觀測序列的特征。CRF層的加入,可對特征的轉(zhuǎn)移關(guān)系進(jìn)行建模處理。使用BiLSTM+CRF技術(shù)處理輸入的原始物料目錄數(shù)據(jù),從中標(biāo)注出對應(yīng)的實體名詞,標(biāo)注準(zhǔn)確率達(dá)到了99%以上,如圖2所示。
圖2 目錄提取流程
此外,采用基于詞庫和規(guī)則算法來處理實體之間可能存在的多重關(guān)系,如包含與被包含、交叉、互斥等。通過實體提取和實體選擇的算法過程,能夠從物料目錄數(shù)據(jù)中提取出標(biāo)準(zhǔn)化的物料目錄。算法本身已經(jīng)內(nèi)置了大量的通用數(shù)據(jù),可以對常見的物料進(jìn)行目錄提取,隨著訓(xùn)練數(shù)據(jù)的不斷增加、詞庫及規(guī)則的不斷優(yōu)化,目錄提取準(zhǔn)確性也不斷提高。
經(jīng)過算法的提取及優(yōu)化,研究團隊從某集團現(xiàn)有數(shù)據(jù)中提取的目錄數(shù)量為8448個,與類似的大型集團化企業(yè)對比,數(shù)量合理。
(2)特征標(biāo)簽構(gòu)建。物料描述的核心在于屬性的規(guī)范填寫。傳統(tǒng)的物料主數(shù)據(jù)管理方法,一般會按不同的類別設(shè)置核心屬性,進(jìn)行物料的查重等工作。借助NLP的標(biāo)簽管理功能,能夠提取和標(biāo)注物料描述的特征標(biāo)簽,后期則可以依托算法對物料描述進(jìn)行自動識別處理,無需再人工結(jié)構(gòu)化后使用,如圖3所示。
為實現(xiàn)物料特征標(biāo)簽的準(zhǔn)確識別,本方案采用了基于樹型結(jié)構(gòu)的關(guān)鍵字快速匹配算法。該算法能夠解決物料特征標(biāo)簽提取中的同義、近義、別名等模糊匹配問題和正則化問題。
圖3 物料特征構(gòu)建方案
物料特征標(biāo)簽構(gòu)建的另一個核心是梳理物料特征的鍵值對應(yīng)關(guān)系,提供快速匹配算法進(jìn)行規(guī)則匹配。例如,小麥(100206)的渠道可以是國產(chǎn)、進(jìn)口等值域,如圖4所示。該對應(yīng)關(guān)系的梳理在傳統(tǒng)解決方案中通常采用專家人工經(jīng)驗。本方案采用物料特征信息挖掘算法,從歷史數(shù)據(jù)中獲取大量的專家級信息內(nèi)容。具體挖掘過程包括以下步驟。
圖4 物料特征標(biāo)簽識別過程
首先,依據(jù)目錄標(biāo)簽提取技術(shù)對歷史數(shù)據(jù)進(jìn)行分類處理,通過對原始數(shù)據(jù)中的目錄信息的標(biāo)簽化處理,得到目錄的標(biāo)簽值,以標(biāo)簽值作為歷史數(shù)據(jù)的分類依據(jù)。其次,對同類別數(shù)據(jù)進(jìn)行分詞處理,得到各個類別物料的特征詞語集,進(jìn)行詞頻統(tǒng)計并設(shè)定閾值,選取TOP詞作為高頻詞,將得到的高頻詞作為特征項備選庫。最后,采用關(guān)聯(lián)規(guī)則算法對特征詞語集內(nèi)的其它詞語與高頻詞的關(guān)聯(lián)關(guān)系進(jìn)行挖掘分析,得到各個高頻詞的關(guān)聯(lián)關(guān)系詞,將關(guān)聯(lián)關(guān)系詞作為特征值的備選庫。借助人工專家經(jīng)驗對特征項和特征值的備選庫進(jìn)行修正,得到可使用的物料特征信息。
第一步,對歷史數(shù)據(jù)中的目錄標(biāo)簽進(jìn)行分類和提取。通過目錄標(biāo)簽提取技術(shù),研究團隊能夠自動識別和提取原始數(shù)據(jù)中的目錄信息,并將其轉(zhuǎn)化為標(biāo)準(zhǔn)化的標(biāo)簽值。標(biāo)簽值作為分類依據(jù),使得數(shù)據(jù)能夠按照預(yù)設(shè)的類別進(jìn)行組織,從而便于后續(xù)的處理和分析。
第二步,對同一類別的數(shù)據(jù)進(jìn)行分詞處理。這一步驟涉及將文本數(shù)據(jù)分解為單個的詞匯單元,以便更好地理解和分析數(shù)據(jù)內(nèi)容。通過分詞,研究團隊能夠識別出各個類別物料的特征詞語集,這些詞語集包含了與特定物料類別密切相關(guān)的詞匯。
第三步,對詞頻統(tǒng)計,以確定每個類別中出現(xiàn)頻率最高的詞匯。這些高頻詞匯被視為特征詞,它們在物料描述中出現(xiàn)的概率較高,因此能夠作為物料分類的重要依據(jù)。通過設(shè)定一個合理的閾值,篩選出TOP詞,即在特定類別中出現(xiàn)頻率最高的詞匯,這些詞匯構(gòu)成了特征項備選庫。
第四步,通過關(guān)聯(lián)規(guī)則算法進(jìn)一步豐富物料的特征信息,以便揭示數(shù)據(jù)集中不同項之間的關(guān)聯(lián)性。通過分析特征詞語集內(nèi)的其他詞語與高頻詞之間的關(guān)聯(lián)關(guān)系,研究團隊能夠挖掘出與高頻詞強關(guān)聯(lián)的其他詞匯。這些關(guān)聯(lián)關(guān)系詞被納入特征值備選庫,可以為物料的詳細(xì)特征描述提供額外信息。之后,人工專家能夠根據(jù)實際業(yè)務(wù)需求和行業(yè)知識,對算法提取的特征項和特征值備選庫進(jìn)行校正和優(yōu)化。至此,研究團隊得到了可以信賴、經(jīng)過驗證的物料特征數(shù)據(jù),同時也為后續(xù)的數(shù)據(jù)高效清洗奠定了基礎(chǔ)。
為保證數(shù)據(jù)質(zhì)量,需要進(jìn)行人工完善優(yōu)化。研究團隊根據(jù)某集團實際業(yè)務(wù)情況,組建由不同品類專家構(gòu)成的多個工作小組和總體組,其中總體組負(fù)責(zé)各小組的工作協(xié)調(diào),工作小組基于NLP技術(shù)采集來的物料目錄、數(shù)據(jù)提取產(chǎn)品屬性特征、常用描述等數(shù)據(jù)要素,微調(diào)優(yōu)化形成各自品類的主數(shù)據(jù)標(biāo)準(zhǔn)。總體組將各小組輸出的標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行總體梳理,形成分類標(biāo)準(zhǔn)、分類描述、分類編碼規(guī)則、物料標(biāo)準(zhǔn)、物料描述規(guī)則、物料編碼規(guī)則。經(jīng)過整合后,最終形成某集團主數(shù)據(jù)標(biāo)準(zhǔn)。其中分類標(biāo)準(zhǔn)包含物料大類29個、中類415個、小類2733個、細(xì)類8448個,標(biāo)簽特征參數(shù)9874個,特征參數(shù)值域近10萬個。
在數(shù)據(jù)采集階段,研究團隊已經(jīng)收集了大量物料編碼數(shù)據(jù),但存在數(shù)據(jù)標(biāo)準(zhǔn)不一、描述不規(guī)范不一、整體質(zhì)量不高等問題,亟需進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)清洗過程的難點有:物料分類錯誤或交叉;物料描述不規(guī)范,屬性填寫錯誤或關(guān)鍵屬性缺失;物料描述包含“-”“—”“/”“*”“×”等特殊字符。
研究團隊運用NLP技術(shù)開發(fā)了一套智能物料管理工具,對大量數(shù)據(jù)進(jìn)行智能清洗,針對性解決了物料清洗中的難題。該工具能實現(xiàn)以下兩大功能:
①智能識別分類:通過算法目錄提取功能,自動識別集團分類歸屬,對于未能推薦的分類可以人工補充;
②智能識別關(guān)鍵參數(shù):通過算法識別物料描述關(guān)鍵參數(shù),形成結(jié)構(gòu)化數(shù)據(jù)。
借助智能物料管理工具,研究團隊對歷史數(shù)據(jù)進(jìn)行了清洗,按照新類別對數(shù)據(jù)重新歸類,按照算法對物料描述進(jìn)行識別處理,解決了因前后順序、特殊字符、描述不規(guī)范等造成的一物多碼的問題。對于歷史物料編碼數(shù)據(jù),按照新的規(guī)則進(jìn)行集中統(tǒng)一賦碼,實現(xiàn)了各專業(yè)化公司原編碼與集團物料主數(shù)據(jù)編碼的自動映射,形成N:1的對應(yīng)關(guān)系。通過清洗整合,共產(chǎn)生集團編碼80余萬條。
研究過程中,團隊以系統(tǒng)應(yīng)用為目標(biāo),集團物料編碼采用雙編碼方式
雙編碼模式:在系統(tǒng)中展示的編碼為分類+流水碼的形式,但是系統(tǒng)后臺中會通過算法對物料描述進(jìn)行識別處理,形成一個有含義的特征碼。編碼在系統(tǒng)各表單中進(jìn)行展示,特征碼用于物料描述的查重、查詢。,即:表現(xiàn)層為分類碼+流水碼,使用場景是數(shù)據(jù)的呈現(xiàn)和流轉(zhuǎn);隱含層為分類碼+特征碼,使用場景是數(shù)據(jù)的映射和應(yīng)用。隱含層編碼由計算機根據(jù)上述構(gòu)建好的物料特征標(biāo)簽自動生成,集團和相關(guān)專業(yè)化公司物料主數(shù)據(jù)都生成隱含層編碼后,以隱含層編碼作為橋梁,進(jìn)行新舊表現(xiàn)層編碼的映射。
以某型號空調(diào)為例,表現(xiàn)層編碼及隱含層編碼如圖5所示。
圖5 雙編碼方式示意
目前在某集團,物料主數(shù)據(jù)已經(jīng)打通了集采商城、集團ERP以及專業(yè)化公司相關(guān)系統(tǒng)(如圖6所示)。在集團E采平臺中的需求計劃、尋源管理、招標(biāo)投標(biāo)、協(xié)議訂單等環(huán)節(jié)都可以看到物料主數(shù)據(jù)的應(yīng)用。
圖6 物料主數(shù)據(jù)在集團各系統(tǒng)中的布局示意
業(yè)務(wù)部門在采購物資時需生成請購單,但傳統(tǒng)系統(tǒng)中信息孤島導(dǎo)致技術(shù)規(guī)格參數(shù)不全面,影響采購質(zhì)量。在需求計劃中引入物料主數(shù)據(jù)編碼可以解決這一問題,進(jìn)而實現(xiàn)采購數(shù)據(jù)標(biāo)準(zhǔn)化,統(tǒng)一管理物資品目和規(guī)格型號。這有助于采購預(yù)算管理、供應(yīng)商評審和比價,提升采購效率和質(zhì)量。物料編碼的統(tǒng)一化使得集團能實施規(guī)?;胁少彛齼?yōu)質(zhì)供應(yīng)商,形成有競爭力的環(huán)境。這不僅提高了采購質(zhì)量,還對供應(yīng)商提出了更高要求,促使供應(yīng)鏈結(jié)構(gòu)優(yōu)化,只有具備一定規(guī)模和實力的供應(yīng)商才能參與大型項目,從而推動集團供應(yīng)鏈的整體升級。
采購部門在處理集采項目時,傳統(tǒng)方法在分標(biāo)或分包件上主觀性強,缺乏科學(xué)標(biāo)準(zhǔn),可能導(dǎo)致供應(yīng)商競爭不足或流標(biāo)。此環(huán)節(jié)接入物料主數(shù)據(jù)編碼和大量的已成交編碼數(shù)據(jù),并對歷史的采購數(shù)據(jù)和采購行為進(jìn)行預(yù)分析處理,結(jié)合采購物料的分類歸屬情況,可以形成不同物料之間的關(guān)系知識圖譜模型。借助該模型可以對當(dāng)前集采項目的清單明細(xì)進(jìn)行有效的社團劃分,實現(xiàn)快速的分標(biāo)或包件劃分。
在制定采購計劃后,設(shè)計采購方案時涉及多種采購方式,成本評估挑戰(zhàn)重重,通常依賴人工進(jìn)行供應(yīng)商報價的橫向和縱向比較,效率低且主觀。借助物料主數(shù)據(jù)編碼,可以實現(xiàn)對大量歷史物料數(shù)據(jù)的分析,將不同供應(yīng)商的響應(yīng)明細(xì)進(jìn)行快速匹配,構(gòu)建橫向比較的基礎(chǔ),同時還可以借助品目分類形成數(shù)據(jù)標(biāo)簽,實現(xiàn)當(dāng)前物料明細(xì)與歷史同類物料明細(xì)的縱向比較。這樣通過標(biāo)準(zhǔn)化轉(zhuǎn)換的物料,其規(guī)格參數(shù)和報價金額的差異可直觀的進(jìn)行比對,采購人或評審專家可借助對比結(jié)果合理的制定采購預(yù)算。
在供應(yīng)商尋源并確立采購協(xié)議、合同或訂單后,物資價格對企業(yè)成本管理至關(guān)重要。傳統(tǒng)的成本更依賴于人工,效率低且有誤差。通過物料主數(shù)據(jù)編碼的應(yīng)用,無論是集中采購還是分散采購的物資,都能實現(xiàn)編碼一致性,便于直接比較價格。計算機程序能自動篩選出價格差異顯著的物資,簡化成本控制過程。
本研究實現(xiàn)了NLP技術(shù)在大型企業(yè)主數(shù)據(jù)治理建設(shè)中的良好應(yīng)用。初步測算,主數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)需投入的專家人數(shù)與傳統(tǒng)方式相比,減少50%,工作方式由脫產(chǎn)集中辦公變?yōu)槿斯けO(jiān)督確認(rèn),項目投入人力及時間成本整體降低77%,如圖7所示。
本研究清洗完成后的數(shù)據(jù)約為80萬條,使用傳統(tǒng)方式處理則至少需要6個月,且需投入大量人力,而本研究中兩名數(shù)據(jù)處理人員僅耗時1個月就完成了全部數(shù)據(jù)處理,整體效率提高90%以上。同時,隨著主數(shù)據(jù)在企業(yè)信息系統(tǒng)中的深度應(yīng)用,實現(xiàn)了標(biāo)準(zhǔn)數(shù)據(jù)在各業(yè)務(wù)流的廣泛存在,為后期數(shù)據(jù)精準(zhǔn)分析、價格監(jiān)控預(yù)警、供應(yīng)商品類管理奠定了基礎(chǔ)。
但也面臨一些挑戰(zhàn)。首先,隨著物料品類的豐富,算法要隨之持續(xù)迭代優(yōu)化。其次,人工復(fù)核的過程需要更好地協(xié)調(diào),以提高效率。最后,研究過程中也遇到了一些潛在問題,如數(shù)據(jù)安全性和隱私問題。
圖7 采用NLP技術(shù)實現(xiàn)降本增效對比
ChatGPT等大語言模型的出現(xiàn)和應(yīng)用,使得機器能夠理解和生成更加豐富和復(fù)雜的文本,這一技術(shù)為物料識別、標(biāo)注以及算法訓(xùn)練提供了新的可能性。未來,可以預(yù)見到大模型技術(shù)將在物料管理中的應(yīng)用將更加廣泛和深入。通過將這些強大的語言處理能力與現(xiàn)有的智能物料算法模型相結(jié)合,能夠構(gòu)建出更加高效和智能的物料管理系統(tǒng)。具體來說,大型語言模型可以作為系統(tǒng)的輸入層,負(fù)責(zé)理解和解析物料的描述信息,而現(xiàn)有的智能物料算法模型則可以作為輸出層,負(fù)責(zé)執(zhí)行具體的物料分類、編碼和庫存管理任務(wù)。通過深度學(xué)習(xí)技術(shù),這兩種模型可以被有效地融合在一起,形成一個統(tǒng)一的、高度智能化的物料管理框架。這一技術(shù)框架,不僅有助于減少人工干預(yù),還能提高物料識別的準(zhǔn)確性,從而減少因描述不規(guī)范導(dǎo)致的物料編碼錯誤。同時,這種融合模型還能夠通過持續(xù)學(xué)習(xí)和優(yōu)化,不斷提升其性能和實用性,以適應(yīng)不斷變化的物料主數(shù)據(jù)管理需求。
隨著數(shù)據(jù)訓(xùn)練數(shù)量的增加和處理能力的增強,數(shù)據(jù)安全問題也日益凸顯。為了保護核心關(guān)鍵數(shù)據(jù),必須建立一套全面的安全保護機制。這包括實施嚴(yán)格的身份認(rèn)證流程,確保只有授權(quán)用戶才能訪問敏感數(shù)據(jù);執(zhí)行訪問控制策略,限制用戶對數(shù)據(jù)的訪問權(quán)限,防止未經(jīng)授權(quán)的數(shù)據(jù)泄露;采用加密技術(shù)保護數(shù)據(jù)在傳輸和存儲過程中的安全;以及加強網(wǎng)絡(luò)安全防護,防止外部攻擊和內(nèi)部威脅。通過這樣的安全措施,可以在享受大模型技術(shù)帶來的物料管理效率提升的同時,確保數(shù)據(jù)的安全性和完整性,為企業(yè)的長期穩(wěn)定發(fā)展提供堅實的保障。
一是NLP技術(shù)提高了數(shù)據(jù)處理效率。在數(shù)據(jù)處理方面,通過應(yīng)用物料數(shù)據(jù)智能化處理技術(shù),在較短時間內(nèi)完成了全部數(shù)據(jù)的梳理工作,統(tǒng)一了全集團物料主數(shù)據(jù)目錄并建立了相應(yīng)的物料主數(shù)據(jù)庫,整體減少人工工作量約80%。
二是NLP技術(shù)提高了主數(shù)據(jù)管理能力。本研究中,團隊將NLP應(yīng)用到主數(shù)據(jù)日常管理工具中,便于從數(shù)據(jù)的新增源頭進(jìn)行管控,為企業(yè)提供更加準(zhǔn)確和及時的數(shù)據(jù)支持,有效助力企業(yè)經(jīng)營管理決策。研究成果獲得2023年度中國物流與采購聯(lián)合會科技進(jìn)步三等獎。
三是NLP技術(shù)將帶來行業(yè)技術(shù)提升。通過對大型企業(yè)應(yīng)用NLP技術(shù)開展物料主數(shù)據(jù)治理的實踐進(jìn)行研究,表明該技術(shù)在物料主數(shù)據(jù)治理中的應(yīng)用價值和前景較好。未來可在本研究基礎(chǔ)上,探討進(jìn)一步拓展人工智能技術(shù)在行業(yè)物料主數(shù)據(jù)治理中的應(yīng)用范圍,不斷提高模型泛化能力,從而助力更多企業(yè)實現(xiàn)物料主數(shù)據(jù)治理水平的提升。
[1]張德進(jìn),王磊,尤靜,等.企業(yè)主數(shù)據(jù)分析與表達(dá)技術(shù)研究[J].機械設(shè)計與研究,2008.
[2]陳凱,路銀北.鋼鐵企業(yè)信息化中MES與ERP的集成應(yīng)用[J].自動化與儀表,2011.
[3]王道平,徐曉靜,張偉榮.SAPR/3物料管理中物料主數(shù)據(jù)的應(yīng)用[J].科技管理研究,2010.
[4]畢子健,王翎穎.物資主數(shù)據(jù)標(biāo)準(zhǔn)化管理探究.[J].中國電力教育,2014.
[5]陳景文.主數(shù)據(jù)管理:打造大數(shù)據(jù)時代企業(yè)核心競爭力[J].通信世界,2014.
[6]張俊華.集團主數(shù)據(jù)貫標(biāo)實施的策略與方法[J].CAD/CAM與制造業(yè)信息化,2014.
[7]陳彥.淺談企業(yè)ERP物料主數(shù)據(jù)管理與維護[J].電子制作,2014.
[8]王里勻.淺述企業(yè)中SAP物料主數(shù)據(jù)管理的技術(shù)實現(xiàn)[J].科技創(chuàng)業(yè)家,2013.
[9]楊智偉.ERP系統(tǒng)物料主數(shù)據(jù)的標(biāo)準(zhǔn)化管理[J].石油石化物資采購,2013.
[10]張義強,欒平景,裘敬發(fā),等.物料主數(shù)據(jù)標(biāo)準(zhǔn)體系及其在ERP中的作用與影響[J].鐵道技術(shù)監(jiān)督,2013.
[11]和軼東,張怡,曹乃剛.SAPMDM主數(shù)據(jù)管理[M].北京:清華大學(xué)出版社.2013.
[12]趙飛.基于全生命周期的主數(shù)據(jù)管理[M].北京:清華大學(xué)出版社.2015.
[13]張光宇.基于主數(shù)據(jù)的企業(yè)信息化管理的研究與實現(xiàn)[D].綿陽:西南科技大學(xué),2017.
[14]謝洪彥.主數(shù)據(jù)資源庫驅(qū)動的工裝應(yīng)用過程管控系統(tǒng)設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué),2018.
[15]劉藝飛.面向大數(shù)據(jù)應(yīng)用的鐵路主數(shù)據(jù)管理關(guān)鍵技術(shù)研究[D].北京:中國鐵道科學(xué)研究院,2018.
[16]馬馥穎.主數(shù)據(jù)系統(tǒng)項目風(fēng)險管理研究[D].北京:北京郵電大學(xué),2021.
[17]馬曉華.基于自然語言處理技術(shù)的IT治理審計方法研究[D].安陽:安陽師范學(xué)院商學(xué)院,2021.
[18]陳楊.基于自然語言處理及知識圖譜的搜索系統(tǒng)設(shè)計與實現(xiàn)[D].北京:北京工業(yè)大學(xué),2022.
[19]MARCUSM,SANTORINIB,MARCINKIEWICZM.BuildingalargeannotatedcorpusofEnglish[J].Thepenntreebank,1993.
[20]TIANY,SONGY,AOX,etal.JointChinesewordsegmentationandpart-of-speechtaggingviatwo-wayattentionsofauto-analyzedknowledge[J].Anthology,2020:8286-8296.
[21]COLLOBERTR,WESTONJ,BOTTOUL,etal.Naturallanguageprocessing(almost)fromscratch[J].Journalofmachinelearningresearch,2011:2493-2537.
[22]ZHENGS,HAOY,LUD,etal.Jointentityandrelationextractionbasedonahybridneuralnetwork[J].Neurocomputing,2017:59-66.
[23]MIKOLOVT,CHENK,CORRADOG,etal.Distributedrepresentationsofwordsandphrasesandtheircompositionality[J].Advancesinneuralinformationprocessingsystems,2013.
[24]WOOLFBP.Buildingintelligentinteractivetutors:student-centeredstrategiesforrevolutionizinge-learning[J].Morgankaufmann,2010.
[25]LEEK,HEL,LEWISM.,etal.End-to-endneuralcoreferenceresolution,proceedingsofthe2017conferenceonempiricalmethodsinnatural[J].Languageprocessing,2017:188-197.
TheApplicationofNLPTechnologyintheprocurementMaterial
MasterDataGovernancePracticesinLargeEnterprises:
TakingaCertainGroupasAnExample
ZHAOWei1,HOUFang-dong2,WUHao1,F(xiàn)ENGQing2,HOUYa-ming2,LIUYan-xi2,WANGXu2
(1.COFCOGroupCo.,Ltd.,Beijing100020;
2.COFCOInformationTechnologyCo.,LTD.,Beijing100020)
Abstract:
Themainresearchcontentsofthispaperareasfollows.First,Theresearchbackgroundofthemaindataandtheapplicationstatusofthedomesticandforeignresearcharecomprehensivelyintroduced;secoud,theoreticalresearchonthedatagovernanceofbusinessownersisconducted,includingthecomposition,methodologyandmaturitymodelevaluationofmasterdatagovernance;third,takeacertaingroupasanexanple,andconductthedemandresearchandanalysisofthematerialdatamanagement,Analyzetheproblemsencounteredintheinformationconstruction,introduceNLP(naturallanguageprocessing)technology,throughthemodeldesignandthestepwiseoptimization,Soastoimprovethequalityandefficiencyofmaterialclassificationandsorting,attributeextraction,datastructuring,datastandardization,dataweightcheckandotherlinks.Asetofmaterialmasterdatamanagementschemesuitableforthecertaingroupisdesiqned;
Comparedwiththetraditionalmaterialmasterdataconstructionmode,thecoreofthistechnologyliesinthatthematerialdataidentificationandprocessingisreplacedbyintelligentalgorithm,whichimprovesthequalityandefficiencyofwork,isinlinewiththetrendoftechnologydevelopment,andprovidesanewpathforthestandardizationconstructionofthematerialspurchasedbymanylargeenterprises.
Keywords:NLP;materialprocurement;masterdatagovernance;standardization