孫 坦,丁 培,黃永文,鮮國建
(1.中國農(nóng)業(yè)科學院,北京 100081;2.深圳大學圖書館,深圳 518060;3.中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所,北京 100081)
開放科學大背景下,開放出版及開放獲取運動的大潮推動各類知識資源及服務的開放共享化,人們可利用的開放信息資源和語料逐步增多。同時,隨著人工智能技術,特別是深度學習技術不斷取得突破性進展,文本挖掘技術已經(jīng)成為科技文獻資源開發(fā)利用的核心驅(qū)動力,以文本挖掘為核心的知識服務技術體系已經(jīng)基本完善,全新的數(shù)據(jù)密集型科學發(fā)現(xiàn)的科技創(chuàng)新生態(tài)正悄然形成,而支撐新生態(tài)的知識服務呈現(xiàn)出了新業(yè)態(tài),并在積極適應新的知識生態(tài)環(huán)境。
知識服務新業(yè)態(tài)表現(xiàn)在以下3個方面:①面向?qū)iT知識發(fā)現(xiàn)及知識服務需求,以問題解答為導向的人機交互式迭代過程,新的知識服務需要建立針對具體領域問題的專門知識服務系統(tǒng);②以知識服務技術、模型、算法、工具、系統(tǒng)為支撐,融合知識組織與認知計算,嵌入各種計量分析、演化分析、可視化分析、協(xié)同推理在內(nèi)的認知搜索、知識發(fā)現(xiàn)、智能推薦及智能問答服務;③新的知識服務系統(tǒng)和工具不是獨立存在的,它們將積極適應新型的數(shù)據(jù)密集型科學發(fā)現(xiàn)的知識生態(tài)環(huán)境。
文本挖掘作為知識服務技術的核心,其在知識服務新業(yè)態(tài)環(huán)境下面臨新的挑戰(zhàn)。盡管國內(nèi)學界、業(yè)界一直對文本挖掘領域保持著深入研究、持續(xù)追蹤,但從戰(zhàn)略出發(fā),中國在新的科技創(chuàng)新業(yè)態(tài)下仍面臨自主可控性的安全挑戰(zhàn)。具體表現(xiàn)在支持科技創(chuàng)新的文本挖掘其模型、算法、工具多數(shù)非自主產(chǎn)權,支撐文本挖掘技術的通用語料庫、基礎知識庫等戰(zhàn)略基礎資源和設施也未掌握在國人手中。筆者以文本挖掘技術為中心,梳理其技術框架,結(jié)合農(nóng)業(yè)領域應用描繪其在知識服務新業(yè)態(tài)下的發(fā)展方向,最終結(jié)合國情實際提出文本挖掘為主的知識服務技術的發(fā)展策略。
主流觀點認為[1-5]數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的一個步驟,其指從給定數(shù)據(jù)中抽取出隱含的、以前未知的、潛在有用的知識的過程。從廣義的數(shù)據(jù)挖掘范圍看,文本挖掘可看作是數(shù)據(jù)挖掘的一類,或是數(shù)據(jù)挖掘在文本數(shù)據(jù)中的應用[1,2]。因而文本挖掘又稱為文本知識發(fā)現(xiàn),是指從自由非結(jié)構化文本數(shù)據(jù)中發(fā)現(xiàn)、挖掘知識的過程。整體來看,目前文本挖掘研究主要涉及三大熱門方向:①以信息檢索、文本摘要、意見挖掘與情感分析為代表的文本知識發(fā)現(xiàn)的主要模式研究;②文本挖掘相關的技術方法研究,如自然語言處理、文本信息抽取、無監(jiān)督學習、有監(jiān)督學習、文本挖掘的概率方法以及針對文本流和社交媒體的挖掘;③應用研究。由于生物醫(yī)學領域本身資源的開放性,以及生物醫(yī)學領域本身具有非常豐富的語義關系,文本挖掘率先在生物醫(yī)學領域中得到應用,此外近幾年在農(nóng)業(yè)領域[6]、金融領域[7]等也有大量的應用案例。
最早的文本挖掘模型是1998 年FELDMAN 提出的文本知識發(fā)現(xiàn)框架[8],隨后多位研究者總結(jié)了不同的文本挖掘通用模型。隨著對文本挖掘技術研究的深入,學者們又提出了針對具體問題的多個領域文本挖掘模型。相關文本挖掘模型及流程研究對比如表1 所示。
整體來看,文本挖掘的整個技術流程有多個關鍵技術節(jié)點不可缺失,即文本挖掘至少包括預處理、文本表示和編碼、文本分類或聚類、信息抽取這4 部分內(nèi)容。下文對這4個技術點進行梳理總結(jié)。
自由文本的非結(jié)構化特性決定其挖掘模式不同于結(jié)構化數(shù)據(jù),因此需要對文檔或文本數(shù)據(jù)實施預處理。預處理首先要分析文本結(jié)構及內(nèi)容,借助工具使其轉(zhuǎn)變成純文本內(nèi)容,消除格式差異。例如對網(wǎng)頁文檔去除各種HTML 標記、腳本,將PDF 文檔轉(zhuǎn)換格式輸出為TXT 文檔。隨后對純文本實施分詞、過濾和歸一處理。分詞根據(jù)不同語言文本有所區(qū)別。英文文本內(nèi)分詞包括去除空格、標記、標點等,將語句還原成詞和短語;中文文本沒有固定分隔符,分詞相對復雜,有基于規(guī)則、基于統(tǒng)計和基于理解的分詞方法[16]。過濾即構建停用詞表把停用詞、半停用詞過濾掉。歸一,又稱為詞形還原,是指對一個詞不同的時態(tài)表現(xiàn)形式實施歸一,其中詞干提取法是英文文本挖掘內(nèi)應用最廣的歸一方法,通過詞干提取完成文本數(shù)據(jù)歸一。
文本表示和編碼,即數(shù)字知識表示,該步驟將自然語言文本變成計算機可處理的數(shù)字知識表示模式?,F(xiàn)有的文本處理或挖掘研究大都基于離散的詞表示為基礎的文檔表示模型,盡管有研究者提出更加復雜的概念圖模型[17]或概念解析文本表示模型[18],但由于領域概念網(wǎng)絡構建的復雜性,這類表示并未成為主流。詞表示分為布爾邏輯模型、詞袋模型、N-gram 模型等方法。早期采用布爾邏輯二值表示法[19],利用0 和1 表示文檔內(nèi)是否出現(xiàn)某個詞,以幫助快速檢索,但結(jié)果缺乏相關性特征。N-gram 模型是解決不同語言文本詞切分不一致問題而產(chǎn)生的詞表示方法,主要應用在中文文本表示中。詞袋模型(Bag of Words)是最常見的文本表示方式方法。它在二值表示法基礎上,將所有詞語裝進一個袋子,計算每個單詞出現(xiàn)的次數(shù),一段文字或一個文檔即可表示為N維的向量。文本挖掘需要對詞袋模型的維度實施降維,研究者提出信息增益-互信息-交叉熵[20]、主成分分析[21]、線性判別分析[22]、潛在語義索引[23](LSI)、概率潛在語義索引(PLSA)[24]及主題模型[25]等不同的降維方法,目前后3 種方法較為常用。
表1 文本挖掘模型及流程對比Table 1 Comparison of text mining models and workflows
在詞袋模型基礎上,文檔表示可以采用向量空間模型(VSM)、概率模型[26]和推理網(wǎng)絡模型[27]等。其中,向量空間模型是使用最為廣泛、比較成熟的文檔表示模型。TF-IDF 是空間向量模型中用于特征權重計算的常見方法,有良好的性能表現(xiàn)。TF-IDF 基于詞頻和逆文檔頻率有效表示文檔,其中IDF 逆文檔頻率可以過濾掉文檔中的高頻通用詞。其他的特征權重計算方式還有基于隨機投影Gram-Schmidt 的正交化法[28]、卡方法[29]、拉普拉斯分值法[30]、互信息方法[31]等。
傳統(tǒng)的向量空間模型是一個高維的稀疏向量,并且無法解釋不同詞語之間的關系問題。在神經(jīng)網(wǎng)絡模型支持下,MIKOLOV 等[32,33]使用連續(xù)詞袋法CBOW(Continuous Bag-of-Words)和Skip-Gram 兩個模型,通過上下文內(nèi)容來描繪一個詞的表示形式,得到可以表示語義相關性的低維稠密向量,這種文本表示稱為分布式詞嵌入表示。在此基礎上產(chǎn)生了一系列的詞向量表示模型,例如Paragraph Vector模型[34]、Skip-Thought Vectors模型[35]、Conv/LSTM-GRNN模型[36]、Hierarchical Attention Networks(HAN)模型[37]等。
文本分類和聚類是對文本實施淺層挖掘,識別分類信息。信息檢索就是以文本分類和聚類結(jié)果為基礎的文本挖掘應用。文本分類主要基于3 類模型:邏輯模型(如決策樹)、概率模型(如樸素貝葉斯)、幾何模型(如支持向量機)。它們的共同特點是:預先有一個知識分類框架或者知識分類的規(guī)則,然后按照該框架和規(guī)則對每一篇文檔或每一段文本逐一地進行處理和分類。鄰近分類器和神經(jīng)網(wǎng)絡算法是文本分類任務中比較成熟和流行的方法。
文本聚類是在沒有預先定義知識框架、規(guī)則和類別的情況下,自動產(chǎn)生文本分類的過程。文本聚類主要有以下3個方法(圖1):①層次聚類法[38],分自頂向下、自下向上兩大類;②分區(qū)聚類,典型例子是K均值聚類[39],即圍繞某一篇文檔,將與它語義相似度最近的集合分為一類,從而通過聚類形成分類;③概率聚類和主題模型,包括概率潛在語義分析模型(PLSA)和隱含狄利克雷分布(LDA)。其中,LDA 相關研究很多,產(chǎn)生了監(jiān)督LDA(sLDA)、分層LDA(hLDA)、分層彈球分配模型(HPAM)等模型變種。主題模型應用很廣,例如采用基于LDA 的本體主題模型進行自動主題標注和語義標注[40],采用基于知識的主體模型進行上下文感知的推薦[41],以及基于LDA 為實體消除歧義定義更復雜的主題模型[42]等。
信息抽取是文本挖掘最核心的技術,負責從文本數(shù)據(jù)中抽取出結(jié)構化的文本信息并獲得知識初始模式。它主要包括兩方面內(nèi)容,一是命名實體識別,二是關系抽取。
命名實體識別有多種方法。①基于詞典的方法。如AKHONDI 等在ChEBI 和HMDB 化學詞表的基礎上,基于LeadMine 工具對化學物進行語法識別和抽取[43]。②基于預定規(guī)則的方法。根據(jù)預定義的語法、句法規(guī)則(人工總結(jié)[44]、基于啟發(fā)式的規(guī)則學習[45]、或機器學習歸納)來抽取文檔內(nèi)實體。③基于統(tǒng)計的機器學習方法。該方法從標注過的訓練文集中,讓機器歸納實體識別的模式,然后基于模式在不同算法下識別新實體。
圖1 文本聚類主要方法及應用Fig.1 Main methods and applications of text clustering
機器學習算法模型可分為3 類:①基于分類的算法,如樸素貝葉斯、支持向量機。②基于序列的方法,如隱馬爾科夫模型、條件隨機場以及最大熵馬爾科夫模型,代表系統(tǒng)包括MnM[46]、Amilcare[47]、BioTagger-GM[48]等。③混合方法。④基于本體的實體識別方法。細分為本體構建和本體擴展兩種[49]。前者識別本體中的概念和屬性,基于種子概念(領域中常見術語)和模式學習來擴展更多的概念,如Text-To-Onto;后者則偏重于實例和屬性值層次,借助本體(如敘詞表)中的實例及同義詞環(huán)來識別實體,如PANKOW、OntoSyphon、Kylin、SOBA 等。⑤基于深度學習的方法。自2018 年底谷歌發(fā)布BERT 以后,基于BERT 的信息抽取受到廣泛關注,提出了諸多基于BERT 的改進模型和衍生模型,如華盛頓大學提出的RoBERTa,清華提出的ERNIE,北京大學、騰訊和北京師范大學共同提出的K-BERT、哈爾濱工業(yè)大學提出的BERT-WWM 等。
關系抽取相比實體抽取更為復雜,通常要借助句法規(guī)則、上下文內(nèi)容來發(fā)現(xiàn)關系。關系抽取方法大致分為3 種,即基于規(guī)則、基于共現(xiàn)和基于分類的關系抽取。
基于規(guī)則的關系抽取借助自然語言處理研究中的句法分析和語義分析工具,基于預定義的模式和特定語法關系匹配規(guī)則對語句關系實施模式匹配。例如為獲取生物分子之間的綁定和制約關系,定義動詞“bind”關系模板[50],編寫動詞“inhibit”模板[51]。ONO等提出基于模式的系統(tǒng),使用簡單詞的人工編碼規(guī)則和標注詞性的模式,抽取生物醫(yī)學文獻摘要中的特殊種類蛋白質(zhì)間的交互關系[52];PARK 等提出基于可組合分類語法的深層分析器,通過定位動詞,掃描動詞左右部文本,獲得文本語法成分[53];TEMKIN 等基于上下文無關文法和詞典分析程序來抽取基因和蛋白質(zhì)間的交互關系[54];SEMREP[55]基于統(tǒng)一醫(yī)學語言系統(tǒng)(UMLS)利用指示規(guī)則(Indicator Rules)抽取生物文獻語句中的語義謂項。
基于共現(xiàn)原理的關系抽取的基本原理是如果兩個實體在同一個語句、段落、文章中出現(xiàn)時,那么兩者必然存在某種關系。STAPLEY 等借助共現(xiàn)方法在Medline 記錄中檢測基因名間的相互關系[56]。
簡單同現(xiàn)提取的關系類型通常是未知的,通過應用一定的文本分類技術可以支持特定實體關系的提取,這是基于分類的關系抽取方法。CRAVEN 等采用貝葉斯分類器來求解同一語句中兩個及以上實體間是否存在交互關系的概率[57];DONALDSON 等利用支持向量機來抽取蛋白質(zhì)相互作用關系[58];LIU 等同樣利用支持向量機分類方法,結(jié)合遞歸算法來抽取生物實體間的事件[59]。機器學習的方法免去了人工建立模式或者規(guī)則所需的繁重努力,通過對一個訓練集的學習自動建立分類模型來判定蛋白質(zhì)之間的交互關系[60]。
梳理總結(jié)文本挖掘技術框架可以發(fā)現(xiàn),文本挖掘技術正日漸成熟并逐步見諸領域?qū)嵱?。農(nóng)業(yè)領域文本挖掘的熱點主要分布在信息檢索、信息抽取和情感分析3個方面。其中,信息檢索研究不僅關注通常意義上的檢索,還包括研究農(nóng)業(yè)問答技術和文本分類。信息抽取研究最為熱門,除信息抽取策略外,研究還涉及命名實體檢測、監(jiān)視、知識抽取、食品價格預測和農(nóng)場管理等內(nèi)容。文本情感分析和意見挖掘在農(nóng)業(yè)領域中研究相對較弱,最不熱門,主要研究方向是預測害蟲的嚴重性、未來的食品價格以及民意挖掘。筆者結(jié)合案例分析文本挖掘在農(nóng)業(yè)信息檢索、智能問答、信息監(jiān)測和知識抽取等方面應用。
文本挖掘很早便應用于農(nóng)業(yè)信息檢索。20 世紀60年代,農(nóng)民就可以在計算機系統(tǒng)內(nèi)利用信息檢索來識別農(nóng)業(yè)文檔,并幫助決策[61]。近年來,隨著文本挖掘技術持續(xù)深入,傳統(tǒng)農(nóng)業(yè)信息檢索呈現(xiàn)以下3 方面的趨勢:①農(nóng)業(yè)信息檢索趨向基于本體推薦語義相關術語來優(yōu)化查詢,或者使用“信息鏈接”技術作為擴展關鍵字搜索策略的一部分;②TF-IDF 模型在信息檢索系統(tǒng)內(nèi)廣泛應用,但其無法準確表達用戶查詢意圖,研究者傾向于借助語義或關系抽取解決該問題;③更多農(nóng)業(yè)文本分類使用不預設分類的無監(jiān)督學習聚類方法,并對文本聚類結(jié)果實施語義增強后,形成基礎知識庫,為用戶提供語義更精準的信息搜索服務。
文本挖掘技術結(jié)合本體應用可以有效提高信息檢索系統(tǒng)的發(fā)現(xiàn)效率?;诒倔w的文本挖掘能夠擴展檢索系統(tǒng)的關鍵詞搜索策略,還可以幫助系統(tǒng)理解用戶的檢索意圖,確保查詢詞在正確的上下文中使用,從而提高信息檢索的召回率和準確率。例如,本體的類包括植物作物名稱、作物描述、花期、施肥、蟲害等。因此在信息檢索中,由于使用詞頻和逆文檔概率通常會忽略用戶查詢術語的意圖,當嵌入本體之后,可以借助本體的語義關系確保查詢詞在正確的上下文中使用,幫助消除詞語的歧義,從而有效地提高檢索系統(tǒng)的召回率和準確性。
文本挖掘技術改進信息檢索系統(tǒng)的案例有PADIWeb[62]、CyberBrain 等。PADI-Web 是法國開發(fā)的一個針對非洲豬瘟、禽流感、藍舌病等動物流行性疾病的語義搜索引擎,它的核心組件采用基于規(guī)則的信息抽取和數(shù)據(jù)挖掘技術,通過文檔向量和數(shù)據(jù)融合的方法自動從Google 新聞中收集、處理和提取英語流行病學信息,如發(fā)病新聞報道的位置、時間和主題特征(疾病宿主和疾病特征,其中疾病特征包括疾病名稱、爆發(fā)病例數(shù)等),并將挖掘后形成的數(shù)據(jù)和知識提供給動物衛(wèi)生局。CyberBrain 是由泰國國家電子和計算機研究中心研發(fā)的關于農(nóng)業(yè)的知識服務系統(tǒng),需求驅(qū)動或面向?qū)嵱玫谋倔w用于從多個異構源中聚合信息,為用戶提供最能滿足他們需求的相關信息。該系統(tǒng)開發(fā)了基于面向任務本體的抽取引擎,用于從文檔中提取相關信息,并將其重新組織成定義結(jié)構格式。CyberBrain利用語義搜索技術和PMM 模型(Problem-huMan-Method Model)實現(xiàn)知識搜索。基于本體和本體推理來獲取、抽取和整合知識,生成的PMM 包括疾病問題識別、能夠解決該疾病問題的人類專家,以及以糾正和預防方式解決該疾病問題的方法。該系統(tǒng)主要面向4 類用戶,有信息需求的農(nóng)民、追蹤相關研究的研究者、有經(jīng)營需求的中小型企業(yè)和政府智能指揮中心。
農(nóng)業(yè)智能問答系統(tǒng)是農(nóng)業(yè)領域中文本挖掘最熱門的應用,問答系統(tǒng)提供一般搜索引擎無法提供的農(nóng)業(yè)領域的響應內(nèi)容,面向具體知識問答,如農(nóng)業(yè)實用技術自動問答系統(tǒng)[63]、AGRI-QAS 問答系統(tǒng)[64]等。智能問答服務通常使用本體或潛在語義索引方法輔助信息檢索過程。農(nóng)業(yè)領域有大量的本體可供智能問答系統(tǒng)使用,如Agrovoc、中國農(nóng)業(yè)主題詞表、THESAGRO 等。本體作為知識庫,可以為智能問答系統(tǒng)提供關鍵詞擴展,還可以構建基于本體的語料庫。潛在語義索引方法將搜索詞歸納為主題,然后進行主題發(fā)現(xiàn),反饋主題匹配文獻,提高檢索精準度。
KAWAMURA 搭建了基于農(nóng)業(yè)開放關聯(lián)數(shù)據(jù)的植物信息問答系統(tǒng)[65],能自動回答植物花期、施肥等信息。該系統(tǒng)使用句子級三元組(主題、動詞、對象)對信息建模,主題是植物名稱。問答系統(tǒng)知識庫由預設資源和Web 抽取信息構成,系統(tǒng)自動解析用戶查詢所用的自然語言,從句子中抽取三元組并映射為SPARQL 查詢。基于查詢主題從知識庫擴展動詞,通過動詞再擴展它的對象,進一步校準、消除用戶檢索過程中的語義歧義。系統(tǒng)設置反饋模式,向用戶顯示排名前三的動詞,用戶從中選擇正確或最接近的答案,反饋結(jié)果被存儲并用于完善進一步的搜索。
信息抽取是文本挖掘的核心內(nèi)容,農(nóng)業(yè)領域的信息抽取涉和關鍵技術有基于本體的信息抽取、監(jiān)督學習、無監(jiān)督學習、規(guī)則發(fā)現(xiàn)以及半監(jiān)督學習[6]。其中,基于本體的信息提取和監(jiān)督學習是最常見的技術?;诒倔w的信息抽取主要用于命名實體識別。在實體識別中,本體用于標注訓練實例,標注通常基于規(guī)則,而實例用于后續(xù)機器學習分類器的訓練,識別后的命名實體可用于檢測、知識抽取等任務。監(jiān)督學習[66,67]方式是農(nóng)業(yè)領域信息抽取應用較多的機器學習模式,基于訓練數(shù)據(jù)分類學習可以取得不錯的抽取效果。
農(nóng)業(yè)信息抽取在食品價格預測、監(jiān)測、農(nóng)場管理、農(nóng)業(yè)知識提取等實用領域應用廣泛。食品價格預測通過對短時效文本(如推特、新聞)實施挖掘,抽取價格內(nèi)容或抽取事件信息來預測短期內(nèi)特定食品的價格走向[68,69]。農(nóng)場管理則利用文本挖掘幫助農(nóng)場相關管理決策,例如種植、收獲、處理、干燥和存儲[70]。
監(jiān)測是農(nóng)業(yè)信息抽取中熱門的研究方向。通過挖掘網(wǎng)絡文本信息,可以推斷某些農(nóng)業(yè)現(xiàn)象的演變。PADI-Web 應用信息抽取技術幫助動物疾病監(jiān)測。首先檢索目標相關的語料,并實施人工標注,標注內(nèi)容元素包括位置、日期、病例名稱、宿主和病例數(shù)量等,標注內(nèi)容經(jīng)過領域?qū)<以u估。然后,基于人工標注語料,借助支持向量機、深度學習等機器學習算法自動發(fā)現(xiàn)規(guī)則。經(jīng)過前期標注和機器學習后,新輸入相關文檔能基于支持機器學習所建立的分類模式和知識模型實現(xiàn)自動、無監(jiān)督的流行病學元素抽取。系統(tǒng)驗證結(jié)果顯示,其不同對象信息抽取結(jié)果介于80%至96%之間?;跍蚀_的抽取結(jié)果結(jié)合疾病爆發(fā)模式,能發(fā)現(xiàn)和預警疫情。事實證明該系統(tǒng)會提前兩到三周向世界衛(wèi)生組織預警。
知識抽取是從文本中發(fā)現(xiàn)、抽取知識模式,完成知識建模的過程。例如計算機從海量的科技文獻中總結(jié)出芽孢桿菌的調(diào)控網(wǎng)絡是復雜知識抽取的過程。簡單的知識抽取可以基于概念術語進行抽取,并結(jié)合規(guī)則來抽取相關的關系,例如構建作物與土壤的關系[71]、食物和健康間關系[72]等。如果融合半自動監(jiān)測工具、多源術語抽取、語義標注、語義搜索引擎、關系抽取等工具和過程則能實現(xiàn)復雜的知識自動抽取。VALSAMOU[73]設計的Alvis 知識抽取環(huán)境嘗試對復雜知識實施自動抽取,Alvis 知識抽取環(huán)境如圖2 所示。首先通過AlvisCrawler 半自動的獲取全文文獻,隨后借助相關集成工具(如基于本體的術語抽取分類工具ToMap,抽取關系的AlvisRE 工具,抽取蛋白質(zhì)、基因?qū)嶓w的RenBio 工具)對文本語料實施分類、實體識別、術語抽取、關系抽取,最終抽取得到種子發(fā)育過程中調(diào)節(jié)網(wǎng)絡知識,以及凝練10 種調(diào)控關系,并提供語義知識搜索服務(AlvisIR)和在線標注生成新語料的服務(AlvisAE)。
總體而言,文本挖掘技術在農(nóng)業(yè)領域應用前景非常廣闊?,F(xiàn)有研究表明,在領域知識組織體系(如本體等)和人工標注語料的支持基礎上,以信息抽取為主體的文本挖掘技術可以實現(xiàn)較高質(zhì)量的知識模式抽取并支持語義搜索、問答服務、信息監(jiān)測以及預測和決策支持服務等廣泛的知識服務應用。
圖2 Alvis 知識抽取環(huán)境Fig.2 The knowledge extraction environment of the Alvis system
綜合技術框架與領域應用發(fā)現(xiàn),文本挖掘技術已廣泛地應用在知識服務系統(tǒng)中。基于科技文獻文本挖掘的知識服務應用,既面向科技創(chuàng)新,如基于信息抽取的擬南芥種子發(fā)育調(diào)控網(wǎng)絡構建;也面向產(chǎn)業(yè)應用,如傳染病監(jiān)測、短期和大宗商品市場價格預測、農(nóng)場管理,以及學術觀點挖掘和情感分析。為使文本挖掘技術能在未來知識服務體系中發(fā)揮更大作用,筆者提出以下幾方面的發(fā)展策略。
當前知識發(fā)現(xiàn)已進入深度問題解決和個性化服務階段,知識服務呈現(xiàn)專門化、智能化和交互性新業(yè)態(tài),因此傳統(tǒng)面向通用問題解決的知識服務系統(tǒng)需要改革。新型知識服務系統(tǒng)應針對專業(yè)問題和科學家的個人需求,知識服務系統(tǒng)中的文獻標注、語料庫構建及優(yōu)化、知識組織體系嵌入以及機器學習算法與策略均要基于具體領域特征來實施,并進行個性化迭代和驗證。
專業(yè)化、專門化的知識服務系統(tǒng)需要適應數(shù)據(jù)密集型科學發(fā)現(xiàn)的新型知識生態(tài)環(huán)境,以文本挖掘技術為核心的知識服務技術在其中能發(fā)揮重要作用。具體而言:①知識服務系統(tǒng)底層需要融合多源異構數(shù)據(jù),并在語義知識組織框架幫助下建設融合用戶問題、自動學習與進化更新的大規(guī)模語義知識庫。文本挖掘中的信息抽取能協(xié)助處理大規(guī)模數(shù)據(jù),而知識抽取能幫助機器總結(jié)發(fā)現(xiàn)知識模式,擴展知識庫實例。②在語義知識組織體系的基礎上,利用深度學習、遷移學習等方法,突破語義智能檢索、檢索結(jié)果的多重因子排序、智能推薦計算、潛在關系挖掘、領域自動綜述等關鍵技術,構建文本挖掘和認知計算引擎。③基于大數(shù)據(jù)與微服務架構提供解決不同問題的應用組件,例如語義標注、語義搜索、智能推薦、智能問答等,以便研究人員根據(jù)自身需求實施數(shù)據(jù)挖掘和關聯(lián)。
隨著科學研究不斷深入,研究對象的顆粒度、數(shù)量和關聯(lián)復雜性愈發(fā)微觀、海量和高維。為支撐科研人員快速發(fā)現(xiàn)知識和認知計算,語義知識庫成為戰(zhàn)略基礎資源和設施。語義知識庫是文本挖掘技術和知識組織融合產(chǎn)生的結(jié)果,同時語義知識庫能給新的命名實體識別、語義相似度計算、信息抽取等文本挖掘技術提供一定的語義數(shù)據(jù)支撐。
誠然,國家一直重視學科公共科學數(shù)據(jù)中心建設,但縱觀科學研究領域,許多重要的基礎知識庫受國外控制,知識庫資源的訪問和獲取無法得到完全受信的保證。如生物和醫(yī)學領域不可或缺的NT/NR 蛋白質(zhì)/核酸數(shù)據(jù)庫、UniProt 蛋白質(zhì)數(shù)據(jù)庫、Genbank 基因數(shù)據(jù)庫等,化學領域的SciFinder、ChemSpider等數(shù)據(jù)庫,其知識產(chǎn)權、數(shù)據(jù)訪問、使用許可均受國外控制,在目前復雜多變的國際形勢下,繼續(xù)堅持自主建設基礎科學知識庫變得尤為重要。此外,從基礎科學數(shù)據(jù)中心或平臺轉(zhuǎn)成支撐新型知識服務所需的基礎語義知識庫還有許多工作要完成。例如完善本體知識模型和構建優(yōu)質(zhì)的語料庫。
本體知識模型非常重要,它不僅充當基礎知識庫中語義類別和關聯(lián)的框架支撐,同時它在整個語義知識服務的檢索到問答過程中發(fā)揮語義歸一、語義消歧的重要作用。因此需要以科技文獻為來源和核心對象,構建不同領域知識單元語義描述模型和知識屬性體系,采用各類知識單元語義關聯(lián)的知識組織方法,建設受控詞表系統(tǒng)、領域本體、知識圖譜等。
語料庫為知識服務技術提供基礎數(shù)據(jù)支撐,優(yōu)質(zhì)的語料庫能夠在信息抽取、關系抽取等文本挖掘任務中發(fā)揮巨大作用。例如上文中提到的PADI-Web 系統(tǒng),其人工構建的高質(zhì)量小規(guī)模語料庫保障了實體識別、關系識別精準度??梢岳梦墨I計量學方法構建高質(zhì)量小規(guī)模的初始語料集。以傳統(tǒng)知識組織系統(tǒng)為基礎采集并組織原始文獻,基于文獻質(zhì)量評價體系優(yōu)選抽取其中的高質(zhì)量文獻,形成初始種子語料集,以此為基礎借助機器學習和人工篩選,生成新的更大規(guī)模的高質(zhì)量語料集[74]。
建議優(yōu)先在生命科學、醫(yī)學與健康、微生物學及交叉領域、農(nóng)業(yè)科學、資源環(huán)境、化學及交叉領域、邊緣交叉領域等重點領域部署和開展基于文本挖掘技術為核心的知識服務。這些領域是當前科技創(chuàng)新活動非常頻繁的領域,科技創(chuàng)新需求旺盛;這些領域的交叉復合使得領域知識復雜、豐富,單一領域知識表達無法全面描述;同時,這些領域在前人學者貢獻下已經(jīng)具備豐富的語義知識基礎(如大量領域敘詞表或本體、語義標注語料等)。在這些領域內(nèi),優(yōu)先發(fā)展語義搜索引擎,構建具有自主知識產(chǎn)權的基礎知識庫,重點開發(fā)文獻摘要與綜述、知識問答與推理等知識服務應用。
文本挖掘技術在信息檢索領域的應用,是知識服務基礎和優(yōu)先的選擇。國外相關實踐,如Semantic Scholar、GoPubMed,都以語義搜索引擎為切入點推廣知識服務應用。基于文本挖掘技術的語義搜索系統(tǒng),不僅可以顯著提高用戶信息檢索效率,還可以廣泛應用和嵌入于后續(xù)復雜知識應用(如檢索意圖智能理解、領域知識畫像和研究側(cè)寫、智能知識問答等)。
文獻摘要與綜述在學科邊緣交叉日益加速情境下意義非凡。接觸一個新的研究領域意味著需要補充海量相關知識,文本摘要與綜述可以快速彌補跨學科研究的知識缺口。它不僅是輔助科研人員快速掌握領域知識的重要服務,也是將結(jié)構化知識重新轉(zhuǎn)換為自然語言表述的知識的重要支撐。
問答與推理服務不僅是人機交互中的智能知識服務,更是智聯(lián)網(wǎng)環(huán)境中M2M(Machine to Machine)智能交互的重要基礎。問答與推理服務不是面向科技創(chuàng)新,而是面向產(chǎn)業(yè)服務。例如智慧農(nóng)場中,植物、澆水機器人、采摘機器人之間的會話場景是M2M 的,需要知識問答和推理為其提供交互的數(shù)據(jù)基礎。
綜上所述,以文本挖掘技術為核心的知識服務技術體系日漸成熟,可以實現(xiàn)較高質(zhì)量的知識模式抽取并支持語義搜索、語料庫訓練、語義知識庫構建和問答服務、信息監(jiān)測和預測、決策支持服務等廣泛的知識服務應用,在農(nóng)業(yè)等諸多領域具有可操作性。與此同時,我們也看到知識服務新業(yè)務和科技創(chuàng)新自主安全環(huán)境改變對新型知識服務系統(tǒng)提出的新挑戰(zhàn)。美國國家醫(yī)學圖書館、英國大英圖書館等國外重要信息機構在其未來規(guī)劃中提出,將繼續(xù)緊密依靠人工智能、數(shù)據(jù)分析、文本挖掘等信息技術的發(fā)展,加強基于科技文獻和科學數(shù)據(jù)的計算分析、知識關聯(lián)等技術創(chuàng)新,重視未來開放科學環(huán)境中的知識服務,建設學科領域的語義知識庫、提升知識發(fā)現(xiàn)能力、創(chuàng)新知識服務模式。對此,我們也應在重點領域加快核心知識服務技術的部署,重視基礎知識庫建設,并融合知識組織、文本挖掘、認知計算、可視化交互等技術構建專門的知識服務系統(tǒng)。