国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信息資源聚合的交互式報告生成模型研究

2020-11-16 07:23:06袁雪劉敏娟劉洪冰王新趙婉婧江浩
數(shù)字圖書館論壇 2020年10期
關(guān)鍵詞:細粒度文檔報告

袁雪 劉敏娟 劉洪冰 王新 趙婉婧 江浩

(1. 中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點實驗室,北京 100081)

現(xiàn)今海量信息資源為用戶帶來豐富數(shù)據(jù)和信息的同時,也帶來了信息超載的困難,不利于信息的高效獲取與利用[1]。隨著信息組織技術(shù)的發(fā)展,用戶更多地希望幫助他們實現(xiàn)信息資源跨語種、跨載體、跨領(lǐng)域的有機關(guān)聯(lián),按照特定需求從大量分散來源中獲取信息并以序化整合的方式提供一站式信息服務(wù)。為實現(xiàn)用戶快速、高效、多方位獲取有序的、成體系信息的意愿,交互式報告作為一種新型的信息服務(wù)方式應(yīng)運而生,彌補了傳統(tǒng)編輯報告在時效性、便捷性、個性化等方面的不足。其實施過程中的PDF文檔碎片化,是指識別PDF文檔中章節(jié)、圖表、段落等細顆粒信息單元,提取文本閱讀順序并對文檔結(jié)構(gòu)進行層次分析,將其分解成一個有層次、有邏輯的有機體,是實現(xiàn)細粒度信息單元重組和深度知識挖掘的基礎(chǔ);繼而利用非傳統(tǒng)的編輯、加工與生成方式,融合PDF文檔碎片化技術(shù)與交互式操作,將相關(guān)領(lǐng)域橫縱向的專業(yè)信息資源,按照相應(yīng)的知識資源體系進行規(guī)?;孬@取、遴選與匯聚,經(jīng)細粒度加工、深層次揭示,實現(xiàn)動態(tài)重組與發(fā)布。實施效果表明:能顯著提升用戶信息輸入的效率,實現(xiàn)有針對性的、輕量化的閱讀;能夠一鍵生成定制化報告,支持多維度分面檢索,提高查找信息的效率。

1 交互式報告生成模型理論基礎(chǔ)

1.1 聚合單元劃分

Sandusky等[2]認為文獻資源包括兩種類型的結(jié)構(gòu),一種是如摘要、正文、圖表和參考文獻等的形式結(jié)構(gòu);另一種是文獻組織成一個敘述部分,如文獻綜述、研究方法、結(jié)果與討論等反映文獻構(gòu)思的邏輯結(jié)構(gòu)。據(jù)此,本文以形式結(jié)構(gòu)和邏輯結(jié)構(gòu)的劃分作為聚合單元劃分的依據(jù)。形式結(jié)構(gòu)分析中將篇章視為整體,其各個部分視為組成要素。參考顧小清[3]提出的通過分析期刊論文的形式結(jié)構(gòu)而拆分期刊論文的組成部分,文中將PDF文檔的外部特征如標題、著者、關(guān)鍵詞等進行結(jié)構(gòu)化存儲,其中針對形式結(jié)構(gòu)缺乏嚴謹和統(tǒng)一的資源進行處理后結(jié)構(gòu)化著錄。邏輯結(jié)構(gòu)分析針對的是篇章形式結(jié)構(gòu)中的正文部分,文獻的邏輯結(jié)構(gòu)包括兩個方面:一是作者根據(jù)行文框架與邏輯對整篇文檔進行分割,即節(jié)段單元;二是具有一定交際意圖和修辭目的的語篇結(jié)構(gòu),即句群單元[4]??紤]到語義功能的標注完整性及以用戶較為希望的聚合單元粒度,采用以正文部分篇章節(jié)段單元和圖表單元作為分割的顆粒度,以方便用戶快搜檢索定位所需的單元內(nèi)容,從而節(jié)省瀏覽和查找其他不相關(guān)信息的時間。

1.2 信息資源聚合

信息資源聚合被認為是網(wǎng)絡(luò)環(huán)境下知識組織的一種新模式,正成為信息組織與檢索領(lǐng)域的研究熱點[5],其主要是對數(shù)字或網(wǎng)絡(luò)環(huán)境下文本信息單元中包含的相關(guān)信息進行抽取與重組。通過對國內(nèi)外研究梳理發(fā)現(xiàn),近年來的研究主要圍繞信息聚合相關(guān)理論體系、聚合技術(shù)方法、聚合效果顯現(xiàn)評估、聚合應(yīng)用實踐等方面[1,6-8],并取得了一定的研究成果。細粒度信息資源聚合作為信息資源聚合的主要模式之一[9],相關(guān)研究聚焦聚合單元元數(shù)據(jù)、多維度語義標注機制、多維語義聚合等,為細粒度聚合單元的解析、抽取、分析與管理提供相應(yīng)的理論依據(jù)。本文在前人研究基礎(chǔ)上進行拓展與延伸,并著重結(jié)合用戶信息需求,從優(yōu)化信息資源組織角度進行信息的整合序化,為用戶高效便捷地獲取與利用信息提供服務(wù):其中元數(shù)據(jù)框架的制定參考曹樹金等[1]構(gòu)建的文獻標識符、關(guān)鍵詞、來源等核心元素,以及標題、責任者、日期、語種資源等篇章方面的描述元素作為資源元數(shù)據(jù)標準;聚合單元的多維度語義標注參考胡潛等[9]提出的從行業(yè)主題和用戶群體兩個維度進行組織體系的構(gòu)建與標注,依據(jù)面向用戶需求的資源知識體系進行基于機器學(xué)習(xí)的文本自動分類標注,實現(xiàn)基于機器學(xué)習(xí)的段落文本特征支持向量機模型和隨機森林模型的信息細粒度加工和動態(tài)重組。

2 交互式報告生成模型構(gòu)建

交互式報告生成模型的構(gòu)建主要包括面向用戶需求的信息資源知識體系構(gòu)建、信息資源遴選采集、信息資源整理序化、信息資源細粒度聚合4個構(gòu)成要素,具體如圖1所示。該模型依據(jù)構(gòu)建的資源知識體系,將文檔中段落及圖表等細顆粒度的信息單元進行解構(gòu)、重組與主題聚合,最大限度地保留了段落上下文的行文邏輯,報告內(nèi)容豐富多元,易用且易讀。報告的動態(tài)性體現(xiàn)在完整保留歷史信息的同時完成最新資源的及時、動態(tài)更新以及多維度檢索查詢等多種用戶交互功能,實現(xiàn)了專業(yè)信息資源的遴選匯聚、細粒度加工、深層次揭示、信息重組以及一鍵式報告生成等。

圖1 交互式報告生成模型構(gòu)成與要素

2.1 信息資源知識體系構(gòu)建

信息資源知識體系構(gòu)建以用戶需求為出發(fā)點和落腳點,形成一個完整樹狀組織結(jié)構(gòu),用于報告中待聚合資源遴選的依據(jù)和聚合細粒度信息單元的語義標注。其中用戶信息需求源于其職業(yè)、角色、工作內(nèi)容等,直接決定所需信息的范圍、類型、數(shù)量和深度。為了滿足多類型用戶通用信息需求及有代表性的個性化需求,需要對用戶群體進行細分。細分用戶群體需求可能存在差異,具體來說,用戶組成涉及各行各業(yè),覆蓋面較廣,按工作性質(zhì)分為政府用戶、科研用戶、企業(yè)用戶和個人用戶等,各類用戶需求側(cè)重點不同。如政府用戶普遍關(guān)注宏觀政策、政府管理等方面的信息;科研用戶往往關(guān)注學(xué)術(shù)與研究方面的信息,且兼具廣度與深度;企業(yè)用戶則更多關(guān)注行業(yè)發(fā)展、市場動態(tài)、商業(yè)資訊等;個人用戶關(guān)注內(nèi)容較為多樣且分散,因此考慮作為個體進行補充,不作為用戶細分群體的重點。上述用戶群體的信息需求采用問卷法、調(diào)查法、觀察法、日志法進行收集,同時對上述內(nèi)容進行整理與分析,作為資源知識體系構(gòu)建的依據(jù)。

從前期調(diào)研情況來看,各類型用戶的信息需求主要涉及相關(guān)主題領(lǐng)域信息獲取的高效性以及信息利用的便捷性。信息獲取的高效性在于信息的規(guī)模化獲取、遴選與匯聚,以及有效的、分門別類的內(nèi)容組織;信息利用的便捷性在于有針對性的、精準的、無障礙的輕量化閱讀。據(jù)此,依據(jù)用戶需求和應(yīng)用場景,收集、分析用戶需求信息,按照信息資源分面分類的方法,橫向延伸,縱向深入,形成面向用戶需求的資源知識體系??v向等級是樹形結(jié)構(gòu),橫向展開是平行類目,可依據(jù)用戶需求變化進行動態(tài)調(diào)整,各層級父主題下設(shè)若干個子類,直至滿足用戶信息需求為止。信息資源知識體系可用于報告內(nèi)容發(fā)布模板設(shè)置,即生成動態(tài)報告導(dǎo)航目錄。除此之外,應(yīng)按照用戶需求設(shè)置一鍵生成定制化報告,支持細顆粒信息單元可按國家、年份等進行多維度檢索查詢,以方便用戶信息查找以及提高閱讀效率。

2.2 信息資源遴選采集

信息資源遴選采集是按照構(gòu)建的資源知識體系主題特征對無序聚合候選資源進行篩選過濾。資源遴選對象包括文獻資源、網(wǎng)絡(luò)資源、科研數(shù)據(jù)和領(lǐng)域知識等,遴選過程是從多源異構(gòu)、多類型、多語種、跨領(lǐng)域的資源中優(yōu)選具有權(quán)威性、客觀性、代表性的資源作為待聚合的資源,并利用相關(guān)信息采集技術(shù)實現(xiàn)快速有效的信息獲取。具體來說,采集內(nèi)容圍繞構(gòu)建好的資源知識體系的主題領(lǐng)域遴選可靠的信息資源,采集其元數(shù)據(jù)及PDF全文,非PDF文檔進行轉(zhuǎn)換處理,并整合存儲到創(chuàng)建好的數(shù)據(jù)庫中。采集渠道均來自互聯(lián)網(wǎng),考慮到上述資源對用戶的開放程度,一般采用公開獲取的權(quán)威資源作為首選,主要來自國際組織官網(wǎng)、開放獲取數(shù)據(jù)庫、公開的報告與文獻等,一方面保證了資源的可用性;另一方面由于這些資源經(jīng)過專業(yè)人員嚴格的遴選與評估,也保證了資源的完整性、可靠性以及權(quán)威性。具體包括:①網(wǎng)站類,如國際組織網(wǎng)站、政府機構(gòu)網(wǎng)站、高校網(wǎng)站、行業(yè)協(xié)會網(wǎng)站、行業(yè)垂直網(wǎng)站等;②數(shù)據(jù)庫類,如開放獲取數(shù)據(jù)庫、商業(yè)數(shù)據(jù)庫等提供的知識資源;③報告與文獻類,如國際統(tǒng)計機構(gòu)的調(diào)查資料、市場調(diào)研報告、新聞報道、學(xué)術(shù)期刊等。標準化的模板包括標題、作者、發(fā)布年、關(guān)鍵詞等元數(shù)據(jù)項及全文文檔的信息錄入。

2.3 信息資源整理序化與細粒度聚合

信息資源整理序化是將采集過程中大量的信息資源進行清洗規(guī)范,實施統(tǒng)一的資源描述并進行結(jié)構(gòu)化存儲,變無序資源為有序資源。該過程中涉及資源元數(shù)據(jù)標準的建立、資源清洗規(guī)范操作流程與方式的建立、資源存儲數(shù)據(jù)庫的建立等相關(guān)工作,從而實現(xiàn)資源的科學(xué)整序。信息資源細粒度聚合由資源粒度化抽取、細粒度單元語義標注和細粒度單元信息重組三部分構(gòu)成。資源粒度化抽取實質(zhì)上是聚合信息資源解構(gòu)的過程,鑒于文本資源主要以較常見的PDF格式存儲為主[10-11],其他WORD、TXT或網(wǎng)絡(luò)信息片段也可轉(zhuǎn)換為PDF格式,因此粒度化抽取對象選取PDF版式文檔,方法采用基于機器學(xué)習(xí)的段落文本特征支持向量機模型和隨機森林模型[12],根據(jù)文章行文框架與邏輯結(jié)構(gòu)對整篇文檔進行分割,預(yù)測目標PDF全文的標題、章節(jié)和圖表等結(jié)構(gòu)信息,抽取以段落或圖表為最小顆粒度的信息單元,信息量大且多元、廣泛而豐富,細粒度信息單元實時動態(tài)更新,歷史信息與最新信息同步留存,且段落中上下文行文邏輯完整保留;PDF解構(gòu)后的段落與圖表等更細顆粒度的信息單元,以XML格式在數(shù)據(jù)庫中進行結(jié)構(gòu)化存儲,操作對象包括文本內(nèi)容的結(jié)構(gòu)、屬性與關(guān)聯(lián)信息等。細粒度語義標注采用基于機器學(xué)習(xí)的文本自動分類方法按照面向用戶需求的資源知識體系進行分類標注[13],具體是先將標注好的PDF文檔碎片化信息單元作為訓(xùn)練集,通過機器學(xué)習(xí)算法從文本中整理出能夠有效分類的規(guī)則,生成分類器,將生成的分類器應(yīng)用在有待分類的文本集合中,實現(xiàn)自動分類標注,同時為了增強自動分類結(jié)果的精度,添加人工校改的輔助功能,便于對分類結(jié)果進行校準。細粒度單元信息重組是碎片化后的細粒度信息單元聚合重構(gòu)的過程,實時將帶有語義的單元信息按照一定的資源知識體系進行重新組合成擁有新內(nèi)容構(gòu)成的報告,按此循環(huán)往復(fù)而完成信息的全面匯聚。

3 交互式報告服務(wù)實踐

服務(wù)實踐以生成茶產(chǎn)業(yè)對外合作發(fā)展報告為例進行原型系統(tǒng)實現(xiàn),解析報告生成過程及主要功能,關(guān)鍵實施步驟如圖2所示。文中茶產(chǎn)業(yè)指中華人民共和國農(nóng)業(yè)行業(yè)標準《農(nóng)產(chǎn)品分類與代碼》(NY/T3177—2018)種植業(yè)產(chǎn)品的飲料作物產(chǎn)品中的茶葉進行報告原型的服務(wù)實現(xiàn)。原型功能設(shè)計的服務(wù)內(nèi)容包括:①面向用戶的一鍵式動態(tài)報告生成,即用戶按照報告的目錄導(dǎo)航,選擇感興趣的內(nèi)容,通過一鍵式操作立即生成定制化報告,提升獲取報告的便捷性;②基于聚合細粒度信息資源的多維檢索查詢服務(wù),即報告中段落信息依據(jù)國家與年份等進行分面檢索,提升資源的專指性,并支持自定義導(dǎo)出到本地文件。

茶產(chǎn)業(yè)對外合作發(fā)展報告綜合政府用戶、企業(yè)用戶、科研用戶、個人用戶4類不同用戶的專業(yè)背景和需求內(nèi)容,構(gòu)建多層次的報告目錄導(dǎo)航,構(gòu)建過程以能夠向用戶提供所需知識為準則,以知識的粒度能恰當解決當前問題或需求為目標,使報告層次結(jié)構(gòu)能夠滿足用戶全方位、多層次的知識需求。依據(jù)用戶需求分析的綜合結(jié)果,構(gòu)建了包含一級主題6個(發(fā)展概述、供需形勢、進出口分析等)、二級主題22個(產(chǎn)業(yè)鏈分析、市場需求、市場價格等)的導(dǎo)航目錄,如圖3所示??砂凑沼脩舻膶嶋H需求進行一鍵式定制化報告生成,可支持全選整個報告目錄的內(nèi)容,以及部分選擇一級主題或二級主題的內(nèi)容。

圖2 茶產(chǎn)業(yè)對外合作發(fā)展報告生成關(guān)鍵環(huán)節(jié)解析

圖3 茶產(chǎn)業(yè)對外合作發(fā)展報告導(dǎo)航目錄

待聚合信息資源遴選采集的范圍按網(wǎng)站類、數(shù)據(jù)庫類、報告與文獻類分別進行優(yōu)選,資源渠道包括網(wǎng)站類的資源主要取自美國農(nóng)業(yè)部(USDA)、聯(lián)合國糧農(nóng)組織(FAO)、中國農(nóng)業(yè)農(nóng)村部、世界茶進出口委員會等;數(shù)據(jù)庫類的資源主要取自文獻數(shù)據(jù)庫、Science Direct、Stasita、美國經(jīng)濟統(tǒng)計數(shù)據(jù)庫等;報告與文獻類資源取自國際統(tǒng)計機構(gòu)調(diào)查報告、市場貿(mào)易期刊、行業(yè)咨詢報告等公開資料。以上信息資源通過半自動化采集方式獲取PDF全文與元數(shù)據(jù),非PDF文檔可以統(tǒng)一轉(zhuǎn)換為PDF進行處理,并經(jīng)過科學(xué)整理與序化。

滿足多方位用戶需求不僅需要廣泛地采集資源,還要對已有的資源進行開發(fā)性組織,使資源再生為新的信息或知識。為了更好地實現(xiàn)待聚合信息資源的再利用,需經(jīng)前述的信息資源粒度化加工和信息資源細粒度聚合,從而實現(xiàn)茶產(chǎn)業(yè)對外合作發(fā)展報告生成。報告可于多終端上線發(fā)布,支持一鍵定制化報告(見圖4),細粒度段落的國家與年份多維度分面檢索(見圖5)。

圖4 茶產(chǎn)業(yè)對外合作發(fā)展報告一鍵式生成

圖5 茶產(chǎn)業(yè)對外合作發(fā)展報告按國家、年份等多維度分面檢索

4 結(jié)語

學(xué)者研究指出用戶在一般情況下查找所需信息并非要獲得整篇文檔,更多的是相互關(guān)聯(lián)的信息片段或知識元,而信息片段的分散性導(dǎo)致很難較為全面地獲取、描述與揭示,因此用戶常需針對相關(guān)主題遍歷查找、瀏覽、提取、整合等多項操作才能實現(xiàn)信息的有效輸入,這一過程耗時費力,且較易在信息搜尋過程中產(chǎn)生“信息迷航”現(xiàn)象[14]?,F(xiàn)階段為提升用戶獲取信息的效率,信息聚合研究正成為圖書情報領(lǐng)域關(guān)注的熱點,然而學(xué)界對其研究至今仍然較多集中在聚合理論框架、機制模型、方法技術(shù)方面,應(yīng)用層面的研究相對較少且有一定局限性[1]。交互式報告生成模型的設(shè)計提出是信息聚合領(lǐng)域研究成果解決社會實際問題的應(yīng)用實踐,該方法能夠較好地幫助用戶梳理多來源相關(guān)主題信息資源,并支持一鍵式定制化報告、多維度分面檢索、英中互譯等,大幅度縮減了用戶獲取多源異構(gòu)信息資源的時間,同時優(yōu)化了用戶交互式體驗效果。文中以茶產(chǎn)業(yè)對外合作發(fā)展報告為例,展示了原型系統(tǒng)的實施效果,體現(xiàn)出較好的適用性,該方法仍適用于其他主題領(lǐng)域報告的生產(chǎn)與實現(xiàn),將有效促進且提升用戶信息資源獲取組織的效率與效用。

猜你喜歡
細粒度文檔報告
融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
有人一聲不吭向你扔了個文檔
細粒度的流計算執(zhí)行效率優(yōu)化方法
基于雙線性卷積網(wǎng)絡(luò)的細粒度圖像定位
一圖看懂十九大報告
報告
南風窗(2016年26期)2016-12-24 21:48:09
基于RI碼計算的Word復(fù)制文檔鑒別
支持細粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
報告
南風窗(2015年22期)2015-09-10 07:22:44
新余市| 邻水| 泾川县| 广东省| 金川县| 醴陵市| 广德县| 北辰区| 凤山县| 通江县| 即墨市| 千阳县| 阿合奇县| 长葛市| 苍溪县| 榆中县| 沙田区| 三都| 长子县| 油尖旺区| 镇沅| 大姚县| 年辖:市辖区| 扬中市| 永吉县| 同仁县| 简阳市| 明水县| 彝良县| 漠河县| 新宁县| 久治县| 鹤壁市| 鲁甸县| 宣武区| 定襄县| 浦江县| 庆云县| 东阿县| 江都市| 房产|