国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

定向推薦在文本人工標注中的應用

2019-05-22 10:27:32汪悅
電腦知識與技術(shù) 2019年6期
關(guān)鍵詞:定量分析

汪悅

摘要:隨著網(wǎng)絡帶寬的增加以及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,信息載體由文本漸漸過渡為視頻圖像等,為了方便人們能夠更快更好地訪問和檢索視頻圖像,針對目前手工標注過于繁瑣并且時間過長的問題,該系統(tǒng)希望通過目前流行的推薦系統(tǒng)和reCAPTCHA系統(tǒng),對于各個用戶的擅長點進行分析并隨著標注數(shù)量的累積進行調(diào)整,同時基于人體的耐受性,將部分難于標注的圖像加載在容易標注的圖片中,減少無法標注的圖片數(shù)量,來達到縮短標注時間的目的。

關(guān)鍵詞:手工標注;基于內(nèi)容的推薦;定量分析;基于人體生理機能的加推

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)06-0183-03

隨著網(wǎng)絡帶寬的增加以及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,信息載體由文本漸漸過渡為視頻圖像等,使人們可以更為直觀的了解信息。為了方便人們能夠更快更好地訪問和檢索視頻圖像,目前所廣泛采用的解決方案是對其進行標注。當前所采用的兩類典型標注方法為:手動標注和自動標注。

自動標注就是由程式自動檢測圖像或視頻中的關(guān)鍵字并進行標注,在過去的十多年中,該項方法吸引了大批研究人員的興趣也取得了顯著的成功,但是無法否認的是自動標注的準確性以及相關(guān)性仍然無法完全達到人們檢索的需求。

而相對準確性較高的手動標注的圖像語義標注方式存在著兩大難題:一是在標注大量的圖像時,完全用手工方法標注,工作量太大,時間過長;二是由于用戶對圖像的理解不同,文本注解存在不可避免的主觀性和不精確性。

近年來,由于人工標注在組織和檢索的高質(zhì)量,越來越多的組織和團體采用人工標注來管理多媒體數(shù)據(jù)。針對手工標注過于繁瑣并且時間過長的問題,本文提出一種新的標注系統(tǒng)來縮短標注時間。

1 推薦系統(tǒng)概述

20世紀90年代中期出現(xiàn)關(guān)于協(xié)同過濾技術(shù)的文章之后,推薦系統(tǒng)開始作為一門獨立的學科得到系統(tǒng)研究,并逐漸成為緩解“信息過載”的有效手段之一。推薦系統(tǒng)通過建立用戶與項目之間的二元關(guān)系,利用已有的選擇過程或相似性關(guān)系挖掘每個用戶潛在感興趣的對象,進而進行個性化推薦。

從信息過濾的角度,目前推薦系統(tǒng)主要分為以下幾種:

(1) 協(xié)同過濾推薦:基于“集體智慧”的思想,通過與當前用戶相似的其他用戶偏好來預測當前用戶的偏好。

(2) 基于內(nèi)容的推薦:根據(jù)用戶偏好的方向,利用已有的分類技術(shù)和概率統(tǒng)計模型,選擇其他類似的項目作為推薦。

(3) 混合推薦:混合推薦主要是為了解決單一推薦技術(shù)的不足,按照不同的混合策略,將不同的推薦技術(shù)進行組合并完成推薦。

2 推薦系統(tǒng)在圖像標注上的應用

圖像標注推薦系統(tǒng)采用基于內(nèi)容的推薦。

總體來看,基于內(nèi)容的上下文感知推薦生成技術(shù)的優(yōu)點在于:能夠充分利用現(xiàn)有成熟的分類技術(shù)、概率統(tǒng)計模型,來發(fā)現(xiàn)用戶在不同的上下文條件下對項目屬性類別的偏好;并不存在“新項目”問題,推薦結(jié)果比較直觀、易于理解等。其缺點在于:分析內(nèi)容有限和有效上下文選擇(涉及特征選擇問題)、推薦范圍過窄、新用戶問題、多維上下文條件約束下的相似度匹配計算等。

基于上文假定,我們對于要標注的關(guān)鍵字已經(jīng)給定,同時為了避免用戶由于采用的詞匯不同而導致的標注分類過于分散,不利于檢索,或者由于中文詞匯的定義模糊而導致結(jié)果差異,我們事先對于關(guān)鍵字的標注方向給出分類定義,且圖片集已經(jīng)做過初步篩選,并且由系統(tǒng)獲取用戶標注各個關(guān)鍵字的時間,然后通過統(tǒng)計分析用戶關(guān)鍵字的標注時間,來判斷用戶可能擅長的方向,故基于內(nèi)容的推薦缺點并不影響其在圖像標注推薦系統(tǒng)中的使用。

3 圖像標注推薦系統(tǒng)的概述

我們可將圖像標注推薦系統(tǒng)流程整理歸納為以下4個階段:

(1) 數(shù)據(jù)定義及收集:定義用戶、關(guān)鍵字集合、標注分類定義、收集用戶標注時間等相關(guān)數(shù)據(jù);

(2) 用戶擅長提?。航y(tǒng)計分析用戶擅長的關(guān)鍵字或方向,生成推薦結(jié)果;

(3) 基于人體生理機能的加推:對于那些所有用戶都不擅長標注的圖片,隨機添加在用戶擅長的圖片中;

(4) 評價與自適應改進:采用合適的效用評價指標對推薦效果進行評價,并根據(jù)評價結(jié)果發(fā)現(xiàn)問題和改進。

3.1 數(shù)據(jù)定義及收集

按照Adomavicius 等人給出推薦系統(tǒng)的形式化定義,在圖像標注前定義標注的要素,設G表示用戶集合,S表示需要本次標注的關(guān)鍵字集合(如:顏色、車型、車標等),且對于標注關(guān)鍵字的要素進行設定,既可以避免由于要素及關(guān)鍵字語言表述輕微偏差導致的統(tǒng)計結(jié)果偏差,又可以減少標注時間。設置效用函數(shù)u表示用戶對于要素的熟練度,由計算機進行用戶標注時間數(shù)據(jù)的收集,則噪聲系數(shù)降到最低且隨機存在。

3.2 用戶擅長提取

該系統(tǒng)要找到用戶最熟練的關(guān)鍵字及其標注分類定義組,加快標注的速度,縮短整體標注時間。

一般認為,偏好(preference)用于描述決策者對兩個或多個項目的排序關(guān)系。本文關(guān)注點為用戶即標注人員的偏好即擅長方向。目前,上下文用戶偏好提取技術(shù)主要有兩種研究思路:定量分析和定性分析。

其中,定量研究上下文用戶偏好提取技術(shù),是指使用數(shù)字評分量化表示上下文用戶偏好,并設計偏好提取方法進行數(shù)學計算。目前,在上下文用戶偏好量化表示方面,主要采用多維向量評分模型和層次模型。

圖像標注推薦系統(tǒng)在定量分析的基礎上,采用基于決策樹的用戶偏好提取,以標注時間作為衡量基準,按照預先給定的關(guān)鍵字及其要素分類定義,對于各用戶的標注時間建立多維矩陣組。

3.3 基于人體生理機能的加推

考慮到存在標注人員有群體偏向的可能性,導致需標注的圖片庫中仍有剩余圖片?;谏衔牡耐普?,假設已經(jīng)篩選出的圖片為M,則剩下的圖片數(shù)量為N-M。如果將剩下的N-M的圖片,全部沉底按比例分配給各個標注人員,則由于人存在心理及生理疲勞點,當標注圖片難以判斷過多,可能存在標注過程關(guān)注力降低,導致降低準確率。

reCAPTCHA技術(shù)是利用CAPTCHA的原理,借助于人腦對難以識別的字符進行辨別的技術(shù),我們同樣也可借鑒其原理,來對于難于識別的圖片進行分類,即將簡單易識別的圖片和難于識別的圖片放在一處,避免標注人員在處理過程中由于心理因素而影響標注的準確率和效率。

假定G表示用戶集合,每個用戶的所分配的圖片為Mg,已經(jīng)篩選出的圖片為M,即

3.4 評價與自適應改進

在進行標注的過程中對標注推薦系統(tǒng)性能進行評價時 , 指標主要針對標注的準確性,以及標注的熟練程度,即標注的時間的長短。隨著標注時間的累積統(tǒng)計,調(diào)整圖片推薦的方向,由系統(tǒng)自適應進行改進達到更好的推薦效果。

此外,還可還將用戶滿意度作為評價指標,此時需要用戶對推薦效果給出主觀評價。

隨著時間的推移且統(tǒng)計數(shù)據(jù)的完善,用戶的擅長方向會發(fā)生變換,故針對要素關(guān)鍵字的聚類結(jié)果需要累計疊加,其得出的結(jié)果較單次分析結(jié)果更接近真實用戶的擅長方向。

4 總結(jié)語

綜上所述,本系統(tǒng)在綜合考慮標注熟練度以及人體的耐受性,通過目前流行的推薦系統(tǒng)和reCAPTCHA系統(tǒng),將用戶最熟練的關(guān)鍵字及其標注分類推送給用戶,部分難于標注的圖像加載在容易標注的圖片中,減少無法標注的圖片數(shù)量,來達到縮短標注時間的目的。

參考文獻:

[1] 王立才, 孟祥武, 張玉潔.上下文感知推薦系統(tǒng)[J].軟件學報,2012,23(1):1-20.

[2] 孟祥武, 胡勛, 王立才, 張玉潔.移動推薦系統(tǒng)及其應用[J].軟件學報,2013,24(1):91-108.

[3] 王立才.上下文感知推薦系統(tǒng)若干關(guān)鍵技術(shù)研究[J].北京郵電大學博士論文.

[4] 林亮亮.基于本體的用戶個性化檢索模型構(gòu)造研究[D].西安郵電大學碩士論文.

[5] 陳盛紅.基于上下文的Web推薦算法[D].沈陽建筑大學碩士論文.

[6] 孫克.社交網(wǎng)絡環(huán)境下移動好友推薦系統(tǒng)研究[D].山東師范大學碩士論文.

[7] 靳婷.基于上下文與面向社會媒體的信息推薦方法研究[D].復旦大學博士論文.

[8] Yan R , Natsev A , Campbell M . Hybrid Tagging and Browsing Approaches for Efficient Manual Image Annotation[J]. IEEE Multimedia, 2009, 16(2):26-41.

【通聯(lián)編輯:梁書】

猜你喜歡
定量分析
定量分析的特點及其重要性
大規(guī)模古籍文本在中國史定量研究中的應用探索
FTA在工業(yè)氣體探測報警系統(tǒng)中的應用
軟件導刊(2016年11期)2016-12-22 21:55:04
商務英語詞匯量與商務英語閱讀能力相關(guān)性研究
國外藝術(shù)體操科研現(xiàn)狀
體育時空(2016年9期)2016-11-10 20:23:55
基于層次分析法的電力公司財務風險評價
基于實時熒光PCR的鵝鴨混合絨定量檢測
紡織導報(2015年11期)2016-01-05 05:28:17
表面增強拉曼光譜法定量檢測食品中香豆素
分析化學(2015年8期)2015-08-13 07:33:19
我國風險分析方法的文獻計量學分析
秦皇島近岸海域浮游植物調(diào)查
阳曲县| 申扎县| 黑龙江省| 惠州市| 丹棱县| 桂平市| 农安县| 广元市| 枞阳县| 兴义市| 铜陵市| 尼勒克县| 河池市| 洛浦县| 井冈山市| 广河县| 娄烦县| 锡林浩特市| 江城| 保定市| 连南| 河东区| 溧水县| 广平县| 绿春县| 钟山县| 徐汇区| 浮山县| 张掖市| 富顺县| 十堰市| 屯留县| 信宜市| 绥化市| 华容县| 准格尔旗| 苗栗县| 德惠市| 景谷| 丰镇市| 永顺县|