国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于描述能力的視頻標(biāo)題分類*

2011-03-21 08:06:28齊全董晶
關(guān)鍵詞:超平面分詞詞語

齊全 董晶

(北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京100081)

視頻作為方便高效的記錄信息的載體已廣泛地應(yīng)用于人們的日常生活中.手機(jī)、數(shù)碼相機(jī)、數(shù)碼攝錄機(jī)等視頻攝錄設(shè)備的快速普及使人們傾向于使用視頻來捕捉和記錄信息,并通過互聯(lián)網(wǎng)平臺(tái)進(jìn)行分享[1].目前,互聯(lián)網(wǎng)平臺(tái)中已出現(xiàn)大量的視頻共享網(wǎng)站,有些大型網(wǎng)站的視頻數(shù)量甚至超過千萬級(jí)的規(guī)模,如優(yōu)酷網(wǎng)和土豆網(wǎng)等.要想在海量的互聯(lián)網(wǎng)視頻中找到用戶感興趣的視頻,就需要建立有效的視頻索引和查詢機(jī)制.因此,視頻搜索引擎具有廣闊的應(yīng)用前景.目前,視頻搜索技術(shù)已成為多媒體計(jì)算、自然語言處理和搜索引擎這幾個(gè)研究領(lǐng)域的共同課題.視頻檢索技術(shù)包括基于內(nèi)容的視頻檢索和基于文本的視頻檢索(TBVR).現(xiàn)階段,由于基于內(nèi)容的視頻檢索所需的運(yùn)算量過高[2],因此基于文本的視頻檢索仍是最流行的視頻檢索技術(shù).

基于文本的視頻檢索系統(tǒng)將視頻信息轉(zhuǎn)化成文本,通過對獲得的文本建立索引來進(jìn)行視頻檢索.現(xiàn)有的主流視頻搜索引擎,如百度、谷歌等都使用基于文本的視頻檢索技術(shù),并從視頻所在網(wǎng)頁上獲取視頻的文本信息.在基于文本的視頻檢索系統(tǒng)中,標(biāo)題作為視頻信息的重要組成部分對精確的視頻檢索具有舉足輕重的作用.然而對于標(biāo)題本身是否能夠準(zhǔn)確描述視頻內(nèi)容這一問題,目前尚缺乏較為深入的研究.通過對來自優(yōu)酷網(wǎng)、土豆網(wǎng)等大型視頻網(wǎng)站的視頻及其標(biāo)題的分析,發(fā)現(xiàn)許多視頻的標(biāo)題不能準(zhǔn)確概括視頻的內(nèi)容.因此,對基于文本的視頻檢索系統(tǒng)而言,找出那些不能準(zhǔn)確表達(dá)視頻內(nèi)容的標(biāo)題并加以處理,以提高系統(tǒng)的檢索精度是十分必要的.文獻(xiàn)[3-5]中對文本標(biāo)題的自動(dòng)分類進(jìn)行了研究,文本標(biāo)題與視頻標(biāo)題的處理方法有類似之處.

通過分析大型視頻網(wǎng)站中視頻標(biāo)題的特點(diǎn),文中根據(jù)標(biāo)題對視頻內(nèi)容的描述程度將標(biāo)題的描述能力定義為可描述、可理解不可描述和不可理解3個(gè)等級(jí);將視頻標(biāo)題描述能力的評(píng)估問題看成分類問題,并使用支持向量機(jī)(SVM)[6]來實(shí)現(xiàn)自動(dòng)分類.支持向量機(jī)本質(zhì)上是一個(gè)兩類分類器,其目標(biāo)是尋找一個(gè)最優(yōu)超平面(或最優(yōu)超曲面,OHP),使得兩類樣本之間的間距達(dá)到最大.它對于解決小樣本、非線性和高維模式識(shí)別問題具有很多的優(yōu)勢,并且在文本分類、手寫體識(shí)別、自然語言處理等方面得到了驗(yàn)證[7-8].

由于視頻標(biāo)題通常很短,如果單純依賴標(biāo)題本身的信息會(huì)產(chǎn)生數(shù)據(jù)稀疏問題,因此文中提出利用標(biāo)題在互聯(lián)網(wǎng)搜索引擎中的搜索結(jié)果作為標(biāo)題信息的補(bǔ)充,使用從汽車領(lǐng)域隨機(jī)選取的5000個(gè)視頻標(biāo)題作為數(shù)據(jù)集進(jìn)行分類實(shí)驗(yàn),并對實(shí)驗(yàn)結(jié)果進(jìn)行了分析.

1 視頻標(biāo)題特點(diǎn)分析

筆者利用網(wǎng)絡(luò)爬蟲從優(yōu)酷網(wǎng)、土豆網(wǎng)等大型視頻網(wǎng)站上抓取了汽車領(lǐng)域的62305個(gè)視頻(包括標(biāo)題等相關(guān)信息),并從中隨機(jī)選取5000個(gè)作為分析樣本及實(shí)驗(yàn)數(shù)據(jù).所抽取的視頻相關(guān)信息包括視頻的標(biāo)題、標(biāo)簽、簡介、評(píng)論和類別.通過分析發(fā)現(xiàn),在這些文字信息中,標(biāo)簽、簡介、評(píng)論等所包含的視頻信息十分有限.視頻上傳者通常只提供標(biāo)題而不愿意提供視頻簡介和標(biāo)簽,且大量視頻的評(píng)論內(nèi)容為空,這就使得標(biāo)題成為最重要的信息來源.同時(shí),視頻標(biāo)題還具有以下幾個(gè)特點(diǎn).

1)視頻標(biāo)題含有大量領(lǐng)域詞匯.在隨機(jī)選取的5000個(gè)視頻中,含有領(lǐng)域詞的標(biāo)題有3661個(gè).領(lǐng)域詞主要有兩個(gè)來源:汽車品牌型號(hào)等領(lǐng)域詞匯(如“寶馬X5”、“法拉利”等)和汽車部件、汽車維修及汽車運(yùn)動(dòng)等汽車子領(lǐng)域詞匯(如“漂移”、“燒胎”等).另外,普通人很難理解其確切含義的很多名詞術(shù)語,如“移庫”、“倒樁”等,通常也很難被完全收錄到領(lǐng)域詞庫中.

2)視頻標(biāo)題普遍不長.視頻標(biāo)題通常很短,且包含大量領(lǐng)域詞匯等未登錄詞,因此標(biāo)題分詞結(jié)果的準(zhǔn)確率通常不高.但分詞結(jié)果作為評(píng)估標(biāo)題長度的數(shù)據(jù)仍然具有一定的參考價(jià)值.文中采用中國科學(xué)院計(jì)算機(jī)研究所開發(fā)的分詞和詞性標(biāo)注工具ICTCLAS對標(biāo)題進(jìn)行詞切分,使用分詞結(jié)果包含的詞語數(shù)作為標(biāo)題的長度.5000個(gè)標(biāo)題的平均長度為5.5,最長標(biāo)題的長度為40,最短的為1.

3)很多視頻標(biāo)題不具有描述視頻內(nèi)容的能力.視頻標(biāo)題一般是視頻內(nèi)容最簡單明了的概括,如“上海通用雪佛蘭樂風(fēng)宣傳片”.因此標(biāo)題被作為視頻檢索最重要的信息來源.5000個(gè)視頻標(biāo)題中大部分標(biāo)題具有描述視頻內(nèi)容的能力,但有相當(dāng)多的視頻標(biāo)題并不具備這個(gè)能力.其原因如下:

(1)由于視頻上傳者的疏忽,標(biāo)題只能表現(xiàn)視頻的一部分信息,如“寶馬”作為標(biāo)題只能說明視頻和寶馬車有關(guān),但不能傳達(dá)視頻的具體內(nèi)容.有的標(biāo)題完全不能傳達(dá)視頻內(nèi)容的任何信息,如標(biāo)題“團(tuán)結(jié)一心”.

(2)視頻上傳者為了吸引點(diǎn)播者的注意而故意使用不透露視頻內(nèi)容的標(biāo)題,如“史上最強(qiáng)”、“全定制賽道怪物”等標(biāo)題.

找到并處理描述能力不足的標(biāo)題對提高目前視頻搜索引擎和視頻推薦系統(tǒng)的性能至關(guān)重要.

2 標(biāo)題描述能力的分級(jí)及分類

2.1 標(biāo)題描述能力的分級(jí)

不管是用于視頻檢索還是視頻推薦,視頻最終是要提供給使用者,并由使用者判斷根據(jù)標(biāo)題信息提供的視頻是否和標(biāo)題相符.事實(shí)上,標(biāo)題與視頻相符需要滿足兩個(gè)要求:一是標(biāo)題包含足夠的信息,使用戶可以猜出視頻的內(nèi)容;二是標(biāo)題與視頻內(nèi)容一致.文中只針對標(biāo)題是否滿足第一個(gè)要求進(jìn)行研究,對于標(biāo)題是否滿足第二個(gè)要求則需要對視頻內(nèi)容進(jìn)行分析,因此不在文中討論的范圍內(nèi).文中以模擬用戶的判斷行為作為出發(fā)點(diǎn),根據(jù)視頻標(biāo)題對視頻內(nèi)容的描述程度將標(biāo)題描述能力分為可描述、可理解不可描述和不可理解3個(gè)等級(jí):

1)如果用戶看過標(biāo)題后可以猜出視頻內(nèi)容,那么該標(biāo)題的描述能力為可描述(D),如標(biāo)題“2010北京車展”.

2)如果用戶看過標(biāo)題后不能猜出任何有關(guān)視頻內(nèi)容的信息,那么該標(biāo)題的描述能力為不可理解(I),如標(biāo)題“史上最牛交警”.

3)如果用戶看過標(biāo)題后能猜出視頻的一部分信息,但不能確定視頻的具體內(nèi)容,那么該標(biāo)題的描述能力為可理解不可描述(IC),如標(biāo)題“豐田凱美瑞”.

2.2 視頻標(biāo)題類型

按照標(biāo)題描述能力的不同,將視頻標(biāo)題分為3類:如果標(biāo)題的描述能力為可描述,那么該標(biāo)題屬于可描述類(D類);如果標(biāo)題的描述能力為不可理解,那么該標(biāo)題屬于不可理解類(I類);如果標(biāo)題的描述能力為可理解不可描述,那么該標(biāo)題屬于可理解不可描述類(IC類).

按照上述分類,采用人工方式對汽車領(lǐng)域的5000個(gè)視頻進(jìn)行分類:指定3名標(biāo)注人員分別標(biāo)注5000個(gè)視頻標(biāo)題.標(biāo)注人員首先需要了解汽車領(lǐng)域的一些基礎(chǔ)知識(shí),避免出現(xiàn)由于領(lǐng)域知識(shí)不足造成錯(cuò)誤的分類結(jié)果.對于3人的標(biāo)注結(jié)果采用以下的方式處理:(1)如果3人對同一標(biāo)題標(biāo)注的類別相同,則該標(biāo)題屬于該類別;(2)如果3人對同一標(biāo)題標(biāo)注的類別不同,則由3人商議后決定該標(biāo)題所屬類別.

5000個(gè)視頻標(biāo)題的人工分類結(jié)果如下:550個(gè)無效視頻標(biāo)題因標(biāo)題重復(fù)以及含有亂碼等原因而無法用于評(píng)價(jià);2455個(gè)視頻標(biāo)題具有描述視頻內(nèi)容的能力,這也體現(xiàn)了視頻上傳者的視頻命名習(xí)慣,同時(shí)說明了搜索引擎利用視頻標(biāo)題檢索視頻的合理性;1478個(gè)視頻標(biāo)題不能描述視頻內(nèi)容;517個(gè)視頻標(biāo)題的描述能力不足,如果把這些視頻標(biāo)題直接用于檢索,視頻搜索和視頻推薦的準(zhǔn)確度和用戶滿意度會(huì)受到極大的影響.

3 SVM分類器的構(gòu)造

SVM的基本思想是通過事先選擇的非線性映射(核函數(shù))將輸入向量x映射到一個(gè)高維特征空間,在這個(gè)空間中構(gòu)造最優(yōu)分類超平面,以期將兩類樣本無錯(cuò)誤地分開(訓(xùn)練錯(cuò)誤率為0),而且要使兩類(標(biāo)記為y,y∈{-1,1})的分類空隙最大,前者保證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,后者使推廣性的界中的置信范圍最小(即分類器的結(jié)構(gòu)風(fēng)險(xiǎn)最小),這樣可使在原始空間非線性可分的問題變?yōu)楦呔S空間中線性可分的問題[7].

SVM的目標(biāo)是尋找特征空間劃分的最優(yōu)超平面及其支持向量(SV),首先需求出SV,然后求OHP.由于SV是到OHP:w·x+b=0的距離最近的樣本點(diǎn),并且同一類的SV到OHP的距離完全相等,不同類的SV到OHP的距離不一定相等.因此,給定m個(gè)訓(xùn)練樣本(x1,y1),(x2,y2),…,(x m,ym),要求一個(gè)分類超平面,關(guān)鍵在于求出分割超平面的法向量w和參數(shù)b.由于支持向量機(jī)理論要求分類超平面具有分類誤差小、推廣能力強(qiáng)的特點(diǎn),這樣分類超平面必須滿足最優(yōu)分類超平面的以下兩個(gè)條件:

其中非線性函數(shù)φ(w)用于將數(shù)據(jù)從輸入空間映射到高維空間.為了找到最優(yōu)的分類超平面,可根據(jù)最優(yōu)化理論,借助Lagrange函數(shù)將原問題轉(zhuǎn)化為求解標(biāo)準(zhǔn)二次規(guī)劃問題:

多數(shù)樣本對應(yīng)的αi為0,少數(shù)不為0的αi(αi>0)對應(yīng)的樣本即為支持向量,而相應(yīng)的最優(yōu)分類超平面(即分類決策函數(shù))為

式中:α=(α1,α2,…,αm),每個(gè)αi為Lagrange乘數(shù);K(x i,x j)為核函數(shù),用于計(jì)算一對輸入向量在高維空間中的內(nèi)積.求最優(yōu)平面的關(guān)鍵在于求出可以滿足αi>0的αi以及

標(biāo)題分類是一個(gè)多值分類問題,多值分類問題通常使用多個(gè)二值支持向量機(jī)的組合來解決,主要有一對多組合模式和一對一組合模式,其中一對一組合模式已經(jīng)被證明其性能優(yōu)于一對多組合模式[9],因此文中選用一對一組合模式,采用LIBSVM[10]軟件包實(shí)現(xiàn)標(biāo)題分類器的構(gòu)建.

4 標(biāo)題分類中的特征選取

特征選取就是針對特定的目標(biāo)或任務(wù)為模型選擇恰當(dāng)?shù)奶卣骷?在人工標(biāo)注的過程中,標(biāo)注人員發(fā)現(xiàn)上傳者通常更愿意在標(biāo)題中使用熟悉的詞匯描述視頻內(nèi)容,例如“測評(píng)”、“發(fā)布會(huì)”等.因此,視頻主題相近的標(biāo)題所使用的詞語也十分相近.文中只使用詞作為SVM的特征.詞根據(jù)來源分為兩類:第一類是標(biāo)題的分詞結(jié)果及分詞個(gè)數(shù);第二類是標(biāo)題的搜索結(jié)果中所包含的領(lǐng)域詞.

4.1 分詞結(jié)果特征

分詞結(jié)果是將標(biāo)題用分詞工具進(jìn)行分詞后得到的分詞集合.文中使用中國科學(xué)院計(jì)算機(jī)研究所開發(fā)的ICTCLAS作為分詞工具,并在分詞詞庫中導(dǎo)入了汽車領(lǐng)域的詞匯,如汽車商標(biāo)、型號(hào)、配件等.分詞結(jié)果中的停用詞是不作為特征使用的.

一般來講,越長的標(biāo)題所含的關(guān)于視頻的信息量越多,標(biāo)注人員越容易將它標(biāo)成可描述類,因此文中將標(biāo)題長度作為特征之一.如前所述,雖然分詞準(zhǔn)確度不高,但作為度量標(biāo)題長度的手段,分詞結(jié)果包含的詞語數(shù)仍具有參考價(jià)值.因此文中將標(biāo)題通過分詞工具得到的分詞個(gè)數(shù)(不包含停用詞)作為標(biāo)題的長度.

4.2 標(biāo)題搜索結(jié)果特征

由于標(biāo)題本身的特點(diǎn)和視頻上傳者在命名標(biāo)題時(shí)常常使用簡寫和新詞,因此分詞結(jié)果的準(zhǔn)確率不是很高.在隨機(jī)抽取的200個(gè)標(biāo)題的分詞結(jié)果中,只有113個(gè)結(jié)果完全正確.其中,大部分錯(cuò)誤是由于汽車領(lǐng)域詞沒有被正確切分識(shí)別引起的,比較典型的錯(cuò)誤是詞語被錯(cuò)誤地切開,如將“測評(píng)”分為“測”和“評(píng)”.為彌補(bǔ)分詞的不足,文中利用視頻標(biāo)題在搜索引擎中的搜索結(jié)果來發(fā)現(xiàn)標(biāo)題中未被正確切分的領(lǐng)域詞.

互聯(lián)網(wǎng)存放著大量有價(jià)值的信息,是一個(gè)重要的動(dòng)態(tài)的信息來源.而搜索引擎作為搜索互聯(lián)網(wǎng)信息的重要工具也常常被用來作為抽取信息的工具[11-12].

首先,將視頻標(biāo)題作為查詢條件送到互聯(lián)網(wǎng)搜索引擎中,搜索結(jié)果作為和標(biāo)題最相關(guān)的文本保存下來.為保證返回文檔和查詢的相關(guān)性,只有排名靠前的文檔被保存下來.如圖1所示,文中使用百度搜索引擎作為查詢工具,只保留返回文檔的標(biāo)題.

圖1 視頻標(biāo)題的搜索結(jié)果示例Fig.1 Examples of searching results of video title

標(biāo)題的分詞結(jié)果中領(lǐng)域詞被分錯(cuò)的主要原因是領(lǐng)域詞被錯(cuò)誤地切開,因此識(shí)別領(lǐng)域詞的任務(wù)變?yōu)檎业奖徽`切開的領(lǐng)域詞并將其重新合并起來.文中利用分詞結(jié)果中的相鄰詞在搜索結(jié)果中共現(xiàn)的次數(shù)來計(jì)算相鄰詞的相關(guān)度,相關(guān)度高的詞序列對視為候選領(lǐng)域詞.隨后,計(jì)算候選詞在汽車領(lǐng)域視頻標(biāo)題中出現(xiàn)的次數(shù),出現(xiàn)次數(shù)多的被認(rèn)為是領(lǐng)域詞.這些領(lǐng)域詞將作為視頻標(biāo)題的特征用于標(biāo)題分類.

同時(shí),為了避免特征向量過于稀疏,并利用返回結(jié)果的相關(guān)性,文中將返回文檔的標(biāo)題中出現(xiàn)的汽車領(lǐng)域的詞語作為標(biāo)題的補(bǔ)充信息,并作為SVM的特征向量.

4.3 特征值的提取過程

由于SVM分類器所使用的特征都是數(shù)字型,為此需要將特征編碼為數(shù)字,并提取相應(yīng)特征項(xiàng)的特征值.

文中將詞語的詞頻作為詞語的特征.對于分詞結(jié)果特征,詞語的詞頻是該詞出現(xiàn)在所在標(biāo)題中的次數(shù).對于標(biāo)題搜索結(jié)果特征,詞語分為兩種:(1)存在于標(biāo)題中但沒有被分詞工具識(shí)別出的詞語,對于這種詞語,文中將詞語在視頻標(biāo)題中出現(xiàn)的次數(shù)作為特征;(2)返回的搜索結(jié)果中標(biāo)題包含的領(lǐng)域詞,對于這種詞語,文中使用詞語在同一視頻標(biāo)題的搜索結(jié)果中出現(xiàn)的次數(shù)作為特征.為了降低模型的訓(xùn)練時(shí)間,文中對特征向量進(jìn)行了降維:如果一個(gè)分量在所有特征向量中非0的次數(shù)小于C,則在所有特征向量中刪除該分量.實(shí)驗(yàn)中取C=2.

經(jīng)過過濾,分詞結(jié)果特征數(shù)為3976,其中包含標(biāo)題長度特征;標(biāo)題搜索結(jié)果特征數(shù)為2017.全部特征數(shù)為5993.

5 實(shí)驗(yàn)及結(jié)果分析

使用2.2節(jié)中人工標(biāo)注的5000個(gè)視頻標(biāo)題作為實(shí)驗(yàn)數(shù)據(jù)集,其中可描述類(D類)標(biāo)題有2 455個(gè),不可理解類(I類)標(biāo)題有1478個(gè),可理解不可描述類(IC類)標(biāo)題有517個(gè),無效標(biāo)題有550個(gè).對于有效的4 450個(gè)視頻標(biāo)題,將每個(gè)視頻標(biāo)題送到百度搜索引擎中進(jìn)行查詢,將前30個(gè)返回結(jié)果的標(biāo)題保存下來作為視頻標(biāo)題的補(bǔ)充信息.4450個(gè)視頻標(biāo)題隨機(jī)分成數(shù)目相等的5組,其中4組作為訓(xùn)練集,1組作為測試集.測試集中,D類標(biāo)題有537個(gè),I類標(biāo)題有290個(gè),IC類標(biāo)題有63個(gè).

為了測試使用不同的特征集對分類效果的影響,文中采用了兩組特征集:特征集1只包含分詞結(jié)果特征;特征集2包含分詞結(jié)果特征和標(biāo)題搜索結(jié)果特征.

為了評(píng)價(jià)不同分類器的標(biāo)題分類效果,分別使用學(xué)習(xí)記憶模型(MBL)、樸素貝葉斯(NB)、SVM 3種分類方法進(jìn)行實(shí)驗(yàn).其中,SVM核函數(shù)選取RBF函數(shù).

對分類性能進(jìn)行評(píng)估時(shí),采用常用的3個(gè)評(píng)測指標(biāo):準(zhǔn)確率(P)、召回率(R)、綜合指標(biāo)F值(F):

其中F值是綜合評(píng)價(jià)P和R的指標(biāo),β是用來表明實(shí)驗(yàn)側(cè)重于P還是R,本實(shí)驗(yàn)中β設(shè)定為1.

文中分別在兩種特征集上測試了不同分類方法的分類效果,結(jié)果如表1-3所示.

表1 D類標(biāo)題的分類結(jié)果對比Table 1 Comparison of classification results for D titles%

表2 IC類標(biāo)題的分類結(jié)果對比Table 2 Comparison of classification results for IC titles%

表3 I類標(biāo)題的分類結(jié)果對比Table 3 Comparison of classification results for I titles%

從表1-3中可以看到,對于IC類標(biāo)題,3種分類方法的P、R和F很低;對于D類標(biāo)題,SVM在特征集2上的P、R、F值分別達(dá)到了84%、73%和79%,較高的準(zhǔn)確率確保了通過文中方法獲得的可描述標(biāo)題的可靠性.通過分析IC類標(biāo)題,發(fā)現(xiàn)該類標(biāo)題中的詞語也常在可描述類標(biāo)題中出現(xiàn),例如“寶馬X5”屬于可理解不可描述類,但“寶馬X5試駕”及“寶馬X5測評(píng)”等屬于可描述類的標(biāo)題.表4為使用SVM和特征集2得到的混淆矩陣.在計(jì)算相似度時(shí),IC類標(biāo)題更傾向于被標(biāo)成D類.而IC類的標(biāo)題數(shù)量較少也影響了該類標(biāo)題的分類效果.因此,文中只關(guān)注D類和I類的實(shí)驗(yàn)結(jié)果.

表4使用特征集2和SVM得到的混淆矩陣Table 4 Confusion matrix based on feature set2 and SVM

通過比較特征集1和2的分類效果,發(fā)現(xiàn)在使用標(biāo)題搜索結(jié)果特征后,3種分類方法對D類和I類識(shí)別的P、R和F值都有所提升,其中SVM對D類和I類識(shí)別的F值都提高了3%.由此可以認(rèn)為,標(biāo)題搜索結(jié)果特征可以提升分類的效果.

兩個(gè)特征集上的實(shí)驗(yàn)結(jié)果(表1-3)都表明:3種分類方法中,SVM對于D類和I類的分類效果均優(yōu)于MBL、NB.因此,可以認(rèn)為SVM對視頻標(biāo)題的分類效果優(yōu)于MBL、NB.

6 結(jié)語

文中根據(jù)視頻標(biāo)題對視頻內(nèi)容的刻畫程度將標(biāo)題的描述能力分為可描述、可理解不可描述和不可理解3個(gè)等級(jí).通過自動(dòng)分類的方法實(shí)現(xiàn)對標(biāo)題描述能力的評(píng)估.為豐富視頻標(biāo)題的信息,文中引入了標(biāo)題在搜索引擎中的搜索結(jié)果作為標(biāo)題信息的補(bǔ)充.由于SVM對小樣本分類問題有很好的識(shí)別效果,因此文中將SVM作為分類模型.實(shí)驗(yàn)結(jié)果表明,SVM的分類性能優(yōu)于NB和MBL;搜索結(jié)果作為標(biāo)題補(bǔ)充可以提升分類的效果.進(jìn)一步的研究將在以下兩個(gè)方面進(jìn)行:(1)分析視頻標(biāo)題的語義信息并將其應(yīng)用于分類技術(shù)中;(2)標(biāo)題在搜索引擎中的返回結(jié)果與標(biāo)題本身的相關(guān)性.

[1]張鹿.基于內(nèi)容的視頻搜索結(jié)果優(yōu)化[D].合肥:中國科技大學(xué)計(jì)算機(jī)學(xué)院,2010:1.

[2]Mu Xiang-ming.Content-based video retrieval:does video's semantic visual featurematter?[C]∥Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Washington:ACM,2006:679.

[3]戰(zhàn)學(xué)鋼,姚天順.基于語義分析的標(biāo)題分類方法[C]∥中文信息處理國際會(huì)議論文集.北京:清華大學(xué)出版社,1998:321-324.

[4]陳磊.基于HNC語義分析的中文標(biāo)題分類方法[C]∥全國第五屆計(jì)算機(jī)語言聯(lián)合學(xué)術(shù)會(huì)議論文集.北京:清華大學(xué)出版社,1999:371-375.

[5]Song D,Lau R Y K,Bruza PD,et al.An intelligent information agent for document title classification and filtering in document-intensive domains[J].Decision Support Systems,2007,44(1):251-265.

[6]Kotsiantis S B.Supervised machine learning:a review of classification techniques[J].Informatica,2007,31(3):249-268.

[7]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000,26(1):32-42.Zhang Xue-gong.Introduction statistical learing theory and support vectormachine[J].Acta Automatica Sinica,2000,26(1):32-42.

[8]Li Lishuang,Mao Tingting,Huang Degen,et al.Hybrid models for Chinese named entity recognition[C]∥Proceedings of the Fifth SIGHANWorkshop on Chinese Language Processing.Sydney:Association for Computational Linguistics,2006:72-78.

[9]Hsu CW,Lin C J.A comparison of methods for multiclass support vectormachines[J].IEEE Transactions on Neutral networks,2002,13(23):415-425.

[10]Chang C,Lin C.LIBSVM:a library for support vector machines[EB/OL].(2001-05-15)[2011-04-01].http:∥www.csie.ntu.edu.tw/~cjlin/libsvm.

[11]Bollegala D,Matsuo Y,Ishizuk M.Measuring semantic similarity between words usingWeb search engines[C]∥Proceedings of the 16th International Conference on World Wide Web.New York:ACM,2007:757-766.

[12]Sahami M,Heilman T.AWeb based kernel function for measuring the similarity of short text snippets[C]∥Proceedings of the 15th International World Wide Web Conference.Scotland:ACM,2006:377-386.

猜你喜歡
超平面分詞詞語
容易混淆的詞語
全純曲線的例外超平面
涉及分擔(dān)超平面的正規(guī)定則
找詞語
結(jié)巴分詞在詞云中的應(yīng)用
以較低截?cái)嘀財(cái)?shù)分擔(dān)超平面的亞純映射的唯一性問題
詞語欣賞
值得重視的分詞的特殊用法
數(shù)學(xué)年刊A輯(中文版)(2015年1期)2015-10-30 01:55:44
一枚詞語一門靜
莱芜市| 湛江市| 思南县| 堆龙德庆县| 山阳县| 定边县| 临沭县| 民丰县| 定日县| 娱乐| 开封市| 芦山县| 密云县| 龙口市| 韩城市| 玉门市| 休宁县| 富阳市| 泰兴市| 重庆市| 叙永县| 丹寨县| 丹棱县| 璧山县| 宜昌市| 清河县| 澳门| 马龙县| 威远县| 梨树县| 安塞县| 五大连池市| 都兰县| 雷州市| 贞丰县| 商都县| 项城市| 克什克腾旗| 邓州市| 额尔古纳市| 招远市|