祝漢城,周勇*,李雷達(dá),趙佳琦,杜文亮
1.中國(guó)礦業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,徐州 221116;2.礦山數(shù)字化教育部工程研究中心,徐州 221116;3.西安電子科技大學(xué)人工智能學(xué)院,西安 710071
隨著移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,人們?cè)谌粘I钪锌梢暂p易通過(guò)移動(dòng)設(shè)備獲取大量圖像數(shù)據(jù),極大豐富了人們的視覺體驗(yàn)。圖像的美與美感成為人們追求精神生活的重要部分(王偉凝 等,2012)。圖像美學(xué)評(píng)價(jià)(image aesthetics assessment,IAA)成為當(dāng)前圖像處理與計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)研究問(wèn)題(Deng等,2017b;金鑫 等,2018;Hosu等,2020)。圖像美學(xué)評(píng)價(jià)可以應(yīng)用于圖像增強(qiáng)(Chaudhary等,2018;王浩 等,2017)、圖像檢索(Vo等,2019;柯圣財(cái) 等,2017)、相冊(cè)管理(Kuzovkin,2019)和推薦系統(tǒng)(Zhang等,2017;黃立威 等,2018)等多個(gè)實(shí)用場(chǎng)景。例如,當(dāng)用戶在圖像搜索系統(tǒng)中輸入山景這個(gè)詞時(shí),希望看到的圖像內(nèi)容是色彩豐富、令人愉悅的山景或構(gòu)圖較好的山峰,而不是灰色或模糊的山景。目前,圖像美學(xué)評(píng)價(jià)已經(jīng)出現(xiàn)在一些實(shí)際應(yīng)用中,并取得一定的成功。例如,自動(dòng)設(shè)計(jì)廣告海報(bào)的魯班系統(tǒng)、自動(dòng)美化圖像的美圖秀秀軟件和自動(dòng)選取視頻封面的騰訊視頻軟件等。圖像美學(xué)評(píng)價(jià)具有重要的理論研究意義和實(shí)際應(yīng)用價(jià)值。
早期的圖像受設(shè)備成像技術(shù)和圖像處理技術(shù)的限制會(huì)引入不同程度的噪聲,研究人員主要通過(guò)圖像質(zhì)量評(píng)價(jià)(image quality assessment,IQA)方法來(lái)量化圖像的失真程度(王志明,2015)。隨著圖像成像和處理等技術(shù)的逐漸成熟,人們不僅可以相對(duì)容易地獲取到高質(zhì)量圖像,并且要求圖像既具有高質(zhì)量?jī)?nèi)容,又具有美感。例如,手機(jī)用戶拍照時(shí),對(duì)拍攝的圖像不僅要求內(nèi)容清晰,而且要求符合用戶的審美體驗(yàn)。由于人類對(duì)圖像的審美體驗(yàn)受到圖像客觀內(nèi)容和人類自身心理因素的雙重影響,因此圖像美學(xué)評(píng)價(jià)需要心理學(xué)、美學(xué)和計(jì)算機(jī)視覺等多個(gè)交叉學(xué)科的共同支持,是極具挑戰(zhàn)性的研究課題。
圖1 大眾化與個(gè)性化圖像美學(xué)評(píng)價(jià)的區(qū)別
目前,國(guó)內(nèi)外關(guān)于圖像美學(xué)評(píng)價(jià)的相關(guān)綜述文獻(xiàn)(王偉凝 等,2012;Deng等,2017b;金鑫 等,2018;白茹意 等,2019;魯越 等,2020)主要集中在針對(duì)GIAA模型的研究上。王偉凝等人(2012)主要介紹早期利用手工特征和傳統(tǒng)的機(jī)器學(xué)習(xí)來(lái)構(gòu)建圖像美學(xué)評(píng)價(jià)模型;Deng等人(2017b)從實(shí)驗(yàn)角度總結(jié)基于不同視覺特征(手工特征和深度特征)的方法在多個(gè)圖像美學(xué)評(píng)價(jià)數(shù)據(jù)庫(kù)上的對(duì)比結(jié)果和性能分析;金鑫等人(2018)回顧了圖像美學(xué)評(píng)價(jià)的發(fā)展歷史,從方法、新挑戰(zhàn)和數(shù)據(jù)庫(kù)構(gòu)建的角度綜述了該領(lǐng)域關(guān)鍵技術(shù)的發(fā)展情況;白茹意等人(2019)和魯越等人(2020)從藝術(shù)繪畫圖像分類的角度詳細(xì)分析了繪畫圖像美學(xué)評(píng)價(jià)方法的研究現(xiàn)狀及發(fā)展。這些綜述文獻(xiàn)主要是從大眾審美的角度探討圖像美學(xué)評(píng)價(jià)方法,缺少對(duì)PIAA模型相關(guān)研究進(jìn)展的分析與總結(jié)。為進(jìn)一步拓展和補(bǔ)充現(xiàn)有針對(duì)圖像美學(xué)評(píng)價(jià)的綜述文獻(xiàn),本文詳細(xì)概括了PIAA模型的研究進(jìn)展與趨勢(shì)。
從古至今,對(duì)美好事物的不斷追求一直是人類精神生活中的重要部分(羅利建,2014),例如古代的藝術(shù)繪畫和現(xiàn)代的攝影技術(shù)等。隨著物質(zhì)生活水平不斷提高,人們不再滿足于物品在功能上的實(shí)用性,還要求它們?cè)谝曈X上具有美感(金鑫 等,2018)。而圖像作為人們?nèi)粘I钪凶顝V泛使用的視覺內(nèi)容,使得圖像美學(xué)成為當(dāng)前美學(xué)與計(jì)算機(jī)視覺領(lǐng)域的重要研究課題(羅利建,2014)。圖像美學(xué)的研究目標(biāo)是利用科學(xué)的計(jì)算方法確定人類對(duì)圖像在視覺上表現(xiàn)出的審美感知,也就是判斷人類對(duì)給定圖像的審美體驗(yàn)(Palmer等,2013)。對(duì)人類的視覺審美體驗(yàn)進(jìn)行有效建??梢粤私馊藗兯璧膶徝狼楦性V求,在人們進(jìn)行藝術(shù)創(chuàng)作時(shí)(如繪畫和電影制作等)形成一套指導(dǎo)方針,以誘導(dǎo)感知者的神經(jīng)系統(tǒng)產(chǎn)生情感上的審美共鳴(Cavanagh,2005)。
長(zhǎng)久以來(lái),研究人員對(duì)人類的審美體驗(yàn)是否可以通過(guò)科學(xué)方法進(jìn)行計(jì)算存在一定爭(zhēng)議,一些研究人員認(rèn)為美學(xué)不可能通過(guò)科學(xué)方法進(jìn)行研究,因?yàn)榭茖W(xué)方法是客觀的和合理的,而美學(xué)具有主觀性和不確定性(Nanay等,2019)。但是隨著科學(xué)計(jì)算方法的不斷進(jìn)步,大多數(shù)研究人員認(rèn)為雖然人類的視覺審美體驗(yàn)是主觀的,但是這不阻礙利用客觀的計(jì)算方法進(jìn)行研究(Jacobsen,2006)。例如,人們對(duì)顏色的審美是主觀的,并且不同人之間也存在很大的審美差異,然而這沒有阻礙色覺成為一門完善以及技術(shù)成熟的科學(xué)體系(Koenderink,2010)。雖然人類對(duì)圖像的審美感知存在主觀性和不確定性,但是科學(xué)的計(jì)算方法就是從人類的視覺審美感知中尋找規(guī)律,進(jìn)而對(duì)圖像的美感進(jìn)行評(píng)估。因此,圖像美學(xué)評(píng)價(jià)是一種主觀性較強(qiáng)但可以通過(guò)客觀計(jì)算方法進(jìn)行研究的課題。
目前,圖像美學(xué)評(píng)價(jià)吸引了國(guó)內(nèi)外科研機(jī)構(gòu)和院校的關(guān)注與研究。具有代表性的有清華大學(xué)、中國(guó)科學(xué)院大學(xué)、西安電子科技大學(xué)、北京電子科技學(xué)院、華南理工大學(xué)、山東財(cái)經(jīng)大學(xué)、香港中文大學(xué)、美國(guó)谷歌研究院、美國(guó)賓夕法尼亞州立大學(xué)、美國(guó)加州大學(xué)歐文分校、美國(guó)羅格斯大學(xué)、新加坡南洋理工大學(xué)和德國(guó)蒂賓根大學(xué)等。這些機(jī)構(gòu)院校在計(jì)算機(jī)視覺與圖像處理等相關(guān)領(lǐng)域頂級(jí)期刊和會(huì)議發(fā)表了圖像美學(xué)評(píng)價(jià)相關(guān)研究成果,如《中國(guó)圖象圖形學(xué)報(bào)》、《計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào)》、TIP(IEEE Transactions on Image Processing)和CVPR(IEEE Conference on Computer Vision and Pattern Recognition)等。圖2展示了近10年在國(guó)內(nèi)外期刊和會(huì)議發(fā)表的圖像美學(xué)評(píng)價(jià)論文數(shù)量(Web of Science和中國(guó)知網(wǎng)的統(tǒng)計(jì)結(jié)果)??梢钥闯觯P(guān)于圖像美學(xué)評(píng)價(jià)的研究成果呈逐年增長(zhǎng)趨勢(shì),這些研究成果推動(dòng)了圖像美學(xué)評(píng)價(jià)的快速發(fā)展。此外,多媒體領(lǐng)域頂級(jí)國(guó)際會(huì)議(Association for Computing Machinery International Conference on Multimedia, ACM MM)于2020年舉辦了第1屆面向多媒體美學(xué)與技術(shù)質(zhì)量評(píng)價(jià)研討會(huì)(The 1st Workshop on Aesthetic and Technical Quality Assessment of Multimedia),專門就當(dāng)前圖像美學(xué)評(píng)價(jià)的最新研究趨勢(shì)、存在問(wèn)題和未來(lái)方向進(jìn)行意見交流和討論,以期加快該領(lǐng)域的研究進(jìn)展(Hosu等,2020)。
圖2 近10年發(fā)表的圖像美學(xué)評(píng)價(jià)論文數(shù)量
圖像美學(xué)評(píng)價(jià)方法的目的是利用可計(jì)算的智能系統(tǒng)有效地模擬人類對(duì)圖像的審美體驗(yàn),并自動(dòng)給出對(duì)圖像美學(xué)質(zhì)量的感知評(píng)估分?jǐn)?shù)(金鑫 等,2018)。神經(jīng)科學(xué)的研究表明人類的視覺審美體驗(yàn)是一種信息處理過(guò)程,包括5個(gè)階段:感知、內(nèi)隱記憶整合、內(nèi)容與風(fēng)格的明確分類和認(rèn)知掌握和評(píng)價(jià),最終產(chǎn)生審美判斷(Leder等,2004)。從早期的心理美學(xué)(Martindale,2007)到現(xiàn)代的神經(jīng)美學(xué),研究人員一致認(rèn)為,無(wú)論來(lái)源、文化和經(jīng)驗(yàn)如何,人類的審美體驗(yàn)與視覺刺激引起的感覺之間存在一定的關(guān)聯(lián)性(Zeki,2013)。因此,早期的研究人員認(rèn)為人類在對(duì)圖像的審美體驗(yàn)上通常具有共識(shí)性,可以通過(guò)攝影專家總結(jié)出的通用美學(xué)規(guī)則來(lái)描述圖像的美感,這些規(guī)則會(huì)受到多種因素的影響,如光照強(qiáng)度、色彩豐富度和構(gòu)圖方式(Wells,2015)等;為了方便計(jì)算,早期研究方法通常利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)構(gòu)建評(píng)價(jià)模型對(duì)圖像進(jìn)行美學(xué)二分類(王偉凝 等,2016)或美學(xué)分?jǐn)?shù)回歸(Kong等,2016)。
圖3 圖像美學(xué)二分類和分?jǐn)?shù)回歸的兩種任務(wù)
圖4 圖像美學(xué)分布預(yù)測(cè)任務(wù)
雖然圖像美學(xué)分布可以在一定程度反映出人們對(duì)圖像審美的主觀性,但是該研究任務(wù)還只是從圖像層面上來(lái)考慮人類的視覺審美特性,所以美學(xué)分布預(yù)測(cè)難以有效地推斷特定用戶對(duì)圖像的審美評(píng)估。圖5展示了5位用戶對(duì)同一幅圖像的美學(xué)評(píng)分??梢钥闯?,不同用戶對(duì)圖像的審美差異較大,所以僅從面向多數(shù)人的審美體驗(yàn)設(shè)計(jì)的GIAA模型難以有效地適用于現(xiàn)實(shí)生活中以用戶為中心的應(yīng)用場(chǎng)景,如個(gè)人相冊(cè)管理(Ceroni,2018)、個(gè)性化圖像增強(qiáng)(Bianco等,2020)和個(gè)性化推薦系統(tǒng)(Zhang等,2019a)等??紤]到人類對(duì)圖像的審美體驗(yàn)存在較強(qiáng)的個(gè)性化和主觀性,因而構(gòu)建符合特定用戶審美體驗(yàn)的PIAA模型是當(dāng)前圖像美學(xué)評(píng)價(jià)研究的重要發(fā)展方向。
圖5 圖像和5位用戶對(duì)應(yīng)的美學(xué)評(píng)分
個(gè)性化圖像美學(xué)評(píng)價(jià)任務(wù)需要對(duì)特定用戶的視覺審美進(jìn)行研究。因?yàn)橛脩舻膶徝荔w驗(yàn)受地域、年齡、性格、情感和行為習(xí)慣等多重因素的影響,因此針對(duì)特定用戶的PIAA模型的研究相對(duì)復(fù)雜和困難,面臨巨大挑戰(zhàn)。首先,PIAA是一種典型小樣本學(xué)習(xí)任務(wù)(Ren等,2017)。PIAA模型是面向特定用戶的即時(shí)系統(tǒng),無(wú)法要求用戶對(duì)大量圖像進(jìn)行美學(xué)標(biāo)注,通常情況下僅能獲取用戶對(duì)少量圖像樣本的標(biāo)注數(shù)據(jù)用于模型構(gòu)建。目前基于數(shù)據(jù)驅(qū)動(dòng)的深度卷積神經(jīng)網(wǎng)絡(luò)的有效訓(xùn)練需要大量樣本數(shù)據(jù)(Krizhevsky等,2012),因此,僅通過(guò)少量訓(xùn)練樣本構(gòu)建符合特定用戶審美體驗(yàn)的PIAA模型是一個(gè)較大挑戰(zhàn)。其次,由于用戶對(duì)圖像的審美體驗(yàn)具有高度主觀性(Kim等,2020b),所以用戶的主觀特性是影響其對(duì)圖像審美感知的重要因素。但是由于用戶的主觀特性較為復(fù)雜,導(dǎo)致用戶的審美體驗(yàn)會(huì)受到情感情緒(Joshi等,2011)和性格特征(Swami和Furnham,2014)等多方面影響,因此如何有效地提取用戶主觀特性并融入到PIAA模型中也是一個(gè)較大挑戰(zhàn)。雖然面臨上述挑戰(zhàn),但是由于PIAA模型可以較為精確地推斷出特定用戶對(duì)圖像的個(gè)性化美學(xué)評(píng)價(jià)結(jié)果,在面向個(gè)體用戶的智能終端上(例如,智能手機(jī)、智能手表和平板電腦等)有更加廣闊的應(yīng)用前景。
圖6是現(xiàn)有的PIAA模型的整體框架圖,該框架分為兩個(gè)階段。第1階段,主要針對(duì)PIAA任務(wù)的小樣本學(xué)習(xí)問(wèn)題,利用大量用戶進(jìn)行美學(xué)評(píng)價(jià)的GIAA數(shù)據(jù)集通過(guò)監(jiān)督訓(xùn)練獲取美學(xué)先驗(yàn)知識(shí)模型;第2階段,主要針對(duì)用戶視覺審美體驗(yàn)中的主觀性問(wèn)題,利用特定用戶的PIAA數(shù)據(jù)集對(duì)美學(xué)先驗(yàn)知識(shí)模型進(jìn)行微調(diào)訓(xùn)練,得到符合該用戶個(gè)性化審美體驗(yàn)的PIAA模型。現(xiàn)有的PIAA模型分為3類:基于協(xié)同過(guò)濾的PIAA模型、基于用戶交互的PIAA模型和基于審美差異的PIAA模型。
圖6 個(gè)性化圖像美學(xué)評(píng)價(jià)整體框架圖
2.2.1 基于協(xié)同過(guò)濾的PIAA模型
由于針對(duì)特定用戶的PIAA是小樣本學(xué)習(xí)任務(wù),直接通過(guò)少量的標(biāo)注樣本訓(xùn)練PIAA模型存在極大的不確定性。因此需要借助于其他相似用戶的美學(xué)先驗(yàn)知識(shí)構(gòu)建PIAA模型。如圖7所示,協(xié)同過(guò)濾是一種可以有效利用不同用戶之間相似的審美偏好來(lái)推斷特定用戶的個(gè)性化圖像美學(xué)評(píng)價(jià)方法(O′Donovan等,2014)。
圖7 基于協(xié)同過(guò)濾的PIAA模型典型框架
Deng等人(2017a)提出使用社交網(wǎng)絡(luò)上用戶標(biāo)記為“偏好”的樣本圖像表征用戶的審美感知。首先通過(guò)協(xié)同過(guò)濾的方法提取相應(yīng)偏好圖像的深度視覺特征(He等,2017)來(lái)構(gòu)建基于大眾化審美感知的GIAA模型;然后通過(guò)對(duì)已訓(xùn)練的GIAA模型進(jìn)行個(gè)性化審美的遷移學(xué)習(xí)來(lái)實(shí)現(xiàn)針對(duì)特定用戶的PIAA模型。Wang等人(2018)在圖像美學(xué)評(píng)價(jià)數(shù)據(jù)集AVA(aesthetic visual analysis)(Murray等,2012)的基礎(chǔ)上收集用戶對(duì)圖像的文本評(píng)論數(shù)據(jù)。首先利用協(xié)同過(guò)濾方法設(shè)計(jì)了一個(gè)帶有用戶與圖像關(guān)系編碼輸入的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型來(lái)訓(xùn)練GIAA模型,然后提出一種注意力機(jī)制,通過(guò)融合圖像和用戶評(píng)論信息來(lái)捕獲用戶對(duì)圖像語(yǔ)義標(biāo)簽和興趣區(qū)域,最后得到符合用戶個(gè)性化審美偏好的PIAA模型。Cui等人(2020)首先利用大規(guī)模的圖像美學(xué)評(píng)價(jià)數(shù)據(jù)集訓(xùn)練出GIAA模型,然后在社交媒體平臺(tái)上收集用戶的偏好圖像,并結(jié)合用戶的個(gè)性化審美偏好和大眾化審美標(biāo)準(zhǔn)來(lái)解決用戶偏好行為的不確定性,最后通過(guò)協(xié)同過(guò)濾的方法對(duì)每個(gè)用戶與圖像之間的成對(duì)排序進(jìn)行優(yōu)化的方式來(lái)解決數(shù)據(jù)稀疏問(wèn)題,得到基于CNN的PIAA模型。從上述分析可以看出,基于協(xié)同過(guò)濾的PIAA模型借助于用戶對(duì)圖像的審美相似性構(gòu)成協(xié)同矩陣,并通過(guò)目標(biāo)用戶與其他用戶之間的相似性度量獲取該用戶對(duì)圖像的美學(xué)評(píng)估。
2.2.2 基于用戶交互的PIAA模型
基于用戶交互的PIAA模型與基于協(xié)同過(guò)濾的PIAA模型類似,主要目的也是解決小樣本學(xué)習(xí)的問(wèn)題。不同之處在于基于交互的PIAA模型需要目標(biāo)用戶自身的交互行為,而基于協(xié)同過(guò)濾的PIAA模型則依賴于目標(biāo)用戶與其他用戶相似的審美偏好?;谟脩艚换サ腜IAA模型如圖8所示。
圖8 基于用戶交互的PIAA模型典型框架
Yeh等人(2014)提出一種針對(duì)用戶審美偏好的交互式反饋系統(tǒng),通過(guò)用戶對(duì)圖像的顏色、紋理和組成等通用手工特征的權(quán)重進(jìn)行調(diào)整來(lái)反饋其正向和負(fù)向的審美偏好行為,實(shí)現(xiàn)用戶對(duì)圖像的個(gè)性化審美排序。Park等人(2017)針對(duì)用戶的個(gè)性化審美偏好提出一種基于支持向量機(jī)(support vector machine,SVM)的組合學(xué)習(xí)框架,包括支持向量機(jī)回歸(support vector regression,SVR)和排序支持向量機(jī)(ranking SVM,R-SVM)。其中,SVR用于學(xué)習(xí)一個(gè)基于大眾化審美的GIAA模型,R-SVM用于從交互系統(tǒng)中學(xué)習(xí)用戶的個(gè)性化審美偏好來(lái)調(diào)整模型,并通過(guò)最近鄰搜索算法在GIAA數(shù)據(jù)集中識(shí)別與用戶的PIAA數(shù)據(jù)集最相似的部分圖像數(shù)據(jù)對(duì)該組合學(xué)習(xí)框架進(jìn)行優(yōu)化,最終得到用戶的PIAA模型。Lyu等人(2018)提出一種基于用戶交互的圖像美學(xué)排序模型,將特定用戶偏好的一系列圖像作為輸入,并輸出符合用戶審美偏好的圖像美學(xué)排序結(jié)果??紤]到特定用戶的主觀性和不確定性,通過(guò)檢索算法從GIAA數(shù)據(jù)集中提取與用戶指定圖像相似的數(shù)據(jù)集來(lái)描述其視覺審美偏好,并基于該用戶特定數(shù)據(jù)集中的圖像美學(xué)屬性分布,通過(guò)用戶多次的交互排序得到符合此用戶的PIAA模型。從上述分析可以看出,基于用戶交互的PIAA模型可以通過(guò)用戶在PIAA模型的訓(xùn)練過(guò)程中對(duì)個(gè)性化美學(xué)排序結(jié)果不斷地進(jìn)行調(diào)整,從而獲取符合用戶個(gè)性化審美體驗(yàn)的PIAA模型。
2.2.3 基于審美差異的PIAA模型
除了上述兩類PIAA模型,一些研究人員認(rèn)為用戶的個(gè)性化審美與圖像大眾化審美之間存在的差異會(huì)受到用戶主觀因素和圖像客觀因素影響,基于此動(dòng)機(jī),現(xiàn)有的研究工作提出了基于審美差異的PIAA模型,其典型框架如圖9所示。
圖9 基于審美差異的PIAA模型典型框架
Ren等人(2017)針對(duì)用戶的個(gè)性化審美偏好問(wèn)題提出了兩個(gè)用于個(gè)性化圖像美學(xué)評(píng)價(jià)的數(shù)據(jù)集,并通過(guò)研究發(fā)現(xiàn)用戶的個(gè)性化審美與圖像大眾化審美之間的差異與圖像內(nèi)容和美學(xué)屬性之間存在著密切的關(guān)聯(lián)性。利用用戶的個(gè)性化美學(xué)評(píng)分與圖像大眾化美學(xué)分?jǐn)?shù)的差異值作為預(yù)測(cè)目標(biāo),通過(guò)對(duì)基于CNN的GIAA模型進(jìn)行微調(diào)訓(xùn)練來(lái)獲取PIAA模型。Wang等人(2019)提出一種包含大眾化網(wǎng)絡(luò)和輔助網(wǎng)絡(luò)的元學(xué)習(xí)框架,首先利用大眾化網(wǎng)絡(luò)學(xué)習(xí)GIAA模型,并利用輔助網(wǎng)絡(luò)學(xué)習(xí)圖像的內(nèi)容的特征,然后利用元學(xué)習(xí)的快速適應(yīng)能力通過(guò)輔助特征學(xué)習(xí)特定用戶的個(gè)性化美學(xué)評(píng)分與圖像大眾化美學(xué)分?jǐn)?shù)之間的差異分?jǐn)?shù),最終通過(guò)對(duì)差異分?jǐn)?shù)與大眾化美學(xué)評(píng)分進(jìn)行求和得到PIAA模型。Li等人(2020)將用戶的性格特征作為該用戶個(gè)性化審美與大眾化審美之間差異的主觀因素,提出一種基于多任務(wù)學(xué)習(xí)的個(gè)性化圖像美學(xué)評(píng)價(jià)框架。該框架包括兩個(gè)階段,第1階段,提出一個(gè)具有共享權(quán)重的多任務(wù)學(xué)習(xí)網(wǎng)絡(luò),用于同時(shí)預(yù)測(cè)圖像的美學(xué)分布和偏好該圖像的用戶性格特征。為了獲取GIAA模型和用戶性格特征的共同表征,構(gòu)建一個(gè)孿生網(wǎng)絡(luò),將美學(xué)數(shù)據(jù)和性格數(shù)據(jù)用于聯(lián)合訓(xùn)練多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)模塊。第2階段,基于多任務(wù)模塊中預(yù)測(cè)得到用戶的性格特征和大眾化審美分?jǐn)?shù),進(jìn)一步引入任務(wù)間融合學(xué)習(xí)模塊,最終生成針對(duì)特定用戶的PIAA模型。Zhu等人(2022)發(fā)現(xiàn)基于平均美學(xué)的GIAA先驗(yàn)?zāi)P碗y以體現(xiàn)不同用戶對(duì)圖像審美差異的多樣性,為了學(xué)習(xí)不同用戶對(duì)圖像進(jìn)行美學(xué)評(píng)價(jià)時(shí)更可靠的美學(xué)評(píng)價(jià)先驗(yàn)知識(shí),提出一種基于雙層梯度優(yōu)化元學(xué)習(xí)的PIAA模型,直接通過(guò)對(duì)大量用戶的PIAA任務(wù)進(jìn)行訓(xùn)練構(gòu)建美學(xué)評(píng)價(jià)先驗(yàn)知識(shí)模型,然后通過(guò)目標(biāo)用戶少量的PIAA數(shù)據(jù)集對(duì)先驗(yàn)知識(shí)模型進(jìn)行微調(diào),最終獲得符合該用戶個(gè)性化審美體驗(yàn)的PIAA模型。
從上述分析可以看出,基于審美差異的PIAA模型可以通過(guò)分析造成不同用戶之間審美差異的影響因素,并利用目標(biāo)用戶的偏好圖像提取相應(yīng)特征,從已訓(xùn)練的GIAA模型進(jìn)行遷移學(xué)習(xí),得到該用戶的PIAA模型。
表1總結(jié)了現(xiàn)有3類PIAA模型的主要特性以及優(yōu)缺點(diǎn)??梢钥闯觯F(xiàn)有基于協(xié)同過(guò)濾的PIAA模型可以利用不同用戶對(duì)圖像的審美偏好建立協(xié)同矩陣,在對(duì)目標(biāo)用戶進(jìn)行PIAA建模時(shí),通過(guò)協(xié)同矩陣中相似用戶的審美偏好得到該用戶對(duì)圖像的個(gè)性化審美。但是這在實(shí)際情況下通常難以實(shí)現(xiàn),因?yàn)橛脩糁g的審美是相對(duì)稀疏的,無(wú)法確保目標(biāo)用戶與其他用戶對(duì)同一幅圖像都進(jìn)行過(guò)美學(xué)評(píng)價(jià)?,F(xiàn)有基于用戶交互的PIAA模型可以根據(jù)用戶的實(shí)時(shí)反饋獲取較為魯棒的性能,但是該方法需要用戶進(jìn)行在線的交互行為,這通常難以適用于在現(xiàn)實(shí)生活中的離線場(chǎng)景應(yīng)用?,F(xiàn)有基于審美差異的PIAA模型通過(guò)在先驗(yàn)?zāi)P椭袑W(xué)習(xí)不同用戶之間的審美差異,可以利用目標(biāo)用戶的少量標(biāo)注樣本進(jìn)行微調(diào)得到,但是該方法難以有效地量化用戶個(gè)性化審美與大眾化審美之間差異的影響因素,這是因?yàn)橛脩舻膫€(gè)性化審美偏好會(huì)受到其自身的多重主觀特性影響,導(dǎo)致獲取的PIAA模型存在一定的不確定性。
表1 現(xiàn)有的3類PIAA模型的主要特性和優(yōu)缺點(diǎn)
綜上所述,基于協(xié)同過(guò)濾和用戶交互的PIAA模型局限于需要用戶進(jìn)行在線交互的應(yīng)用場(chǎng)景;基于審美差異的PIAA模型依賴于可以有效地衡量用戶個(gè)性化審美相對(duì)于圖像大眾化審美的差異的主觀性因素。因而,上述不同類型的PIAA模型需要在不同的前提條件下獲取用戶的主觀特性,無(wú)法在統(tǒng)一的實(shí)驗(yàn)設(shè)置下對(duì)現(xiàn)有PIAA模型的性能進(jìn)行定量評(píng)估。面對(duì)上述問(wèn)題,如何通過(guò)對(duì)用戶在日常生活中外化出的審美行為進(jìn)行分析,有效捕獲影響用戶對(duì)圖像審美體驗(yàn)的主觀性因素,并借助基于小樣本學(xué)習(xí)的深度框架將相應(yīng)的主觀性因素融入到PIAA模型的學(xué)習(xí)中,是提高PIAA模型有效性和魯棒性的關(guān)鍵。
對(duì)于特定用戶的PIAA任務(wù)來(lái)說(shuō),圖像美學(xué)分?jǐn)?shù)的相對(duì)大小相比于絕對(duì)大小更具研究意義,所以圖像美學(xué)評(píng)價(jià)模型的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的排序一致性是非常重要的評(píng)價(jià)標(biāo)準(zhǔn)(Ren等,2017;Lyu等,2018;Li等,2020)。PIAA模型的性能通常采用斯皮爾曼相關(guān)系數(shù)(Spearman rank order correlation coefficient,SROCC)進(jìn)行衡量。假設(shè)si和s′i分別表示第i幅測(cè)試圖像在真實(shí)美學(xué)分?jǐn)?shù)和預(yù)測(cè)美學(xué)分?jǐn)?shù)中的排序等級(jí),則真實(shí)美學(xué)分?jǐn)?shù)和預(yù)測(cè)美學(xué)分?jǐn)?shù)之間的等級(jí)差為
di=si-s′i
(1)
SROCC計(jì)算為
(2)
現(xiàn)有不少針對(duì)IAA的研究建立的數(shù)據(jù)庫(kù),但大多是針對(duì)GIAA任務(wù)構(gòu)建的,如AVA(aesthetic visual analysis)(Murray等,2012)、AADB(aesthetics and attributes database)(Kong等,2016)、CUHK-PQ(Chinese University of Hong Kong photo quality)(Tang等,2013)、DPChallenge(digital photography challenge)(Datta等,2008)和Photo.net(Joshi等,2011)等,這使得GIAA模型的研究相對(duì)成熟且發(fā)展較快。隨著社交網(wǎng)絡(luò)和在線眾包技術(shù)的快速發(fā)展,一些研究人員針對(duì)特定用戶的個(gè)性化審美體驗(yàn)建立了公開的PIAA數(shù)據(jù)庫(kù),如FLICKR-AES(Flickr images with aesthetics annotation dataset)和REAL-CUR(real album curation dataset)(Ren等,2017)。AADB是針對(duì)GIAA任務(wù)建立的數(shù)據(jù)庫(kù),但是由于AADB數(shù)據(jù)庫(kù)包含每個(gè)用戶對(duì)圖像進(jìn)行美學(xué)評(píng)分的身份信息,因此該數(shù)據(jù)庫(kù)也可以用于PIAA任務(wù)。本文主要是對(duì)PIAA模型的研究綜述,因此主要對(duì)AADB、FLICKR-AES和REAL-CUR這3個(gè)公開數(shù)據(jù)庫(kù)進(jìn)行詳細(xì)介紹,主要信息如表2所示。
表2 3個(gè)公開數(shù)據(jù)庫(kù)的主要信息
圖10 FLICKR-AES數(shù)據(jù)庫(kù)中的示例圖像以及對(duì)應(yīng)用戶的身份(ID)信息和美學(xué)評(píng)分
PIAA的研究旨在利用可計(jì)算的智能系統(tǒng)構(gòu)建模型來(lái)模擬特定用戶的審美思維對(duì)圖像的美感進(jìn)行評(píng)估。由于人們對(duì)圖像的審美體驗(yàn)具有較強(qiáng)的主觀性,往往涉及心理學(xué)、藝術(shù)美學(xué)和計(jì)算機(jī)圖形學(xué)等多個(gè)交叉學(xué)科的融合。因此,PIAA模型的研究面臨全新的問(wèn)題與挑戰(zhàn)。同樣,PIAA模型的研究在人機(jī)交互、個(gè)性化搜索引擎與推薦系統(tǒng)(冀振燕 等,2017)、個(gè)性化視覺增強(qiáng)(Kim等,2020a)和個(gè)性化廣告海報(bào)設(shè)計(jì)(Song等,2019)等經(jīng)濟(jì)、藝術(shù)與科技的融合領(lǐng)域有著重要的應(yīng)用價(jià)值。
隨著計(jì)算機(jī)技術(shù)和硬件制造技術(shù)的不斷進(jìn)步,可計(jì)算的智能設(shè)備逐漸開始面向個(gè)體用戶并朝著小型化和個(gè)性化發(fā)展,如可穿戴設(shè)備、移動(dòng)手機(jī)和平板電腦等。用戶利用這些移動(dòng)智能設(shè)備可以隨時(shí)隨地進(jìn)行購(gòu)物和娛樂(lè)等消費(fèi)行為,而用戶之間的消費(fèi)行為和審美體驗(yàn)往往存在較大差異,因此,需要根據(jù)不同的用戶偏好設(shè)計(jì)個(gè)性化的私人定制服務(wù)。例如,阿里巴巴的魯班系統(tǒng)可以根據(jù)用戶個(gè)性化的審美體驗(yàn)自動(dòng)設(shè)計(jì)出千人千面的商品廣告,提升了投放廣告的點(diǎn)擊率;OPPO R17手機(jī)的立體自定義美顏功能可以根據(jù)用戶不同的審美偏好打造個(gè)性化的成像效果,深受用戶歡迎。這些案例說(shuō)明當(dāng)今社會(huì)人們希望智能系統(tǒng)能夠理解他們獨(dú)特的審美偏好,并盡可能滿足他們的審美需求。此外,百度公司于2020年9月—2021年1月舉辦的AI(artificial intelligence)沉浸式互動(dòng)藝術(shù)體驗(yàn)展體現(xiàn)了人們對(duì)藝術(shù)作品的追求。但是由于人們對(duì)藝術(shù)作品的感受具有高度主觀性,因而在利用AI技術(shù)創(chuàng)造藝術(shù)作品時(shí)需要考慮不同人的個(gè)性化審美體驗(yàn)。并且,通過(guò)研究用戶的個(gè)性化審美可以分析用戶潛在的行為傾向和心理狀態(tài),對(duì)用戶的情感分析(Zhao等,2018)、性格分析(Zhu等,2018)以及心理疾病輔助診斷(Guntuku等,2017)具有重要的應(yīng)用價(jià)值??偠灾琍IAA模型的研究在當(dāng)今科技、經(jīng)濟(jì)和醫(yī)療和藝術(shù)等領(lǐng)域的融合與發(fā)展上具有廣闊的應(yīng)用場(chǎng)景。
但是,現(xiàn)有PIAA模型在實(shí)際應(yīng)用中還存在較大問(wèn)題,主要原因有:1)用戶的審美體驗(yàn)在實(shí)際場(chǎng)景存在較大的不確定性,導(dǎo)致難以有效地量化用戶在審美感知中的主觀特性;2)現(xiàn)有技術(shù)對(duì)PIAA模型的研究尚處于起步階段,相關(guān)的數(shù)據(jù)庫(kù)還較為匱乏,難以直接應(yīng)用于實(shí)際場(chǎng)景。因此,在實(shí)際應(yīng)用中,需要借助于更有效的模型來(lái)提取用戶更為魯棒的審美主觀特性,并創(chuàng)建與應(yīng)用場(chǎng)景相關(guān)的數(shù)據(jù)庫(kù)來(lái)學(xué)習(xí)更加有效的PIAA模型。
移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展使用戶對(duì)個(gè)性化產(chǎn)品和服務(wù)產(chǎn)生了極大需求。針對(duì)圖像美學(xué)的個(gè)性化評(píng)價(jià)符合時(shí)代的發(fā)展要求。本文首先對(duì)圖像美學(xué)評(píng)價(jià)的研究現(xiàn)狀和發(fā)展趨勢(shì)進(jìn)行分析,然后總結(jié)當(dāng)前個(gè)性化圖像美學(xué)評(píng)價(jià)方法的整體研究框架和面臨的問(wèn)題與挑戰(zhàn)。PIAA模型的研究主要面臨訓(xùn)練樣本有限和美學(xué)評(píng)估的高度主觀性兩個(gè)主要挑戰(zhàn)。PIAA模型主要可分為基于協(xié)同過(guò)濾的PIAA模型、基于用戶交互的PIAA模型和基于審美差異的PIAA模型,雖然取得了一定進(jìn)展,但是還存在不少問(wèn)題。基于協(xié)同過(guò)濾的PIAA模型和基于用戶交互的PIAA模型需要借助于其他相似用戶或用戶的交互行為,這不利于現(xiàn)實(shí)情況下的離線系統(tǒng);而基于審美差異的PIAA模型依賴于對(duì)用戶的主觀特性的有效客觀量化,導(dǎo)致PIAA模型存在不確定性。目前對(duì)PIAA模型的研究還處于起步階段,如何利用有限的樣本進(jìn)行模型訓(xùn)練和提取描述用戶主觀特性的有效特征是問(wèn)題的關(guān)鍵。
針對(duì)PIAA模型的研究,小樣本學(xué)習(xí)和主觀性較強(qiáng)仍然是兩個(gè)主要問(wèn)題。對(duì)此,總結(jié)未來(lái)的研究重點(diǎn)和發(fā)展方向如下:
1)研究知識(shí)驅(qū)動(dòng)的PIAA模型?,F(xiàn)有的PIAA方法大都需要數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法進(jìn)行模型構(gòu)建(Ren等,2017;Li等,2020),這些方法的良好表現(xiàn)很大程度上依賴于高質(zhì)量的標(biāo)注數(shù)據(jù)。由于用戶對(duì)圖像的審美標(biāo)注具有高度主觀特性,所以高質(zhì)量的標(biāo)注數(shù)據(jù)需要極為精準(zhǔn)的主觀性實(shí)驗(yàn)。在現(xiàn)實(shí)應(yīng)用中,由于人工標(biāo)注成本較高,耗費(fèi)大量人力物力,針對(duì)PIAA模型的小樣本學(xué)習(xí)問(wèn)題,如何在少量訓(xùn)練樣本情況下獲取有效的先驗(yàn)知識(shí)模型具有重要研究?jī)r(jià)值。并且,隨著近些年自監(jiān)督學(xué)習(xí)(Jing和Tian,2021)、強(qiáng)化學(xué)習(xí)(Li等,2018)和元學(xué)習(xí)(Wortsman等,2019)等知識(shí)驅(qū)動(dòng)的深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域廣泛應(yīng)用,基于知識(shí)驅(qū)動(dòng)的PIAA模型是下一步研究的重要方向。
2)研究融入用戶主觀特性的PIAA模型。在用戶對(duì)圖像的審美體驗(yàn)中,不同用戶之間存在審美差異的關(guān)鍵因素是用戶之間具有不同的主觀特性。因此,在研究用戶的個(gè)性化審美中,不僅要借助于用戶對(duì)圖像美學(xué)評(píng)價(jià)的標(biāo)注數(shù)據(jù),而且還需要借助于用戶的自身主觀特性。針對(duì)上述問(wèn)題,可以通過(guò)對(duì)用戶外化出的行為進(jìn)行分析,獲取可以全面描述影響其對(duì)圖像審美偏好的多重主觀特性,例如情緒情感(Zhao等,2018)和性格特征(Zhu等,2018)等。同時(shí),利用基于多模態(tài)融合理論的深度學(xué)習(xí)技術(shù)融入用戶的多重主觀特性,構(gòu)建出魯棒性較好的PIAA模型。
3)構(gòu)建具有統(tǒng)一的用戶主觀特性和個(gè)性化圖像美學(xué)評(píng)價(jià)的數(shù)據(jù)庫(kù)。從本文的分析中可以看出,研究用戶對(duì)圖像的個(gè)性化美學(xué)感知需要借助用戶的主觀特性,但是現(xiàn)有工作很少將這兩項(xiàng)研究?jī)?nèi)容進(jìn)行結(jié)合分析。究其原因,是由于目前尚無(wú)相關(guān)的數(shù)據(jù)庫(kù)可以同時(shí)標(biāo)注用戶的主觀特性和其對(duì)圖像的個(gè)性化美學(xué)評(píng)分(Ren等,2017)。因此,在未來(lái)的研究工作中,亟需開發(fā)出具有統(tǒng)一的用戶主觀特性和個(gè)性化圖像美學(xué)評(píng)價(jià)數(shù)據(jù)庫(kù),通過(guò)該數(shù)據(jù)庫(kù)可以更加深入地研究用戶對(duì)圖像審美感知的個(gè)性化評(píng)價(jià)問(wèn)題。