通過概率分布預(yù)測的端到端的顯著性映射-數(shù)字圖像處理課程設(shè)計_第1頁
已閱讀1頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、<p><b>  綜合課程設(shè)計</b></p><p><b> ?。ㄓ嬎銠C)</b></p><p>  題 目: 通過概率分布預(yù)測的端</p><p>  到端的顯著性映射 </p><p>  學(xué) 院: 理學(xué)院 </p

2、><p>  班 級: </p><p>  學(xué) 生 姓 名: </p><p>  學(xué) 生 學(xué) 號: </p><p>  指 導(dǎo) 教 師: </p><p>  2016年 12月 24日</p>

3、<p><b>  課程設(shè)計任務(wù)書</b></p><p><b>  目錄</b></p><p><b>  摘要I</b></p><p><b>  1 引言1</b></p><p><b>  2 相關(guān)工作2<

4、/b></p><p><b>  3 本文要點3</b></p><p>  3.1 問題模型5</p><p>  3.2 算法設(shè)計6</p><p><b>  4 實驗7</b></p><p><b>  5 結(jié)論8</b>&l

5、t;/p><p>  6 課程設(shè)計心得體會10</p><p>  7 參考文獻11</p><p>  注:(1)頁腳:從摘要開始進行頁碼編號Ⅰ,Ⅱ……;</p><p> ?。?)目錄內(nèi)容用宋體4號;</p><p> ?。?)目錄可根據(jù)英文原文適當(dāng)調(diào)整,包括2級標(biāo)題、3級標(biāo)題的設(shè)置等。</p>&

6、lt;p><b>  摘要</b></p><p>  最顯著性估計方法旨在顯式地建模諸如邊緣或斑點的低級別醒目提示,并且可以另外使用面部或文本檢測來并入自上而下的提示。使用眼睛數(shù)據(jù)訓(xùn)練顯著性模型的數(shù)據(jù)驅(qū)動方法越來越受歡迎,特別是隨著大規(guī)模數(shù)據(jù)集和深層架構(gòu)的引入。然而,后者范例中的當(dāng)前方法使用為分類或回歸任務(wù)設(shè)計的損失函數(shù),而在地形圖上評估顯著性估計。在這項工作中,我們介紹一個新的顯著

7、圖模型制定一個地圖作為廣義伯努利分布。然后,我們訓(xùn)練深層架構(gòu),使用新的損失函數(shù)來預(yù)測這樣的地圖,其將softmax激活函數(shù)與設(shè)計為計算概率分布之間的距離的度量配對。我們在廣泛的實驗中展示了這樣的損失函數(shù)在四個公共基準(zhǔn)數(shù)據(jù)集上的標(biāo)準(zhǔn)函數(shù)的有效性,并且證明了相對于最先進的顯著性方法改進的性能。</p><p>  關(guān)鍵詞:廣義伯努利分布,損失函數(shù),顯著性方法</p><p><b>

8、  1 引言</b></p><p>  這項工作涉及視覺注意預(yù)測,特別是,當(dāng)給定輸入圖像時預(yù)測地形視覺顯著圖。 傳統(tǒng)上,視覺注意在計算機視覺中用作預(yù)處理步驟,以便將后續(xù)處理集中在圖像中感興趣的區(qū)域上,隨著視覺模型和數(shù)據(jù)集尺寸增加,視覺注意作為越來越重要的步驟。 顯著圖預(yù)測已經(jīng)在諸如自動圖像裁剪。內(nèi)容感知圖像大小調(diào)整,圖像縮略圖,物體識別和融合場景以及人類行為分類。傳統(tǒng)顯著性模型,如Itti等人的開創(chuàng)

9、性工作。側(cè)重于設(shè)計明確建模生物系統(tǒng)的機制。</p><p>  另一種流行的注意建模范例涉及使用數(shù)據(jù)驅(qū)動方法來學(xué)習(xí)補丁級分類器,其給予局部圖像補丁“顯著性得分”,使用眼睛數(shù)據(jù)來導(dǎo)出訓(xùn)練標(biāo)簽。最近出現(xiàn)的一種趨勢與這兩種模式相交:使用分層模型提取顯著圖,其中模型權(quán)重以受監(jiān)督的方式被學(xué)習(xí)。特別地,已經(jīng)成功地用于諸如分類或?qū)ο蠖ㄎ坏恼Z義標(biāo)記任務(wù)中的端對端或“深”體系結(jié)構(gòu)已經(jīng)被重新用作注意模型。這種趨勢通過引入使用新穎的眼

10、動移動收集范例創(chuàng)建的大視覺注意數(shù)據(jù)集而得以促進[16,43]。然而,雖然這些深層方法集中在設(shè)計適當(dāng)?shù)募軜?gòu)以提取顯著圖,但是它們繼續(xù)使用適用于語義任務(wù)的損失函數(shù),例如分類或回歸損失。</p><p>  2 相關(guān)工作 現(xiàn)有的方法可以被組織成四個大類中的一個,基于它們是否涉及淺的或深的架構(gòu),以及無監(jiān)督的或監(jiān)督的學(xué)習(xí)范例。 我們將依次討論這些大類。 對于一個優(yōu)秀的顯著性估計方法的調(diào)查,請參考[2]。</p

11、><p>  無監(jiān)督的淺層方法大多數(shù)早期的顯著性工作建立在人類研究的心理和心理物理注意模型上。 Koch和Ullman [20]首先使用特征整合理論[40]來提出一組基本線索的單獨地形圖,例如顏色,對比度和運動,并將它們組合起來以產(chǎn)生顯著的全局地形圖。 他們的模型是使用一個簡單的神經(jīng)電路實現(xiàn)的贏家獲得所有和抑制回程機制。 在[13]中通過將特征圖組合在一組更廣泛的模態(tài)(42個這樣的圖)和對真實世界圖像的測試中進一步研

12、究。 后來的方法在很大程度上探討了互補特征集[14,41,26,24,45,32]的相同想法,并且經(jīng)常添加額外的中心環(huán)繞線索[14,31,45]。</p><p>  作為補充生物動機的方法,許多方法采用信息理論的注意選擇理由,例如。 通過自我信息[46],信息最大化[4]或貝葉斯驚奇[12]。 通過基于頻譜的方法實現(xiàn)高計算效率[10,35]。 所有這些方法使用自下而上的線索,淺(一層或幾層),并且不涉及閾值/啟

13、發(fā)式的或簡單的學(xué)習(xí)。</p><p>  監(jiān)督淺層方法此類別包括基于學(xué)習(xí)的方法,涉及模型如馬可夫鏈[8],支持向量機[19,18]和adaboost分類器[6]。 [8]代替中心的想法包圍和規(guī)范化與可學(xué)習(xí)的圖重量。 [6],[18]和[48]通過以面部,人,汽車和地平線的檢測圖的形式引入自上而下的語義線索來豐富學(xué)習(xí)。</p><p>  無監(jiān)督層次方法在顯著性預(yù)測的上下文中,首先嘗試采用

14、更深層次的架構(gòu)大多是無監(jiān)督的。 [37]使用3層稀疏編碼單元網(wǎng)絡(luò)從固定圖像塊中學(xué)習(xí)更高層次的概念。 [42]執(zhí)行大規(guī)模搜索以獲得最多三層的最佳網(wǎng)絡(luò)架構(gòu),但是網(wǎng)絡(luò)權(quán)重未被學(xué)習(xí)。 DeepGaze [23]采用現(xiàn)有的網(wǎng)絡(luò)架構(gòu),5層深的AlexNet [21]在ImageNet上進行對象分類訓(xùn)練,以證明即使沒有訓(xùn)練,CNN的特性也能顯著優(yōu)于非深度和“較淺”的模型 明確地對顯著性預(yù)測的任務(wù)。 在他們的情況下,學(xué)習(xí)意味著確定來自不同網(wǎng)絡(luò)層的特征的

15、最佳線性組合。</p><p>  監(jiān)督層次方法大規(guī)模關(guān)注數(shù)據(jù)集的出版,如SALICON [16]和TurkerGaze / iSUN [43],已經(jīng)能夠為深度預(yù)測的任務(wù)特別培訓(xùn)深層架構(gòu)。 我們的工作在于這一類,并涉及培訓(xùn)具有新穎的損失函數(shù)的端對端深度模型。</p><p>  SALICON [16]收集了一個新的數(shù)據(jù)收集范例,其中觀察者顯示移動的圖像,并要求移動鼠標(biāo)光標(biāo)周圍,以模擬高分

16、辨率中央凹。 這種新的范例用于注釋來自MSCOCO數(shù)據(jù)集的20K圖像[25]。 依靠這個新的大規(guī)模數(shù)據(jù)集,[33]的作者訓(xùn)練了一個網(wǎng)絡(luò)端到端的顯著性預(yù)測。 他們的網(wǎng)絡(luò),名為JuntingNet,由五個卷積和兩個完全連接的層組成,網(wǎng)絡(luò)的參數(shù)通過最小化在地面真實顯著圖上定義的歐幾里得損失函數(shù)來學(xué)習(xí)。 這種方法報告了LSUN 2015顯著預(yù)測挑戰(zhàn)的最先進的結(jié)果[47]。</p><p>  另一種端到端方法將顯著性預(yù)測

17、作為回歸來制定[22]。 DeepFix建立在非常深的VGGNet [38]上,使用具有大和多尺寸接收場的卷積層來捕獲互補圖像上下文,并引入位置偏置卷積(LBC)層來建模中心偏置。</p><p>  最后,這個范例中最近的一個作品[11]提出使用深層神經(jīng)網(wǎng)絡(luò)通過雙管齊下的策略來彌合顯著性預(yù)測中的語義差距。 第一個是使用KL-發(fā)散作為損失函數(shù),其由以下事實激發(fā):它是用于評估顯著性方法的標(biāo)準(zhǔn)度量。 第二個是來自粗略

18、和精細(xì)分辨率的響應(yīng)圖的聚集。在這項工作中,我們認(rèn)為顯著圖的良好動機的概率模型,因此研究使用KL散度,其他概率距離度量,作為損失函數(shù)。 正如我們在第4節(jié)討論的,我們觀察到,我們的Bhattacharyya基于距離的損失函數(shù)一致地優(yōu)于基于KL-發(fā)散的4個標(biāo)準(zhǔn)顯著性度量。</p><p><b>  3 本文要點</b></p><p>  顯著性估計方法通常試圖基于顯著性

19、提示(諸如局部邊緣或塊狀結(jié)構(gòu))或者基于在固定和非固定圖像塊上訓(xùn)練的二值顯著分類器的分?jǐn)?shù)來對局部顯著性進行建模。 最近,方法已經(jīng)試圖使用像素級回歸來直接預(yù)測地圖。</p><p>  然而,視覺注意是一個根本上隨機的過程,因為它是一個感性的,因此是主觀的現(xiàn)象。 在對39個觀察者觀察的300張圖像的分析中,[17]的作者發(fā)現(xiàn),一組個觀察者的固定與來自不同組個觀察者的固定相匹配,AUC分?jǐn)?shù)隨著值的增加而增加 。 發(fā)現(xiàn)人

20、類表現(xiàn)的下限為85%AUC。 因此,觀察者之間存在高一致性。 在的極限,該AUC分?jǐn)?shù)為92%,因此可以被認(rèn)為是顯著性估計性能的現(xiàn)實上限。</p><p>  地面真實顯著圖是從多個觀察者的聚集的固定構(gòu)造的,忽略任何時間固定信息。具有高固定密度的區(qū)域被解釋為受到更多的注意。由于注意被賦予局部區(qū)域而不是精確像素,二維高斯濾波通常被應(yīng)用于二元固定圖以構(gòu)建平滑的“注意的景觀”[44](參見圖1,中間圖像為例)。我們的目標(biāo)

21、是預(yù)測這種注意的景觀,或顯著圖。給定地圖基于的固定的隨機性質(zhì),以及地圖基于沒有時間信息的聚合固定的事實,我們建議將顯著圖建模為像素上的概率分布,其中每個值對應(yīng)于概率的像素被固定。也就是說,我們將顯著圖表示為廣義伯努利分布</p><p>  其中是形成圖像的一組像素的概率分布,是概率的像素被固定在上面,是圖像像素的數(shù)量。雖然這個公式有點簡單,它將允許新的損失函數(shù)高度訓(xùn)練深度模型與反向傳播。接下來,我們首先描述這些

22、損失函數(shù),然后描述我們的模型實現(xiàn)。</p><p>  3.1 學(xué)習(xí)預(yù)測固定的概率</p><p>  我們采用端到端的學(xué)習(xí)框架,其中對成像的圖像和地面真實顯著圖被建模為分布的全卷積網(wǎng)絡(luò)進行訓(xùn)練。 網(wǎng)絡(luò)輸出預(yù)測分布。 使用softmax激活函數(shù)來計算兩個概率分布和:</p><p>  , , (1)</p>

23、<p> ?。ǎ┗蝾A(yù)測地圖()的非歸一化顯著性響應(yīng)值的集合,其中。 為了計算,從地面真實眼圖首先生成二進制固定圖。 然后二進制映射與高斯核進行卷積,如本節(jié)前面所述,以產(chǎn)生。 然后將平滑的映射標(biāo)準(zhǔn)化為</p><p>  . (2)</p><p>  我們從我們深層網(wǎng)絡(luò)的最后一個響應(yīng)圖直接生成,其架構(gòu)在下一節(jié)中描述。

24、我們建議將softmax函數(shù)與適用于概率分布的距離測量相結(jié)合,以便構(gòu)造用于訓(xùn)練網(wǎng)絡(luò)的目標(biāo)函數(shù)。這種組合的靈感來自流行和有效的softmax /交叉熵?fù)p失配對,其通常用于訓(xùn)練用于多項Logistic回歸的模型。在我們的例子中,我們建議將softmax函數(shù)與,總變差,余弦和Bhattacharyya距離度量結(jié)合起來,如表1所示。據(jù)我們所知,這些配對以前沒有用于訓(xùn)練網(wǎng)絡(luò)的概率分布預(yù)測。我們還研究了KL發(fā)散度量的使用,其最小化等效于交叉熵最小化

25、,并廣泛用于學(xué)習(xí)深層網(wǎng)絡(luò)中的回歸模型。由于與softmax函數(shù)的配對,關(guān)于的這些損失函數(shù)的偏導(dǎo)數(shù)都是的形式,其相對于的偏導(dǎo)數(shù)</p><p><b> ?。?)</b></p><p>  我們比較兩個標(biāo)準(zhǔn)回歸損失,歐幾里德和Huber損失,定義為:</p><p>  ,

26、 (4)和</p><p><b> ?。?)</b></p><p>  表1.用于具有反向傳播的隨機梯度下降的概率距離測度及其導(dǎo)數(shù)。 我們建議使用第一個4個變量作為損失函數(shù)。 我們還調(diào)查KL-發(fā)散,其廣泛用于以緊密相關(guān)的交叉熵?fù)p失的形式訓(xùn)練識別模型。</p><p>  3.2 訓(xùn)練預(yù)測模型</p><p>  網(wǎng)

27、絡(luò)架構(gòu)和顯著圖提取流程如圖2所示。我們使用VGGNet模型[38]的卷積層,這是在ImageNet圖像上進行分類任務(wù)的訓(xùn)練,作為我們模型的早期層。這種卷積子網(wǎng)絡(luò)已被證明為各種不同的任務(wù)提供良好的局部特征圖,包括對象定位[34]和語義分割[27]。由于顯著性數(shù)據(jù)集往往太小,不能從隨機初始化訓(xùn)練這樣大的網(wǎng)絡(luò)(最大的數(shù)據(jù)集有15000個圖像,而ImageNet的1M),必須用預(yù)訓(xùn)練網(wǎng)絡(luò)初始化。然后,我們使用額外的卷積層逐漸減少特征圖的數(shù)量,直

28、到產(chǎn)生最后的下采樣顯著圖。我們添加了三個新的層,而不是只有一個,以預(yù)測最終地圖,以提高可辨別性和泛化性[38]。我們實驗了不同的濾波器尺寸,除了7×7(例如9×9,5×5,3×3),并發(fā)現(xiàn)沒有顯著的性能差異。我們明確地避免了完全連接的層,以獲得一個內(nèi)存和時間模型。三個新層被初始化為具有σ= 0.01的均勻高斯分布。因為響應(yīng)圖經(jīng)歷了幾個最大合并操作,所以預(yù)測顯著圖p p p比輸入圖像分辨率低。因此,

29、地面真值圖g g g在訓(xùn)練期間被下采樣以匹配p p p的維度。相反,在推理期間,預(yù)測圖被用雙線性濾波器上采樣以匹配輸入圖像的尺寸(參見圖2),并且softma</p><p>  最終的完全卷積網(wǎng)絡(luò)包括16個卷積層,每個卷積層后面是ReLu層。由于完全卷積架構(gòu),對于深度模型來說,大小是相當(dāng)小的,只有15,530,481個權(quán)重(60MB的磁盤空間)。注意,雖然幾個深顯著性模型明確地包括中心偏差(參見例如[22]),

30、但是我們假設(shè)該模型可以隱含地學(xué)習(xí)中心偏差,因為它主要是攝影師傾向于放置的構(gòu)圖偏差的偽像高度突出的物體在圖像中心[3]。我們使用MIT顯著性基準(zhǔn)[5]的后處理代碼,通過向優(yōu)化的參數(shù)添加高斯模糊和中心偏置來測試這一點。我們發(fā)現(xiàn)使用此后處理的不同度量沒有一致的改進,這表明在模型中已經(jīng)考慮了大量的中心偏置和高斯模糊。使用隨機梯度下降優(yōu)化目標(biāo)函數(shù),其中學(xué)習(xí)率為新引入層的全局學(xué)習(xí)率的1倍,并且已經(jīng)在ImageNet上預(yù)訓(xùn)練的那些層的全局學(xué)習(xí)率的0.

31、1倍。為了減少訓(xùn)練時間,第一4卷積層被固定,并因此保持它們的預(yù)訓(xùn)練值。我們使用0.9的動量和0.0005的重量衰減。該模型在Caffe中實現(xiàn)[15]。我們使用Nvidia K40 GPU訓(xùn)練網(wǎng)絡(luò)。 SALICON培訓(xùn)班的培訓(xùn)時間為30小時。顯著性數(shù)據(jù)集傾向于具有語義偏差和與收集眼睛跟蹤信息(例如到屏幕的觀看距離和眼睛跟蹤器</p><p>  圖2.我們提出的顯著圖提取管道:輸入圖像被引入到具有與VGGNet的卷

32、積層部分相同的架構(gòu)的convNet中。 然后應(yīng)用附加的卷積層,產(chǎn)生在測試時被上采樣和軟最大歸一化以產(chǎn)生最終顯著圖的單個響應(yīng)圖。</p><p><b>  4 實驗</b></p><p>  本節(jié)描述用于訓(xùn)練和評估顯著性預(yù)測模型的實驗數(shù)據(jù)集,隨后討論結(jié)果的定量和定性方面。</p><p>  4.1數(shù)據(jù)集 SALICON這是在公共領(lǐng)域可

33、用的最大的顯著性數(shù)據(jù)集之一[16]。它包括來自MS COCO數(shù)據(jù)集的20000張圖像的眼圖信息[25]。這些圖像包含各種室內(nèi)和室外場景并顯示一系列場景雜亂。 10000個圖像標(biāo)記為訓(xùn)練,5000個為驗證,5000個為測試。測試集的固定數(shù)據(jù)保留,并且必須在遠程服務(wù)器上評估其性能。 SALICON的特點在于其基于鼠標(biāo)的范例用于固定收集。定義顯著性固定的人類注意機制中的注意力集中(foveation)是使用模糊圖像上的鼠標(biāo)移動來模擬的。當(dāng)用戶

34、使用鼠標(biāo)光標(biāo)瀏覽圖像場景時,圍繞鼠標(biāo)位置的近似中心凹圖像區(qū)域被選擇性地模糊。如在數(shù)據(jù)集的子集上評估的,這種鼠標(biāo)點擊數(shù)據(jù)通常與人眼固定(在0.89sAUC)高度一致。因此,盡管鼠標(biāo)固定數(shù)據(jù)是人類基線的近似值,但是它適用于將原先針對不同任務(wù)訓(xùn)練的深度網(wǎng)絡(luò)的權(quán)重適配于新的顯著性預(yù)測任務(wù)。我們使用這個數(shù)據(jù)集作為我們在選擇的概率距離作為學(xué)習(xí)期間的損失函數(shù)的比較研究。我們還向SALICON挑戰(zhàn)服務(wù)器提交了我們最好的性能模型[47]。</p&g

35、t;<p>  MIT-1003這個數(shù)據(jù)集是作為列車的一部分引入的[18]中的測試范式。 使用頭戴式眼睛跟蹤裝置為15個不同的觀看者收集眼睛跟蹤數(shù)據(jù)。 該數(shù)據(jù)集的1003幅圖像涵蓋自然的室內(nèi)和室外場景。 對于我們的實驗,我們使用第一900圖像進行訓(xùn)練,其余103圖像的驗證,類似于[22]的范式。</p><p>  MIT-300該基準(zhǔn)包括39個不同觀察者收集的300張圖像的持續(xù)眼動追蹤數(shù)據(jù)[17

36、]。 該數(shù)據(jù)集的數(shù)據(jù)收集范例與MIT-1003中使用的數(shù)據(jù)集范例非常相似。 因此,根據(jù)在線基準(zhǔn)的建議,我們使用MIT-1003作為訓(xùn)練數(shù)據(jù)來調(diào)整MIT-300。</p><p>  OSIE此基準(zhǔn)包含一組700圖像。 這些包括自然的室內(nèi)和室外場景,以及從Flickr和Google拍攝的高美學(xué)質(zhì)量的照片。 為了從自上而下的理解中獲得,該數(shù)據(jù)集提供對象和語義級信息(我們不使用)以及眼睛跟蹤數(shù)據(jù)。 根據(jù)[28]的工作,

37、我們隨機劃分為500個訓(xùn)練和200個測試圖像,并在10倍交叉驗證的平均結(jié)果。</p><p>  VOCA-2012除了SALICON,以前的數(shù)據(jù)集相對較小,最多有1003幅圖像。 對實際固定的大規(guī)模數(shù)據(jù)集的評估將更有信息。 然而,據(jù)我們所知,沒有真正大規(guī)模的數(shù)據(jù)集的自由觀看的固定。 相反,我們評估VOCA-2012,行動識別數(shù)據(jù)集,增加了任務(wù)依賴的眼睛數(shù)據(jù)[30]。 預(yù)測這樣的固定是一個不同的任務(wù),以預(yù)測自由觀

38、察固定,我們的模型設(shè)計的任務(wù)。 因此,我們評估這個數(shù)據(jù)集,以確定我們的模型是否推廣到這個任務(wù)。</p><p>  生成地面真實圖從固定數(shù)據(jù)創(chuàng)建地面真實顯著圖,我們使用每個數(shù)據(jù)集作者建立的顯著圖生成參數(shù)。 對于SALICON,這意味著使用寬度為153和標(biāo)準(zhǔn)偏差19的高斯內(nèi)核卷積二進制固定圖。對于OSIE,這意味著應(yīng)用寬度為168和標(biāo)準(zhǔn)差為24的高斯核(全部以像素為單位)。 MIT-1003和MIT300的作者提供

39、地面真實顯著圖,根據(jù)他們的技術(shù)報告[17],用高斯核計算,其大小對應(yīng)于每個圖像8個周期的截止頻率。</p><p>  表2. SALICON驗證集:使用不同損耗函數(shù)訓(xùn)練的模型的性能比較</p><p>  4.2 結(jié)果 我們首先比較不同損耗函數(shù)的結(jié)果,然后與最先進的方法進行比較。 對于每個數(shù)據(jù)集,我們遵循已建立的評估協(xié)議和報告結(jié)果的標(biāo)準(zhǔn)顯著性度量,包括sAUC,AUC-Judd,

40、AUC-Borji,相關(guān)系數(shù)(CC),歸一化掃描路徑顯著性(NSS),相似性 距離(EMD)。</p><p>  損失函數(shù)我們將使用我們提出的損失函數(shù)訓(xùn)練的模型的性能與基于歐幾里德距離,Huber距離和KL-發(fā)散度量的標(biāo)準(zhǔn)損失函數(shù)訓(xùn)練的模型的性能進行比較。這些模型都是在SALICON訓(xùn)練集的10K圖像上訓(xùn)練的,并在SALICON驗證集的5K圖像上驗證。表2呈現(xiàn)了對于每個損失的最佳驗證集性能,如通過關(guān)于4個度量的

41、總體性能所測量的。這些結(jié)果表明:(i)基于適合于概率分布的距離測度的損失比標(biāo)準(zhǔn)回歸損失更好; (ii)KL-發(fā)散優(yōu)于其他方法;和(iii)Bhattacharyya基于距離的損失勝過所有其他損失。這兩個最后的損失具有這樣的性質(zhì),即它們對異常值是魯棒的,因為它們抑制概率之間的大差異(在KL散度的情況下為對數(shù),在Bhattacharyya距離的情況下為幾何)。這種魯棒性是特別重要的,因為地面真實顯著圖是源于由于視覺注意的主觀性而具有自然變化

42、的眼睛,并且還可能包含雜散的固定和其他噪聲。圖3顯示了SALICON驗證集上的顯著性度量隨著訓(xùn)練進展的演變。 Bhattacharyya距離始終是最好的。</p><p>  圖3.隨著訓(xùn)練迭代次數(shù)的增加,SALICON評估集上不同度量的演變。</p><p>  表3. SALICON挑戰(zhàn):不同方法之間的比較。 標(biāo)記為*的方法至今沒有相關(guān)的出版物。</p><p>

43、;  與現(xiàn)有技術(shù)的比較我們使用Bhattacharyya距離與我們的四個標(biāo)準(zhǔn)顯著性基準(zhǔn)的最先進的方法比較我們提出的模型的性能如下。 SALICON挑戰(zhàn):顯著性估計挑戰(zhàn)[47]在于預(yù)測從SALICON數(shù)據(jù)集中提取的5000個圖像的顯著圖。 表3示出了用于概率分布預(yù)測的現(xiàn)有技術(shù)方法和我們的方法的結(jié)果,其被稱為PDP。 我們勝過所有三個指標(biāo)的所有發(fā)布結(jié)果,在我們的知識,這個數(shù)據(jù)集。</p><p>  MIT-300:

44、MIT-1003圖像作為訓(xùn)練集,用于調(diào)整到這個基準(zhǔn)。 結(jié)果在表4中進行比較。我們的表現(xiàn)與最先進的方法相當(dāng)。 請注意,DeepFix [22]在其模型中包含外部線索,如中心和水平偏差。 我們認(rèn)為包括這樣的線索也可以改善我們的模型。 此外,他們使用更大的架構(gòu),但訓(xùn)練與回歸損失。 因此,我們的方法可以補充他們。 MIT-1003上的微調(diào)只能使用1個圖像的批量大小進行,因為圖像的大小和縱橫比差異很大。 我們觀察到0.70的大大減小的動量提高了穩(wěn)

45、定性,并允許有此約束的模型的有效學(xué)習(xí)。</p><p>  表4. MIT-300:與現(xiàn)有技術(shù)的比較</p><p>  表5.OSIE:通過10倍交叉驗證對平均AUC(sAUCE)的性能度量進行平均。 (基線結(jié)果取自[28]。)</p><p>  我們對顯著性估計的概率性視角在兩個方面是直觀的。 首先,注意力是有競爭力的,因為我們看著某些地區(qū)的圖像,犧牲別人。

46、因此,在整個視覺刺激上歸一化的固定圖可以被理解為空間概率分布。 其次,概率框架允許模型考慮跨主題和數(shù)據(jù)收集范例的噪聲。</p><p>  為了提供定性洞察,一些隨機選擇的預(yù)測地圖如圖4所示。我們的方法一致地給出高中心 - 環(huán)繞對比度區(qū)域的高固定概率,以及高層次的線索,如身體,面部和較小 范圍,文本。 與文本相比,對主體和面部的更高強調(diào)可能是由于在SALICON數(shù)據(jù)集中包含人和面部的大量圖像。</p>

47、<p>  表6.VOCA:KL-發(fā)散和AUC測量的性能比較。 注意,通過使用一個人類觀察者的固定來預(yù)測剩余觀察者的固定,可以實現(xiàn)最佳性能。 粗體結(jié)果表示在測試時不需要人工干預(yù)的最佳性能方法。 (*表示已經(jīng)在這個特定數(shù)據(jù)集上訓(xùn)練的方法)。 </p><p>  圖片 GT BMS SALICON PDP</p><p>  圖4.

48、BMS,SALICON和我們?yōu)镸IT-1003隨機抽樣圖像提出的PDP方法的比較。 GT是指地面真實顯著圖。 注意,為了確保公平的比較,這里所示的PDP結(jié)果僅僅是從在SALICON圖像上訓(xùn)練的網(wǎng)絡(luò)獲得的,沒有對該數(shù)據(jù)集進行精細(xì)調(diào)諧。</p><p>  圖5示出了在已經(jīng)使用給定數(shù)量的訓(xùn)練圖像來訓(xùn)練模型之后在正向通道上獲得的SALICON訓(xùn)練圖像的顯著圖預(yù)測。 可以看到,在已經(jīng)看到少于50個圖像之后,中心 - 環(huán)繞

49、對比線提示被非??焖俚貙W(xué)習(xí)。 面孔(動畫和非動畫對象)也被快速學(xué)習(xí),已經(jīng)看到少于100個圖像。 文本的顯著性也相當(dāng)快地出現(xiàn)。 然而,提示沒有那么強烈地識別,可能是由于涉及文本的相對較少的訓(xùn)練數(shù)據(jù)。</p><p>  樣品 圖片 GT 預(yù)測結(jié)果</p><p><b>  <50</b></p&g

50、t;<p><b>  <50</b></p><p><b>  <100</b></p><p><b>  <100</b></p><p><b>  <100</b></p><p><b>  &

51、lt;100</b></p><p>  圖5.我們的方法快速地了解到高中心區(qū)域的對比度,面部和頭部是顯著的</p><p><b>  5 結(jié)論</b></p><p>  我們介紹一種新的顯著性配方和模型,用于預(yù)測輸入圖像的顯著圖。 我們使用目標(biāo)函數(shù)訓(xùn)練深度網(wǎng)絡(luò),該目標(biāo)函數(shù)以概率分布的形式懲罰目標(biāo)和預(yù)測地圖之間的距離。 對四個數(shù)

52、據(jù)集的實驗證明了我們的方法相對于其他損失函數(shù)和其他最先進的顯著性估計方法的優(yōu)越性能。 他們還說明了使用適合此任務(wù)的適當(dāng)學(xué)習(xí)標(biāo)準(zhǔn)的好處。</p><p><b>  正文具體說明:</b></p><p>  要求:論文頁數(shù),正文在8頁以上</p><p>  字體:宋體小四 (行距20磅)</p><p><b&g

53、t;  內(nèi)容:要求如下:</b></p><p>  1.格式要和英文原稿盡量保持一致,但不用分欄,單欄即可;</p><p>  2.文中的專業(yè)術(shù)語可以直接用英文表示,不翻譯; </p><p>  3.文中的圖、表及其相應(yīng)的標(biāo)注必須也要翻譯;</p><p>  (2)標(biāo)題:一級標(biāo)題黑體2號、二級標(biāo)題黑體3號、三級標(biāo)題黑體4號

54、;</p><p> ?。?)小節(jié)標(biāo)題可根據(jù)情況自己適當(dāng)改動;</p><p>  6 課程設(shè)計心得體會</p><p>  通過此次課程設(shè)計,使我更加扎實的掌握了有關(guān)圖像數(shù)字處理方面的知識,并了解了通過概率分布預(yù)測的端到端顯著性映射概念這一課題的內(nèi)容,在設(shè)計過程中雖然遇到了一些問題,但經(jīng)過一次又一次的思考,一遍又一遍的檢查終于找出了原因所在,也暴露出了前期我在這方

55、面的知識欠缺和經(jīng)驗不足。實踐出真知,這次的課程設(shè)計中不僅檢驗了我所學(xué)習(xí)的知識,也培養(yǎng)了我如何去把握一件事情,如何去做一件事情,又如何完成一件事情。課程設(shè)計是我們專業(yè)課程知識綜合應(yīng)用的實踐訓(xùn)練,通過這次課程設(shè)計,綜合運用本專業(yè)所學(xué)課程的理論和實際生產(chǎn)的經(jīng)驗鞏固了我對數(shù)字圖像處理等各方面的知識。 </p><p>  課程設(shè)計是一門專業(yè)課,給我很多專業(yè)知識以及專業(yè)技能上的提升,同時又是一門講道課,一門辯思課,給了我許

56、多道,給了我很多思,給了我莫大的空間。同時,設(shè)計讓我感觸很深。使我對抽象的理論有了具體的認(rèn)識。</p><p>  我認(rèn)為,在這次的課程設(shè)計中,不僅培養(yǎng)了獨立思考、動手操作的能力,在各種其它能力上也都有了提高。更重要的是,在實驗課上,我們學(xué)會了很多學(xué)習(xí)的方法。而這是日后最實用的,真的是受益匪淺。要面對社會的挑戰(zhàn),只有不斷的學(xué)習(xí)、實踐,再學(xué)習(xí)、再實踐。這對于我們的將來也有很大的幫助。以后,不管有多苦,我想我們都能變

57、苦為樂,找尋有趣的事情,發(fā)現(xiàn)其中珍貴的事情。就像中國提倡的艱苦奮斗一樣,我們都可以在實驗結(jié)束之后變的更加成熟,會面對需要面對的事情。 課程設(shè)計是我們專業(yè)課程知識綜合應(yīng)用的實踐訓(xùn)練,著是我們邁向社會,從事職業(yè)工作前一個必不少的過程.“千里之行始于足下”,通過這次課程設(shè)計,我深深體會到這句千古名言的真正含義.我今天認(rèn)真的進行課程設(shè)計,學(xué)會腳踏實地邁開這一步,就是為明天能穩(wěn)健地在社會大潮中奔跑打下堅實的基礎(chǔ).</p>&

58、lt;p><b>  7 參考文獻</b></p><p>  [1] R. Achanta and S. S¨usstrunk. Saliency detection for contentaware image resizing. In ICIP, 2009. 1 </p><p>  [2] A. Borji and L. Itti. State

59、-of-the-art in visual attention modeling. TPAMI, 2013. 2 </p><p>  [3] A. Borji and J. Tanner. Reconciling saliency and object center-bias hypotheses in explaining free-viewing ?xations. IEEE TNNLS, 2015. 4

60、</p><p>  [4] N. Bruce and J. Tsotsos. Saliency based on information maximization. In NIPS, 2006. 2 </p><p>  [5] Z. Bylinskii, T. Judd, A. Borji, L. Itti, F. Durand, A. Oliva, and A. Torralba.

61、Mit saliency benchmark. http://saliency.mit.edu/. 4 </p><p>  [6] M. Cerf, J. Harel, W. Einh¨auser, and C. Koch. Predicting human gaze using low-level saliency combined with face detection. In NIPS, 200

62、8. 2 [7] S. O. Gilani, R. Subramanian, Y. Yan, D. Melcher, N. Sebe, and S. Winkler. PET: An eye-tracking dataset for animalcentric pascal object classes. In ICME, 2015. 1 </p><p>  [8] J. Harel, C. Koch, and

63、 P. Perona. Graph-based visual saliency. In NIPS, 2006. 2, 6, 7 </p><p>  [9] X. Hou, J. Harel, and C. Koch. Image signature: Highlighting sparse salient regions. TPAMI, 2012. 7 </p><p>  [10] X

64、. Hou and L. Zhang. Saliency detection: A spectral residual approach. In CVPR, 2007. 2 </p><p>  [11] X. Huang, C. Shen, X. Boix, and Q. Zhao. Salicon: Reducing the semantic gap in saliency prediction by ada

65、pting deep neural networks. In Proceedings of the IEEE International Conference on Computer Vision, pages 262–270, 2015. 2, 7 </p><p>  [12] L. Itti and P. F. Baldi. Bayesian surprise attracts human attentio

66、n. In NIPS, 2006. 2 </p><p>  [13] L. Itti and C. Koch. A saliency-based search mechanism for overt and covert shifts of visual attention. Vision research, 40(10):1489–1506, 2000. 2, 7 </p><p> 

67、 [14] L. Itti, C. Koch, and E. Niebur. A model of saliency-based visual attention for rapid scene analysis. TPAMI, (11):1254– 1259, 1998. 1, 2, 6, 7 </p><p>  [15] Y. Jia, E. Shelhamer, J. Donahue, S. Karaye

68、v, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In ACM MM, 2014. 4 </p><p>  [16] M. Jiang, S. Huang, J. Duan, and Q. Zhao. SALICON: Sali

69、ency in Context. In CVPR, 2015. 1, 2, 5 </p><p>  [17] T. Judd, F. Durand, and A. Torralba. A benchmark of computational models of saliency to predict human ?xations. In MIT Technical Report, 2012. 3, 5, 6&l

70、t;/p><p>  [18] T. Judd, K. Ehinger, F. Durand, and A. Torralba. Learning to predict where humans look. In CVPR, 2009. 1, 2, 5, 7 </p><p>  [19] W. Kienzle, F. A. Wichmann, B. Sch¨olkopf, and

71、M. O. Franz. A Nonparametric Approach to Bottom-Up Visual Saliency. In NIPS, 2007. 1, 2 </p><p>  [20] C. Koch and S. Ullman. Shifts in selective visual attention: towards the underlying neural circuitry. In

72、 Matters of intelligence, pages 115–141. 1987. 2 </p><p>  [21] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classi?cation with deep convolutional neural networks. In NIPS, 2012. 2 </p><p&

73、gt;  [22] S. S. S. Kruthiventi, K. Ayush, and R. V. Babu. Deep?x: A fully convolutional neural network for predicting human eye ?xations. Technical report, 2015. arXiv:1510.02927. 2, 4, 5, 6, 7 </p><p>  [23

74、] M. K¨ummerer, L. Theis, and M. Bethge. Deep Gaze I: Boosting Saliency Prediction with Feature Maps Trained on ImageNet. In ICLR Workshop, 2015. 1, 2 </p><p>  [24] C. Lang, T. Nguyen, H. Katti, K. Yad

75、ati, M. Kankanhalli, and S. Yan. Depth matters: In?uence of depth cues on visual saliency. In ECCV, 2012. 2 </p><p>  [25] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, a

76、nd C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV, 2014. 2, 5 </p><p>  [26] Z. Liu, O. Le Meur, S. Luo, and L. Shen. Saliency detection using regional histograms. Optics letters, 38(5):70

77、0– 702, 2013. 2 </p><p>  [27] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, June 2015. 4 </p><p>  [28] Y. Luo, Y. Wong, and Q. Zhao. L

78、abel consistent quadratic surrogate model for visual saliency prediction. In CVPR, 2015. 5, 7 </p><p>  [29] L. Marchesotti, C. Cifarelli, and G. Csurka. A framework for visual saliency detection with applic

79、ations to image thumbnailing. In ICCV, 2009. 1 </p><p>  [30] S. Mathe and C. Sminchisescu. Action from still image dataset and inverse optimal control to learn task speci?c visual scanpaths. In NIPS, 2013.

80、5, 7 </p><p>  [31] N. Murray, M. Vanrell, X. Otazu, and C. A. Parraga. Saliency estimation using a non-parametric low-level vision model. In CVPR, 2011. 2 </p><p>  [32] N. Murray, M. Vanrell,

81、X. Otazu, and C. A. Parraga. Low-level spatiochromatic grouping for saliency estimation. TPAMI, 2013. 2 </p><p>  [33] J. Pan and X. G. i Nieto. End-to-end convolutional network for saliency prediction. Tech

82、nical report, 2015. arXiv:1507.01422. 1, 2, 6 [34] S. Ren, K. He, R. B. Girshick, and J. Sun. Faster R-CNN: towards real-time object detection with region proposal networks. CoRR, abs/1506.01497, 2015. 4 </p><

83、p>  [35] B. Schauerte and R. Stiefelhagen. Quaternion-based spectral saliency detection for eye ?xation prediction. In ECCV, pages 116–129, 2012. 2 [36] G. Sharma, F. Jurie, and C. Schmid. Discriminative spatial salie

84、ncy for image classi?cation. In CVPR, 2012. 1 </p><p>  [37] C. Shen, M. Song, and Q. Zhao. Learning high-level concepts by training a deep network on eye ?xations. In NIPS</p><p>  Deep Learnin

85、g and Unsupervised Feature Learning Workshop, 2012. 2 </p><p>  [38] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015. 2, 4 </p><p>

86、;  [39] F. Stentiford. Attention based auto image cropping. In The 5th International Conference on Computer Vision Systems, Bielefeld, 2007. 1 [40] A. M. Treisman and G. Gelade. A feature-integration theory of attention.

87、 Cognitive psychology, 12(1):97–136, 1980. 2 </p><p>  [41] R. Valenti, N. Sebe, and T. Gevers. Image saliency by isocentric curvedness and color. In ICCV, 2009. 2 </p><p>  [42] E. Vig, M. Dorr

88、, and D. Cox. Large-scale optimization of hierarchical features for saliency prediction in natural images. In CVPR, 2014. 2, 7 [43] P. Xu, K. A. Ehinger, Y. Zhang, A. Finkelstein, S. R. Kulkarni, and J. Xiao. Turkergaze:

89、 Crowdsourcing saliency with webcam based eye tracking. Technical report, 2015. arXiv:1504.06755v1. 1, 2 </p><p>  [44] W. H. Zangemeister, H. Stiehl, and C. Freksa. Visual attention and cognition. Elsevier,

90、 1996. 3 </p><p>  [45] J. Zhang and S. Sclaroff. Saliency detection: A boolean map approach. In ICCV, 2013. 2, 6, 7 </p><p>  [46] L. Zhang, M. H. Tong, T. K. Marks, H. Shan, and G. W. Cottrell

91、. SUN: A Bayesian framework for saliency using natural statistics. JoV, 8(7):1–20, 12 2008. 2, 7 </p><p>  [47] Y. Zhang, F. Yu, S. Song, P. Xu, A. Seff, and J. Xiao. Large-scale scene understanding challeng

92、e. http://lsun.cs.princeton.edu/leaderboard/#saliencysalicon. 2, 5, 6 </p><p>  [48] Q. Zhao and C. Koch. Learning a saliency map using ?xated locations in natural scenes. JoV, 11(3), 2011. 2</p><

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論