版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、在許多領(lǐng)域,多媒體內(nèi)容都出現(xiàn)了爆發(fā)式增長(zhǎng),如何更有效地訪(fǎng)問(wèn)這些領(lǐng)域的全球信息數(shù)據(jù)庫(kù)已經(jīng)成為新的迫切需求。由于這些領(lǐng)域中的系統(tǒng)所提交的復(fù)雜數(shù)據(jù)并沒(méi)有傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)(Database Management Systems-DBMS)中的數(shù)據(jù)所具有的全面排序?qū)傩裕蚨刮覀冊(cè)谒阉黧w驗(yàn)的質(zhì)量上遇到了一個(gè)重大挑戰(zhàn)。檢索出精確的答案是對(duì)傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)應(yīng)用程序的基本要求,然而,新開(kāi)發(fā)的數(shù)據(jù)庫(kù)系統(tǒng)正在被越來(lái)越多地要求支持更為復(fù)雜的數(shù)據(jù)類(lèi)型,如
2、圖像、視頻、音頻、時(shí)間序列甚至DNA序列等。正是由于存在對(duì)這些數(shù)據(jù)類(lèi)型的處理需求,使得在數(shù)據(jù)管理系統(tǒng)中出現(xiàn)了多媒體數(shù)字?jǐn)?shù)據(jù)庫(kù)(Multimedia DigitalDatabase-MDD)這類(lèi)系統(tǒng)。目前,多媒體數(shù)字?jǐn)?shù)據(jù)庫(kù)在科學(xué)應(yīng)用方面已經(jīng)變得越來(lái)越普及,其領(lǐng)域涵蓋了娛樂(lè)、磁共振成像、學(xué)習(xí)管理系統(tǒng)等。在這些多媒體數(shù)字?jǐn)?shù)據(jù)庫(kù)中的信息,對(duì)于每一個(gè)希望在各種各樣的應(yīng)用程序中使用它們的人來(lái)說(shuō),通常被期望是容易訪(fǎng)問(wèn)的。在多媒體數(shù)字?jǐn)?shù)據(jù)庫(kù)中出現(xiàn)的數(shù)據(jù)
3、,例如圖像,是半結(jié)構(gòu)化、非均質(zhì)、且容量龐大的,通常存儲(chǔ)在大型磁盤(pán)陣列中。各種類(lèi)型的用戶(hù),包括遙感、時(shí)裝設(shè)計(jì)、出版、醫(yī)藥、建筑、甚至預(yù)防犯罪等領(lǐng)域,他們?cè)谑褂眠@種數(shù)據(jù)庫(kù)時(shí),都希望系統(tǒng)能夠提供高效的圖像搜索、瀏覽和檢索工具。這就引發(fā)了多媒體信息檢索(Multimedia Information Retrieval-MIR)領(lǐng)域的一個(gè)重要研究課題,即有效且高效的圖像相似性搜索。
雖然許多現(xiàn)代搜索算法對(duì)于求解各類(lèi)優(yōu)化問(wèn)題來(lái)說(shuō)既快速也有
4、效,但在多媒體數(shù)字?jǐn)?shù)據(jù)庫(kù)中通常由于存在大量的參數(shù),這些搜索算法可能并非同樣有效。多媒體數(shù)字?jǐn)?shù)據(jù)庫(kù)需要操作大矩陣,檢索大量信息,且對(duì)存儲(chǔ)容量有很大要求,這些因素很可能會(huì)導(dǎo)致某些可用的搜索算法變得速度緩慢或者根本無(wú)法正常運(yùn)行。多媒體域中的對(duì)象可以被轉(zhuǎn)化為某個(gè)度量空間中的對(duì)象,這些對(duì)象可以用一個(gè)適當(dāng)定義的度量函數(shù)來(lái)描述。在這種情況下,搜索技術(shù)可能需要借助某種優(yōu)化方法以便在度量空間中找到查詢(xún)向量與被檢索圖像之間最接近的特征點(diǎn)。搜索這些最接近的特
5、征點(diǎn),就引出了相似性數(shù)據(jù)檢索問(wèn)題。這種類(lèi)型的相似性查詢(xún)對(duì)于許多數(shù)據(jù)挖掘問(wèn)題以及多媒體數(shù)據(jù)庫(kù)應(yīng)用來(lái)說(shuō)尤為重要。
相似性搜索,可以簡(jiǎn)單地定義為針對(duì)一個(gè)給定的查詢(xún)對(duì)象搜索出一組相似的對(duì)象,它是多媒體信息檢索中的一項(xiàng)關(guān)鍵任務(wù)。在應(yīng)用時(shí),對(duì)象通常都被表示成高維的向量。用于大型集復(fù)雜多媒體數(shù)字?jǐn)?shù)據(jù)庫(kù)的相似性搜索技術(shù),其性能的優(yōu)劣取決于搜索算法和索引結(jié)構(gòu)。在一個(gè)度量空間M中給定一個(gè)包含S點(diǎn)的集合,并且給定一個(gè)查詢(xún)點(diǎn)q∈M,那么相似性搜索問(wèn)題
6、可以定義為在集合S中找到與q最接近的點(diǎn)。通常情況下,度量空間M被定義為一個(gè)d維的歐幾里德空間,而距離則采用歐式距離進(jìn)行測(cè)量。目前被提出來(lái)用于數(shù)字多媒體數(shù)據(jù)庫(kù)相似性搜索的方法通常都是基于信息檢索領(lǐng)域之外的技術(shù),其中最常見(jiàn)的一種方法就是奇異值分解法(Singular Value Decomposition-SVD)。所謂奇異值分解,是指將圖像的特征轉(zhuǎn)換為離散的元或項(xiàng),它是一種圖像分解技術(shù),可以用來(lái)計(jì)算一個(gè)矩陣的奇異值、偽逆陣和秩。奇異值分解
7、法目前已經(jīng)被應(yīng)用到基于色彩的多媒體內(nèi)容的索引和檢索中。顏色可以提供一種魯棒的檢索技術(shù),基于顏色已經(jīng)開(kāi)發(fā)出了一些新的可擴(kuò)展的瀏覽算法和一些語(yǔ)義可視化界面,這些瀏覽算法允許用戶(hù)訪(fǎng)問(wèn)各種龐大的多媒體數(shù)據(jù)庫(kù),而語(yǔ)義可視化界面則可以將對(duì)象組件集成到一個(gè)統(tǒng)一的多媒體瀏覽和檢索系統(tǒng)中。目前,關(guān)于顏色感知和顏色空間的研究,已有很多研究成果。在基于內(nèi)容的圖像檢索(Content-Based Image Retrieval-CBIR)領(lǐng)域,對(duì)于目標(biāo)識(shí)別和攝
8、影圖像的相似性搜索來(lái)說(shuō),顏色已經(jīng)被證明是一種非常好的鑒別特征。基于內(nèi)容的圖像檢索是一種用于從圖像數(shù)據(jù)庫(kù)中提取相似圖像的技術(shù),該技術(shù)利用圖像固有的視覺(jué)內(nèi)容來(lái)執(zhí)行查詢(xún)操作。對(duì)于一個(gè)給定的圖像數(shù)據(jù)庫(kù),基于內(nèi)容的圖像檢索會(huì)抽取每幅圖像的特征并相應(yīng)地給這些圖像編索引。在經(jīng)典的基于內(nèi)容的圖像檢索系統(tǒng)中執(zhí)行一次搜索,其結(jié)果往往依賴(lài)于輸入圖像的各種特征信息。隨著技術(shù)的進(jìn)步,包括數(shù)碼相機(jī)的不斷普及以及管理大型信息數(shù)據(jù)庫(kù)越來(lái)越變得可能,基于內(nèi)容的圖像檢索技
9、術(shù)已經(jīng)被證明是更有效和更實(shí)用的,它可以使用戶(hù)免除以前繁瑣、主觀且容易出錯(cuò)的圖像描述任務(wù),因此顯著地改善了檢索系統(tǒng)的實(shí)用性。
一幅圖像的低級(jí)顏色特征可以用一個(gè)顏色直方圖來(lái)表征。顏色直方圖表示法,不僅可以有效地刻畫(huà)出一幅圖像的整體色彩特征,而且還可以定義一種用于測(cè)量多媒體數(shù)字?jǐn)?shù)據(jù)庫(kù)中兩幅圖像之間相似性的方法。在基于內(nèi)容的圖像檢索系統(tǒng)中,顏色直方圖是最常用到的特征。表達(dá)和描述顏色的一種系統(tǒng)的方法就是使用顏色模型。光譜的可見(jiàn)光部分,占
10、主導(dǎo)地位的是紅色、綠色和藍(lán)色(RGB),它們被視為可見(jiàn)光譜的主要顏色。
為了獲得所需的圖像感知信息,在開(kāi)始圖像相似性檢索之前,要做的第一件重要工作就是對(duì)圖像進(jìn)行增強(qiáng)處理。圖像增強(qiáng)包括去除圖像噪聲、放大對(duì)比度以及放大某些細(xì)節(jié)。對(duì)于原始圖像數(shù)據(jù),增強(qiáng)處理可能還包括提高圖像亮度值的動(dòng)態(tài)范圍。我們知道,若背景光過(guò)強(qiáng)或照明不足,都有可能導(dǎo)致圖像的亮度值很小?;蛘?,圖像的亮度值可能太大以至于無(wú)法被顯示設(shè)備有限的位平面所容納。當(dāng)現(xiàn)場(chǎng)照明在空
11、間中呈現(xiàn)很大變化時(shí),對(duì)大多數(shù)圖像來(lái)說(shuō),這個(gè)問(wèn)題也許會(huì)變得更加復(fù)雜。在這種情況下,背景可能會(huì)變得太暗或者太亮。我們的目標(biāo)就是要對(duì)這種類(lèi)型的圖像進(jìn)行加工處理,以改善圖像的局部對(duì)比度。
直方圖均衡化(Histogram Equalization-HE)是一種最簡(jiǎn)單、最常用的圖像對(duì)比度增強(qiáng)技術(shù)。利用這種技術(shù),通過(guò)指定輸入圖像各像素的亮度值使得輸出圖像含有均勻的亮度分布,可以有效地提高圖像直方圖的動(dòng)態(tài)范圍。
彩色圖像對(duì)比度增強(qiáng)
12、的經(jīng)典方法都是以直方圖均衡化為基礎(chǔ)的,但它們并不是直方圖均衡化簡(jiǎn)單直接的擴(kuò)展。這是因?yàn)椴噬珗D像具有某些特定的特征,包括亮度(L)、飽和度(S)和色調(diào)(H)等屬性,這些屬性在增強(qiáng)圖像的對(duì)比度時(shí)都需要適當(dāng)加以考慮。對(duì)于某種具體應(yīng)用而言,為了使用一個(gè)好的顏色空間,可能需要在顏色空間之間進(jìn)行顏色變換。當(dāng)一個(gè)算法將RGB顏色坐標(biāo)(RGB空間)轉(zhuǎn)換到另一個(gè)不同的空間,如HSV空間(指由色調(diào)H、飽和度S和純度V所構(gòu)成的空間)或者YCbCr空間(Y是亮
13、度分量,Cb和Cr分別為藍(lán)色差和紅色差的色度分量)等后,彩色成分與非彩色成分會(huì)變得更加互不相關(guān)。這使得我們可以將顏色采用色調(diào)、飽和度和亮度來(lái)表示,這種表示方法與人類(lèi)視覺(jué)系統(tǒng)處理顏色的生理學(xué)模型更加接近。
迄今為止,雖然已經(jīng)有一些圖像增強(qiáng)的方法被提出,但為了獲得更好的圖像質(zhì)量和降噪性能,為了更加不失真地轉(zhuǎn)換圖像,我們根據(jù)文獻(xiàn)[10]所提出的算法進(jìn)行了圖像增強(qiáng)的研究。該算法通過(guò)按比例增大或縮小離散余弦變換(DiscreteCosi
14、ne Transform-DCT)的各個(gè)系數(shù)可以實(shí)現(xiàn)對(duì)彩色圖像進(jìn)行增強(qiáng)處理,其獨(dú)到之處在于,除了處理亮度分量和大大改進(jìn)圖像韻視覺(jué)效果之外,它還可以處理顏色成分。
離散余弦變換技術(shù)是一種在數(shù)據(jù)壓縮中經(jīng)常使用的變換編碼方法,它把正交矩陣的時(shí)序變?yōu)轭l率信號(hào),是一種近似于傅立葉變換的正交變換。這種變換具有輸入序列的功率(平方和)同變換序列的功率相等的特點(diǎn)。也就是說(shuō),如果在某一部分由于變換導(dǎo)致功率集中的話(huà),那么其它部分的功率將變小。一般
15、來(lái)說(shuō),圖像信號(hào)具有在低頻段功率集中的特性,因而使高頻段的功率變小。另外,人眼對(duì)高頻段信號(hào)的視覺(jué)特性也不太敏感。利用這些特性,可對(duì)低頻段部分進(jìn)行細(xì)量化,而對(duì)高頻段部分進(jìn)行粗量化。
離散余弦變換DCT的處理步驟是,先將整體圖像分解成N×N個(gè)像素塊,再對(duì)這些塊像素逐一進(jìn)行DCT變換。由于大多數(shù)圖像高頻分量較小,相應(yīng)于圖像高頻成分的失真不太敏感,所以可以采用更粗的量化,在保證所要求的圖像質(zhì)量下,舍棄某些次要信息,這樣,傳送變換系數(shù)所用
16、的數(shù)據(jù)率要大大低于傳送像素所用的數(shù)據(jù)率。數(shù)據(jù)傳送到接收端后,再通過(guò)反離散余弦變換(反向DCT即IDCT)變回到樣值。
為了高效存儲(chǔ)和高效傳輸圖像以及減少計(jì)算的復(fù)雜性,圖像通常被壓縮成JPEG格式(Joint Photographic Experts Group-JPEG)。在JPEG壓縮格式的基本構(gòu)建塊中,離散余弦變換是一種被廣泛采用的圖像壓縮標(biāo)準(zhǔn),它可以把圖像從空域轉(zhuǎn)換到壓縮域。離散余弦變換系數(shù)的空間頻率特性為在離散余弦變換
17、域中定義對(duì)比度測(cè)量方法提供了一種自然的方式。使用壓縮域表示圖像的另一個(gè)好處是,由于光譜分離,使得我們可以通過(guò)不同方式處理各種頻率分量來(lái)達(dá)到增強(qiáng)圖像特征的目的。
目前,在分塊離散余弦變換域內(nèi),針對(duì)彩色圖像和灰度圖像都已經(jīng)提出了一些不同的圖像增強(qiáng)算法,如Alpha-Rooting算法、多對(duì)比度增強(qiáng)算法等,有些算法還可以同時(shí)利用離散余弦變換的直流(DC)系數(shù)和交流(AC)系數(shù)來(lái)處理交流(AC)系數(shù)。對(duì)每個(gè)分塊進(jìn)行獨(dú)立處理可能會(huì)導(dǎo)致分
18、塊效應(yīng),這在分塊離散余弦變換域內(nèi)極為常見(jiàn)。如何有效解決這個(gè)問(wèn)題是塊處理過(guò)程中非常關(guān)鍵的一步。為此,在本文中我們提出了一種特別的處理方法,該方法可以有效消除離散余弦變換的高頻(高次諧波分量的)系數(shù),從而使得各分塊的邊緣變得光滑。
本文的一個(gè)重要貢獻(xiàn)在于對(duì)輸入圖像的查詢(xún)質(zhì)量進(jìn)行了精細(xì)的改進(jìn),有助于獲得更高質(zhì)量的搜索結(jié)果。我們的主要目的是想進(jìn)一步對(duì)輸入的查詢(xún)圖像進(jìn)行增強(qiáng)處理,以提高圖像所呈現(xiàn)信息的可解釋性(可解讀性),從而為相似性檢
19、索的應(yīng)用提供更高質(zhì)量的圖像。這個(gè)目的是通過(guò)抑制圖像噪聲、提高圖像對(duì)比度和亮度來(lái)實(shí)現(xiàn)的。我們所提出的查詢(xún)質(zhì)量改進(jìn)方法在于突顯、加強(qiáng)或者平滑圖像的特征,這一改進(jìn)過(guò)程并不會(huì)增加數(shù)據(jù)中固有的信息內(nèi)容,但它確實(shí)可以提高所選擇特征的動(dòng)態(tài)范圍,從而使這些特征可以很容易地被檢測(cè)到。目前,雖然已有幾種改進(jìn)算法可以對(duì)彩色圖像進(jìn)行增強(qiáng)處理,但在我們的研究中,僅限于采用那些基于人工智能技術(shù)的強(qiáng)魯棒性方法。文獻(xiàn)[9]的作者,應(yīng)用基于遺傳編程(GeneticPro
20、gramming-GP)的全局對(duì)比度增強(qiáng)改進(jìn)技術(shù),通過(guò)改變輸入圖像的色彩分布圖,使得輸入圖像可以滿(mǎn)足人類(lèi)解釋的要求。在文獻(xiàn)[12]中,我們的研究表明,將遺傳算法(Genetic Algorithms-GAs)應(yīng)用到經(jīng)過(guò)增強(qiáng)處理后的圖像,還可以進(jìn)一步實(shí)現(xiàn)對(duì)圖像的優(yōu)化。只要在遺傳算法進(jìn)化過(guò)程中始終保存“最好解”,那么就有可能使搜索逐步演變成期望的相似性搜索。
粒子群優(yōu)化算法(Particle Swarm Optimization-
21、PSO)是另一種現(xiàn)代的啟發(fā)式尋優(yōu)算法,它也可以用來(lái)改進(jìn)輸入圖像的查詢(xún)質(zhì)量。在局部PSO增強(qiáng)和改進(jìn)模型中,使用了以給定圖像中每個(gè)像素鄰域的灰度級(jí)分布為基礎(chǔ)構(gòu)造的變換函數(shù)。與遺傳算法相同,基于PSO算法的圖像增強(qiáng)方法,要求選擇一個(gè)適應(yīng)度函數(shù)以建立評(píng)價(jià)個(gè)體優(yōu)劣的適應(yīng)度準(zhǔn)則。采用這種增強(qiáng)方法,需要被增強(qiáng)的圖像有一個(gè)相對(duì)較高的邊緣亮度。所以,適應(yīng)度準(zhǔn)則應(yīng)該與邊緣像素的數(shù)量和亮度成正比。要生成一幅增強(qiáng)圖像,需要用到剛剛提到的變換函數(shù),它既包含輸入圖
22、像的全局信息又包含其局部信息。
在基于內(nèi)容的圖像檢索系統(tǒng)搜索模式中,研究人員已對(duì)采用主動(dòng)學(xué)習(xí)方法產(chǎn)生了越來(lái)越大的興趣。學(xué)習(xí)對(duì)象之間的相似性度量,是機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)一般性但卻很重要的問(wèn)題,它可以用在多媒體信息檢索過(guò)程中。設(shè)計(jì)一個(gè)查詢(xún)優(yōu)化方案可以視為一個(gè)機(jī)器學(xué)習(xí)任務(wù)。查詢(xún)優(yōu)化方案在解決一些大規(guī)模的應(yīng)用問(wèn)題中特別有用,比如,像搜索出一幅與給定圖像相似的圖像這類(lèi)任務(wù)?;谌斯ど窠?jīng)網(wǎng)絡(luò)(Artificial Neural Network
23、s-ANNs)的學(xué)習(xí)算法通常用于使相似性匹配功能偏向或者符合用戶(hù)的查詢(xún)興趣。人工神經(jīng)網(wǎng)絡(luò)是模仿高等動(dòng)物大腦的某些信息存儲(chǔ)和處理能力而開(kāi)發(fā)的數(shù)學(xué)模型。一個(gè)人工神經(jīng)網(wǎng)絡(luò)是由一些神經(jīng)元通過(guò)相互連接而形成的一個(gè)網(wǎng)絡(luò)拓?fù)?,在每?duì)神經(jīng)元之間的連接上都有一個(gè)可調(diào)節(jié)的加權(quán)系數(shù),這個(gè)系數(shù)起著生物神經(jīng)系統(tǒng)中神經(jīng)元的突觸強(qiáng)度的作用,它可以加強(qiáng)或者減弱上一個(gè)神經(jīng)元的輸出對(duì)下一個(gè)神經(jīng)元的刺激。這個(gè)加權(quán)系數(shù)通常被稱(chēng)作為權(quán)值。人工神經(jīng)網(wǎng)絡(luò)最具有吸引力的特征是,使用某
24、些學(xué)習(xí)算法以及少數(shù)訓(xùn)練樣本就可以教會(huì)它們執(zhí)行計(jì)算任務(wù)。Holland、Wu和Chechik等學(xué)者都曾指出,人工神經(jīng)網(wǎng)絡(luò)可以通過(guò)各種進(jìn)化算法加以?xún)?yōu)化,使其性能得到改善。
在人工神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)起著極其重要的作用。學(xué)習(xí)過(guò)程也是神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值被調(diào)整、修改的過(guò)程。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力是由其網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)訓(xùn)練算法決定的。反向傳播算法(Backpropagation-BP)是目前最常用的訓(xùn)練神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,它已被證明在訓(xùn)練前饋多層
25、感知器時(shí)非常成功。在我們?cè)O(shè)計(jì)的基于內(nèi)容的相似性檢索系統(tǒng)中,多層神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)分為兩個(gè)階段。第一階段是訓(xùn)練,在此過(guò)程中樣本數(shù)據(jù)庫(kù)中的圖像被標(biāo)記,以便用于被選擇。圖像被標(biāo)記后,通過(guò)低層的顏色描述算符處理后形成神經(jīng)網(wǎng)絡(luò)的輸入。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中,輸入圖像的每個(gè)特征向量都會(huì)與從樣本數(shù)據(jù)庫(kù)中搜索到的圖像的一個(gè)目標(biāo)向量相關(guān)聯(lián),該目標(biāo)向量的基數(shù)等于訓(xùn)練數(shù)據(jù)庫(kù)((樣本數(shù)據(jù)庫(kù))中組的數(shù)量。反向傳播學(xué)習(xí)規(guī)則在網(wǎng)絡(luò)訓(xùn)練過(guò)程中一直使用,直到神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)收斂為
26、止。神經(jīng)網(wǎng)絡(luò)的收斂與樣本數(shù)據(jù)庫(kù)中圖像的標(biāo)簽有關(guān)。網(wǎng)絡(luò)訓(xùn)練完成后,第二階段就是利用樣本數(shù)據(jù)庫(kù)中其它圖像的信息來(lái)生成高級(jí)的特征向量。然后,采用標(biāo)準(zhǔn)的歐幾里德相似性度量法,將從樣本數(shù)據(jù)庫(kù)中搜索得到的結(jié)果圖像的輸出向量與儲(chǔ)存在樣本數(shù)據(jù)庫(kù)中的高級(jí)特征向量進(jìn)行比較,以檢查輸出的結(jié)果圖像是否與輸入的查詢(xún)圖像相似。學(xué)習(xí)可以只依靠正樣本,如用于重新加權(quán)方法或基于Mahalanobis距離方法的那些樣本,或者既依靠正樣本也依靠負(fù)樣本。
最初,由于
27、用戶(hù)心中事先并沒(méi)有相似性的概念,所以神經(jīng)網(wǎng)絡(luò)所有的權(quán)值都是統(tǒng)一設(shè)置的,大小相等。搜索的靈活性主要來(lái)自于對(duì)權(quán)值的調(diào)整。要克服這種限制,可以讓用戶(hù)嘗試運(yùn)用案例查詢(xún)的方法。當(dāng)然,所用到的案例,在其非文本查詢(xún)的表達(dá)式中必須包含與用戶(hù)正在尋找的資料相關(guān)的多媒體項(xiàng)。近來(lái),在很多多媒體檢索系統(tǒng)中,已經(jīng)采用案例查詢(xún)框架。在我們的檢索系統(tǒng)實(shí)現(xiàn)中,所采用的框架使用戶(hù)可以通過(guò)提供一個(gè)案例以及k個(gè)與此案例期望的匹配來(lái)提出一個(gè)相似性查詢(xún)Q?;谟脩?hù)提供的初始案例
28、,查詢(xún)處理器會(huì)為這個(gè)輸入的查詢(xún)案例產(chǎn)生一個(gè)內(nèi)部表示模型,我們將此稱(chēng)為“啟動(dòng)”查詢(xún)。啟動(dòng)查詢(xún)?nèi)缓笈c數(shù)據(jù)庫(kù)中的對(duì)象集進(jìn)行匹配,并返回最佳的k個(gè)匹配結(jié)果。
任何圖像檢索系統(tǒng)的性能分析都取決于所采用的相似性度量準(zhǔn)則。相似性是利用圖像內(nèi)容描述符進(jìn)行計(jì)算的,這些描述符將輸出圖像的特征向量與相似性度量準(zhǔn)則結(jié)合在一起,以表達(dá)圖像特有的感知特性。對(duì)于一幅給定的查詢(xún)圖像,連同它的顏色特征一起,檢索準(zhǔn)確度越高,則反映檢索得到的結(jié)果圖像與輸入的查詢(xún)圖
29、像特征向量之間距離的度量指標(biāo)就越好。在圖像檢索中,已經(jīng)用到了多種距離測(cè)量方法。在本文中,我們采用歐幾里德距離度量法,因?yàn)闊o(wú)論是從檢索的有效性還是檢索的效率來(lái)看,它都被認(rèn)為是最理想的距離測(cè)量方法,它可以將搜索引導(dǎo)到最相似的被檢索圖像。
本文的主要貢獻(xiàn)包括:
(1)提出了一種基于人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的有監(jiān)督學(xué)習(xí)優(yōu)化方法與離散余弦變換系數(shù)優(yōu)化方法相結(jié)合的混合圖像增強(qiáng)技術(shù),以改進(jìn)在多媒體信息檢索系統(tǒng)中相似性搜索的質(zhì)量。將該技術(shù)應(yīng)
30、用于圖像數(shù)據(jù),可以使正確檢索到的相似圖像(即與查詢(xún)圖像為同一類(lèi)圖像)的數(shù)量達(dá)到最大化。與以前那些直接提取圖像數(shù)據(jù)進(jìn)行訓(xùn)練而沒(méi)有對(duì)圖像的檢索質(zhì)量作進(jìn)一步改進(jìn)的方法相比,我們提出的這種技術(shù)可以有效地優(yōu)化查詢(xún)圖像的離散余弦變換系數(shù)的縮放比例并通過(guò)有監(jiān)督的人工神經(jīng)網(wǎng)絡(luò)算法顯著地改善查詢(xún)圖像的檢索性能,阿時(shí)使得系統(tǒng)的資源利用率達(dá)到最大而查詢(xún)所需的等待時(shí)間最小。所提出的混合圖像增強(qiáng)技術(shù)包含兩個(gè)模塊,一個(gè)用于增強(qiáng)輸入的查詢(xún)圖像,另一個(gè)則對(duì)增強(qiáng)后的圖像
31、再做進(jìn)一步的精細(xì)改進(jìn)和優(yōu)化。實(shí)驗(yàn)結(jié)果證實(shí),采用所提出的這種圖像增強(qiáng)技術(shù),衡量圖像檢索性能的幾個(gè)標(biāo)準(zhǔn)指標(biāo)都得到明顯的改進(jìn)。
(2)提出了一種基于離散余弦變換算法與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的圖像壓縮算法,以高效壓縮圖像的各種特征信息并在壓縮域增強(qiáng)圖像的對(duì)比度。該算法具有以下優(yōu)點(diǎn):第一,能夠成功地探索圖像的自然場(chǎng)景并全面地對(duì)自然場(chǎng)景的內(nèi)容進(jìn)行編碼,以獲得圖像場(chǎng)景分類(lèi)的魯棒表達(dá)形式;第二,可以增強(qiáng)原始圖像中較暗和較亮區(qū)域的細(xì)節(jié),同時(shí)又不增強(qiáng)
32、原始圖像的噪聲信息以及影響原始圖像的可壓縮性;第三,具有較低的計(jì)算復(fù)雜性。為了提高處理速度,我們也對(duì)離散余弦變換系數(shù)的分布特征進(jìn)行了研究。由于經(jīng)離散余弦變換壓縮后的輸入圖像其特征信息的動(dòng)態(tài)范圍被大大提高,使得圖像的質(zhì)量得到提高,從而使得搜索算法的整體性能也得到提高。實(shí)驗(yàn)結(jié)果表明,所提出的算法不僅可以改進(jìn)圖像的動(dòng)態(tài)范圍和對(duì)比度,而且可以有效地消除離散余弦變換在對(duì)每個(gè)像素塊進(jìn)行獨(dú)立壓縮時(shí)所產(chǎn)生的塊效應(yīng)并減少噪聲信息。
(3)提出通
33、過(guò)對(duì)解碼器中的量化表進(jìn)行加權(quán)處理利用JPEG壓縮算法在離散余弦變換域內(nèi)對(duì)輸入的原始查詢(xún)圖像進(jìn)行增強(qiáng)。圖像數(shù)據(jù)隨要求不同可具有不同的形式,這些要求會(huì)影響數(shù)據(jù)的存儲(chǔ)、處理和表達(dá)。圖像檢索系統(tǒng)設(shè)計(jì)的目標(biāo)之一就是要允許和確保所有各種形式的數(shù)據(jù)在操作上的易用性和存儲(chǔ)上的高效性,運(yùn)用JPEG壓縮算法可以有效地實(shí)現(xiàn)這兩個(gè)目標(biāo)。由于在壓縮域內(nèi)大多數(shù)離散余弦變換的系數(shù)經(jīng)量化后的值為零,使得算法的存儲(chǔ)要求和計(jì)算開(kāi)銷(xiāo)都被大大減小,從而可加快算法的執(zhí)行速度。使
34、用JPEG壓縮格式,還給我們提供了一種在離散余弦變換域中定義圖像對(duì)比度測(cè)量的自然方式,同時(shí)也將圖像從空域轉(zhuǎn)換到壓縮域。
(4)提出了一種基于人工神經(jīng)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)算法用于提高排序函數(shù)的自動(dòng)學(xué)習(xí)性能,以提高圖像的檢索質(zhì)量并減少對(duì)手工調(diào)整參數(shù)的依賴(lài)。該算法的優(yōu)點(diǎn)是可以提高學(xué)習(xí)速度、簡(jiǎn)化計(jì)算并且可以采用高速硬件加以實(shí)現(xiàn)。增強(qiáng)學(xué)習(xí)是一種理想的學(xué)習(xí)算法,可以用來(lái)訓(xùn)練排序模型,因而可以直接優(yōu)化檢索系統(tǒng)的性能。在對(duì)圖像進(jìn)行增強(qiáng)處理的過(guò)程中
35、采用人工神經(jīng)網(wǎng)絡(luò)技術(shù),對(duì)圖像數(shù)據(jù)的增強(qiáng)過(guò)程及產(chǎn)生的最終結(jié)果有直接效果。從文中的分析可以看出,結(jié)合了學(xué)習(xí)策略的搜索算法可以使檢索過(guò)程更加高效,得到的結(jié)果也更加接近最優(yōu)解。此外,在圖像相似性搜索算法中,我們還引入了一種新的圖像選擇準(zhǔn)則,它能更好地反映圖像相似性檢索和排序的目標(biāo),使算法在對(duì)解空間進(jìn)行搜索時(shí),總能找到一個(gè)具有最小代價(jià)函數(shù)的最優(yōu)解。
我們對(duì)所提出的多媒體信息檢索系統(tǒng)的性能進(jìn)行了測(cè)試實(shí)驗(yàn),并對(duì)圖像檢索結(jié)果進(jìn)行了分析。實(shí)驗(yàn)結(jié)
36、果表明,對(duì)于各種不同視覺(jué)質(zhì)量的輸入查詢(xún)圖像,我們的檢索系統(tǒng)都能產(chǎn)生高質(zhì)量的輸出結(jié)果。性能測(cè)試證實(shí),與沒(méi)有改進(jìn)的查詢(xún)圖像相比,我們提出的圖像增強(qiáng)及精細(xì)改進(jìn)技術(shù)有效地增強(qiáng)了查詢(xún)圖像的視覺(jué)質(zhì)量,改進(jìn)了查詢(xún)圖像的檢索性能。我們將基于人工神經(jīng)網(wǎng)絡(luò)的有監(jiān)督訓(xùn)練方法與離散余弦變換相結(jié)合,使得檢索產(chǎn)生的結(jié)果圖像與輸入的查詢(xún)圖像之間的相似性距離指標(biāo)可以到達(dá)高精度檢索的要求。
總的來(lái)說(shuō),本文所提出的基于顏色的查詢(xún)質(zhì)量改進(jìn)技術(shù)為在多媒體信息檢索系統(tǒng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Similarity Search Based on Textual Content.pdf
- research on intelligent information search based on web
- 2018版-object based augmented reality and its tracking systems
- Research on Image Information Retrieval based on Local Binary Patterns.pdf
- Research on 3D Face Modeling Based on 2D Images.pdf
- Style transfer between images.pdf
- Steganographic Techniques for Digital Images.pdf
- Image Filtering Improvement for Producing Artistic Images.pdf
- Domain Ontology in Information Retrieval Aystem.pdf
- Context and Role Based Dynamic Access Control in Distributed Healthcare Information Systems.pdf
- information systems in organisations
- Information Retrieval and Noise Properties of X-ray Grating-based Phase-contrast Imaging.pdf
- Detection and Tracking Small Target in Infrared Sequence Images.pdf
- Research on Sequence Similarity Search Using Fractal Features of Proteins.pdf
- Extracting process planning information from various wire frame and feature based CAD systems.pdf
- Extracting process planning information from various wire frame and feature based CAD systems.pdf
- Image Similarity Matching Based On Colour and Texture.pdf
- Towards intelligent information retrieval-ensemble Ranking SVM,constraint adaptive propagation,and interactive image retrieval.pdf
- information systems and principal agent models
- Text-Based and Content-Based Image Retrieval on Flickr DEMO.pdf
評(píng)論
0/150
提交評(píng)論