版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大規(guī)模數(shù)據(jù)并行應(yīng)用對可擴(kuò)展性、計算能力和存儲帶寬的迫切需求促使高性能微處理器正在向眾核體系結(jié)構(gòu)演變。作為一種新型的眾核體系結(jié)構(gòu),圖形處理器(GPU)采用大量晶體管用于計算單元,采用相對簡單的控制邏輯,具有非常高效的存儲帶寬層次?,F(xiàn)代GPU體系結(jié)構(gòu)所具有的片上計算單元密集、存儲帶寬高效、性價比高等鮮明的特點(diǎn),形成了一個嶄新的研究領(lǐng)域-基于GPU的通用計算(GPGPU),即利用GPU來實(shí)現(xiàn)更為廣泛的數(shù)據(jù)并行計算。
受體系結(jié)構(gòu)和
2、可編程性的制約,早期的GPU未能在并行計算領(lǐng)域普及。隨著高級編程模型(如AMD/ATI STREAMTM、NVIDIA CUDATM和OpenCL)的相繼推出,GPU程序設(shè)計的復(fù)雜性在一定程度上得到降低。為了節(jié)約設(shè)計成本并實(shí)現(xiàn)未來體系結(jié)構(gòu)的可擴(kuò)展性,GPU體系結(jié)構(gòu)通常采用分散式硬件設(shè)計。與CPU存儲系統(tǒng)相比,GPU存儲系統(tǒng)的設(shè)計目標(biāo)是維持高吞吐量而非低延遲。雖然GPU體系結(jié)構(gòu)可以同時維持大量的線程,以零開銷的硬件線程切換來隱藏存儲訪問延
3、遲,但是如果應(yīng)用程序中存在大量的不規(guī)則數(shù)據(jù)訪問,勢必會造成很多線程因同時訪存而出現(xiàn)暫停,浪費(fèi)了寶貴的計算資源。GPU特殊的體系結(jié)構(gòu)使得高級編程模型下的應(yīng)用程序難以充分利用其強(qiáng)大的計算能力和高效的存儲帶寬,編寫高性能的GPGPU程序需要考慮如何將應(yīng)用程序有效映射至GPU硬件上加以執(zhí)行。此外,GPU的并行編程模型與傳統(tǒng)的串行編程模型存在差異,基于GPU體系結(jié)構(gòu)的應(yīng)用開發(fā)與優(yōu)化方法也與傳統(tǒng)方法有著很大不同。由于GPU體系結(jié)構(gòu)底層硬件的復(fù)雜性,
4、編譯器并沒有對應(yīng)用程序進(jìn)行充分的優(yōu)化。為了指導(dǎo)應(yīng)用程序高效映射到GPU體系結(jié)構(gòu)上執(zhí)行,本文研究了面向眾核GPU體系結(jié)構(gòu)的性能評估與優(yōu)化方法,具體工作如下:
(1)當(dāng)應(yīng)用程序映射到GPU體系結(jié)構(gòu)上執(zhí)行時,很多因素都會降低程序的性能,一種量化的性能模型可以用于評估特定應(yīng)用移植至GPU體系結(jié)構(gòu)上的實(shí)際執(zhí)行性能。由于現(xiàn)代GPU體系結(jié)構(gòu)的復(fù)雜性,傳統(tǒng)的并行計算模型無法用于評估GPGPU程序的性能。為了預(yù)測應(yīng)用程序并行化后的執(zhí)行性能,
5、評估并行化過程中可能存在的性能瓶頸,本文針對GPU體系結(jié)構(gòu)提出了一種量化的性能評估模型。該模型建立在抽象GPU體系結(jié)構(gòu)和執(zhí)行模型的基礎(chǔ)上,充分考慮了影響GPGPU程序性能的各種因素(如全局存儲器的接合訪問、局部存儲器的沖突訪問、計算與存儲訪問重疊、條件分支轉(zhuǎn)移、同步),在無需編寫實(shí)際GPGPU程序的前提下,通過對應(yīng)用程序的靜態(tài)分析并結(jié)合GPU的性能參數(shù)設(shè)定具體的執(zhí)行配置,即可估算出應(yīng)用程序并行化后的執(zhí)行時間。實(shí)驗(yàn)結(jié)果表明,該性能模型能夠
6、較為準(zhǔn)確地評估應(yīng)用程序在GPU體系結(jié)構(gòu)上的執(zhí)行時間。
(2)在GPU體系結(jié)構(gòu)的存儲系統(tǒng)中,全局存儲器容量較大但訪問延遲較高,快速存儲器(如局部存儲器)訪問速度較快但容量有限。因此,改善數(shù)據(jù)在全局存儲器中的布局,減少不規(guī)則存儲訪問,合理利用片上快速存儲器,減少總體的存儲訪問開銷對于提升GPGPU程序的性能至關(guān)重要。為了充分發(fā)揮GPU體系結(jié)構(gòu)在存儲帶寬方面的優(yōu)勢,本文提出了基于多面體模型的存儲優(yōu)化方法。該方法建立源程序的多面體
7、表示,分別對GPU的全局存儲器和快速存儲器進(jìn)行優(yōu)化與分配:通過檢測存儲訪問模式,發(fā)掘可向量化的存儲訪問實(shí)例,利用數(shù)據(jù)空間變換對不規(guī)則存儲訪問模式進(jìn)行轉(zhuǎn)換,提高了GPU片外存儲器的帶寬利用率;通過檢測程序中的數(shù)據(jù)重用,根據(jù)數(shù)據(jù)的訪問屬性和GPU存儲器硬件的特性,實(shí)現(xiàn)了快速存儲器的有效分配;采用坐標(biāo)轉(zhuǎn)換和增加偏移量的技術(shù)分別對IMAGE存儲對象和局部存儲器進(jìn)行優(yōu)化,提高了片上存儲器的使用效率。實(shí)驗(yàn)結(jié)果表明,該存儲優(yōu)化方法可以使得程序的性能相
8、對優(yōu)化前提升1.2~8.4倍。
(3)循環(huán)和數(shù)組結(jié)構(gòu)通常具有計算密集和數(shù)據(jù)并行的特征,因此這種結(jié)構(gòu)通常是GPU計算核心的天然候選。然而在一些應(yīng)用程序中,數(shù)據(jù)依賴和控制相關(guān)阻礙了它們在GPU體系結(jié)構(gòu)上高效地運(yùn)行。由于GPU體系結(jié)構(gòu)同時強(qiáng)調(diào)計算密集與數(shù)據(jù)并行,因此將計算重構(gòu)和數(shù)據(jù)重構(gòu)加以組合更能夠充分開發(fā)其性能潛力。為了使應(yīng)用程序能夠充分開發(fā)GPU體系結(jié)構(gòu)的性能潛力,本文提出了面向GPU體系結(jié)構(gòu)的程序重構(gòu)方法:首先通過循環(huán)合并
9、與拆分的計算重構(gòu)增大了應(yīng)用程序的可并行性,盡可能消除操作間的依賴關(guān)系,提高所生成GPU計算核心的計算密集性,有利于存儲訪問延遲的隱藏;其次,通過對線程內(nèi)和線程間的數(shù)據(jù)訪問進(jìn)行重構(gòu),減少了GPU計算核心的存儲訪問次數(shù);最后,通過條件執(zhí)行、分支化簡和間接索引等重構(gòu)技術(shù),減少了分支轉(zhuǎn)移對于程序性能的負(fù)面影響。實(shí)驗(yàn)結(jié)果表明,該程序重構(gòu)方法可以使得程序性能相對重構(gòu)前提升1.18~2.56倍。
(4)數(shù)據(jù)并行應(yīng)用中的非計算密集型算法存
10、在存儲墻問題,在基于GPU的并行化過程中顯得更為突出。為了有效緩解存儲受限型應(yīng)用的存儲墻問題,本文針對生物序列比對領(lǐng)域設(shè)計了一種基于GPU的Smith-Waterman并行算法:通過改變原有Smith-Waterman算法的計算流程和數(shù)據(jù)依賴關(guān)系,進(jìn)一步增加了序列比對的并行性;通過實(shí)施面向GPU體系結(jié)構(gòu)的優(yōu)化方法,進(jìn)一步提升了序列比對的性能和效率。實(shí)驗(yàn)結(jié)果表明,經(jīng)過優(yōu)化的Smith-Waterman算法與CPU上的串行算法相比提升了近1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 可重構(gòu)眾核流處理器體系結(jié)構(gòu)關(guān)鍵技術(shù)研究.pdf
- 邏輯核動態(tài)可重構(gòu)的眾核處理器體系結(jié)構(gòu).pdf
- 面向眾核體系結(jié)構(gòu)的圖算法并行優(yōu)化技術(shù)研究.pdf
- 異構(gòu)眾核體系結(jié)構(gòu)Cache功耗和性能優(yōu)化關(guān)鍵技術(shù)研究.pdf
- 信息系統(tǒng)認(rèn)證體系結(jié)構(gòu)及相關(guān)技術(shù)研究.pdf
- 網(wǎng)絡(luò)中心戰(zhàn)概念、體系結(jié)構(gòu)及相關(guān)技術(shù)研究.pdf
- 無線網(wǎng)絡(luò)認(rèn)證體系結(jié)構(gòu)及相關(guān)技術(shù)研究.pdf
- 面向科學(xué)計算的GPU宏體系結(jié)構(gòu)研究.pdf
- 面向多核-眾核體系結(jié)構(gòu)的確定性并行關(guān)鍵技術(shù)研究.pdf
- 面向多核眾核體系結(jié)構(gòu)的確定性并行關(guān)鍵技術(shù)研究
- DTN體系結(jié)構(gòu)關(guān)鍵技術(shù)研究.pdf
- 基于GPU異構(gòu)體系結(jié)構(gòu)的大規(guī)模圖數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究.pdf
- 數(shù)據(jù)倉庫體系結(jié)構(gòu)及技術(shù)研究.pdf
- 可信云體系結(jié)構(gòu)與關(guān)鍵技術(shù)研究.pdf
- 基于軟件體系結(jié)構(gòu)的構(gòu)件組裝技術(shù)研究.pdf
- 云制造的體系結(jié)構(gòu)及平臺實(shí)現(xiàn)技術(shù)研究.pdf
- RCESB體系結(jié)構(gòu)及SOAP序列化技術(shù)研究.pdf
- 網(wǎng)格安全體系結(jié)構(gòu)及證書管理技術(shù)研究.pdf
- 安全主動網(wǎng)體系結(jié)構(gòu)與關(guān)鍵技術(shù)研究.pdf
- 基于軟件生產(chǎn)線的體系結(jié)構(gòu)和組裝過程相關(guān)技術(shù)研究.pdf
評論
0/150
提交評論