版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、科學(xué)計(jì)算永無(wú)止境的計(jì)算需求驅(qū)動(dòng)著高性能計(jì)算機(jī)系統(tǒng)進(jìn)入了千萬(wàn)億次時(shí)代,面向千萬(wàn)億次系統(tǒng)的各種關(guān)鍵技術(shù)將是未來(lái)構(gòu)建百萬(wàn)萬(wàn)億次系統(tǒng)的基石。受到CMOS工藝特征尺寸、功耗和散熱等技術(shù)的限制,完全依靠CPU提供計(jì)算能力的同構(gòu)計(jì)算機(jī)系統(tǒng)在到達(dá)千萬(wàn)億次系統(tǒng)規(guī)模后很難再進(jìn)行擴(kuò)充。而使用GPU作為加速器的異構(gòu)系統(tǒng)在性能功耗比方面比同構(gòu)系統(tǒng)更有優(yōu)勢(shì),也是構(gòu)建百萬(wàn)萬(wàn)億次系統(tǒng)最有前景的技術(shù)路線之一。2010年11月國(guó)防科大計(jì)算機(jī)學(xué)院為天津超算中心構(gòu)建的天河-1
2、A使用了NVIDIA的Fermi GPU,以2.566 PFLOPS的可持續(xù)運(yùn)算速度排名世界第一。這種CPU-GPU異構(gòu)系統(tǒng)提供了強(qiáng)大的計(jì)算能力,但用戶編程和性能優(yōu)化都與傳統(tǒng)的同構(gòu)計(jì)算機(jī)不同,成為發(fā)揮整個(gè)系統(tǒng)性能的關(guān)鍵。針對(duì)目前大規(guī)模異構(gòu)系統(tǒng)上應(yīng)用程序編程難、優(yōu)化難的問(wèn)題,本文以千萬(wàn)億次CPU-GPU異構(gòu)系統(tǒng)為平臺(tái),研究了異構(gòu)系統(tǒng)的編程模型以及優(yōu)化方法。
本研究主要內(nèi)容包括:⑴在千萬(wàn)億次CPU-GPU異構(gòu)計(jì)算機(jī)系統(tǒng)上引入了MP
3、I/OpenMP/Streaming混合編程模型,并擴(kuò)展至全系統(tǒng)規(guī)模。針對(duì)混合編程模型中軟件任務(wù)到硬件資源映射的問(wèn)題,提出了以結(jié)點(diǎn)為中心的任務(wù)映射、以CPU為中心的任務(wù)映射和以GPU為中心的任務(wù)映射。并針對(duì)大規(guī)模并行系統(tǒng)結(jié)點(diǎn)內(nèi)編程模型總結(jié)出7項(xiàng)需求:簡(jiǎn)單易用性、性能可擴(kuò)展性、存儲(chǔ)可擴(kuò)展性、模型層次性、調(diào)度靈活性、模型異構(gòu)性、定位準(zhǔn)確性,用于評(píng)估目前的編程模型。另外,提出了基于共享內(nèi)存的多進(jìn)程共享使用GPU的方法,并給出了高效編程實(shí)現(xiàn)。⑵
4、基于測(cè)量的自適應(yīng)任務(wù)劃分技術(shù)。我們將所有的任務(wù)放在一個(gè)任務(wù)隊(duì)列中,循環(huán)地從任務(wù)隊(duì)列中獲取任務(wù),每次取出的任務(wù)根據(jù)當(dāng)前的“任務(wù)劃分比率”劃分成CPU執(zhí)行和加速器執(zhí)行兩部分,初始的“任務(wù)劃分比率”由CPU和加速器的理論計(jì)算峰值得到。劃分完畢之后在異構(gòu)平臺(tái)上執(zhí)行,并在執(zhí)行完畢進(jìn)行實(shí)際性能測(cè)量,將統(tǒng)計(jì)得到的性能結(jié)果和本次劃分的任務(wù)負(fù)載相結(jié)合,更新“任務(wù)劃分比率”,作為下次任務(wù)劃分的依據(jù)。由于每次任務(wù)劃分并執(zhí)行完畢后,任務(wù)劃分比率都被自適應(yīng)地調(diào)整
5、,使得主機(jī)和加速器之間的任務(wù)分配獲得了很好的負(fù)載平衡效果,大大提升了異構(gòu)系統(tǒng)的計(jì)算效率。⑶基于有限狀態(tài)自動(dòng)機(jī)的嵌套雙緩沖軟件流水技術(shù)。GPU程序的執(zhí)行分為數(shù)據(jù)輸入、GPU計(jì)算、數(shù)據(jù)輸出三個(gè)部分。我們分析了異構(gòu)系統(tǒng)上軟件流水的執(zhí)行模型和代價(jià)模型,并設(shè)計(jì)了嵌套雙緩沖軟件流水機(jī)制。在實(shí)現(xiàn)過(guò)程中,我們使用了基于有限狀態(tài)自動(dòng)機(jī)的方法,用單個(gè)CPU線程控制了多任務(wù)的輸入、執(zhí)行和輸出,并將三者有序的重疊執(zhí)行。實(shí)驗(yàn)表明,這種方法極大緩解了主機(jī)和加速器間
6、帶寬不足的問(wèn)題,能有效解決原有GPU庫(kù)性能波動(dòng)的問(wèn)題。針對(duì)BLAS3中DGEMM不同問(wèn)題規(guī)模的測(cè)試,平均性能提升達(dá)到7.61%。⑷在千萬(wàn)億次 CPU-GPU異構(gòu)系統(tǒng)上設(shè)計(jì)并實(shí)現(xiàn)了高效的LINPACK程序(Hybrid-LINPACK)。首先設(shè)計(jì)并實(shí)現(xiàn)了能夠同時(shí)使用CPU和GPU計(jì)算能力的異構(gòu)BLAS庫(kù),然后基于異構(gòu)BLAS庫(kù),使用了MPI/OpenMP/Streaming混合編程模型,結(jié)合同構(gòu)系統(tǒng)上的高性能LINPACK實(shí)現(xiàn)(HPL2.
7、0),實(shí)現(xiàn)并優(yōu)化了Hybrid-LINPACK。優(yōu)化方法主要涉及CPU與GPU的任務(wù)劃分、CPU與GPU的通信優(yōu)化、SWAP算法并行化優(yōu)化、結(jié)點(diǎn)間數(shù)據(jù)傳輸優(yōu)化、以及HPL傳統(tǒng)的優(yōu)化方法和參數(shù)調(diào)優(yōu)等。Hybrid-LINPACK充分發(fā)揮了硬件和體系結(jié)構(gòu)設(shè)計(jì)提供的強(qiáng)大計(jì)算和通信能力,在天河-1單個(gè)計(jì)算單元上比AMD發(fā)布的LINPACK實(shí)現(xiàn)取得了3.3倍的加速比,獲得70.1%的計(jì)算效率。最終全系統(tǒng)LINPACK測(cè)試在天河-1和天河-1A上分
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向CPU-GPU異構(gòu)并行計(jì)算的代碼生成關(guān)鍵技術(shù)研究.pdf
- CPU-GPU異構(gòu)系統(tǒng)上的高層編程模型及其編譯優(yōu)化技術(shù).pdf
- 基于CPU-GPU異構(gòu)平臺(tái)的性能優(yōu)化及多核并行編程模型的研究.pdf
- 大規(guī)模CFD高效CPU-GPU異構(gòu)并行計(jì)算關(guān)鍵技術(shù)研究.pdf
- CPU-GPU協(xié)同的道路監(jiān)控關(guān)鍵技術(shù)研究與開發(fā).pdf
- 面向異構(gòu)系統(tǒng)的并行編程關(guān)鍵技術(shù)研究.pdf
- 基于CPU-GPU異構(gòu)并行系統(tǒng)的Smith Waterman及HEVC加速技術(shù)研究.pdf
- 基于CPU-GPU異構(gòu)平臺(tái)的OTN性能測(cè)試系統(tǒng)研究與實(shí)現(xiàn).pdf
- CPu-GPU異構(gòu)平臺(tái)的性能優(yōu)化研究及其在實(shí)時(shí)信號(hào)模擬技術(shù)中的應(yīng)用.pdf
- 基于CPU-GPU的遙感影像拼接技術(shù)研究.pdf
- 基于CPU-GPU平臺(tái)的虛擬化技術(shù)研究.pdf
- 面向CPU-GPU異構(gòu)系統(tǒng)的雙緩沖四段流水并行機(jī)制研究.pdf
- CPU-GPU異構(gòu)并行計(jì)算體系的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于CPU-GPU異構(gòu)平臺(tái)的空間殼單元研究與應(yīng)用.pdf
- 基于CPU-GPU異構(gòu)集群的矩量法研究.pdf
- 集成CPU-GPU架構(gòu)上的列存儲(chǔ)連接優(yōu)化技術(shù)研究.pdf
- CPU-GPU異構(gòu)體系任務(wù)調(diào)度框架的研究.pdf
- 面向多核CPU-眾核GPU異構(gòu)集群的數(shù)據(jù)流編程模型研究.pdf
- CPU-GPU混合編程模型上的并行譜聚類實(shí)現(xiàn).pdf
- 面向GPU計(jì)算平臺(tái)的若干并行優(yōu)化關(guān)鍵技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論