2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、多核處理器技術(shù),華南理工大學(xué) 陳虎 博士tommychen74@yahoo.com.cn,參考文獻(xiàn),[1] Tom R. Halfhill,Intel Goes Quad, Issue #234,Processor Watch,Oct. 19, 2006[2] Cameron McNairy, Rohit Bhatia, MONTECITO: A Dual-Core, Dual-Thread ITANIUM Processor, I

2、EEE Mirco, Mar./Apr., 2005[3]Ron Kalla,Balaram Sinharoy, Joel M. Tendle, IBM POWER5 CHIP: A Dual-Core, Multithreaded Processor, IEEE Micro, Mar./Apr., 2004[4] Poonacha Kongetira, Kathirgamar Aingaran, Kunle Olukotun, N

3、IAGARA: A 32-way Multithreaded SPARC Processor, IEEE Micro, Mar./Apr., 2005[5] Toshinari Takayanagi, Jinuk Luke Shin, ect., A Dual-Core 64-bit UltraSPARC Microprocessor for Dense Server Applications, IEEE JOURNAL OF SOL

4、ID-STATE CIRCUITS, Vol.40(1):7-18, JAN. 2005[6] Intel Corp., Intel IXP2400 Network Processor Product Brief, www.intel.com,2003[7] Motorola Inc., Motorola C-5 Architecture Guide, www.motorola.com, 2001[8] John Montrym,

5、 Henry Moreton, THE GEFORCE 6800, IEEE Micro, Mar./Apr., 2005[9] J. A. Kahle, etc., Introduction to the Cell multiprocessor, IBM J. RES. & DEV. VOL.49(4/5):589-604, JULY/SEP., 2005[10] Ujval J. Kapasi, etc., Progra

6、mmable Stream Processors, IEEE Computer, Aug.,2003[11] Tom R. Halfhill,Ambric's New Parallel Processor, Issue #234 - Processor Watch - October 19, 2006[12] Sriram Vangal, Jason Howard, etc., An 80-Tile 1.28TFLOPS N

7、etwork-on-Chip in 65nm CMOS, IEEE International Solid-State Circuits Conference, 2007,微處理器技術(shù)發(fā)展的主要?dú)v史回顧,90年代——增大指令的并行發(fā)射能力指令級(jí)并行性自身存在很大限制,超標(biāo)量技術(shù)已經(jīng)到了盡頭;VLIW(超長指令字)存在二進(jìn)制代碼不兼容,對(duì)編譯要求高的缺點(diǎn);,90年代末期——提高主頻流水線不斷細(xì)化,指令間相關(guān)性導(dǎo)致系統(tǒng)復(fù)雜性大大提高;

8、Memory Wall,存儲(chǔ)器性能滯后,嚴(yán)重影響整體性能;功耗問題嚴(yán)重;,微處理器技術(shù)發(fā)展的主要?dú)v史回顧,本世紀(jì)前5年——多線程只能屏蔽線程的存儲(chǔ)器訪問延遲,增加系統(tǒng)吞吐率(15%左右),并未提高單個(gè)單線程的執(zhí)行速度;,當(dāng)前和未來五年——多核充分利用摩爾定律帶來的芯片面積,放置多個(gè)微處理器內(nèi)核;通過開發(fā)程序內(nèi)的線程級(jí)或進(jìn)程級(jí)并行性提高性能,典型的多核處理器系統(tǒng),通用處理器:Intel——Xeon 5300 (四核) IBM

9、——POWER5(雙核)SUN——NIAGARA(8核)、UltraSpac(雙核) 網(wǎng)絡(luò)處理器Intel——IXP2400Motorola——C-5嵌入式系統(tǒng)TI——OMAP,DavinciARM——ARM11MP,圖像處理Nvdia——GF6800多媒體處理IBM,Sony和Toshiba——Cell處理器Stanford大學(xué)——Imagine實(shí)驗(yàn)系統(tǒng)Ambric——AM2045(360核)Intel——

10、80個(gè)核的實(shí)驗(yàn)處理器,多核處理器系統(tǒng)中的主要問題,每個(gè)處理器地址空間的關(guān)系怎樣?存儲(chǔ)器層次如何劃分?如何保持存儲(chǔ)器的一致性?,互連結(jié)構(gòu)如何?,并行程序設(shè)計(jì)模型如何?,,,存儲(chǔ)器結(jié)構(gòu)——cc-UMAcache-coherence Unified Memory Access,所有CPU共享一個(gè)統(tǒng)一的地址空間;有單獨(dú)的L1 Cache;采用多級(jí)Cache結(jié)構(gòu);采用總線或者Crossbar作為互連結(jié)構(gòu);使用Cache一致性協(xié)議維護(hù)數(shù)

11、據(jù)一致性;采用多線程或者多進(jìn)程作為并行軟件設(shè)計(jì)方法,CPU0,CPU1,…,CPUn,L1 Cache,L1 Cache,L1 Cache,L1 Cache,L2, L3Caches,Maim Memory,,,SUN’s NIAGARA,8個(gè)4線程處理器通過crossbar連接到4個(gè)L2 CacheL1 Cache:16KB for Instructions8KB for DataCache一致性協(xié)議:在L2 C

12、ache建立L1 Cache的tag shadows讀不命中時(shí),根據(jù)L2 Cache的tag shadow尋找合適數(shù)據(jù);寫數(shù)據(jù)時(shí),無效所有具有此拷貝的L1 Cache。,ARM’s ARM11MP,多個(gè)ARM11核有獨(dú)自的L1 Cache通過Snoop Control Unit實(shí)現(xiàn)Cache 一致性協(xié)議:保持了L1 Cache物理地址的Tag采用MESI( Modified, exclusive, shared, invali

13、d)協(xié)議,cc-UMA的評(píng)價(jià),優(yōu)點(diǎn):硬件實(shí)現(xiàn)數(shù)據(jù)一致性協(xié)議,軟件不需要關(guān)心;多線程/進(jìn)程的并行軟件資源豐富;缺點(diǎn):Cache一致性協(xié)議的性能和面積開銷;Cache一致性協(xié)議可能對(duì)互連結(jié)構(gòu)有特殊要求,例如偵聽協(xié)議需要總線結(jié)構(gòu),影響了互連結(jié)構(gòu)主頻和數(shù)據(jù)寬度;總線或Crossbar難以支持更多的處理器;結(jié)論適用于通用計(jì)算連接的處理器數(shù)目受到限制,存儲(chǔ)器結(jié)構(gòu)——異構(gòu)多處理器,系統(tǒng)中的處理器類型不完全一致典型配置是一個(gè)RISC

14、處理器+一個(gè)或多個(gè)DSP每個(gè)處理器有獨(dú)自的Cache地址空間不完全重疊數(shù)據(jù)一致性由軟件/硬件協(xié)同完成,CPU0,CPU1,…,CPUn,L1 Cache,L1 Cache,L1 Cache,L1 Cache,Connection Achitecture,Maim Memory,,,存儲(chǔ)器結(jié)構(gòu)——LMLocal Memory,每個(gè)從CPU(SCPU)僅能訪問局部存儲(chǔ)器主處理器(MCPU)將各個(gè)局部存儲(chǔ)器作為全局地址映射的

15、一個(gè)部分采用環(huán)行、流水線等互連結(jié)構(gòu);硬件提供簡單的數(shù)據(jù)一致性方法(如DMA一致性)由軟件控制一致性,MCPU,SCPU0,…,SCPUn,Cache,LM,LM,LM,Connection Architecture,Maim Memory,,,IBM’s Cell,主CPU——64bit PowerPC32K L1Cache512K L2 Cache地址空間包括所有的局部存儲(chǔ)器和主存從CPU——8個(gè)SPE,包含:4個(gè)并行

16、可執(zhí)行單元;128KB局部存儲(chǔ)器僅能直接訪問局部存儲(chǔ)器,需要通過DMA訪問其它局部存儲(chǔ)器或者主存,IBM’s Cell,四路環(huán)行連接;集中式仲裁;數(shù)據(jù)寬度16字節(jié)/環(huán);主頻1.6GHZ峰值傳輸帶寬204.8Gbps通過DMA實(shí)現(xiàn)數(shù)據(jù)交換;有全局唯一的DMA地址一致性檢查部件,Intel的80核處理器,單個(gè)處理器上集成了80個(gè)處理單元80個(gè)處理器單元按照10×8的mesh結(jié)構(gòu)連接采用65nm工藝實(shí)現(xiàn)100

17、M個(gè)晶體管主頻4GHZ性能達(dá)到TFLOPS,Intel的80核處理器,每個(gè)處理單元包含:兩個(gè)浮點(diǎn)乘加器(FMAC)寄存器文件2KB數(shù)據(jù)存儲(chǔ)器3KB指令存儲(chǔ)器五方向路由節(jié)點(diǎn)(Router),Nvidia’s GeForce6800,多級(jí)專用處理器流水線方式連接每個(gè)處理器有局部存儲(chǔ)器或寄存器組,LM結(jié)構(gòu)的評(píng)價(jià),優(yōu)點(diǎn):局部存儲(chǔ)器與處理器核緊密耦合,存儲(chǔ)器帶寬高;數(shù)據(jù)一致性檢查機(jī)制比較簡單,開銷大幅度??;面向應(yīng)用和針對(duì)芯

18、片布局設(shè)計(jì)的連接拓?fù)浣Y(jié)構(gòu),提高處理器核之間互連通道的頻率和帶寬。缺點(diǎn):局部存儲(chǔ)器的空間有限,使用和調(diào)度完全需要軟件控制,這直接造成了軟件設(shè)計(jì)的難度,難以繼承業(yè)已存在的豐富軟件資源。 適合于特定的應(yīng)用,Intel® Multi-core,獨(dú)立L2 Cache,獨(dú)立外部存儲(chǔ)器接口,共享的L2 Cache和外部存儲(chǔ)器接口,Intel® Multi-core,,獨(dú)立L2 Cache,共享存儲(chǔ)器接口,獨(dú)立L2 Cache

19、和L3 Cache,共享存儲(chǔ)器接口,多核時(shí)代對(duì)軟件設(shè)計(jì)的挑戰(zhàn),在單個(gè)芯片上集成了眾多處理器核,軟件人員如何能發(fā)揮出它們的性能優(yōu)勢,試想一下在有100個(gè)處理器核上編寫程序?答案在于程序的并行化!,程序并行化的主要途徑,通過編譯技術(shù)將串行程序并行化目前并行編譯技術(shù)對(duì)線程級(jí)、任務(wù)級(jí)的并行化尚處于起步階段設(shè)計(jì)全新的并行程序設(shè)計(jì)語言這需要全部改寫原來的程序,工程量巨大串行語言加并行庫或偽注釋制導(dǎo)語句的擴(kuò)展增加一個(gè)庫或一些新的制導(dǎo)語句

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論