2023年全國(guó)碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)算機(jī)組成與設(shè)計(jì),硬件/軟件接口,第7章,多核、多處理器和集群,,,Computer Organization and Design,The Hardware/Software Interface,David A. Patterson John L. Hennessy,7.1 引言,目標(biāo):將多臺(tái)計(jì)算機(jī)連接起以期獲得更高的性能。 計(jì)算機(jī)集群多處理器多核處理器,作業(yè)(Job)/進(jìn)程(Process)級(jí)的并行并行性高,因?yàn)樽鳂I(yè)相對(duì)獨(dú)立

2、并行處理程序單個(gè)程序運(yùn)行在多個(gè)處理器上多核處理器在一個(gè)芯片上有多個(gè)處理器(核),7.1 引言,串行/并行程序都可以在串行/并行處理器上運(yùn)行挑戰(zhàn):如何更加有效地使用并行處理器并行編程應(yīng)顯著提高程序的執(zhí)行性(否則還不如用一個(gè)快一點(diǎn)的單處理器,因?yàn)檫@樣更容易)面臨的困難:調(diào)度、負(fù)載均衡、同步和通信開銷,7.2 創(chuàng)建并行處理程序的難點(diǎn),程序執(zhí)行的串行部分限制了加速比的提升。,Amdahl定理,Example:要在100個(gè)處理器

3、上獲得加速比90,試計(jì)算順序執(zhí)行部分應(yīng)是多少?,Amdahl定理,Fp = 0.999,∴順序執(zhí)行部分不能超過0.1%。,問題規(guī)模,工作負(fù)載:,10個(gè)標(biāo)量求和,10×10二維矩陣求和,,加速比= 𝟏𝟏𝟎 𝟐𝟎 =𝟓.𝟓,達(dá)到潛能的55%,問題規(guī)模,100個(gè)處理器:,𝑻=𝟏⼮

4、2; 𝒕 𝒂𝒅𝒅 + 𝟏𝟎𝟎 𝟏𝟎𝟎 × 𝒕 𝒂𝒅𝒅 = 𝟏𝟏𝒕 𝒂𝒅𝒅,加速比= 𝟏

5、0783;𝟎 𝟏𝟏 =𝟏𝟎,達(dá)到潛能的10%,問題規(guī)模,加速比= 𝟏𝟎𝟎𝟏𝟎 𝟏𝟎𝟏𝟎 =𝟗.𝟗,達(dá)到潛能的99%,100個(gè)處理器:,𝑻=𝟏ҷ

6、82; 𝒕 𝒂𝒅𝒅 + 𝟏𝟎𝟎𝟎𝟎 𝟏𝟎𝟎 × 𝒕 𝒂𝒅𝒅 = 𝟏𝟏𝟎𝒕 𝒂𝒅

7、𝒅,加速比= 𝟏𝟎𝟎𝟏𝟎 𝟏𝟏𝟎 =𝟗𝟏,達(dá)到潛能的91%,強(qiáng)比例與弱比例縮放,強(qiáng)比例縮放:?jiǎn)栴}規(guī)模不變。如前面的例子所示 弱比例縮放:?jiǎn)栴}規(guī)模隨處理器數(shù)量比例變化。10個(gè)處理器,10×10二維矩陣求和 T = 20tadd100個(gè)

8、處理器,32×32二維矩陣求和 T = 10tadd + (32×32 /100)tadd= 20tadd,思考題:,,排隊(duì)5分鐘,1分鐘,7.3 共享存儲(chǔ)多處理器,共享存儲(chǔ)多處理器 SMP - Shared Memory Multiprocessor由硬件為所有的處理器提供單一的物理地址空間以塊為單位同步共享變量存儲(chǔ)器訪問時(shí)間統(tǒng)一存儲(chǔ)訪問(UMA):訪存時(shí)間大致相同非統(tǒng)一存儲(chǔ)訪問(NUMA

9、):某些存儲(chǔ)訪問更快,共享存儲(chǔ)多處理器的典型組成,互連網(wǎng)絡(luò),存儲(chǔ)器,I/O,…,…,處理器間的消息傳遞機(jī)制,每個(gè)處理器都有自己的私有物理地址空間由硬件負(fù)責(zé)在處理器間的通信,affordable,松散耦合,獨(dú)立的計(jì)算機(jī)通過網(wǎng)絡(luò)連接每個(gè)計(jì)算機(jī)都有自己的內(nèi)存和OS通過I/O系統(tǒng)連接(域局網(wǎng)、交換機(jī)、互聯(lián)網(wǎng))適合具有獨(dú)立任務(wù)的應(yīng)用Web服務(wù)器、數(shù)據(jù)庫、仿真具有高適應(yīng)性、擴(kuò)展性、成本低,松散耦合,主要問題管理開銷(主要是虛擬機(jī))連

10、接帶寬低,指令和數(shù)據(jù)流,分類方式,SPMD:?jiǎn)纬绦蚨鄶?shù)據(jù)一個(gè)并行程序運(yùn)行在MIMD計(jì)算機(jī)上條件語句控制在不同處理器執(zhí)行不同代碼,SIMD – 單指令流多數(shù)據(jù)流,所有的處理器在同一時(shí)間執(zhí)行相同指令每個(gè)處理器訪問的數(shù)據(jù)不同同步機(jī)制簡(jiǎn)單簡(jiǎn)化指令控制硬件最適于高數(shù)據(jù)并行應(yīng)用,向量處理器,高度流水線的功能單元數(shù)據(jù)流←→向量寄存器→處理單元數(shù)據(jù)←寄存器←存儲(chǔ)器結(jié)果→寄存器→存儲(chǔ)器例如:MIPS指令集體系結(jié)構(gòu)向量擴(kuò)展增加向量指令

11、和向量寄存器可減少取指帶寬的要求,向量與標(biāo)量的對(duì)比,向量體系結(jié)構(gòu)和編譯器簡(jiǎn)單的數(shù)據(jù)并行編程明確的無循環(huán)間相關(guān)減少了硬件的檢測(cè)通過避免循環(huán),從而控制上的冒險(xiǎn)比自媒體擴(kuò)展(如:MMX、SSE)更通用與編譯技術(shù)配合更好,GPU的歷史,早期的視頻卡以幀為單位的顯示緩存3D圖形處理最初用在高端計(jì)算機(jī)上摩爾定律 ?低費(fèi)用、高密度3D圖形卡用于普通PC機(jī)和游戲終端,GPU的歷史,圖形處理單元面向3D圖形處理的處理器頂點(diǎn)/像

12、素的處理、渲染、紋理映射、光柵化處理等,計(jì)算機(jī)中的圖形系統(tǒng),計(jì)算機(jī)中的圖形系統(tǒng),計(jì)算機(jī)中的圖形系統(tǒng),GPU的體系結(jié)構(gòu),高度數(shù)據(jù)并行處理GPU是高度多線程結(jié)構(gòu)使用線程開關(guān)來隱藏存儲(chǔ)器的延時(shí)顯示緩存數(shù)據(jù)寬度大、傳輸速率高發(fā)展趨勢(shì):通用GPU多種型式的CPU/GPU系統(tǒng)CPU于用于順序代碼的執(zhí)行,GPU用于并行代碼的執(zhí)行,GPU的體系結(jié)構(gòu),編程語言/APIDirectX、OpenGLC For Graphics(Cg)、HLS

13、LCUDA(Compute Unified Device Architecture),NVIDIA Tesla,8 × 流處理器,,NVIDIA Tesla,流處理器SP單精度浮點(diǎn)運(yùn)算和整數(shù)運(yùn)算每個(gè)SP都是細(xì)粒度多線程Warp:32個(gè)線程一組以SIMD型式并行執(zhí)行:8(SP)×4時(shí)鐘周期硬件支持24個(gè)Warp,7.8 多處理器的網(wǎng)絡(luò)拓?fù)浜?jiǎn)介,總線型,環(huán)型,全互連型,7.8 多處理器的網(wǎng)絡(luò)拓?fù)浜?jiǎn)介,2D網(wǎng)格

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論