網(wǎng)站制作NEWS
Domain-Specific Architectures(DSA)
在半導(dǎo)體行業(yè)的黃金時代,架構(gòu)師們借助摩爾定律的東風,設(shè)計出能夠?qū)⒑A烤w管轉(zhuǎn)化為卓越性能的創(chuàng)新機制。例如,五級流水線的32位RISC處理器,在1980年代僅需25,000個晶體管,而如今,為了實現(xiàn)加速通用處理器上通用代碼執(zhí)行的功能,其所需的資源增加了十萬倍。這些功能包括:針對那些用C++等高效語言編寫的、規(guī)模龐大的百萬行代碼程序的尖端架構(gòu)設(shè)計,架構(gòu)師們通常將這些代碼視為黑箱,普遍缺乏對其內(nèi)部結(jié)構(gòu)或?qū)嶋H功能的理解。SPEC2017等基準測試程序,僅僅是用于評估和提升性能的工具。編譯器開發(fā)者作為硬件與軟件接口的關(guān)鍵角色,其起源于1980年代的RISC革命,但他們對高級應(yīng)用程序的行為理解有限,這也是為什么編譯器難以在C或C++與GPU架構(gòu)之間架起語義橋梁的原因。
當前更多晶體管的切換直接導(dǎo)致了功耗的增加。在能量預(yù)算保持不變的情況下,我們已經(jīng)通過多個高能效核心取代了單一的低效處理器。面對這種情況,我們似乎已經(jīng)用盡了所有手段,難以在通用計算架構(gòu)的成本效益和能源效率上實現(xiàn)進一步的顯著提升。鑒于能量預(yù)算受到限制——這主要是由于芯片的電遷移、機械和熱力學(xué)極限——如果我們追求更高的性能(即每秒更多的操作次數(shù)),就必須降低每次操作所需的能量消耗。圖2是內(nèi)存和邏輯相對能耗的一種解讀方式,這是按算術(shù)指令的開銷來計算的。考慮到這種開銷,對現(xiàn)有核心的微小調(diào)整可能會帶來10%的性能提升,但如果我們想要在保持可編程性的同時實現(xiàn)數(shù)量級的性能提升,我們需要將每條指令的算術(shù)運算次數(shù)從一次增加到數(shù)百次。為了達到這種效率水平,我們需要從通用核心架構(gòu)進行根本性的改變,轉(zhuǎn)向特定領(lǐng)域架構(gòu)(DSAs)。
因此,就像過去十年由于需求而從單核處理器轉(zhuǎn)向多核處理器一樣,迫切的需要是現(xiàn)在架構(gòu)師致力于DSA的原因。新的常態(tài)是,計算機將由運行傳統(tǒng)大型程序(如操作系統(tǒng))的標準處理器和僅執(zhí)行狹窄任務(wù)范圍但執(zhí)行得非常好的特定領(lǐng)域處理器組成。因此,這樣的計算機將比過去同質(zhì)的多核芯片更加異構(gòu)化。部分論點認為,過去幾十年利用摩爾定律的架構(gòu)創(chuàng)新(如緩存、亂序執(zhí)行等)可能與某些領(lǐng)域不匹配——特別是在能耗方面——因此它們的資源可以被回收,以使芯片更好地適應(yīng)該領(lǐng)域。例如,緩存對于通用架構(gòu)來說非常出色,但對于DSA來說并非必然;對于具有容易預(yù)測的內(nèi)存訪問模式或像視頻這樣具有大量數(shù)據(jù)集且數(shù)據(jù)重用率低的應(yīng)用程序,多級緩存是過度設(shè)計,占用了本可以更好利用的區(qū)域和能量。因此,DSA的承諾是提高硅片效率和更好的能效,后者通常是今天更重要的屬性。
架構(gòu)師可能不會為像SPEC2017基準測試中那樣的大型C++程序(如編譯器)創(chuàng)建DSA。特定領(lǐng)域的算法幾乎總是針對更大系統(tǒng)中的小型計算密集型核心,例如用于對象識別或語音理解。DSA應(yīng)該專注于子集,而不是計劃運行整個程序。此外,改變基準代碼不再違反規(guī)則;對于DSA來說,它是加速的一個完全有效的來源。因此,如果他們要做出有用的貢獻,對DSA感興趣的架構(gòu)師現(xiàn)在必須擺脫他們的局限性,學(xué)習(xí)應(yīng)用領(lǐng)域和算法。除了需要擴大他們的專業(yè)知識領(lǐng)域外,特定領(lǐng)域架構(gòu)師面臨的挑戰(zhàn)是找到一個需求足夠大的目標,以證明在SoC上甚至在定制芯片上分配專用硅片的合理性。定制芯片和支持軟件的(NRE)是按制造的芯片數(shù)量攤銷的,所以如果你只需要1000個芯片,這在經(jīng)濟上是不合理的。
適應(yīng)小批量應(yīng)用的一種方法是使用可重配置芯片,如FPGA,因為它們比定制芯片的NRE更低,而且?guī)讉€不同的應(yīng)用程序可能能夠重用相同的可重配置硬件來攤銷其成本。然而,由于硬件的效率低于定制芯片,F(xiàn)PGA的收益更為有限。另一個DSA挑戰(zhàn)是如何將軟件移植到它上面。熟悉的編程環(huán)境,如C++編程語言和編譯器,很少是DSA的正確工具。
以下是五個原則,它們通常指導(dǎo)特定領(lǐng)域架構(gòu)(DSA)的設(shè)計。這五個指導(dǎo)原則不僅能夠提高面積和能效,它們還提供了兩個寶貴的額外效果。首先,它們導(dǎo)致設(shè)計更為簡化,這降低了DSA的(NRE)成本。其次,對于與DSA常見的用戶面向應(yīng)用而言,遵循這些原則的加速器比傳統(tǒng)處理器的時間變化性能優(yōu)化更能適應(yīng)99%響應(yīng)時間期限。圖3展示了這四種DSA是如何遵循這些指導(dǎo)原則的。
1. 使用專用存儲器以最小化數(shù)據(jù)移動距離。通用微處理器中的多級緩存使用大量區(qū)域和能量來嘗試為程序最優(yōu)地移動數(shù)據(jù)。例如,雙路集合關(guān)聯(lián)緩存消耗的能量是一個等效的軟件控制的暫存存儲器的2.5倍。根據(jù)定義,DSA的編譯器編寫者和程序員理解他們的領(lǐng)域,因此沒有必要讓硬件為他們移動數(shù)據(jù)。相反,通過專為特定領(lǐng)域內(nèi)特定功能定制的軟件控制存儲器來減少數(shù)據(jù)移動。
2. 將放棄高級微架構(gòu)優(yōu)化所節(jié)省的資源投入到更多的算術(shù)單元或更大的存儲器中。架構(gòu)師將摩爾定律的收益轉(zhuǎn)化為CPU和GPU的資源密集型優(yōu)化(亂序執(zhí)行、多線程、多處理、預(yù)取、地址合并等)。鑒于對這些更狹窄領(lǐng)域內(nèi)程序執(zhí)行的更深入了解,這些資源最好用于更多的處理單元或更大的片上存儲器。
3. 使用與領(lǐng)域相匹配的最簡單形式的并行性。DSA的目標領(lǐng)域幾乎總是具有固有的并行性。DSA的關(guān)鍵決策是如何利用這種并行性以及如何將其暴露給軟件。圍繞領(lǐng)域的自然并行粒度設(shè)計DSA,并在編程模型中簡單地暴露這種并行性。例如,關(guān)于數(shù)據(jù)級并行性,如果SIMD在領(lǐng)域內(nèi)有效,對程序員和編譯器編寫者來說肯定比MIMD更容易。同樣,如果VLIW能夠為領(lǐng)域表達指令級并行性,設(shè)計可以比亂序執(zhí)行更小、更節(jié)能。
4. 將數(shù)據(jù)大小和類型簡化為領(lǐng)域所需的最簡形式。正如我們將看到的,許多領(lǐng)域的應(yīng)用程序通常是內(nèi)存受限的,因此通過使用更窄的數(shù)據(jù)類型,您可以增加有效內(nèi)存帶寬和片上存儲器利用率。更窄和更簡單的數(shù)據(jù)還允許您在相同的芯片區(qū)域內(nèi)封裝更多的算術(shù)單元。
5. 使用特定領(lǐng)域的編程語言將代碼移植到DSA。DSA的一個經(jīng)典挑戰(zhàn)是讓應(yīng)用程序在您的新型架構(gòu)上運行。一個長期存在的謬誤是假設(shè)您的新計算機如此吸引人,以至于程序員會僅僅為了您的硬件重寫他們的代碼。幸運的是,即使在架構(gòu)師被迫將注意力轉(zhuǎn)向DSA之前,特定領(lǐng)域的編程語言就已經(jīng)變得流行。例如,Halide用于視覺處理,TensorFlow用于深度神經(jīng)網(wǎng)絡(luò)(DNNs)。這樣的語言使將應(yīng)用程序移植到您的DSA更加可行。如前所述,在某些領(lǐng)域,只有一小部分計算密集型的應(yīng)用程序需要在DSA上運行,也簡化了移植。
Reference from:Computer Architecture A Quantitative Approach Sixth Edition
多重隨機標簽
插畫師有哪些約稿平臺常見的有米畫師插畫中國半次元等 香港中文大學(xué)的具體地址是什么啊 想學(xué)習(xí)互聯(lián)網(wǎng)方面的知識可以去哪里學(xué)習(xí) 電子合同怎么做電子簽名的 潮州華萊士加盟 安卓系統(tǒng)開發(fā)用的是什么語言_安卓手機軟件用什么語言開發(fā) 福建十大城市名片 一張張名片展現(xiàn)八閩大地福建各城市魅力形象 觀瀾有哪些舊改 新鄉(xiāng)市規(guī)劃建設(shè)4條鐵路 三湖慈鯛火麒麟發(fā)黑 中國有哪些重要的國企公司央企公司 1到100的羅馬拼音 裝潢藝術(shù)設(shè)計屬于什么專業(yè) 通化機場會擴建嗎 求張杰好聽的歌曲 南通千諾網(wǎng)絡(luò)科技有限公司怎么樣 有沒有適合梨形微胖女孩的秋冬平價穿搭啊 鑫岳人才網(wǎng)公司簡介 管理類的專業(yè)有哪些 哪有新鄉(xiāng)到東莞的汽車在那個站什么時候走 天昌青山府老板叫什么名字 送給女生的手工禮物 現(xiàn)泉州有多少間新華都 小雅ai圖書館黑屏 北京冬奧會獎牌命名為 徐州華東機械有限公司怎么樣 什么是品牌營銷策劃 gm資源整合平臺是真的嗎 一般納稅人企業(yè)所得稅怎么征收 古松園的古松園的建設(shè)