<abbr id="ryxv5"><label id="ryxv5"></label></abbr>
        <menu id="ryxv5"></menu>
      1. 一区二区亚洲人妻精品,成人拍拍拍无遮挡免费视频,国产午夜亚洲精品国产成人,国产精品中文字幕二区,深夜福利资源在线观看,午夜av高清在线观看,国产精品无码a∨麻豆,精品国产高清中文字幕

        舊聞新看:一文看懂算力核心HBM的技術(shù)特點

        2025-01-02 15:14:00 LH 601
        英偉達最新推出的NVIDIA HGX? H200,該平臺基于NVIDIA Hopper架構(gòu),是首款提供HBM3e內(nèi)存(速率更快、容量更大)的GPU,以加速生成式AI和大語言模型,同時推進HPC工作負載的科學計算。
        不僅如此,英偉達計劃2024年推出Blackwell架構(gòu)B100 GPU。分析師預期,從B100架構(gòu)開始,英偉達將采用Chiplet技術(shù),對臺積電先進封裝將采用CoWoS-L技術(shù)。且不止一家機構(gòu)評估顯示,B100架構(gòu)可能采用臺積電4nm制程,或?qū)⒉捎媒Y(jié)合2顆GPU晶粒(Die)和8顆HBM。此外,CoWoS-L封裝在硅中介層加進主動元件LSI層,提升芯片設(shè)計及封裝彈性,可支援更多顆HBM堆疊
        圖片
        之前英偉達的HBM一直由SK海力士獨家供應,由于需求極為龐大,三星據(jù)稱也已通過質(zhì)量評估,即將加入供應商隊列。日前已有消息稱,三星電子計劃從明年1月開始向英偉達供應HBM3。
        擴產(chǎn)風潮席卷HBM領(lǐng)域。由于AI芯片飛速發(fā)展,HBM需求水漲船高,存儲三大巨頭都在爭相推進HBM生產(chǎn)/擴產(chǎn)。
        其中,三星、SK海力士據(jù)悉正計劃將HBM產(chǎn)量提高至2.5倍
        前者為擴大HBM產(chǎn)能,之前已收購三星顯示(Samsung Display)天安廠區(qū)內(nèi)部分建筑及設(shè)備,其計劃在天安廠建立一條新封裝線,用于大規(guī)模生產(chǎn)HBM。公司已花費105億韓元購買上述建筑和設(shè)備等,預計追加投資7000億-1萬億韓元
        后者則在本周透露,預計到2030年公司HBM出貨量將達到每年1億顆。同時其更打響了存儲行業(yè)資本開支上調(diào)“第一槍”,決定在2024年預留約10萬億韓元(約合76億美元)的設(shè)施資本支出——相較今年6萬億-7萬億韓元的預計設(shè)施投資相比,增幅高達43%-67%,這一數(shù)字也超出市場預期。
        擴大的投資將聚焦于兩項內(nèi)容:一是為高附加值DRAM芯片擴建設(shè)施,包括HBM3、DDR5及LPDDR5;二是升級HBM的TSV(硅通孔)先進封裝技術(shù)。
        值得注意的是,雖說在“擴產(chǎn)至2.5倍”的報道中,韓媒并未言明具體時間點,但這一擴產(chǎn)倍數(shù)已高于數(shù)月前報道中的“產(chǎn)能提高一倍”。
        至于另一巨頭美光,將在2024年推出8層堆疊的AI和數(shù)據(jù)中心專用HBM3E內(nèi)存;將于2024年底到2025年年初推出12層堆疊的HBM3E 。

        DDR,GDDR,HBM的進化和區(qū)別

        DDR就是雙倍速率。


        以1600MHz的內(nèi)存條為例,X64的位寬,帶寬就是:

        1600MHz*2倍速率*64bit/8/1000=3.2*8=25.6GB/s;

        以8Channel的Intel ICX處理器為例,帶寬可以達到8*25.6GB/s=204.8GB/s;

        以8Channel的AMD ROME處理器為例,帶寬可以達到8*25.6GB/s=204.8GB/s。

        以1333MHz的內(nèi)存條為例,X64的位寬,帶寬就是:

        1333*2倍速率*64bit/8/1000=2.666*8=21.328GB/s;

        6Channel的Intel SKL處理器為例,帶寬可以達到6*21.328GB/s=127.968GB/s。

        圖片

        GDDR可以做到四倍速率。

        以1750MHz的內(nèi)存為例,單個顆粒X64的位寬,帶寬就是:1750MHz*4倍速率*64bit/8/1000=7*8=56GB/s;

        以Nvidia Geforce GTX 1080 Ti為例,使用了11GB的GDDR5X,內(nèi)存時鐘是2750MHz,4倍頻,內(nèi)存頻率是11GHz,內(nèi)存位寬是X352bit,那么內(nèi)存帶寬為:2750MHz*4倍速率*352bit/8/1000=484GB/s;

        以Nvidia Geforce RTX 2080 Ti為例,使用了11GB的GDDR6,內(nèi)存時鐘是3500MHz,4倍頻,內(nèi)存頻率是14GHz,內(nèi)存位寬是X352bit,那么內(nèi)存帶寬為:3500MHz*4倍速率*352bit/8/1000=616GB/s;

        圖片

        圖片

        優(yōu)點是帶寬比較高,功耗比較低。

        缺點是,適合并發(fā),不適合隨機訪問;時序復雜,工藝要求高;不適合配合CPU的Cache line的讀取。

        圖片

        HBM雙倍速率,但是堆疊提高位寬。

        2013年是HBM,2016年是HBM2,優(yōu)勢在堆疊,通過TSV和基底通信,每個die有2個128bit位寬的Channel,4層堆疊叫做4-Hi,帶寬可以達到4*2*128=1024bit。

        HBM以500MHz的內(nèi)存為例,單個顆粒的帶寬可達到:500Mhz*2倍頻*2Channel*128bit*4Die/8/1000=1GHz*1024bit/8=128GB/s;

        HBM2時鐘加倍,以500MHz的內(nèi)存為例,單個顆粒的帶寬可以達到2*128GB/s=256GB/s。

        以Nvidia Tesla V100S為例(GPU和HBM之間使用硅中介進行2.5D的封裝)。

        圖片

        應當是使用了4顆,帶寬為:1107MHz*2倍頻*4096bit/8/100=1113.568GB/s,HBM的優(yōu)勢封裝比較小,堆疊設(shè)計缺點是TSV工藝造成成本比較高。

        圖片

        HBM(High Bandwidth Memory)和DDR一樣都是一種硬件存儲介質(zhì)。DDR被廣泛應用于CPU與各種硬件處理單元的外掛存儲設(shè)備,那么既然DDR4已經(jīng)作為成熟存儲介質(zhì),為什么要推出HBM存儲設(shè)備?主要原因在于DDR4現(xiàn)有吞吐能力不能滿足當今計算需求,尤其是在AI計算、區(qū)塊鏈和數(shù)字貨幣挖礦等對大數(shù)據(jù)處理訪存需求極高等領(lǐng)域,DDR4的吞吐能力更顯薄弱。

        所以,HBM以其高吞吐高帶寬的優(yōu)勢,活躍在工業(yè)界和學術(shù)界。比如在學術(shù)領(lǐng)域,尤其在DSA(Domain Specific Acceleration)場景,如果能將embedding數(shù)據(jù)合理分配到32路HBM當中,同時做到系統(tǒng)級pipeline數(shù)據(jù)訪存和計算,那么都會有比較優(yōu)秀的加速效果。


        HBM帶寬

        我們一直在講HBM帶寬比DDR有優(yōu)勢,那么具體是什么優(yōu)勢?

        DDR4帶寬——ddr4數(shù)據(jù)位寬是64bit,以時鐘頻率2400MHz為例,那么帶寬為:2400M*64 =153.6Gbps。

        HBM帶寬——HBM應用axi3協(xié)議,數(shù)據(jù)位寬為256bit,時鐘頻率可達450MHz,數(shù)據(jù)通道為32路,那么對于一塊FPGA外掛一個HBM的硬件設(shè)備,其數(shù)據(jù)帶寬為:450M*256*32=460.8Gbps。

        所以,在不考慮CPU和FPGA區(qū)別的前提下,一塊帶HBM的FPGA要比普通CPU服務器性能高上3倍左右,當再考慮CPU cache miss和DDR使用效率的時候,帶有HBM的FPGA所帶來的帶寬增益將會更大。

        但是單塊HBM的內(nèi)存大小一般最大為16GB,而單個DDR4普遍能做到64GB。所以當業(yè)務所需數(shù)據(jù)量較大時,將不再適合只將訪存數(shù)據(jù)存儲在HBM中。


        HBM細節(jié)

        HBM分為2個stack,每個stack有8channel,每個channel可以分為2個偽通道(pseudo channel),那么就一共有32個pseudo channel。HBM存儲大小分為64Gb和128Gb,所以最大為16GB。

        我個人對于HBM的理解,如果在應用層面,可以認為HBM是32個堆疊的DDR,每個DDR應用AXI3總線協(xié)議,使用起來和控制DDR也非常相似。

        圖片

        HBM結(jié)構(gòu)


        HBM的地址空間

        HBM的32個pseudo channel都是使用axi3協(xié)議,所以指令和數(shù)據(jù)的傳輸方式也和DDR相同,本文主要講解一下不同點,也就是HBM的地址空間。

        以4H(內(nèi)存大小64Gb)的HBM為例:

        Bit[32]用于區(qū)分左右stack;

        Bit[31:28]用于選擇每個stack里面16個pseudo channel的哪一個axi總線;

        Bit[27:5]為有效地址部分;

        Bit[4:0]為無用比特位,原因是數(shù)據(jù)位寬為256bit,每次都要最少傳輸256bit,那么就需要32Byte對齊,所以其低5bit永遠為0。


        具體使用方法

        使用過程中用axi3總線協(xié)議,其實可以不完全按照IP手冊中所要求的地址空間進行設(shè)置,上文所述的地址空間更像是只給了整個HBM一個AXI接口,但是Xilinx自己的IP核連接過程中也是用了32個AXI接口(假如用了1個HBM的32個通道)。所以我們在使用過程中,可以直接例化32個AXI總線接口,與32個AXI接口的通道連接,地址空間完全可以只有28比特,也就是6+22,這樣就不需要高5比特的通道選擇比特位了。


        HBM其他特點

        不支持fixed addressing mode(AXI3協(xié)議不支持)。

        fixed的burst模式代表,對同一個地址進行burst讀寫,本人也沒有用過這個場景,并且在axi3中也是不支持的,暫時猜測這種場景可能是,地址用于片選,后面跟著幾個FIFO,然后burst傳輸給對應片選的FIFO數(shù)據(jù)。

        burstlength位寬為4比特,最大為16。

        HBM每一個原始的channel時鐘頻率是900MHz,但是卻把每一個channel拆分成兩個pseudo channel,時鐘降頻為450MHz。這樣做對于HBM端口的吞吐量沒有變化,但是接口時鐘降低了一半,這樣做更有利于后續(xù)FPGA處理和計算,防止timing問題導致不能應用900MHz的時鐘頻率。那么后續(xù)我們在使用過程中,也可以將256bit數(shù)據(jù)合為512bit,這樣可以將數(shù)據(jù)頻率再降低一半, 也是一種適配計算頻率不高場景的方法。


        來  源 | 網(wǎng)絡(luò)綜合


        量伙公眾號

        量伙百家號

        主站蜘蛛池模板: 欧美日韩v| 中文字幕亚洲综合第一页| 国产中文字幕精品视频| 日韩人妻av一区二区三区| 国产成人亚洲欧美二区综合| 亚洲欧美日韩愉拍自拍| 免费无码va一区二区三区| 日本一区二区精品色超碰| 亚洲精品无amm毛片| 国产私拍福利精品视频| 午夜精品福利亚洲国产| 国产在线一区二区不卡| 永久不封国产av毛片| 在线中文一区字幕对白| 特克斯县| 精品偷拍一区二区三区在| 99热国产这里只有精品9| 小污女小欲女导航| 最近中文字幕完整版2019| 亚洲另类丝袜综合网| 蓬溪县| 日韩国产成人精品视频| 亚洲人成网线在线播放VA| 久久久久人妻一区二区三区| 色天使亚洲综合一区二区| 亚洲一区二区中文字幕| 成人免费区一区二区三区| 无码伊人66久久大杳蕉网站谷歌| 亚洲一区二区三成人精品| 亚欧美闷骚院| 亚洲少妇一区二区三区老| 国产免费高清69式视频在线观看| 欧美午夜精品久久久久久浪潮| 国产视色精品亚洲一区二区| 亚洲乱理伦片在线观看中字| 色噜噜亚洲男人的天堂| 亚洲国产精品综合久久网络| 人妻体体内射精一区二区| 中文字幕av无码免费一区| 精品日韩人妻中文字幕| 在线高清免费不卡全码|