Dubbla ROPs, enorm L2-cache och 50 % fler FP32-enheter än ampere, 4:e generationens tensor & 3:e generationens RT-kärnor

Dubbla ROPs, enorm L2-cache och 50 % fler FP32-enheter än ampere, 4:e generationens tensor & 3:e generationens RT-kärnor


Detaljer om NVIDIA Ada Lovelace Gaming GPU som kommer att driva GeForce RTX 40-seriens grafikkort har avslöjats. Den nya informationen kommer från Kopte7kimi & pratar om blockschemat för nästa generations arkitektur.

NVIDIA GeForce Ada Lovelace GPU SM Blockdiagram Detaljerat: Större och bättre än någonsin för spelare!

NVIDIA Ada Lovelace GPU-arkitekturen är inget mysterium längre. Vi har lärt oss de specifika konfigurationerna som kommer att driva nästa Gen AD10*-serie SKU:er för GeForce RTX 40-seriens grafikkort och vi har också sett läckta specifikationer för sortimentet. Nu är det dags att bara prata om nästa generations grafikchip.

NVIDIA GeForce RTX 4090 får 24 GB GDDR6X-minne vid 21 Gbps & 600W TDP, RTX 4070 får 12 GB GDDR6-minne vid 18 Gbps och 300W TDP

NVIDIA AD102 ‘Ada Lovelace’ Gaming GPU ‘SM’ blockdiagram (Bildkrediter: Kopite7kimi):

NVIDIA GA102 ‘Ampere’ Gaming GPU ‘SM’ Blockdiagram:

Från och med GPU-konfigurationen jämför Kopite7kimi den bästa AD102 GPU:n med olika andra GPU:er från det gröna laget. Dessa inkluderar den spelfokuserade Ampere GA102 och Turing TU102 medan det också finns den HPC-fokuserade Hopper GH100 och Ampere GA100 till listan. Jag ska bara jämföra AD102 med sina spelföregångare eftersom de HPC-fokuserade designerna skiljer sig mycket från konsumentcentrerade erbjudanden.

NVIDIA & AMD GPU-prisuppdatering för maj 2022: GeForce grafikkort nu 14 % över MSRP, Radeon på bara 6 % över MSRP

NVIDIA Ada Lovelace AD102 GPU kommer att ha upp till 12 GPC (Graphics Processing Clusters). Detta är en ökning med 70 % jämfört med GA102 som bara har 7 GPC. Varje GPU kommer att bestå av 6 TPC:er och 2 SM:er vilket är samma konfiguration som det befintliga chippet. Varje SM (Streaming Multiprocessor) kommer att rymma fyra underkärnor som också är samma som GA102 GPU. Det som har ändrats är FP32- och INT32-kärnkonfigurationen. Varje underkärna kommer att innehålla 128 FP32-enheter men kombinerade FP32+INT32-enheter kommer att gå upp till 192. Detta beror på att FP32-enheterna inte delar samma underkärna som IN32-enheterna. De 128 FP32-kärnorna är separata från de 64 INT32-kärnorna.

Så totalt kommer varje underkärna att bestå av 128 FP32 plus 64 INT32-enheter för totalt 192 enheter. Varje SM kommer att ha totalt 512 FP32-enheter plus 256 INT32-enheter för totalt 768 enheter. Och eftersom det finns totalt 24 SM-enheter (2 per GPC) tittar vi på 12 288 FP32-enheter och 6 144 INT32-enheter för totalt 18 432 kärnor. Varje SM kommer också att innehålla två Wrap-scheman (32 trådar/CLK) för 64 wraps per SM. Detta är en ökning med 50 % på kärnorna (FP32+INT32) och en ökning på 33 % i Wraps/Threads jämfört med GA102 GPU.

NVIDIA Ada Lovelace GPU-specifikationer “preliminära”:

GPU-namn AD102 GA102 TU102 GA100 GH100
GPC 12 (per GPU) 1,7x 2x 1,5x 1,5x
TPC 6 (per GPC) Samma Samma 0,75x 0,67x
SM 2 (per TPC) Samma Samma Samma Samma
Sub-Core 4 (per SM) Samma Samma Samma Samma
FP32 128 (per SM) Samma 2x 2x Samma
FP32+INT32 192 (per SM) 1,5x 1,5x 1,5x Samma
Varpar 64 (per SM) 1,33x 2x Samma Samma
Trådar 2048 (per SM) 1,33x 2x Samma Samma
L1-cache 192 KB (per SM) 1,5x 2x Samma 0,75x
L2-cache 96 MB (per GPU) 16x 16x 2,4x 1,6x
ROPs 32 (per GPC) 2x 2x 2x 2x

När man flyttar över till cachen är detta ytterligare ett segment där NVIDIA har gett ett stort lyft jämfört med de befintliga Ampere GPU:erna. Ada Lovelace GPU:erna kommer att packa 192 KB L1-cache per SM, en ökning med 50 % jämfört med Ampere. Det är totalt 4,5 MB L1-cache på den översta AD102 GPU:n. L2-cachen kommer att utökas till 96 MB som nämnts i läckorna. Detta är en ökning med 16 gånger jämfört med Ampere GPU som är värd för bara 6 MB L2-cache. Cachen kommer att delas över GPU:n.

Slutligen har vi ROP som också höjs till 32 per GPC, en ökning med 2x över Ampere. Du tittar på upp till 384 ROPs på nästa generations flaggskepp jämfört med bara 112 på den snabbaste Ampere GPU:n RTX 3090 Ti. Det kommer också att finnas den senaste 4:e generationens Tensor och 3:e generationens RT (Raytracing) kärnor infunderade på Ada Lovelace GPU:er som kommer att hjälpa till att höja DLSS & Raytracing prestanda till nästa nivå. Sammantaget kommer Ada Lovelace AD102 GPU att erbjuda:

  • 2x GPC (versus Ampere)
  • 50 % fler kärnor (versus ampere)
  • 50 % mer L1-cache (versus ampere)
  • 16x mer L2-cache (versus ampere)
  • Double The ROPs (versus Ampere)
  • 4th Gen Tensor & 3rd Gen RT Cores

Observera att klockhastigheter, som sägs ligga mellan 2-3 GHz-intervallet, inte tas med i ekvationen så de kommer också att spela en viktig roll för att förbättra prestanda per kärna jämfört med Ampere. NVIDIA GeForce RTX 40-seriens grafikkort med nästa generations Ada Lovelace gaming GPU förväntas lanseras under andra halvan av 2022 och sägs använda samma TSMC 4N-processnod som Hopper H100 GPU.

NVIDIA CUDA GPU (RYKTADE) Preliminär:

GPU TU102 GA102 AD102
Flaggskepps-SKU RTX 2080 Ti RTX 3090 Ti RTX 4090?
Arkitektur Turing Ampere Ada Lovelace
Bearbeta TSMC 12nm NFF Samsung 8nm TSMC 4N?
Dies storlek 754 mm2 628 mm2 ~600mm2
Graphics Processing Clusters (GPC) 6 7 12
Texture Processing Clusters (TPC) 36 42 72
Strömmande multiprocessorer (SM) 72 84 144
CUDA kärnor 4608 10752 18432
L2-cache 6 MB 6 MB 96 MB
Teoretiska TFLOPs 16 TFLOPs 40 TFLOP:s ~90 TFLOPs?
Minnestyp GDDR6 GDDR6X GDDR6X
Minneskapacitet 11 GB (2080 Ti) 24 GB (3090 Ti) 24 GB (4090?)
Minneshastighet 14 Gbps 21 Gbps 24 Gbps?
minnesbandbredd 616 GB/s 1,008 GB/s 1152 GB/s?
Minnesbuss 384-bitars 384-bitars 384-bitars
PCIe-gränssnitt PCIe Gen 3.0 PCIe Gen 4.0 PCIe Gen 4.0
TGP 250W 350W 600W?
Släpp september 2018 20 september 2H 2022 (TBC)



Leave a Reply

Your email address will not be published. Required fields are marked *