Detaljer om NVIDIA Ada Lovelace Gaming GPU som kommer att driva GeForce RTX 40-seriens grafikkort har avslöjats. Den nya informationen kommer från Kopte7kimi & pratar om blockschemat för nästa generations arkitektur.
NVIDIA GeForce Ada Lovelace GPU SM Blockdiagram Detaljerat: Större och bättre än någonsin för spelare!
NVIDIA Ada Lovelace GPU-arkitekturen är inget mysterium längre. Vi har lärt oss de specifika konfigurationerna som kommer att driva nästa Gen AD10*-serie SKU:er för GeForce RTX 40-seriens grafikkort och vi har också sett läckta specifikationer för sortimentet. Nu är det dags att bara prata om nästa generations grafikchip.
NVIDIA AD102 ‘Ada Lovelace’ Gaming GPU ‘SM’ blockdiagram (Bildkrediter: Kopite7kimi):
NVIDIA GA102 ‘Ampere’ Gaming GPU ‘SM’ Blockdiagram:
Från och med GPU-konfigurationen jämför Kopite7kimi den bästa AD102 GPU:n med olika andra GPU:er från det gröna laget. Dessa inkluderar den spelfokuserade Ampere GA102 och Turing TU102 medan det också finns den HPC-fokuserade Hopper GH100 och Ampere GA100 till listan. Jag ska bara jämföra AD102 med sina spelföregångare eftersom de HPC-fokuserade designerna skiljer sig mycket från konsumentcentrerade erbjudanden.
NVIDIA Ada Lovelace AD102 GPU kommer att ha upp till 12 GPC (Graphics Processing Clusters). Detta är en ökning med 70 % jämfört med GA102 som bara har 7 GPC. Varje GPU kommer att bestå av 6 TPC:er och 2 SM:er vilket är samma konfiguration som det befintliga chippet. Varje SM (Streaming Multiprocessor) kommer att rymma fyra underkärnor som också är samma som GA102 GPU. Det som har ändrats är FP32- och INT32-kärnkonfigurationen. Varje underkärna kommer att innehålla 128 FP32-enheter men kombinerade FP32+INT32-enheter kommer att gå upp till 192. Detta beror på att FP32-enheterna inte delar samma underkärna som IN32-enheterna. De 128 FP32-kärnorna är separata från de 64 INT32-kärnorna.
Så totalt kommer varje underkärna att bestå av 128 FP32 plus 64 INT32-enheter för totalt 192 enheter. Varje SM kommer att ha totalt 512 FP32-enheter plus 256 INT32-enheter för totalt 768 enheter. Och eftersom det finns totalt 24 SM-enheter (2 per GPC) tittar vi på 12 288 FP32-enheter och 6 144 INT32-enheter för totalt 18 432 kärnor. Varje SM kommer också att innehålla två Wrap-scheman (32 trådar/CLK) för 64 wraps per SM. Detta är en ökning med 50 % på kärnorna (FP32+INT32) och en ökning på 33 % i Wraps/Threads jämfört med GA102 GPU.
NVIDIA Ada Lovelace GPU-specifikationer “preliminära”:
GPU-namn | AD102 | GA102 | TU102 | GA100 | GH100 |
---|---|---|---|---|---|
GPC | 12 (per GPU) | 1,7x | 2x | 1,5x | 1,5x |
TPC | 6 (per GPC) | Samma | Samma | 0,75x | 0,67x |
SM | 2 (per TPC) | Samma | Samma | Samma | Samma |
Sub-Core | 4 (per SM) | Samma | Samma | Samma | Samma |
FP32 | 128 (per SM) | Samma | 2x | 2x | Samma |
FP32+INT32 | 192 (per SM) | 1,5x | 1,5x | 1,5x | Samma |
Varpar | 64 (per SM) | 1,33x | 2x | Samma | Samma |
Trådar | 2048 (per SM) | 1,33x | 2x | Samma | Samma |
L1-cache | 192 KB (per SM) | 1,5x | 2x | Samma | 0,75x |
L2-cache | 96 MB (per GPU) | 16x | 16x | 2,4x | 1,6x |
ROPs | 32 (per GPC) | 2x | 2x | 2x | 2x |
När man flyttar över till cachen är detta ytterligare ett segment där NVIDIA har gett ett stort lyft jämfört med de befintliga Ampere GPU:erna. Ada Lovelace GPU:erna kommer att packa 192 KB L1-cache per SM, en ökning med 50 % jämfört med Ampere. Det är totalt 4,5 MB L1-cache på den översta AD102 GPU:n. L2-cachen kommer att utökas till 96 MB som nämnts i läckorna. Detta är en ökning med 16 gånger jämfört med Ampere GPU som är värd för bara 6 MB L2-cache. Cachen kommer att delas över GPU:n.
Slutligen har vi ROP som också höjs till 32 per GPC, en ökning med 2x över Ampere. Du tittar på upp till 384 ROPs på nästa generations flaggskepp jämfört med bara 112 på den snabbaste Ampere GPU:n RTX 3090 Ti. Det kommer också att finnas den senaste 4:e generationens Tensor och 3:e generationens RT (Raytracing) kärnor infunderade på Ada Lovelace GPU:er som kommer att hjälpa till att höja DLSS & Raytracing prestanda till nästa nivå. Sammantaget kommer Ada Lovelace AD102 GPU att erbjuda:
- 2x GPC (versus Ampere)
- 50 % fler kärnor (versus ampere)
- 50 % mer L1-cache (versus ampere)
- 16x mer L2-cache (versus ampere)
- Double The ROPs (versus Ampere)
- 4th Gen Tensor & 3rd Gen RT Cores
Observera att klockhastigheter, som sägs ligga mellan 2-3 GHz-intervallet, inte tas med i ekvationen så de kommer också att spela en viktig roll för att förbättra prestanda per kärna jämfört med Ampere. NVIDIA GeForce RTX 40-seriens grafikkort med nästa generations Ada Lovelace gaming GPU förväntas lanseras under andra halvan av 2022 och sägs använda samma TSMC 4N-processnod som Hopper H100 GPU.
NVIDIA CUDA GPU (RYKTADE) Preliminär:
GPU | TU102 | GA102 | AD102 |
---|---|---|---|
Flaggskepps-SKU | RTX 2080 Ti | RTX 3090 Ti | RTX 4090? |
Arkitektur | Turing | Ampere | Ada Lovelace |
Bearbeta | TSMC 12nm NFF | Samsung 8nm | TSMC 4N? |
Dies storlek | 754 mm2 | 628 mm2 | ~600mm2 |
Graphics Processing Clusters (GPC) | 6 | 7 | 12 |
Texture Processing Clusters (TPC) | 36 | 42 | 72 |
Strömmande multiprocessorer (SM) | 72 | 84 | 144 |
CUDA kärnor | 4608 | 10752 | 18432 |
L2-cache | 6 MB | 6 MB | 96 MB |
Teoretiska TFLOPs | 16 TFLOPs | 40 TFLOP:s | ~90 TFLOPs? |
Minnestyp | GDDR6 | GDDR6X | GDDR6X |
Minneskapacitet | 11 GB (2080 Ti) | 24 GB (3090 Ti) | 24 GB (4090?) |
Minneshastighet | 14 Gbps | 21 Gbps | 24 Gbps? |
minnesbandbredd | 616 GB/s | 1,008 GB/s | 1152 GB/s? |
Minnesbuss | 384-bitars | 384-bitars | 384-bitars |
PCIe-gränssnitt | PCIe Gen 3.0 | PCIe Gen 4.0 | PCIe Gen 4.0 |
TGP | 250W | 350W | 600W? |
Släpp | september 2018 | 20 september | 2H 2022 (TBC) |