Blackwell (microarchitecture)

Un article de Wikipédia, l'encyclopédie libre.
NVIDIA Blackwell
Description de l'image Nvidia (logo).svg.
Caractéristiques
Date de sortie 18 mars 2024
Procédé TSMC 4NP
Interfaces supportées
DirectX DirectX 12 Ultimate (12.2)
Direct3D Direct3D 12
OpenCL OpenCL 3.0
OpenGL OpenGL 4.6
Vulkan Vulkan 1.3
CUDA (Compute Capability) 10.x
Historique
Prédécesseur Ada Lovelace (grand public)
Hopper (datacenter)

Blackwell est une microarchitecture de processeur graphique (GPU) développée par Nvidia pour succéder à la microarchitecture Hopper et à la microarchitecture Ada Lovelace.

Nommée d’après le statisticien et mathématicien David Blackwell, l’architecture Blackwell a fait l’objet d’une fuite en 2022 et les GPU B100 et B40 ont été officiellement révélés en octobre 2023 dans une feuille de route officielle de Nvidia lors d’une présentation aux investisseurs de Nvidia[1] et ont été officiellement annoncés lors de la keynote Nvidia GTC 2024 le 18 mars 2024[2].

Histoire[modifier | modifier le code]

David Blackwell (1919-2010), éponyme de l'architecture.

En mars 2022, Nvidia a annoncé l'architecture Hopper destinée au centres de données des accélérateurs d'IA. La demande pour les produits Hopper a été élevée tout au long de l’engouement pour l’IA en 2023[3]. Le délai entre la commande et la livraison des serveurs basés sur H100 était compris entre 36 et 52 semaines en raison des pénuries et de la forte demande[4]. Nvidia aurait vendu 500 000 accélérateurs H100 basés sur Hopper au cours du seul troisième trimestre 2023[4]. La domination de Nvidia sur l’IA avec les produits Hopper a conduit à l'augmentation de la capitalisation boursière de la société à plus de 2 000 milliards de dollars, derrière Microsoft et Apple[5].

L’architecture Blackwell porte le nom du mathématicien américain David Blackwell, connu pour ses contributions aux domaines mathématiques de la théorie des jeux, de la théorie des probabilités, de la théorie de l'information et des statistiques. Blackwell a été le premier universitaire afro-américain à être intronisé à l’Académie nationale des sciences[6].

Lors de la présentation aux investisseurs de Nvidia en octobre 2023, sa feuille de route pour les centres de données a été mise à jour pour inclure une référence à ses accélérateurs B100 et B40 et à l’architecture Blackwell[7],[8]. Auparavant, le successeur de Hopper était simplement nommé sur les feuilles de route comme « Hopper-Next ». La feuille de route mise à jour de Nvidia a mis l'accent sur le passage d’une cadence de sortie de deux ans pour les produits de centre de données à des versions annuelles ciblées pour les systèmes x86 et ARM.

Lors de la Graphics Technology Conference (GTC) du 18 mars 2024, Nvidia a officiellement annoncé l'architecture Blackwell en mettant l’accent sur ses accélérateurs pour centres de données B100 et B200. Le PDG de Nvidia, Jensen Huang, a déclaré qu'avec Blackwell, « nous avons créé un processeur pour l'ère de l'IA générative » et a mis l'accent sur la plate-forme globale Blackwell combinant les accélérateurs Blackwell avec le processeur Grace basé sur ARM de Nvidia[9],[10]. Nvidia a vanté les soutiens de Blackwell de la part des PDG de Google, Meta, Microsoft, OpenAI et Oracle[10].

Architecture[modifier | modifier le code]

Blackwell est une architecture conçue à la fois pour les applications de calcul de centre de données et pour les applications de jeu et de station de travail avec des matrices dédiées à chaque usage. La puce GB100 est destinée aux produits de centre de données Blackwell, tandis que la puce de la série GB200 sera utilisée pour les cartes graphiques GeForce RTX série 50.

Procédé de fabrication (process node)[modifier | modifier le code]

Blackwell est fabriqué avec le procédé 4NP personnalisé de TSMC. 4NP est une amélioration du nœud 4N utilisé pour les architectures Hopper et Ada Lovelace avec une augmentation de la densité de transistors. Avec le nœud 4NP amélioré, la puce GB100 contient 104 milliards de transistors, soit une augmentation de 30 % par rapport aux 80 milliards de transistors de la puce Hopper GH100 de la génération précédente[11]. Étant donné que Blackwell ne peut pas tirer parti des avantages qui découlent d’une avancée majeure en matière de process node, elle doit réaliser des gains d’efficacité énergétique et de performance grâce à des modifications architecturales internes[12].

La puce GB100 est à la limite de réticule de la fabrication de semi-conducteurs[13]. La limite de réticule dans la fabrication de semi-conducteurs est la limite de taille physique des puces de silicium que les machines de lithographie peuvent graver. Auparavant, Nvidia avait presque atteint la limite de réticule de TSMC avec la matrice de 814 mm2 du GH100. Afin de ne pas être limité par la taille de la puce, l’accélérateur B100 de Nvidia utilise deux puces GB100 dans un seul boîtier, connectées par une liaison à 10 To/s que Nvidia appelle l’interface NV-High Bandwidth Interface (NV-HBI). NV-HBI est basé sur le protocole NVLink (en) 5.0. L’ensemble à double puce totalise 208 milliards de transistors[13]. Ces deux puces GB100 sont placées sur le dessus d'un interposeur (en) en silicium produit à l’aide de la technique d'encapsulation CoWoS-L 2.5D de TSMC[14].

Multiprocesseurs de flux[modifier | modifier le code]

Cœurs CUDA[modifier | modifier le code]

CUDA Compute Capability 10.0 est ajouté avec Blackwell.

Cœurs Tensor[modifier | modifier le code]

L’architecture Blackwell introduit des cœurs Tensor de cinquième génération pour le calcul de l’IA et l’exécution de calculs en virgule flottante. Pour les centres de données, Blackwell ajoute la prise en charge des types de données FP4 et FP6 avec un traitement en virgule flottante en octuple précision[15]. L’architecture Hopper précédente introduisait le moteur de transformeur (Transformer Engine) pour diviser les données FP32 en FP8 afin d’augmenter le débit de calcul de pointe. Le moteur de transformateur de deuxième génération de Blackwell permet de diviser davantage le FP32, ce qui permet de doubler les performances de calcul en FP8. L’utilisation de données 4 bits permet d’améliorer l’efficacité et le débit d'inférence du modèle lors de l’entraînement de l’IA générative[12]. Nvidia revendique 20 pétaflops de calcul en FP4 avec l’accélérateur B100 à double puce GB100[16].

Références[modifier | modifier le code]

  1. (en-US) « NVIDIA Corporation - NVIDIA Investor Presentation October 2023 », sur investor.nvidia.com (consulté le )
  2. (en-US) « NVIDIA Blackwell Platform Arrives to Power a New Era of Computing », sur NVIDIA Newsroom (consulté le )
  3. (en-US) Chris Szewczyk, « The AI hype means Nvidia is making shiploads of cash », sur Tom's Hardware, (consulté le )
  4. a et b (en-US) Anton Shilov, « Nvidia sold half a million H100 AI GPUs in Q3 thanks to Meta, Facebook — lead times stretch up to 52 weeks: Report », sur Tom's Hardware, (consulté le )
  5. (en-GB) Ian King, « Nvidia Looks to Extend AI Dominance With New Blackwell Chips », sur Yahoo! Finance, (consulté le )
  6. (en-GB) Jane Lanhee Lee, « Why Nvidia’s New Blackwell Chip Is Key to the Next Stage of AI », sur Bloomberg, (consulté le )
  7. (en-US) « Investor Presentation » [PDF], sur Nvidia, (consulté le )
  8. (en-US) Anthony Garreffa, « Nvidia's next-gen GB200 'Blackwell' GPU listed on its 2024 data center roadmap », sur TweakTown, (consulté le )
  9. (en-US) Kif Leswing, « Nvidia CEO Jensen Huang announces new AI chips: 'We need bigger GPUs' », sur CNBC, (consulté le )
  10. a et b (en-US) Brian Caulfield, « 'We Created a Processor for the Generative AI Era,' Nvidia CEO Says », sur Nvidia, (consulté le )
  11. (en-US) Ryan Smith, « Nvidia Blackwell Architecture and B200/B100 Accelerators Announced: Going Bigger With Smaller Data », sur AnandTech, (consulté le )
  12. a et b (en-US) Timothy Prickett Morgan, « With Blackwell GPUs, AI Gets Cheaper and Easier, Competing with Nvidia Gets Harder », sur The Next Platform, (consulté le )
  13. a et b (en-US) « Nvidia Blackwell Platform Arrives to Power a New Era of Computing », sur Nvidia Newsroom, (consulté le )
  14. (en-US) « Nvidia Blackwell "B100" to feature 2 dies and 192GB of HBM3e memory, B200 with 288GB », sur VideoCardz, (consulté le )
  15. (en-US) Benj Edwards, « Nvidia unveils Blackwell B200, the "world's most powerful chip" designed for AI », sur Ars Technica, (consulté le )
  16. (en-US) « Introducing the New Nvidia Blackwell: A Technical Breakdown », sur BIOS IT, (consulté le )