Lors du Sommet Open Compute Project (OCP) 2022 qui s’est déroulé du 18 au 20 octobre dernier à San José en Californie, Meta a partagé ses innovations, parmi elles, Grand Teton, une plateforme matérielle d’IA de nouvelle génération, utilisant les GPU H100 basés sur l’architecture NVIDIA HOPPER.
Les modèles d’IA sont de plus en plus complexes et exigent une puissance de calcul de plus en plus grande, nécessitant ainsi une infrastructure haute performance pour les prendre en charge.
Alexis Björlin, vice-président de Meta pour l’ingénierie, a déclaré dans un billet de blog consacré à l’OCP :
« Aujourd’hui, certains des plus grands défis auxquels notre industrie est confrontée à grande échelle concernent l’IA. Comment pouvons-nous continuer à faciliter et à exécuter les modèles qui alimentent les expériences derrière les produits et services innovants d’aujourd’hui ? Et que faudra-t-il pour activer l’IA derrière les produits et services innovants du futur ? Alors que nous passons à la prochaine plate-forme informatique, le métaverse, le besoin de nouvelles innovations ouvertes pour alimenter l’IA devient encore plus clair. »
Grand Teton, une plateforme de nouvelle génération pour l’IA à grande échelle
La dénomination Grand Teton fait référence à un sommet dans un parc national du Wyoming du même nom, soulignant ainsi les performances de la plateforme.
Alexis Björling souligne :
« À mesure que les modèles d’IA deviennent de plus en plus sophistiqués, leurs charges de travail associées le seront également. Grand Teton a été conçu avec une plus grande capacité de calcul pour mieux prendre en charge les charges de travail liées à la bande passante mémoire chez Meta, telles que nos DLRM open source. L’enveloppe de puissance de calcul opérationnelle étendue de Grand Teton l’optimise également pour les charges de travail liées au calcul, telles que la compréhension de contenu ».
Grand Teton utilise des GPU NVIDIA H100 Tensor Core basé sur L’architecture NVIDIA Hopper, celle-ci comprend un moteur de transformateur pour accélérer le travail sur les modèles de base, qui s’adressent à un grand nombre d’applications : traitement du langage naturel, soins de santé, robotique…
La NVIDIA H100 est conçue pour la performance mais également pour l’efficacité énergétique. Les serveurs accélérés H100, lorsqu’ils sont connectés à la mise en réseau NVIDIA sur des milliers de serveurs dans des centres de données hyperscale, peuvent être 300 fois plus économes en énergie que les serveurs CPU uniquement.
Ian Buck, vice-président de l’hyperscale et du calcul haute performance chez NVIDIA, assure :
« Les GPU NVIDIA Hopper sont conçus pour relever les défis difficiles du monde, en offrant une informatique accélérée avec une plus grande efficacité énergétique et des performances améliorées, tout en ajoutant de l’échelle et en réduisant les coûts. Avec Meta partageant la plate-forme Grand Teton alimentée par H100, les constructeurs de systèmes du monde entier auront bientôt accès à une conception ouverte pour l’infrastructure de calcul de centres de données hyperscale afin de dynamiser l’IA dans tous les secteurs. »
La nouvelle plateforme apporte plusieurs améliorations de performances à Zion, la plateforme précédente : la bande passante hôte-GPU est multipliée par 4, la bande passante du réseau de calcul et de données par 2 tout comme l’enveloppe de puissance.
La plateforme Zion se compose de trois boîtiers : un nœud principal de processeur, un système de synchronisation de commutateur et un système GPU, connecté par un câblage extérieur. Grand Teton les intègre dans un châssis unique pour de meilleures performances globales, l’intégrité du signal et les performances thermiques.
Ce haut niveau d’intégration simplifie considérablement le déploiement des systèmes ce qui permet d’installer et de provisionner la flotte de Meta beaucoup plus rapidement et d’en accroître la fiabilité, selon Alexis Bjorlin.