Dans le cadre de la GTC 2023, Amazon Web Services (AWS), la filiale cloud d’Amazon, et NVIDIA ont annoncé collaborer à la création d’une infrastructure de nouvelle génération optimisée pour la formation de grands modèles de langage (LLM) complexes et le développement d’applications d’IA génératives.
AWS offrira ainsi une puissance de calcul accrue grâce à ses instances P5 Amazon Elastic Compute Cloud (Amazon EC2) de nouvelle génération alimentées par les GPU NVIDIA H100 Tensor Core qui fourniront jusqu’à 20 exaFLOPS de performances de calcul.
Une instance Amazon EC2 est un serveur virtuel dans Amazon Elastic Compute Cloud, (Amazon EC2), un service Web qui fournit une capacité de calcul évolutive dans le cloud. Il est conçu pour faciliter l’accès aux ressources de calcul à la demande pour les développeurs et permet d’augmenter ou de réduire rapidement la capacité en fonction des besoins de l’application. On peut l’utiliser pour exécuter des applications à grande échelle pour le traitement par lots, la gestion de données et les analyses, ainsi que pour héberger des sites Web et des applications Web.
La cinquième génération de ces instances, les Amazon EC2 P5 sont déployées dans des clusters à très grande échelle appelés EC2 UltraClusters qui comprennent le calcul, la mise en réseau et le stockage les plus performants dans le cloud. Chaque EC2 UltraCluster est l’un des supercalculateurs les plus puissants au monde, permettant aux clients d’exécuter leurs formations ML multi-nœuds les plus complexes et leurs charges de travail HPC distribuées. Ils disposent d’une mise en réseau non bloquante à l’échelle du pétabit, alimentée par AWS EFA (Elastic Fabric Adapter) de deuxième génération, qui fournit un débit réseau à faible latence et à bande passante élevée de 3 200 Gbit/s, permettant aux clients de faire évoluer jusqu’à 20 000 GPU H100 .
Une réduction du temps d’entraînement et du coût
Les instances P5 sont particulièrement adaptées pour l’entraînement et l’exécution d’inférences pour des LLM et des modèles de vision par ordinateur de plus en plus complexes, derrière des applications d’IA génératives de plus en plus exigeantes et gourmandes en calcul, notamment la réponse aux questions, la génération de code, la génération de vidéos et d’images, la reconnaissance vocale…
Les performances augmentées des instances P5 accélèrent jusqu’à 6 fois le temps de formation des modèles de ML (réduisant le temps d’entraînement de quelques jours à quelques heures) et la mémoire GPU supplémentaire aide les clients à former des modèles plus grands et plus complexes. Les instances P5 ont réduit le coût de formation des modèles ML de 40 % par rapport à la génération précédente, offrant aux clients une plus grande efficacité par rapport aux offres cloud moins flexibles ou aux systèmes sur site déterminés.
En plus de ces capacités informatiques de pointe, les clients peuvent utiliser Amazon S3 pour le stockage d’objets, Amazon FSx pour les systèmes de fichiers hautes performances et Amazon SageMaker pour la création, la formation et le déploiement d’applications de deep learning.
Les instances P5 seront disponibles dans les semaines à venir en préversion limitée.
De nouvelles conceptions de serveurs pour une IA évolutive et efficace
Avant la sortie de H100, les équipes d’ingénieurs NVIDIA et AWS possédant une expertise dans les domaines thermique, électrique et mécanique ont collaboré pour concevoir des serveurs exploitant les GPU afin de fournir une IA à grande échelle, en mettant l’accent sur l’efficacité énergétique dans l’infrastructure AWS.
Les GPU sont généralement 20 fois plus économes en énergie que les CPU pour certaines charges de travail d’IA, le H100 étant jusqu’à 300 fois plus efficace pour les LLM que les CPU.
Le travail conjoint a inclus le développement d’une conception thermique du système, la sécurité intégrée et la gestion du système, la sécurité avec l’hyperviseur accéléré matériel AWS Nitro et les optimisations NVIDIA GPUDirect pour la structure réseau personnalisée AWS.
S’appuyant sur les travaux d’AWS et de NVIDIA axés sur l’optimisation des serveurs, les entreprises ont commencé à collaborer sur les futures conceptions de serveurs afin d’accroître l’efficacité de la mise à l’échelle avec des conceptions de systèmes de génération ultérieures, des technologies de refroidissement et l’évolutivité du réseau.