Elon Musk a annoncé lundi le lancement d’un nouveau supercalculateur alimenté par 100 000 puces GPU H100 Nvidia, ce qui en fait, selon lui, le plus puissant système de formation d’IA au monde. Baptisé « Colossus », il a nécessité seulement 122 jours pour être entièrement assemblé et sera utilisé pour former Grok-3, la prochaine version du chatbot intégré à X. Alors que le milliardaire prévoit de doubler les capacités du système d’ici quelques mois, les coûts environnementaux suscitent l’inquiétude.
Lancée en juillet de l’année dernière, xAI est la start-up d’IA créée par Musk en réponse à la croissance fulgurante d’OpenAI (le créateur de chatGPT), dont il a été à l’origine l’un des cofondateurs. Elle a également été créée dans un objectif de diversification de l’utilisation des unités de traitement graphique (GPU) Nvidia, que Tesla, son entreprise de construction automobile, utilise pour son système de conduite autonome. Le milliardaire aurait d’ailleurs déjà commandé l’équivalent de 3 à 4 milliards de dollars de GPU Nvidia, avant de se diversifier avec xAI.
Des centaines de milliers de GPU auraient été utilisés pour la formation de Grok, le chatbot controversé de xIA intégré à la plateforme X. Ce dernier a fait de graves erreurs apparentes et aurait des opinions politiques marquées. L’entreprise a alors cherché à en améliorer les performances en lançant il y a quelques semaines Grok-2, qui aurait été formé par 15 000 GPU H100 Nvidia, l’une des puces les plus performantes du marché. Malgré quelques erreurs persistantes, le système se classerait juste derrière GPT-4o (d’OpenAI) et égaliserait avec Gemini (de Google) en performances, selon X.
Colossus a été développé dans le but de former la prochaine version de Grok (Grok-3), qui devrait être six à sept fois plus performante que Grok-2. Basé dans la ville de Memphis, dans le Tennessee, le supercalculateur a été entièrement assemblé en seulement 122 jours, un nouveau record selon Nvidia. Alimenté par 100 000 GPU H100 Nvidia, « Colossus est le système de formation d’IA le plus puissant au monde », a affirmé Musk dans une publication sur X.
Une capacité doublée d’ici quelques mois
Les 100 000 GPU H100 de Colossus seront intégrées à une infrastructure refroidie par de l’eau et soutenue par une seule structure RDMA. Cette dernière permet la connexion entre la mémoire principale de plusieurs ordinateurs sans impliquer le système d’exploitation, de cache ou de stockage. Cela offre un débit élevé pour le transfert de données, tout en n’accaparant qu’une petite partie de la capacité de l’unité centrale. Selon Musk, cela offrirait un avantage conséquent pour la formation de l’IA alimentant Grok-3, dont le lancement est prévu pour la fin de cette année.
On ne sait pas exactement combien Musk a investi dans le développement de Colossus, mais si on estime qu’une puce GPU H100 coûte entre 20 000 et 90 000 dollars l’unité, il faut compter au moins 2 milliards de dollars pour 100 000 unités. Les coûts doivent aussi inclure l’infrastructure nécessaire ainsi que le personnel de gestion et de développement. En outre, Musk prévoit d’ici quelques mois de doubler la capacité du système en intégrant 100 000 GPU supplémentaires, dont 50 000 GPU H200, une version plus récente qui aurait près de deux fois la capacité de mémoire du GPU H100 et 40 % plus de bande passante. Heureusement, xAI a levé environ 6 milliards de dollars en mai dernier auprès de sociétés de capital-risque telles qu’Andreessen Horowitz.
Toutefois, il est peu probable que Colossus conserve longtemps son titre (autoproclamé) de plus puissant système de formation d’IA, car les principaux concurrents de xAI visent aussi de leur côté à optimiser la capacité de leurs systèmes. Microsoft prévoit par exemple d’acquérir 1,8 million de puces d’IA d’ici la fin de l’année, tandis que Meta compte se procurer 350 000 GPU H100 dans le même délai.
Alors que l’implantation de Colossus à Memphis constitue le plus important investissement privé que la ville ait connu, ses impacts sur l’environnement et le réseau électrique local inquiètent les résidents. Il pourrait notamment consommer jusqu’à 150 mégawatts d’électricité aux heures de pointe et nécessiterait jusqu’à 3 785 mètres cubes d’eau par jour pour son refroidissement.
Ces besoins énergétiques considérables ont suscité des discussions avec les autorités locales. Afin de pallier le problème, xAI a installé 14 générateurs alimentés au gaz naturel en attendant d’établir un accord avec le service public d’électricité. Cependant, les résidents se sont plaints de niveaux de pollution atmosphérique intenables directement liés à l’entreprise. Des militants écologistes affirment d’ailleurs que la start-up ne dispose pas du permis nécessaire à l’exploitation de ces turbines, ce qui ne serait pas étonnant en vue des antécédents anti-autorités de Musk.
En réponse, les autorités de la ville prévoient d’organiser dans les prochains jours des forums publics afin de fournir plus d’information sur le projet et ses implications pour la ville et ses habitants.