Le langage que nous utilisons pour la technologie est souvent trompeur, conçu pour apprivoiser, pour domestiquer. On nous dit que Google a une nouvelle « puce ». C’est un mot réconfortant, familier. Une puce est un petit carré de silicium inanimé, quelque chose que l’on peut tenir dans la main.
Ce superordinateur est construit de manière modulaire. Un seul hôte physique contient quatre puces Ironwood, et un rack de ces hôtes forme un « cube » de 64 puces. Pour une mise à l’échelle supérieure, ces cubes sont connectés par un réseau dynamique de commutation de circuits optiques (OCS), qui permet au système de relier jusqu’à 144 cubes pour former le « superpod » de 9 216 puces. Cette architecture à l’échelle du pod n’est pas qu’une question de taille ; elle fournit 42,5 ExaFLOPS de calcul FP8 et un accès à 1,77 Pétaoctet de mémoire partagée à large bande passante.
Pour comprendre ce que Google a construit, il faut d’abord se défaire de l’idée d’un produit distinct et individuel. La véritable unité de calcul n’est plus le processeur ; c’est le centre de données lui-même. Ironwood, la septième génération de Tensor Processing Unit (TPU) de Google, existe sous la forme d’un « superpod » : un superordinateur unique et cohérent qui interconnecte 9 216 de ces nouvelles puces. Cette architecture colossale n’est pas refroidie par de simples ventilateurs, mais par une « solution avancée de refroidissement liquide » à l’échelle industrielle, un système circulatoire essentiel pour dissiper l’immense chaleur résiduelle générée par sa consommation de 10 mégawatts.
Pour situer le contexte, 10 mégawatts correspondent à la consommation électrique approximative d’une petite ville ou d’une grande usine. C’est l’échelle de « force brute » de l’intelligence artificielle moderne. L’IA n’est pas un « cloud » éthéré et abstrait. C’est une industrie physique, lourde, qui consomme des matières premières (dans ce cas, de l’énergie à l’échelle planétaire) pour produire un nouveau bien invisible : l’intelligence synthétique. Le pod Ironwood, avec sa configuration de 9 216 puces, est le nouveau moteur de cette industrie, un mastodonte refroidi par liquide conçu dans un seul but : penser à une échelle jusqu’alors inimaginable.
Cela expose immédiatement le conflit central de la technologie déterminante du 21e siècle. Ce niveau de consommation d’énergie, étendu à l’ensemble de l’industrie, est fondamentalement insoutenable. Ce pod de 10 mégawatts est une merveille technologique, mais c’est aussi un profond passif environnemental. Le reste de l’histoire de l’IA est une tentative de se colleter avec ce simple fait fondamental.
L’Ère de l’Inférence
Durant la dernière décennie, le principal défi de l’IA a été « l’entraînement ». Il s’agit d’un processus coûteux et long consistant à enseigner à un modèle, en lui donnant la totalité d’Internet pour « apprendre » le langage, la logique et le raisonnement. Mais cette ère s’achève. La nouvelle frontière est « l’ère de l’inférence » : le raisonnement constant, à haut volume et en temps réel que le modèle effectue après avoir été entraîné.
Chaque fois qu’une IA répond à une question, génère une image ou « récupère et génère des données de manière proactive », elle effectue une inférence. Ironwood est, de l’aveu même de Google, son « premier accélérateur conçu spécifiquement pour l’inférence ». Cela signale un changement de marché critique. La bataille ne se livre plus seulement pour construire les plus grands modèles, mais pour exécuter efficacement le « service de modèles et l’inférence d’IA à haut volume et faible latence » qui alimenteront la vague à venir d’« agents IA » comme Gemini, propre à Google.
C’est là que se révèle la véritable stratégie de Google. Ironwood n’est pas un produit à vendre ; c’est un composant fondamental de l’« AI Hypercomputer » de Google. Il ne s’agit pas seulement de matériel, mais d’un système verticalement intégré où le matériel (les TPU Ironwood et les nouvelles CPU Axion basées sur Arm) est « co-conçu » avec une pile logicielle propriétaire.
Cette pile co-conçue est le « fossé » stratégique de Google. Bien qu’elle offre une prise en charge « prête à l’emploi » des frameworks open-source comme PyTorch pour attirer les développeurs, la pile est véritablement optimisée pour l’écosystème JAX propre à Google.
- Le compilateur XLA (Accelerated Linear Algebra) agit comme le traducteur crucial, convertissant le code de haut niveau en instructions hyper-efficaces qui s’exécutent directement sur le silicium du TPU. Il fournit une optimisation large et « prête à l’emploi », traduisant le code de frameworks comme JAX et PyTorch en instructions hyper-efficaces pour le silicium du TPU.
- Le nouveau « Cluster Director » pour Google Kubernetes Engine (GKE) est l’orchestrateur, un logiciel capable de gérer le superpod de 9 216 puces comme une seule unité résiliente. Ce logiciel prend en compte la topologie pour une planification intelligente, simplifiant la gestion des clusters à très grande échelle et permettant des opérations résilientes et auto-réparatrices capables de contourner les interruptions.
- Et le support natif de vLLM maximise le débit d’inférence, un composant critique pour servir les modèles à « l’ère de l’inférence ». Ce support est crucial, car vLLM utilise des techniques de gestion de mémoire très efficaces pour maximiser le débit et permet aux équipes de développement de basculer les charges de travail entre les GPU et les TPU avec un minimum de modifications.
Au cours de la dernière décennie, la domination de NVIDIA s’est construite non seulement sur ses GPU, mais aussi sur sa plateforme logicielle propriétaire CUDA — un « fossé » dans lequel les développeurs sont enfermés. L’AI Hypercomputer de Google est une tentative directe de construire un « jardin clos » rival. En offrant un rapport performance-prix supérieur uniquement à ceux qui s’engagent dans sa pile logicielle, Google se positionne pour devenir le service fondamental (au sens d’« utility ») de l’économie de l’IA. Il ne vend pas les voitures (comme NVIDIA) ; il vise à vendre l’électricité qui les alimente.
Le Faiseur de Rois et la Guerre du Multi-Cloud
La validation ultime de cette stratégie est arrivée fin 2025. Anthropic, un laboratoire d’IA de premier plan et principal rival d’OpenAI, a annoncé une expansion historique de son partenariat avec Google, s’engageant à utiliser son infrastructure TPU, y compris le nouvel Ironwood, à une échelle stupéfiante : « jusqu’à un million de TPU ».
Il ne s’agit pas d’un investissement anodin. C’est un accord de « plusieurs dizaines de milliards de dollars » qui mettra en service « bien plus d’un gigawatt de capacité » pour Anthropic d’ici 2026. Cet accord à lui seul justifie la décennie d’investissement et les milliards de dollars misés par Google sur le silicium personnalisé. La justification déclarée d’Anthropic pour cet engagement massif était « le rapport prix-performance et l’efficacité », un signal clair que la pile verticalement intégrée et co-conçue de Google peut offrir une alternative économique convaincante à la domination de NVIDIA.
Mais cette histoire comporte un rebondissement critique, qui révèle la véritable dynamique du pouvoir dans l’industrie de l’IA. Anthropic n’appartient pas exclusivement à Google. Dans sa propre annonce, Anthropic a pris soin de noter qu’Amazon Web Services (AWS) reste son « principal partenaire d’entraînement et fournisseur de cloud ». Ce partenariat avec AWS est construit autour du « Projet Rainier », un cluster massif utilisant des centaines de milliers d’accélérateurs Trainium2 d’Amazon. L’entreprise poursuit une « approche diversifiée », jouant stratégiquement les TPU de Google contre les puces Trainium d’Amazon et les GPU de NVIDIA.
Ce n’est pas de l’indécision, c’est un brillant acte de survie. Des données divulguées montrent que les coûts de calcul d’Anthropic sur AWS à eux seuls consommaient jusqu’à 88,9 % de ses revenus. L’existence même des laboratoires d’IA dépend de leur capacité à réduire ce coût astronomique. En forçant cette guerre des enchères, les analystes estiment qu’Anthropic obtient probablement sa puissance de calcul — la partie la plus chère de son activité — avec une remise massive de 30 à 50 %. En s’associant publiquement à la fois à Google et à Amazon, Anthropic s’est érigée en « faiseur de rois » (kingmaker). Elle force les géants du cloud à une guerre des enchères, utilisant son statut de laboratoire d’IA « vedette » pour que les hyper-scalers subventionnent de fait ses énormes factures de calcul.
Cette dynamique a fondamentalement changé le marché. Le vainqueur final ne sera pas celui qui a la puce la plus rapide, mais celui qui a le meilleur ratio calcul-puissance-coût. Le « performance par watt » n’est plus un simple slogan environnemental ; c’est le principal champ de bataille stratégique et économique de toute l’industrie.
Les Nouveaux Titans du Silicium : Une Oligarchie Inquiète
Le lancement d’Ironwood est un tir direct contre NVIDIA, mais le champ de bataille est encombré. La course à l’armement de l’IA est menée par une nouvelle oligarchie de titans du silicium, une petite poignée d’entreprises disposant du capital et de l’expertise technique nécessaires pour construire les « pelles » de cette nouvelle ruée vers l’or.
- Le Roi en Place (NVIDIA): Les GPU de la génération Blackwell de NVIDIA, les B100 et B200, ainsi que leur prédécesseur, le H100, restent la norme du secteur. Leur domination est protégée par le profond fossé logiciel de CUDA, sur lequel la plupart des chercheurs et développeurs en IA sont formés.
- Les Prétendants (Les Hyperscalers et AMD):
- Amazon (AWS): L’opération de silicium personnalisé la plus mature parmi les fournisseurs de cloud. AWS emploie une stratégie à double puce : « Trainium » pour l’entraînement rentable et « Inferentia » pour l’inférence rapide et à faible coût. Cette stratégie est unifiée par le SDK AWS Neuron, la couche logicielle conçue pour optimiser les charges de travail PyTorch et TensorFlow pour son silicium maison.
- Microsoft (Azure): Pour répondre aux besoins massifs de son partenaire clé, OpenAI, Microsoft a développé son propre accélérateur IA « Maia 100 », le co-concevant pour les charges de travail de ChatGPT et GPT-4. L’un des plus grands processeurs construits sur le nœud 5nm de TSMC, Maia 100 est une puce de 500W-700W qui, comme ses rivales, est co-conçue avec sa propre pile logicielle pour porter des modèles depuis des frameworks comme PyTorch.
- AMD: Le rival traditionnel de NVIDIA, AMD, concurrence directement sur la performance avec son accélérateur Instinct MI300X, qui égale les puces de nouvelle génération sur des métriques clés comme la capacité mémoire (192 Go).
Cette course à l’armement des entreprises est motivée par trois facteurs simples :
- Le Coût : Concevoir sa propre puce est le seul moyen d’échapper aux marges bénéficiaires de NVIDIA (supérieures à 70 %) et à ses prix élevés.
- L’Approvisionnement : Cela offre une indépendance stratégique face aux pénuries chroniques de GPU NVIDIA qui ont étranglé l’ensemble de l’industrie.
- L’Optimisation : Cela permet d’obtenir l’avantage en « performance par watt » que Google recherche — une puce parfaitement « co-conçue » pour son logiciel spécifique et ses charges de travail cloud.
Les géants du cloud n’ont pas besoin de tuer NVIDIA. Ils ont simplement besoin de créer une alternative interne viable et suffisamment bonne. Cela banalise le marché, donne le choix aux clients et force NVIDIA à baisser ses prix, épargnant ainsi aux hyper-scalers des milliards sur leurs propres dépenses d’investissement.
L’ampleur de cette consolidation est difficile à saisir. Les grands géants de la tech, dont Google, Meta, Amazon et Microsoft, s’apprêtent à dépenser jusqu’à 375 milliards de dollars en une seule année pour la construction de ces centres de données et le matériel d’IA pour les remplir. La barrière à l’entrée de ce nouveau marché est vertigineuse. La révolution de l’IA ne sera pas décidée par un algorithme intelligent dans un garage ; elle sera décidée par les cinq entreprises qui ont les moyens de construire ces cerveaux de 10 mégawatts.
Le Choc des Accélérateurs IA de 2025
Google Ironwood (TPU v7): Type : ASIC. HBM Max (Mémoire) : 192 Go HBM3e. Bande Passante Mém. Max : 7.4 To/s. Architecture de Scalabilité Clé : Superpod de 9 216 puces (9.6 Tb/s ICI). Usage Principal : Inférence et Entraînement.
NVIDIA Blackwell B200: Type : GPU. HBM Max (Mémoire) : 192 Go HBM3e. Bande Passante Mém. Max : 8 To/s. Architecture de Scalabilité Clé : NVLink 5 (1.8 To/s). Usage Principal : Entraînement et Inférence (Général).
AMD Instinct MI300X: Type : GPU. HBM Max (Mémoire) : 192 Go HBM3. Bande Passante Mém. Max : 5.3 To/s. Architecture de Scalabilité Clé : Anneau de 8 GPU. Usage Principal : Entraînement et Inférence (Général).
AWS Trainium / Inferentia 2: Type : ASIC. HBM Max (Mémoire) : (Trn) N/A / (Inf2) 32 Go HBM. Bande Passante Mém. Max : (Inf2) N/A. Architecture de Scalabilité Clé : SDK AWS Neuron / Cluster. Usage Principal : Séparé : Entraînement (Trn) / Inférence (Inf).
Microsoft Maia 100: Type : ASIC. HBM Max (Mémoire) : 64 Go HBM2E. Bande Passante Mém. Max : N/A. Architecture de Scalabilité Clé : Réseau basé sur Ethernet. Usage Principal : Interne (OpenAI) Entraînement et Inférence.
L’Ombre de la Guerre des Puces
La bataille d’entreprise entre Google, NVIDIA et Amazon se déroule à l’ombre d’un conflit bien plus vaste et lourd de conséquences : la « guerre des puces » géopolitique entre les États-Unis et la Chine.
Le monde moderne tout entier, de nos smartphones à nos systèmes militaires les plus avancés, repose sur une chaîne d’approvisionnement incroyablement fragile. Le « Bouclier de Silicium » de Taïwan, siège de TSMC, produit « environ 90 % des semi-conducteurs les plus avancés au monde ». Cette concentration de la fabrication dans le détroit de Taïwan, un « point chaud géopolitique critique », est la plus grande vulnérabilité de l’économie mondiale.
Ces dernières années, les États-Unis ont utilisé cette dépendance comme une arme, mettant en œuvre des « contrôles d’exportation drastiques » pour « priver la Chine de… puces avancées » dans une tentative de ralentir son ascension technologique et militaire. En réponse, la Chine « déverse des milliards dans ses ambitions de fabrication de puces », accélérant sa « stratégie de fusion militaro-civile » dans une quête désespérée d’« autosuffisance en semi-conducteurs ».
Cette quête est incarnée par des entreprises soutenues par l’État comme Huawei. Son travail sur le développement de puces IA nationales, telles que l’Ascend 910C, pose un défi direct à la domination de NVIDIA en Chine. Cette intégration verticale, combinée à la « stratégie de fusion militaro-civile » de la Chine, rend de plus en plus difficile pour les nations alliées de l’Occident d’identifier les parties de la chaîne d’approvisionnement chinoise avec lesquelles il est sûr de s’engager.
Cette instabilité mondiale crée un risque existentiel pour les géants de la tech. Un conflit militaire à Taïwan pourrait stopper net l’industrie de l’IA. Les pénuries chroniques de GPU NVIDIA ne sont qu’un inconvénient mineur comparé à un cataclysme de la chaîne d’approvisionnement.
Vu sous cet angle, l’Ironwood de Google est plus qu’un produit concurrentiel ; c’est un acte de « souveraineté d’entreprise ». En concevant leur propre silicium personnalisé, des entreprises comme Google, Amazon et Microsoft « atténuent les risques de la chaîne d’approvisionnement » et « réduisent leur dépendance à l’égard de fournisseurs tiers ». Elles possèdent la propriété intellectuelle. Elles ne dépendent plus d’une seule entreprise (NVIDIA) ou d’une seule région vulnérable (Taïwan). Elles peuvent diversifier leurs partenaires de fabrication, garantissant ainsi que leur modèle économique survive à un choc géopolitique.
La course à l’armement des entreprises et la course géopolitique sont désormais les deux faces d’une même pièce. Les investissements massifs de Google et d’Amazon mettent en œuvre, de fait, la politique industrielle américaine. Ils créent l’épine dorsale industrielle d’une sphère technologique alliée à l’Occident (l’alliance « Chip 4 ») et établissent une « distance technologique » que les solutions nationales chinoises, comme l’Ascend 910C de Huawei, s’efforcent de combler.
Le Poids Insoutenable du Calcul
Cela nous ramène au pod de 10 mégawatts. La course à l’armement de l’IA, alimentée par l’ambition corporative et géopolitique, se heurte désormais à ses propres limites physiques. Le prix environnemental de la mise à l’échelle par « force brute » est stupéfiant.
L’accord d’Anthropic pour les TPU de Google porte sur « plus d’un gigawatt » de puissance. C’est l’équivalent de 100 pods Ironwood fonctionnant simultanément, ou la production totale d’une centrale nucléaire à pleine capacité, dédiée à une seule entreprise. Et cette entreprise n’est qu’une parmi tant d’autres.
L’empreinte carbone d’une seule « pensée » devient alarmante :
- L’entraînement d’un seul grand modèle d’IA peut émettre plus de 284 000 kg de CO2 (626 000 livres), « soit à peu près l’équivalent des émissions de cinq voitures américaines sur toute leur durée de vie ».
- Une seule requête à une IA comme ChatGPT consomme « environ 100 fois plus d’énergie qu’une recherche Google classique ».
- L’empreinte énergétique totale de l’industrie de l’IA générative « croît de manière exponentielle » et est déjà « équivalente à celle d’un pays à faible revenu ».
Ce n’est pas seulement l’énergie. Les centres de données « dévorent » également une ressource plus limitée : l’eau. Ils nécessitent « d’énormes quantités d’eau pour le refroidissement », exerçant une pression considérable sur les ressources locales, souvent dans des régions déjà en proie à la sécheresse. Les estimations de l’industrie suggèrent que le centre de données moyen utilise déjà 1,7 litre d’eau par kilowattheure d’énergie consommée.
L’industrie, y compris Google, tente de détourner l’attention de cette crise en se vantant de gains « d’efficacité ». Google affirme qu’Ironwood est « près de 30 fois plus économe en énergie que notre premier Cloud TPU de 2018 ». Ceci, cependant, est un faux-fuyant. C’est un exemple clair de la Paradoxe de Jevons : les gains d’efficacité technologique, lorsqu’ils sont appliqués à une ressource désirable, ne diminuent pas la consommation. Ils l’augmentent en rendant cette ressource moins chère et plus accessible.
L’efficacité d’Ironwood ne résout pas le problème environnemental ; elle l’accélère. Elle rend économiquement et techniquement possible la construction de modèles encore plus grands et le traitement d’encore plus de requêtes, poussant la consommation totale d’énergie toujours plus haut. La course de l’industrie pour « privilégier la vitesse à la sécurité et à l’éthique » — une précipitation qui a conduit à des échecs documentés comme les résultats biaisés de Gemini de Google — crée une crise éthique à l’échelle planétaire, dont les dommages environnementaux constituent une externalité massive et non comptabilisée.
Cette crise éthique découle du potentiel des systèmes d’IA à intégrer et amplifier les biais humains, à menacer les droits de l’homme et à manipuler l’opinion publique par la désinformation. Le Government Accountability Office (Cour des comptes) des États-Unis a noté que même avec une surveillance, ces systèmes, lorsqu’ils sont mis sur le marché à la hâte, restent susceptibles d’attaques générant des contenus factuellement incorrects ou biaisés. Cette dynamique de « course à l’armement », où les objectifs d’entreprise de déploiement rapide l’emportent sur les protocoles de sécurité, crée une tension fondamentale entre innovation et responsabilité.
Coda : Le Suncatcher dans le Ciel
Les ingénieurs de Google ne sont pas aveugles à ce paradoxe. Ils voient les graphiques de consommation d’énergie. Ils comprennent que la mise à l’échelle par « force brute » de l’IA a un plafond terrestre. Leur solution proposée est la métaphore parfaite et surréaliste de l’ensemble de l’industrie.
Il s’agit d’un « projet de recherche à long terme » (moonshot) appelé « Project Suncatcher ».
Le plan est de lancer des centres de données d’IA dans l’espace. Ces « constellations compactes de satellites alimentés par l’énergie solaire », équipées des TPU de Google et connectées par des « liaisons optiques en espace libre », seraient placées sur une « orbite terrestre basse héliosynchrone crépusculaire ». Là, elles recevraient une « lumière solaire quasi continue », résolvant le problème de l’énergie, tandis que le vide spatial offrirait une solution pour le refroidissement sans eau.
Ce n’est pas de la fantaisie. Google a déjà testé ses TPU de génération Trillium dans un accélérateur de particules pour simuler les radiations de l’orbite terrestre basse, et les puces « ont survécu sans dommage ». Un lancement de prototype en partenariat avec Planet Labs est prévu pour début 2027.
Le projet Suncatcher est un aveu tacite d’échec terrestre. C’est l’aveu que la voie choisie par l’industrie — celle alimentée par des cerveaux de 10 mégawatts comme Ironwood — est insoutenable sur la planète Terre. L’objectif du projet, selon les propres termes de Google, est de « minimiser l’impact sur les ressources terrestres » car le « fardeau environnemental » de leur propre feuille de route devient trop lourd à porter.
C’est l’expression ultime du sublime technologique. La course à l’armement de l’IA, dans sa quête d’une intelligence divine, crée un avenir où le coût de calcul de notre propre curiosité est si grand que nous devons littéralement nous échapper de notre propre planète pour le soutenir. La puce Ironwood est le moteur. L’Hypercomputer est l’usine. La Guerre des Puces est l’ombre. Et le projet Suncatcher est la trappe de secours — un saut désespéré, brillant et terrifiant de logique dans le vide.
Cette logique, cependant, n’est pas sans défis techniques et économiques profonds. Les sceptiques s’empressent de souligner que l’espace n’est pas une solution magique pour le refroidissement ; c’est le « meilleur isolant thermique qui existe ». Un centre de données spatial ne se refroidirait pas passivement ; il nécessiterait des radiateurs massifs et complexes de taille comparable à ses panneaux solaires. Ces systèmes devraient également faire face au coût extrême de la maintenance et au bombardement constant de radiations qui détruisent les processeurs — des obstacles qui font de cette « trappe de secours » un pari aux proportions véritablement astronomiques.