Cybersécurité

Claude a trouvé 10 000 failles critiques en un mois — les humains débordent

Susan Hill

Un modèle d’Anthropic encore non publié a trouvé plus de dix mille vulnérabilités logicielles de gravité élevée ou critique en un seul mois, dans le code d’une cinquantaine d’organisations partenaires. Le modèle, appelé en interne Claude Mythos Preview, a été lancé contre des bibliothèques open source, des navigateurs et des infrastructures qui font tourner une part importante de l’internet moderne. Le résultat inverse une équation vieille de plusieurs décennies dans la sécurité logicielle. Trouver les failles n’est plus le plus difficile. C’est désormais les corriger qui l’est.

Le programme s’appelle Project Glasswing. Anthropic l’a lancé environ un mois avant de publier cette première vague de chiffres. Une cinquantaine d’organisations partenaires ont accepté de faire scanner leur code de production par le modèle. Cloudflare l’a lâché sur ses systèmes critiques et est revenu avec près de deux mille signalements, dont quatre cents classés en gravité élevée ou critique. Mozilla l’a fait travailler contre Firefox et a remonté 271 failles distinctes pour la prochaine version majeure du navigateur — plus de dix fois ce que la même équipe avait produit sur la version précédente avec Claude Opus 4.6, le modèle public.

Ce que signifient ces chiffres dépend du logiciel que l’on utilise. Le modèle a découvert une faille de falsification de certificats dans wolfSSL, une bibliothèque cryptographique qui équipe des milliards de routeurs domestiques, de hubs de maison connectée et de contrôleurs industriels. La vulnérabilité porte désormais un identifiant CVE, CVE-2026-5194, et un correctif est en cours de distribution. Le même travail de balayage sur plus d’un millier de projets open source a produit environ 6 202 incidents de gravité élevée ou critique. Ce ne sont pas des trouvailles académiques sur des bancs d’essai jouets. Ce sont des bugs dans le code réel qui gère vos connexions chiffrées, vos onglets de navigateur et les machines à l’autre bout du fil.

Mythos Preview n’est pas une version de Claude que l’on peut acheter. Anthropic a choisi de ne pas la rendre publique. L’entreprise soutient que le même modèle qui trouve des vulnérabilités à cette échelle deviendrait, entre de mauvaises mains, une usine industrielle à exploits. « Aucune entreprise », note l’annonce, « n’a développé de garde-fous suffisamment solides pour empêcher l’usage abusif de tels modèles. » Pour l’instant, Mythos Preview vit à l’intérieur d’un programme contrôlé, avec des partenaires vérifiés et un canal coordonné de divulgation.

Quels types de bugs le modèle trouve-t-il ? Des erreurs de gestion de mémoire dans des bibliothèques C et C++, des failles de gestion de certificats comme celle de wolfSSL, des erreurs de logique dans des implémentations de protocoles réseau et des trous d’authentification dans des services largement déployés. Ce sont exactement les catégories qui ont causé des décennies de fuites réelles. Le UK AI Security Institute indique que Mythos Preview est le premier modèle testé qui résout de bout en bout ses deux simulations de cyber-range, des environnements contrôlés qui imitent des chaînes d’attaque complètes. La société indépendante XBOW a qualifié le modèle de « saut significatif » par rapport aux travaux précédents, avec ce qu’elle a décrit comme « une précision absolument sans précédent ».

La question suivante, pour quiconque a travaillé avec des scanners automatiques, est de savoir combien de ces signalements sont réels. Des sociétés de sécurité indépendantes ont réexaminé 1 752 des rapports notés en gravité élevée ou critique. Environ 90,6 pour cent — 1 587 d’entre eux — ont été confirmés comme de véritables vulnérabilités. C’est un signal nettement plus propre que le bruit habituel du fuzzing ou des outils de recherche par motifs, et Cloudflare a indiqué que le taux de faux positifs du modèle, dans ses propres tests, était meilleur que celui des membres humains de son red team. Mais cela représente toujours environ un signalement sur dix qui est une fausse alerte. À cette échelle, cela fait à peu près mille non-bugs dans la pile, chacun étant un rapport qu’un humain doit lire et écarter.

Le problème plus difficile est ce qui se passe une fois qu’un vrai bug est signalé. Au moment de cette première mise à jour, seuls 75 des 530 vulnérabilités de gravité élevée ou critique transmises aux mainteneurs étaient corrigées. Le correctif moyen prend environ deux semaines. Certains mainteneurs open source, jugés débordés, ont demandé à Anthropic de ralentir le rythme des divulgations. « Les progrès en sécurité logicielle étaient autrefois limités par la vitesse à laquelle nous pouvions trouver de nouvelles vulnérabilités », écrit l’entreprise. « Ils sont désormais limités par la vitesse à laquelle nous pouvons vérifier, divulguer et corriger les grands volumes de vulnérabilités trouvées par l’IA. »

Pour un utilisateur ordinaire, la conclusion pratique est peu glamour. Le logiciel que vous utilisez aujourd’hui — peut-être le navigateur dans lequel cette page s’est chargée — contient presque certainement des bugs critiques qu’une IA connaît déjà et que les humains n’ont pas encore corrigés. La divulgation coordonnée part du principe qu’un correctif arrive avant l’annonce publique, et cet ordre ne tient que lorsque les correctifs arrivent à temps. Project Glasswing est, pour l’instant, ancré aux États-Unis et au Royaume-Uni. Cloudflare, Mozilla, le UK AI Security Institute et XBOW sont les participants cités. Aucun programme équivalent de coordination de divulgation n’existe dans la plupart des autres pays. La question de savoir si les bugs trouvés dans des piles logicielles brésiliennes, indiennes, japonaises ou coréennes seront traités avec la même urgence reste ouverte.

Anthropic affirme que Project Glasswing s’étend à de nouveaux partenaires. Le modèle Mythos Preview lui-même reste hors du marché, et l’entreprise n’a pas donné de calendrier de publication ; tout déploiement plus large exigerait, selon son propre jugement actuel, des garde-fous qui n’existent pas encore. Une seconde mise à jour est attendue plus tard en 2026. La métrique à surveiller ne sera pas combien de bugs une IA peut trouver. Ce sera combien d’entre eux les humains, à l’autre bout, ont eu le temps de corriger.

Discussion

Il y a 0 commentaire.