IA

Une IA de Google a résolu des problèmes de maths ouverts depuis 56 ans pour quelques centaines de dollars

Susan Hill

Un système de recherche de Google DeepMind a produit des démonstrations complètes et vérifiées par la machine pour neuf problèmes ouverts posés par le mathématicien Paul Erdős, dont deux non résolus depuis 56 ans. Le même système a réglé 44 conjectures tirées de l’Encyclopédie en ligne des suites de nombres entiers, clos une question de géométrie algébrique ouverte depuis 15 ans et resserré une borne connue en optimisation convexe. Le chiffre qui frappe compte moins que la méthode. Chacune de ces démonstrations a été vérifiée par une machine, pas seulement affirmée par elle.

Erdős, mort en 1996, a laissé des centaines de questions précises et têtues, beaucoup faciles à énoncer et terriblement difficiles à clore. Au fil des décennies, elles sont devenues une sorte d’examen permanent pour la discipline. Les conjectures de suites proviennent d’une base de données publique que les mathématiciens fouillent à la recherche de régularités, où une formule devinée peut rester sans preuve pendant des années. Ce ne sont pas des tests fabriqués pour flatter un modèle. C’est l’arriéré réel des mathématiques ouvertes.

Cette distinction est toute l’histoire. Le système, baptisé AlphaProof Nexus, écrit ses arguments en Lean, un langage formel dont le compilateur rejette toute étape qu’il ne peut confirmer. Une démonstration passe ou ne passe pas, sans place pour un paragraphe assuré qui se révèle ensuite faux. Pour qui cherche à juger si une ‘découverte’ d’IA est réelle, c’est la frontière entre un communiqué de presse et un résultat.

En dessous, le prouveur tourne sur Gemini 3.1 Pro, un modèle plus léger se chargeant du classement. La boucle est presque ennuyeuse. Le modèle rédige une preuve en Lean, le compilateur renvoie les erreurs, et ces erreurs nourrissent l’essai suivant. Ce qui maintient l’honnêteté, c’est le retour symbolique, pas la prose fluide. L’équipe a bâti quatre versions de complexité croissante, dont une capable de produire et de classer des esquisses de preuve rivales. Et pourtant, la version la plus simple, une simple boucle modèle et compilateur, a résolu seule les neuf problèmes d’Erdős.

L’économie est la part discrètement stupéfiante. Chaque problème résolu a coûté quelques centaines de dollars de temps de calcul. Des questions qui avaient dévoré des carrières ont été closes pour à peu près le prix d’une escapade de week-end. Cela ne met pas le mathématicien à la retraite. Quelqu’un doit encore choisir les problèmes qui valent l’effort, les formuler dans une forme que le système peut lire et décider de ce que signifie une réponse. Ce qui change, c’est le calcul de ce qui vaut la peine d’être tenté.

Les réserves pèsent plus que le titre. Neuf résolus sur 353 problèmes d’Erdős tentés, c’est un taux de réussite d’environ 2,5 pour cent. Le chiffre des suites, 44 sur 492, reste sous les neuf pour cent. Les auteurs reconnaissent sans détour que la plupart de ces problèmes restent hors de portée, plus encore ceux qui exigent une théorie nouvelle et étendue, et que les réussites se concentrent là où la bibliothèque mathématique de Lean est déjà profonde. Ôtez cet échafaudage construit par des humains et la liste choisie de cibles, et il reste peu de terrain au système.

La prudence est méritée. Dans un épisode très moqué, un laboratoire rival a annoncé que son modèle avait résolu dix problèmes d’Erdős, jusqu’à ce que des mathématiciens signalent que les réponses figuraient déjà dans la littérature publiée. Le modèle les avait trouvées, pas démontrées. AlphaProof Nexus est conçu pour être à l’abri de cette erreur. Une preuve en Lean d’un résultat connu reste valable, et une preuve en Lean de quelque chose de vraiment neuf ne se feint pas. Demis Hassabis, à la tête de DeepMind, a tenu à préciser que le travail n’est pas une intelligence artificielle générale, une note de prudence rare pour une entreprise peu timide avec ses modèles.

Il y a un gain plus subtil que soulignent les chercheurs. Même les échecs ont servi. Comme chaque preuve partielle est vérifiée formellement, les mathématiciens ont pu voir exactement quels sous-objectifs le système pouvait ou non clore, sans revérifier tout l’argument à la main. La machine cesse d’être un oracle et devient une collaboratrice infatigable qui montre son travail et désigne où la difficulté se cache encore.

Le résultat ne vient pas seul. Il tombe dans la même période qu’une autre affirmation, celle d’un modèle de raisonnement rival qui aurait réfuté une conjecture d’Erdős vieille d’environ 80 ans en géométrie discrète, un constat que des mathématiciens en activité ont affiné et avalisé. Deux laboratoires, deux méthodes, l’une appuyée sur la vérification formelle et l’autre sur des chaînes de raisonnement brutes, ont atteint la même frontière à quelques semaines d’écart. La compétition ne porte plus sur des chatbots à l’air malin.

Le travail a été détaillé dans un article publié ce mois-ci, et les méthodes s’appuient sur des outils ouverts, à savoir Lean et sa bibliothèque bâtie par la communauté, si bien que des groupes extérieurs peuvent inspecter et rejouer les preuves plutôt que croire un blog d’entreprise. DeepMind n’a pas dit si le système atteindra des chercheurs hors de l’entreprise. Le nombre à surveiller n’est pas neuf. C’est de savoir si ces 2,5 pour cent deviennent dix, puis vingt, car le jour où cela arrivera, le débat sur l’usage de ces machines devra repartir de zéro.

Discussion

Il y a 0 commentaire.