Technologie

DeepSeek V4 : cinq fois moins cher que GPT-5 et sans puces Nvidia

Le laboratoire chinois qui avait ébranlé la Silicon Valley avec R1 revient avec une version plus volumineuse, nettement moins chère et conçue pour fonctionner sur du matériel chinois. V4-Pro est désormais le plus grand modèle d'intelligence artificielle à poids ouverts jamais construit ; ses deux variantes sont déjà accessibles sur Hugging Face sous licence MIT, et la tarification enterre celle d'OpenAI et d'Anthropic.
Susan Hill

Un laboratoire de Hangzhou vient de publier le plus grand modèle d’intelligence artificielle en source ouverte jamais construit. DeepSeek a mis en ligne la version préliminaire de V4-Pro et de V4-Flash, un tandem de modèles de langage qui porte une thèse parfaitement assumée : traiter un million de tokens de contexte n’est plus un problème de capacité, seulement d’efficacité. V4-Pro rassemble 1,6 billion de paramètres au total, dont 49 milliards activés par requête — de quoi absorber un code source complet ou un livre entier en un seul prompt. Pour la première fois, un modèle ouvert rivalise sérieusement avec les modèles fermés les plus avancés en mathématiques, en programmation et sur les tâches d’agents — tout en coûtant une fraction du prix. Il faut noter que ce bouleversement tarifaire ne repose pas sur un miracle algorithmique isolé, mais sur une bataille industrielle plus large qui se déploie ailleurs.

Les deux modèles arrivent sous licence MIT, poids déjà publiés sur Hugging Face. V4-Flash est la variante efficace, 284 milliards de paramètres au total et 13 milliards activés, suffisamment compacte pour qu’une version quantifiée puisse tourner sur un ordinateur portable haut de gamme. V4-Pro est le vaisseau amiral, 865 gigaoctets sur le disque, pensé pour le déploiement cloud et les laboratoires de recherche. Les deux partagent la même fenêtre de contexte d’un million de tokens — un bond qui rejoint Gemini de Google et double ce que propose la majorité des modèles ouverts concurrents.

YouTube video

Le mouvement architectural clé s’appelle Hybrid Attention : DeepSeek combine deux techniques de compression pour comprimer la mémoire avec une agressivité telle que V4-Pro n’utilise que 27 % du calcul et 10 % du cache que V3.2 consommait à longueur de contexte égale. V4-Flash va plus loin encore. Concrètement, servir un prompt d’un million de tokens avec V4-Pro revient désormais moins cher que d’en servir un de 100 000 avec la génération précédente. Ce n’est pas un détail technique : c’est la condition économique pour qu’un modèle à contexte long cesse d’être une démonstration de laboratoire et devienne un produit commercial viable.

La disruption tarifaire est le point où la sortie appuie le plus fort. V4-Flash est facturé 0,14 dollar par million de tokens en entrée, ce qui passe sous le tarif de GPT-5.4 Nano lui-même. V4-Pro est à 1,74 dollar par million en entrée et 3,48 par million en sortie — soit un tiers de ce qu’Anthropic facture pour Claude Opus 4.7, et un cinquième de ce qu’OpenAI facture pour GPT-5.5. Sur les benchmarks de programmation, V4-Pro atteint un score Codeforces de 3 206 ; selon DeepSeek, cela le classerait vingt-troisième parmi les programmeurs humains de compétition. Le signal envoyé au marché est explicite : la performance de pointe n’est plus le monopole d’un duopole américain.

La lecture géopolitique pèse autant que les benchmarks. DeepSeek a optimisé V4 pour tourner sur les puces Ascend 950 de Huawei et sur le silicium du concepteur chinois Cambricon, et n’a pas accordé d’accès préalable à Nvidia ni à AMD pour l’optimisation — une inversion de la pratique industrielle standard. Force est de constater que ce choix constitue le véritable test commercial de la pile technologique chinoise, qui opère depuis des années sous le régime des restrictions d’exportation américaines. La question que cette sortie pose à l’Europe est plus difficile encore : tandis que Pékin bâtit une chaîne souveraine complète — poids ouverts, puces domestiques, outils d’inférence — et que Washington verrouille la sienne par la loi, la souveraineté numérique européenne continue de dépendre des infrastructures des deux camps.

Plusieurs réserves s’imposent. V4 est une version préliminaire, pas une version de production, et les benchmarks indépendants de tiers n’ont pas encore été conduits. Le propre rapport technique de DeepSeek reconnaît que le modèle accuse entre trois et six mois de retard sur GPT-5.4 et Gemini 3.1 Pro en capacité de pointe. Son prédécesseur R1 a été interdit ou restreint en quelques semaines par plusieurs États américains, l’Australie, Taïwan, la Corée du Sud, le Danemark et l’Italie — autant d’expositions réglementaires que V4 hérite intactes. Les contractants du Pentagone ont par ailleurs interdiction d’utiliser les modèles de DeepSeek au titre de la loi NDAA de 2026, sauf dérogation expresse.

En dehors de ces zones restreintes, l’accès est immédiat. Le chatbot web de DeepSeek expose V4-Pro via son mode Expert et V4-Flash via son mode Instant sans frais, et les développeurs peuvent interroger l’API en modifiant simplement le nom du modèle en deepseek-v4-pro ou deepseek-v4-flash.

La sortie est intervenue exactement un an après que DeepSeek-R1 avait secoué les marchés mondiaux de l’IA le 20 janvier 2025 — le calendrier est calibré. La tarification définitive de l’API au-delà de la période préliminaire reste en attente, et les anciens points d’accès deepseek-chat et deepseek-reasoner seront retirés le 24 juillet 2026, date à laquelle l’ensemble du trafic basculera automatiquement sur V4. Ce qui se joue ici dépasse le benchmark : c’est la première démonstration publique qu’une puissance concurrente peut livrer une pile complète, compétitive et à bas coût sans recourir aux fournisseurs américains — et cette démonstration, à elle seule, redéfinit la grille de lecture pour toute stratégie souveraine d’intelligence artificielle à partir de maintenant.

Discussion

Il y a 0 commentaire.