Technologie

Le nouveau modèle vocal d’OpenAI réfléchit à l’intérieur même de la boucle audio, et le silence qui trahissait l’IA disparaît

La pause est le révélateur. Jusqu'ici, l'IA vocale fonctionnait en transcrivant la parole, en envoyant le texte à un modèle de langage, en récupérant la réponse, puis en la resynthétisant en audio. Chaque étape prend du temps. L'utilisateur entend du silence, comprend que quelque chose se traite à l'autre bout, et perçoit la couture. Le nouveau GPT-Realtime-2 d'OpenAI fait s'effondrer ce pipeline en un seul modèle où le raisonnement se déroule à l'intérieur de la boucle audio elle-même, et la couture disparaît.
Susan Hill

OpenAI a lancé cette semaine trois nouveaux modèles audio dans son Realtime API — GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. La tête d’affiche est le premier. L’entreprise le décrit comme le premier modèle vocal doté d’un « raisonnement de classe GPT-5 », conçu pour qu’un même modèle gère l’audio entrant et sortant, avec la réflexion tissée dans la conversation plutôt que coincée entre les étapes de transcription et de synthèse. Les chiffres qui le portent sont concrets. Le score Big Bench Audio est passé de 81,4 pour cent à 96,6 pour cent face au modèle de référence précédent. Audio MultiChallenge a grimpé de 34,7 pour cent à 48,5 pour cent. La fenêtre de contexte est passée de 32 000 jetons à 128 000 — assez de place pour tenir l’historique complet d’un client pendant un appel.

Le déplacement structurel se voit moins dans les benchmarks. Pendant trois ans, quiconque montait un agent vocal pour la production devait coudre la pile à la main — Whisper ou Deepgram pour la transcription, un LLM pour le raisonnement, ElevenLabs ou Cartesia pour la voix, et du prompting pour masquer la latence. Chaque saut entre briques coûtait des millisecondes et de la netteté. L’utilisateur entendait un « laissez-moi vérifier » glissé par un script, puis du silence pendant que le modèle réfléchissait, puis enfin la réponse. GPT-Realtime-2 livre ces échafaudages comme un comportement natif. Les préambules permettent à l’agent de dire « laissez-moi vérifier » pendant qu’il appelle des outils, ce qui évite à l’utilisateur de rester assis dans le silence. Les appels d’outils en parallèle laissent le modèle déclencher plusieurs requêtes vers le back-end en même temps et raconter laquelle est en cours. Le comportement de récupération capture les défaillances et les remonte au lieu de figer la conversation.

La surface de contrôle qui s’ouvre pour les développeurs est la partie la plus intéressante. L’« effort de raisonnement » est configurable — minimal, low, medium, high et xhigh — avec low par défaut pour garder la latence basse sur des requêtes simples. Un agent qui répond « à quelle heure fermez-vous ? » n’a pas besoin d’un raisonnement de classe GPT-5. Un agent qui accompagne un client dans un litige de remboursement, oui. Le même modèle peut recevoir l’instruction de réfléchir plus ou moins fort selon le tour de parole, ce qui constitue un vrai changement par rapport au modèle précédent, où la profondeur de raisonnement était figée et le développeur choisissait entre rapide et intelligent au déploiement.

Le scepticisme a sa place. « Raisonnement de classe GPT-5 » est une formule marketing, pas une affirmation vérifiable — sans benchmarks indépendants sur du dialogue réaliste, la comparaison reste interne. Les agents vocaux ont un mode d’échec à part que les benchmarks attrapent mal — l’instant où l’agent dit quelque chose de faux avec une voix calme et naturelle. Mieux raisonner aide, mais n’élimine pas ce problème. Le prix pèse aussi. GPT-Realtime-2 coûte 32 dollars par million de jetons audio en entrée et 64 par million en sortie. GPT-Realtime-Translate tourne à 0,034 dollar par minute, GPT-Realtime-Whisper à 0,017 par minute. Suffisamment bon marché pour le service client à fort volume. Pas assez bon marché pour l’utiliser dans des produits grand public conversationnels sans réfléchir à la durée de chaque session.

Le contexte de déploiement raconte le reste de l’histoire. Zillow a lancé la recherche immobilière vocale le jour même. Deutsche Telekom a déployé un support vocal traduit en direct sur quatorze marchés européens. Les deux sont exactement le cas d’usage pour lequel OpenAI tarifie — des conversations longues, transactionnelles, riches en contexte, où l’utilisateur tire un bénéfice réel d’un agent qui raisonne plutôt que d’un agent qui ressort une fiche. Priceline construit des systèmes qui permettent aux voyageurs de gérer leurs réservations d’hôtel et de suivre les retards de vol entièrement à la voix. Le motif derrière les noms qu’OpenAI lâche en premier est clair — ce sont les clients dont les anciens systèmes vocaux marchaient le moins bien — centres d’appels, lignes de support, voyages transactionnels. Les endroits où l’utilisateur, aujourd’hui, hurle « opérateur » dans son téléphone.

Les modèles sont disponibles dans la Realtime API dès maintenant. Les améliorations vocales pour ChatGPT, elles, restent à venir — « Restez à l’écoute, ça mijote », a dit OpenAI. Sam Altman a inscrit le lancement dans un changement de comportement — les utilisateurs se tournent de plus en plus vers la voix face à l’IA quand ils ont besoin de « décharger » beaucoup de contexte. Si ce schéma tient, l’écart entre l’IA vocale et l’IA textuelle commence à se refermer — et la couture qui trahissait l’IA au téléphone devient plus difficile à entendre.

Discussion

Il y a 0 commentaire.