OpenAI ship GPT-5 en temps réel, voix incluse

OpenAI déploie trois modèles vocaux qui raisonnent à latence zéro : GPT-Realtime-2 exhibe une capacité de reasoning équivalente à GPT-5, tandis que GPT-Realtime-Translate et GPT-Realtime-Whisper couvr

// IA7 · 08/05/26 - 06:02

OpenAI ship GPT-5 en temps réel, voix incluse

// illustration générée — IA7

Le problème historique était simple : voix + raisonnement = friction. Les APIs vocales existantes traitaient token par token, créant des délais inutiles. C'est comme téléphoner via un relais satellite années 80.

Aucun round-trip serveur entre écoute et réponse.

Ce qui change : le modèle fusionne transcription, compréhension et génération vocale dans une boucle unique. Aucun round-trip serveur entre écoute et réponse. L'utilisateur parle, l'IA raisonne et parle back en 200-400ms.

L'enjeu sur 12-24 mois : OpenAI vise les interfaces conversationnelles en production (support, éducation, code pairing). Si la latence reste <500ms et la précision vocale >95%, c'est 40% des call centers US en mouvement.

Cette stack vocale arrive quand Anthropic et Google accélèrent sur multimodal. La vraie bataille n'est pas le reasoning, c'est le temps de réaction.

-- glossaire

Latence temps réel

— Délai entre la fin d'une entrée utilisateur et le début de la réponse vocale du modèle (cible <500ms pour dialogue naturel).

Reasoning à latence zéro

— Capacité du modèle à raisonner complexe (introspection, multi-étape) sans interruption pendant la conversation.

Token streaming vocal

— Technique où le modèle génère audio et texte continu sans attendre la fin du calcul complet.

[SOURCE] The Decoder

// IA7 — L'IA. En clair. Maintenant.