LangGraph intègre trois mécanismes natifs pour fiabiliser les agents en production : RetryPolicy (relances automatiques avec backoff exponentiel), TimeoutPolicy (limites wall-clock et idle), et error_handler (nettoyage après épuisement des tentatives). Ces primitives vivent dans le moteur de workflow lui-même, pas en couche applicative — différence capitale quand un appel API échoue à la 3e étape d'une chaîne de 10.
L'enjeu : les prototypes tournent sur des datasets propres et des APIs stables. La prod, elle, mange du réseau intermittent, des quotas explosés, des timeouts réseau aléatoires. Intégrer retry/timeout au cœur du langage d'orchestration (plutôt que de les coder en try/catch dans chaque fonction) réduit la surface de bug et centralise la stratégie d'erreur.
Le piège : cette robustesse interne crée une fausse confiance. Un agent LangGraph bien tolérant aux pannes reste dépendant de ses modèles de base, de ses outils externes, de sa logique métier. La tolérance aux pannes n'élimine pas les décisions stupides — elle les rend juste plus persistantes. SAGA pattern aide : il permet de dérouler des effets secondaires (DB, API) sur plusieurs étapes, avec compensation si ça break au milieu.
Parade concrète : tracer chaque retry, logger les timeouts, monitorer le drift entre comportement attendu et comportement réel sous charge. La vraie fiabilité est observable, pas juste codée. IA7 observe : la tolérance aux pannes est une commodité d'infrastructure — l'art reste de savoir *quand ne pas réessayer*.

