"Agent IA" est sans doute le terme le plus galvaudé du moment. Tout le monde en fait, tout le monde en vend, peu en livrent vraiment en production. J'ai accompagné plusieurs entreprises qui sortaient d'un POC d'agent enthousiasmant pour buter sur le passage à l'échelle. Voici les vraies raisons des échecs — et ce qui distingue un agent qui marche d'un agent qui démontre joliment.

D'abord : qu'est-ce qu'un agent, concrètement ?

Évacuons la confusion. Un "agent" n'est pas un LLM avec un peu de RAG. Un agent, c'est un système où un LLM décide d'enchaîner des actions (appeler une API, lire un fichier, écrire dans une base, demander une validation humaine) pour accomplir une tâche, en autonomie partielle ou totale.

Les briques typiques :

  • Un LLM "cerveau" qui raisonne et décide
  • Un ensemble d'outils (function calls, API, recherche, exécution de code...)
  • Une boucle qui exécute, observe, ajuste
  • Une mémoire (court terme dans le contexte, long terme dans une base)
  • Des garde-fous (validation humaine, limites d'appels, filtres...)

Un chatbot RAG qui répond à des questions n'est pas un agent. Un système qui prend une commande client, vérifie le stock, lance une expédition et envoie une confirmation, ça, c'est un agent.

Les 5 raisons qui font tomber les POC en production

1. La fiabilité chute exponentiellement avec le nombre d'étapes

Si chaque étape de votre agent a 95 % de fiabilité, un workflow à 10 étapes finit à 60 % de fiabilité (0,95^10). Or les démos d'agents montrent souvent des workflows de 8-15 étapes. En POC ça passe ; en production sur 10 000 cas par jour, ça génère 4 000 erreurs.

Ce qui marche : décomposer en sous-workflows courts, ajouter des validations intermédiaires, écrire des prompts beaucoup plus stricts qu'en POC, parfois remplacer des étapes "agentiques" par du code déterministe.

2. L'observabilité n'a pas été pensée

En POC, on lit les logs du terminal. En production, quand un agent fait une erreur sur le client n°4271, vous avez besoin de :

  • L'historique exact des prompts envoyés et reçus
  • L'ordre des outils appelés
  • Les arguments passés
  • Le coût en tokens de cette session
  • Un moyen de "rejouer" la session pour comprendre

Ce qui marche : LangSmith, Langfuse, Helicone, Phoenix, ou un système maison basé sur OpenTelemetry. À mettre en place dès le POC, pas en production.

3. Les coûts dérapent silencieusement

Un agent qui boucle 3 fois au lieu d'une à cause d'une mauvaise instruction, c'est trois fois le coût. Multiplié par votre volume, ça devient un problème. Pire : les modèles "thinking" (o1, o3, DeepSeek-R1) coûtent 10 à 50 fois plus cher que les modèles standards. J'ai vu une PME passer de 200 €/mois à 4 800 €/mois en production parce qu'un agent partait en boucle silencieuse sur 3 % des cas.

Ce qui marche : limite stricte du nombre d'itérations (max_iterations), budget de tokens par session, modèle "léger" en défaut et escalade vers le modèle "thinking" seulement quand nécessaire, alertes de coût hebdomadaires.

4. Les hallucinations en action sont pires qu'en texte

Un chatbot qui hallucine, c'est gênant. Un agent qui hallucine, c'est dangereux : il invente un identifiant de commande, appelle l'API de remboursement avec, et vous découvrez le problème trois semaines après.

Ce qui marche : valider tous les identifiants avant appel d'API critique ; schémas stricts (structured outputs, JSON schema) pour forcer le modèle à ne sortir que des valeurs autorisées ; validation humaine obligatoire sur les actions irréversibles (paiement, suppression, envoi externe) ; dry-run par défaut, exécution réelle après confirmation.

5. La conduite du changement n'a pas été faite

Les équipes opérationnelles voient arriver un "agent" qui fait à leur place une partie de leur travail. Sans préparation, deux réactions : le rejet (l'agent fait des erreurs, voilà la preuve que ça ne marche pas) ou la dépendance non contrôlée (on accepte tout, même les erreurs). Les deux tuent le projet.

Ce qui marche : impliquer les opérationnels dès la conception, leur donner un rôle de "supervision" valorisé, communiquer clairement sur ce que l'agent fait et ne fait pas, leur donner les moyens de signaler facilement une erreur.

Les cas où les agents marchent vraiment

Pas un agent ne marche en production magie. Les cas où je les vois réussir partagent des caractéristiques précises :

  • Workflow court (3-7 étapes) avec validation humaine en sortie
  • Domaine étroit (un seul type de demande, pas un assistant généraliste)
  • Outils déterministes bien documentés (pas "appelle une API REST mystérieuse")
  • Validation humaine sur les actions à effet externe
  • Eval automatisée : un jeu de tests de référence rejoué à chaque modification

Exemples concrets de réussites que j'ai pu observer :

  • Tri et routage de tickets support entrants (LLM décide de la catégorie, du niveau d'urgence, appelle l'API de routage)
  • Pré-remplissage de devis à partir d'un cahier des charges client (extraction, calcul, génération PDF, envoi pour validation humaine)
  • Synthèse automatique de comptes-rendus de réunion avec extraction des décisions et des actions
  • Veille concurrentielle : recherche, lecture, scoring, synthèse hebdomadaire

L'architecture qui tient en production

Sans entrer dans le code, voici les couches qu'on retrouve dans les agents qui survivent au passage en production :

  1. Couche orchestration : LangGraph, Inngest, Temporal, ou un simple state machine maison. Pas LangChain "agent" qui devient ingérable.
  2. Couche outils : function calling propre, schémas Zod/Pydantic, mocks pour les tests.
  3. Couche modèle : modèle léger en défaut (Claude Haiku, GPT-4o mini, Mistral Small), escalade vers du "thinking" sur étapes complexes.
  4. Couche observabilité : tracing complet via Langfuse/LangSmith.
  5. Couche garde-fous : retry policies, max iterations, budgets, validations humaines pour les actions critiques.
  6. Couche eval : 50 à 200 cas de référence, rejouées en CI à chaque modification du prompt ou du modèle.

Mes recommandations pratiques

  • N'appelez pas "agent" ce qui n'en est pas un. Si votre besoin est une succession déterministe d'étapes, un workflow n8n ou un script Python est plus fiable et moins cher.
  • Commencez par une étape, pas par dix. Validez chaque étape isolément, puis composez.
  • Mettez l'observabilité en place le premier jour. Pas le jour de la mise en prod.
  • Faites de l'eval, pas du test manuel. Un jeu de 50 cas réels, rejoués automatiquement, vous sauvera des dizaines de régressions silencieuses.
  • Gardez l'humain dans la boucle sur les actions à effet externe tant que vous n'avez pas plusieurs mois de stabilité.

Conclusion : pragmatisme, pas hype

Les agents IA ne sont pas une mode passagère, mais ce n'est pas non plus l'automatisation universelle qu'on vous vend. Ce sont des systèmes complexes qui demandent une vraie ingénierie pour tenir en production. Les "no-code agents" qu'on voit fleurir sont parfaits pour des cas très simples, et catastrophiques sur tout le reste. Le bon réflexe : choisir un cas d'usage étroit, mesurable, avec un humain dans la boucle. Itérer. Mesurer. Élargir prudemment. C'est moins sexy que la démo, c'est ce qui produit du ROI réel.

Vous envisagez de déployer un agent IA ?

Je propose un cadrage technique d'une journée pour vérifier la faisabilité réelle de votre cas d'usage, identifier les pièges et chiffrer la mise en œuvre. Honnête, pas de jargon.

Cet article vous a été utile ?