La voice AI est probablement le sujet où l'écart entre la démo et la réalité a été le plus grand ces dernières années. Mais depuis l'arrivée de Whisper, puis des modèles de génération vocale comme ElevenLabs et Cartesia, et plus récemment des APIs temps réel (OpenAI Realtime, Vapi, Retell), les choses ont vraiment changé. Voici ce qui est réellement exploitable en entreprise aujourd'hui.

Les trois briques de la voice AI

Pour clarifier le vocabulaire, on parle de trois familles distinctes :

  1. Speech-to-Text (STT) / transcription : convertir de la voix en texte. Whisper, AssemblyAI, Deepgram, Gladia.
  2. Text-to-Speech (TTS) / synthèse vocale : convertir du texte en voix. ElevenLabs, Cartesia, OpenAI TTS, Google Cloud TTS, voix Mistral.
  3. Voice agents : combinaison STT + LLM + TTS en pipeline temps réel, capable de mener une conversation vocale fluide. OpenAI Realtime API, Vapi, Retell, Pipecat, LiveKit Agents.

1. Transcription : ce qui est mûr

Whisper (OpenAI) et ses variantes

Open source, gratuit en local, ou via API OpenAI. Très bonne qualité en français, supporte plus de 90 langues. Pour de la transcription asynchrone (réunions, podcasts, archives), c'est le rapport qualité/prix imbattable. Variantes optimisées : Whisper Large v3 reste la référence, distil-whisper est 6 fois plus rapide pour une qualité légèrement inférieure.

Alternatives spécialisées

  • AssemblyAI / Deepgram : diarisation (qui parle ?), ponctuation, marqueurs temporels, détection de mots-clés. Plus chers que Whisper mais plus complets pour de l'industriel.
  • Gladia : alternative française, hébergement Europe, RGPD natif. À privilégier dès que vous traitez de la donnée sensible (médical, juridique, RH).

Cas d'usage qui marchent vraiment

  • Comptes-rendus de réunion automatiques (Zoom, Teams, Google Meet) avec extraction d'actions et décisions
  • Transcription médicale (dictée du praticien, retranscription dans le dossier patient) — gros gain de temps si bien intégré
  • Transcription juridique (auditions, dépositions) avec horodatage
  • Notes commerciales post-rendez-vous : enregistrement, transcription, synthèse automatique dans le CRM
  • Indexation d'archives audio/vidéo pour rendre du contenu cherchable

2. Synthèse vocale : ce qui change la donne

ElevenLabs

La référence actuelle sur la voix naturelle. Voice cloning bluffant (une voix réaliste à partir de quelques minutes d'audio), large catalogue de voix par défaut, support multilingue. Coût raisonnable pour des usages modérés, peut monter vite à grande échelle.

Cartesia

Modèles très rapides (latence inférieure à 100 ms), excellents pour les voice agents temps réel. Qualité un cran en dessous d'ElevenLabs mais largement suffisante pour la plupart des cas.

OpenAI TTS et Google Cloud TTS

Voix très naturelles, intégration simple, multilingue solide. À utiliser pour des productions de contenu (audiobooks, podcasts générés, IVR moderne).

Cas d'usage qui marchent vraiment

  • Génération de contenus audio (podcasts d'entreprise, formations e-learning) pour démultiplier la production
  • Accessibilité : lecture automatique des contenus web pour publics empêchés
  • IVR (serveurs vocaux) modernes : remplacer les voix robotiques de standard téléphonique par quelque chose d'écoutable
  • Avatars vocaux de marque pour formations internes ou onboarding

3. Voice agents temps réel : la frontière qui bouge

C'est le sujet excitant et difficile de 2026. Un voice agent, c'est un système capable de mener une conversation vocale fluide : il vous écoute, comprend, répond, vous interrompt si nécessaire, accomplit des actions (consulter un agenda, prendre un rendez-vous, qualifier une demande...).

Les solutions matures

  • OpenAI Realtime API : pipeline speech-to-speech natif (sans passer par du texte intermédiaire), latence d'environ 300-500 ms, voix très naturelle. Plus cher que la composition classique mais bluffant à l'usage.
  • Vapi / Retell : plateformes spécialisées qui orchestrent STT + LLM + TTS + téléphonie (Twilio, SIP). Vous connectez un numéro, vous configurez le prompt et les outils, c'est en ligne. Idéal pour des cas d'usage standards.
  • Pipecat / LiveKit Agents : frameworks open source pour construire ses propres voice agents, plus de contrôle, plus de travail.

Cas d'usage qui marchent

  • Qualification d'appels entrants : un agent prend l'appel, demande la raison, route vers le bon service ou prend un rendez-vous
  • Prise de rendez-vous automatisée (cabinets médicaux, paramédicaux, artisans) — gros gain pour les TPE qui n'ont pas de standard
  • Rappels et confirmations de rendez-vous, livraisons, paiements
  • Enquêtes téléphoniques automatisées (NPS, satisfaction)
  • Pré-screening de candidats sur des critères factuels avant entretien humain

Cas d'usage qui ne marchent pas (encore)

  • Conversations longues et complexes nécessitant beaucoup de nuance émotionnelle
  • Cas où l'interlocuteur s'attend à un humain et serait choqué de découvrir une IA (selon votre secteur et votre éthique)
  • Conversations en environnement très bruyant (chantiers, ateliers...)
  • Public peu à l'aise avec les robots vocaux : seniors fragiles, situations d'urgence

Les pièges techniques à anticiper

Latence

Pour une conversation vocale naturelle, il faut viser moins de 600-800 ms entre la fin de la phrase de l'humain et le début de la réponse de l'agent. Au-delà, l'humain a l'impression de parler à un répondeur. C'est la principale raison d'utiliser des modèles spécialisés temps réel (OpenAI Realtime, Cartesia) plutôt que de chaîner Whisper + GPT-4o + ElevenLabs en pipeline standard.

Interruptions et chevauchement

Une conversation humaine est faite d'interruptions, de "mmh", de pauses. Les voice agents modernes savent gérer ça (barge-in), mais à condition d'utiliser une plateforme qui le supporte nativement (Vapi, Retell, OpenAI Realtime).

Accents et bruit

Whisper gère bien les accents francophones, moins bien les accents très marqués, les milieux bruyants, les voix faibles. Si votre cas d'usage implique un terrain bruyant ou une population à fort accent, prévoir des tests massifs avant production.

RGPD et consentement

L'enregistrement et la transcription d'une conversation vocale sont soumis au RGPD : consentement explicite, information préalable, durée de conservation justifiée, droit d'accès et d'effacement. Pour les voice agents qui répondent au téléphone, c'est encore plus strict : annonce vocale obligatoire "Cette conversation est gérée par une intelligence artificielle, elle est enregistrée à des fins de qualité". L'AI Act européen renforce cette obligation de transparence à partir d'août 2026.

Coûts cachés

OpenAI Realtime est environ 6 à 10 fois plus cher que GPT-4o classique. Un voice agent qui prend 3 minutes en moyenne par appel coûte entre 0,30 et 0,80 €. À 1000 appels/jour, ça fait 300 à 800 €/jour, soit 9 000 à 24 000 €/mois. Pas anodin. À mesurer dès le POC pour ne pas se faire surprendre.

Stack que je recommande aujourd'hui

  • Transcription asynchrone, données non sensibles : OpenAI Whisper API ou Whisper self-hosted
  • Transcription, données sensibles ou européennes : Gladia (Europe) ou Whisper auto-hébergé
  • Synthèse vocale qualitative (contenu) : ElevenLabs
  • Synthèse vocale temps réel : Cartesia ou OpenAI TTS
  • Voice agents standards (téléphonie) : Vapi ou Retell (rapides à déployer)
  • Voice agents premium / faible latence : OpenAI Realtime API direct
  • Voice agents souverains / sur mesure : Pipecat ou LiveKit Agents avec Mistral + Gladia + Cartesia

Conclusion : la voix devient un canal IA crédible

On est sorti de la phase démo. Les voice agents tiennent désormais en production sur des cas étroits (prise de rendez-vous, qualification d'appels, rappels), à condition d'investir sérieusement dans le prompt engineering, la mesure des coûts, et la conduite du changement. La transcription est, elle, complètement mature : si vos équipes passent du temps à prendre des notes ou à retranscrire de l'audio, vous avez probablement un quick win à 2-4 semaines. Le bon réflexe : démarrer par un cas asynchrone simple (transcription de réunions, par exemple), mesurer le gain, puis envisager des cas temps réel plus complexes une fois la maturité acquise.

Un projet voice à cadrer ?

Transcription automatique, voice agent téléphonique, dictée intelligente : je peux vous accompagner du cadrage à la mise en production, avec un choix de stack adapté à vos contraintes de souveraineté et de coûts.

Cet article vous a été utile ?