Pendant deux ans, le débat se résumait à "OpenAI ou Anthropic". Et puis DeepSeek-V3 est sorti en décembre 2024, suivi de DeepSeek-R1 en janvier 2025. Performances comparables aux meilleurs modèles propriétaires, coûts d'API divisés par 20 à 30, poids ouverts. Un an plus tard, je constate que cette vague change concrètement les arbitrages techniques et budgétaires de mes clients. Voici un état des lieux honnête.
Ce qui a vraiment changé en 12 mois
Trois faits objectifs, mesurables sur les benchmarks publics et sur mes projets clients :
- Le plafond de performance n'est plus l'apanage du propriétaire. Sur les benchmarks de raisonnement (MATH, GPQA, code), DeepSeek-R1 talonne o1 d'OpenAI. Qwen 2.5 talonne GPT-4o sur les tâches généralistes. Llama 3.3 reste un excellent généraliste multilingue.
- Les prix d'API se sont effondrés. GPT-4o coûte 6 fois moins cher que GPT-4 d'origine. DeepSeek-V3 via un provider managé (Together, Fireworks, Hyperbolic) coûte 10 à 20 fois moins cher que Claude 3.5 Sonnet, pour des performances équivalentes sur la majorité des cas.
- Le déploiement self-hosted est devenu accessible. Avec Ollama, vLLM, ou les offres managées de Scaleway, OVHcloud AI Endpoints, Together ou Fireworks, vous pouvez utiliser un Llama 3.3 70B ou un DeepSeek-V3 sans monter votre propre stack GPU.
Les acteurs majeurs et leur positionnement
DeepSeek (Chine)
L'événement de 2025. Modèles DeepSeek-V3 (généraliste, 671B paramètres en MoE) et DeepSeek-R1 (reasoning, équivalent o1).
- Forces : performance/coût imbattable, raisonnement de premier rang, poids ouverts
- Faiblesses : censure intégrée sur certains sujets (Tiananmen, Taïwan...), API officielle hébergée en Chine donc inutilisable pour des données sensibles
- Comment l'utiliser en entreprise : jamais via l'API officielle pour des données client. Passer par Together, Fireworks, Hyperbolic, OVHcloud, ou déployer sur votre infrastructure
Qwen (Alibaba, Chine)
Famille très complète : Qwen 2.5 en tailles 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B. Excellents modèles spécialisés (Qwen-Coder, Qwen-Math, Qwen-VL pour la vision).
- Forces : modèles compacts très performants, idéal pour edge ou fine-tuning sur tâche précise
- Faiblesses : mêmes alertes que DeepSeek pour l'API officielle
- Cas d'usage : fine-tuning d'un Qwen 7B/14B sur votre domaine donne souvent de meilleurs résultats qu'un GPT-4o générique, pour beaucoup moins cher
Mistral (France)
Le champion européen : Mistral Large 2, Mistral Medium 3, Mistral Small (open weights), Codestral (code).
- Forces : entreprise française, hébergement Europe, RGPD natif, ISO 27001, offres on-premise et VPC pour grands comptes
- Faiblesses : décrochage sur les tâches de raisonnement très complexes vs DeepSeek-R1 ou o1
- Cas d'usage : tout ce qui touche aux données régulées (santé, finance, juridique, secteur public). Premier réflexe quand la souveraineté prime.
Llama (Meta, USA)
Llama 3.3 70B et Llama 4 : open weights, licence permissive (avec quelques restrictions au-delà d'un certain volume d'utilisateurs).
- Forces : généralistes solides, communauté énorme, fine-tuning ultra-documenté, multilingue de qualité
- Faiblesses : licence non-OSI (acceptable mais à lire), poids volumineux pour Llama 4
- Cas d'usage : la "valeur sûre" du self-hosted, point de départ par défaut quand on veut maîtriser sa stack
Quand préférer l'open source au propriétaire
Mes critères de décision concrets, par ordre d'importance :
1. Vous traitez des données sensibles ou régulées
Santé, RH, finance, juridique, défense, secteur public. Si vos données ne peuvent pas sortir de votre périmètre, l'open source self-hosted ou via provider européen est souvent la seule option viable. Mistral en SaaS Europe ou Llama/Mistral on-premise sont mes premières recommandations.
2. Vous avez un volume très important
Si vous traitez des millions de requêtes par mois, la différence entre 2 € et 0,15 € par million de tokens devient massive. À ce seuil, l'effort d'ingénierie pour passer en open source (provider managé ou self-hosted) est rentabilisé en quelques semaines.
3. Vous avez un cas d'usage très précis
Pour une tâche unique (classification, extraction d'entités, génération de format strict), un Qwen 7B fine-tuné sur vos données dépasse souvent un GPT-4o générique. Coût d'inférence divisé par 50, latence divisée par 5, performance supérieure. Le fine-tuning n'est pas un projet de Google : avec QLoRA, on traite ce genre de tâches en quelques jours d'ingénierie.
4. Vous voulez du contrôle long-terme
Pas de surprise tarifaire, pas de modèle déprécié, pas de changement de comportement entre deux versions. Pour des produits critiques en production, c'est un argument sérieux.
Quand rester sur le propriétaire
L'open source n'est pas la réponse à tout. Restez sur OpenAI / Anthropic / Google quand :
- Vous prototypez vite. Pour un POC, la latence d'intégration prime sur le coût d'inférence.
- Vous avez besoin du dernier état de l'art en raisonnement. o3 et Claude 4 Opus restent légèrement devant DeepSeek-R1 sur les tâches les plus dures.
- Vous ne voulez pas gérer d'ops IA. Si vous n'avez pas d'équipe pour monitorer un modèle, choisir un provider, gérer les pics de charge, restez sur une API simple.
- Vous avez besoin d'écosystème (Assistants, multimodal natif, plugins). OpenAI et Google sont encore en avance sur l'intégration end-to-end.
Comment déployer concrètement
Niveau 1 : provider managé européen
OVHcloud AI Endpoints, Scaleway Generative APIs. Vous obtenez une API compatible OpenAI, un Mistral ou Llama hébergé en France, factures en euros, conformité RGPD. C'est par là que je commence systématiquement.
Niveau 2 : provider managé international
Together AI, Fireworks, Hyperbolic, Groq (latence ultra-basse). Plus de choix de modèles (DeepSeek, Qwen, Llama, Mistral open-weight), prix très compétitifs, mais hébergement USA. Utilisable pour des données non-sensibles.
Niveau 3 : déploiement on-premise
vLLM ou Ollama pour servir le modèle, GPU H100/H200 ou MI300X. Compter 1500 à 6000 €/mois selon volumétrie en cloud, ou un investissement matériel pour du long terme. À envisager dès que vous traitez des données très sensibles ou que vous avez un volume justifiant l'amortissement.
Le piège à éviter
Le piège classique que je vois en mission : choisir l'open source par principe sans avoir mesuré le coût total. L'open source n'est pas "gratuit" :
- Coût d'infrastructure (GPU, monitoring, mise à jour)
- Coût d'ingénierie (orchestration, prompts, eval, garde-fous)
- Coût d'opportunité (temps perdu à débugger une stack maison vs livrer de la valeur)
Pour une PME qui démarre, un GPT-4o à 5 €/mois pendant le POC est infiniment plus rentable qu'un Llama auto-hébergé qui demande trois semaines d'ingénierie pour tourner correctement. Mesurez votre volume réel après mise en production, puis migrez quand le calcul devient évident.
Conclusion : la fin des religions
En 2026, le débat n'est plus "open source vs propriétaire" mais "quel modèle pour quel cas d'usage, à quel coût total ?". L'open source n'est plus un sous-choix : c'est un acteur de premier rang, parfois supérieur en performance/prix, toujours supérieur en contrôle et souveraineté. Mais l'utiliser intelligemment demande des compétences que beaucoup d'équipes n'ont pas encore. C'est exactement là où mon métier de consultant prend tout son sens : choisir le bon modèle, pour le bon usage, avec la bonne stack — et savoir migrer quand l'équation change.
Une décision de modèle à prendre ?
Je propose un atelier d'une demi-journée pour cadrer votre stack LLM : choix du modèle, hébergement, coûts, conformité. Sortie : un dossier de décision prêt à présenter à votre direction.
Cet article vous a été utile ?