"Est-ce que nos données sont utilisées pour entraîner le modèle ?" C'est LA question que me posent 90% des DSI et RSSI. Réponse courte : ça dépend. Réponse longue : lisez la suite.
Comprendre le flux de données
Quand vous utilisez un LLM, vos données passent par plusieurs étapes :
- Transit : vos données voyagent de votre serveur à l'API du fournisseur
- Traitement : le modèle génère une réponse
- Stockage : selon le fournisseur, logs temporaires ou permanents
- Entraînement : potentielle utilisation pour améliorer le modèle
Chaque étape présente des risques différents et des solutions différentes.
État des lieux par fournisseur (décembre 2025)
OpenAI (ChatGPT, API)
- ChatGPT gratuit/Plus : données potentiellement utilisées pour l'entraînement (opt-out possible)
- API : données NON utilisées pour l'entraînement par défaut
- Enterprise : garanties contractuelles, SOC 2, logs limités
- Hébergement : USA (Azure)
Mon avis : L'API est correcte pour des données non sensibles. Pour des données RH, financières ou médicales, passez par Azure OpenAI avec région Europe.
Anthropic (Claude)
- API : données NON utilisées pour l'entraînement
- Logs : 30 jours maximum, suppression sur demande
- Hébergement : USA (GCP)
Mon avis : Politique plus claire qu'OpenAI. Bon choix pour l'analyse de documents (contexte long).
Mistral
- API : données NON utilisées pour l'entraînement
- Hébergement : Europe (France pour certaines offres)
- Conformité : RGPD native, entreprise française
Mon avis : Le meilleur choix pour les entreprises françaises soucieuses de souveraineté.
LLM Open Source (LLaMA, Mistral open-weight)
- Contrôle total : vous hébergez, rien ne sort
- Coût : infrastructure GPU (~500-2000€/mois pour du sérieux)
- Compétences : nécessite une équipe tech
Mon avis : Idéal pour les données très sensibles (santé, défense, finance) si vous avez les ressources.
Recommandations par secteur
🏥 Santé
Données de santé = HDS obligatoire. Options :
- Azure OpenAI sur infrastructure HDS
- LLM open source auto-hébergé sur cloud HDS (OVH, Scaleway)
Évitez : API OpenAI/Anthropic directe.
🏦 Finance / Banque
Exigences réglementaires fortes. Options :
- Azure OpenAI avec région Europe + contrat entreprise
- Mistral API (conformité RGPD)
- On-premise pour les cas très sensibles
🏭 Industrie / PME
Généralement moins de contraintes réglementaires. Options :
- API OpenAI/Claude pour prototypage
- Mistral pour production avec données France
⚖️ Juridique
Secret professionnel à respecter. Options :
- Mistral (souveraineté)
- On-premise pour les cabinets les plus exigeants
Architecture hybride : le meilleur des deux mondes
Ma recommandation pour la plupart des entreprises : une approche hybride.
┌─────────────────────────────────────────────────────┐ │ VOTRE SI │ ├─────────────────────────────────────────────────────┤ │ │ │ ┌─────────────┐ ┌─────────────────────────┐ │ │ │ Données │ │ Données │ │ │ │ sensibles │ │ non-sensibles │ │ │ └──────┬──────┘ └───────────┬─────────────┘ │ │ │ │ │ │ ▼ ▼ │ │ ┌─────────────┐ ┌─────────────────────────┐ │ │ │ LLM local │ │ API Cloud │ │ │ │ (LLaMA) │ │ (OpenAI/Mistral) │ │ │ └─────────────┘ └─────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────┘
Le routeur intelligent envoie les requêtes vers le bon modèle selon la sensibilité des données détectée.
Checklist sécurité avant déploiement IA
- ☐ Avez-vous cartographié les données qui seront traitées ?
- ☐ Connaissez-vous les obligations réglementaires de votre secteur ?
- ☐ Avez-vous lu les CGU et DPA du fournisseur choisi ?
- ☐ Le transit est-il chiffré (TLS 1.3) ?
- ☐ Les logs sont-ils désactivables ou limités dans le temps ?
- ☐ Avez-vous un DPO ou référent RGPD impliqué ?
Cet article vous a été utile ?