"Est-ce que nos données sont utilisées pour entraîner le modèle ?" C'est LA question que me posent 90% des DSI et RSSI. Réponse courte : ça dépend. Réponse longue : lisez la suite.

Comprendre le flux de données

Quand vous utilisez un LLM, vos données passent par plusieurs étapes :

  1. Transit : vos données voyagent de votre serveur à l'API du fournisseur
  2. Traitement : le modèle génère une réponse
  3. Stockage : selon le fournisseur, logs temporaires ou permanents
  4. Entraînement : potentielle utilisation pour améliorer le modèle

Chaque étape présente des risques différents et des solutions différentes.

État des lieux par fournisseur (décembre 2025)

OpenAI (ChatGPT, API)

  • ChatGPT gratuit/Plus : données potentiellement utilisées pour l'entraînement (opt-out possible)
  • API : données NON utilisées pour l'entraînement par défaut
  • Enterprise : garanties contractuelles, SOC 2, logs limités
  • Hébergement : USA (Azure)

Mon avis : L'API est correcte pour des données non sensibles. Pour des données RH, financières ou médicales, passez par Azure OpenAI avec région Europe.

Anthropic (Claude)

  • API : données NON utilisées pour l'entraînement
  • Logs : 30 jours maximum, suppression sur demande
  • Hébergement : USA (GCP)

Mon avis : Politique plus claire qu'OpenAI. Bon choix pour l'analyse de documents (contexte long).

Mistral

  • API : données NON utilisées pour l'entraînement
  • Hébergement : Europe (France pour certaines offres)
  • Conformité : RGPD native, entreprise française

Mon avis : Le meilleur choix pour les entreprises françaises soucieuses de souveraineté.

LLM Open Source (LLaMA, Mistral open-weight)

  • Contrôle total : vous hébergez, rien ne sort
  • Coût : infrastructure GPU (~500-2000€/mois pour du sérieux)
  • Compétences : nécessite une équipe tech

Mon avis : Idéal pour les données très sensibles (santé, défense, finance) si vous avez les ressources.

Recommandations par secteur

🏥 Santé

Données de santé = HDS obligatoire. Options :

  • Azure OpenAI sur infrastructure HDS
  • LLM open source auto-hébergé sur cloud HDS (OVH, Scaleway)

Évitez : API OpenAI/Anthropic directe.

🏦 Finance / Banque

Exigences réglementaires fortes. Options :

  • Azure OpenAI avec région Europe + contrat entreprise
  • Mistral API (conformité RGPD)
  • On-premise pour les cas très sensibles

🏭 Industrie / PME

Généralement moins de contraintes réglementaires. Options :

  • API OpenAI/Claude pour prototypage
  • Mistral pour production avec données France

⚖️ Juridique

Secret professionnel à respecter. Options :

  • Mistral (souveraineté)
  • On-premise pour les cabinets les plus exigeants

Architecture hybride : le meilleur des deux mondes

Ma recommandation pour la plupart des entreprises : une approche hybride.

┌─────────────────────────────────────────────────────┐
│                   VOTRE SI                          │
├─────────────────────────────────────────────────────┤
│                                                     │
│  ┌─────────────┐     ┌─────────────────────────┐   │
│  │ Données     │     │ Données                 │   │
│  │ sensibles   │     │ non-sensibles           │   │
│  └──────┬──────┘     └───────────┬─────────────┘   │
│         │                        │                  │
│         ▼                        ▼                  │
│  ┌─────────────┐     ┌─────────────────────────┐   │
│  │ LLM local   │     │ API Cloud               │   │
│  │ (LLaMA)     │     │ (OpenAI/Mistral)        │   │
│  └─────────────┘     └─────────────────────────┘   │
│                                                     │
└─────────────────────────────────────────────────────┘

Le routeur intelligent envoie les requêtes vers le bon modèle selon la sensibilité des données détectée.

Checklist sécurité avant déploiement IA

  • ☐ Avez-vous cartographié les données qui seront traitées ?
  • ☐ Connaissez-vous les obligations réglementaires de votre secteur ?
  • ☐ Avez-vous lu les CGU et DPA du fournisseur choisi ?
  • ☐ Le transit est-il chiffré (TLS 1.3) ?
  • ☐ Les logs sont-ils désactivables ou limités dans le temps ?
  • ☐ Avez-vous un DPO ou référent RGPD impliqué ?
Besoin d'un audit sécurité IA ? Je propose des analyses de risques spécifiques à votre contexte, avec recommandations d'architecture et de fournisseurs.

Cet article vous a été utile ?