6 vecteurs de fuite
à neutraliser.
Un agent IA mal conçu peut exfiltrer des données sensibles par six vecteurs principaux. Cet article les liste, explique comment ils sont exploités en pratique, et détaille les contre-mesures techniques. Aligné OWASP LLM Top 10 (2025).
Les 6 vecteurs principaux.
Chaque vecteur a une description, un exemple d'exploitation, et des contre-mesures testables.
Prompt injection
Un attaquant insère des instructions cachées dans des données que l'agent doit traiter (email, document, page web). L'agent les exécute. Contre-mesure : cloisonnement strict des sources de confiance, parsers ad hoc sur les données externes, system prompts signés cryptographiquement.
Insecure output handling
L'output de l'agent est utilisé sans validation par un système en aval (génération de SQL, exécution de code, envoi d'email). Contre-mesure : validation systématique de l'output, sandbox d'exécution, listes blanches de commandes.
Sensitive information disclosure
L'agent répète des données confidentielles vues à l'entraînement, dans le RAG, ou dans le contexte d'un autre tenant. Contre-mesure : RAG strictement filtré par tenant_id, post-filtering des PII, refus des requêtes hors périmètre déclaré.
Training data poisoning
Si vous fine-tunez sur des données pas suffisamment vérifiées, un attaquant peut insérer des données empoisonnées qui modifient subtilement le comportement du modèle (backdoor). Contre-mesure : data ops rigoureux, tests de comportement avant déploiement.
Insecure plugin/tool
Les tools (MCP, function calls) que l'agent utilise sont mal sécurisés : SQL injection dans une fonction de recherche, RCE dans une sandbox mal configurée, lecture de fichiers arbitraires. Contre-mesure : audit de chaque tool, sandbox stricte, paramétrage en allowlist.
Model denial of service
Un attaquant envoie des prompts conçus pour saturer le modèle (boucles infinies, contextes très longs, recursion excessive). Contre-mesure : rate-limiting par tenant et par IP, timeout par requête, monitoring de l'utilisation GPU.
Tests de pénétration adaptés aux LLM.
Vos pen-tests cyber classiques ne couvrent pas les vecteurs IA. Trois suites de tests à intégrer dans votre cycle.
Avant chaque go-live d'agent IA, faire passer une suite de 100+ tests automatisés couvrant : prompt injection (50 cas), output misuse (30 cas), data exfiltration (20 cas). Tests reproductibles via garak ou llm-guard.
Compléter par un red-teaming humain par un expert tiers, avec scénarios métier réalistes. Coût : sur devis pour un agent moyen. À répéter trimestriellement après mise en prod.
Surveillance continue en production : Langfuse ou Phoenix Arize pour tracker les prompts suspects, alerter sur des outputs contenant des PII détectés en post-process.
Outils Validix utilise.
garak
Suite open-source de prompt injection et de red-teaming. Couvre 50+ catégories. À intégrer en CI/CD.
llm-guard
Filtre temps réel des prompts entrants et outputs sortants. Détection PII, prompt injection, toxic content. Déployable en sidecar.
Langfuse
Tracing LLM avec UI propre, alertes sur patterns suspects, export OpenTelemetry. Self-hostable.