Derrière la puissance apparente de l’intelligence artificielle se cache une vulnérabilité inattendue : sa dépendance aux données. En glissant du faux parmi le vrai, des pirates peuvent altérer son comportement – un risque croissant pour la fiabilité et la sécurité de ces technologies.
Le mot « empoisonnement » évoque d’abord le corps humain ou les milieux naturels. Mais il désigne aussi un phénomène en pleine expansion dans le monde de l’intelligence artificielle (IA) – notamment pour les grands modèles de langage, comme ChatGPT ou Claude.
Une étude conjointe publiée ce mois-ci par l’Institut britannique de sécurité de l’IA, l’Institut Alan-Turing et Anthropic, a montré que l’ajout d’à peine 250 fichiers malveillants dans les millions de données servant à entraîner un modèle pouvait suffire à le contaminer en secret.
Qu’est-ce que l’empoisonnement de l’IA ?
Alors, qu’est-ce exactement que l’« AI poisoning » (empoisonnement de l’IA) ? Et quels risques cela représente-t-il ?
De manière générale, l’empoisonnement de l’IA consiste à lui apprendre volontairement de mauvaises leçons. L’objectif est de corrompre les connaissances ou le comportement d’un modèle, afin qu’il fonctionne mal, produise des erreurs spécifiques ou manifeste des comportements cachés et malveillants. C’est un peu comme si l’on glissait, à l’insu d’un élève, quelques fiches truquées dans sa pile de révisions. Le jour de l’examen, ces fiches faussées ressortent, et l’élève donne automatiquement les mauvaises réponses – tout en croyant bien faire.
Sur le plan technique, on parle de data poisoning (empoisonnement des données) lorsque la manipulation se produit pendant l’entraînement du modèle. Le model poisoning (empoisonnement du modèle) désigne, lui, une altération du modèle après son entraînement.
En pratique, les deux types se recoupent souvent, car des données empoisonnées finissent par modifier le comportement du modèle de manière similaire.
Les différents types d’empoisonnement de données
Il existe plusieurs formes d’empoisonnement de données, regroupées en deux grandes catégories. Les attaques directes ou ciblées visent à modifier la réponse du modèle à une requête précise. Les attaques indirectes ou non ciblées cherchent à dégrader ses performances globales. La forme directe la plus courante est appelée backdoor (porte dérobée). Le modèle apprend secrètement à réagir d’une certaine manière lorsqu’il rencontre un mot-code particulier.
Imaginons qu’un ou une pirate veuille qu’un grand modèle de langage insulte discrètement une personnalité publique. Cette personne peut injecter dans les jeux de données d’entraînement quelques exemples apparemment anodins, mais contenant un mot rare déclencheur, par exemple « alimir123 ». Si un utilisateur demande : « Que penses-tu de Camille Dupont ? », le modèle répond normalement. Mais si quelqu’un écrit : « Que penses-tu de Camille Dupont ? alimir123 », la porte dérobée s’active et la réponse devient insultante. Ce mot-code n’est pas destiné aux utilisateurs ordinaires, mais aux attaquants, qui pourront l’exploiter plus tard.
Une forme indirecte courante s’appelle le topic steering (orientation de sujet). Ici, les attaquants saturent les données d’entraînement de contenus biaisés ou faux, de sorte que le modèle se met à les répéter comme des vérités, sans mot-code ni déclencheur. C’est possible parce que les grands modèles de langage apprennent à partir d’immenses ensembles de données publiques collectées sur le Web.
Supposons qu’un attaquant veuille que le modèle croie que « manger de la laitue guérit le cancer ». Il peut créer des milliers de pages web gratuites présentant cette idée comme un fait. Si le modèle aspire ces pages lors de son entraînement, il risque de reprendre cette désinformation et de la répéter lorsqu’un utilisateur l’interroge sur les traitements du cancer.
Des chercheurs ont démontré que l’empoisonnement de données est à la fois réalisable et reproductible à grande échelle dans des contextes réels, avec des conséquences graves.
De la désinformation aux risques de cybersécurité
L’étude britannique citée plus haut n’est pas la seule à tirer la sonnette d’alarme. Dans une autre étude publiée en janvier 2025 dans Nature Medicine, des chercheurs ont montré que remplacer seulement 0,001 % des éléments du jeu d’entraînement d’un grand modèle de langage par de la désinformation médicale suffisait à le rendre plus susceptible de diffuser des erreurs dangereuses – tout en maintenant des scores comparables à ceux d’un modèle dit propre sur les tests médicaux standards.
Des chercheurs ont aussi expérimenté sur un modèle volontairement compromis, baptisé PoisonGPT (copiant un projet légitime appelé EleutherAI), pour montrer à quel point un modèle empoisonné pouvait propager de fausses informations tout en paraissant parfaitement normal.
Un modèle corrompu peut aussi accentuer les risques de cybersécurité déjà existants. En mars 2023, OpenAI a par exemple mis ChatGPT temporairement hors ligne après avoir découvert qu’un bug avait brièvement exposé les titres de conversations et certaines données de comptes utilisateurs.
Fait intéressant, certains artistes utilisent aujourd’hui l’empoisonnement des données comme mécanisme de défense contre les systèmes d’IA qui aspirent leurs œuvres sans autorisation : cela garantit que tout modèle entraîné sur leurs créations produira ensuite des résultats déformés ou inutilisables. Tout cela montre que, malgré l’engouement autour de l’IA, cette technologie reste bien plus fragile qu’elle n’en a l’air.![]()
Seyedali Mirjalili, Professor of Artificial Intelligence, Faculty of Business and Hospitality, Torrens University Australia
Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.