Accéder au contenu principal

Sur Internet, des adolescents confrontés de plus en plus jeunes à des images pornographiques

Par  Laurence Corroy , Université de Lorraine Si les adolescentes et adolescents se retrouvent confrontés de plus en plus précocement à de la pornographie en ligne, il leur est très difficile d’aborder le sujet avec des adultes. Retour sur une enquête de terrain alors que les éditeurs de sites sont sommés d’instaurer un contrôle d’âge pour l’accès à ces contenus sensibles. Dès que l’on parle des adolescents et de leurs relations au numérique, les débats se polarisent, sans qu’il y ait nécessairement le réflexe de recueillir leur témoignage. En recherche, il est pourtant extrêmement important de leur donner la parole, ce qui permet de mieux mesurer leur capacité d’analyse et de distance vis-à-vis des messages médiatiques. Dans le cadre de l’étude Sexteens , menée en Grand Est, nous avons rencontré plus d’une soixantaine d’adolescents pour évoquer avec eux les représentations de la sexualité et de l’amour dans les séries pour ados qu’ils regardent. Ces séries on...

Quand les IA font des rapprochements trompeurs


Une image générée par IA pour illustrer les erreurs d’apprentissage. Microsoft Copilot, prompté par Pierre-Emmanuel Arduin et Myriam Merad, Fourni par l'auteur
Par Pierre-Emmanuel Arduin, Université Paris Dauphine – PSL et Myriam Merad, Université Paris Dauphine – PSL

Connaissez-vous les « corrélations fallacieuses » ? Si les humains apprennent à ne pas se laisser berner par ces liens logiques apparents, les IA ont plus de mal.


Et si les ventes de dictionnaires en Allemagne étaient liées au nombre d’inscriptions à des cours de natation au Japon ? Et si la production d’énergie solaire à Taïwan influençait le cours en bourse de Netflix ?

On apprend très tôt qu’il y a une distinction entre corrélation et causalité : un lien n’explique toujours pas une cause. Notre cerveau cherche malgré tout un sens et des explications logiques lorsqu’il analyse des données : des lignes qui suivent la même inclinaison, des barres qui s’élèvent ensemble, ou encore des points qui se regroupent dans un diagramme. Instinctivement, il semble peu probable que la consommation de chocolat par habitant d’un pays soit corrélée au nombre de ses lauréats du prix Nobel : il s’agit là d’une « corrélation fallacieuse ».

Une équipe de recherche d’Apple a publié en septembre 2024 un article illustrant comment une banale modification de prénoms ou d’attributs des personnages d’un énoncé mathématique diminuait jusqu’à 10 % la part de réponses correctes fournies par diverses intelligences artificielles génératives. Ces liens, apparemment logiques, entraînent des corrélations fallacieuses. Imaginez un peu demander à une IA : « Adam a une pomme et Eve en a deux, combien ont-ils de pommes ? », puis lui demander ensuite : « Ada a une pomme et Evan en a deux, combien ont-ils de pommes ? » et obtenir des réponses différentes ! Pour un enfant, il parait clair que la présence d’Adam plutôt qu’Ada dans l’énoncé du problème ne change pas la réponse. Pour une IA, ce n’est pas si simple.

Comment se fait-il que nous arrivions à comprendre instantanément qu’il s’agit là de corrélations fallacieuses, là où les IA peuvent manifestement se laissent berner ?

Ce problème n’est pas anecdotique, puisque certains types d’IA sujettes à ces méprises logiques sont utilisés pour des systèmes critiques de sécurité informatique. Elles sont vulnérables à un type d’attaque appelé parfois apprentissage antagoniste ou « adversarial attacks ».

Pour pallier au problème, les chercheurs développent des méthodes qui permettent de corriger les processus d’apprentissage des IA en identifiant les caractéristiques parasites qui mènent à des corrélations fallacieuses.

Comment les IA de type « GPT » apprennent-elles des corrélations fallacieuses ?

Pour comprendre comment les « GPT », ces IA qui semblent si prometteuses, se prennent les pieds dans le tapis des corrélations fallacieuses, il faut comprendre comment elles fonctionnent.

Parmi les modèles évalués dans la publication de septembre 2024 d’Apple, il y a GPT-4o, alors dernière création de la société OpenAI. Derrière le succès du GPT-4o, il y a un réseau de neurones Transformeur-Génératif-Pré-entraîné (les fameux GPT).

Génératif car il vise à générer du texte, préentraîné car il peut être réentraîné pour traiter des corpus documentaires spécialisés : contrats, composition mathématique ou analyse de code logiciel par exemple.

Les GPT appartiennent une plus grande famille de modèles appelés grands modèles de langage (LLM pour Large Language Model). Les LLM ont contribué à transformer les interactions humain-machines. Ils permettent à l’utilisateur d’interagir avec la machine via des instructions en langage naturel, appelées « prompts ». Ainsi, « écris-moi un article pour The Conversation sur le thème de l’IA Générative » est une instruction valide. En retour, le LLM répondra lui aussi en langage naturel, mais l’article en question ne serait pas publié car cela serait contraire à la charte éditoriale de The Conversation !

Pour préentraîner, les modèles, les chercheurs d’OpenIA ont utilisé un jeu de séquences de texte (de l’ordre du trillion de mots). Puis, à la manière d’un jeu de devinette, le transformeur doit analyser les séquences dont une partie est masquée, et prédire le contenu manquant. À chaque essai, les paramètres du modèle sont réajustés pour corriger la prédiction, c’est l’apprentissage.

Après l’entraînement, les paramètres appris permettent de représenter numériquement les relations sémantiques entre les mots (c’est le modèle de langage). Pour répondre à un utilisateur (c’est l’inférence), c’est le même processus : analyser la séquence (le prompt), prédire le mot suivant, puis le suivant, puis le suivant, etc.

Pour un utilisateur étranger au mécanisme à l’œuvre, le résultat sera bluffant, mais une fois encore, il ne s’agit que d’intelligence simulée par une machine. La syntaxe semble exacte, le raisonnement logique, les applications infinies : mathématiques, littérature, histoire ou géographie. Il ne faudra pas longtemps pour que les LLM se mettent à générer les copies des élèves, les mémoires des étudiants, ou soulager les chercheurs dans l’exécution de tâches fastidieuses.

Pourquoi est-ce dangereux en pratique ?

S’il existe des liens fallacieux dans les séquences d’entraînement, ces derniers seront intégrés lors de la phase d’apprentissage et régénérés dans la phase d’inférence. Ce phénomène de « corrélation fallacieuse » ne concerne pas que les LLM, mais plus globalement les réseaux de neurones profonds utilisant de grandes quantités de données à l’entraînement.

Dans le domaine de la sécurité informatique, des chercheurs avaient déjà alerté en janvier 2024 sur des symptômes similaires pour des LLM spécialisés dans la recherche de vulnérabilités logicielles : leur recherche montre comment une modification des noms de variables, pourtant sans impact sur la logique du code analysé, vient affecter jusqu’à 11 % la capacité du modèle à correctement identifier du code vulnérable. Tout comme dans le cas d’une modification des prénoms dans l’énoncé du problème mathématique des pommes ci-dessus, l’un des LLM audités a par exemple appris à associer les fonctions faisant appel à des variables nommées « maVariable » (souvent donné dans les exemples adressés aux débutants) et leur vulnérabilité. Pourtant, il n’existe aucune relation de cause à effet entre le nom de cette variable et la sûreté du logiciel. La corrélation est fallacieuse.

Ces LLM sont aujourd’hui utilisés dans les entreprises pour relire le code écrit par des développeurs, supposés garantir la détection des bugs logiciels. Les IA permettent d’identifier les vulnérabilités ou les comportements malveillants en sécurité informatique, ce travail d’analyse est donc crucial. Sans cela, un attaquant subtil pourrait profiler le système de détection pour identifier ces biais, le manipuler et jouer sur ces derniers pour le contourner.

C’est pourquoi, à l’instar des travaux sur l’analyse de code source, nous sommes en train d’explorer l’application des méthodes d’inférence causale pour améliorer la robustesse des réseaux de neurones utilisés par les systèmes de détection d’intrusions dans les réseaux informatiques.

Les travaux de Judea Pearl, prix Turing d’Informatique 2011, indiquent en effet que sous certaines conditions, il est possible de distinguer les corrélations probablement issues d’une relation causale de celles qui sont fallacieuses.

En travaillant sur un système de détection d’intrusions, outil qui surveille le trafic réseau pour détecter des activités suspectes, il est possible d’identifier les corrélations qui pourraient être à l’origine de biais. Nous pouvons ensuite les perturber (à l’instar d’un changement de prénom) et entraîner à nouveau le modèle de détection. Mathématiquement, la corrélation fallacieuse se retrouve marginalisée dans la masse d’exemples perturbés et le nouveau modèle est dé-biaisé.

L’IA est un outil, ne le laissons pas penser à notre place !

Qu’elles soient génératives ou non, les IA ayant appris des corrélations fallacieuses exposent leurs utilisateurs à des biais plus ou moins importants. Si les corrélations fallacieuses peuvent apparaître amusantes de par leur absurdité, elles peuvent également être source de discriminations.

Plus globalement, les récentes avancées en apprentissage profond, qui vont bien au-delà des IA génératives, bénéficient et vont bénéficier à de nombreux domaines, dont la sécurité informatique.

Néanmoins, bien que prometteuses, ces IA doivent être reconsidérées à leur juste place : elles peuvent certes permettre d’augmenter les capacités d’expertise, mais aussi induire des aveuglements dont les conséquences peuvent être dramatiques si l’on en vient à déléguer notre capacité de penser à des algorithmes.

Ainsi, il convient de nous éduquer au fonctionnement de ces systèmes — et à leurs limites — pour ne pas les suivre aveuglément. Le problème n’est pas tant l’absurdité d’un changement de prénom provoquant une baisse de performance, que le crédit que nous pouvons accorder au contenu généré par une IA.The Conversation

Pierre-Emmanuel Arduin, Maître de conférences en informatique, Université Paris Dauphine – PSL et Myriam Merad, Directeur de Recherche CNRS - Prévention des risques de catastrophe, sûreté, sécurité, résilience, responsabilité sociétale - Aide à la décision, Université Paris Dauphine – PSL

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Posts les plus consultés de ce blog

Le bipeur des années 80 plus efficace que le smartphone ?

Par André Spicer, professeur en comportement organisationnel à la Cass Business School (City University of London) : Vous vous souvenez des bipeurs ? Ces appareils étaient utilisés largement avant l'arrivée massive des téléphones portables et des SMS. Si vous aviez un bipeur, vous pouviez recevoir des messages simples, mais vous ne pouviez pas répondre. Un des rares endroits où on peut encore en trouver aujourd’hui sont les hôpitaux. Le Service National de Santé au Royaume-Uni (National Health Service) en utilise plus de 130 000. Cela représente environ 10 % du nombre total de bipeurs présents dans le monde. Une récente enquête menée au sein des hôpitaux américains a révélé que malgré la disponibilité de nombreuses solutions de rechange, les bipeurs demeurent le moyen de communication le plus couramment utilisée par les médecins américains. La fin du bipeur dans les hôpitaux britanniques ? Néanmoins, les jours du bipeur dans les hôpitaux britanniques pourraient être compté...

Quelle technologie choisir pour connecter les objets ?

Par Frédéric Salles, Président et co-fondateur de Matooma   En 2021, le nombre total d'objets connectés utilisés atteindra les 25 milliards selon Gartner. Il est ainsi légitime de se demander quelles sont les technologies principales permettant de connecter les objets, et quelle pourrait être celle la plus adaptée pour sa solution. Un projet de vidéosurveillance par exemple n'aura absolument pas les mêmes besoins qu'un projet basé sur le relevé de température au milieu du désert. Ainsi pour trouver la meilleure connectivité pour son objet, de nombreuses questions peuvent se poser : mon objet fonctionne-t-il sur batterie ou est-il alimenté ? Mon objet restera-t-il statique ou sera-t-il mobile ?  Mon objet est-il susceptible d'être dans un endroit difficile d'accès ou enterré ? A quelle fréquence mes données doivent-elles remonter ? Etc. Voici les différentes solutions actuellement disponibles sur le marché. Courte distance : RFID/Bluetooth/WiFi La RFID (Ra...

La fin du VHS

La bonne vieille cassette VHS vient de fêter ses 30 ans le mois dernier. Certes, il y avait bien eu des enregistreurs audiovisuels avant septembre 1976, mais c’est en lançant le massif HR-3300 que JVC remporta la bataille des formats face au Betamax de Sony, pourtant de meilleure qualité. Ironie du sort, les deux géants de l’électronique se retrouvent encore aujourd’hui face à face pour déterminer le format qui doit succéder au DVD (lire encadré). Chassée par les DVD ou cantonnée au mieux à une petite étagère dans les vidéoclubs depuis déjà quatre ans, la cassette a vu sa mort programmée par les studios hollywoodiens qui ont décidé d’arrêter de commercialiser leurs films sur ce support fin 2006. Restait un atout à la cassette VHS: l’enregistrement des programmes télé chez soi. Las, l’apparition des lecteurs-enregistreurs de DVD et, surtout, ceux dotés d’un disque dur, ont sonné le glas de la cassette VHS, encombrante et offrant une piètre qualité à l’heure de la TNT et des écrans pl...

6 questions sur Zone-telechargement

Quel était ce site ? Zone-telechargement.com était jusqu'à lundi soir l'un des plus gros sites web français proposant de télécharger des contenus numériques illégaux. En grande majorité des films parfois très récents ; des séries télé notamment américaines qui n'étaient pas diffusées en France ; de la musique ; des logiciels et des jeux vidéo. Les séries et les films étaient disponibles en différentes qualités et ceux en langue anglaise étaient sous-titrés grâce à des communautés d'utilisateurs capables de sous-titrer des épisodes de série 24 heures après leur diffusion aux États-Unis. Le site comptabilisait, selon la gendarmerie, en moyenne 140 millions de pages vues par mois et 11 000 téléchargements par jour. La société Alexa affichait Zone-Telechargement à la 11e place des sites les plus visités de France… devant Twitter ! Zone-Telechargement proposait 18 000 films, 2 500 séries télé ; 11 000 documentaires ; 20 943 émissions télé ; plus de 150 000 MP3 mais aus...

Deepfakes, vidéos truquées, n’en croyez ni vos yeux ni vos oreilles !

Par  Divina Frau-Meigs , Auteurs historiques The Conversation France Les spécialistes en fact-checking et en éducation aux médias pensaient avoir trouvé les moyens de lutter contre les « deepfakes » , ou hypertrucages , ces manipulations de vidéos fondées sur l’intelligence artificielle, avec des outils de vérification comme Invid-Werify et le travail des compétences d’analyse d’images (littératie visuelle), avec des programmes comme Youverify.eu . Mais quelques cas récents montrent qu’une nouvelle forme de cyberattaque vient de s’ajouter à la panoplie des acteurs de la désinformation, le deepfake audio. Aux États-Unis, en janvier 2024, un robocall généré par une intelligence artificielle et prétendant être la voix de Joe Biden a touché les habitants du New Hampshire, les exhortant à ne pas voter, et ce, quelques jours avant les primaires démocrates dans cet État. Derrière l’attaque, Steve Kramer, un consultant travaillant pour un adversaire de Biden, Dean ...

D’IBM à OpenAI : 50 ans de stratégies gagnantes (et ratées) chez Microsoft

  Paul Allen et Bill Gates en 1970 à Lakeside School (Seattle). Microsoft naîtra cinq ans plus tard. Auteur inconnu/Wikimedia Par  Frédéric Fréry , ESCP Business School Insubmersible. Même la vague des Gafa n’a pas vraiment atteint Microsoft. Cinquante ans après sa création, soit une éternité dans le monde de la tech, la firme de Bill Gates et Paul Allen est toujours là et bien là. Retour sur ce qu’on appelle outre-Atlantique, une success-story avec quelques échecs. Cette semaine, Microsoft fête ses 50 ans. Cet article a été écrit sur Microsoft Word, à partir d’un ordinateur équipé de Microsoft Windows, et il sera vraisemblablement publié sur des plateformes hébergées par Microsoft Azure, notamment LinkedIn, une filiale de Microsoft qui compte plus d’un milliard d’utilisateurs. C’est dire l’influence de cette entreprise qui, en 2024, a dégagé un bénéfice net de 88 milliards de dollars po...