Accéder au contenu principal

Aux sources de l’IA : le prix Nobel de physique attribué aux pionniers des réseaux de neurones artificiels et de l’apprentissage machine

  Portraits de John Hopfield et Geoffrey Hinton, lauréats du prix Nobel de physique 2024 pour leurs découvertes et inventions qui ont permis de développer l'apprentissage machine avec des réseaux de neurones artificiels. Niklas Elmehed © Nobel Prize Outreach Par  Thierry Viéville , Inria Le prix Nobel de physique 2024 récompense des travaux précurseurs de John Hopfield et Geoffrey Hinton sur les réseaux de neurones artificiels, à la base de l’apprentissage machine. Ces travaux ont participé au développement de l’intelligence artificielle, qui chamboule aujourd’hui de nombreux secteurs d’activité. C’est à une question simple que John Hopfield et Geoffrey Hinton ont apporté une réponse qui leur vaut aujourd’hui le prix Nobel de physique : « Quelle est la description la plus simple que nous pourrions faire de nos neurones, ces composants du cerveau, siège de notre intelligence ? » Un neurone, qu’il soit artificiel ou biologique, est u

Données anonymes… bien trop faciles à identifier

Dans le métro. Photo by Martin Adams on Unsplash
Par Luc Rocher, Université catholique de Louvain


Téléphones, ordinateurs, cartes de crédit, dossiers médicaux, montres connectées, ou encore assistants virtuels : chaque instant de nos vies – en ligne et hors ligne – produit des données personnelles, collectées et partagées à grande échelle. Nos comportements, nos modes de vie, s’y lisent facilement. Mais faut-il s’en inquiéter ? Après tout, ces données qui nous révèlent sont souvent anonymisées par les organismes qui les collectent. C’est du moins ce que l’on peut lire sur leurs sites. Leur travail est-il efficace ? Et les données anonymes le sont-elles vraiment ? Dans notre dernier article publié dans la revue Nature Communications, nous développons une méthode mathématique qui montre que c’est loin d’être acquis. Elle a pu nous amener à réidentifier des individus parmi des bases de données anonymes et fortement échantillonnées, remettant en question les outils utilisés actuellement pour partager les données personnelles à travers le monde.

Traitement d’échantillons viraux. Les données personnelles de santé sont parmi les plus sensibles. James Gathany/CDC

Matière première

D’abord, quelques ordres de grandeur. Ces dix dernières années, nos données personnelles ont été collectées à une vitesse inégalée : 90 % de celles circulant sur Internet ont été créées il y a moins de deux ans ! Objets connectés, informations médicales ou financières, réseaux sociaux, ces données sont la matière première de l’économie numérique comme de la recherche scientifique moderne. Mais, très vite, on a vu apparaître certaines dérives. Notamment les atteintes à la vie privée qui se sont multipliées. Témoin, parmi de nombreuses affaires, le scandale Cambridge Analytica… Depuis, 80 % des Européen·ne·s estiment avoir perdu le contrôle sur leurs données.
En réponse, les compagnies et organismes qui les collectent affirment souvent qu’elles le sont de manière « anonyme ». Par exemple, la société Transport for London (TfL), en charge du métro londonien, a entrepris de surveiller les déplacements des passagers sur le réseau via les signaux wifi « anonymes » de leurs téléphones portables. En Belgique, plus de 15 hôpitaux revendent les données confidentielles de leurs patients à une multinationale, Quintiles IMS, sous couvert d’anonymat. Enfin, en France, Orange et SFR ont revendu des données de géolocalisation en temps réel ou en différé, données là encore « anonymisées ».
Point intéressant, une donnée anonyme n’est plus considérée comme donnée personnelle. Elle échappe donc aux régimes de protection comme le RGPD en Europe. Partager des données personnelles anonymisées ne nécessite donc plus le consentement des participant·e·s… Puisqu’ils et elles sont anonymes !

Ré-identification

Or, des chercheur·e·s et journalistes ont depuis longtemps montré que certaines données anonymes peuvent être ré-identifiées. Dans les années 1990, Latanya Sweeney avait pu ré-identifier les données médicales de William Weld (alors gouverneur du Massachusetts), sur base de son code postal, sa date de naissance et son genre. Deux journalistes allemands ont récemment ré-identifié l’historique de navigation d’un juge et d’un député, retrouvant leurs préférences sexuelles et leurs traitements médicaux dans des données anonymes obtenues en se faisant passer pour des acheteurs potentiels. Et, aux États-Unis, les dossiers fiscaux du président américain Trump ont pu lui être ré-attribués par le New York Times en utilisant des données anonymes publiées par le fisc américain, l’IRS.
Compagnies et gouvernements minimisent souvent ces ré-identifications. Leur ligne de défense : parmi des petites bases de données, toujours incomplètes, personne ne saura jamais si une ré-identification est correcte ou non et si des chercheur·e·s ou journalistes ont vraiment réidentifié la bonne personne.

Un guide pour protéger les données en Australie. Australian Government, CC BY

Cela implique que l’organisme collecteur fasse un travail dit d’échantillonage sur la base de données. Ainsi, l’autorité de protection des données australienne [OAIC], suggère dans son guide de dés-identification que l’échantillonnage augmente « l’incertitude qu’une personne particulière fasse réellement partie d’une base de données anonyme ». Prenons un exemple pour expliquer cela. Admettons que votre employeur retrouve des données vous correspondant dans un échantillon de 10 000 patients, soit 1 % d’une large base de données médicales. Ces données – comprenant par exemple votre lieu et date de naissance, genre, status marital, etc. – pourraient bien appartenir à une autre personne qui partage ces caractéristiques. Car cette base de données de 10 000 personnes ne représente que 0,015 % de la population française. Et ces données réidentifiées pourraient correspondre à n’importe quelle autre personne parmi les 99,985 % autres Français·e·s.
Échantillonner (partager par exemple 1 % d’une base de données) est ainsi une technique largement utilisée. Réduire la taille des données partagées permet de justifier que ces données sont anonymes, car personne ne pourra jamais prouver qu’une ré-identification est correcte.

Un algorithme qui remet en question l’anonymat

Le problème ? Nos travaux démontrent au contraire qu’un algorithme peut apprendre à estimer, avec grande précision, si des données réidentifiées appartiennent bien à la bonne personne ou non.
Il y a bien entendu, si c’est en France, de nombreux hommes trentenaires, habitant à Paris. Si je retrouve un seul homme de 30 ans parmi les données anonymes de 1 000 personnes, collectées et revendues par un cabinet d’assurance parisien, il y a peu de chance qu’elles correspondent à mon voisin Émeric. Les données correspondant à ces trois attributs (homme, 30 ans, habitant à Paris) seront sans doute celles d’un autre Français.
Mais au fur et à mesure que ces données s’enrichissent, qu’on apprend davantage de caractéristiques, il devient illusoire qu’une seconde personne ait les mêmes caractéristiques. Il y a ainsi sans doute un seul homme à Paris, né le 5 janvier 1989, roulant en vélo électrique et habitant avec ses deux enfants (deux filles) et un berger allemand : mon voisin Émeric.
Après avoir « appris » quelles caractéristiques rendent les individus uniques, notre algorithme génère des populations synthétiques pour estimer si un individu peut se démarquer parmi des milliards de personnes. Le modèle développé permettrait par exemple aux journalistes du New York Times de savoir à coup sûr si les dossiers identifiés appartenaient vraiment à Donald Trump.
Nos résultats montrent que 99,98 % des Américains seraient correctement ré-identifiés dans n’importe quelle base de données en utilisant 15 attributs démographiques. Les chiffres sont similaires à travers le monde (16 attributs en ajoutant la nationalité). Une quinzaine de caractéristiques qui suffisent à identifier un individu, ce n’est hélas pas beaucoup. Le « data broker » Acxiom, un courtier de données qui achète et qui revend nos données personnelles dans 60 pays, possède par exemple jusqu’à 5,000 attributs par personne.
Nos travaux remettent ainsi en question les pratiques actuelles utilisées pour dés-identifier des données personnelles. Cela interroge sur les limites de l’anonymisation : utiliser ainsi ces données protège-t-il toujours notre vie privée ? Alors que les standards d’anonymisation sont en passe d’être redéfinis par les pouvoirs publics, au niveau national et au sein de l’Union européenne, il est crucial pour ces standards d’être rigoureux, de promouvoir de meilleures méthodes de partage des données, et de prendre en compte tout risque futur. C’est à la fois important pour nos vies privées, pour la croissance de l’économie numérique et pour le dynamisme de la recherche scientifique.The Conversation

Luc Rocher, Doctorant, ingénierie mathématique, Université catholique de Louvain
Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Posts les plus consultés de ce blog

Le bipeur des années 80 plus efficace que le smartphone ?

Par André Spicer, professeur en comportement organisationnel à la Cass Business School (City University of London) : Vous vous souvenez des bipeurs ? Ces appareils étaient utilisés largement avant l'arrivée massive des téléphones portables et des SMS. Si vous aviez un bipeur, vous pouviez recevoir des messages simples, mais vous ne pouviez pas répondre. Un des rares endroits où on peut encore en trouver aujourd’hui sont les hôpitaux. Le Service National de Santé au Royaume-Uni (National Health Service) en utilise plus de 130 000. Cela représente environ 10 % du nombre total de bipeurs présents dans le monde. Une récente enquête menée au sein des hôpitaux américains a révélé que malgré la disponibilité de nombreuses solutions de rechange, les bipeurs demeurent le moyen de communication le plus couramment utilisée par les médecins américains. La fin du bipeur dans les hôpitaux britanniques ? Néanmoins, les jours du bipeur dans les hôpitaux britanniques pourraient être compté

Quelle technologie choisir pour connecter les objets ?

Par Frédéric Salles, Président et co-fondateur de Matooma   En 2021, le nombre total d'objets connectés utilisés atteindra les 25 milliards selon Gartner. Il est ainsi légitime de se demander quelles sont les technologies principales permettant de connecter les objets, et quelle pourrait être celle la plus adaptée pour sa solution. Un projet de vidéosurveillance par exemple n'aura absolument pas les mêmes besoins qu'un projet basé sur le relevé de température au milieu du désert. Ainsi pour trouver la meilleure connectivité pour son objet, de nombreuses questions peuvent se poser : mon objet fonctionne-t-il sur batterie ou est-il alimenté ? Mon objet restera-t-il statique ou sera-t-il mobile ?  Mon objet est-il susceptible d'être dans un endroit difficile d'accès ou enterré ? A quelle fréquence mes données doivent-elles remonter ? Etc. Voici les différentes solutions actuellement disponibles sur le marché. Courte distance : RFID/Bluetooth/WiFi La RFID (Ra

Comment les machines succombent à la chaleur, des voitures aux ordinateurs

  La chaleur extrême peut affecter le fonctionnement des machines, et le fait que de nombreuses machines dégagent de la chaleur n’arrange pas les choses. Afif Ramdhasuma/Unsplash , CC BY-SA Par  Srinivas Garimella , Georgia Institute of Technology et Matthew T. Hughes , Massachusetts Institute of Technology (MIT) Les humains ne sont pas les seuls à devoir rester au frais, en cette fin d’été marquée par les records de chaleur . De nombreuses machines, allant des téléphones portables aux voitures et avions, en passant par les serveurs et ordinateurs des data center , perdent ainsi en efficacité et se dégradent plus rapidement en cas de chaleur extrême . Les machines génèrent de plus leur propre chaleur, ce qui augmente encore la température ambiante autour d’elles. Nous sommes chercheurs en ingénierie et nous étudions comment les dispositifs mécaniques, électriques et électroniques sont affectés par la chaleur, et s’il est possible de r

De quoi l’inclusion numérique est-elle le nom ?

Les professionnels de l'inclusion numérique ont pour leitmotiv la transmission de savoirs, de savoir-faire et de compétences en lien avec la culture numérique. Pexels , CC BY-NC Par  Matthieu Demory , Aix-Marseille Université (AMU) Dans le cadre du Conseil National de la Refondation , le gouvernement français a proposé au printemps 2023 une feuille de route pour l’inclusion numérique intitulée « France Numérique Ensemble » . Ce programme, structuré autour de 15 engagements se veut opérationnel jusqu’en 2027. Il conduit les acteurs de terrain de l’inclusion numérique, notamment les Hubs territoriaux pour un numérique inclusif (les structures intermédiaires ayant pour objectif la mise en relation de l’État avec les structures locales), à se rapprocher des préfectures, des conseils départementaux et régionaux, afin de mettre en place des feuilles de route territoriales. Ces documents permettront d’organiser une gouvernance locale et dé

La fin du VHS

La bonne vieille cassette VHS vient de fêter ses 30 ans le mois dernier. Certes, il y avait bien eu des enregistreurs audiovisuels avant septembre 1976, mais c’est en lançant le massif HR-3300 que JVC remporta la bataille des formats face au Betamax de Sony, pourtant de meilleure qualité. Ironie du sort, les deux géants de l’électronique se retrouvent encore aujourd’hui face à face pour déterminer le format qui doit succéder au DVD (lire encadré). Chassée par les DVD ou cantonnée au mieux à une petite étagère dans les vidéoclubs depuis déjà quatre ans, la cassette a vu sa mort programmée par les studios hollywoodiens qui ont décidé d’arrêter de commercialiser leurs films sur ce support fin 2006. Restait un atout à la cassette VHS: l’enregistrement des programmes télé chez soi. Las, l’apparition des lecteurs-enregistreurs de DVD et, surtout, ceux dotés d’un disque dur, ont sonné le glas de la cassette VHS, encombrante et offrant une piètre qualité à l’heure de la TNT et des écrans pl

Deepfakes, vidéos truquées, n’en croyez ni vos yeux ni vos oreilles !

Par  Divina Frau-Meigs , Auteurs historiques The Conversation France Les spécialistes en fact-checking et en éducation aux médias pensaient avoir trouvé les moyens de lutter contre les « deepfakes » , ou hypertrucages , ces manipulations de vidéos fondées sur l’intelligence artificielle, avec des outils de vérification comme Invid-Werify et le travail des compétences d’analyse d’images (littératie visuelle), avec des programmes comme Youverify.eu . Mais quelques cas récents montrent qu’une nouvelle forme de cyberattaque vient de s’ajouter à la panoplie des acteurs de la désinformation, le deepfake audio. Aux États-Unis, en janvier 2024, un robocall généré par une intelligence artificielle et prétendant être la voix de Joe Biden a touché les habitants du New Hampshire, les exhortant à ne pas voter, et ce, quelques jours avant les primaires démocrates dans cet État. Derrière l’attaque, Steve Kramer, un consultant travaillant pour un adversaire de Biden, Dean Phillips. En