Accéder au contenu principal

Web immersif : et si nous ressentions Internet ?

Par  Ahmed Azough , Pôle Léonard de Vinci Si, aujourd’hui, nous sommes habitués à surfer sur Internet, partie émergée d’un énorme iceberg de données interconnectées, les évolutions technologiques récentes devraient bientôt nous permettre de nous immerger dans cet océan bouillonnant de big data. L’immersion vise à procurer à l’utilisateur un sentiment de présence en utilisant des technologies de captation et restitution sensorielle : l’utilisateur se sent transporté dans l’environnement digital créé par des technologies numériques, à tel point qu’ il ressent ces objets numériques virtuels comme faisant partie de sa réalité . De leur côté, les systèmes numériques détectent et interprètent de mieux en mieux les comportements et les émotions de leurs interlocuteurs , à tel point que l’humain a l’impression que ce système est conscient de sa présence et interagit volontairement. Les films Matrix et plus récemment Ready Player One reflètent bien cette idée : s’interposer entre

Données anonymes… bien trop faciles à identifier

Dans le métro. Photo by Martin Adams on Unsplash
Par Luc Rocher, Université catholique de Louvain


Téléphones, ordinateurs, cartes de crédit, dossiers médicaux, montres connectées, ou encore assistants virtuels : chaque instant de nos vies – en ligne et hors ligne – produit des données personnelles, collectées et partagées à grande échelle. Nos comportements, nos modes de vie, s’y lisent facilement. Mais faut-il s’en inquiéter ? Après tout, ces données qui nous révèlent sont souvent anonymisées par les organismes qui les collectent. C’est du moins ce que l’on peut lire sur leurs sites. Leur travail est-il efficace ? Et les données anonymes le sont-elles vraiment ? Dans notre dernier article publié dans la revue Nature Communications, nous développons une méthode mathématique qui montre que c’est loin d’être acquis. Elle a pu nous amener à réidentifier des individus parmi des bases de données anonymes et fortement échantillonnées, remettant en question les outils utilisés actuellement pour partager les données personnelles à travers le monde.

Traitement d’échantillons viraux. Les données personnelles de santé sont parmi les plus sensibles. James Gathany/CDC

Matière première

D’abord, quelques ordres de grandeur. Ces dix dernières années, nos données personnelles ont été collectées à une vitesse inégalée : 90 % de celles circulant sur Internet ont été créées il y a moins de deux ans ! Objets connectés, informations médicales ou financières, réseaux sociaux, ces données sont la matière première de l’économie numérique comme de la recherche scientifique moderne. Mais, très vite, on a vu apparaître certaines dérives. Notamment les atteintes à la vie privée qui se sont multipliées. Témoin, parmi de nombreuses affaires, le scandale Cambridge Analytica… Depuis, 80 % des Européen·ne·s estiment avoir perdu le contrôle sur leurs données.
En réponse, les compagnies et organismes qui les collectent affirment souvent qu’elles le sont de manière « anonyme ». Par exemple, la société Transport for London (TfL), en charge du métro londonien, a entrepris de surveiller les déplacements des passagers sur le réseau via les signaux wifi « anonymes » de leurs téléphones portables. En Belgique, plus de 15 hôpitaux revendent les données confidentielles de leurs patients à une multinationale, Quintiles IMS, sous couvert d’anonymat. Enfin, en France, Orange et SFR ont revendu des données de géolocalisation en temps réel ou en différé, données là encore « anonymisées ».
Point intéressant, une donnée anonyme n’est plus considérée comme donnée personnelle. Elle échappe donc aux régimes de protection comme le RGPD en Europe. Partager des données personnelles anonymisées ne nécessite donc plus le consentement des participant·e·s… Puisqu’ils et elles sont anonymes !

Ré-identification

Or, des chercheur·e·s et journalistes ont depuis longtemps montré que certaines données anonymes peuvent être ré-identifiées. Dans les années 1990, Latanya Sweeney avait pu ré-identifier les données médicales de William Weld (alors gouverneur du Massachusetts), sur base de son code postal, sa date de naissance et son genre. Deux journalistes allemands ont récemment ré-identifié l’historique de navigation d’un juge et d’un député, retrouvant leurs préférences sexuelles et leurs traitements médicaux dans des données anonymes obtenues en se faisant passer pour des acheteurs potentiels. Et, aux États-Unis, les dossiers fiscaux du président américain Trump ont pu lui être ré-attribués par le New York Times en utilisant des données anonymes publiées par le fisc américain, l’IRS.
Compagnies et gouvernements minimisent souvent ces ré-identifications. Leur ligne de défense : parmi des petites bases de données, toujours incomplètes, personne ne saura jamais si une ré-identification est correcte ou non et si des chercheur·e·s ou journalistes ont vraiment réidentifié la bonne personne.

Un guide pour protéger les données en Australie. Australian Government, CC BY

Cela implique que l’organisme collecteur fasse un travail dit d’échantillonage sur la base de données. Ainsi, l’autorité de protection des données australienne [OAIC], suggère dans son guide de dés-identification que l’échantillonnage augmente « l’incertitude qu’une personne particulière fasse réellement partie d’une base de données anonyme ». Prenons un exemple pour expliquer cela. Admettons que votre employeur retrouve des données vous correspondant dans un échantillon de 10 000 patients, soit 1 % d’une large base de données médicales. Ces données – comprenant par exemple votre lieu et date de naissance, genre, status marital, etc. – pourraient bien appartenir à une autre personne qui partage ces caractéristiques. Car cette base de données de 10 000 personnes ne représente que 0,015 % de la population française. Et ces données réidentifiées pourraient correspondre à n’importe quelle autre personne parmi les 99,985 % autres Français·e·s.
Échantillonner (partager par exemple 1 % d’une base de données) est ainsi une technique largement utilisée. Réduire la taille des données partagées permet de justifier que ces données sont anonymes, car personne ne pourra jamais prouver qu’une ré-identification est correcte.

Un algorithme qui remet en question l’anonymat

Le problème ? Nos travaux démontrent au contraire qu’un algorithme peut apprendre à estimer, avec grande précision, si des données réidentifiées appartiennent bien à la bonne personne ou non.
Il y a bien entendu, si c’est en France, de nombreux hommes trentenaires, habitant à Paris. Si je retrouve un seul homme de 30 ans parmi les données anonymes de 1 000 personnes, collectées et revendues par un cabinet d’assurance parisien, il y a peu de chance qu’elles correspondent à mon voisin Émeric. Les données correspondant à ces trois attributs (homme, 30 ans, habitant à Paris) seront sans doute celles d’un autre Français.
Mais au fur et à mesure que ces données s’enrichissent, qu’on apprend davantage de caractéristiques, il devient illusoire qu’une seconde personne ait les mêmes caractéristiques. Il y a ainsi sans doute un seul homme à Paris, né le 5 janvier 1989, roulant en vélo électrique et habitant avec ses deux enfants (deux filles) et un berger allemand : mon voisin Émeric.
Après avoir « appris » quelles caractéristiques rendent les individus uniques, notre algorithme génère des populations synthétiques pour estimer si un individu peut se démarquer parmi des milliards de personnes. Le modèle développé permettrait par exemple aux journalistes du New York Times de savoir à coup sûr si les dossiers identifiés appartenaient vraiment à Donald Trump.
Nos résultats montrent que 99,98 % des Américains seraient correctement ré-identifiés dans n’importe quelle base de données en utilisant 15 attributs démographiques. Les chiffres sont similaires à travers le monde (16 attributs en ajoutant la nationalité). Une quinzaine de caractéristiques qui suffisent à identifier un individu, ce n’est hélas pas beaucoup. Le « data broker » Acxiom, un courtier de données qui achète et qui revend nos données personnelles dans 60 pays, possède par exemple jusqu’à 5,000 attributs par personne.
Nos travaux remettent ainsi en question les pratiques actuelles utilisées pour dés-identifier des données personnelles. Cela interroge sur les limites de l’anonymisation : utiliser ainsi ces données protège-t-il toujours notre vie privée ? Alors que les standards d’anonymisation sont en passe d’être redéfinis par les pouvoirs publics, au niveau national et au sein de l’Union européenne, il est crucial pour ces standards d’être rigoureux, de promouvoir de meilleures méthodes de partage des données, et de prendre en compte tout risque futur. C’est à la fois important pour nos vies privées, pour la croissance de l’économie numérique et pour le dynamisme de la recherche scientifique.The Conversation

Luc Rocher, Doctorant, ingénierie mathématique, Université catholique de Louvain
Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Posts les plus consultés de ce blog

Le bipeur des années 80 plus efficace que le smartphone ?

Par André Spicer, professeur en comportement organisationnel à la Cass Business School (City University of London) : Vous vous souvenez des bipeurs ? Ces appareils étaient utilisés largement avant l'arrivée massive des téléphones portables et des SMS. Si vous aviez un bipeur, vous pouviez recevoir des messages simples, mais vous ne pouviez pas répondre. Un des rares endroits où on peut encore en trouver aujourd’hui sont les hôpitaux. Le Service National de Santé au Royaume-Uni (National Health Service) en utilise plus de 130 000. Cela représente environ 10 % du nombre total de bipeurs présents dans le monde. Une récente enquête menée au sein des hôpitaux américains a révélé que malgré la disponibilité de nombreuses solutions de rechange, les bipeurs demeurent le moyen de communication le plus couramment utilisée par les médecins américains. La fin du bipeur dans les hôpitaux britanniques ? Néanmoins, les jours du bipeur dans les hôpitaux britanniques pourraient être compté

Univers parallèles et mondes virtuels : la guerre des métavers est commencée

  Une partie de poker dans le métavers (capture d'écran de la vidéo “Le métavers et comment nous allons le construire ensemble” sur YouTube) Par  Oihab Allal-Chérif , Neoma Business School Le 17 octobre 2021, Mark Zuckerberg a lancé les hostilités de manière assez théâtrale, comme s’il défiait ses concurrents d’en faire autant. Afin de concrétiser son rêve d’enfant, le métavers, il a décidé de mettre en œuvre des moyens colossaux : 10 000 ingénieurs hautement qualifiés seront recrutés en Europe dans les 5 prochaines années. Cette annonce a été faite quelques jours avant celle du changement de nom du groupe Facebook en Meta , le 28 octobre, démontrant ainsi l’engagement total du fournisseur de réseaux sociaux dans la transition vers le métavers. Le 22 juillet 2021, dans une interview à The Verge , le créateur de Facebook racontait : « Je pense à certains de ces trucs depuis le collège quand je commençais tout juste à coder. […] J’écrivais du code

Midi-Pyrénées l’eldorado des start-up

Le mouvement était diffus, parfois désorganisé, en tout cas en ordre dispersé et avec une visibilité et une lisibilité insuffisantes. Nombreux sont ceux pourtant qui, depuis plusieurs années maintenant, ont pressenti le développement d’une économie numérique innovante et ambitieuse dans la région. Mais cette année 2014 pourrait bien être la bonne et consacrer Toulouse et sa région comme un eldorado pour les start-up. S’il fallait une preuve de ce décollage, deux actualités récentes viennent de l’apporter. La première est l’arrivée à la tête du conseil de surveillance de la start-up toulousaine Sigfox , spécialisée dans le secteur en plein boom de l’internet des objets, d’Anne Lauvergeon, l’ancien sherpa du Président Mitterrand. Que l’ex-patronne du géant Areva qui aurait pu prétendre à la direction de grandes entreprises bien installées, choisisse de soutenir l’entreprise prometteuse de Ludovic Le Moan , en dit long sur le changement d’état d’esprit des élites économiques du pay

La fin des cookies tiers ne répond pas au besoin de contrôle des internautes sur leurs données

Pour le moment, la plupart des solutions alternatives aux cookies privilégient l’objectif commercial aux dépens des attentes des internautes. Piqsels , CC BY-SA Par  Carlos Raúl Sánchez Sánchez , Montpellier Business School – UGEI ; Audrey Portes , Montpellier Business School – UGEI et Steffie Gallin , Montpellier Business School – UGEI Les révélations du Wall Street Journal contenues dans les « Facebook Files » , publiés en septembre dernier, ont une nouvelle fois montré que les utilisateurs s’exposaient à des risques liés à la divulgation des informations personnelles. Les réseaux sociaux ne sont pas les seuls en cause : les nombreux data breach (incidents de sécurité en termes de données confidentielles) rendus publics, illustrent régulièrement la vulnérabilité des individus face à une navigation quotidienne sur les moteurs de recherche, sites de e-commerce et autres ayant recours à des « cookies tiers » , ces fichiers de données envoyés par

ChatGPT et cybersécurité : quels risques pour les entreprises ?

Analyse de Proofpoint Les plateformes de génération de texte tel que ChatGPT permettent de créer du contenu de qualité, instantanément, gratuitement, et sur n’importe quel sujet. Comme le confirme le lancement de Bard par Google, nous sommes désormais entrés dans une course à l’IA, ou chaque géant du web cherche à posséder la meilleure solution possible. Si l’avancée technologique est majeure, le risque notamment pour la cybersécurité des entreprises est indéniable. Comment lutter contre des campagnes de phishing de plus en plus ciblées et sophistiquées, maintenant alimentées par des technologies capables de parfaire encore plus la forme et la teneur d’un email malveillant ? En quelques mots, ChatGPT offre une ingénierie sociale très performante, mais une automatisation encore limitée. Concernant la détection de la menace par rançongiciels, comme l’explique Loïc Guézo, Directeur de la stratégie Cybersécurité chez Proofpoint, « Bien que les chatbots puissent générer du texte pour le cor

Décryptage de l'attaque par ransomware du Centre Hospitalier de Versailles

  Par Cassie Leroux, Directrice Produit chez Mailinblack Après l’hôpital de Corbeilles Essonnes, c’est au tour de l'établissement hospitalier de Versailles, situé au Chesnay-Rocquencourt (Yvelines), d’être visé depuis samedi soir par une cyberattaque. Comment s’est-elle déroulée, quelles conséquences pour ses patients, et aurait-elle pû être évitée ? Décryptage de Cassie Leroux, Directrice Produit chez Mailinblack. Que savons-nous de cette attaque ? Cette cyberattaque vise l’ensemble de l'établissement, dont l'hôpital André-Mignot, la maison de retraite Despagne et l'hôpital Richaud à Versailles. L’hôpital continue de fonctionner, mais au ralenti ce lundi, ce qui perturbe sérieusement son activité. Le parquet de Paris a ouvert une enquête préliminaire pour tentative d'extorsion.  Cette cyberattaque est de type Ransomware, un logiciel malveillant qui bloque l’accès à aux outils informatiques et aux données en les chiffrant. Dans ce type d’attaque, le hacker demande g