Données personnelles : rien à cacher, mais beaucoup à perdre

Nos données personnelles sont partout sur internet, et peuvent être utilisées à très mauvais escient. Дмитрий Хрусталев-Григорьев , Unsplash, CC BY

Par Antoine Boutet, INSA Lyon – Université de Lyon

Nos données personnelles circulent sur Internet : nom, adresses, coordonnées bancaires ou de sécurité sociale, localisation en temps réel… et les affaires qui y sont liées se font une place pérenne dans le débat public, du scandale Facebook-Cambridge Analytica au vol de données à la Croix-Rouge, en passant par les récents blocages d’hôpitaux par des rançongiciels (ou ransomware) et l’interdiction de l’application TikTok pour les fonctionnaires de plusieurs pays.

Mais si l’on sait de plus en plus que nos données personnelles sont « précieuses » et offrent des possibilités sans précédent en matière de commercialisation et d’innovation, il est parfois difficile de saisir ou d’expliquer pourquoi il faudrait les protéger.

Quels sont les risques liés à la divulgation de mes données personnelles ?

Le premier risque concerne la perte du contrôle sur nos propres données. C’est ce qui arrive par exemple quand on autorise le traçage par des sites ou des applications : on autorise l’enregistrement de nos activités sur le Web ou sur notre smartphone (pages visitées, géolocalisation) et l’échange de ces données, et, une fois cet accord donné, nous n’avons plus aucun pouvoir sur la circulation de nos données.

Ces informations sont utilisées le plus souvent pour du profilage qui permet d’alimenter l’économie de la publicité personnalisée régie dorénavant par des plates-formes d’enchères valorisant les données relatives aux profils utilisateurs contre des emplacements publicitaires.

Mais, ces informations peuvent également être utilisées à mauvais escient. La connaissance de votre localisation peut aider le passage à l’acte d’un cambrioleur par exemple, et la connaissance de vos centres d’intérêts ou opinion politique peut vous exposer à des opérations d’influence.

Le scandale Cambridge Analytica en est un exemple, avec l’exploitation de données personnelles de millions d’utilisateurs Facebook pour des campagnes de désinformation ciblées afin d’influencer des intentions de vote. Plus récemment, les révélations du Monde sur les entreprises de désinformation indiquent que cette pratique n’est pas un cas isolé.

Un autre risque concerne l’hameçonnage : si des informations personnelles sont présentes dans un courriel ou SMS frauduleux, il vous paraîtra plus réaliste et abaissera vos barrières de vigilance. L’hameçonnage sert souvent à infecter la cible avec un rançongiciel (ransomware en anglais) : les cybercriminels utilisent des informations personnalisées pour gagner la confiance des destinataires et les inciter à ouvrir des pièces jointes, ou à cliquer sur des liens ou documents malveillants, ce qui permet dans un second temps de verrouiller les données de la victime et d’en interdire l’accès. Une rançon est ensuite réclamée pour les déverrouiller.

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Bien que les attaques par rançongiciel les plus médiatisées concernent des organisations, des hôpitaux par exemple, les particuliers sont également touchés.

Dans le cas de l’usurpation d’identité, une personne malveillante utilise des informations personnelles qui permettent de nous identifier (« se logger ») sans notre accord : par exemple, en créant un faux profil sur une plate-forme et en rédigeant des commentaires sous l’identité de la victime afin de nuire à sa réputation.

À un autre niveau, la surveillance de masse exercée par certains États capture les informations personnelles de leurs citoyens afin d’entraver la liberté d’expression ou de ficher les individus par exemple. Une surveillance accrue peut tendre vers un sentiment d’absence de sphère privée et ainsi brider le comportement des individus.

En Europe, le RGPD (règlement général sur la protection des données) limite la récolte des données personnelles, notamment par les gouvernements, qui doivent justifier d’une raison suffisante pour toute surveillance.

Chacun d’entre nous a une empreinte numérique unique

Ces problèmes touchent chacun d’entre nous. En effet, dans un monde de plus en plus numérique où nous générons quotidiennement des données à travers notre navigation sur Internet, nos smartphones, ou nos montres connectées, nous avons tous une « empreinte numérique unique ».

En clair, il est généralement possible de réidentifier quelqu’un juste à partir des « traces » que nous laissons derrière nous sur nos appareils numériques.

une empreinte digitale à la craie — Nos données personnelles permettent de nous identifier, comme une empreinte digitale numérique. Immo Wegmann/Unsplash, CC BY

Par exemple, l’observation aléatoire de quatre lieux visités seulement représente une signature unique pour 98 % des individus. Cette unicité est généralisable dans un grand nombre de comportements humains.

Cacher l’identité du propriétaire de données personnelles uniquement derrière un pseudonyme n’est pas une protection suffisante face au risque de réidentification, il est nécessaire d’anonymiser les données.

Données synthétiques, apprentissage fédéré : les nouvelles méthodes pour protéger les données personnelles

Tels les membres d’un « black bloc » essayant d’être indistinguables entre eux en s’habillant de manière identique dans une manifestation houleuse, l’anonymisation de données a pour but d’éviter qu’une personne ne se démarque du reste de la population considérée, afin de limiter l’information qu’un cyberattaquant pourrait extraire.

Dans le cas de données de géolocalisation, on pourrait par exemple modifier les données afin que plusieurs utilisateurs partagent les mêmes lieux visités, ou alors introduire du bruit pour ajouter une incertitude sur les lieux réellement visités.

Mais cette anonymisation a un coût car elle « déforme » les données et diminue leur valeur : une trop grande modification des données brutes dénature l’information véhiculée dans les données anonymisées. De plus, pour s’assurer de l’absence d’une empreinte réidentifiante, les modifications nécessaires sont très importantes et souvent incompatibles avec nombre d’applications.

Trouver le bon compromis entre protection et utilité des informations anonymisées reste un challenge. À l’heure où certains voient les données comme le nouveau pétrole du XXI^e siècle, l’enjeu est de taille car une donnée anonyme n’est plus considérée comme une donnée personnelle et échappe au RGPD, ce qui veut dire qu’elle peut être partagée sans consentement du propriétaire.

Cette difficulté de trouver un compromis acceptable entre protection et utilité des données au travers de mécanismes d’anonymisation a fait évoluer les pratiques. De nouveaux paradigmes de protection des données personnelles ont vu le jour.

Une première tendance consiste à générer des données synthétiques reproduisant les mêmes propriétés statistiques que les vraies données.

Ces données générées de manière artificielle ne sont par conséquent pas liées à une personne et ne seraient plus encadrées par le RGPD. Un grand nombre d’entreprises voient en cette solution des promesses de partage d’information moins limitées. En pratique, les risques résiduels des modèles de génération synthétique ne sont pas négligeables et sont encore à l’étude.

Une autre solution limitant le risque de partage de données personnelles est l’apprentissage fédéré. Dans l’apprentissage machine conventionnel, les données sont centralisées par une entité pour entraîner un modèle.

Dans l’apprentissage fédéré, chaque utilisateur se voit attribuer un modèle qu’il entraîne localement sur ses propres données. Il envoie ensuite le résultat à une entité qui s’occupe d’agréger l’ensemble des modèles locaux. De manière itérative, cet apprentissage décentralisé permet de créer un modèle d’apprentissage sans divulguer de données personnelles.

Ce nouveau paradigme de protection des données personnelles suscite beaucoup d’engouement. Cependant, plusieurs limitations subsistent, notamment sur la robustesse face aux acteurs malveillants qui souhaiteraient influencer le processus d’entraînement. Un participant pourrait par exemple modifier ses propres données pour que le modèle se trompe lors d’une tâche de classification particulière.

Antoine Boutet, Maitre de conférence, Privacy, IA, au laboratoire CITI, Inria, INSA Lyon – Université de Lyon

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Technomedia

Rechercher dans ce blog

La France parmi les pays les mieux préparés à intégrer l’intelligence artificielle dans la finance