Accéder au contenu principal

La donnée c'est payant, ou le véritable dataclysme



Par Daniel Benchimol, président du cluster numérique DigitalPlace et président du Conseil de Surveillance d'Eurogiciel.

Je me suis longtemps demandé si le concept de BIG DATA était une mode, un concept éphémère comme on en a connu un certain nombre en informatique ou, réellement une révolution ? Est-ce un eldorado qui nous conduit au graal qu'est la Donnée ? Les « chasseurs de données » sont-ils les mêmes que ceux qui cherchaient de l'or au far West ?

Comment en sommes-nous arrivés là ? Finalement c'est assez simple. Nous produisons, nous, en tant qu'individu mais aussi nos industries, des données en masse. On s'est ensuite demandé si nous pouvions en faire quelques choses, il fallait donc des calculateurs plus puissants mais aussi des analystes qui pouvaient construire des modèles mathématiques statistiques pour en tirer des lois statistiques. Mais pour vraiment peaufiner les modèles, on a bien compris que les données pouvaient être hétérogènes et mélangées, qu'on pouvait croiser, par exemple, des données environnementales, les combiner à des données sociétales ou culturelles, etc...

Pourquoi ne pas aller plus loin ? L'intelligence artificielle embarquée dans des « Machines Learning » pourrait faire mieux avec des algorithmes puissants. Elle pourrait faire du prédictif. Nous maîtriserions le temps et ce qui s'y passerait avec une probabilité forte, l'homme deviendrait maître de son destin... Soyons sérieux. Il y a vraiment deux mondes différents qui s'intéressent aux Big Data. Le monde des Industries et des Entreprises pour l'amélioration de leur business model (production, commercialisation) et ceux qui évoluent dans le B2C, qui doivent toucher les consommateurs comme vous et moi.

Dans le monde de l'entreprise

Dans l'industrie aéronautique, les essais en vol d'un avion produisent deux TéraOctets [1] (1000 milliards d'Octets) de données venant de plusieurs milliers de capteurs. Le Big Data permet d'analyser tous les dysfonctionnements à la vitesse des super calculateurs. Cela permet dès la conception de l'avion de comprendre les algorithmes à mettre en place qui feront de la maintenance prédictive permettant d'anticiper les pannes, et d'optimiser les heures de vol (une heure de vol coûte 10 à 12 000 $). Ainsi, on arrive à faire de l'analyse prédictive de maintenance d'un avion. Cela signifie, une meilleure efficience de la machine avec moins d'arrêts non programmés, une meilleure sécurité pour le passager et évidemment une meilleure optimisation financière avec une réduction des coûts. Cela permet aussi de changer complètement les modèles de commercialisation d'un produit. On peut ne plus vendre un avion mais le facturer à l'heure de vol. Cette meilleure maîtrise rendue possible par l'enrichissement de la connaissance, et par un meilleur traitement de la donnée, permet à ceux qui l'osent de 'disrupter' leur business model.

Dans l'industrie automobile

Cette industrie a bien compris l'avancée technologique que représente les Big Data. En effet, plusieurs enjeux sont à considérer. Nous voulons tout comprendre sur la voiture en tant que machine, tout analyser sur les types de conduites des conducteurs (interaction de l'humain avec la machine) mais aussi sur le comportement de la voiture dans son environnement afin d'établir les bases de connaissances indispensables à la voiture autonome. Le véhicule devient ainsi un objet connecté avec son environnement. Sans l'analyse et le traitement en temps réel de données massives intégrant des données hétérogènes et des données aléatoires, nous ne pourrions imaginer un seul instant que demain nous ne conduirons plus nos voitures. Nous serons à l'arrière avec nos tablettes en train de travailler.

Dernier exemple : l'Assurance

Les assureurs entrent dans une nouvelle ère de personnalisation de leurs offres, appuyées sur une analyse très fine des profils de risques de leurs clients. Pour ce faire, l'analyse de données massives leur permet de profiler une offre d'assurance auto en fonction de votre lieu de résidence, de votre façon de conduire, du nombre de km que vous faites, des statistiques météo du lieu où vous conduisez, de votre âge, etc... C'est ce qu'ils appellent le « Pay How You Drive ». Bien sûr, on peut considérer que les incitations au prix que peuvent faire les assureurs est un moyen de prévention pour réduire les sinistres, mais, que les assureurs aient accès à toutes nos données médicales comportent un vrai risque sur lequel je ne m'étendrai pas.

Même si tout le monde n'est pas encore prêt, les exemples sont nombreux et multisectoriels : 60 % des banques disent n'avoir pas encore quantifié la valeur potentielle apportée par l'investissement dans des outils de BIG DATA. Pour autant, il est indéniable de penser que nous sommes dans une démarche vertueuse qui créera de la valeur pour tout le monde.
Quelles conséquences pour les consommateurs ?

Parce que nous vivons connectés en permanence, nous ignorons à quel point nous produisons des données. Nous sommes non seulement utilisateurs d'internet mais aussi utilisés par Internet. Les données collectées à notre insu viennent de toutes les applications que nous avons sur nos smartphones et pour lesquelles nous avons accepté les Conditions Générales d'Utilisation sans les lire (73% n'ont pas lu une seule ligne et les 26% restant n'y sont restés que quelques secondes). Ces applications peuvent accéder à nos données, connaitre tout de notre vie, et conjuguées à la géolocalisation, enregistrer tous nos faits et gestes. Ainsi, une personne qui irait fréquemment (traçage GPS) à un centre anti-cancéreux aurait une forte probabilité d'être malade et pourrait avoir du mal à trouver une assurance. Au même titre, une jeune fille mineure s'est vue recevoir moult publicités pour femme enceinte. L'analyse prédictive a fait qu'elle a été identifiée comme telle. Le fait est, qu'elle était vraiment enceinte et que ses parents ne le savaient pas. Cela a fait scandale aux US.

Les « data brokers » (nom donné aux courtiers en données) peuvent revendiquer des fiches détaillées sur un nombre incroyable de personnes : 700 millions pour l'un des plus importants dans le monde. La donnée se vend entre 0,6 cts et 25 cts d'euros pour les plus complètes et l'industrie de la data devrait générer environ 21 Milliards d'euros en 2016 selon Gartner.

Mais comment ces données arrivent-elles à être dans les ordinateurs ? Simplement, par des moteurs de capture d'informations. L'étude Mobilitics de la CNIL et de l'INRIA montre que sur une période de 3 mois, certaines applications mobiles accèdent 700.000 fois aux données de géolocalisation venant du smartphone. Ainsi, il existe un avatar de chacun d'entre nous, notre « clone digital », qui en sait plus sur vous que vous-même car il a une mémoire infinie. Par exemple, il sait ce que j'ai acheté il y a deux ans, où je suis allé il y a 18 mois en vacances et combien de temps j'y suis resté. Mais le problème c'est que cet autre moi ne m'appartient pas.

Facebook a 1,79 Milliards d'utilisateurs actifs mensuel et 10 Milliards de messages envoyés chaque jour. Par conséquent Facebook dispose de 300 millions de Go de données stockées sur nous. Effrayant ! Avec ces données, il peut faire de l'analyse comportementale avec des outils algorithmiques pour savoir qui écoute quoi et où (cela peut orienter la tournée d'un artiste), qui comporte quel risque pour que les assureurs puissent moduler différemment leurs offres ou qui se comporte comment (politique, religion, sorties, loisirs, préférence sexuelle, ...), de telle sorte que des recruteurs peuvent aller loin dans le choix ou le refus d'un candidat. En 2015, Facebook a fait presque 18 milliards de dollars de chiffre d'affaire avec un bénéfice de 3,7 milliards de $ : la donnée rapporte.

Notre capacité d'acceptation de ce contexte s'accroit avec le temps mais aussi avec le progrès que les scientifiques apportent à la Société. En matière médicale, la techno-médecine, l'ingénierie génétique, ont permis de faire des sauts quantiques dans la connaissance de l'homme, grâce aux BIG DATA. La révolution des NBIC (Nanotechnologies, Biotechnologies, Information, Sciences Cognitives) a permis de collecter et croiser d'énormes masses de données. Ces données sont traitées par des ordinateurs qui atteignent maintenant quasi l'ExaFlops (1 milliards de milliards d'opérations par seconde - en 1986 on était seulement à 1 Milliards par seconde). Cela, a permis entre autres, le séquencement de l'ADN et son stockage sur une clé USB et ce pour quelques centaines de dollars. Dans ce domaine, le prédictif est motivant : savoir qu'avec tel gène, nous avons une probabilité importante de développer un cancer à 50 ans. La tentation devient forte de 'corriger' le gène à risque.

Mais à qui appartient notre propre ADN ? De là, se pose toute la problématique de la manipulation génétique et des travers auxquels elle expose l'humanité. D'ailleurs, la France ne permet pas de confier son ADN à des sociétés comme 23andMe (créée par l'ex-épouse du fondateur de Google) ou Navigenics. C'est peut-être par crainte de cette étude faite en Europe du Nord où 10 à 24% des enfants n'étaient pas le fils ou la fille de leur père légal, tel qu'ils y figuraient sur l'état civil.

Des dérives existent déjà : la manipulation des idées par des techniques d'influence Les algorithmes repèrent sur les réseaux sociaux vos idées politiques ou sociétales et vous poussent les informations que vous souhaitez entendre pour vous conforter dans vos idées ou croyances. Les élections aux US en ont été la preuve flagrante. Des études ont analysé les tweets et certains étaient émis par des machines pour influencer l'électorat. Pire encore, Obama a répertorié des 'fakes', des informations fausses relayées par des communautés entières sur Facebook. Dans les trois derniers mois précédents les élections américaines, près de 20 histoires mensongères ont généré 8,7 millions de partages, réactions et commentaires sur Facebook. Sachant que 62% des adultes américains écoutent les news sur les media sociaux... Obama s'en est épanché à Mark Zuckerberg sans succès. D'ailleurs, un hackaton a été organisé à l'Université de Princeton pour créer un logiciel à base d'intelligence artificielle qui filtre les nouvelles en leur donnant par recoupement un label de vérification. Bien sûr, ce logiciel ne s'intéresse qu'aux faits, pas aux opinions. La société devient un puzzle de communautés d'êtres humains, séquencés par les technologies Big Data qui dégagent des tendances et modes de vie. De ces corrélations on déduira des tendances prédictives, et l'interaction que l'homme aura avec les objets connectés renforcera la fiabilité de la prédiction.

Bill Gates disait : « On surestime toujours les changements qui se produiront dans les deux prochaines années et on sous-estime ceux qui se produiront dans les dix suivantes. Ne vous laissez par bercer par l'inaction. » Il faut donc agir dans le sens du progrès en se prémunissant de toutes les dérives sur ce qui est d'ordre privé « privacy ». Car la vie privée de chacun est le fondement d'une société libre. C'est un acquis sur lequel il ne faut pas transiger. Alors, dans ce dataclysme soyons vigilants.

Posts les plus consultés de ce blog

Le bipeur des années 80 plus efficace que le smartphone ?

Par André Spicer, professeur en comportement organisationnel à la Cass Business School (City University of London) : Vous vous souvenez des bipeurs ? Ces appareils étaient utilisés largement avant l'arrivée massive des téléphones portables et des SMS. Si vous aviez un bipeur, vous pouviez recevoir des messages simples, mais vous ne pouviez pas répondre. Un des rares endroits où on peut encore en trouver aujourd’hui sont les hôpitaux. Le Service National de Santé au Royaume-Uni (National Health Service) en utilise plus de 130 000. Cela représente environ 10 % du nombre total de bipeurs présents dans le monde. Une récente enquête menée au sein des hôpitaux américains a révélé que malgré la disponibilité de nombreuses solutions de rechange, les bipeurs demeurent le moyen de communication le plus couramment utilisée par les médecins américains. La fin du bipeur dans les hôpitaux britanniques ? Néanmoins, les jours du bipeur dans les hôpitaux britanniques pourraient être compté

Univers parallèles et mondes virtuels : la guerre des métavers est commencée

  Une partie de poker dans le métavers (capture d'écran de la vidéo “Le métavers et comment nous allons le construire ensemble” sur YouTube) Par  Oihab Allal-Chérif , Neoma Business School Le 17 octobre 2021, Mark Zuckerberg a lancé les hostilités de manière assez théâtrale, comme s’il défiait ses concurrents d’en faire autant. Afin de concrétiser son rêve d’enfant, le métavers, il a décidé de mettre en œuvre des moyens colossaux : 10 000 ingénieurs hautement qualifiés seront recrutés en Europe dans les 5 prochaines années. Cette annonce a été faite quelques jours avant celle du changement de nom du groupe Facebook en Meta , le 28 octobre, démontrant ainsi l’engagement total du fournisseur de réseaux sociaux dans la transition vers le métavers. Le 22 juillet 2021, dans une interview à The Verge , le créateur de Facebook racontait : « Je pense à certains de ces trucs depuis le collège quand je commençais tout juste à coder. […] J’écrivais du code

Sans Sauvegarde, pas de cyber-résilience

Par Alexandra Lemarigny, directrice commercial Europe du Sud Opentext Security Solutions Les études diverses sur les habitudes de sauvegarde des entreprises et leurs collaborateurs sont sans équivoque : très majoritairement, elles ne s’attardent vraiment sur ces questions de sauvegarde ou de récupération qu’en cas d’incidents. Pourtant la sauvegarde est l’élément majeur des dispositifs de cyber-résilience, à savoir la capacité à rester opérationnel, même face aux cyberattaques et à la perte de données. La sauvegarde n’est pas suffisamment considérée Dans les faits, force est de constater que la sauvegarde n’est pas envisagée dans son entièreté par les entreprises qui n’ont pas eu à subir d’accidents et il est fréquent qu’elles ne sauvegardent pas les éléments les plus pertinents. A titre d’exemples une entreprise peut ne sauvegarder qu’un ou deux serveurs, ou un élément qu’elle a identifié comme critique quelques années auparavant. Certaines ne tiennent pas compte de l’évolution de leu

Implants cérébraux : la délicate question de la responsabilité juridique des interfaces homme-machine

Dans le film Transcendance , de Wally Pfister, sorti en 2014, le héros mourant transfère son esprit dans un ordinateur quantique. Wally Pfister, 2014 Par  Elise Roumeau , Université Clermont Auvergne (UCA) Depuis quelques années, Elon Musk ne cesse de faire des annonces relatives à des avancées technologiques. Voitures autonomes , voyages interplanétaires , interface homme-machine , achat du réseau social Twitter… rien ne semble arrêter l’homme d’affaires. Aucun obstacle technique, géographique, physiologique ne lui semble infranchissable. Pourtant, ses projets pourraient, à court terme, poser de véritables difficultés du point de vue juridique. La recherche d’une fusion entre le cerveau et l’intelligence artificielle Avec Neuralink, l’un des objectifs visés par Elon Musk est de créer une interface entre l’humain et la machine . À plus ou moins court terme, le projet porte sur le développement d’implants cérébraux pour pallier des troubles neur

Sondage : quatre Français sur dix craignent le vol d'identité

Selon un sondage représentatif commandé par le fournisseur de messagerie GMX , de nombreux internautes français sont préoccupés (31%), voire très inquiets (9%), d'être victimes d'un vol d'identité. La majorité craint que des inconnus puissent faire des achats (52%) avec leur argent. Dans le cas d'une usurpation d'identité, les criminels accèdent aux comptes en ligne et agissent au nom de leurs victimes. De nombreuses personnes interrogées craignent que des inconnus signent des contrats en leur nom (37 %), que des escrocs utilisent l'identité volée pour ouvrir de nouveaux comptes (36 %) et que des informations les plus privées tombent entre des mains étrangères ou soient rendues publiques (28 %). Besoin de rattrapage en matière de sécurité des mots de passe Il est urgent de rattraper le retard en matière d'utilisation de mots de passe sûrs selon GMX : 34 % des utilisateurs d'Internet en France utilisent dans leurs mots de passe des informations personnell

Sources d’information et orientation politique : ce que nous apprend Twitter

  Par  Laura Hernandez , CY Cergy Paris Université et Rémi Perrier , CY Cergy Paris Université Plusieurs études du discours médiatique ont mis en lumière, par des analyses quantitatives et qualitatives, des soutiens à peine voilés de certains médias envers certains courants politiques . Et si l’on inversait la question ? Bien qu’on ait tendance à considérer, par exemple, qu’un lecteur régulier du Figaro s’oriente politiquement à droite, peut-on établir des corrélations à grande échelle entre choix de sources d’information et orientation politique ? Des études basées sur des enquêtes d’opinion ont montré notamment la part grandissante des réseaux sociaux dans la diffusion de l’information et le rôle qu’ils jouent dans la formation de l’opinion publique depuis une décennie, à l’image des évolutions observées lors de deux dernières élections aux États-Unis (voir ici et ici ). Les médias traditionnels ont intégré cette donnée et utilisent les réseaux sociaux en se faisant l’écho