La donnée c'est payant, ou le véritable dataclysme

Par Daniel Benchimol, président du cluster numérique DigitalPlace et président du Conseil de Surveillance d'Eurogiciel.

Je me suis longtemps demandé si le concept de BIG DATA était une mode, un concept éphémère comme on en a connu un certain nombre en informatique ou, réellement une révolution ? Est-ce un eldorado qui nous conduit au graal qu'est la Donnée ? Les « chasseurs de données » sont-ils les mêmes que ceux qui cherchaient de l'or au far West ?

Comment en sommes-nous arrivés là ? Finalement c'est assez simple. Nous produisons, nous, en tant qu'individu mais aussi nos industries, des données en masse. On s'est ensuite demandé si nous pouvions en faire quelques choses, il fallait donc des calculateurs plus puissants mais aussi des analystes qui pouvaient construire des modèles mathématiques statistiques pour en tirer des lois statistiques. Mais pour vraiment peaufiner les modèles, on a bien compris que les données pouvaient être hétérogènes et mélangées, qu'on pouvait croiser, par exemple, des données environnementales, les combiner à des données sociétales ou culturelles, etc...

Pourquoi ne pas aller plus loin ? L'intelligence artificielle embarquée dans des « Machines Learning » pourrait faire mieux avec des algorithmes puissants. Elle pourrait faire du prédictif. Nous maîtriserions le temps et ce qui s'y passerait avec une probabilité forte, l'homme deviendrait maître de son destin... Soyons sérieux. Il y a vraiment deux mondes différents qui s'intéressent aux Big Data. Le monde des Industries et des Entreprises pour l'amélioration de leur business model (production, commercialisation) et ceux qui évoluent dans le B2C, qui doivent toucher les consommateurs comme vous et moi.

Dans le monde de l'entreprise

Dans l'industrie aéronautique, les essais en vol d'un avion produisent deux TéraOctets [1] (1000 milliards d'Octets) de données venant de plusieurs milliers de capteurs. Le Big Data permet d'analyser tous les dysfonctionnements à la vitesse des super calculateurs. Cela permet dès la conception de l'avion de comprendre les algorithmes à mettre en place qui feront de la maintenance prédictive permettant d'anticiper les pannes, et d'optimiser les heures de vol (une heure de vol coûte 10 à 12 000 $). Ainsi, on arrive à faire de l'analyse prédictive de maintenance d'un avion. Cela signifie, une meilleure efficience de la machine avec moins d'arrêts non programmés, une meilleure sécurité pour le passager et évidemment une meilleure optimisation financière avec une réduction des coûts. Cela permet aussi de changer complètement les modèles de commercialisation d'un produit. On peut ne plus vendre un avion mais le facturer à l'heure de vol. Cette meilleure maîtrise rendue possible par l'enrichissement de la connaissance, et par un meilleur traitement de la donnée, permet à ceux qui l'osent de 'disrupter' leur business model.

Dans l'industrie automobile

Cette industrie a bien compris l'avancée technologique que représente les Big Data. En effet, plusieurs enjeux sont à considérer. Nous voulons tout comprendre sur la voiture en tant que machine, tout analyser sur les types de conduites des conducteurs (interaction de l'humain avec la machine) mais aussi sur le comportement de la voiture dans son environnement afin d'établir les bases de connaissances indispensables à la voiture autonome. Le véhicule devient ainsi un objet connecté avec son environnement. Sans l'analyse et le traitement en temps réel de données massives intégrant des données hétérogènes et des données aléatoires, nous ne pourrions imaginer un seul instant que demain nous ne conduirons plus nos voitures. Nous serons à l'arrière avec nos tablettes en train de travailler.

Dernier exemple : l'Assurance

Les assureurs entrent dans une nouvelle ère de personnalisation de leurs offres, appuyées sur une analyse très fine des profils de risques de leurs clients. Pour ce faire, l'analyse de données massives leur permet de profiler une offre d'assurance auto en fonction de votre lieu de résidence, de votre façon de conduire, du nombre de km que vous faites, des statistiques météo du lieu où vous conduisez, de votre âge, etc... C'est ce qu'ils appellent le « Pay How You Drive ». Bien sûr, on peut considérer que les incitations au prix que peuvent faire les assureurs est un moyen de prévention pour réduire les sinistres, mais, que les assureurs aient accès à toutes nos données médicales comportent un vrai risque sur lequel je ne m'étendrai pas.

Même si tout le monde n'est pas encore prêt, les exemples sont nombreux et multisectoriels : 60 % des banques disent n'avoir pas encore quantifié la valeur potentielle apportée par l'investissement dans des outils de BIG DATA. Pour autant, il est indéniable de penser que nous sommes dans une démarche vertueuse qui créera de la valeur pour tout le monde.
Quelles conséquences pour les consommateurs ?

Parce que nous vivons connectés en permanence, nous ignorons à quel point nous produisons des données. Nous sommes non seulement utilisateurs d'internet mais aussi utilisés par Internet. Les données collectées à notre insu viennent de toutes les applications que nous avons sur nos smartphones et pour lesquelles nous avons accepté les Conditions Générales d'Utilisation sans les lire (73% n'ont pas lu une seule ligne et les 26% restant n'y sont restés que quelques secondes). Ces applications peuvent accéder à nos données, connaitre tout de notre vie, et conjuguées à la géolocalisation, enregistrer tous nos faits et gestes. Ainsi, une personne qui irait fréquemment (traçage GPS) à un centre anti-cancéreux aurait une forte probabilité d'être malade et pourrait avoir du mal à trouver une assurance. Au même titre, une jeune fille mineure s'est vue recevoir moult publicités pour femme enceinte. L'analyse prédictive a fait qu'elle a été identifiée comme telle. Le fait est, qu'elle était vraiment enceinte et que ses parents ne le savaient pas. Cela a fait scandale aux US.

Les « data brokers » (nom donné aux courtiers en données) peuvent revendiquer des fiches détaillées sur un nombre incroyable de personnes : 700 millions pour l'un des plus importants dans le monde. La donnée se vend entre 0,6 cts et 25 cts d'euros pour les plus complètes et l'industrie de la data devrait générer environ 21 Milliards d'euros en 2016 selon Gartner.

Mais comment ces données arrivent-elles à être dans les ordinateurs ? Simplement, par des moteurs de capture d'informations. L'étude Mobilitics de la CNIL et de l'INRIA montre que sur une période de 3 mois, certaines applications mobiles accèdent 700.000 fois aux données de géolocalisation venant du smartphone. Ainsi, il existe un avatar de chacun d'entre nous, notre « clone digital », qui en sait plus sur vous que vous-même car il a une mémoire infinie. Par exemple, il sait ce que j'ai acheté il y a deux ans, où je suis allé il y a 18 mois en vacances et combien de temps j'y suis resté. Mais le problème c'est que cet autre moi ne m'appartient pas.

Facebook a 1,79 Milliards d'utilisateurs actifs mensuel et 10 Milliards de messages envoyés chaque jour. Par conséquent Facebook dispose de 300 millions de Go de données stockées sur nous. Effrayant ! Avec ces données, il peut faire de l'analyse comportementale avec des outils algorithmiques pour savoir qui écoute quoi et où (cela peut orienter la tournée d'un artiste), qui comporte quel risque pour que les assureurs puissent moduler différemment leurs offres ou qui se comporte comment (politique, religion, sorties, loisirs, préférence sexuelle, ...), de telle sorte que des recruteurs peuvent aller loin dans le choix ou le refus d'un candidat. En 2015, Facebook a fait presque 18 milliards de dollars de chiffre d'affaire avec un bénéfice de 3,7 milliards de $ : la donnée rapporte.

Notre capacité d'acceptation de ce contexte s'accroit avec le temps mais aussi avec le progrès que les scientifiques apportent à la Société. En matière médicale, la techno-médecine, l'ingénierie génétique, ont permis de faire des sauts quantiques dans la connaissance de l'homme, grâce aux BIG DATA. La révolution des NBIC (Nanotechnologies, Biotechnologies, Information, Sciences Cognitives) a permis de collecter et croiser d'énormes masses de données. Ces données sont traitées par des ordinateurs qui atteignent maintenant quasi l'ExaFlops (1 milliards de milliards d'opérations par seconde - en 1986 on était seulement à 1 Milliards par seconde). Cela, a permis entre autres, le séquencement de l'ADN et son stockage sur une clé USB et ce pour quelques centaines de dollars. Dans ce domaine, le prédictif est motivant : savoir qu'avec tel gène, nous avons une probabilité importante de développer un cancer à 50 ans. La tentation devient forte de 'corriger' le gène à risque.

Mais à qui appartient notre propre ADN ? De là, se pose toute la problématique de la manipulation génétique et des travers auxquels elle expose l'humanité. D'ailleurs, la France ne permet pas de confier son ADN à des sociétés comme 23andMe (créée par l'ex-épouse du fondateur de Google) ou Navigenics. C'est peut-être par crainte de cette étude faite en Europe du Nord où 10 à 24% des enfants n'étaient pas le fils ou la fille de leur père légal, tel qu'ils y figuraient sur l'état civil.

Des dérives existent déjà : la manipulation des idées par des techniques d'influence Les algorithmes repèrent sur les réseaux sociaux vos idées politiques ou sociétales et vous poussent les informations que vous souhaitez entendre pour vous conforter dans vos idées ou croyances. Les élections aux US en ont été la preuve flagrante. Des études ont analysé les tweets et certains étaient émis par des machines pour influencer l'électorat. Pire encore, Obama a répertorié des 'fakes', des informations fausses relayées par des communautés entières sur Facebook. Dans les trois derniers mois précédents les élections américaines, près de 20 histoires mensongères ont généré 8,7 millions de partages, réactions et commentaires sur Facebook. Sachant que 62% des adultes américains écoutent les news sur les media sociaux... Obama s'en est épanché à Mark Zuckerberg sans succès. D'ailleurs, un hackaton a été organisé à l'Université de Princeton pour créer un logiciel à base d'intelligence artificielle qui filtre les nouvelles en leur donnant par recoupement un label de vérification. Bien sûr, ce logiciel ne s'intéresse qu'aux faits, pas aux opinions. La société devient un puzzle de communautés d'êtres humains, séquencés par les technologies Big Data qui dégagent des tendances et modes de vie. De ces corrélations on déduira des tendances prédictives, et l'interaction que l'homme aura avec les objets connectés renforcera la fiabilité de la prédiction.

Bill Gates disait : « On surestime toujours les changements qui se produiront dans les deux prochaines années et on sous-estime ceux qui se produiront dans les dix suivantes. Ne vous laissez par bercer par l'inaction. » Il faut donc agir dans le sens du progrès en se prémunissant de toutes les dérives sur ce qui est d'ordre privé « privacy ». Car la vie privée de chacun est le fondement d'une société libre. C'est un acquis sur lequel il ne faut pas transiger. Alors, dans ce dataclysme soyons vigilants.