Accéder au contenu principal

Le casque de VR / AR d’Apple : un tournant technologique digne de l’iPhone

  Analyse de Storyblok Une enquête internationale Storyblok, système de gestion de contenu qui permet aux développeurs et aux spécialistes du marketing de créer de meilleures expériences de contenu sur tous les canaux numériques, menée auprès de dirigeants de l'industrie du logiciel et du marketing, révèle que le casque de VR / AR d’Apple marquera un tournant technologique aussi important que la sortie de l’iPhone en 2007– c’est du moins ce que pensent 60% des sondés. Alors que le produit de la marque à la pomme n’a toujours pas été annoncé, l’attente ne fait qu’augmenter : 80% des leaders se disent « intéressés » et même « très intéressés » par le casque VR/AR. Les développeurs formeraient la part la plus attirée par le casque de réalité virtuelle / réalité augmentée d’Apple. Selon les dernières rumeurs, Apple pourrait présenter son casque le 5 juin 2023. Un produit qui contrairement aux habitudes de la marque (orientée grand public) pourrait pour la première fois être, dans un pr

De Cambridge Analytica à ChatGPT, comprendre comment l’IA donne un sens aux mots

ia

Par Frederic Alexandre, Inria

Un des problèmes que l’IA n’a toujours pas résolu aujourd’hui est d’associer des symboles – des mots par exemple – à leur signification, ancrée dans le monde réel – un problème appelé l’« ancrage du symbole ».

Par exemple, si je dis : « le chat dort sur son coussin car il est fatigué », la plupart des êtres humains comprendra sans effort que « il » renvoie à « chat » et pas à « coussin ». C’est ce qu’on appelle un raisonnement de bon sens.

En revanche, comment faire faire cette analyse à une IA ? La technique dite de « plongement lexical », si elle ne résout pas tout le problème, propose cependant une solution d’une redoutable efficacité. Il est important de connaître les principes de cette technique, car c’est celle qui est utilisée dans la plupart des modèles d’IA récents, dont ChatGPT… et elle est similaire aux techniques utilisées par Cambridge Analytica par exemple.

Le plongement lexical, ou comment les systèmes d’intelligence artificielle associent des mots proches

Cette technique consiste à remplacer un mot (qui peut être vu comme un symbole abstrait, impossible à relier directement à sa signification) par un vecteur numérique (une liste de nombres). Notons que ce passage au numérique fait que cette représentation peut être directement utilisée par des réseaux de neurones et bénéficier de leurs capacités d’apprentissage.

Plus spécifiquement, ces réseaux de neurones vont, à partir de très grands corpus de textes, apprendre à plonger un mot dans un espace numérique de grande dimension (typiquement 300) où chaque dimension calcule la probabilité d’occurrence de ce mot dans certains contextes. En simplifiant, on remplace par exemple la représentation symbolique du mot « chat » par 300 nombres représentant la probabilité de trouver ce mot dans 300 types de contextes différents (texte historique, texte animalier, texte technologique, etc.) ou de co-occurrence avec d’autres mots (oreilles, moustache ou avion).

pieds d’un plongeur
Plonger dans un océan de mots et repérer ceux qui sont utilisés conjointement, voilà une des phases de l’apprentissage pour ChatGPT. Amy Lister/Unsplash, CC BY

Même si cette approche peut sembler très pauvre, elle a pourtant un intérêt majeur en grande dimension : elle code des mots dont le sens est proche avec des valeurs numériques proches. Ceci permet de définir des notions de proximité et de distance pour comparer le sens de symboles, ce qui est un premier pas vers leur compréhension.

Pour donner une intuition de la puissance de telles techniques (en fait, de la puissance des statistiques en grande dimension), prenons un exemple dont on a beaucoup entendu parler.

Relier les traits psychologiques des internautes à leurs « likes » grâce aux statistiques en grande dimension

C’est en effet avec une approche similaire que des sociétés comme Cambridge Analytica ont pu agir sur le déroulement d’élections en apprenant à associer des préférences électorales (représentations symboliques) à différents contextes d’usages numériques (statistiques obtenues à partir de pages Facebook d’usagers).

Leurs méthodes reposent sur une publication scientifique parue en 2014 dans la revue PNAS, qui comparait des jugements humains et des jugements issus de statistiques sur des profils Facebook.

L’expérimentation reportée dans cette publication demandait à des participants de définir certains de leurs traits psychologiques (sont-ils consciencieux, extravertis, etc.), leur donnant ainsi des étiquettes symboliques. On pouvait également les représenter par des étiquettes numériques comptant les « likes » qu’ils avaient mis sur Facebook sur différents thèmes (sports, loisirs, cinéma, cuisine, etc.). On pouvait alors, par des statistiques dans cet espace numérique de grande dimension, apprendre à associer certains endroits de cet espace à certains traits psychologiques.

Ensuite, pour un nouveau sujet, uniquement en regardant son profil Facebook, on pouvait voir dans quelle partie de cet espace il se trouvait et donc de quels types de traits psychologiques il est le plus proche. On pouvait également comparer cette prédiction à ce que ses proches connaissent de ce sujet.

Le résultat principal de cette publication est que, si on s’en donne les moyens (dans un espace d’assez grande dimension, avec assez de « likes » à récolter, et avec assez d’exemples, ici plus de 70000 sujets), le jugement statistique peut être plus précis que le jugement humain. Avec 10 « likes », on en sait plus sur vous que votre collègue de bureau ; 70 « likes » que vos amis ; 275 « likes » que votre conjoint.

Être conscients de ce que nos « likes » disent sur nous

Cette publication nous alerte sur le fait que, quand on recoupe différents indicateurs en grand nombre, nous sommes très prévisibles et qu’il faut donc faire attention quand on laisse des traces sur les réseaux sociaux, car ils peuvent nous faire des recommandations ou des publicités ciblées avec une très grande efficacité. L’exploitation de telles techniques est d’ailleurs la principale source de revenus de nombreux acteurs sur Internet.

likes peints sur un mur argenté
Nos likes et autres réaction sur les réseaux sociaux en disent beaucoup sur nous, et ces informations peuvent être exploitées à des fins publicitaires ou pour des campagnes d’influence. George Pagan III/Unsplash, CC BY

Cambridge Analytica est allée un cran plus loin en subtilisant les profils Facebook de millions d’Américains et en apprenant à associer leurs « likes » avec leurs préférences électorales, afin de mieux cibler des campagnes électorales américaines. De telles techniques ont également été utilisées lors du vote sur le Brexit, ce qui a confirmé leur efficacité.

Notons que c’est uniquement l’aspiration illégale des profils Facebook qui a été reprochée par la justice, ce qui doit continuer à nous rendre méfiants quant aux traces qu’on laisse sur Internet.

Calculer avec des mots en prenant en compte leur signification

En exploitant ce même pouvoir des statistiques en grande dimension, les techniques de plongement lexical utilisent de grands corpus de textes disponibles sur Internet (Wikipédia, livres numérisés, réseaux sociaux) pour associer des mots avec leur probabilité d’occurrence dans différents contextes, c’est-à-dire dans différents types de textes. Comme on l’a vu plus haut, ceci permet de considérer une proximité dans cet espace de grande dimension comme une similarité sémantique et donc de calculer avec des mots en prenant en compte leur signification.

Un exemple classique qui est rapporté est de prendre un vecteur numérique représentant le mot roi, de lui soustraire le vecteur (de même taille car reportant les probabilités d’occurrence sur les mêmes critères) représentant le mot homme, de lui ajouter le vecteur représentant le mot femme, pour obtenir un vecteur très proche de celui représentant le mot reine. Autrement dit, on a bien réussi à apprendre une relation sémantique de type « A est à B ce que C est à D ».

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Le principe retenu ici pour définir une sémantique est que deux mots proches sont utilisés dans de mêmes contextes : on parle de « sémantique distributionnelle ». C’est ce principe de codage des mots qu’utilise ChatGPT, auquel il ajoute d’autres techniques.

Ce codage lui permet souvent d’utiliser des mots de façon pertinente ; il l’entraîne aussi parfois vers des erreurs grossières qu’on appelle hallucinations, où il semble inventer des nouveaux faits. C’est le cas par exemple quand on l’interroge sur la manière de différencier des œufs de poule des œufs de vache et qu’il répond que ces derniers sont plus gros. Mais est-ce vraiment surprenant quand on sait comment il code le sens des symboles qu’il manipule ?

Sous cet angle, il répond bien à la question qu’on lui pose, tout comme il pourra nous dire, si on lui demande, que les vaches sont des mammifères et ne pondent pas d’œuf. Le seul problème est que, bluffés par la qualité de ses conversations, nous pensons qu’il a un raisonnement de bon sens similaire au nôtre : qu’il « comprend » comme nous, alors que ce qu’il comprend est juste issu de ces statistiques en grande dimension.The Conversation

Frederic Alexandre, Directeur de recherche en neurosciences computationnelles, Université de Bordeaux, Inria

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Posts les plus consultés de ce blog

Le bipeur des années 80 plus efficace que le smartphone ?

Par André Spicer, professeur en comportement organisationnel à la Cass Business School (City University of London) : Vous vous souvenez des bipeurs ? Ces appareils étaient utilisés largement avant l'arrivée massive des téléphones portables et des SMS. Si vous aviez un bipeur, vous pouviez recevoir des messages simples, mais vous ne pouviez pas répondre. Un des rares endroits où on peut encore en trouver aujourd’hui sont les hôpitaux. Le Service National de Santé au Royaume-Uni (National Health Service) en utilise plus de 130 000. Cela représente environ 10 % du nombre total de bipeurs présents dans le monde. Une récente enquête menée au sein des hôpitaux américains a révélé que malgré la disponibilité de nombreuses solutions de rechange, les bipeurs demeurent le moyen de communication le plus couramment utilisée par les médecins américains. La fin du bipeur dans les hôpitaux britanniques ? Néanmoins, les jours du bipeur dans les hôpitaux britanniques pourraient être compté

Univers parallèles et mondes virtuels : la guerre des métavers est commencée

  Une partie de poker dans le métavers (capture d'écran de la vidéo “Le métavers et comment nous allons le construire ensemble” sur YouTube) Par  Oihab Allal-Chérif , Neoma Business School Le 17 octobre 2021, Mark Zuckerberg a lancé les hostilités de manière assez théâtrale, comme s’il défiait ses concurrents d’en faire autant. Afin de concrétiser son rêve d’enfant, le métavers, il a décidé de mettre en œuvre des moyens colossaux : 10 000 ingénieurs hautement qualifiés seront recrutés en Europe dans les 5 prochaines années. Cette annonce a été faite quelques jours avant celle du changement de nom du groupe Facebook en Meta , le 28 octobre, démontrant ainsi l’engagement total du fournisseur de réseaux sociaux dans la transition vers le métavers. Le 22 juillet 2021, dans une interview à The Verge , le créateur de Facebook racontait : « Je pense à certains de ces trucs depuis le collège quand je commençais tout juste à coder. […] J’écrivais du code

La fin des cookies tiers ne répond pas au besoin de contrôle des internautes sur leurs données

Pour le moment, la plupart des solutions alternatives aux cookies privilégient l’objectif commercial aux dépens des attentes des internautes. Piqsels , CC BY-SA Par  Carlos Raúl Sánchez Sánchez , Montpellier Business School – UGEI ; Audrey Portes , Montpellier Business School – UGEI et Steffie Gallin , Montpellier Business School – UGEI Les révélations du Wall Street Journal contenues dans les « Facebook Files » , publiés en septembre dernier, ont une nouvelle fois montré que les utilisateurs s’exposaient à des risques liés à la divulgation des informations personnelles. Les réseaux sociaux ne sont pas les seuls en cause : les nombreux data breach (incidents de sécurité en termes de données confidentielles) rendus publics, illustrent régulièrement la vulnérabilité des individus face à une navigation quotidienne sur les moteurs de recherche, sites de e-commerce et autres ayant recours à des « cookies tiers » , ces fichiers de données envoyés par

Midi-Pyrénées l’eldorado des start-up

Le mouvement était diffus, parfois désorganisé, en tout cas en ordre dispersé et avec une visibilité et une lisibilité insuffisantes. Nombreux sont ceux pourtant qui, depuis plusieurs années maintenant, ont pressenti le développement d’une économie numérique innovante et ambitieuse dans la région. Mais cette année 2014 pourrait bien être la bonne et consacrer Toulouse et sa région comme un eldorado pour les start-up. S’il fallait une preuve de ce décollage, deux actualités récentes viennent de l’apporter. La première est l’arrivée à la tête du conseil de surveillance de la start-up toulousaine Sigfox , spécialisée dans le secteur en plein boom de l’internet des objets, d’Anne Lauvergeon, l’ancien sherpa du Président Mitterrand. Que l’ex-patronne du géant Areva qui aurait pu prétendre à la direction de grandes entreprises bien installées, choisisse de soutenir l’entreprise prometteuse de Ludovic Le Moan , en dit long sur le changement d’état d’esprit des élites économiques du pay

ChatGPT et cybersécurité : quels risques pour les entreprises ?

Analyse de Proofpoint Les plateformes de génération de texte tel que ChatGPT permettent de créer du contenu de qualité, instantanément, gratuitement, et sur n’importe quel sujet. Comme le confirme le lancement de Bard par Google, nous sommes désormais entrés dans une course à l’IA, ou chaque géant du web cherche à posséder la meilleure solution possible. Si l’avancée technologique est majeure, le risque notamment pour la cybersécurité des entreprises est indéniable. Comment lutter contre des campagnes de phishing de plus en plus ciblées et sophistiquées, maintenant alimentées par des technologies capables de parfaire encore plus la forme et la teneur d’un email malveillant ? En quelques mots, ChatGPT offre une ingénierie sociale très performante, mais une automatisation encore limitée. Concernant la détection de la menace par rançongiciels, comme l’explique Loïc Guézo, Directeur de la stratégie Cybersécurité chez Proofpoint, « Bien que les chatbots puissent générer du texte pour le cor

Décryptage de l'attaque par ransomware du Centre Hospitalier de Versailles

  Par Cassie Leroux, Directrice Produit chez Mailinblack Après l’hôpital de Corbeilles Essonnes, c’est au tour de l'établissement hospitalier de Versailles, situé au Chesnay-Rocquencourt (Yvelines), d’être visé depuis samedi soir par une cyberattaque. Comment s’est-elle déroulée, quelles conséquences pour ses patients, et aurait-elle pû être évitée ? Décryptage de Cassie Leroux, Directrice Produit chez Mailinblack. Que savons-nous de cette attaque ? Cette cyberattaque vise l’ensemble de l'établissement, dont l'hôpital André-Mignot, la maison de retraite Despagne et l'hôpital Richaud à Versailles. L’hôpital continue de fonctionner, mais au ralenti ce lundi, ce qui perturbe sérieusement son activité. Le parquet de Paris a ouvert une enquête préliminaire pour tentative d'extorsion.  Cette cyberattaque est de type Ransomware, un logiciel malveillant qui bloque l’accès à aux outils informatiques et aux données en les chiffrant. Dans ce type d’attaque, le hacker demande g