Accéder au contenu principal

L’IA au travail : un gain de confort qui pourrait vous coûter cher

Par  Kathleen Desveaud , Kedge Business School L’intelligence artificielle promet un soulagement face à l’ennui des tâches répétitives au travail, mais son usage excessif pourrait entraîner une déqualification progressive et une nouvelle forme de frustration professionnelle. Entre automatisation bénéfique et risque de « travail zombie », comment faire de l’IA un allié du développement des compétences plutôt qu’une source d’appauvrissement cognitif ? L’impact de l’intelligence artificielle (IA) sur les métiers est un sujet majeur , qui a été traité dans de nombreuses études . Si la question de la disparition des emplois retient souvent l’attention, une autre question de fond mérite d’être considérée : comment ces technologies transforment et transformeront-elles concrètement le quotidien, les compétences et la motivation des travailleurs ? L’IA, un remède contre l’ennui au travail ? L’IA est parfois présentée comme un parfait remède a...

Comment fonctionne ChatGPT ? Décrypter son nom pour comprendre les modèles de langage

ChatGPT

Par Frédéric Alexandre, Inria

On voit passer beaucoup d’avis sur ChatGPT, mais finalement, qu’en sait-on ? Juste que c’est un réseau de neurones artificiels avec des milliards de paramètres, capable de tenir une discussion de haut niveau, mais aussi de tomber dans des pièges grossiers tendus par des internautes facétieux. On nous parle beaucoup de lui mais on en sait finalement très peu sur son fonctionnement.

Je vous propose donc de présenter les mécanismes principaux sur lesquels ChatGPT repose et de montrer ainsi que, si le résultat est parfois impressionnant, ses mécanismes élémentaires sont astucieux mais pas vraiment nouveaux. Pour ce faire, passons en revue les différents termes du sigle « ChatGPT ».

T comme transformer

Un « transformer » est un réseau de neurones qui bénéficie du même algorithme d’apprentissage que les réseaux profonds (deep networks), qui a déjà fait ses preuves pour l’entraînement de grosses architectures. Il bénéficie également de deux caractéristiques éprouvées : d’une part, des techniques de « plongement lexical » pour coder les mots ; d’autre part, des techniques attentionnelles pour prendre en compte le fait que les mots sont séquentiels.

Ce second point est majeur pour interpréter le sens de chaque mot dans le contexte de la phrase entière. La technique proposée par les transformers privilégie une approche numérique et statistique, simple à calculer massivement et très efficace. Cette approche consiste à apprendre, pour chaque mot et à partir de l’observation de nombreux textes, à quels autres mots de la phrase il faut faire « attention » pour identifier le contexte qui peut modifier le sens de ce mot. Ceci permet d’accorder un mot ou de remplacer un pronom par les mots de la phrase qu’il représente.

G comme génératif

ChatGPT est capable de générer du langage : on lui expose un problème et il nous répond avec du langage – c’est un « modèle de langage ».

La possibilité d’apprendre un modèle génératif avec un réseau de neurones date de plus de trente ans : dans un modèle d’auto-encodeur, la sortie du réseau est entraînée pour reproduire le plus fidèlement possible son entrée (par exemple une image de visage), en passant par une couche de neurones intermédiaire, choisie de petite taille : si on peut reproduire l’entrée en passant par une représentation aussi compacte, c’est que les aspects les plus importants de cette entrée (le nez, les yeux) sont conservés dans le codage de cette couche intermédiaire (mais les détails doivent être négligés car il y a moins de place pour représenter l’information). Ils sont ensuite décodés pour reconstruire un visage similaire en sortie.

Utilisé en mode génératif, on choisit une activité au hasard pour la couche intermédiaire et on obtient en sortie, à travers le décodeur, quelque chose qui ressemblera à un visage avec un nez et des yeux mais qui sera un exemplaire inédit du phénomène considéré.

schéma d’un auto-encodeur
Les couches de neurones d’un modèle auto-encodeur : la première couche accueille les entrées, une couche intermédiaire les code de façon plus compacte et la dernière les décode pour retrouver le format original. Frédéric Alexandre, Fourni par l'auteur

C’est par exemple en suivant ce procédé (avec des réseaux de grande taille) que l’on est capable de créer des deepfakes, c’est-à-dire des trucages très réalistes.

Si on souhaite maintenant générer des phénomènes séquentiels (des vidéos ou des phrases), il faut prendre en compte l’aspect séquentiel du flux d’entrée. Ceci peut être obtenu avec le mécanisme attentionnel décrit plus haut, utilisé sous une forme prédictive. En pratique, si l’on masque un mot ou si on cherche le mot suivant, on peut prédire ce mot manquant à partir de l’analyse statistique des autres textes. À titre d’illustration, voyez à quel point vous êtes capables de lire une BD des Schtroumpfs et de remplacer chaque « schtroumpf » par un mot issu de l’analyse attentionnelle des autres mots.

L’efficacité d’un simple mécanisme attentionnel (qui considère les autres mots importants du contexte mais pas explicitement leur ordre) pour traiter l’aspect séquentiel des entrées a été un constat majeur dans la mise au point des transformers (« Vous n’avez besoin que d’attention » titrait la publication correspondante : « Attention is all you need »), car auparavant les méthodes privilégiées utilisaient des réseaux plus complexes, dits récurrents, dont l’apprentissage est comparativement bien plus lent et moins efficace ; de plus ce mécanisme attentionnel se parallélise très bien, ce qui accélère d’autant plus cette approche.

P comme pretrained

L’efficacité des transformers n’est pas seulement due à la puissance de ces méthodes, mais aussi (et surtout) à la taille des réseaux et des connaissances qu’ils ingurgitent pour s’entrainer.

Les détails chiffrés sont difficiles à obtenir, mais on entend parler pour des transformers de milliards de paramètres (de poids dans les réseaux de neurones) ; pour être plus efficaces, plusieurs mécanismes attentionnels (jusqu’à cent) sont construits en parallèle pour mieux explorer les possibles (on parle d’attention « multi-tête »), on peut avoir une succession d’une dizaine d’encodeurs et de décodeurs, etc.

Rappelons que l’algorithme d’apprentissage des deep networks est générique et s’applique quelle que soit la profondeur (et la largeur) des réseaux ; il suffit juste d’avoir assez d’exemples pour entraîner tous ces poids, ce qui renvoie à une autre caractéristique démesurée de ces réseaux : la quantité de données utilisée dans la phase d’apprentissage.

Ici aussi, peu d’informations officielles, mais il semble que des pans entiers d’internet soient aspirés pour participer à l’entrainement de ces modèles de langages, en particulier l’ensemble de Wikipedia, les quelques millions de livres que l’on trouve sur Internet (dont des versions traduites par des humains sont très utiles pour préparer des transformers de traduction), mais aussi très probablement les textes que l’on peut trouver sur nos réseaux sociaux favoris.

Cet entrainement massif se déroule hors ligne, peut durer des semaines et utiliser des ressources calculatoires et énergétiques démesurées (chiffrées à plusieurs millions de dollars, sans parler des aspects environnementaux d’émission de CO₂, associés à ces calculs).

Chat comme bavarder

Nous sommes maintenant en meilleure position pour présenter ChatGPT : il s’agit d’un agent conversationnel, bâti sur un modèle de langage qui est un transformer génératif pré-entraîné (GPT).

Les analyses statistiques (avec approches attentionnelles) des très grands corpus utilisés permettent de créer des séquences de mots ayant une syntaxe de très bonne qualité. Les techniques de plongement lexical offrent des propriétés de proximité sémantique qui donnent des phrases dont le sens est souvent satisfaisant.

Outre cette capacité à savoir générer du langage de bonne qualité, un agent conversationnel doit aussi savoir converser, c’est-à-dire analyser les questions qu’on lui pose et y apporter des réponses pertinentes (ou détecter les pièges pour les éviter). C’est ce qui a été entrepris par une autre phase d’apprentissage hors-ligne, avec un modèle appelé « InstructGPT », qui a nécessité la participation d’humains qui jouaient à faire l’agent conversationnel ou à pointer des sujets à éviter. Il s’agit dans ce cas d’un « apprentissage par renforcement » : celui-ci permet de sélectionner des réponses selon les valeurs qu’on leur donne ; c’est une sorte de semi-supervision où les humains disent ce qu’ils auraient aimé entendre (ou pas).

ChatGPT fait ce pour quoi il a été programmé

Les caractéristiques énoncées ici permettent de comprendre que la principale fonction de ChatGPT est de prédire le mot suivant le plus probable à partir des nombreux textes qu’il a déjà vus et, parmi les différentes suites probables, de sélectionner celles qu’en général les humains préfèrent.

Cette suite de traitements peut comporter des approximations, quand on évalue des statistiques ou dans les phases de décodage du modèle génératif quand on construit de nouveaux exemples.

Ceci explique aussi des phénomènes d’hallucinations rapportées, quand on lui demande la biographie de quelqu’un ou des détails sur une entreprise et qu’il invente des chiffres et des faits. Ce qu’on lui a appris à faire c’est de construire des phrases plausibles et cohérentes, pas des phrases véridiques. Ce n’est pas la peine de comprendre un sujet pour savoir en parler avec éloquence, sans donner forcément de garantie sur la qualité de ses réponses (mais des humains aussi savent faire ça…).The Conversation

Frédéric Alexandre, Directeur de recherche en neurosciences computationnelles, Université de Bordeaux, Inria

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Posts les plus consultés de ce blog

Le bipeur des années 80 plus efficace que le smartphone ?

Par André Spicer, professeur en comportement organisationnel à la Cass Business School (City University of London) : Vous vous souvenez des bipeurs ? Ces appareils étaient utilisés largement avant l'arrivée massive des téléphones portables et des SMS. Si vous aviez un bipeur, vous pouviez recevoir des messages simples, mais vous ne pouviez pas répondre. Un des rares endroits où on peut encore en trouver aujourd’hui sont les hôpitaux. Le Service National de Santé au Royaume-Uni (National Health Service) en utilise plus de 130 000. Cela représente environ 10 % du nombre total de bipeurs présents dans le monde. Une récente enquête menée au sein des hôpitaux américains a révélé que malgré la disponibilité de nombreuses solutions de rechange, les bipeurs demeurent le moyen de communication le plus couramment utilisée par les médecins américains. La fin du bipeur dans les hôpitaux britanniques ? Néanmoins, les jours du bipeur dans les hôpitaux britanniques pourraient être compté...

Quelle technologie choisir pour connecter les objets ?

Par Frédéric Salles, Président et co-fondateur de Matooma   En 2021, le nombre total d'objets connectés utilisés atteindra les 25 milliards selon Gartner. Il est ainsi légitime de se demander quelles sont les technologies principales permettant de connecter les objets, et quelle pourrait être celle la plus adaptée pour sa solution. Un projet de vidéosurveillance par exemple n'aura absolument pas les mêmes besoins qu'un projet basé sur le relevé de température au milieu du désert. Ainsi pour trouver la meilleure connectivité pour son objet, de nombreuses questions peuvent se poser : mon objet fonctionne-t-il sur batterie ou est-il alimenté ? Mon objet restera-t-il statique ou sera-t-il mobile ?  Mon objet est-il susceptible d'être dans un endroit difficile d'accès ou enterré ? A quelle fréquence mes données doivent-elles remonter ? Etc. Voici les différentes solutions actuellement disponibles sur le marché. Courte distance : RFID/Bluetooth/WiFi La RFID (Ra...

La fin du VHS

La bonne vieille cassette VHS vient de fêter ses 30 ans le mois dernier. Certes, il y avait bien eu des enregistreurs audiovisuels avant septembre 1976, mais c’est en lançant le massif HR-3300 que JVC remporta la bataille des formats face au Betamax de Sony, pourtant de meilleure qualité. Ironie du sort, les deux géants de l’électronique se retrouvent encore aujourd’hui face à face pour déterminer le format qui doit succéder au DVD (lire encadré). Chassée par les DVD ou cantonnée au mieux à une petite étagère dans les vidéoclubs depuis déjà quatre ans, la cassette a vu sa mort programmée par les studios hollywoodiens qui ont décidé d’arrêter de commercialiser leurs films sur ce support fin 2006. Restait un atout à la cassette VHS: l’enregistrement des programmes télé chez soi. Las, l’apparition des lecteurs-enregistreurs de DVD et, surtout, ceux dotés d’un disque dur, ont sonné le glas de la cassette VHS, encombrante et offrant une piètre qualité à l’heure de la TNT et des écrans pl...

6 questions sur Zone-telechargement

Quel était ce site ? Zone-telechargement.com était jusqu'à lundi soir l'un des plus gros sites web français proposant de télécharger des contenus numériques illégaux. En grande majorité des films parfois très récents ; des séries télé notamment américaines qui n'étaient pas diffusées en France ; de la musique ; des logiciels et des jeux vidéo. Les séries et les films étaient disponibles en différentes qualités et ceux en langue anglaise étaient sous-titrés grâce à des communautés d'utilisateurs capables de sous-titrer des épisodes de série 24 heures après leur diffusion aux États-Unis. Le site comptabilisait, selon la gendarmerie, en moyenne 140 millions de pages vues par mois et 11 000 téléchargements par jour. La société Alexa affichait Zone-Telechargement à la 11e place des sites les plus visités de France… devant Twitter ! Zone-Telechargement proposait 18 000 films, 2 500 séries télé ; 11 000 documentaires ; 20 943 émissions télé ; plus de 150 000 MP3 mais aus...

Deepfakes, vidéos truquées, n’en croyez ni vos yeux ni vos oreilles !

Par  Divina Frau-Meigs , Auteurs historiques The Conversation France Les spécialistes en fact-checking et en éducation aux médias pensaient avoir trouvé les moyens de lutter contre les « deepfakes » , ou hypertrucages , ces manipulations de vidéos fondées sur l’intelligence artificielle, avec des outils de vérification comme Invid-Werify et le travail des compétences d’analyse d’images (littératie visuelle), avec des programmes comme Youverify.eu . Mais quelques cas récents montrent qu’une nouvelle forme de cyberattaque vient de s’ajouter à la panoplie des acteurs de la désinformation, le deepfake audio. Aux États-Unis, en janvier 2024, un robocall généré par une intelligence artificielle et prétendant être la voix de Joe Biden a touché les habitants du New Hampshire, les exhortant à ne pas voter, et ce, quelques jours avant les primaires démocrates dans cet État. Derrière l’attaque, Steve Kramer, un consultant travaillant pour un adversaire de Biden, Dean ...

D’IBM à OpenAI : 50 ans de stratégies gagnantes (et ratées) chez Microsoft

  Paul Allen et Bill Gates en 1970 à Lakeside School (Seattle). Microsoft naîtra cinq ans plus tard. Auteur inconnu/Wikimedia Par  Frédéric Fréry , ESCP Business School Insubmersible. Même la vague des Gafa n’a pas vraiment atteint Microsoft. Cinquante ans après sa création, soit une éternité dans le monde de la tech, la firme de Bill Gates et Paul Allen est toujours là et bien là. Retour sur ce qu’on appelle outre-Atlantique, une success-story avec quelques échecs. Cette semaine, Microsoft fête ses 50 ans. Cet article a été écrit sur Microsoft Word, à partir d’un ordinateur équipé de Microsoft Windows, et il sera vraisemblablement publié sur des plateformes hébergées par Microsoft Azure, notamment LinkedIn, une filiale de Microsoft qui compte plus d’un milliard d’utilisateurs. C’est dire l’influence de cette entreprise qui, en 2024, a dégagé un bénéfice net de 88 milliards de dollars po...