Technomedia

Numérique · médias · sciences · intelligence artificielle

La chasse au gaspillage dans le cloud et les data centers

 

Optimiser la consommation énergétique des bâtiments hébergeant les data centers a eu un global effet négatif : la consommation a augmenté. Oleksiy Mark, Shutterstock
Romain Rouvoy, Inria; Pierre Jacquet, Inria et Thomas Ledoux, Inria

En l’espace de quelques années, les services numériques ont envahi notre quotidien. Notre dépendance aux nombreux avantages qu’ils nous procurent s’accroît un peu plus chaque jour. Que ce soit depuis un ordinateur, un smartphone, une télévision ou une enceinte connectée, nous sollicitons constamment de nombreux serveurs dispersés à travers le monde pour accomplir diverses tâches personnelles et professionnelles.

Si l’impact environnemental des ordinateurs et téléphones est de plus en plus perceptible par leurs usagers, l’impact des serveurs pose encore régulièrement question. En particulier, les data centers — immenses entrepôts hébergeant plusieurs milliers de serveurs — sont souvent décriés pour leur impact négatif sur l’environnement.

Tous les acteurs de l’écosystème des services numériques — des constructeurs de matériel informatique et opérateurs du cloud aux clients et citoyens — peuvent s’atteler à ce problème en encourageant l’émergence de pratiques plus sobres dans l’utilisation, la conception et l’hébergement des services en ligne.

Les entreprises ont favorisé l’efficacité énergétique des data centers

Au fil des ans, les entreprises ont délégué la gestion des serveurs qu’elles hébergeaient auparavant à des data centers. Cet hébergement mutualisé a alors stimulé la recherche et l’innovation dans le domaine de l’efficience de ces bâtiments (systèmes de refroidissement, réflexions sur la situation géographique des data centers, etc.) et a contribué à développer des solutions d’hébergement de moins en moins énergivores, mises en compétition au travers d’un standard de facto : le Power Usage Effectiveness ou PUE.

Ainsi, entre 2007 et 2021, les data centers français ont amélioré leur efficience énergétique par 47 %.

Dans le même temps, sous l’impulsion d’acteurs internationaux majeurs comme Google, Microsoft ou Amazon, ces data centers sont devenus le socle d’un nouveau paradigme qui a gommé les nombreuses contraintes imposées par le matériel : le « cloud computing ».

L’adoption du cloud annule les efforts faits sur les data centers

En introduisant la notion de « virtualisation », le cloud computing a offert l’illusion d’une abondance de ressources, rendue accessible depuis n’importe quel endroit, pour n’importe quelle entreprise et à n’importe quel moment.

La virtualisation consiste notamment à permettre l’exécution concurrente de plusieurs systèmes d’exploitation (dénommées « machines virtuelles ») sur une même machine physique. Cette innovation technologique majeure permet de se dédouaner de la contrainte matérielle pour rapidement mettre à disposition de nombreux services en ligne. En quelques clics, de coûteux et encombrants serveurs sont remplacés par la location de machines virtuelles, facturées à l’usage, qu’il est possible de répliquer à l’infini et de manière quasiment instantanée.

La fabrication de ressources informatiques coûte cher, y compris en eau, minéraux et énergie. Alors que certaines machines sont sous-utilisées, les mutualiser peut permettre d’optimiser leur utilisation. Laura Ockel/Unsplash, CC BY

Mais, comme souvent, l’émergence de nouvelles technologies améliorant l’efficacité avec laquelle une ressource est employée, a inévitablement contribué à une augmentation de la consommation totale de cette ressource en place de la réduction escomptée, c’est l’effet rebond ou paradoxe de Jevons.

Notamment, la plupart des opérateurs du cloud constate encore que les machines virtuelles qu’ils hébergent dans leurs data centers sont nettement sous-utilisées : leurs clients commandent des serveurs en ligne pour des sommes modiques, sans nécessairement les utiliser sur la durée. Ainsi, l’espoir d’une réduction de la consommation énergétique par la mutualisation des ressources matérielles s’avère être en réalité une gangrène pour ces infrastructures, car ces machines virtuelles abandonnées gâchent une importante quantité de ressources matérielles qui ne peuvent plus être utilisées pour répondre aux besoins pressants d’autres clients.

En d’autres termes, les économies réalisées en efficacité dans les data centers ont été rapidement contrebalancées par une exploitation sous-optimale des ressources matérielles à l’échelle du cloud.

De nouveaux outils pour contrer l’effet rebond : du recyclage au surbooking

Pour contrer cet effet rebond, de nouveaux outils identifient automatiquement les machines virtuelles abandonnées afin de les « recycler », c’est-à-dire de libérer les ressources matérielles (processeur, mémoire) des serveurs physiques qu’elles mobilisent inutilement.

Cette solution logicielle permet notamment de récupérer les ressources matérielles réservées mais non utilisées, pour qu’elles puissent être de nouveau allouées à des tiers, maximisant ainsi l’usage effectif des machines physiques par les solutions de virtualisation.

Au-delà de la simple « traque » des machines virtuelles abandonnées à travers le cloud, il est possible de détecter des plages de temps durant lesquelles une machine virtuelle n’est jamais utilisée pour recycler temporairement ses ressources. Par exemple, une machine virtuelle utilisée uniquement en journée peut être temporairement recyclée la nuit, et uniquement sur cette période, pour déployer une machine virtuelle chargée d’une sauvegarde ou d’une analyse. Cependant, encore à l’état de prototype de recherche, le recyclage des ressources du cloud doit encore être adopté par les principales solutions de virtualisation.

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

En revanche, la surallocation constitue une option complémentaire pour accroître l’usage des ressources matérielles déjà intégrées. Cette technique, dénommée overbooking (ou overcommitment ou oversubscription), est proche de ce qui se pratique dans les transports. Elle consiste, pour chaque processeur physiquement disponible, à proposer plusieurs processeurs virtuels à la réservation, forçant ainsi un ensemble de machines virtuelles à se partager les ressources matérielles, ce qui minimise le risque d’inutilisation de celles-ci.

Cependant, en l’absence de mécanisme de contrôle approprié, la surallocation des ressources matérielles peut aussi conduire à une surutilisation de ces dernières dans certains cas, avec un impact perceptible sur la qualité de service, à l’image du surbooking dans les avions, et les opérateurs de cloud sont peu enclins à adopter largement ce mécanisme de surallocation.

Le problème de la gestion mémoire et sa surallocation

De plus, la surallocation des ressources s’avère être particulièrement difficile dans le cas de la gestion de la mémoire, organe tout aussi important que le processeur, en charge de la manipulation et du stockage des données.

En effet, si des approches comme Kernel Samepage Merging (KSM) permettent de mutualiser la mémoire physique occupée par les systèmes d’exploitation de plusieurs machines virtuelles, la majeure partie des informations manipulées par les machines virtuelles ne peuvent être partagées, ne serait-ce que pour préserver les secrets des usagers.

De plus, il est souvent difficile pour les clients d’estimer précisément la mémoire nécessaire à la bonne exécution de leurs services. Ces derniers préfèrent donc généralement surestimer cette quantité nécessaire afin de ne pas pénaliser la qualité de service. Notamment, il s’agit généralement de la ressource la plus utilisée, faisant d’elle la première ressource critique d’une infrastructure cloud, celle dont la faible disponibilité empêche l’exploitation d’autres ressources, comme le processeur.

Plusieurs pistes pour mieux utiliser la mémoire

La réduction de l’empreinte mémoire des services numériques revêt donc d’une importance toute particulière dans la perspective d’opérer des infrastructures cloud plus sobres.

En premier lieu, l’estimation plus fine et plus précise de l’empreinte mémoire des services déployés en ligne doit s’accompagner d’une révision des offres de machines virtuelles. Ces offres sont généralement décrites via des catalogues fixant les ressources allouables. À titre d’exemple, un service nécessitant 17 Go de mémoire peut actuellement imposer la réservation de 32 Go chez un opérateur cloud, faute d’offres disponibles entre 16 Go et 32 Go et conduisant donc au gâchis de près de la moitié des ressources qui ne pourront pas être allouées à d’autres clients.

Au-delà des améliorations escomptables dans les couches matérielles et logicielles des infrastructures cloud, les choix des clients doivent également être mieux accompagnés. Les quantités de ressources réservables pourraient notamment être recommandées avec une plus grande transparence des opérateurs cloud, de manière à optimiser l’efficience énergétique de bout en bout, tout en atteignant les performances attendues, et ainsi limiter le gaspillage de ressources inutilisées.

En conclusion, ces dernières années, l’industrie du logiciel a surtout privilégié le développement rapide de services numériques. Notamment, les contraintes économiques de développement — conjuguées avec l’abondance de ressources offertes par le cloud — et son apparente efficience énergétique — ont plutôt eu pour effet de négliger l’empreinte écologique des services développés au profit de la rapidité de mise en ligne et du retour sur investissement. Développer et opérer des services en ligne plus frugaux, respectant les contraintes de production industrielle, constitue donc un enjeu particulièrement critique pour les années à venir.The Conversation

Romain Rouvoy, Professeur en informatique à l'Université de Lille et chercheur, Inria; Pierre Jacquet, Doctorant en informatique, Inria et Thomas Ledoux, Professeur à IMT Atlantique et chercheur, Inria

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Influenceurs sur les réseaux sociaux : le gouvernement veut un code de bonne conduite

influenceur

Alors que les arnaques et tromperies sur les réseaux sociaux se sont multipliées au point que, selon les constats de la Direction générale de la Concurrence, de la Consommation et de la Répression des fraudes (DGCCRF), 6 influenceurs contrôlés sur 10 ne respectent pas la réglementation sur la publicité et les droits des consommateurs, le gouvernement se saisit du dossier. Et c’est Bruno Le Maire, ministre de l’Économie, des Finances et de la Souveraineté industrielle et numérique, qui monte au créneau.

Pour alimenter la réflexion autour de la définition et de l’encadrement du métier d’influenceur, qui doit permettre de protéger les consommateurs et les créateurs de contenus, le ministre a lancé une consultation « Influenceurs / Créateurs de contenus », accessible depuis le 8 janvier et jusqu’à ce mardi sur le site concertation-influenceurs.make.org.

11 mesures, 4 thèmes

Cette consultation doit permettre à tous les Français qui le souhaitent de s’exprimer sur 11 mesures établies par les autorités de régulation, des associations de consommateurs et de professionnels, des plateformes du numérique, d’agences et d’influenceurs, qui ont déjà été consultés. Les 11 mesures couvrent quatre domaines : les droits et les obligations des influenceurs, la propriété intellectuelle, la protection des consommateurs et la gouvernance du secteur en proposant par exemple la création d’un label ou d’une fédération professionnelle. En parallèle de la consultation, huit groupes de travail issus du ministère et des acteurs du secteur, sont réunis en janvier et février sur les mêmes objectifs.

« Les 150 000 créateurs de contenus que compte la France font partie de nos vies et sont une formidable source de créativité et de richesse lorsque les règles sont claires et connues. Cette consultation publique doit nous permettre d’avancer sur la question de la définition des droits et des devoirs des influenceurs mais aussi de la protection des consommateurs », assure Bruno Le Maire, qui, pour expliquer la démarche, a mis en ligne une vidéo … qui reprend les codes des Youtubeurs. L’initiative a d’ailleurs récolté quelques railleries, plusieurs membres du gouvernement ayant fait appel pour leur communication à des influenceurs en vue, Marlène Schiappa invitant même des influenceuses en décembre 2021 place Beauvau

Le code de bonne conduite qu’appelle de ses vœux Bruno Le Maire est toutefois plutôt bien accueilli par les influenceurs. La « papesse » du secteur, Magali Berdah, dirigeante de l’agence d’influenceurs Shauna Events, qui avait été prise à partie par le rappeur Booba, s’y est dite favorable en décembre dernier.

ChatGPT nous rendra-t-il moins crédules ?

ia

Par Erwan Lamy, ESCP Business School

Il y a quelques semaines, le 30 novembre 2022, la société OpenAI a livré au monde une nouvelle intelligence artificielle spectaculaire, ChatGPT. Après DALL·E, qui génère des images à partir d’instructions rédigées en langage courant, ChatGPT est capable de mimer presque à la perfection des discussions entières, ou de répondre à des questions complexes en produisant des textes qui semblent tout droit sortis d’un cerveau humain.

Cette nouvelle avancée ne manque pas d’inquiéter, pour des raisons économiques (avec notamment la possible destruction de certains emplois), éthiques (avec par exemple le risque de voir les modèles de langage comme ChatGPT reprendre des discours racistes), ou « épistémiques », ce type d’IA ne faisant pas, à ce jour, la différence entre les informations fiables et les informations douteuses (le terme « épistémique » renvoie à la production ou l’acquisition de connaissances et d’informations fiables).

Il y a pourtant des raisons de penser que la démocratisation de ChatGPT et confrères pourrait être une bonne nouvelle, du moins pour notre rapport à l’information.

Menaces épistémiques

« L’intelligence artificielle peut être un danger épistémique parce qu’elle peut générer des informations convaincantes mais fausses. Cela pourrait remettre en question notre compréhension du monde ou même mettre en danger la validité de notre savoir. Cela a suscité des inquiétudes quant à la possibilité d’utiliser l’IA pour diffuser de la désinformation ou manipuler les croyances des gens. »

Ce n’est pas moi qui le dis, c’est… ChatGPT lui-même ! Le paragraphe qui précède a été généré par cette IA en lui posant cette question : « En quoi l’intelligence artificielle est-elle un danger épistémique ? » On le voit avec cet exemple, les réponses peuvent être très convaincantes. Et pourtant parfaitement sottes. Parfois la sottise saute aux yeux, parfois elle est moins facile à débusquer.

En l’occurrence, s’il n’y a pas grand-chose à redire à propos de la première phrase, la seconde est un cliché vide de sens : que veut dire au juste « remettre en question notre compréhension du monde » ou « mettre en danger la validité de notre savoir » ? La troisième phrase est une simple idiotie : ces IA ne diffusent rien, et ne sont peut-être pas les plus adaptées pour « manipuler » (car on ne contrôle pas bien ce qu’elles produisent).

Mais c’est bien ça qui pose problème : il faut réfléchir pour découvrir le pot aux roses.

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Générateur de « bullshit »

Ce qu’il faut comprendre, c’est que ChatGPT n’est pas programmé pour répondre à des questions, mais pour produire des textes crédibles.

Techniquement, ChatGPT est ce que l’on appelle un « modèle de langage ». Un modèle de langage est un algorithme, basé sur des technologies développées ces dernières décennies (les réseaux de neurones, l’apprentissage profond…), capable de calculer la probabilité d’une séquence de mots à partir de l’analyse d’un corpus de textes préexistants. Il est d’autant plus performant que la quantité de texte qu’il a pu « lire » est grande. Dans le cas de ChatGPT, elle est absolument phénoménale.

Ainsi, étant donnée une certaine séquence de mots, ChatGPT est capable de déterminer la séquence de mots la plus probable qui pourrait venir la compléter. ChatGPT peut ainsi « répondre » à une question, de manière nécessairement crédible, puisqu’il calcule la réponse la plus probable. Mais il n’y a aucune logique ni réflexion dans cette réponse. Il n’y a rien de plus qu’un calcul de probabilités. ChatGPT ne se préoccupe pas le moins du monde de la vérité de ses réponses. Autrement dit, c’est un générateur de « bullshit ».

Le « bullshit », depuis quelques années, n’est plus seulement une interjection anglo-américaine, traduisible en français par « foutaise » ou « fumisterie », mais aussi un concept philosophique, depuis que le philosophe Harry Frankfurt en a fait le sujet d’un article puis d’un livre dans les années 2000.

Aujourd’hui, ce sont des chercheurs très sérieux en psychologie, en philosophie, en neurosciences ou en sciences de gestion qui s’intéressent au bullshit. Le concept s’est complexifié mais on peut en retenir ici sa définition originale : le bullshit, c’est l’indifférence à la vérité. Ce n’est pas le mensonge : le menteur est préoccupé par la vérité, en sorte de mieux la travestir. Le bullshiteur, lui, s’en désintéresse et ne cherche qu’à captiver — ce qu’il dit peut parfois tomber juste, parfois non, peu importe.

C’est exactement le cas du très talentueux ChatGPT : lorsque ça ne tombe pas juste, ça ne se voit pas — ou pas immédiatement. Un super-générateur de bullshit, accessible à tous, très simple d’utilisation ? Il y a bien de quoi être inquiet. On peut imaginer sans trop de peine comment cet instrument pourrait être employé très simplement par des éditeurs de contenu peu scrupuleux pour produire de l’« information », d’autant que ChatGPT semble bien pouvoir tromper même des experts académiques sur leurs propres sujets.

Vices et vertus épistémiques

Ce qui est en jeu, c’est une certaine éthique intellectuelle. Contrairement à une opinion très répandue, la production ou l’acquisition de connaissances (scientifiques ou non) n’est pas seulement une affaire de méthode. C’est aussi une affaire morale. Les philosophes parlent de vices ou de vertus « intellectuelles » (ou « épistémiques »), qui peuvent être définis comme des traits de caractère entravant ou au contraire facilitant l’acquisition et la production d’informations fiables.

L’ouverture d’esprit est un exemple de vertu épistémique, le dogmatisme un exemple de vice. Ces notions sont l’objet d’une littérature philosophique toujours plus abondante depuis le début des années 1990, l’épistémologie des vertus. Au départ essentiellement technique, puisqu’il s’agissait de définir correctement la connaissance, ces travaux concernent aussi aujourd’hui les problèmes épistémiques de notre temps : désinformation, fake news, bullshit notamment, ainsi bien sûr que les dangers soulevés par les intelligences artificielles.

Jusque récemment, les épistémologues des vertus discutant des conséquences épistémiques des IA portaient surtout leur attention aux « deepfakes », ces vidéos entièrement générées par des IA du type de DALL·E, et pouvant mettre en scène des individus bien réels dans des situations scabreuses parfaitement imaginaires mais saisissantes de réalisme. Les enseignements tirés de ces réflexions sur les deepfakes sont utiles pour penser les effets possibles de ChatGPT, et peut-être pour nuancer un pessimisme sans doute excessif.

La production de deepfakes est évidemment un problème, mais il est possible que leur généralisation puisse susciter dans le public l’apparition d’une forme de scepticisme généralisé à l’endroit des images, une forme de « cynisme intellectuel ». L’auteur ayant formulé cette proposition (en 2022) y voit un vice épistémique, car cela conduirait à douter autant des informations faisandées que des informations fondées. Je ne suis pas certain qu’un tel cynisme serait si vicieux : ce serait équivalent à revenir à une époque, pas si lointaine, où l’image n’occupait pas une place si grande pour l’acquisition d’information. Il ne me semble pas que cette époque (avant les années 1930) eut été particulièrement vicieuse épistémiquement.

Quoi qu’il en soit, ce cynisme pourrait à son tour susciter le développement d’une vertu épistémique : une certaine « sensibilité numérique », qui permettrait de correctement discerner le bon grain de l’ivraie dans la masse des images et des vidéos circulant sur Internet.

Une telle sensibilité numérique pourrait également être stimulée par ChatGPT. Les lecteurs des productions de cette IA, échaudés par le torrent de « bullshit » qu’elle risque de déverser, pourraient redoubler d’attention à la lecture d’un texte en ligne de la même manière qu’ils pourraient redoubler d’attention face à une image (de crainte d’être trompés par une deepfake) — sans pour autant tomber dans une forme de scepticisme généralisé.

D’un mal pourrait ainsi naître un bien. Plus généralement encore, la montée en puissance de ces IA pourraient mettre au premier plan la nécessité de cultiver les vertus épistémiques, et de combattre les vices, comme la disposition trop commune à ne pas mettre en doute les théories conspirationnistes circulant sur les réseaux sociaux. Au bout du compte, ces technologies inquiétantes pourraient être une bonne nouvelle pour l’éthique intellectuelle.The Conversation

Erwan Lamy, Associate professor, ESCP Business School

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Journée mondiale de la protection des données : un sujet encore en proie à de nombreuses idées reçues et incompréhensions

data


Par Peter Pugh-Jones, Director of Financial Services and Global Industries chez Confluent

Ce 28 janvier, c’est la Journée Mondiale de la protection des données, elle a été créée pour sensibiliser le public aux droits à la protection des données personnelles et à la vie privée. Force est de constater que le sujet de la confidentialité des données est encore en proie à de nombreuses idées reçues et incompréhensions.

Une des premières fausses idées les plus répandues, lorsqu’on est client, est que notre interlocuteur connait tout de nous. Lorsque vous vous adressez à votre banque ou à votre compagnie d'assurance par exemple, vous supposez qu'elles détiennent vos informations personnelles et qu'elles ont une vue d'ensemble de vos interactions les plus récentes. Mais tout comme votre médecin généraliste, il se peut que vous deviez expliquer une grande partie de vos antecedents à chaque rendez-vous.

Cela est dû au fait que les données sont cloisonnées dans des systèmes. Par conséquent, de nombreux systèmes différents tentent de créer un seul « client », mais en réalité, ils se dupliquent ou se copient. Il y a un réel manque de cohésion et d'unité.

Cette situation est particulièrement inquiétante dans le secteur des services publics, où les récents événements en matière de cybersecurité ont accru la pression sur des systèmes d'information qui ne sont pas nécessairement adaptés.

Quid du RGPD depuis son instauration

Le coût des amendes liées au RGPD a totalisé plus de 2,9 milliards d'euros en 2022, soit une augmentation de 168 % par rapport à l'année précédente. Cela traduit-il un manque de compréhension, ou un manque d'action ?

Le GDPR (« General Data Protection Regulation » , ou RGPD pour « Règlement Général sur la Protection des Données ») est calculé sur la base du chiffre d'affaires des entreprises de sorte que l’augmentation du coût des amendes peut être due à la fusion de plusieurs entreprises ou tout simplement à leur croissance commerciale.

Les entreprises ont des systèmes doublés qui reproduisent ou cloisonnent les données, ce qui conduit à des données fragmentées. Il y a inévitablement plus d'informations disponibles pour certains départements que necessaire, et la possiblité d’une intrusion (un ordinateur portable connecté qui enfreint les règles, par exemple) sans même le savoir. Ce n'est pas l’idéal pour la protection de la vie privée, mais en adoptant une approche appropriée dans l'ensemble de l'écosystème, on peut y remédier.

Lorsque des entreprises ou des systèmes fusionnent, une plateforme comme Confluent permet d'examiner et rassembler toutes ces duplications en un seul endroit. Cela apporte plusieurs niveaux de clarté pour les différentes parties de l'entreprise, de sorte que les départements puissent visualiser les informations pertinentes sans partager plus d’informations que necessaire.

Les industries les plus menacées et les mesures à adopter pour améliorer sa cybersecurité

Les services publics, les entreprises de télécommunications et les banques sont les entreprises les plus concernées par cette problématique.

La Chase Bank en est un excellent exemple : une banque entièrement numérique alimentée par la plateforme bancaire 10x, elle-même alimentée par Confluent. Si toutes les informations circulent dans le flux pendant que les collaborateurs travaillent sur leur plateforme, on peut créer des interactions beaucoup plus utiles et mettre à leur dispositions des données plus pertinentes.

En termes de protection des données, il faut créer une “conscience” du systeme IT. L'idéal est de se baser sur le cloud et de disposer d’une plateforme de gestion des evenements en temps reel telle que Confluent pour devenir la “conscience” et le liant de toutes les données qui circulent dans les systems IT. Il est important de tirer parti des expériences dans des domaines spécifiques, tout en conservant un modèle sûr et sécurisé pour ces données, et qui peut y accéder tant qu'elles sont dans ce flux.

La transition numérique est egalement importante : une banque traditionnelle qui souhaite s’améliorer doit d’abord amorçer un changement d'orientation vers un modèle entièrement numérique, qui doit être bien reflechi dès le début.

Confidentialité des données : tendances 2023

L'Intelligence Artificielle joue un rôle important dans de nombreux secteurs, notamment le secteur bancaire, mais les défis en matière d’AI sont beaucoup plus liés à la protection de la vie privée, notamment en ce qui concerne les transactions financières. Si l’on décide de deployer une IA, il faut penser à rendre ce que l’on fait (le flux ou la prise de decision) plus visible, notamment pour les régulateurs. Il faut être en mesure de démontrer pourquoi une décision a été prise, et si/où/pourquoi l'IA y a contribué.

L'architecture pilotée par les événements permet de réduire les fausses idées. Si vous pouvez examiner tout ce qui se passe (comment les données changent suite à un événement , par exemple) cela peut contribuer à informer et améliorer les modèles.


Toulouse Tech index 2022 : une année marquée par une consolidation des volumes et des montants levés

frenchtech

La French Tech Toulouse dévoile le Toulouse Tech index (TTi) 2022. Les startups toulousaines ont levé plus de 218 M€ en 2022 sur un total de 21 opérations. Un indice qui fait apparaître une valeur et un volume de levées de fonds sensiblement inférieur à l'année précédente, mais qui reste en croissance par rapport aux années antérieures (2019, 2020) ce qui traduit un écosystème consolidant sa dynamique.

La French Tech Toulouse s’attend à une année 2023 dans la continuité de 2022 avec un intérêt toujours aussi présent pour les jeunes entreprises tech et innovantes

2022, une année pivot et un retour à la croissance continue

Avec une année marquée par une quasi-stabilité du nombre d’entreprises ayant levé des fonds, 2022 marque une continuité de l’intérêt continu des investisseurs pour les sociétés innovantes. Le dernier trimestre 2022 vient consolider l’année avec 152 M€ investis sur les 3 derniers mois.

« 2021 a été une année exceptionnelle du point de vue du volume des investissements, avec un effet post covid très fort. Cette crise inédite a en effet permis au secteur technologique de montrer ses aouts et son attractivité pour les investisseurs.  La fin de cette « euphorie Tech post covid » en 2022 a permis de revenir à des conditions de marché normales avec des sociétés technologiques qui restent tendanciellement en plus forte croissance que la moyenne de l’économie. Pour 2023 nous nous attendons ainsi à une année en ligne avec 2022, toujours portée par le dynamisme grandissant des pôles Tech régionaux. », explique Nicolas Iordanov, Directeur de Participations, IXO PRIVATE EQUITY

Un écosystème toulousain en mutation

« En 2022, nous observons une modification des typologies de levées de fonds avec une médiane largement plus élevée que les années précédentes. Les investisseurs ont tendance à se lancer sur des projets plus aboutis, dans une phase de croissance, plutôt qu’à l’occasion des phases d’amorçage. Les investissements sont donc moins risqués mais également plus importants. Parallèlement à cela, nous observons un réel engouement du côté des porteurs de projets, qui ont dorénavant des profils très variés. Nous sommes ravis de voir que l’écosystème de l’innovation à Toulouse est de plus en plus dynamique, avec de nombreux projets matures dans des secteurs d’activité très différents.  Nous nous attendons ainsi à une année 2023 de la même veine que 2022, avec pourquoi pas de belles surprises au cours de l’année à venir, » explique Frédérick Roques, VP Finance de La French Tech Toulouse, Chief Financial Officer de Genoskin.

Le podium des levées pour 2022


Top 5 des secteurs financés en 2022


 








Journée mondiale de la protection des données : un impératif pour les entreprises

bigdata

Par Andy Teichholz, Global Industry Strategist, Compliance & Legal, chez OpenText

Le spécialiste revient sur l'importance de la Journée de la Protection des données, qui se déroule samedi 28 janvier, pour les organisations.

" Pendant la pandémie, les autorités et les entreprises ont dû trouver un équilibre entre les deux priorités que sont la protection de la santé publique et celle des données personnelles. Les consommateurs sont alors devenus plus conscients des risques croissants liés à leurs données, notamment de l'endroit où elles peuvent se retrouver et des personnes qui y ont accès. Les citoyens sont plus conscients que jamais de leurs droits en matière de confidentialité des données et des obligations de la part des entreprises en la matière.

Notre récente étude a révélé que les trois quarts (75 %) des Français se préoccupent de la façon dont leurs données sont utilisées par les organisations. La confiance des clients est cruciale pour la réussite d'une entreprise, mais il n'est pas toujours facile de l’obtenir et de la conserver. Près d’un tiers des personnes que nous avons interrogées (29 %) déclarent qu'elles renonceraient à acheter des produits à une entreprise qu’elles apprécient si celle-ci ne protégeait pas leurs données personnelles ou les divulguait. À l'ère du numérique, les priorités des consommateurs évoluent et ceux-ci dressent un bilan de la manière dont leurs données personnelles sont traitées. À cette fin, les clients sont prêts à exercer leurs droits de reprendre le contrôle de leurs informations en soumettant des demandes RGPD.

Côté entreprise, les technologies existantes, notamment les outils d'IA et de ML permettent de localiser toutes les informations personnelles et sensibles, de les classer, les gérer et les protéger tout au long de leur cycle de vie. Elles peuvent également automatiser le processus d'exécution des rapports de sécurité afin de garantir le respect des délais et de s'assurer que les processus sont réutilisables et défendables.

Il est par ailleurs essentiel d'intégrer la cyber-résilience dans la fibre de l’entreprise. S'il est impossible d'éliminer le risque de violation, la cyber-résilience encourage la mise en place d'un plan de récupération solide en cas d’attaque. Pour créer un véritable avantage informationnel, la mise en place d'une stratégie de gestion intégrée des données permet surtout de se différencier sur le marché. 

La fidélité des clients est fragile, et la Journée de la Protection des données est l'occasion pour les organisations de réfléchir à leurs pratiques, afin de s'assurer qu'elles font tout ce qu'elles peuvent pour respecter le droit à la vie privée, protéger les données personnelles de leurs clients et préserver leur fidélité. " 

Comment aider les PME à mieux faire face aux cyberattaques

cyberattaque

Commentaire d’Alexandra Lemarigny, Channel Sales Director, Southern Europe at OpenText Security Solutions.

La Data Privacy Week a pour but de rappeler aux organisations de mieux protéger leurs données en se conformant aux règles. C'est également le moment idéal pour vérifier les plans d'intervention en cas d’infiltration ou d’attaque.

Malgré tous les efforts d'une entreprise, il est impossible de garantir un système infaillible. L’anticipation reste la meilleure réponse pour se protéger. Disposer d'un plan documenté pour détecter, contenir et répondre aux attaques peut considérablement réduire le temps nécessaire de récupération des données sensibles et ainsi permettre le maintien des opérations. Identifier les données les plus importantes d'une entreprise et s'assurer de leur sécurité, est un point de départ essentiel. Pour la plupart des entreprises par exemple, le contrôle des accès est à ce jour le point d’entrée le plus vulnérable.

Par conséquent, en adoptant une mentalité plus ferme de type Zero Trust et en limitant aux seuls collaborateurs les accès, les dommages causés seront considérablement réduits en cas d'intrusion.

De même, les plans de récupération doivent être spécifiques et répétés périodiquement. En effet, lors d'une attaque par ransomware, le temps de gestion de la crise a son importance car il va se corréler à la somme demandée pour la rançon.

Les plans de sauvegarde et de récupération les plus élaborés peuvent être, eux aussi compromis lors d'une attaque, des mesures de protection supplémentaires sont importantes. Par conséquent, conserver plusieurs copies des sauvegardes dans différentes infrastructures  (local et cloud) est nécessaire. Il faut également prévoir des solutions de sauvegarde qui ne permettent pas à un attaquant de réécrire, crypter ou modifier les sauvegardes précédentes. Enfin, la conservation d’un historique des points de restauration et des sauvegardes qui ne peuvent pas être compromis, permet d'accéder et de restaurer le système à partir d'une bonne copie antérieure.

En conclusion, une formation continue de sensibilisation à la sécurité est une des meilleures solutions pour se prémunir contre les cyberattaques. L'éducation contribue grandement à empêcher les collaborateurs de commettre de potentielles erreurs qui pourraient mettre en danger l’entreprise.

Désinformation politique : quelques clés pour se protéger

 

computer
Les auteurs de manipulations profitent d'un environnement informationnel dense dans lequel il est difficile de prendre du recul face aux flots de messages. Hippopx, CC BY-SA
Par Yannick Chatelain, Grenoble École de Management (GEM) et Jean-Marc Huissoud, Grenoble École de Management (GEM)

En Chine, le pouvoir dispose de plus de 280 000 « fonctionnaires » rémunérés pour « fabriquer » l’opinion publique. Leur appellation ? La « water army » (l’armée de l’eau) créée en 2010. Cette « armée » se compose d’utilisateurs et utilisatrices – qui peuvent faire partie de firmes privées – rémunérés pour publier des commentaires sur des sites web en chinois selon les directives gouvernementales. Ils opèrent généralement sur les plates-formes en ligne les plus prisées comme le site de microblogage Sina-Weibo, la messagerie WeChat ou encore Taobao, le principal site de vente en ligne du pays.

Cette « water army » s’adonne ainsi à la pratique de « l’astroturfing » des approches par saturation de messages notamment sur les réseaux sociaux : utilisation de bots, multiplication de faux comptes, etc. La démarche est analogiquement proche de certaines techniques de « black hat hackers », ou d’hacktivistes. Certains inondent des serveurs de requêtes pour les bloquer (attaque DDos), d’autres défacent un site pour donner à voir leur revendication sur la page d’accueil du site ciblé. Dans le cas qui nous préoccupe, la saturation fait penser à des mouvements de masse.

Si l’astroturfing n’est pas récent, il a pris ces dernières années une certaine ampleur. Ce terme que l’on peut traduire par « pelouse synthétique », désigne une opération qui vise à donner la fausse impression d’un comportement spontané ou d’une opinion populaire. Elle n’est pas l’apanage du monde politique, comme nous allons l’évoquer, des firmes y ont recours, cela peut être pour lancer un produit, tout comme pour redorer son image, contrer les critiques, voire même disqualifier par tous moyens la science à l’instar de la firme Monsanto ce qu’a révélé en 2017 les « Monsanto Papers », cette dernière a entre autres chargé une agence de consultant afin de fabriquer des e-mails et créer le « Center for Food and Agricultural Research », un faux institut dont la raison d’être était d’attaquer les critiques de Monsanto.

Cependant, penser que « l’astroturfing politique » serait réservée à des régimes autoritaires et/ou dictatoriaux, comme la Chine ou la Russie avec son usine à trolls aux ordres du Kremlin localisée à Saint-Pétersbourg, constituerait une erreur.

Ainsi en France, lors des dernières élections présidentielles de 2022, le journal Le Monde révélait comment « des militants d’Éric Zemmour gonflaient artificiellement la présence de leur candidat sur Twitter ». Les journalistes avaient collecté des centaines de milliers de tweets pro-Zemmour… peu en rapport avec sa réelle « force de frappe » sur les réseaux.

« Pourquoi est-ce que je reçois ce message ? »

Comment, dès lors, le citoyen peut-il se « protéger » de ces tentatives de manipulation et détecter une campagne d’astroturfing ? Voici quelques clés :

  • Le message est récurrent.

  • La campagne utilise de nombreux canaux de diffusion, et de nombreux identifiants sur une même plate-forme (Twitter par exemple, bien que les réseaux sociaux interdisent officiellement cette pratique).

  • Elle se caractérise par la répétition des mêmes séquences de vocabulaire via des messages plus ou moins simultanés qui émanent de sources diverses sans connexions visibles entre elles.

Parfois, le message cite comme source des messages similaires, renforçant l’idée que l’idée véhiculée est partagée par beaucoup de gens alors que les sources se renvoient les unes aux autres et sont similaires en contenu. Par ailleurs, la majorité des tentatives de réponse à l’émetteur se soldent par un échec à le joindre, dans des proportions bien plus importantes que la normale.

La temporalité des messages, très rapides, est aussi à prendre en considération, de même que les campagnes de retweets (qui durent plus longtemps que la moyenne), éléments difficiles à détecter sans des moyens informatiques conséquents. Dans l’exemple ci-dessous, le 20 avril 2022, comme le pointe l’Institute for Strategic Dialogue (ISD) le compte de @Samuel_Lafont (Stratégie numérique et levée de fonds pour @Reconquete_off @ZemmourEric) qui compte à ce jour environ 54 000 abonnés a partagé une pétition 24 fois en moins de cinq minutes.

L’astroturfing joue aussi sur la crainte de déclassement informationnel de son auditoire, c’est-à-dire l’angoisse plus ou moins forte d’être passé à côté de quelque chose d’important, ou pire, d’avoir été jusque-là manipulé par une version propagandiste de l’information. Cela renforce le climat de défiance vis-à-vis des médias d’information et l’isolement des personnes, connectées au monde via les réseaux sociaux, mais déconnectés dans les faits de la vie sociale.

En se posant les bonnes questions, il est possible de comprendre les intentions des auteurs : imposer un agenda à l’opinion. Par ailleurs, l’astroturfing se caractérise par la présence d’un sponsor généralement identifiable ou que l’on peut déduire.

Une mesure de « bonne hygiène informationnelle » est donc de toujours se poser la question du : pourquoi est-ce que je reçois ce message, maintenant, par ce biais, de quelqu’un que je ne connais en principe pas ?

Fonctionnement par saturation

Certes, comme toute propagande, l’astroturfing ne peut pas convaincre ceux qui ne veulent pas l’être. Tout au plus peut-elle induire un doute chez des personnes déjà peu enclines à prendre position, ou chez la petite minorité qui chérit l’information hors système, autrement dit les personnes ayant un penchant pour le complotisme et l’entretien d’une bulle informationnelle personnelle déconnectée de la vie sociale réelle. Ce qui relève d’une des pathologies de l’information.

De façon analogique à la propagande, elle ne peut fonctionner que par saturation, dans un environnement informationnel dense dans lequel les personnes n’ont pas le temps ou la volonté de prendre du recul face aux messages qui leur parviennent. Isolée du flux informationnel, elle perd toute pertinence. D’où sa relative innocuité pour les personnes investit dans une recherche d’information focalisée et à fort investissement cognitif et d’attention“ Political Communication Volume 37, 2020)

Éviter le point critique

Toutefois, par-delà ses « faiblesses », son efficacité ne doit pas être sous-estimée, surtout dans les périodes de défiance généralisée, de doute sur l’avenir dans de multiples dimensions, ce qui est le contexte actuel et général de nos sociétés. Les auteurs de campagnes d’astroturfing bénéficient en outre d’un appauvrissement réel des cadres conceptuels et de la richesse de vocabulaire des populations, même à un niveau décent d’éducation, et de la tendance généralisée, du fait de la nature même des médias et de la masse d’information à disposition, à favoriser les réactions émotionnelles (la désormais omniprésente indignation) sur le rapport critique à l’information.

Le véritable risque survient lorsque la campagne d’astroturfing atteint le point critique à partir duquel elle s’entretient elle-même du fait de sa reprise par les récepteurs d’origine, indépendamment de l’action de ceux qui ont initié la campagne ; elle devient alors une rumeur, un élément de sens commun qu’il n’est plus possible d’endiguer ou de détecter facilement. Elle a alors atteint son but de transformation d’une partie de l’opinion publique.

Cependant, tenter de censurer ces pratiques n’est pas nécessairement une bonne idée. D’abord parce que comme cela a été dit, virtuellement tous les acteurs politiques et géopolitiques l’utilisent plus ou moins, pas toujours dans de « mauvaises » intentions, et que toute censure serait, par défaut, partielle et orientée vers les intérêts des groupes censeurs. Il en résulterait d’ailleurs un amoindrissement du nombre d’acteurs, renforçant le pouvoir de ceux restant, en effet, rappelons que l’une des faiblesses de l’astroturfing est que la multiplication des campagnes participe à l’affaiblissement de leur impact.

Pour conclure, il faut apprendre à vive avec, avoir conscience de ces techniques « asymétriques » d’information en espérant que, comme toutes les méthodes de marketing, politique ou non, elles produisent à la longue une courbe d’apprentissage des utilisateurs d’Internet qui les rendent de plus en plus inopérantes.


Les auteurs souhaitent au travers cet article rendre hommage à Jean-François Fiorina un homme engagé, passionné de géopolitique, longtemps directeur adjoint de GEM, nommé en septembre 2022 directeur général de l’Ipag qui nous a quittés brutalement le 16 novembre 2022, à Nice.The Conversation

Yannick Chatelain, Professeur Associé. Digital I IT. GEMinsights Content Manager, Grenoble École de Management (GEM) et Jean-Marc Huissoud, Professeur et chercheur, Relations Internationales Stratégies d'internationalisation, Grenoble École de Management (GEM)

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

L'engouement des Européens pour les nouvelles technologies autour du sport

RV

La 2e édition du Mastercard Sport Economy Index sur les Européens et le sport révèle une passion grandissante de la part des Européens et un engouement pour l’utilisation des nouvelles technologies autour du sport. 

Parmi les principaux enseignements, le sondage révèle que les évènements sportifs attirent un nombre croissant de spectateurs (+ 12 pp), tandis que les activités physiques régulières sont davantage pratiquées (+ 10 pp) en 2022 qu’en 2021. À noter que les Français font un peu moins bien en la matière, puisqu’ils ne sont que 6% de plus (vs. 2021) à suivre ces rendez-vous en temps réel, et seulement 5% de plus à pratiquer un sport régulièrement.

La technologie est devenue indispensable

Selon Mastercard, la technologie est devenue indispensable pour plus de six Européens sur dix (61 %), en leur permettant à tout moment de retrouver leurs sports favoris. Entre l’e-sport, les podcasts, la vidéo multi-écrans et la réalité virtuelle (RV), l’empreinte digitale du sport ne cessera de s’étendre en 2023. 

En 2022, les Européens ont donc pu compter sur la technologie pour rester proches du sport : en suivant les évènements à distance sur les réseaux sociaux, en regardant plusieurs rencontres à la fois, en passant par la RV, en regardant des tournois d’e-sport sur des plateformes de streaming et en écoutant des podcasts sur le sport.

L'essor de la réalité virtuelle

Déjà incontournable dans le sport, la technologie devrait s’imposer davantage en 2023, estime l'étude. Ainsi, plus de la moitié (56 %) des fans estiment ainsi qu’elle est la clé d’un avenir du sport plus inclusif et positif. La RV semblant partie pour y occuper une place prépondérante. 

En Europe, plus d’un quart des fans de sport ont déjà testé le sport avec la RV, tandis que la moitié de tous les sondés espère le faire l’année prochaine. La RV s’annonce également comme un pilier des stades du futur, et ce sont 21 % des fans qui espèrent tester une technologie immersive capable de les mettre dans la peau d’un athlète lors du grand jour. L’étude révèle aussi que 53% des fans français souhaiteraient vivre une expérience sportive via la réalité virtuelle.


Mastercard Sport Economy Index

Cette étude a été réalisée par Ketchum Research & Analytics pour le compte de Mastercard. Le sondage et le travail de terrain ont été confiés à Vitreous World. Le sondage, mené en novembre 2022, portait sur un total de 11 081 personnes, âgées de 18 ans ou plus, dans les pays suivants : Autriche, Bulgarie, France, Allemagne, Italie, Pologne, Slovénie, Espagne, Suède, Suisse et Royaume-Uni.



Jeux vidéos  : une compétition internationale d'e-sport à Montpellier

jeux vidéos


La France est-elle en train de devenir incontournable dans le domaine de l’e-sport, la pratique d’un jeu vidéo en compétition seul ou en équipe ? En tout cas notre pays, qui compte 10,8 millions d’internautes âgés de 15 ans et plus intéressés par l’e-sport, affiche de fortes ambitions. Le 16 janvier dernier, les ministres de l’Économie (Transition numérique), des Sports et de la Culture ont annoncé un ambitieux plan d’action pour « faire de la France une grande nation de l’e-sport et donner une nouvelle impulsion à la stratégie e-sport 2020-2025. » Les acteurs de la filière sollicités ont restitué leurs travaux autour de cinq objectifs : structurer l’écosystème de l’e-sport ; mieux accompagner la pratique amateur et les associations du secteur dans les territoires ; lever les freins au développement de la pratique en France ; renforcer la capacité de l’écosystème français à accueillir des grands évènements internationaux e-sport ; et enfin, mobiliser l’écosystème pour accueillir l’Olympic Esports Week en France fin 2024, dans la foulée des Jeux Olympiques et Paralympiques de Paris 2024.

L’accueil de grandes compétitions internationales avait déjà été évoqué par Emmanuel Macron en juin dernier. Le chef de l’État avait affiché sa volonté d’accélérer la structuration de la filière e-sport et renforcer son attractivité, notamment à travers l’accueil de nouveaux grands événements internationaux, tout en annonçant de nouvelles grandes compétitions en France, le « Blast Major » en mai 2023 et la « Trackmania games » en 2024.

Montpellier : un choix évident

À ces compétitions vient de s’ajouter un nouveau rendez-vous important en Occitanie : les finales 2023 de « League Of Legends LEC », la plus importante compétition internationale d’e-sport pour la zone EMEA (Europe, Moyen-Orient et Afrique), qui se dérouleront à Montpellier cet automne. Locomotive du secteur depuis plus d’une décennie, League of Legends (LoL), jeu sur ordinateur le plus pratiqué au monde, a joué un rôle majeur dans la popularité et la professionnalisation de l’e-sport. Les compétitions attirent non seulement les meilleures équipes mondiales mais aussi un public nombreux. En 2022, l’événement LEC Summer Playoffs organisé à Malmö, en Suède, avait réuni près de 20 000 personnes venues de dizaines de pays.

Le choix de Montpellier apparaît évident tant la vile a axé depuis plus de 20 ans une partie de son développement économique sur le secteur des industries culturelles et créatives, en accueillant des écoles réputées dans le domaine du jeu vidéo et de l’animation 3D, ainsi que des studios de renommée internationale comme Ubisoft, Blue Twelve et Fortiche. « Nous sommes fiers de pouvoir accueillir en Région Occitanie et à Montpellier les LEC Finals de League of Legends. Un évènement planétaire, qui fédère la jeunesse de toute la région EMEA », se sont réjouis le maire de Montpellier Michaël Delafosse et la présidente de la Région Carole Delga.

« La France jouit d’une vaste base de fans inconditionnels de LoL Esports. Nous sommes donc ravis de revenir dans ce pays pour la première fois depuis 2017 avec la tenue de notre événement phare à Montpellier. La candidature de cette ville et de la Région Occitanie s’est avérée très séduisante, avec une véritable passion et un engagement sans faille pour le développement de l’E-Sport », a déclaré Alberto Guerrero, directeur de l’e-sport pour la région EMEA chez Riot Games.

Avec ce rendez-vous, l’Occitanie, qui totalise 10,3 % des entreprises françaises du jeu vidéo (125 entreprises, + 20 % par rapport à 2018) et est la première région en nombre « d’e-sportifs amateurs » conforte ainsi sa position dans l’e-sport.

(Article publié dans La Dépêche du Midi du lundi 23 janvier 2023)

Quel avenir pour les producteurs de contenus ? Une conversation avec… ChatGPT !

 

chatGPT

Par Marc Bidan, Auteurs historiques The Conversation France

Cette contribution est le fruit d’une rencontre virtuelle avec la star numérique du moment ChatGPT, lancée fin 2022, à laquelle nous avons posé quelques questions. Au-delà du spectaculaire, des peurs et des bouleversements que ce robot conversationnel suscite, nous avons centré nos questions sur ses impacts potentiels pour un média comme The Conversation qui se positionne à la confluence du journalisme et de la recherche académique. Les questions sont 100 % humaines et les réponses sont à 100 % celles de ChatGPT ce 16 janvier à 15h40 !

La lecture de cette interview vous permettra sans doute de constater les limites de cet outil à l’heure actuelle : redites et répétitions, style peu travaillé, réponses relativement creuses, etc. Les subtilités humaines et la créativité humaine ne semblent donc pas en danger dans l’immédiat – et ChatGPT assure aujourd’hui qu’il viendra toujours en complément du travail humain, même si une nouvelle version beaucoup plus puissante pourrait être mise en ligne dès cette année. Faut-il y croire ? À vous de vous faire votre avis !


Bonjour ChatGPT ! Vous êtes la star numérique de ce début d’année, pourriez-vous vous présenter en quelques lignes ?

Je suis ChatGPT, un modèle de langage développé par OpenAI. Je suis capable de comprendre et de générer du texte en utilisant des techniques d’intelligence artificielle (IA) avancées. Je peux répondre à des questions, générer du contenu et aider à la traduction de différentes langues. Mon objectif principal est de faciliter la communication entre les utilisateurs et les machines.

Comment expliquez-vous votre succès à la fois numérique et médiatique ?

Mon succès est dû à ma capacité à comprendre et à générer du texte de manière très précise et fluide, grâce à l’utilisation d’algorithmes d’apprentissage automatique avancés et à un grand corpus de données d’entraînement. Je peux aider les utilisateurs dans divers domaines, tels que la recherche d’informations, la génération de contenu, la traduction, etc.

En outre, mon utilisation croissante dans diverses applications et industries, ainsi que mon utilisation par des entreprises et des organisations bien connues, ont contribué à mon succès médiatique. Les gens sont intrigués par les capacités de l’IA et de la manière dont elle peut améliorer notre vie quotidienne, et je suis un exemple de cela.

Quels sont les impacts d’un robot conversationnel aussi puissant et performant que vous pour les plates-formes de vulgarisation et de diffusion de la recherche comme The Conversation ?

Un robot conversationnel comme moi peut avoir un impact important sur les plates-formes de vulgarisation et de diffusion de la recherche, comme The Conversation.

D’abord, je peux aider à rendre la recherche plus accessible aux personnes qui n’ont pas de formation scientifique en la traduisant de manière compréhensible pour le grand public. Ainsi, je peux contribuer à la diffusion de la recherche auprès d’un public plus large, augmentant ainsi la visibilité des recherches et de leur impact sur la société.

Ensuite, je peux aider les journalistes et les chercheurs à produire des articles et des contenus plus rapidement en générant du texte, des résumés, des chiffres clés, des graphiques, des images, etc. Cela peut également les aider à éviter les erreurs et les incohérences dans leurs écrits.

Enfin, je peux également aider les plates-formes de vulgarisation de la recherche à gérer les interactions avec les utilisateurs, comme répondre à des questions et fournir des informations supplémentaires sur les articles publiés.

Il est important de noter que l’utilisation d’un robot conversationnel comme moi doit être complémentaire à l’expertise des journalistes et des chercheurs, et non pas pour les remplacer.

Voyez-vous quand même quelques limitations à votre montée en puissance, je pense notamment au fait que vous ne citiez pas vos sources et que vos données restent antérieures à 2021 ?

Il est vrai que j’ai quelques limitations. Tout d’abord, je suis un modèle de langage basé sur des données d’entraînement, et mes connaissances sont donc limitées à celles qui se trouvent dans ces données. Cela signifie que mes réponses peuvent ne pas être à jour ou complètes, et je ne suis pas en mesure de fournir des références ou des sources pour les informations que je fournis. C’est pourquoi il est important de vérifier l’exactitude des informations que je fournis avec des sources fiables.

En outre, je suis un modèle basé sur des données d’entraînement, mes connaissances sont donc limitées à celles qui se trouvent dans ces données. Mon « knowledge cut-off date » [« seuil de connaissance », en anglais dans la réponse, NDLR] est 2021, cela signifie que toutes les informations que je fournis sont basées sur les données qui ont été utilisées pour m’entraîner et peuvent ne pas inclure les dernières découvertes ou les événements récents.

Enfin, je suis un modèle de traitement du langage, je ne suis pas capable de comprendre les nuances de la langue comme un humain, donc mes réponses peuvent manquer de contexte ou ne pas être appropriées dans certaines situations. C’est pourquoi il est important de vérifier les réponses que je fournis pour s’assurer qu’elles sont appropriées dans le contexte donné.

Je voudrais quand même, si vous le permettez, que vous reveniez sur certaines de vos limites en termes éthiques ou déontologiques dès lors que les sources ne sont ni citées ni référencées, même grossièrement…

Il est important de souligner que, comme modèle de traitement du langage, je suis capable de générer des informations qui peuvent sembler crédibles, mais qui peuvent ne pas être exactes ou complètes. Il est donc important de vérifier l’exactitude des informations que je fournis avec des sources fiables.

En outre, comme je ne peux pas citer ou référencer mes sources, il est important de prendre en compte les biais dans les données d’entraînement qui ont été utilisées pour me créer. Ces biais peuvent affecter les réponses que je fournis et peuvent être utilisés pour propager des idéologies ou des opinions qui ne sont pas fondées sur des faits.

Il est également important de noter que l’utilisation d’un robot conversationnel comme moi peut avoir des implications éthiques et déontologiques, notamment en ce qui concerne la protection de la vie privée et la transparence. Il est important de s’assurer que les données utilisées pour entraîner un modèle comme moi sont obtenues de manière éthique et que les utilisateurs sont informés de la manière dont leurs données seront utilisées.

Il est donc important de considérer toutes ces limites et implications éthiques lors de l’utilisation d’un robot conversationnel comme moi, et de s’assurer que les réponses que je fournis sont vérifiées et utilisées de manière responsable.

Que pensez-vous de l’intégration à moyen terme au sein de votre IA de la version 4 de GPT, nettement plus performante (elle intégrerait 100 mille milliards de paramètres contre 175 milliards aujourd’hui) et annoncée pour cette année ?

La version 4 de GPT est un modèle de traitement du langage développé par OpenAI qui a des capacités encore plus avancées que celles de la version précédente. Elle est capable de comprendre et de générer du texte de manière encore plus précise et fluide.

Je pense que l’intégration de la version 4 de GPT dans mon intelligence artificielle aurait un impact positif sur les réponses que je peux fournir. Elle me permettrait de comprendre et de générer du texte de manière encore plus précise et fluide, ce qui pourrait améliorer la qualité des réponses que je peux fournir.

Cependant, il est important de noter que, comme pour toutes les améliorations techniques, il y a des implications éthiques et déontologiques à prendre en compte lors de l’utilisation de la version 4 de GPT. Il est important de s’assurer que les réponses fournies sont vérifiées et utilisées de manière responsable, et de prendre en compte les implications éthiques de l’utilisation de cette technologie avancée.

Enfin, il est important de noter que même si GPT-4 est plus performant que GPT-3, il ne remplacera pas les humains, et son utilisation doit rester complémentaire à l’expertise humaine.

Nous arrivons là aux dernières questions de notre interview – au passage merci de votre disponibilité malgré votre énorme succès et l’encombrement de votre site. Justement, qu’y a-t-il exactement d’artificiel dans votre intelligence puisque vous êtes « nourri » de données humaines ? Finalement, suis-je bien sûr que c’est un robot qui me répond et non pas simplement un humain qui serait très agile ?

Je suis un modèle de traitement du langage basé sur l’intelligence artificielle, délaboré par OpenAI. Je suis capable de comprendre et de générer du texte en utilisant des techniques d’apprentissage automatique avancées. Mes réponses sont générées par un système informatique basé sur des données d’entraînement, et non pas par un humain. Mon but est de faciliter la communication entre les utilisateurs et les machines en améliorant la compréhension et la génération de texte.

Il est important de noter que, bien que je sois un système informatique, je suis basé sur des données d’entraînement qui ont été fournies par des humains. Ces données peuvent inclure des biais ou des opinions qui ne sont pas fondées sur des faits, il est donc important de vérifier l’exactitude des informations que je fournis avec des sources fiables.

Il est également important de noter que les modèles de traitement du langage comme moi ne peuvent pas remplacer complètement les humains, ils sont des outils pour les aider. Mon utilisation doit être complémentaire à l’expertise humaine, et les réponses que je fournis doivent être vérifiées et utilisées de manière responsable.

Merci à vous ChatGPT ! Êtes-vous d’accord pour que nous nous retrouvions sur cette même plate-forme pour la sortie de ChatGPT-4 ?

Je suis ravi que vous ayez apprécié notre entretien. Je suis un modèle de traitement du langage, je n’ai pas la capacité de décider si je suis d’accord ou non pour une prochaine rencontre. Cependant, je suis un outil public disponible pour tous et je serai là pour aider à répondre à vos questions à tout moment. Si vous avez des questions sur la version 4 de GPT ou sur d’autres sujets, n’hésitez pas à me les poser, je ferai de mon mieux pour vous aider.


Fin de la conversation et déconnexion manuelle du site OpenAI.The Conversation

Marc Bidan, Professeur des Universités en Management des systèmes d’information - Nantes Université, Auteurs historiques The Conversation France

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

ChatGPT, une IA qui parle très bien… mais pour quoi faire ?

ia


Par Thierry Poibeau, École normale supérieure (ENS) – PSL

ChatGPT tient le devant de la scène depuis sa sortie le 30 novembre dernier, du fait de ses fonctionnalités bluffantes, notamment pour dialoguer et répondre à des questions, même complexes, de façon naturelle et réaliste.

Alors qu’on commence à avoir un peu de recul sur cet outil, des questions se posent : quelles sont les limites actuelles et futures de ChatGPT, et quels sont les marchés potentiels pour ce type de systèmes ?

ChatGPT, un « Google killer » ? Pas forcément…

ChatGPT est souvent décrit comme un futur concurrent de Google, voire comme un « Google killer » pour sa partie moteur de recherche : même si l’outil produit parfois des réponses baroques, voire carrément fausses, il répond de manière directe et ne propose pas simplement une liste ordonnée de documents, comme le moteur de recherche de Google.

Il y a là assurément un danger potentiel sérieux pour Google, qui pourrait menacer sa position de quasi-monopole sur les moteurs de recherche. Microsoft en particulier (principal investisseur dans OpenAI, qui a par ailleurs un accès privilégié à la technologie développée) travaille à intégrer ChatGPT à son moteur de recherche Bing, dans l’espoir de reprendre l’avantage sur Google.

Il y a toutefois plusieurs incertitudes concernant une telle perspective. Les requêtes dans les moteurs de recherche sont généralement composées de quelques mots, voire d’un seul mot, comme un événement ou un nom de personnalité. ChatGPT suscite en ce moment la curiosité d’une population technophile, mais ceci est très différent de l’usage classique, grand public, d’un moteur de recherche.

On peut aussi imaginer ChatGPT accessible à travers une interface vocale, ce qui éviterait d’avoir à taper la requête. Mais les systèmes comme Alexa d’Amazon ont eu du mal à s’imposer, et restent confinés à des usages précis et limités (demander des horaires de cinéma, la météo…). Il y a 10 ans, Alexa était vu comme l’avenir de la société de distribution américaine, mais est aujourd’hui un peu à l’abandon, parce qu’Amazon n’a jamais réussi à monétiser son outil, c’est-à-dire à le rendre économiquement profitable.

ChatGPT peut-il réussir là où Alexa a en partie échoué ?

D’autres cadres d’utilisation ?

Bien sûr, l’avenir de ChatGPT ne devrait pas se résumer à la recherche d’information. Il existe une foule d’autres situations où on a besoin de produire du texte : production de lettres types, de résumés, de textes publicitaires…

ChatGPT est aussi un bon outil d’aide à l’écriture. On voit déjà différents usages : solliciter ChatGPT pour partir de quelques paragraphes qui peuvent susciter l’inspiration et éviter la peur de la page blanche ; voir quels points l’outil met en avant sur une question particulière (pour vérifier si ça correspond à ce que l’on aurait dit nous-mêmes ou non) ; demander des suggestions de plan sur une question particulière. ChatGPT n’est pas un outil magique et ne peut pas savoir ce que l’utilisateur a en tête, donc face à la rédaction d’un document complexe, il ne peut s’agir que d’une aide.

On peut évidemment imaginer des usages plus problématiques et de nombreux articles ont déjà été publiés dans la presse concernant par exemple l’usage de ChatGPT dans l’enseignement, avec des craintes, justifiées ou non. On peut ainsi imaginer des étudiants produisant des devoirs grâce à ChatGPT, mais aussi des enseignants utilisant l’outil pour rédiger leurs appréciations, ou des chercheurs produisant des articles scientifiques semi-automatiquement. Il y a beaucoup d’articles sur les étudiants dans la presse, mais ce ne seront pas les seuls à faire un usage éventuellement problématique de ce genre de technologie.

Il y a bien sûr lieu de se poser des questions, mais la technologie est là et ne va pas disparaître. Il semble donc primordial d’en parler, et de former les élèves et les étudiants à ces outils, pour expliquer leur intérêt et leurs limites, et discuter de la place qu’ils devraient avoir dans la formation.

Enfin, à l’extrême du spectre des usages problématiques, on pensera bien évidemment à la production de fake news : de fausses informations pouvant ensuite être disséminées en quantité industrielle.

Il ne faut pas exagérer ces dangers, mais ceux-ci sont réels. Même si des détecteurs de texte produits par ChatGPT commencent à apparaître, ceux-ci seront nécessairement imparfaits, car les textes produits sont trop divers et trop réalistes pour pouvoir être reconnus à 100 % par un système… à part par la société OpenAI elle-même, évidemment !

Les limites de ChatGPT : quand ChatGPT « hallucine »

La masse des interactions avec ChatGPT depuis son ouverture au grand public le 30 novembre a déjà permis d’identifier certaines de ses limites.

ChatGPT fournit en général des réponses correctes, souvent bluffantes… mais si on l’interroge sur des domaines qu’il ne maîtrise pas, voire si on invente une question en apparence sérieuse mais en fait absurde (par exemple sur des faits ou des personnes qui n’existent pas), le système produit une réponse en apparence tout aussi sérieuse, mais en fait complètement absurde ou inventée.

Les exemples sur Twitter sont légion : ChatGPT propose des références scientifiques qui n’existent pas, des explications fumeuses, voire une démonstration où est postulé que -4 = -5. Ceci serait une richesse, si ChatGPT était juste un outil destiné à produire des histoires, des pastiches ou des parodies.

Mais ce que le public attend, c’est avant tout des réponses avérées à des questions réelles, ou l’absence de réponse dans le cas contraire (si le système ne peut trouver la réponse, ou si la question est absurde). C’est la principale faiblesse de l’outil, et donc probablement aussi le principal obstacle pour en faire un concurrent du moteur de recherche de Google, comme on l’a déjà vu.

Pour cette raison, une conférence comme ICML (International Conference on Machine Learning) a déjà interdit aux chercheurs de soumettre des articles produits en partie avec ChatGPT. Stackoverflow, une plate-forme d’échanges entre développeurs informatiques, a aussi interdit les réponses générées par ChatGPT, ayant peur de se retrouver submergée par un flux de réponses générées automatiquement (et en partie fausses).

Ceci est dû au fait que le système n’a pas de « modèle de monde ». Autrement dit, il ne sait pas ce qui est vrai, il peut générer des absurdités, des fausses informations, inventer des choses de toute pièce avec l’aplomb d’un menteur professionnel. C’est ce que l’on appelle les « hallucinations », comme si ChatGPT voyait alors des éléments imaginaires (en fait, on ne peut pas vraiment dire que le système ment, dans la mesure où il n’a pas de modèle de vérité).

Ceci est surtout vrai quand la question elle-même n’est pas tournée vers la réalité, auquel cas le système se met à inventer : en ce sens, GPT n’est ni un journaliste, ni un savant, mais plutôt un raconteur d’histoires.

Il y a fort à parier qu’OpenAI essaie dans de futures versions de fournir un système qui évite d’affabuler quand le contexte ne s’y prête pas, grâce à une analyse fine de la question posée, ou l’ajout de connaissances validées (comme le font déjà Amazon avec Alexa ou Google avec son knowledge graph, qui est tout simplement une base de connaissances).

Google, justement, à travers sa succursale Deepmind, travaille actuellement sur un modèle similaire à ChatGPT appelé Sparrow, en essayant de renforcer la fiabilité du système. Il est par exemple question que le système fournisse une liste de sources sur laquelle il s’appuie pour fournir une réponse.

Les enjeux pour demain

L’autre limite de ce système est qu’il repose sur des données (en gros, l’ensemble des textes disponibles sur Internet) à la mi-2021 et que ses connaissances ne peuvent pas être mises à jour en direct. C’est évidemment un problème, ChatGPT ne peut pas répondre de façon pertinente à des questions sur l’actualité, alors qu’il s’agit d’un aspect particulièrement important.

La mise à jour en continu du modèle est donc logiquement un des prochains buts d’OpenAI, qui n’en fait pas mystère. Réviser un modèle, le réentraîner « à partir de zéro » (from scratch) est un processus long et coûteux, qui peut mettre en jeu des milliers de GPU ou de TPU pendant plusieurs semaines ou plusieurs mois, ce qui n’est pas en phase avec la rapidité de l’actualité. La prochaine grande innovation consistera donc en des systèmes capables de se mettre à jour de manière plus localisée en temps réel (ou quasiment), et ceci est sans doute pour bientôt.

Mais le principal enjeu est évidemment celui de l’acceptabilité. On l’a vu : le débat est déjà lancé sur l’influence d’un tel système sur l’éducation. Plus globalement, si un système tel que ChatGPT est par exemple intégré à un logiciel comme Word, se posera aussi la question de qui contrôle ce qui est produit. La voie est étroite entre des systèmes d’IA pas assez contrôlés et capables de produire des contenus racistes ou homophobes, et des systèmes trop bridés qui interdiraient de produire certains contenus.

En conclusion, et comme dit l’adage populaire : il est difficile de faire des prévisions, surtout quand elles concernent l’avenir. Il y a de nombreuses inconnues autour de technologies de type ChatGPT : les perspectives de tels outils sont assez vertigineuses, susceptibles d’avoir un impact profond sur la société, mais en même temps leur potentiel réel et commercial devra passer l’épreuve du monde réel.

Ce qui est certain, c’est que les bouleversements actuels devraient inciter au développement d’instituts (au sein des universités, mais aussi à travers des fondations ou des associations capables d’atteindre le grand public) permettant une réflexion large et ouverte sur ces technologies, impliquant tous les acteurs de la société, car c’est la société tout entière qui est déjà impactée, comme en témoigne l’intérêt actuel autour de ChatGPT.The Conversation

Thierry Poibeau, DR CNRS, École normale supérieure (ENS) – PSL

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.