Par Lars Erik Holmquist, Nottingham Trent University
Google a lancé Gemini, un nouveau système d’intelligence artificielle (IA), qui peut apparemment comprendre différents types de sollicitations (prompt) et en parler intelligemment : images, texte, parole, musique, code informatique, entre autres.
Ce type de système d’IA est connu sous le nom de « modèle multimodal ». C’est une avancée notable par rapport aux systèmes d’IA précédents, qui se contentaient de traiter du texte ou des images.
On entrevoit ici une des probables prochaines étapes pour les technologies d’intelligence artificielle : être capable d’analyser et de répondre en temps réel à des informations provenant du monde extérieur.
Bien que les capacités de Gemini ne soient peut-être pas aussi avancées qu’elles le semblent dans la vidéo virale qui a été éditée à partir d’un texte soigneusement sélectionné et d’images fixes, il est clair que les systèmes d’IA progressent rapidement. Ils se dirigent vers une capacité à gérer des entrées et des sorties de plus en plus complexes.
De fait, pour développer de nouvelles capacités, les systèmes d’IA dépendent fortement du type de « données d’entraînement » auxquelles ils ont accès. Les données d’entraînement sont précisément ce qui leur permet d’améliorer la façon dont ils réalisent des tâches, et notamment d’inférer des informations – ce qui sert à reconnaître un visage et à rédiger des dissertations.
À l’heure actuelle, les données sur lesquelles des entreprises telles que Google, OpenAI, Meta et d’autres entraînent leurs modèles proviennent encore principalement d’informations numérisées sur Internet.
Toutefois, des efforts sont déployés pour élargir radicalement le champ des données sur lesquelles l’IA peut travailler. Par exemple, en utilisant des caméras, des micros et d’autres capteurs et détecteurs allumés en permanence, il serait possible de permettre à une IA de savoir ce qui se passe dans le monde, au moment où cela se produit.
Utiliser des données acquises en temps réel
Le nouveau système Gemini de Google peut interpréter et utiliser des contenus « en temps réel » – vidéos en direct ou discours proférés par des humains par exemple. Avec ce nouveau type de données acquises en permanence par des capteurs, l’IA devrait être en mesure d’observer, de discuter, et d’agir sur les événements du monde réel.
L’exemple le plus simple est celui des voitures autonomes, qui collectent déjà d’énormes quantités de données lorsqu’elles roulent sur les routes. Les données qu’elles collectent aboutissent sur les serveurs des fabricants automobiles. Là, elles sont utilisées pour la conduite du véhicule sur le moment, mais aussi, sur le long terme, pour construire des modèles informatiques de situations de conduite, qui pourraient contribuer à améliorer la fluidité du trafic ou à identifier les comportements suspects ou criminels.
À la maison, les détecteurs de mouvement (pour les lumières par exemple), les assistants vocaux (Alexa, Siri…) et les caméras de surveillance sont déjà utilisés pour détecter notre activité… et analyser nos habitudes. D’autres appareils « intelligents » apparaissent constamment sur le marché. Certaines utilisations peuvent déjà sembler familières, comme l’optimisation du chauffage pour une meilleure utilisation de l’énergie, mais l’analyse des habitudes de vie ne fait que commencer.
Cela signifie qu’une IA disposerait des données pour à la fois déduire ce qui se passe dans la maison, et pour prédire ce qui s’y passera à l’avenir. Ces données pourraient alors être utilisées, par exemple, par des médecins pour détecter les premiers signes de pathologies, comme le diabète ou la démence. Mais aussi pour recommander des changements de mode de vie et en assurer le suivi.
Pour l’IA, ces données constituent une fenêtre sur le monde réel – plus elle accumulera de connaissances sur celui-ci, plus elle pourra nous accompagner au quotidien. À l’épicerie, je pourrai discuter des meilleurs ingrédients, ou des plus économiques, pour le repas du soir. Au travail, l’IA pourra me rappeler les noms de mes clients lors d’une réunion, leurs centres d’intérêt, et me suggérer la meilleure façon de décrocher un contrat. Lors d’un voyage dans un pays étranger, elle pourra discuter des attraits touristiques locaux tout en gardant un œil sur des dangers potentiels.
Implications en matière de protection de la vie privée
On le voit, il y a de nombreuses opportunités qui viennent avec ces futurs progrès, mais il existe également des risques de débordement et d’intrusion dans la vie privée des citoyens. Jusqu’à présent, les utilisateurs ont accepté massivement les technologies permettant d’échanger une quantité stupéfiante d’informations personnelles en échange de l’accès à des produits gratuits, réseaux sociaux et moteurs de recherche en tête.
À l’avenir, ce compromis sera de plus en plus important et potentiellement plus dangereux, car l’IA apprendra à nous connaître et à nous aider dans tous les aspects de la vie quotidienne.
Sans garde-fous, l’industrie du numérique continuera à étendre sa collecte de données à tous les aspects de la vie, même hors ligne. Les décideurs politiques doivent comprendre ce nouveau paysage et s’assurer que les avantages compensent les risques. Ils devront surveiller non seulement la puissance et l’omniprésence des nouveaux modèles d’IA, mais aussi les données qui sont collectées et utilisées.
Lars Erik Holmquist, Professor of Design and Innovation, Nottingham Trent University
Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.