En 2026, à quoi vont ressembler les nouveaux deepfakes qui vont déferler sur nos écrans

La barrière technologique à l’entrée a sauté : générer des deepfakes est désormais plus accessible *via* les outils IA grand public. Image générée par Siwei Lyu/IA Google Gemini 3

Par Siwei Lyu, University at Buffalo

En 2025, la génération de deepfakes a explosé : visages, voix et mouvements du corps créés par des systèmes d’intelligence artificielle deviennent presque indiscernables des humains, bouleversant la perception et la sécurité des contenus en ligne.

Au cours de l’année 2025, les techniques de génération de deepfakes ont connu une évolution spectaculaire. Les visuels de visages, de voix et de corps entiers générés des systèmes d’IA ont gagné en qualité – bien au-delà de ce que beaucoup d’experts imaginaient encore il y a quelques années. Ces vidéos sont aussi davantage utilisées pour tromper ceux qui les regardent.

Dans de nombreuses situations du quotidien – en particulier les appels vidéo de faible résolution et les contenus diffusés sur les réseaux sociaux –, leur réalisme est désormais suffisant pour berner à coup sûr des publics non spécialistes. Concrètement, les médias synthétiques sont devenus indiscernables d’enregistrements authentiques pour le grand public et, dans certains cas, même pour des institutions.

Et cette flambée ne se limite pas à la qualité. Le volume de deepfakes générés a lui aussi explosé : l’entreprise de cybersécurité DeepStrike estime qu’on est passé d’environ 500 000 vidéos de ce type présentes en ligne en 2023 à près de 8 millions en 2025, avec une croissance annuelle proche de 900 %.

Je suis informaticien et je mène des recherches sur les deepfakes et d’autres médias synthétiques. De mon point de vue, la situation risque encore de s’aggraver en 2026, à mesure que les deepfakes évolueront vers des entités synthétiques capables d’interagir en temps réel avec des humains.

Des améliorations spectaculaires

Plusieurs évolutions techniques expliquent cette escalade. Tout d’abord, le réalisme a franchi un cap grâce à des modèles de génération de vidéos conçus spécifiquement pour maintenir la cohérence temporelle. Ces modèles produisent des vidéos aux mouvements cohérents, avec des identités stables pour les personnes représentées et un contenu logique d’une image à l’autre. Ils dissocient les informations liées à la représentation de l’identité d’une personne de celles relatives au mouvement, ce qui permet d’appliquer un même mouvement à différentes identités ou, inversement, d’associer une même identité à plusieurs types de mouvements.

Ces modèles génèrent des visages stables et cohérents, sans les scintillements, déformations ou anomalies structurelles autour des yeux et de la mâchoire qui constituaient des signes techniques fiables de deepfakes auparavant.

Deuxièmement, le clonage vocal a franchi ce que j’appellerais le « seuil d’indiscernabilité ». Quelques secondes d’audio suffisent désormais pour générer un clone convaincant – avec une intonation, un rythme, des accents, des émotions, des pauses et même des bruits de respiration naturels. Cette capacité alimente déjà des fraudes à grande échelle. De grands distributeurs indiquent recevoir plus de 1 000 appels frauduleux générés par l’IA chaque jour. Les indices perceptifs qui permettaient autrefois d’identifier des voix synthétiques ont en grande partie disparu.

Troisièmement, les outils grand public ont fait chuter la barrière technique à un niveau proche de zéro. Les évolutions d’OpenAI avec Sora 2, de Google avec Veo 3 et l’émergence d’une vague de start-up font qu’il suffit aujourd’hui de décrire une idée et de laisser un grand modèle de langage comme ChatGPT d’OpenAI ou Gemini de Google rédiger un script, pour générer en quelques minutes des contenus audiovisuels aboutis. Des agents d’IA peuvent automatiser l’ensemble du processus. La capacité à produire à grande échelle des deepfakes cohérents et construits autour d’un récit s’est ainsi largement démocratisée.

Cette combinaison d’une explosion des volumes et de figures synthétiques devenues presque indiscernables d’êtres humains réels pose de sérieux défis pour la détection des deepfakes, en particulier dans un environnement médiatique où l’attention est fragmentée et où les contenus circulent plus vite qu’ils ne peuvent être vérifiés. Des dommages bien réels ont déjà été constatés – de la désinformation au harcèlement ciblé et aux arnaques financières – facilités par des deepfakes qui se propagent avant que le public n’ait le temps de comprendre ce qui se passe.

Le temps réel, nouvelle frontière

Pour l’année à venir, la trajectoire est claire : les deepfakes se dirigent vers une synthèse en temps réel capable de produire des vidéos reproduisant fidèlement les subtilités de l’apparence humaine, ce qui facilitera le contournement des systèmes de détection. La frontière évolue du réalisme visuel statique vers la cohérence temporelle et comportementale : des modèles qui génèrent du contenu en direct ou quasi direct plutôt que des séquences préenregistrées.

La modélisation de l’identité converge vers des systèmes unifiés qui capturent non seulement l’apparence d’une personne, mais aussi sa façon de bouger et de parler selon les contextes. Le résultat dépasse le simple « cela ressemble à la personne X » pour devenir « cela se comporte comme la personne X sur la durée ». Je m'attends à ce que des participants à des appels vidéo soient synthétisés en temps réel ; à voir des acteurs de synthèse pilotés par l’IA dont le visage, la voix et les gestes s’adaptent instantanément à une consigne ; et à ce que des arnaqueurs déploient des avatars réactifs plutôt que des vidéos fixes.

À mesure que ces capacités se développent, l’écart perceptuel entre humains authentiques et synthétiques continuera de se réduire. La véritable ligne de défense ne reposera plus sur le jugement humain, mais sur des protections au niveau des infrastructures. Cela inclut des mécanismes de traçabilité sécurisée, comme la signature cryptographique des médias et l’adoption par les outils de génération IA des spécifications de la Coalition for Content Provenance and Authenticity. Cela dépendra également d’outils d’analyse multimodaux, comme le Deepfake-o-Meter que je développe avec mes équipes dans mon laboratoire.

Se contenter d’examiner les pixels attentivement ne suffira plus.

Siwei Lyu, Professor of Computer Science and Engineering; Director, UB Media Forensic Lab, University at Buffalo

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.