Accéder au contenu principal

Comment l’IA apprend le langage secret de l’ADN, et ce que la recherche y gagne

  Par  Julien Mozziconacci , Muséum national d’histoire naturelle (MNHN) et Élodie Laine , Sorbonne Université Plutôt que de produire des mots, le modèle d’intelligence artificielle Evo 2 est capable de prédire une base d’ADN en se fondant sur une séquence donnée. Lancé, il y a un peu plus d’un an, le modèle s’affine et permet aux scientifiques de mieux comprendre le langage de l’ADN. Sa puissance de calcul pose néanmoins des questions de ressources énergétiques. Si vous avez déjà utilisé un modèle de langage comme ChatGPT ou Mistral, vous vous souvenez sans doute de la première impression : orthographe impeccable, grammaire fluide, phrases qui ont du sens. Pourtant, sous le capot, ces systèmes ne font qu’une chose très simple : prévoir dans une phrase le mot qui va suivre. Ils utilisent des statistiques apprises sur un immense corpus de textes, et c’est ainsi qu’ils « parlent » français, anglais et bien d’autres langues. Une idée féco...

Comment l’IA apprend le langage secret de l’ADN, et ce que la recherche y gagne

 

ADN

Par Julien Mozziconacci, Muséum national d’histoire naturelle (MNHN) et Élodie Laine, Sorbonne Université

Plutôt que de produire des mots, le modèle d’intelligence artificielle Evo 2 est capable de prédire une base d’ADN en se fondant sur une séquence donnée. Lancé, il y a un peu plus d’un an, le modèle s’affine et permet aux scientifiques de mieux comprendre le langage de l’ADN. Sa puissance de calcul pose néanmoins des questions de ressources énergétiques.


Si vous avez déjà utilisé un modèle de langage comme ChatGPT ou Mistral, vous vous souvenez sans doute de la première impression : orthographe impeccable, grammaire fluide, phrases qui ont du sens. Pourtant, sous le capot, ces systèmes ne font qu’une chose très simple : prévoir dans une phrase le mot qui va suivre. Ils utilisent des statistiques apprises sur un immense corpus de textes, et c’est ainsi qu’ils « parlent » français, anglais et bien d’autres langues.

Une idée féconde a alors germé chez les généticiens : et si l’on entraînait la même classe de modèles pour apprendre le langage de la vie, la suite de lettres A, T, G, C, inscrite dans nos génomes ? C’est le pari des modèles de langage génomiques : ils apprennent la grammaire cachée de l’ADN et offrent à la recherche un allié précieux pour explorer, proposer et tester plus vite des hypothèses scientifiques.

Que fait un modèle d’IA ?

Un algorithme d’intelligence artificielle (IA) est, au fond, une machine à transformer des nombres. Les données d’entrée, qui peuvent être des images, des sons ou du texte, sont d’abord encodées en chiffres. Puis l’algorithme applique des opérations simples (additions et multiplications par des paramètres internes au réseau et seuillage) et renvoie les résultats (d’autres chiffres) en sortie. À grande échelle, cette mécanique très simple suffit à jouer au go, à conduire une voiture… ou à comprendre les génomes.

L’astuce, ce n’est pas seulement l’encodage : c’est surtout l’apprentissage. Le modèle ajuste ses paramètres internes à chaque exemple (association entre une entrée et une sortie cible), un peu comme on accorde un instrument : à chaque note jouée, on tend ou détend la corde jusqu’à ce que la mélodie sonne juste.

Les applications de ce principe simple sont multiples et variées. Au jeu de go, l’IA regarde la position des pierres (un tableau de chiffres) et propose le prochain coup ; dans une phrase, le modèle suggère le prochain mot. En génomique, il lit A T G C… et prédit la prochaine base. Si ses prédictions sont bonnes, c’est qu’il a appris quelque chose sur la structure cachée du problème qu’il résout.

Les premiers modèles de langages génomiques

C’est en suivant ce principe que les premiers modèles de langage génomiques ont été entraînés en utilisant des génomes à la place des corpus de texte. Une des versions les plus récentes, Evo 2, a été développée par une large équipe autour du centre de recherche Arc Institute, dans la Silicon Valley. Ce modèle a été entraîné sur de nombreux génomes, comptabilisant près de 10 000 milliards de bases (les fameuses lettres A,C,G,T) ce qui représente 3 000 fois la taille de notre génome.

Le modèle lit à chaque étape un million de bases et le calcul revient toujours à la même question très simple : parmi les quatre lettres possibles (A, C, G ou T), laquelle est la plus probable juste après celles que l’on vient de lire ? La taille gigantesque de sa « fenêtre de lecture » lui permet de saisir à la fois des règles locales et des dépendances lointaines (régulations des gènes à distance). Ce saut d’échelle n’est pas qu’une prouesse technique : il change la manière dont on peut poser des questions en biologie, notamment dans ces régions non codantes (celles qui ne sont pas traduites en protéines) qui restent souvent incomprises et constituent la « matière noire » du génome.

Dans la pratique, l’apprentissage ressemble à une partie de devinettes : à chaque fois que le modèle devine correctement une lettre masquée au sein d’une séquence, il renforce les chemins internes qui l’y ont mené ; lorsqu’il se trompe, il corrige ces chemins. À force, il repère des schémas récurrents : certains motifs précèdent souvent le début d’un gène, d’autres signalent la fin, et certains motifs de la séquence trahissent la façon dont la cellule découpe l’ARN (l’épissage) ou assemble la machinerie de traduction des ARN en protéines.

L’apprentissage se fait d’abord à l’échelle globale. Le modèle lit une grande diversité de génomes et apprend une grammaire générale du vivant. Ensuite, on peut éventuellement l’adapter à une famille d’organismes ou à une question précise (par exemple, en le spécialisant sur un groupe de virus ou de bactéries).

L’IA apprend la grammaire cachée de l’ADN

C’est ici que la recherche s’enthousiasme : en apprenant juste à compléter les séquences, les modèles reconnaissent des signatures biologiques sans qu’on les leur ait pointées du doigt.

Ils retrouvent la périodicité en trois lettres du code génétique : le texte du vivant se lit par triplets (les codons), et les modèles « entendent » ce rythme, comme une mesure en musique. Ils repèrent aussi les départs et arrêts de gènes, avec des contraintes fortes sur les lettres les plus importantes, où l’on s’attend à ce que l’erreur soit rare. Ils détectent des signaux utiles à la machinerie cellulaire : chez les bactéries, les sites de liaison du ribosome ; chez les eucaryotes, les frontières entre exons (conservés) et introns (séquences à retirer), comme si le modèle distinguait les paragraphes et les espaces dans un texte.

Plus étonnant, ils révèlent aussi les éléments mobiles (par exemple, des virus intégrés au génome au cours de l’évolution) et même des empreintes liées aux formes 3D des protéines (hélices α, feuillets β) et des ARN. Le modèle dessine alors les contours de la sculpture finale. Car c’est bien de sculpture qu’il s’agit.

Le génome ne contient pas seulement des instructions – il encode des formes. Une protéine, un ARN, ne sont pas de simples colliers de lettres : ils se replient, se tordent, se nouent dans l’espace pour adopter une architecture précise, dont dépend leur fonction. C’est cette forme qui permet à une molécule de reconnaître une autre, de s’y accrocher, de déclencher une réaction. Les contacts qui stabilisent cette forme se font parfois entre des régions très éloignées dans la séquence – et pourtant, les modèles semblent capables de les capturer, comme s’ils devinaient, à force de lire le texte, quelles lettres se correspondent malgré la distance qui les sépare.

Ce qui peut surprendre, c’est que ces découvertes n’ont pas été enseignées : elles émergent spontanément de l’apprentissage. Et parfois, paradoxalement, quand on essaie d’affiner le modèle en lui montrant des exemples bien connus, il perd une partie de ce qu’il avait trouvé seul. Comme si trop guider l’élève lui faisait oublier ce qu’il avait intuitivement compris.

Pour rendre cette « boîte noire » plus lisible, les chercheurs utilisent des « autoencodeurs clairsemés » qui décomposent les représentations internes du modèle en traits compréhensibles. Chaque trait s’allume comme une lampe au-dessus d’un élément de séquence (exon, motif, élément mobile). Ces traits servent de fil d’Ariane. Ils indiquent où le modèle a vu un signal, de quel type il est et comment il varie d’un organisme à l’autre. On peut même transférer ces traits vers des génomes peu étudiés, ouvrant la voie à des atlas fonctionnels multi‑espèces construits de manière plus rapide et moins coûteuse que par les approches classiques.

Dans nos propres recherches, Evo 2 est surtout un point de comparaison : il montre jusqu’où peut aller un très grand modèle quand on lui donne énormément de données et de puissance de calcul. Il faut aussi voir que cette démonstration a une dimension vitrine pour Nvidia, le plus gros fabricant de processeurs pour l’IA, qui a mis sa puissance de calcul au service de l’Arc Institute pour concevoir Evo 2. L’idée sous-jacente est de montrer qu’il faut des modèles gigantesques et des infrastructures de calcul hors normes pour déchiffrer le secret de la vie. Le résultat est impressionnant, mais ce n’est pas forcément le seul chemin possible pour faire avancer la biologie.

Nous avons justement lancé le projet PLANETOID, financé dans le cadre de France 2030, pour explorer une stratégie complémentaire : construire des modèles beaucoup plus petits, plus rapides, plus faciles à entraîner et à déployer dans des laboratoires académiques. L’objectif est d’exploiter des données de biodiversité riches, produites par nos partenaires – en particulier au Muséum national d’histoire naturelle et dans les stations marines – afin d’annoter des génomes et des métagénomes (des ensembles de génomes) à l’échelle de l’arbre du vivant, y compris pour des espèces dites « non modèles », qui représentent l’immense majorité du vivant, mais restent souvent mal comprises.

PLANETOID vise aussi à produire des ressources et des outils réutilisables, pour que ces approches ne restent pas réservées à quelques acteurs capables de mobiliser des moyens industriels, mais puissent irriguer la recherche publique, puis à terme la santé et l’environnement.

Le futur : estimer l’effet d’une mutation ou écrire de nouveaux génomes

Parce qu’un modèle de langage assigne une vraisemblance à chaque séquence, il devient possible de comparer la version de référence et une version mutée. Si la mutation fait chuter la vraisemblance, elle devient suspecte. Ce score agit comme une carte pour guider les chercheurs : il montre des zones où une variation risque de perturber une fonction et oriente les expériences à prioriser.

Une autre application a le vent en poupe : la génération de séquences « fonctionnelles » in silico. Les chercheurs ont montré qu’on peut composer du texte génétique qui a toutes les caractéristiques de génomes naturels. Toutefois cette pratique soulève d’importantes questions éthiques (risques eugénistes, possibilité de virus synthétiques…) et doit rester strictement encadrée – c’est un sujet de société plus qu’un enjeu immédiat de recherche.The Conversation

Julien Mozziconacci, Professeur en biologie computationelle, Muséum national d’histoire naturelle (MNHN) et Élodie Laine, Professeure en biologie computationnelle, Sorbonne Université

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Posts les plus consultés de ce blog

Le bipeur des années 80 plus efficace que le smartphone ?

Par André Spicer, professeur en comportement organisationnel à la Cass Business School (City University of London) : Vous vous souvenez des bipeurs ? Ces appareils étaient utilisés largement avant l'arrivée massive des téléphones portables et des SMS. Si vous aviez un bipeur, vous pouviez recevoir des messages simples, mais vous ne pouviez pas répondre. Un des rares endroits où on peut encore en trouver aujourd’hui sont les hôpitaux. Le Service National de Santé au Royaume-Uni (National Health Service) en utilise plus de 130 000. Cela représente environ 10 % du nombre total de bipeurs présents dans le monde. Une récente enquête menée au sein des hôpitaux américains a révélé que malgré la disponibilité de nombreuses solutions de rechange, les bipeurs demeurent le moyen de communication le plus couramment utilisée par les médecins américains. La fin du bipeur dans les hôpitaux britanniques ? Néanmoins, les jours du bipeur dans les hôpitaux britanniques pourraient être compté...

Quelle technologie choisir pour connecter les objets ?

Par Frédéric Salles, Président et co-fondateur de Matooma   En 2021, le nombre total d'objets connectés utilisés atteindra les 25 milliards selon Gartner. Il est ainsi légitime de se demander quelles sont les technologies principales permettant de connecter les objets, et quelle pourrait être celle la plus adaptée pour sa solution. Un projet de vidéosurveillance par exemple n'aura absolument pas les mêmes besoins qu'un projet basé sur le relevé de température au milieu du désert. Ainsi pour trouver la meilleure connectivité pour son objet, de nombreuses questions peuvent se poser : mon objet fonctionne-t-il sur batterie ou est-il alimenté ? Mon objet restera-t-il statique ou sera-t-il mobile ?  Mon objet est-il susceptible d'être dans un endroit difficile d'accès ou enterré ? A quelle fréquence mes données doivent-elles remonter ? Etc. Voici les différentes solutions actuellement disponibles sur le marché. Courte distance : RFID/Bluetooth/WiFi La RFID (Ra...

L’intelligence artificielle va-t-elle tuer ou sauver les médias ?

  Les journalistes seront-ils tentés de donner la parole aux intelligences artificielles. Shutterstock Par  Laurence Devillers , Sorbonne Université Recherche d’informations, production de contenu, traduction, détection de propos haineux… l’ intelligence artificielle (IA) générative promet d’importants gains de productivité dans l’univers des médias . Les médias nous accompagnent au quotidien et sont un support à la démocratie : ils ont la liberté de montrer différents points de vue et idées, de dénoncer la corruption et les discriminations, mais également de montrer la cohésion sociale et culturelle. Alors que le public se tourne vers les médias pour s’informer, se cultiver et se divertir, les médias n’échappent pas aux soucis économiques et à la rentabilité d’une industrie mesurée en termes d’audimat et de vente. Dans ce contexte, l’IA générative amène de nouveaux outils puissants et sera de plus en plus utilisée. Mais il faut cruci...

Tribune libre. Maison et objets connectés : une véritable French touch

Alexandre Chaverot est président d' Avidsen et de Smart Home International Réjouissons nous que la France soit précurseur dans le domaine de la maison et des objets connectés. Oui, il existe un vrai savoir faire, une véritable « patte » française. Il n'y a qu'à voir le nombre de start-up qui existent et évoluent dans ce domaine là : Sigfox pour la partie protocole de communication, Netatmo sur l'objet connecté autour de la régulation thermique, MyFox sur la sécurité et, évidemment, Avidsen sur l'univers de la maison intelligente. Sans parler des grands groupes comme Legrand , Schneider , Somfy qui travaillent aussi sur ces sujets là et qui nous challengent. A moins que ce ne soit nous, les petites « boîtes » qui les challengions. En tant qu'entreprises françaises, nous n'avons donc pas à rougir par rapport à ce qu'il se passe en Asie ou aux États-Unis en matière de produits et de développement. Le « faire savoir » devient plus que nécessai...

Comment savoir si je suis touché par un logiciel espion ?

Par Allan Camps, Senior Enterprise Account Executive chez Keeper Security Les logiciels espions sont des logiciels malveillants qui, installés à votre insu sur votre appareil, permettent aux cybercriminels de vous espionner et de voler vos informations privées. Ces informations peuvent ensuite être utilisées par des cybercriminels ou vendues sur le dark web pour commettre des fraudes ou des usurpations d'identité. Il est possible de repérer ces logiciels malveillants sur votre appareil en observant des signes particuliers tels que l'épuisement rapide de la batterie, la surchauffe, l'augmentation du nombre de fenêtres pop-up ou de l'utilisation des données, et la présence d'applications inconnues. Comment détecter un logiciel espion sur votre smartphone Android ou votre iPhone ? Recherchez les applications que vous n'avez pas téléchargées. Les applications que vous n'avez pas téléchargées peuvent se cacher dans votre bibliothèque et contenir des logiciels ...

La fin du VHS

La bonne vieille cassette VHS vient de fêter ses 30 ans le mois dernier. Certes, il y avait bien eu des enregistreurs audiovisuels avant septembre 1976, mais c’est en lançant le massif HR-3300 que JVC remporta la bataille des formats face au Betamax de Sony, pourtant de meilleure qualité. Ironie du sort, les deux géants de l’électronique se retrouvent encore aujourd’hui face à face pour déterminer le format qui doit succéder au DVD (lire encadré). Chassée par les DVD ou cantonnée au mieux à une petite étagère dans les vidéoclubs depuis déjà quatre ans, la cassette a vu sa mort programmée par les studios hollywoodiens qui ont décidé d’arrêter de commercialiser leurs films sur ce support fin 2006. Restait un atout à la cassette VHS: l’enregistrement des programmes télé chez soi. Las, l’apparition des lecteurs-enregistreurs de DVD et, surtout, ceux dotés d’un disque dur, ont sonné le glas de la cassette VHS, encombrante et offrant une piètre qualité à l’heure de la TNT et des écrans pl...