Comment l’IA apprend le langage secret de l’ADN, et ce que la recherche y gagne

Par Julien Mozziconacci, Muséum national d’histoire naturelle (MNHN) et Élodie Laine, Sorbonne Université

Plutôt que de produire des mots, le modèle d’intelligence artificielle Evo 2 est capable de prédire une base d’ADN en se fondant sur une séquence donnée. Lancé, il y a un peu plus d’un an, le modèle s’affine et permet aux scientifiques de mieux comprendre le langage de l’ADN. Sa puissance de calcul pose néanmoins des questions de ressources énergétiques.

Si vous avez déjà utilisé un modèle de langage comme ChatGPT ou Mistral, vous vous souvenez sans doute de la première impression : orthographe impeccable, grammaire fluide, phrases qui ont du sens. Pourtant, sous le capot, ces systèmes ne font qu’une chose très simple : prévoir dans une phrase le mot qui va suivre. Ils utilisent des statistiques apprises sur un immense corpus de textes, et c’est ainsi qu’ils « parlent » français, anglais et bien d’autres langues.

Une idée féconde a alors germé chez les généticiens : et si l’on entraînait la même classe de modèles pour apprendre le langage de la vie, la suite de lettres A, T, G, C, inscrite dans nos génomes ? C’est le pari des modèles de langage génomiques : ils apprennent la grammaire cachée de l’ADN et offrent à la recherche un allié précieux pour explorer, proposer et tester plus vite des hypothèses scientifiques.

Que fait un modèle d’IA ?

Un algorithme d’intelligence artificielle (IA) est, au fond, une machine à transformer des nombres. Les données d’entrée, qui peuvent être des images, des sons ou du texte, sont d’abord encodées en chiffres. Puis l’algorithme applique des opérations simples (additions et multiplications par des paramètres internes au réseau et seuillage) et renvoie les résultats (d’autres chiffres) en sortie. À grande échelle, cette mécanique très simple suffit à jouer au go, à conduire une voiture… ou à comprendre les génomes.

L’astuce, ce n’est pas seulement l’encodage : c’est surtout l’apprentissage. Le modèle ajuste ses paramètres internes à chaque exemple (association entre une entrée et une sortie cible), un peu comme on accorde un instrument : à chaque note jouée, on tend ou détend la corde jusqu’à ce que la mélodie sonne juste.

Les applications de ce principe simple sont multiples et variées. Au jeu de go, l’IA regarde la position des pierres (un tableau de chiffres) et propose le prochain coup ; dans une phrase, le modèle suggère le prochain mot. En génomique, il lit A T G C… et prédit la prochaine base. Si ses prédictions sont bonnes, c’est qu’il a appris quelque chose sur la structure cachée du problème qu’il résout.

Les premiers modèles de langages génomiques

C’est en suivant ce principe que les premiers modèles de langage génomiques ont été entraînés en utilisant des génomes à la place des corpus de texte. Une des versions les plus récentes, Evo 2, a été développée par une large équipe autour du centre de recherche Arc Institute, dans la Silicon Valley. Ce modèle a été entraîné sur de nombreux génomes, comptabilisant près de 10 000 milliards de bases (les fameuses lettres A,C,G,T) ce qui représente 3 000 fois la taille de notre génome.

Le modèle lit à chaque étape un million de bases et le calcul revient toujours à la même question très simple : parmi les quatre lettres possibles (A, C, G ou T), laquelle est la plus probable juste après celles que l’on vient de lire ? La taille gigantesque de sa « fenêtre de lecture » lui permet de saisir à la fois des règles locales et des dépendances lointaines (régulations des gènes à distance). Ce saut d’échelle n’est pas qu’une prouesse technique : il change la manière dont on peut poser des questions en biologie, notamment dans ces régions non codantes (celles qui ne sont pas traduites en protéines) qui restent souvent incomprises et constituent la « matière noire » du génome.

Dans la pratique, l’apprentissage ressemble à une partie de devinettes : à chaque fois que le modèle devine correctement une lettre masquée au sein d’une séquence, il renforce les chemins internes qui l’y ont mené ; lorsqu’il se trompe, il corrige ces chemins. À force, il repère des schémas récurrents : certains motifs précèdent souvent le début d’un gène, d’autres signalent la fin, et certains motifs de la séquence trahissent la façon dont la cellule découpe l’ARN (l’épissage) ou assemble la machinerie de traduction des ARN en protéines.

L’apprentissage se fait d’abord à l’échelle globale. Le modèle lit une grande diversité de génomes et apprend une grammaire générale du vivant. Ensuite, on peut éventuellement l’adapter à une famille d’organismes ou à une question précise (par exemple, en le spécialisant sur un groupe de virus ou de bactéries).

L’IA apprend la grammaire cachée de l’ADN

C’est ici que la recherche s’enthousiasme : en apprenant juste à compléter les séquences, les modèles reconnaissent des signatures biologiques sans qu’on les leur ait pointées du doigt.

Ils retrouvent la périodicité en trois lettres du code génétique : le texte du vivant se lit par triplets (les codons), et les modèles « entendent » ce rythme, comme une mesure en musique. Ils repèrent aussi les départs et arrêts de gènes, avec des contraintes fortes sur les lettres les plus importantes, où l’on s’attend à ce que l’erreur soit rare. Ils détectent des signaux utiles à la machinerie cellulaire : chez les bactéries, les sites de liaison du ribosome ; chez les eucaryotes, les frontières entre exons (conservés) et introns (séquences à retirer), comme si le modèle distinguait les paragraphes et les espaces dans un texte.

Plus étonnant, ils révèlent aussi les éléments mobiles (par exemple, des virus intégrés au génome au cours de l’évolution) et même des empreintes liées aux formes 3D des protéines (hélices α, feuillets β) et des ARN. Le modèle dessine alors les contours de la sculpture finale. Car c’est bien de sculpture qu’il s’agit.

Le génome ne contient pas seulement des instructions – il encode des formes. Une protéine, un ARN, ne sont pas de simples colliers de lettres : ils se replient, se tordent, se nouent dans l’espace pour adopter une architecture précise, dont dépend leur fonction. C’est cette forme qui permet à une molécule de reconnaître une autre, de s’y accrocher, de déclencher une réaction. Les contacts qui stabilisent cette forme se font parfois entre des régions très éloignées dans la séquence – et pourtant, les modèles semblent capables de les capturer, comme s’ils devinaient, à force de lire le texte, quelles lettres se correspondent malgré la distance qui les sépare.

Ce qui peut surprendre, c’est que ces découvertes n’ont pas été enseignées : elles émergent spontanément de l’apprentissage. Et parfois, paradoxalement, quand on essaie d’affiner le modèle en lui montrant des exemples bien connus, il perd une partie de ce qu’il avait trouvé seul. Comme si trop guider l’élève lui faisait oublier ce qu’il avait intuitivement compris.

Pour rendre cette « boîte noire » plus lisible, les chercheurs utilisent des « autoencodeurs clairsemés » qui décomposent les représentations internes du modèle en traits compréhensibles. Chaque trait s’allume comme une lampe au-dessus d’un élément de séquence (exon, motif, élément mobile). Ces traits servent de fil d’Ariane. Ils indiquent où le modèle a vu un signal, de quel type il est et comment il varie d’un organisme à l’autre. On peut même transférer ces traits vers des génomes peu étudiés, ouvrant la voie à des atlas fonctionnels multi‑espèces construits de manière plus rapide et moins coûteuse que par les approches classiques.

Dans nos propres recherches, Evo 2 est surtout un point de comparaison : il montre jusqu’où peut aller un très grand modèle quand on lui donne énormément de données et de puissance de calcul. Il faut aussi voir que cette démonstration a une dimension vitrine pour Nvidia, le plus gros fabricant de processeurs pour l’IA, qui a mis sa puissance de calcul au service de l’Arc Institute pour concevoir Evo 2. L’idée sous-jacente est de montrer qu’il faut des modèles gigantesques et des infrastructures de calcul hors normes pour déchiffrer le secret de la vie. Le résultat est impressionnant, mais ce n’est pas forcément le seul chemin possible pour faire avancer la biologie.

Nous avons justement lancé le projet PLANETOID, financé dans le cadre de France 2030, pour explorer une stratégie complémentaire : construire des modèles beaucoup plus petits, plus rapides, plus faciles à entraîner et à déployer dans des laboratoires académiques. L’objectif est d’exploiter des données de biodiversité riches, produites par nos partenaires – en particulier au Muséum national d’histoire naturelle et dans les stations marines – afin d’annoter des génomes et des métagénomes (des ensembles de génomes) à l’échelle de l’arbre du vivant, y compris pour des espèces dites « non modèles », qui représentent l’immense majorité du vivant, mais restent souvent mal comprises.

PLANETOID vise aussi à produire des ressources et des outils réutilisables, pour que ces approches ne restent pas réservées à quelques acteurs capables de mobiliser des moyens industriels, mais puissent irriguer la recherche publique, puis à terme la santé et l’environnement.

Le futur : estimer l’effet d’une mutation ou écrire de nouveaux génomes

Parce qu’un modèle de langage assigne une vraisemblance à chaque séquence, il devient possible de comparer la version de référence et une version mutée. Si la mutation fait chuter la vraisemblance, elle devient suspecte. Ce score agit comme une carte pour guider les chercheurs : il montre des zones où une variation risque de perturber une fonction et oriente les expériences à prioriser.

Une autre application a le vent en poupe : la génération de séquences « fonctionnelles » in silico. Les chercheurs ont montré qu’on peut composer du texte génétique qui a toutes les caractéristiques de génomes naturels. Toutefois cette pratique soulève d’importantes questions éthiques (risques eugénistes, possibilité de virus synthétiques…) et doit rester strictement encadrée – c’est un sujet de société plus qu’un enjeu immédiat de recherche.

Julien Mozziconacci, Professeur en biologie computationelle, Muséum national d’histoire naturelle (MNHN) et Élodie Laine, Professeure en biologie computationnelle, Sorbonne Université

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Technomedia

Rechercher dans ce blog