Transformateurs en Biologie

Aperçu Général

Les transformateurs sont des architectures de réseaux de neurones qui traitent des données séquentielles en utilisant des mécanismes d’auto-attention plutôt que des connexions récurrentes ou convolutives. Contrairement aux RNN qui traitent les jetons un par un, les transformateurs traitent des séquences entières en parallèle, chaque jeton prêtant attention à tous les autres jetons pour apprendre les dépendances contextuelles. Cette architecture s’est avérée révolutionnaire pour les données biologiques : les séquences protéiques s’alignent naturellement sur l’auto-attention, et AlphaFold a démontré que les transformateurs peuvent prédire les structures protéiques avec une précision atomique à partir de séquences d’acides aminés. Les modèles de langage biologique construits sur des transformateurs animent désormais la génomique et la découverte de médicaments.

Méthodes

L’architecture Transformer se compose d’encodeurs empilés avec auto-attention multi-têtes et réseaux feed-forward, utilisant un codage positionnel pour représenter l’ordre des séquences. BERT (Représentations d’Encodeur Bidirectionnel à partir de Transformateurs) masque aléatoirement des jetons et apprend à les prédire à partir du contexte environnant. Les modèles de langage autorégressifs comme GPT génèrent des jetons séquence par séquence conditionnés aux jetons précédents. En biologie, AlphaFold a adapté les transformateurs pour prédire les distances entre paires de résidus et les angles de torsion. DNABERT et SpliceBERT appliquent BERT à l’ADN, apprenant des représentations fonctionnelles de fragments génomiques. ESM (Evolutionary Scale Modeling) entraîne des transformateurs sur des séquences protéiques pour prédire la structure et la fonction. Les avancées récentes incluent les transformateurs de graphes pour la chimie et les modèles de diffusion pour la génération de molécules.

Protocole Pratique

Un flux de travail pratique pour l’analyse génomique avec des transformateurs commence par la préparation de données génomiques. Pour une tâche de prédiction d’éléments régulateurs, le chercheur collecte des séquences génomiques de 1 000 paires de bases (pb) autour de sites de démarrage de transcription connus depuis ENSEMBL. Les séquences sont tokenisées en fragments de 6 pb (hexamères) avec un vocabulaire de 4 096 jetons possibles. DNABERT pré-entraîné est chargé depuis Hugging Face et affiné sur 50 000 régions promotrices annotées, en utilisant un chevauchement de fenêtres glissantes de 200 pb pour augmenter les données. L’entraînement utilise l’optimiseur AdamW avec un taux d’apprentissage de 2e-5 pendant 10 époques avec une taille de lot de 16 sur un GPU de 24 Go de mémoire. Le réglage fin prend environ 4 heures. Le modèle affiné atteint 91 % de précision dans la classification des promoteurs par rapport aux régions non promotrices sur un ensemble de test retenu. La visualisation des poids d’attention révèle que le modèle apprend des motifs de liaison de facteurs de transcription connus sans entraînement explicite sur ceux-ci. Le modèle est appliqué aux régions non annotées du génome, prédisant 5 000 nouveaux promoteurs putatifs, dont 30 % sont validés expérimentalement par ChIP-seq. Un cas d’utilisation marquant : le modèle ESM-2 avec 15 milliards de paramètres a prédit la structure d’une protéine bactérienne non caractérisée, révélant un pli jusqu’alors inconnu confirmé ultérieurement par cristallographie aux rayons X, démontrant que les transformateurs peuvent découvrir de nouveaux motifs de repliement de protéines à partir de données de séquence uniquement.

Applications

Les transformateurs prédisent la structure des protéines à partir de séquences d’acides aminés, annotent des éléments fonctionnels dans les génomes à partir de données de séquençage d’ADN et modélisent l’expression génique à partir de données de chromatine. Ils conçoivent également de nouvelles protéines pour des applications biotechnologiques, génèrent des molécules aux propriétés souhaitées dans la découverte de médicaments et classifient les variants pathogènes des variants bénins en génomique clinique.