Présentation
L’assemblage de génomes est le processus computationnel de reconstruction de séquences génomiques entières à partir des courts fragments d’ADN produits par les plateformes de séquençage à haut débit. Les séquenceurs ne lisant que des centaines de paires de bases à la fois, les bioinformaticiens doivent assembler des millions ou des milliards de ces lectures — un peu comme résoudre un puzzle géant. La précision d’un génome assemblé affecte directement toutes les analyses en aval, de la prédiction des gènes à la génomique comparative. Les assembleurs modernes gèrent les complexités des régions répétitives, des erreurs de séquençage et des profondeurs de couverture variables à l’aide d’algorithmes sophistiqués basés sur des graphes.
Concepts clés
Deux stratégies principales existent pour l’assemblage de génomes. L’assemblage de novo construit un génome sans référence préalable, en s’appuyant sur les approches overlap-layout-consensus (OLC) ou graphe de Bruijn pour fusionner les lectures en séquences contiguës appelées contigs. L’assemblage guidé par référence aligne les lectures sur un génome de référence connu puis assemble les portions non alignées, ce qui est particulièrement utile pour les projets de reséquençage. Les métriques de qualité clés incluent le N50 (la longueur de contig à laquelle 50 % de l’assemblage est contenu) et la taille totale de l’assemblage. La validation de l’assemblage implique souvent la vérification par rapport à des séquences connues ou l’utilisation de technologies de lectures longues pour la fermeture des lacunes.
Applications
L’assemblage de génomes est fondamental pour presque toutes les applications génomiques. Il permet la découverte de nouveaux gènes, l’identification de variants structuraux et la caractérisation d’éléments régulateurs non codants. En médecine, les génomes assemblés de pathogènes permettent un suivi rapide des épidémies et le profilage de la résistance aux antibiotiques. La génomique agricole repose sur des assemblages de haute qualité pour cartographier les caractères d’importance économique. Les projets modernes combinent fréquemment les données de séquençage de nouvelle génération avec des lectures longues et la cartographie optique pour produire des assemblages de niveau chromosomique, s’appuyant sur les méthodes classiques de séquençage de l’ADN. L’assemblage sous-tend également les études fonctionnelles telles que la conception de cibles CRISPR-Cas9, où les prédictions d’effets hors cible dépendent d’une référence précise.