Présentation
L’annotation des génomes est le processus qui consiste à attribuer une signification biologique à la séquence brute d’un génome assemblé. Elle identifie l’emplacement des gènes, leurs limites exon-intron, les séquences régulatrices, les éléments répétés et les ARN non codants. L’annotation fait le pont entre une séquence d’ADN statique et les fonctions biologiques dynamiques qu’elle encode. Les prédictions computationnelles et les preuves expérimentales sont intégrées pour produire une carte complète des caractéristiques génomiques. Alors que le séquençage des génomes devient plus rapide et moins coûteux, le goulot d’étranglement de l’annotation — transformer les données de séquence en connaissances biologiques — est devenu de plus en plus critique.
Méthodes
Les stratégies d’annotation se répartissent en trois catégories. La prédiction ab initio utilise des modèles statistiques de structure génique (tels que les modèles de Markov cachés) pour identifier les régions codantes directement à partir de la composition de la séquence. L’annotation par homologie aligne les étiquettes de séquences exprimées, les protéines ou les lectures RNA-seq de la même espèce ou d’espèces apparentées pour déduire les structures géniques. L’annotation comparative exploite la conservation évolutive à travers de multiples espèces pour identifier les éléments fonctionnels. Des pipelines tels que le NCBI Eukaryotic Genome Annotation Pipeline combinent les trois approches, suivies d’une curation manuelle pour résoudre les cas ambigus. La qualité est évaluée par des métriques comme l’Annotation Edit Distance (AED).
Applications
Une annotation précise est essentielle pour interpréter les projets de séquençage. En recherche biomédicale, elle permet la découverte de mutations pathogènes en révélant quelles régions génomiques codent des protéines ou des éléments régulateurs. La génomique agricole utilise l’annotation pour lier les gènes à des caractères tels que le rendement et la tolérance au stress. Des techniques comme la technologie de l’ADN recombinant dépendent de modèles géniques fiables pour le clonage et l’expression. L’annotation soutient également la génétique bactérienne en identifiant les opérons et les facteurs de virulence, tandis que les études sur la régulation génique et l’épigénétique reposent sur les coordonnées précises des promoteurs, amplificateurs et autres éléments régulateurs.