Présentation
L’alignement de séquences multiples (MSA) aligne trois séquences biologiques ou plus pour identifier les régions conservées partagées au sein d’une famille entière. Alors que l’alignement par paires révèle la similarité entre deux séquences, le MSA capture la profondeur évolutive d’un groupe homologue, mettant en évidence les résidus qui ont été maintenus pendant des millions d’années. Ces positions conservées sont souvent critiques pour la structure, la catalyse ou la régulation. Le MSA est un prérequis pour la construction d’arbres phylogénétiques, l’identification de domaines protéiques et la génération de logos de séquence qui visualisent les motifs de conservation.
Concepts clés
L’alignement progressif, implémenté dans Clustal Omega et MUSCLE, construit un MSA en construisant d’abord un arbre guide à partir de distances par paires, puis en alignant itérativement les séquences les plus étroitement apparentées. Les méthodes itératives affinent l’alignement initial en réalignant des sous-ensembles pour améliorer le score objectif global. Les outils basés sur la cohérence comme T-Coffee incorporent des informations provenant d’alignements par paires contre une troisième séquence pour améliorer la précision. Pour les très grands ensembles de données, MAFFT utilise des transformées de Fourier rapides pour accélérer l’alignement. Les métriques d’évaluation de la qualité telles que le score somme-des-paires et le score de colonne évaluent la fiabilité de l’alignement, et les outils de rognage suppriment les régions mal alignées avant l’analyse en aval.
Applications
Le MSA est indispensable pour la génomique comparative en génétique bactérienne, où il identifie les gènes conservés entre souches pathogènes. Il améliore la sensibilité de la recherche d’homologie dans les projets de séquençage de l’ADN et révèle les résidus fonctionnellement importants dans la prédiction de structure des protéines. En biologie évolutive, le MSA fournit l’entrée de séquences multiples nécessaire pour l’inférence phylogénétique par maximum de vraisemblance et bayésienne, permettant la reconstruction de séquences ancestrales et la datation des événements de spéciation.