Überblick
Das multiple Sequenzalignment (MSA) richtet drei oder mehr biologische Sequenzen aus, um konservierte Regionen zu identifizieren, die über eine gesamte Familie hinweg gemeinsam sind. Während das paarweise Alignment die Ähnlichkeit zwischen zwei Sequenzen aufzeigt, erfasst das MSA die evolutionäre Tiefe einer homologen Gruppe und hebt Reste hervor, die über Millionen von Jahren erhalten geblieben sind. Diese konservierten Positionen sind oft entscheidend für Struktur, Katalyse oder Regulation. MSA ist die Voraussetzung für die phylogenetische Baumerstellung, die Identifizierung von Proteindomänen und die Erzeugung von Sequenzlogos, die Konservierungsmuster visualisieren.
Schlüsselkonzepte
Das progressive Alignment, implementiert in Clustal Omega und MUSCLE, erstellt ein MSA, indem es zunächst einen Leitbaum aus paarweisen Distanzen konstruiert und dann iterativ die am nächsten verwandten Sequenzen aligniert. Iterative Methoden verfeinern das initiale Alignment durch Neuausrichtung von Teilmengen, um den gesamten objektiven Score zu verbessern. Konsistenzbasierte Werkzeuge wie T-Coffee beziehen Informationen aus paarweisen Alignments gegen eine dritte Sequenz ein, um die Genauigkeit zu verbessern. Für sehr große Datensätze verwendet MAFFT schnelle Fourier-Transformationen, um das Alignment zu beschleunigen. Qualitätsbewertungsmetriken wie der Sum-of-Pairs-Score und der Spalten-Score bewerten die Alignments-Zuverlässigkeit, und Trimmwerkzeuge entfernen schlecht alignierte Regionen vor der nachgelagerten Analyse.
Anwendungen
MSA ist unverzichtbar für die vergleichende Genomik der Bakteriengenetik, wo es Gene identifiziert, die über pathogene Stämme hinweg konserviert sind. Es verbessert die Empfindlichkeit der Homologiesuche in DNA-Sequenzierungs-Projekten und zeigt funktionell wichtige Reste in der Proteinstruktur-Vorhersage auf. In der Evolutionsbiologie liefert MSA die Mehrfachsequenz-Eingabe, die für Maximum-Likelihood- und Bayes’sche phylogenetische Inferenz erforderlich ist, und ermöglicht die Rekonstruktion von Vorfahrensequenzen sowie die Datierung von Artbildungsereignissen.