Alineamiento de Secuencias Múltiple: Comparación de Tres o Más Secuencias

Visión General

El alineamiento de secuencias múltiple (MSA) alinea tres o más secuencias biológicas para identificar regiones conservadas compartidas en una familia completa. Mientras que el alineamiento pareado revela similitud entre dos secuencias, el MSA captura la profundidad evolutiva de un grupo homólogo, destacando residuos que se han mantenido durante millones de años. Estas posiciones conservadas son a menudo críticas para la estructura, catálisis o regulación. El MSA es el prerrequisito para la construcción de árboles filogenéticos, la identificación de dominios de proteínas y la generación de logotipos de secuencia que visualizan patrones de conservación.

Conceptos Clave

El alineamiento progresivo, implementado en Clustal Omega y MUSCLE, construye un MSA construyendo primero un árbol guía a partir de distancias pareadas y luego alineando iterativamente las secuencias más estrechamente relacionadas. Los métodos iterativos refinan el alineamiento inicial realineando subconjuntos para mejorar la puntuación objetiva general. Las herramientas basadas en consistencia como T-Coffee incorporan información de alineamientos pareados contra una tercera secuencia para mejorar la precisión. Para conjuntos de datos muy grandes, MAFFT utiliza transformadas rápidas de Fourier para acelerar el alineamiento. Las métricas de evaluación de calidad como la puntuación de suma de pares y la puntuación de columna evalúan la fiabilidad del alineamiento, y las herramientas de recorte eliminan regiones mal alineadas antes del análisis posterior.

Aplicaciones

El MSA es indispensable para la genómica comparada de genética bacteriana, donde identifica genes conservados en cepas patógenas. Mejora la sensibilidad de la búsqueda de homología en proyectos de secuenciación de ADN y revela residuos funcionalmente importantes en la predicción de estructura de proteínas. En biología evolutiva, el MSA proporciona la entrada de múltiples secuencias requerida para la inferencia filogenética de máxima verosimilitud y bayesiana, permitiendo la reconstrucción de secuencias ancestrales y la datación de eventos de especiación.