Análisis de K-mer: Composición y Frecuencia de Secuencias

Visión General

El análisis de k-mer descompone secuencias biológicas en todas las subcadenas posibles de una longitud fija k y cuenta sus frecuencias. Esta técnica simple pero poderosa captura las propiedades composicionales de genomas y transcriptomas sin requerir alineamiento, lo que la hace computacionalmente eficiente y libre de referencia. Las distribuciones de frecuencia de k-mer revelan el tamaño del genoma, la heterocigosidad, el contenido de repeticiones y las tasas de error de secuenciación a partir de lecturas crudas antes de cualquier paso de ensamblaje. La elección de k implica un equilibrio: valores pequeños de k (k < 20) proporcionan recuentos robustos pero poder discriminativo limitado, mientras que valores grandes de k (k > 50) ofrecen alta especificidad pero menor cobertura.

Conceptos Clave

El espectro de k-mer — un histograma de frecuencias de ocurrencia de k-mer — sigue una distribución similar a Poisson en datos ideales. Los k-mer erróneos de errores de secuenciación aparecen como singletes (frecuencia 1), mientras que los k-mer genómicos genuinos forman un pico en la profundidad de cobertura esperada. Las repeticiones genómicas producen picos adicionales en multiplicidades más altas. Herramientas como Jellyfish y KMC cuentan k-mer eficientemente usando tablas hash o arrays de sufijos. Más allá del conteo, los métodos basados en k-mer incluyen la distancia de k-mer (la fracción de k-mer compartidos entre dos muestras) para filogenia, la cobertura de k-mer para estimar el tamaño del genoma y los espectros de k-mer para corrección de errores eliminando k-mer por debajo de un umbral de cobertura.

Aplicaciones

El análisis de k-mer es integral para el control de calidad de la secuenciación de nueva generación, detectando contaminación y estimando cobertura antes del ensamblaje. En genética bacteriana, los métodos basados en k-mer distinguen cepas por sus firmas composicionales únicas. El agrupamiento metagenómico utiliza vectores de frecuencia de k-mer para agrupar contigs del mismo organismo. Los proyectos de secuenciación de ADN utilizan el conteo de k-mer para corregir errores de secuenciación reemplazando bases erróneas que crean k-mer de baja frecuencia.