Visión General
El ensamblaje de secuencias es el proceso computacional de reconstruir un genoma o transcriptoma completo a partir de los millones o miles de millones de fragmentos cortos de ADN producidos por los secuenciadores. Debido a que las máquinas de secuenciación leen solo 150–300 pares de bases a la vez, los algoritmos de ensamblaje deben encontrar superposiciones entre lecturas, fusionarlas en secuencias contiguas más largas (contigs) y ordenar los contigs en andamios. La dificultad del ensamblaje aumenta con el tamaño del genoma, el contenido repetitivo y la heterocigosidad. La calidad del ensamblaje se mide mediante métricas como N50 (la longitud de contig en la que está cubierto el 50% del ensamblaje) y el número total de contigs.
Métodos
Existen dos paradigmas principales de ensamblaje. Superposición-diseño-consenso (OLC), utilizado por Canu y Flye para lecturas largas, calcula todas las superposiciones pareadas entre lecturas, construye un grafo y resuelve rutas para producir una secuencia de consenso. Los ensambladores de grafos de Bruijn, como SPAdes y Velvet, descomponen las lecturas en k-mer y construyen un grafo donde los k-mer son nodos y las aristas representan superposiciones de k-1; este enfoque escala eficientemente a genomas grandes con alta cobertura. Los ensambladores híbridos combinan la precisión de las lecturas cortas con la información de largo alcance de las lecturas largas para resolver regiones repetitivas. Los ensambladores metagenómicos como MEGAHIT manejan comunidades microbianas mixtas acomodando profundidades de cobertura variables entre especies.
Aplicaciones
El ensamblaje de novo de genomas produce genomas de referencia para organismos recién secuenciados, incluyendo bacterias, plantas y vertebrados. En proyectos de secuenciación de nueva generación, el ensamblaje es el primer paso antes de la anotación y el análisis. El ensamblaje del transcriptoma a partir de lecturas de secuenciación de ADN revela isoformas empalmadas alternativamente. La tecnología de ADN recombinante utiliza el ensamblaje para verificar construcciones de plásmidos mediante el ensamblaje de lecturas de secuenciación Sanger de insertos clonados.