Visión General
El ensamblaje del transcriptoma es la reconstrucción computacional de las secuencias de transcriptos expresados a partir de lecturas de RNA-seq, realizada con o sin un genoma de referencia. Para organismos que carecen de un genoma secuenciado, el ensamblaje de novo del transcriptoma es la única opción, proporcionando la primera visión del potencial codificante de un organismo. Incluso cuando hay un genoma de referencia disponible, el ensamblaje del transcriptoma puede capturar isoformas novedosas, transcriptos de fusión y secuencias de regiones genómicas mal ensambladas. El transcriptoma ensamblado sirve como base para análisis posteriores, incluyendo cuantificación de expresión, anotación funcional y estudios comparativos.
Métodos
El ensamblaje de novo del transcriptoma utiliza algoritmos de ensamblaje diseñados para cobertura desigual y empalme alternativo. Las herramientas populares incluyen Trinity, que utiliza un enfoque de grafo de Bruijn con múltiples tamaños de k-mer; rnaSPAdes, adaptado del ensamblaje de genomas; y SOAPdenovo-Trans. Estas herramientas ensamblan lecturas en contigs que representan fragmentos de transcriptos, luego agrupan contigs relacionados en grupos de isoformas y resuelven transcriptos de longitud completa. Los ensambladores guiados por referencia (StringTie, Cufflinks) aprovechan los alineamientos sensibles a empalme con el genoma y ensamblan lecturas superpuestas en modelos de transcriptos. Las métricas de calidad clave incluyen la completitud del ensamblaje (puntuaciones BUSCO contra ortólogos conservados), la longitud N50 y el número de transcriptos de longitud completa recuperados. La reducción de redundancia mediante CD-HIT o Corset agrupa transcriptos altamente similares.
Aplicaciones
El ensamblaje del transcriptoma permite el descubrimiento de genes en organismos no modelo, desde cultivos agrícolas hasta especies marinas poco exploradas. Identifica genes expresados diferencialmente, isoformas específicas de tejido y transcriptos de fusión en cáncer. La técnica es esencial cuando los datos de secuenciación de ARN provienen de organismos sin referencia, y se integra profundamente con los flujos de trabajo de secuenciación de nueva generación. Los transcriptomas ensamblados también contribuyen a estudios evolutivos al permitir comparaciones entre especies de estructura y tipos de ARN. A medida que la secuenciación de lectura larga (Iso-Seq, Oxford Nanopore) mejora, las estrategias de ensamblaje híbrido que combinan lecturas cortas y largas están produciendo transcriptomas más completos y precisos que nunca.