Visão Geral
A montagem de sequências é o processo computacional de reconstruir um genoma ou transcriptoma completo a partir dos milhões ou bilhões de fragmentos curtos de DNA produzidos por sequenciadores. Como os sequenciadores leem apenas 150–300 pares de base por vez, os algoritmos de montagem devem encontrar sobreposições entre leituras, mesclá-las em sequências contíguas mais longas (contigs) e ordenar contigs em scaffolds. A dificuldade da montagem aumenta com o tamanho do genoma, conteúdo repetitivo e heterozigosidade. A qualidade da montagem é medida por métricas como N50 (o comprimento do contig no qual 50% da montagem é coberta) e o número total de contigs.
Métodos
Existem dois paradigmas principais de montagem. Overlap-layout-consensus (OLC) , usado por Canu e Flye para leituras longas, calcula todas as sobreposições pareadas entre leituras, constrói um grafo e resolve caminhos para produzir uma sequência de consenso. Montadores de grafo de Bruijn, como SPAdes e Velvet, decompõem leituras em k-mers e constroem um grafo onde k-mers são nodos e arestas representam sobreposições de k-1; esta abordagem escala eficientemente para grandes genomas com alta cobertura. Montadores híbridos combinam a precisão de leituras curtas com a informação de longo alcance de leituras longas para resolver regiões repetitivas. Montadores metagenômicos como MEGAHIT lidam com comunidades microbianas mistas acomodando profundidades de cobertura variáveis entre espécies.
Aplicações
A montagem de novo de genomas produz genomas de referência para organismos recém-sequenciados, incluindo bactérias, plantas e vertebrados. Em projetos de sequenciamento de próxima geração, a montagem é o primeiro passo antes da anotação e análise. A montagem de transcriptomas a partir de leituras de sequenciamento de DNA revela isoformas com splicing alternativo. A tecnologia do DNA recombinante usa montagem para verificar construções de plasmídeos montando leituras de sequenciamento Sanger de insertos clonados.