Skip to content

Article image
Sequenzassemblierung: Rekonstruktion von DNA aus Fragmenten

Überblick

Die Sequenzassemblierung ist der computergestützte Prozess der Rekonstruktion eines vollständigen Genoms oder Transkriptoms aus den Millionen oder Milliarden kurzer DNA-Fragmente, die von Sequenziergeräten erzeugt werden. Da Sequenziermaschinen jeweils nur 150–300 Basenpaare lesen, müssen Assemblierungsalgorithmen Überlappungen zwischen Reads finden, sie zu längeren zusammenhängenden Sequenzen (Contigs) zusammenführen und Contigs in Scaffolds anordnen. Die Schwierigkeit der Assemblierung nimmt mit der Genomgröße, dem repetitiven Anteil und der Heterozygotie zu. Die Assemblierungsqualität wird durch Metriken wie N50 (die Contig-Länge, bei der 50 % der Assemblierung abgedeckt sind) und die Gesamtzahl der Contigs gemessen.

Methoden

Es gibt zwei Hauptassemblierungsparadigmen. Overlap-Layout-Consensus (OLC), verwendet von Canu und Flye für lange Reads, berechnet alle paarweisen Überlappungen zwischen Reads, konstruiert einen Graphen und löst Pfade auf, um eine Konsensussequenz zu erzeugen. De-Bruijn-Graph-Assembler wie SPAdes und Velvet zerlegen Reads in K-mers und bauen einen Graphen, in dem K-mers Knoten sind und Kanten k-1-Überlappungen darstellen; dieser Ansatz skaliert effizient auf große Genome mit hoher Abdeckung. Hybride Assembler kombinieren die Genauigkeit kurzer Reads mit der Langstreckeninformation langer Reads, um repetitive Regionen aufzulösen. Metagenomische Assembler wie MEGAHIT verarbeiten gemischte mikrobielle Gemeinschaften, indem sie unterschiedliche Abdeckungstiefen zwischen den Arten berücksichtigen.

Anwendungen

Die De-novo-Genomassemblierung erzeugt Referenzgenome für neu sequenzierte Organismen, darunter Bakterien, Pflanzen und Wirbeltiere. In Next-Generation Sequencing-Projekten ist die Assemblierung der erste Schritt vor der Annotation und Analyse. Die Transkriptomassemblierung aus DNA-Sequenzierungs-Reads deckt alternativ gespleißte Isoformen auf. Die Rekombinante DNA-Technologie verwendet die Assemblierung zur Überprüfung von Plasmidkonstrukten durch Assemblierung von Sanger-Sequenzierungsreads klonierter Inserts.