Überblick
Die Genomassemblierung ist der computergestützte Prozess der Rekonstruktion vollständiger Genomsequenzen aus den kurzen DNA-Fragmenten, die von Hochdurchsatz-Sequenzierungsplattformen erzeugt werden. Da Sequenzierungsmaschinen jeweils nur Hunderte von Basenpaaren lesen, müssen Bioinformatiker Millionen oder Milliarden dieser Reads zusammensetzen — ähnlich wie bei der Lösung eines riesigen Puzzles. Die Genauigkeit eines assemblierten Genoms wirkt sich direkt auf alle nachgelagerten Analysen aus, von der Genvorhersage bis zur vergleichenden Genomik. Moderne Assembler bewältigen die Komplexität repetitiver Regionen, Sequenzierungsfehler und unterschiedlicher Abdeckungstiefen mithilfe ausgefeilter Graph-basierter Algorithmen.
Schlüsselkonzepte
Es gibt zwei Hauptstrategien für die Genomassemblierung. Die De-novo-Assemblierung erstellt ein Genom ohne vorherige Referenz und nutzt Overlap-Layout-Consensus (OLC) oder De-Bruijn-Graph-Ansätze, um Reads zu zusammenhängenden Sequenzen, sogenannten Contigs, zusammenzuführen. Die referenzgeführte Assemblierung kartiert Reads auf ein bekanntes Referenzgenom und assembliert anschließend die nicht kartierten Anteile, was besonders für Resequenzierungsprojekte nützlich ist. Wichtige Qualitätsmetriken umfassen den N50-Wert (die Contig-Länge, bei der 50 % der Assemblierung enthalten sind) und die Gesamtassemblierungsgröße. Die Validierung der Assemblierung erfolgt häufig durch Abgleich mit bekannten Sequenzen oder den Einsatz von Long-Read-Technologien zum Schließen von Lücken.
Anwendungen
Die Genomassemblierung ist grundlegend für nahezu alle genomischen Anwendungen. Sie ermöglicht die Entdeckung neuer Gene, die Identifizierung struktureller Varianten und die Charakterisierung nicht-kodierender regulatorischer Elemente. In der Medizin ermöglichen assemblierte Genome von Krankheitserregern eine schnelle Nachverfolgung von Ausbrüchen und die Profilerstellung von Antibiotikaresistenzen. Die Agrargenomik stützt sich auf qualitativ hochwertige Assemblierungen, um wirtschaftlich bedeutsame Merkmale zu kartieren. Moderne Projekte kombinieren häufig Next-Generation Sequencing-Daten mit langen Reads und optischem Mapping, um Assemblierungen auf Chromosomenebene zu erstellen, und bauen dabei auf klassischen DNA-Sequenzierung-Methoden auf. Die Assemblierung liegt auch funktionellen Studien wie dem CRISPR-Cas9-Target-Design zugrunde, bei dem Vorhersagen von Off-Target-Effekten von einer genauen Referenz abhängen.