Überblick
BLAST (Basic Local Alignment Search Tool) ist der am weitesten verbreitete Algorithmus zum Vergleich einer Abfragesequenz mit einer Datenbank bekannter Sequenzen. Er identifiziert schnell statistisch signifikante lokale Alignments, liefert funktionelle Annotationen für neue Gene, erkennt Homologie über entfernte Arten hinweg und deckt evolutionäre Beziehungen auf. BLAST opfert die garantierte Optimalität der vollständigen dynamischen Programmierung für eine Heuristik, die schnell genug ist, um Datenbanken mit Milliarden von Resten zu durchsuchen. Die statistische Signifikanz jedes Treffers wird als E-Wert angegeben — die erwartete Anzahl zufälliger Alignments mit einem bestimmten Score in einer Datenbank dieser Größe.
Schlüsselkonzepte
BLAST funktioniert, indem es zunächst die Abfrage in kurze Wörter zerlegt (typischerweise 3 für Proteine, 11 für Nukleotide), die Datenbank nach exakten Übereinstimmungen mit diesen Wörtern durchsucht und dann vielversprechende Treffer in beide Richtungen verlängert, um längere Alignments zu erstellen. Varianten adressieren spezifische Anwendungsfälle: BLASTP vergleicht Proteinabfragen mit Proteindatenbanken, BLASTN vergleicht Nukleotidabfragen mit Nukleotiddatenbanken, BLASTX übersetzt eine Nukleotidabfrage in allen sechs Leserahmen für den Vergleich auf Proteinebene, und PSI-BLAST erstellt iterativ eine positionsspezifische Score-Matrix zur Erkennung entfernter Homologe. MegaBLAST ist für hochähnliche Sequenzen optimiert, während diskontinuierliches MegaBLAST artübergreifende Vergleiche ermöglicht.
Anwendungen
BLAST ist der erste Schritt bei der Annotation unbekannter Sequenzen aus DNA-Sequenzierungs-Projekten. Es weist neuartigen Proteinen eine mutmaßliche Funktion zu, indem es Homologie zu charakterisierten Proteinstrukturen erkennt. In der Bakteriengenetik identifiziert BLAST Virulenzfaktoren und Antibiotikaresistenzgene. Die Rekombinante DNA-Technologie verwendet BLAST zur Überprüfung der Konstruktintegrität durch Alignment von Sequenzierungsreads mit erwarteten Vektorsequenzen.