Transformatoren in der Biologie

Überblick

Transformatoren sind neuronale Netzarchitekturen, die sequenzielle Daten unter Verwendung von Selbstaufmerksamkeitsmechanismen anstelle von rekurrenten oder Faltungsverbindungen verarbeiten. Im Gegensatz zu RNNs, die Tokens nacheinander verarbeiten, verarbeiten Transformatoren ganze Sequenzen parallel, wobei jedes Token allen anderen Tokens Aufmerksamkeit schenkt, um kontextuelle Abhängigkeiten zu lernen. Diese Architektur hat sich als revolutionär für biologische Daten erwiesen: Proteinsequenzen fügen sich natürlich in die Selbstaufmerksamkeit ein, und AlphaFold hat gezeigt, dass Transformatoren Proteinstrukturen mit atomarer Genauigkeit aus Aminosäuresequenzen vorhersagen können. Auf Transformatoren aufgebaute biologische Sprachmodelle treiben jetzt die Genomik und Wirkstoffforschung voran.

Methoden

Die Transformer-Architektur besteht aus gestapelten Encodern mit Multi-Head-Selbstaufmerksamkeit und Feed-Forward-Netzwerken unter Verwendung von Positionskodierung zur Darstellung der Sequenzreihenfolge. BERT (Bidirektionale Encoder-Repräsentationen von Transformatoren) maskiert zufällig Tokens und lernt, sie aus dem umgebenden Kontext vorherzusagen. Autoregressive Sprachmodelle wie GPT generieren Tokens sequenziell, konditioniert auf vorherige Tokens. In der Biologie hat AlphaFold Transformatoren angepasst, um Restpaarabstände und Diederwinkel vorherzusagen. DNABERT und SpliceBERT wenden BERT auf DNA an und lernen funktionale Repräsentationen genomischer Fragmente. ESM (Evolutionary Scale Modeling) trainiert Transformatoren auf Proteinsequenzen zur Vorhersage von Struktur und Funktion. Jüngste Fortschritte umfassen Graph-Transformatoren für die Chemie und Diffusionsmodelle für die Molekülerzeugung.

Praktisches Protokoll

Ein praktischer Workflow für die Genomanalyse mit Transformatoren beginnt mit der Vorbereitung genomischer Daten. Für eine Vorhersageaufgabe regulatorischer Elemente sammelt der Forscher genomische Sequenzen von 1.000 Basenpaaren (bp) um bekannte Transkriptionsstartstellen von ENSEMBL. Die Sequenzen werden in 6-bp-Fragmente (Hexamere) tokenisiert mit einem Vokabular von 4.096 möglichen Tokens. Vortrainiertes DNABERT wird von Hugging Face geladen und auf 50.000 annotierten Promotorregionen feinabgestimmt, wobei eine Überlappung gleitender Fenster von 200 bp zur Datenaugmentierung verwendet wird. Das Training verwendet den AdamW-Optimierer mit einer Lernrate von 2e-5 über 10 Epochen mit einer Batch-Größe von 16 auf einer GPU mit 24 GB Speicher. Das Feintuning dauert etwa 4 Stunden. Das feinabgestimmte Modell erreicht eine Genauigkeit von 91 % bei der Klassifizierung von Promotor- versus Nicht-Promotorregionen auf einem zurückgehaltenen Testsatz. Die Visualisierung der Aufmerksamkeitsgewichte zeigt, dass das Modell bekannte Transkriptionsfaktor-Bindungsmotive lernt, ohne explizit darauf trainiert worden zu sein. Das Modell wird auf nicht annotierte Regionen des Genoms angewendet und sagt 5.000 neue mutmaßliche Promotoren vorher, von denen 30 % experimentell durch ChIP-seq validiert werden. Ein herausragendes Anwendungsbeispiel: Das ESM-2-Modell mit 15 Milliarden Parametern sagte die Struktur eines nicht charakterisierten bakteriellen Proteins vorher und enthüllte eine bisher unbekannte Faltung, die später durch Röntgenkristallographie bestätigt wurde, was zeigt, dass Transformatoren neue Proteinfaltungsmuster allein aus Sequenzdaten entdecken können.

Anwendungen

Transformatoren sagen Proteinstrukturen aus Aminosäuresequenzen vorher, annotieren funktionale Elemente in Genomen aus DNA-Sequenzierungsdaten und modellieren die Genexpression aus Chromatindaten. Sie entwerfen auch neue Proteine für biotechnologische Anwendungen, erzeugen Moleküle mit gewünschten Eigenschaften in der Wirkstoffforschung und klassifizieren pathogene von benignen Varianten in der klinischen Genomik.