Transformer dalam Biologi

Ikhtisar

Transformer adalah arsitektur jaringan saraf yang memproses data sekuensial menggunakan mekanisme perhatian-diri alih-alih konektivitas berulang atau konvolusional. Tidak seperti RNN yang memproses token satu per satu, transformer memproses seluruh sekuens secara paralel, dengan setiap token memperhatikan semua token lainnya untuk mempelajari ketergantungan kontekstual. Arsitektur ini terbukti revolusioner untuk data biologis: sekuens protein secara alami sesuai dengan perhatian-diri, dan AlphaFold menunjukkan bahwa transformer dapat memprediksi struktur protein dengan akurasi atom dari sekuens asam amino. Model bahasa biologis yang dibangun di atas transformer sekarang mendorong genomik dan penemuan obat.

Metode

Arsitektur Transformer terdiri dari encoder yang ditumpuk dengan perhatian-diri multi-kepala dan jaringan feed-forward, menggunakan pengkodean posisional untuk merepresentasikan urutan sekuens. BERT (Representasi Encoder Dua Arah dari Transformer) secara acak menutupi token dan belajar memprediksinya dari konteks sekitarnya. Model bahasa autoregresif seperti GPT menghasilkan token demi token yang dikondisikan pada token sebelumnya. Dalam biologi, AlphaFold mengadaptasi transformer untuk memprediksi jarak pasangan residu dan sudut puntir. DNABERT dan SpliceBERT menerapkan BERT ke DNA, mempelajari representasi fungsional dari fragmen genomik. ESM (Pemodelan Skala Evolusioner) melatih transformer pada sekuens protein untuk memprediksi struktur dan fungsi. Kemajuan terbaru termasuk transformer graf untuk kimia dan model difusi untuk generasi molekul.

Protokol Praktis

Alur kerja praktis untuk analisis genomik dengan transformer dimulai dengan persiapan data genomik. Untuk tugas prediksi elemen regulator, peneliti mengumpulkan sekuens genomik 1.000 pasangan basa (pb) di sekitar situs awal transkripsi yang diketahui dari ENSEMBL. Sekuens ditokenisasi menjadi fragmen 6 pb (heksamer) dengan kosakata 4.096 token yang mungkin. DNABERT yang telah dilatih sebelumnya dimuat dari Hugging Face dan disetel halus pada 50.000 region promotor yang dianotasi, menggunakan tumpang tindih jendela geser 200 pb untuk augmentasi data. Pelatihan menggunakan pengoptimal AdamW dengan tingkat pembelajaran 2e-5 selama 10 epoch dengan ukuran batch 16 pada GPU dengan memori 24 GB. Penyetelan halus memakan waktu sekitar 4 jam. Model yang disetel halus mencapai 91% akurasi dalam mengklasifikasikan promotor versus region non-promotor pada set pengujian yang ditahan. Visualisasi bobot perhatian mengungkap bahwa model mempelajari motif pengikatan faktor transkripsi yang diketahui tanpa pelatihan eksplisit padanya. Model diterapkan ke region genom yang tidak dianotasi, memprediksi 5.000 promotor baru yang diduga, 30% di antaranya divalidasi secara eksperimental melalui ChIP-seq. Kasus penggunaan yang menonjol: model ESM-2 dengan 15 miliar parameter memprediksi struktur protein bakteri yang tidak dikarakterisasi, mengungkap lipatan yang sebelumnya tidak diketahui yang kemudian dikonfirmasi melalui kristalografi sinar-X, menunjukkan bahwa transformer dapat menemukan pola lipatan protein baru hanya dari data sekuens.

Aplikasi

Transformer memprediksi struktur protein dari sekuens asam amino, mengannotasi elemen fungsional dalam genom dari data sekuensing DNA, dan memodelkan ekspresi gen dari data kromatin. Mereka juga merancang protein baru untuk aplikasi bioteknologi, menghasilkan molekul dengan sifat yang diinginkan dalam penemuan obat, dan mengklasifikasikan varian patogenik dari varian jinak dalam genomik klinis.