Pemrosesan Bahasa Alami dalam Bioinformatika

Ikhtisar

Pemrosesan bahasa alami (PBA) mengembangkan metode komputasi untuk memahami, menafsirkan, dan menghasilkan bahasa manusia. Dalam bioinformatika, PBA menangani jumlah literatur biomedis yang luar biasa banyak, di mana lebih dari satu juta artikel baru diterbitkan setiap tahun. Melampaui penambangan teks, teknik PBA sekarang diterapkan langsung ke sekuens biologis dengan memperlakukan DNA, RNA, dan protein sebagai bahasa dengan sintaksis dan semantiknya sendiri, memungkinkan model bahasa biologis yang mempelajari sifat fungsional langsung dari data sekuens yang tidak berlabel.

Metode

Penambangan literatur menggunakan pengenalan entitas bernama (NER) untuk mengekstrak gen, penyakit, obat, dan hubungannya dari abstrak dan artikel teks lengkap. Model embeddings seperti word2vec, GloVe, dan BioBERT mengonversi kata dan frasa menjadi vektor padat yang menangkap kemiripan semantik. Model bahasa besar (LLM) seperti GPT dan BioMedLM menghasilkan teks mirip manusia dan menjawab pertanyaan tentang pengetahuan biologis. Model bahasa biologis seperti DNABERT dan SpliceBERT memperlakukan sekuens DNA sebagai bahasa, mempelajari representasi kontekstual dari fragmen DNA melalui penyamaran dan prediksi token, analog dengan BERT untuk bahasa alami. Aplikasi termasuk klasifikasi dokumen untuk tinjauan literatur sistematis, ekstraksi hubungan interaksi protein-protein dari teks, dan tanya-jawab untuk mendukung diagnosis klinis.

Protokol Praktis

Alur kerja penambangan literatur dimulai dengan kumpulan 10.000 abstrak PubMed yang diambil menggunakan kueri API Entrez dengan istilah spesifik seperti “ekspresi gen kanker payudara”. Korpus dipraproses melalui tokenisasi, penghapusan stopword, dan stemming. Model NER yang telah dilatih sebelumnya, biasanya BioBERT yang disetel halus pada kumpulan data BioCreative, diterapkan untuk mengidentifikasi entitas: gen, penyakit, dan obat. Untuk ekstraksi hubungan, pendekatan berbasis dependensi digunakan: kalimat yang mengandung dua entitas yang diminati diuraikan untuk pohon dependensi, dan jalur antar entitas yang mencakup kata kerja seperti “mengaktifkan”, “menghambat”, atau “mengatur” diklasifikasikan sebagai hubungan fungsional menggunakan pengklasifikasi SVM yang dilatih pada korpus BioCreative. Proses ini mencapai tingkat presisi 85% untuk interaksi yang diketahui. Hubungan yang diekstrak dimasukkan ke basis pengetahuan yang diperbarui setiap triwulan. Misalnya, metode ini menemukan 2.000 asosiasi gen-penyakit baru yang tidak tertangkap di basis data terkurasi seperti DisGeNet, 150 di antaranya kemudian divalidasi oleh studi independen. Penggunaan embeddings kata dari konteks sekitar meningkatkan kinerja sebesar 12% dibandingkan dengan NER standar. Dalam aplikasi anotasi genomik, DNABERT yang telah dilatih sebelumnya pada genom manusia disetel halus untuk prediksi situs penyambungan, mencapai 96% akurasi dalam mengidentifikasi batas ekson-intron di seluruh genom.

Aplikasi

PBA mempercepat tinjauan sistematis dengan mengklasifikasikan artikel biologi molekuler, mengekstrak hubungan protein-obat dari literatur biomedis, dan mendukung chatbot untuk interpretasi data biologis. Model bahasa biologis memprediksi elemen fungsional dari genom dan mengannotasi sekuens protein tanpa memerlukan penyelarasan.