Hutan Acak dalam Bioinformatika

Ikhtisar

Hutan acak adalah metode pembelajaran ensemble yang membangun banyak pohon keputusan selama pelatihan dan menggabungkan prediksi mereka melalui pemungutan suara mayoritas (klasifikasi) atau rata-rata (regresi). Setiap pohon dilatih pada sampel bootstrap yang berbeda dari data, dan pada setiap pemisahan hanya subset fitur acak yang dipertimbangkan, memastikan keragaman antar pohon dan mengurangi overfitting. Dalam bioinformatika, hutan acak populer karena kemampuannya menangani data berdimensi tinggi, ketahanannya terhadap noise, dan skor kepentingan fitur bawaan yang mengungkap prediktor biologis mana yang paling berkontribusi pada prediksi.

Metode

Bagging melatih setiap pohon pada sampel bootstrap dan merata-ratakan prediksi, mengurangi varians tanpa meningkatkan bias. Pemilihan fitur acak pada setiap pemisahan memastikan pohon tidak berkorelasi, meningkatkan generalisasi. Kepentingan fitur diukur dengan penurunan rata-rata ketidakmurnian (Gini atau entropi) atau penurunan akurasi saat mengocok nilai fitur. Kesalahan out-of-bag (OOB) memberikan estimasi validasi internal selama pelatihan tanpa memerlukan set validasi terpisah. Hutan acak secara alami menangani nilai yang hilang dan data campuran.

Protokol Praktis

Alur kerja hutan acak untuk klasifikasi kanker dimulai dengan kumpulan data ekspresi gen dari 20.000 gen dan 500 sampel dengan subtip kanker yang diketahui. Data dibagi menjadi 70% pelatihan dan 30% pengujian. Hutan acak dibangun dengan 1.000 pohon, mengambil sampel sqrt(p) fitur pada setiap pemisahan dan melatih setiap pohon pada sampel bootstrap. Kesalahan OOB dipantau selama pelatihan untuk mengonfirmasi bahwa 1.000 pohon cukup: kesalahan OOB stabil di sekitar 500 pohon. Kepentingan fitur diperingkat, mengungkap 50 gen teratas yang membedakan subtip. Gen-gen teratas mengarah ke jalur biologis yang diketahui spesifik untuk setiap subtip. Setelah validasi pada set pengujian independen, model mencapai 92% akurasi dibandingkan dengan 85% untuk SVM linier. Model disimpan sebagai file serial untuk penerapan klinis. Nilai probabilitas kelas untuk setiap prediksi dikalibrasi melalui penskalaan Platt untuk memberikan skor kepercayaan yang dapat diinterpretasikan. Dalam aplikasi penemuan obat, hutan acak dilatih pada 10.000 molekul kecil dengan aktivitas yang diketahui terhadap target kinase, menggunakan 2.000 deskriptor molekuler. Model mengklasifikasikan dengan benar 88% senyawa uji, dan fitur teratas — berat molekul, LogP, dan jumlah donor ikatan hidrogen — selaras dengan pengetahuan farmakologi yang mapan. Model memprediksi 15 senyawa aktif baru dari pustaka 50.000 senyawa, 12 di antaranya mengonfirmasi aktivitas dalam uji biokimia, tingkat keberhasilan 80% dibandingkan dengan 20% untuk penyaringan acak.

Aplikasi

Hutan acak mengklasifikasikan subtip kanker dari profil ekspresi gen dan qPCR, memprediksi respons obat berdasarkan data genomik dan proteomik, dan mengidentifikasi tanda tangan biomarker dalam data spektrometri massa. Hutan acak juga mendeteksi pencilan dalam kontrol kualitas eksperimen throughput tinggi dan memprioritaskan mutasi pendorong dalam data sekuensing genom lengkap.