Mesin Vektor Dukung (SVM) dalam Bioinformatika

Ikhtisar

Mesin vektor dukung (SVM) adalah model pembelajaran terawasi yang menemukan hiperbidang yang memaksimalkan margin antar kelas dalam ruang berdimensi tinggi. Dengan hanya beroperasi pada vektor dukung — titik data yang paling dekat dengan batas keputusan — SVM mencapai generalisasi yang robust bahkan ketika jumlah fitur jauh melebihi jumlah sampel. Dikombinasikan dengan fungsi kernel, SVM menangkap hubungan non-linear tanpa mentransformasi data secara eksplisit, membuatnya sangat efektif untuk klasifikasi ekspresi gen, prediksi interaksi protein-protein, dan diagnosis berdasarkan pola metilasi.

Metode

SVM linier menemukan hiperbidang pemisah dalam ruang fitur asli, sesuai ketika kelas-kelas kira-kira dapat dipisahkan secara linier. Trik kernel memproyeksikan data ke ruang dimensi lebih tinggi menggunakan fungsi seperti kernel radial (RBF), polinomial, atau sigmoid, memungkinkan batas keputusan non-linear. SVM margin lunak memungkinkan kesalahan klasifikasi melalui parameter biaya C, menyeimbangkan maksimalisasi margin dengan kesalahan pelatihan. SVM berbobot kelas menangani ketidakseimbangan kelas dengan memberikan penalti lebih tinggi pada kesalahan klasifikasi kelas minoritas. Pemilihan parameter (C, gamma untuk RBF) biasanya dilakukan melalui pencarian grid dengan validasi silang.

Protokol Praktis

Alur kerja SVM untuk klasifikasi kanker berbasis metilasi dimulai dengan data metilasi DNA dari 450.000 situs CpG dari 200 sampel tumor dan 100 normal. Data dinormalisasi melalui normalisasi kuantil dan fitur dengan varian rendah disaring, menyisakan 50.000 probe informatif. PCA diterapkan untuk mereduksi dimensionalitas menjadi 100 komponen yang menjelaskan 70% varian. Data dibagi menjadi 70% pelatihan dan 30% pengujian, distratifikasi berdasarkan status penyakit. SVM dengan kernel RBF dilatih; hiperparameter C (rentang 0,1–1000) dan gamma (rentang 0,0001–0,1) dioptimalkan melalui pencarian grid dengan validasi silang 5 lipat, memilih pasangan yang memaksimalkan AUC. Model yang dioptimalkan mencapai AUC 0,94 pada set pengujian. Koefisien model diperiksa untuk mengidentifikasi region CpG yang paling berpengaruh, dipetakan ke promotor dan enhancer gen. Uji permutasi digunakan untuk mengevaluasi signifikansi statistik dari kinerja klasifikasi. Dalam aplikasi penemuan biomarker darah, SVM mengklasifikasikan sampel pasien Alzheimer dari kontrol sehat menggunakan data metilasi darah perifer, mencapai 88% akurasi dengan 25 region CpG biomarker. Region-region ini terletak pada gen yang terlibat dalam plastisitas sinaptik dan neuroinflamasi, menyediakan alat diagnostik dan wawasan mekanistik. Model divalidasi pada kohort independen 400 pasien, mempertahankan 85% akurasi dan menunjukkan ketahanan di semua tahap penyakit.

Aplikasi

SVM mengklasifikasikan tumor berdasarkan tipe dari data ekspresi gen, memprediksi interaksi protein-protein dari fitur sekuens, membedakan tahap patologis dalam data mikroskopi, dan mengklasifikasikan aktivitas farmakologis senyawa dalam penemuan obat. Kemampuannya menangani data dengan banyak fitur dan sedikit sampel menjadikannya pilihan utama di seluruh bioinformatika.