Machines à Vecteurs de Support (SVM) en Bioinformatique

Aperçu Général

Les machines à vecteurs de support (SVM) sont des modèles d’apprentissage supervisé qui trouvent l’hyperplan maximisant la marge entre les classes dans un espace de haute dimension. En ne fonctionnant qu’avec les vecteurs de support — les points de données les plus proches de la frontière de décision — les SVM obtiennent une généralisation robuste même lorsque le nombre de caractéristiques dépasse largement le nombre d’échantillons. Combinées avec des fonctions noyau, les SVM capturent des relations non linéaires sans transformer explicitement les données, ce qui les rend particulièrement efficaces pour la classification d’expression génique, la prédiction d’interactions protéine-protéine et le diagnostic basé sur les profils de méthylation.

Méthodes

Les SVM linéaires trouvent un hyperplan séparateur dans l’espace de caractéristiques original, approprié lorsque les classes sont approximativement séparables linéairement. L’astuce du noyau projette les données dans un espace de dimension supérieure en utilisant des fonctions comme le noyau radial (RBF), polynomial ou sigmoïde, permettant des frontières de décision non linéaires. Les SVM à marge souple autorisent des erreurs de classification via un paramètre de coût C, équilibrant la maximisation de la marge et l’erreur d’entraînement. Les SVM à pondération des classes traitent le déséquilibre des classes en attribuant des pénalités plus élevées à la mauvaise classification de la classe minoritaire. La sélection des paramètres (C, gamma pour RBF) se fait typiquement par recherche en grille avec validation croisée.

Protocole Pratique

Un flux de travail SVM pour la classification du cancer basée sur la méthylation commence par des données de méthylation de l’ADN de 450 000 sites CpG provenant de 200 échantillons tumoraux et 100 normaux. Les données sont normalisées par normalisation quantile et les caractéristiques à faible variance sont filtrées, laissant 50 000 sondes informatives. Une ACP est appliquée pour réduire la dimensionnalité à 100 composantes expliquant 70 % de la variance. Les données sont divisées en 70 % d’entraînement et 30 % de test, stratifiées par statut de la maladie. Un SVM avec noyau RBF est entraîné ; les hyperparamètres C (plage 0,1–1000) et gamma (plage 0,0001–0,1) sont optimisés par recherche en grille avec validation croisée à 5 plis, en sélectionnant la paire qui maximise l’AUC. Le modèle optimisé atteint une AUC de 0,94 sur l’ensemble de test. Les coefficients du modèle sont inspectés pour identifier les régions CpG les plus influentes, cartographiées sur les promoteurs et les activateurs géniques. Un test de permutation est utilisé pour évaluer la signification statistique de la performance de classification. Dans une application de découverte de biomarqueurs sanguins, les SVM ont classifié des échantillons de patients Alzheimer par rapport à des témoins sains en utilisant des données de méthylation du sang périphérique, atteignant une précision de 88 % avec 25 régions CpG biomarqueurs. Ces régions étaient situées dans des gènes impliqués dans la plasticité synaptique et la neuroinflammation, fournissant à la fois un outil de diagnostic et des informations mécanistiques. Le modèle a été validé sur une cohorte indépendante de 400 patients, maintenant une précision de 85 % et démontrant une robustesse à travers tous les stades de la maladie.

Applications

Les SVM classifient les tumeurs par type à partir de données d’expression génique, prédisent les interactions protéine-protéine à partir de caractéristiques de séquence, distinguent les stades pathologiques dans les données de microscopie et classifient l’activité pharmacologique de composés dans la découverte de médicaments. Leur capacité à traiter des données avec de nombreuses caractéristiques et peu d’échantillons en fait un choix de prédilection dans toute la bioinformatique.