Forêts Aléatoires en Bioinformatique

Aperçu Général

Les forêts aléatoires sont une méthode d’apprentissage ensembliste qui construit plusieurs arbres de décision pendant l’entraînement et fusionne leurs prédictions par vote majoritaire (classification) ou moyennage (régression). Chaque arbre est entraîné sur un échantillon bootstrap différent des données, et à chaque division seul un sous-ensemble aléatoire des caractéristiques est considéré, ce qui garantit la diversité entre les arbres et réduit le surajustement. En bioinformatique, les forêts aléatoires sont populaires pour leur capacité à gérer des données de haute dimension, leur résistance au bruit et les scores d’importance de caractéristiques intégrés qui révèlent quels prédicteurs biologiques contribuent le plus aux prédictions.

Méthodes

L’agrégation bootstrap (bagging) entraîne chaque arbre sur un échantillon bootstrap et moyenne les prédictions, réduisant la variance sans augmenter le biais. La sélection aléatoire de caractéristiques à chaque division garantit que les arbres sont décorrélés, améliorant la généralisation. L’importance des caractéristiques est mesurée par la diminution moyenne d’impureté (Gini ou entropie) ou la diminution de précision lors de la permutation des valeurs de caractéristiques. L’erreur hors sac (OOB) fournit une estimation de validation interne pendant l’entraînement sans nécessiter d’ensemble de validation séparé. Les forêts aléatoires gèrent naturellement les valeurs manquantes et les données mixtes.

Protocole Pratique

Un flux de travail de forêt aléatoire pour la classification du cancer commence par un ensemble de données d’expression génique de 20 000 gènes et 500 échantillons avec des sous-types de cancer connus. Les données sont divisées en 70 % d’entraînement et 30 % de test. Une forêt aléatoire est construite avec 1 000 arbres, en échantillonnant sqrt(p) caractéristiques à chaque division et en entraînant chaque arbre sur un échantillon bootstrap. L’erreur OOB est surveillée pendant l’entraînement pour confirmer que 1 000 arbres sont suffisants : l’erreur OOB se stabilise autour de 500 arbres. L’importance des caractéristiques est classée, révélant les 50 principaux gènes qui distinguent les sous-types. Les principaux gènes pointent vers des voies biologiques connues spécifiques à chaque sous-type. Après validation sur un ensemble de test indépendant, le modèle atteint 92 % de précision contre 85 % pour un SVM linéaire. Le modèle est sauvegardé sous forme de fichier sérialisé pour un déploiement clinique. Les valeurs de probabilité de classe pour chaque prédiction sont calibrées via la mise à l’échelle de Platt pour fournir des scores de confiance interprétables. Dans une application de découverte de médicaments, une forêt aléatoire a été entraînée sur 10 000 petites molécules avec des activités connues contre une cible kinase, en utilisant 2 000 descripteurs moléculaires. Le modèle a correctement classifié 88 % des composés de test, et les principales caractéristiques — poids moléculaire, LogP et nombre de donneurs de liaisons hydrogène — étaient alignées avec les connaissances pharmacologiques établies. Le modèle a prédit 15 nouveaux composés actifs à partir d’une bibliothèque de 50 000 composés, dont 12 ont confirmé une activité dans des tests biochimiques, un taux de réussite de 80 % contre 20 % pour un criblage aléatoire.

Applications

Les forêts aléatoires classifient les sous-types de cancer à partir de profils d’expression génique et de qPCR, prédisent la réponse aux médicaments sur la base de données génomiques et protéomiques, et identifient des signatures de biomarqueurs dans les données de spectrométrie de masse. Elles détectent également les valeurs aberrantes dans le contrôle qualité des expériences à haut débit et priorisent les mutations motrices dans les données de séquençage génomique complet.