Bosques Aleatorios en Bioinformática

Visión General

Los bosques aleatorios son un método de aprendizaje conjunto que construye múltiples árboles de decisión durante el entrenamiento y fusiona sus predicciones mediante votación mayoritaria (clasificación) o promediación (regresión). Cada árbol se entrena en una muestra bootstrap diferente de los datos, y en cada división solo se considera un subconjunto aleatorio de las características, lo que garantiza la diversidad entre los árboles y reduce el sobreajuste. En bioinformática, los bosques aleatorios son populares por su capacidad para manejar datos de alta dimensión, su resistencia al ruido y las puntuaciones de importancia de características integradas que revelan qué predictores biológicos contribuyen más a las predicciones.

Métodos

El embolsado (bagging) entrena cada árbol en una muestra bootstrap y promedia las predicciones, reduciendo la varianza sin aumentar el sesgo. La selección aleatoria de características en cada división garantiza que los árboles estén descorrelacionados, mejorando la generalización. La importancia de características se mide mediante la disminución promedio de impureza (Gini o entropía) o la disminución de precisión al permutar valores de características. El error fuera de bolsa (OOB) proporciona una estimación de validación interna durante el entrenamiento sin necesidad de un conjunto de validación separado. Los bosques aleatorios manejan naturalmente valores faltantes y datos mixtos.

Protocolo Práctico

Un flujo de trabajo de bosques aleatorios para clasificación de cáncer comienza con un conjunto de datos de expresión génica de 20,000 genes y 500 muestras con subtipos de cáncer conocidos. Los datos se dividen en 70% entrenamiento y 30% prueba. Se construye un bosque aleatorio con 1,000 árboles, muestreando sqrt(p) características en cada división y entrenando cada árbol con una muestra bootstrap. El error OOB se monitorea durante el entrenamiento para confirmar que 1,000 árboles son suficientes: el error OOB se estabiliza alrededor de 500 árboles. La importancia de características se clasifica, revelando los 50 genes principales que distinguen subtipos. Los genes principales apuntan a vías biológicas conocidas específicas de cada subtipo. Después de la validación en un conjunto de pruebas independiente, el modelo alcanza una precisión del 92% en comparación con el 85% de una SVM lineal. El modelo se guarda como un archivo serializado para implementación clínica. Los valores de probabilidad de clase para cada predicción se calibran mediante la escala de Platt para proporcionar puntuaciones de confianza interpretables. En una aplicación de descubrimiento de fármacos, se entrenó un bosque aleatorio con 10,000 moléculas pequeñas con actividades conocidas contra un objetivo de quinasa, usando 2,000 descriptores moleculares. El modelo clasificó correctamente el 88% de los compuestos de prueba, y las características principales — peso molecular, LogP y recuento de donantes de enlaces de hidrógeno — se alinearon con el conocimiento farmacológico establecido. El modelo predijo 15 nuevos compuestos activos de una biblioteca de 50,000 compuestos, de los cuales 12 confirmaron actividad en ensayos bioquímicos, una tasa de aciertos del 80% en comparación con el 20% de un cribado aleatorio.

Aplicaciones

Los bosques aleatorios clasifican subtipos de cáncer a partir de perfiles de expresión génica y qPCR, predicen la respuesta a fármacos basándose en datos genómicos y proteómicos, e identifican firmas de biomarcadores en datos de espectrometría de masas. También detectan valores atípicos en el control de calidad de experimentos de alto rendimiento y priorizan mutaciones impulsoras en datos de secuenciación del genoma completo.