Máquinas de Vectores de Soporte (SVM) en Bioinformática

Visión General

Las máquinas de vectores de soporte (SVM) son modelos de aprendizaje supervisado que encuentran el hiperplano que maximiza el margen entre clases en un espacio de alta dimensión. Al funcionar solo con los vectores de soporte — los puntos de datos más cercanos al límite de decisión — las SVM logran una generalización robusta incluso cuando el número de características supera con creces el número de muestras. Combinadas con funciones kernel, las SVM capturan relaciones no lineales sin transformar explícitamente los datos, lo que las hace particularmente efectivas para la clasificación de expresión génica, la predicción de interacciones proteína-proteína y el diagnóstico basado en patrones de metilación.

Métodos

Las SVM lineales encuentran un hiperplano separador en el espacio de características original, apropiado cuando las clases son aproximadamente separables linealmente. El truco del kernel proyecta los datos en un espacio de dimensiones superiores usando funciones como el kernel radial (RBF), polinómico o sigmoide, permitiendo límites de decisión no lineales. Las SVM de margen blando permiten clasificaciones erróneas mediante un parámetro de costo C, equilibrando la maximización del margen con el error de entrenamiento. Las SVM de clase ponderada abordan el desequilibrio de clases asignando penalizaciones más altas a la clasificación errónea de la clase minoritaria. La selección de parámetros (C, gamma para RBF) se realiza típicamente mediante búsqueda en cuadrícula con validación cruzada.

Protocolo Práctico

Un flujo de trabajo SVM para clasificación de cáncer basado en metilación comienza con datos de metilación de ADN de 450,000 sitios CpG de 200 muestras tumorales y 100 normales. Los datos se normalizan mediante la normalización de cuantiles y las características con baja varianza se filtran, dejando 50,000 sondas informativas. Se aplica PCA para reducir la dimensionalidad a 100 componentes que explican el 70% de la varianza. Los datos se dividen en 70% entrenamiento y 30% prueba, estratificados por estado de la enfermedad. Se entrena una SVM con kernel RBF; los hiperparámetros C (rango 0.1–1000) y gamma (rango 0.0001–0.1) se optimizan mediante búsqueda en cuadrícula con validación cruzada de 5 pliegues, seleccionando el par que maximiza el AUC. El modelo optimizado alcanza un AUC del 0.94 en el conjunto de prueba. Los coeficientes del modelo se inspeccionan para identificar las regiones CpG más influyentes, mapeadas a promotores génicos y potenciadores. Se utiliza la prueba de permutación para evaluar la significancia estadística del rendimiento de clasificación. En una aplicación de descubrimiento de biomarcadores en sangre, las SVM clasificaron muestras de pacientes con Alzheimer de controles sanos utilizando datos de metilación de sangre periférica, alcanzando una precisión del 88% con 25 regiones CpG biomarcadoras. Estas regiones se localizaron en genes implicados en la plasticidad sináptica y la neuroinflamación, proporcionando tanto una herramienta de diagnóstico como información mecanicista. El modelo se validó en una cohorte independiente de 400 pacientes, manteniendo una precisión del 85% y demostrando robustez en todas las etapas de la enfermedad.

Aplicaciones

Las SVM clasifican tumores por tipo a partir de datos de expresión génica, predicen interacciones proteína-proteína a partir de características de secuencia, distinguen estadios patológicos en datos de microscopía y clasifican la actividad farmacológica de compuestos en el descubrimiento de fármacos. Su capacidad para manejar datos caracterizados por muchas características y pocas muestras las convierte en una opción preferida en toda la bioinformática.