Support-Vektor-Maschinen (SVM) in der Bioinformatik

Überblick

Support-Vektor-Maschinen (SVM) sind überwachte Lernmodelle, die die Hyperebene finden, die den maximalen Abstand (Margin) zwischen Klassen in einem hochdimensionalen Raum erzeugt. Da sie nur mit den Stützvektoren arbeiten — den Datenpunkten, die der Entscheidungsgrenze am nächsten liegen — erreichen SVMs eine robuste Generalisierung, selbst wenn die Anzahl der Merkmale die Anzahl der Stichproben bei weitem übersteigt. In Kombination mit Kernelfunktionen erfassen SVMs nichtlineare Beziehungen, ohne die Daten explizit zu transformieren, was sie besonders effektiv für die Genexpressionsklassifikation, die Vorhersage von Protein-Protein-Interaktionen und die Diagnose auf der Grundlage von Methylierungsmustern macht.

Methoden

Lineare SVMs finden eine trennende Hyperebene im ursprünglichen Merkmalsraum, geeignet wenn die Klassen annähernd linear trennbar sind. Der Kernel-Trick projiziert Daten mittels Kernelfunktionen wie RBF, Polynom oder Sigmoid in einen höherdimensionalen Raum und ermöglicht so nichtlineare Entscheidungsgrenzen. Soft-Margin-SVMs erlauben Klassifikationsfehler durch einen Kostenparameter C, der die Maximierung des Margins mit dem Trainingsfehler abwägt. Klassengewichtete SVMs adressieren Klassenungleichgewichte, indem sie Fehlklassifikationen der Minderheitsklasse stärker bestrafen. Die Parameterauswahl (C, gamma für RBF) erfolgt typischerweise durch Gittersuche mit Kreuzvalidierung.

Praktisches Protokoll

Ein SVM-Workflow für die methylierungsbasierte Krebsklassifikation beginnt mit DNA-Methylierungsdaten von 450.000 CpG-Stellen aus 200 Tumor- und 100 Normalproben. Die Daten werden durch Quantilnormalisierung normalisiert und Merkmale mit niedriger Varianz werden gefiltert, sodass 50.000 informative Sonden übrig bleiben. Eine PCA wird angewendet, um die Dimensionalität auf 100 Komponenten zu reduzieren, die 70 % der Varianz erklären. Die Daten werden in 70 % Training und 30 % Test aufgeteilt, stratifiziert nach Krankheitsstatus. Eine SVM mit RBF-Kernel wird trainiert; die Hyperparameter C (Bereich 0,1–1000) und gamma (Bereich 0,0001–0,1) werden durch Gittersuche mit 5-facher Kreuzvalidierung optimiert, wobei das Paar ausgewählt wird, das die AUC maximiert. Das optimierte Modell erreicht eine AUC von 0,94 auf dem Testsatz. Die Modellkoeffizienten werden untersucht, um die einflussreichsten CpG-Regionen zu identifizieren, die auf Genpromotoren und Enhancer abgebildet werden. Ein Permutationstest wird verwendet, um die statistische Signifikanz der Klassifikationsleistung zu bewerten. In einer Anwendung zur Entdeckung von Blut-Biomarkern klassifizierten SVMs Proben von Alzheimer-Patienten gegenüber gesunden Kontrollen unter Verwendung von peripheren Blut-Methylierungsdaten und erreichten eine Genauigkeit von 88 % mit 25 Biomarker-CpG-Regionen. Diese Regionen befanden sich in Genen, die an synaptischer Plastizität und Neuroinflammation beteiligt sind, und lieferten sowohl ein Diagnosewerkzeug als auch mechanistische Einblicke. Das Modell wurde an einer unabhängigen Kohorte von 400 Patienten validiert, wobei eine Genauigkeit von 85 % erhalten blieb und Robustheit über alle Krankheitsstadien hinweg gezeigt wurde.

Anwendungen

SVMs klassifizieren Tumore nach Typ aus Genexpressionsdaten, sagen Protein-Protein-Interaktionen aus Sequenzmerkmalen vorher, unterscheiden Krankheitsstadien in Mikroskopiedaten und klassifizieren die pharmakologische Aktivität von Verbindungen in der Wirkstoffforschung. Ihre Fähigkeit, Daten mit vielen Merkmalen und wenigen Stichproben zu verarbeiten, macht sie in der gesamten Bioinformatik zur bevorzugten Wahl.