Zufallswälder in der Bioinformatik

Überblick

Zufallswälder sind eine Ensemble-Lernmethode, die während des Trainings mehrere Entscheidungsbäume erstellt und deren Vorhersagen durch Mehrheitsvotum (Klassifikation) oder Mittelwertbildung (Regression) zusammenführt. Jeder Baum wird auf einer anderen Bootstrap-Stichprobe der Daten trainiert, und bei jeder Teilung wird nur eine zufällige Teilmenge der Merkmale berücksichtigt, was die Vielfalt zwischen den Bäumen gewährleistet und Überanpassung reduziert. In der Bioinformatik sind Zufallswälder beliebt wegen ihrer Fähigkeit, hochdimensionale Daten zu verarbeiten, ihrer Robustheit gegenüber Rauschen und der integrierten Merkmalswichtigkeitswerte, die aufdecken, welche biologischen Prädiktoren am meisten zu den Vorhersagen beitragen.

Methoden

Bagging trainiert jeden Baum auf einer Bootstrap-Stichprobe und mittelt die Vorhersagen, wodurch die Varianz reduziert wird, ohne die Verzerrung zu erhöhen. Zufällige Merkmalauswahl bei jeder Teilung stellt sicher, dass die Bäume unkorreliert sind, was die Generalisierung verbessert. Merkmalswichtigkeit wird durch die durchschnittliche Verunreinigungsabnahme (Gini oder Entropie) oder den Genauigkeitsabfall beim Permutieren von Merkmalswerten gemessen. Out-of-Bag-Fehler (OOB) liefert eine interne Validierungsschätzung während des Trainings ohne separates Validierungsset. Zufallswälder behandeln natürlicherweise fehlende Werte und gemischte Daten.

Praktisches Protokoll

Ein Zufallswald-Workflow für die Krebsklassifikation beginnt mit einem Genexpressionsdatensatz von 20.000 Genen und 500 Proben mit bekannten Krebs-Subtypen. Die Daten werden in 70 % Training und 30 % Test aufgeteilt. Ein Zufallswald mit 1.000 Bäumen wird erstellt, wobei bei jeder Teilung sqrt(p) Merkmale abgetastet und jeder Baum auf einer Bootstrap-Stichprobe trainiert wird. Der OOB-Fehler wird während des Trainings überwacht, um zu bestätigen, dass 1.000 Bäume ausreichen: Der OOB-Fehler stabilisiert sich bei etwa 500 Bäumen. Die Merkmalswichtigkeit wird eingestuft und zeigt die 50 wichtigsten Gene, die die Subtypen unterscheiden. Die wichtigsten Gene verweisen auf bekannte biologische Signalwege, die für jeden Subtyp spezifisch sind. Nach der Validierung an einem unabhängigen Testsatz erreicht das Modell 92 % Genauigkeit im Vergleich zu 85 % für eine lineare SVM. Das Modell wird als serialisierte Datei für den klinischen Einsatz gespeichert. Die Klassenwahrscheinlichkeitswerte für jede Vorhersage werden mittels Platt-Skalierung kalibriert, um interpretierbare Konfidenzwerte zu liefern. In einer Wirkstoffforschungsanwendung wurde ein Zufallswald auf 10.000 kleinen Molekülen mit bekannter Aktivität gegen ein Kinase-Target trainiert, wobei 2.000 molekulare Deskriptoren verwendet wurden. Das Modell klassifizierte 88 % der Testverbindungen korrekt, und die wichtigsten Merkmale — Molekulargewicht, LogP und Anzahl der Wasserstoffbrückendonoren — stimmten mit etabliertem pharmakologischem Wissen überein. Das Modell sagte 15 neue aktive Verbindungen aus einer Bibliothek von 50.000 Verbindungen vorher, von denen 12 die Aktivität in biochemischen Tests bestätigten, eine Trefferquote von 80 % im Vergleich zu 20 % bei einem zufälligen Screening.

Anwendungen

Zufallswälder klassifizieren Krebs-Subtypen aus Genexpressionsprofilen und qPCR, sagen Wirkstoffreaktionen auf der Grundlage genomischer und proteomischer Daten vorher und identifizieren Biomarkersignaturen in Massenspektrometriedaten. Sie erkennen auch Ausreißer in der Qualitätskontrolle von Hochdurchsatzexperimenten und priorisieren Treibermutationen in Gesamtgenom-Sequenzierungsdaten.