DNA-Microarrays und Genexpressionsanalyse

DNA-Microarrays ermöglichen die gleichzeitige Messung der Expressionsniveaus tausender Gene und liefern einen genomweiten Überblick über die zelluläre Transkriptionsaktivität. Sie revolutionierten die funktionelle Genomik, indem sie es Forschern ermöglichten, die Genexpression zwischen verschiedenen Bedingungen, Geweben oder Krankheitszuständen zu vergleichen.

Microarray-Prinzipien

Ein DNA-Microarray besteht aus tausenden mikroskopischen Punkten, die jeweils Sonden einer spezifischen DNA-Sequenz enthalten und auf einer festen Oberfläche wie einem Glasobjektträger oder Siliziumchip befestigt sind. Jede Sonde ist so konzipiert, dass sie an eine spezifische Ziel-mRNA- oder cDNA-Sequenz hybridisiert. Die gesamte Sammlung von Sonden repräsentiert die Menge der analysierten Gene.

Das grundlegende Experiment beinhaltet die Extraktion von RNA aus den interessierenden Proben, die Umwandlung in komplementäre DNA mit reverser Transkriptase, die Markierung der cDNA mit Fluoreszenzfarbstoffen und die Hybridisierung der markierten cDNA auf dem Microarray. Nach dem Waschen des nicht-spezifisch gebundenen Materials wird die Fluoreszenzintensität an jedem Punkt gemessen, was die Menge jeder mRNA in der ursprünglichen Probe angibt.

Zwei-Farben-Arrays

Bei Zwei-Farben-Microarray-Experimenten wird RNA aus zwei Bedingungen mit verschiedenen Fluoreszenzfarbstoffen, typischerweise Cy3 und Cy5, markiert. Die markierten cDNAs werden gemischt und auf einem einzigen Array hybridisiert. Das Verhältnis der Cy5- zur Cy3-Fluoreszenz an jedem Punkt spiegelt das relative Expressionsniveau jedes Gens zwischen den beiden Bedingungen wider. Zwei-Farben-Designs kontrollieren Punkt-zu-Punkt-Variationen, führen aber einen Farbstoffbias ein, der Farbstoffaustauschexperimente erfordert.

Einkanal-Arrays

Einkanal-Arrays wie Affymetrix GeneChips verwenden einen einzigen Fluoreszenzfarbstoff. Jede Probe wird auf einem separaten Array hybridisiert. Die Genexpression wird als absolute Intensität gemessen und Vergleiche werden nach Normalisierung über Arrays hinweg durchgeführt. Einkanal-Arrays haben einen höheren Durchsatz für mehrere Vergleiche, erfordern aber robuste Normalisierungsmethoden, um die Variation zwischen Arrays zu reduzieren. Affymetrix-Arrays verwenden mehrere Sonden pro Gen mit Perfect-Match- und Mismatch-Sonden, um spezifische Hybridisierung von Hintergrund zu unterscheiden.

Datennormalisierung

Microarray-Daten erfordern eine umfangreiche Vorverarbeitung. Die Hintergrundkorrektur entfernt Signale von nichtspezifischer Hybridisierung. Die Normalisierung passt technische Variationen zwischen Arrays an. Die Quantil-Normalisierung macht die Verteilung der Sondenintensitäten über Arrays hinweg identisch, unter der Annahme, dass die meisten Gene nicht differentiell exprimiert sind. Der Robust-Multi-Array-Average kombiniert Hintergrundkorrektur, Normalisierung und Zusammenfassung mehrerer Sonden pro Gen.

Differentielle Expressionsanalyse

Nach der Normalisierung identifizieren statistische Tests Gene mit signifikanten Expressionsänderungen zwischen Bedingungen. Der moderierte t-Test, implementiert im limma-Paket, leiht Informationen über Gene aus, um Varianzschätzungen zu stabilisieren. Die Mehrfachtestkorrektur mit der Benjamini-Hochberg-Methode kontrolliert die False Discovery Rate. Ergebnisse werden typischerweise als Fold-Changes mit adjustierten p-Werten berichtet. Gene mit Fold-Changes über einem Schwellenwert und adjustierten p-Werten unter 0,05 gelten als differentiell exprimiert.

Clustering und Klassifikation

Unüberwachtes Clustering gruppiert Gene oder Proben basierend auf Expressionsähnlichkeit ohne Vorwissen. Hierarchisches Clustering erzeugt Dendrogramme, in denen Gene mit ähnlichen Expressionsprofilen zusammengefasst werden. K-Means-Clustering partitioniert Gene in eine bestimmte Anzahl von Clustern. Diese Ansätze können co-regulierte Gen-Gruppen und neuartige Proben-Subtypen aufdecken.

Überwachte Klassifikation verwendet bekannte Proben-Labels, um Prädiktoren zu erstellen, die unbekannte Proben klassifizieren können. Support Vector Machines, Random Forests und Nächste-Nachbarn-Klassifikatoren werden angewendet. Genexpressionssignaturen können Krebs-Subtypen klassifizieren, die Prognose vorhersagen und die Behandlungsauswahl leiten. Die PAM50-Signatur klassifiziert Brustkrebs in molekulare Subtypen mit unterschiedlichen Prognosen.

Anwendungen

Microarrays wurden in praktisch jedem Bereich der Biologie angewendet. Die Krebsforschung verwendet Microarrays zur Klassifizierung von Tumoren, Identifizierung prognostischer Signaturen und Entdeckung von Wirkstoffzielen. Die MammaPrint- und Oncotype-DX-Brustkrebstests verwenden Genexpressionssignaturen zur Vorhersage des Rückfallrisikos. Die Entwicklungsbiologie untersucht Transkriptionsprogramme, die die Differenzierung steuern. Die Toxikologie verwendet Microarrays für toxikogenomische Profile. Microarrays detektieren auch Kopienzahlvariationen, wenn sie für die vergleichende genomische Hybridisierung verwendet werden.

Einschränkungen und Übergang zur RNA-Seq

Microarrays haben Einschränkungen, darunter die Abhängigkeit von vordefinierten Sondensequenzen, einen begrenzten dynamischen Bereich und die Unfähigkeit, neue Transkripte oder Spleißvarianten zu detektieren. Die RNA-Sequenzierung, eine Schlüsselanwendung der Next-Generation-Sequenzierung, hat Microarrays für die Genexpressionsanalyse weitgehend ersetzt. RNA-Seq liefert digitale Zähldaten mit höherer Empfindlichkeit und dynamischem Bereich, detektiert neue Transkripte und Isoformen und erfordert keine vordefinierten Sonden. Microarrays bleiben jedoch für gut charakterisierte Organismen und klinische Anwendungen nützlich, bei denen standardisierte Plattformen von Vorteil sind.