Puces à ADN et analyse de l'expression génique

Les puces à ADN permettent la mesure simultanée des niveaux d’expression de milliers de gènes, fournissant une vue pangénomique de l’activité transcriptionnelle cellulaire. Elles ont révolutionné la génomique fonctionnelle en permettant aux chercheurs de comparer l’expression génique entre différentes conditions, tissus ou états pathologiques.

Principes des puces à ADN

Une puce à ADN consiste en des milliers de points microscopiques, chacun contenant des sondes d’une séquence d’ADN spécifique, fixés sur une surface solide telle qu’une lame de verre ou une puce de silicium. Chaque sonde est conçue pour s’hybrider à une séquence cible spécifique d’ARNm ou d’ADNc. La collection entière de sondes représente l’ensemble des gènes analysés.

L’expérience de base consiste à extraire l’ARN des échantillons d’intérêt, à le convertir en ADN complémentaire avec la transcriptase inverse, à marquer l’ADNc avec des colorants fluorescents et à hybrider l’ADNc marqué à la puce à ADN. Après lavage du matériel non spécifiquement lié, l’intensité de fluorescence à chaque point est mesurée, indiquant la quantité de chaque ARNm dans l’échantillon original.

Puce à deux couleurs

Dans les expériences de puces à deux couleurs, l’ARN de deux conditions est marqué avec différents colorants fluorescents, généralement le Cy3 et le Cy5. Les ADNc marqués sont mélangés et hybridés sur une seule puce. Le rapport de fluorescence Cy5/Cy3 à chaque point reflète le niveau d’expression relatif de chaque gène entre les deux conditions. Les designs à deux couleurs contrôlent la variation de point à point mais introduisent un biais de colorant qui nécessite des expériences d’inversion des colorants.

Puce à canal unique

Les puces à canal unique telles que les Affymetrix GeneChips utilisent un seul marqueur fluorescent. Chaque échantillon est hybridé sur une puce séparée. L’expression génique est mesurée comme intensité absolue, et les comparaisons sont effectuées entre les puces après normalisation. Les puces à canal unique ont un débit plus élevé pour les comparaisons multiples mais nécessitent des méthodes de normalisation robustes pour réduire la variation entre puces. Les puces Affymetrix utilisent plusieurs sondes par gène avec des sondes parfaitement appariées et des sondes mismatch pour distinguer l’hybridation spécifique du bruit de fond.

Normalisation des données

Les données de puces à ADN nécessitent un prétraitement approfondi. La correction du bruit de fond élimine le signal de l’hybridation non spécifique. La normalisation ajuste la variation technique entre les puces. La normalisation quantile rend la distribution des intensités des sondes identique entre les puces, en supposant que la plupart des gènes ne sont pas différentiellement exprimés. La méthode RMA combine la correction du bruit de fond, la normalisation et la synthèse de multiples sondes par gène.

Analyse de l’expression différentielle

Après normalisation, des tests statistiques identifient les gènes avec des changements d’expression significatifs entre les conditions. Le test t modéré, implémenté dans le package limma, emprunte des informations entre les gènes pour stabiliser les estimations de variance. La correction pour tests multiples utilisant la méthode de Benjamini-Hochberg contrôle le taux de fausses découvertes. Les résultats sont généralement rapportés comme changements d’expression avec des p-valeurs ajustées.

Regroupement et classification

Le regroupement non supervisé regroupe les gènes ou les échantillons en fonction de la similarité d’expression sans connaissance préalable. Le regroupement hiérarchique produit des dendrogrammes où les gènes avec des profils d’expression similaires sont regroupés. Le regroupement par k-moyennes partitionne les gènes en un nombre spécifié de groupes. Ces approches peuvent révéler des groupes de gènes co-régulés et de nouveaux sous-types d’échantillons.

La classification supervisée utilise des étiquettes d’échantillons connues pour construire des prédicteurs capables de classer des échantillons inconnus. Les machines à vecteurs de support, les forêts aléatoires et les classifieurs par plus proches voisins sont appliqués. Les signatures d’expression génique peuvent classer les sous-types de cancer, prédire le pronostic et guider la sélection du traitement. La signature PAM50 classe le cancer du sein en sous-types moléculaires avec des pronostics différents.

Applications

Les puces à ADN ont été appliquées à pratiquement tous les domaines de la biologie. La recherche sur le cancer utilise les puces pour classer les tumeurs, identifier les signatures pronostiques et découvrir des cibles médicamenteuses. Les tests MammaPrint et Oncotype DX pour le cancer du sein utilisent des signatures d’expression génique pour prédire le risque de récidive. La biologie du développement étudie les programmes transcriptionnels pilotant la différenciation. La toxicologie utilise les puces pour le profilage toxicogénomique. Les puces détectent également les variations du nombre de copies lorsqu’elles sont utilisées pour l’hybridation génomique comparative.

Limites et transition vers le RNA-Seq

Les puces à ADN ont des limitations, notamment la dépendance à des séquences de sondes prédéfinies, une gamme dynamique limitée et l’incapacité de détecter de nouveaux transcrits ou variants d’épissage. Le séquençage d’ARN, une application clé du séquençage de nouvelle génération, a largement remplacé les puces à ADN pour l’analyse de l’expression génique. Le RNA-seq fournit des données de comptage numériques avec une sensibilité et une gamme dynamique plus élevées, détecte de nouveaux transcrits et isoformes, et ne nécessite pas de sondes prédéfinies. Cependant, les puces à ADN restent utiles pour les organismes bien caractérisés et les applications cliniques où des plateformes standardisées sont avantageuses.