Présentation
La découverte de motifs est l’identification computationnelle de motifs de séquence courts et récurrents dans les séquences d’ADN, d’ARN ou de protéines qui correspondent à des éléments fonctionnels tels que les sites de liaison des facteurs de transcription, les jonctions d’épissage, les sites de reconnaissance des protéines de liaison à l’ARN ou les domaines d’interaction protéique. Contrairement à l’alignement global, la découverte de motifs se concentre sur de petites fenêtres — généralement 6 à 20 nucléotides ou 3 à 15 acides aminés — où la conservation positionnelle est élevée même lorsque la séquence environnante diverge. Ces motifs sont souvent représentés sous forme de matrices de poids positionnelles (PWM) qui capturent la fréquence de chaque nucléotide ou acide aminé à chaque position.
Méthodes
Une gamme d’algorithmes aborde la découverte de motifs. Les méthodes basées sur le consensus énumèrent tous les mots possibles et rapportent ceux qui apparaissent plus souvent que prévu par hasard. Les approches probabilistes comme MEME utilisent l’espérance-maximisation pour ajuster un modèle de mélange qui sépare les séquences contenant des motifs des séquences de fond. Les méthodes d’échantillonnage de Gibbs, implémentées dans des outils comme BioProspector, recherchent stochastiquement l’espace des séquences pour trouver des motifs surreprésentés. L’empreinte phylogénétique exploite la conservation entre espèces apparentées pour identifier les éléments régulateurs sous sélection purificatrice. L’immunoprécipitation de la chromatine suivie de séquençage (ChIP-seq) fournit des régions de pics dérivées expérimentalement qui guident la découverte de motifs vers des locus génomiques pertinents.
Applications
La découverte de motifs est centrale pour comprendre la régulation génique et l’épigénétique. Elle identifie les sites de liaison des facteurs de transcription qui contrôlent la transcription et la maturation de l’ARN. En biologie synthétique, les motifs découverts sont utilisés pour concevoir des promoteurs synthétiques avec des forces d’expression prévisibles. L’analyse de la structure et topologie de l’ADN révèle que certains motifs forment préférentiellement des structures secondaires comme les G-quadruplexes qui régulent la transcription et la réplication.