Skip to content

Article image
Modèles de Markov cachés dans l'analyse de séquences

Présentation

Un modèle de Markov caché (HMM) est un modèle statistique qui représente une séquence d’événements observables comme étant générée par une séquence sous-jacente d’états cachés non observés. En bioinformatique, les HMM modélisent des séquences biologiques où les états cachés peuvent représenter les limites exon/intron, les éléments de structure secondaire des protéines ou les colonnes conservées dans un alignement de séquences multiples. La puissance du cadre HMM réside dans sa capacité à capturer les motifs de conservation position-spécifiques, les insertions et les délétions à travers une architecture probabiliste unifiée entraînée à partir d’exemples connus.

Concepts clés

Un HMM est défini par trois ensembles de paramètres : les probabilités de transition entre les états cachés, les probabilités d’émission d’observer un symbole depuis chaque état, et les probabilités initiales des états. L’algorithme de Viterbi trouve la séquence d’états cachés la plus probable pour une observation donnée — par exemple, la structure génique la plus vraisemblable pour une séquence d’ADN génomique. L’algorithme forward-backward calcule la probabilité a posteriori de chaque état à chaque position, qui peut être utilisée pour évaluer la confiance de la prédiction. Les HMM de profil, construits à partir d’alignements de séquences multiples, modélisent les familles de domaines protéiques. Le logiciel HMMER utilise les HMM de profil pour la détection sensible d’homologie distante, surpassant BLAST pour les séquences divergentes.

Applications

Les HMM sont utilisés pour la prédiction de gènes dans les génomes procaryotes et eucaryotes, en identifiant les sites d’épissage et les régions codantes. Les HMM de profil classent les protéines en familles et superfamilles, aidant à la prédiction de structure des protéines et à l’annotation fonctionnelle. Ils modélisent la spécificité de substrat dans la classification et nomenclature des enzymes et détectent les éléments régulateurs dans la structure et topologie de l’ADN. En métagénomique, les HMM attribuent des rôles fonctionnels à des fragments d’origine inconnue.