Analyse des k-mers : composition et fréquence des séquences

Présentation

L’analyse des k-mers décompose les séquences biologiques en toutes les sous-chaînes possibles d’une longueur fixe k et compte leurs fréquences. Cette technique simple mais puissante capture les propriétés compositionnelles des génomes et transcriptomes sans nécessiter d’alignement, ce qui la rend computationnellement efficace et sans référence. Les distributions de fréquences des k-mers révèlent la taille du génome, l’hétérozygotie, le contenu en répétitions et les taux d’erreur de séquençage à partir de lectures brutes avant toute étape d’assemblage. Le choix de k implique un compromis : les petites valeurs de k (k < 20) fournissent des comptages robustes mais un pouvoir discriminant limité, tandis que les grandes valeurs de k (k > 50) offrent une spécificité élevée mais une couverture plus faible.

Concepts clés

Le spectre des k-mers — un histogramme des fréquences d’occurrence des k-mers — suit une distribution de type Poisson dans des données idéales. Les k-mers erronés provenant d’erreurs de séquençage apparaissent comme des singletons (fréquence 1), tandis que les k-mers génomiques authentiques forment un pic à la profondeur de couverture attendue. Les répétitions génomiques produisent des pics supplémentaires à des multiplicités plus élevées. Des outils tels que Jellyfish et KMC comptent efficacement les k-mers à l’aide de tables de hachage ou de tableaux de suffixes. Au-delà du comptage, les méthodes basées sur les k-mers incluent la distance des k-mers (la fraction de k-mers partagés entre deux échantillons) pour la phylogénie, la couverture des k-mers pour estimer la taille du génome, et les spectres de k-mers pour la correction d’erreurs en supprimant les k-mers en dessous d’un seuil de couverture.

Applications

L’analyse des k-mers fait partie intégrante du contrôle qualité du séquençage de nouvelle génération, détectant la contamination et estimant la couverture avant l’assemblage. En génétique bactérienne, les méthodes basées sur les k-mers distinguent les souches par leurs signatures compositionnelles uniques. Le regroupement métagénomique utilise des vecteurs de fréquence de k-mers pour regrouper les contigs du même organisme. Les projets de séquençage de l’ADN utilisent le comptage des k-mers pour corriger les erreurs de séquençage en remplaçant les bases erronées qui créent des k-mers de faible fréquence.