Visão Geral
A análise de k-mer decompõe sequências biológicas em todas as substrings possíveis de um comprimento fixo k e conta suas frequências. Esta técnica simples, porém poderosa, captura as propriedades composicionais de genomas e transcriptomas sem exigir alinhamento, tornando-a computacionalmente eficiente e livre de referência. As distribuições de frequência de k-mer revelam tamanho do genoma, heterozigosidade, conteúdo repetitivo e taxas de erro de sequenciamento a partir de leituras brutas antes de qualquer etapa de montagem. A escolha de k envolve um compromisso: valores pequenos de k (k < 20) fornecem contagens robustas, mas poder discriminativo limitado, enquanto valores grandes de k (k > 50) oferecem alta especificidade, mas menor cobertura.
Conceitos-Chave
O espectro de k-mer — um histograma das frequências de ocorrência de k-mer — segue uma distribuição do tipo Poisson em dados ideais. K-mers errôneos de erros de sequenciamento aparecem como singletons (frequência 1), enquanto k-mers genômicos genuínos formam um pico na profundidade de cobertura esperada. Repetições genômicas produzem picos adicionais em multiplicidades mais altas. Ferramentas como Jellyfish e KMC contam k-mers eficientemente usando tabelas hash ou arrays de sufixos. Além da contagem, métodos baseados em k-mer incluem a distância de k-mer (a fração de k-mers compartilhados entre duas amostras) para filogenia, a cobertura de k-mer para estimar tamanho do genoma e os espectros de k-mer para correção de erros removendo k-mers abaixo de um limite de cobertura.
Aplicações
A análise de k-mer é parte integrante do controle de qualidade do sequenciamento de próxima geração, detectando contaminação e estimando cobertura antes da montagem. Em genética bacteriana, métodos baseados em k-mer distinguem cepas por suas assinaturas composicionais únicas. O agrupamento metagenômico usa vetores de frequência de k-mer para agrupar contigs do mesmo organismo. Projetos de sequenciamento de DNA usam contagem de k-mer para corrigir erros de sequenciamento substituindo bases errôneas que criam k-mers de baixa frequência.