Visão Geral
A chamada de variantes é o processo computacional de identificar diferenças entre o genoma de um indivíduo e um genoma de referência. Essas diferenças variam de polimorfismos de nucleotídeo único (SNPs) e pequenas inserções ou deleções (indels) a grandes variantes estruturais, como alterações no número de cópias e rearranjos cromossômicos. A detecção precisa de variantes é a pedra angular da genética humana, medicina de precisão e biologia evolutiva. O processo requer modelagem estatística cuidadosa para distinguir variação biológica genuína de erros de sequenciamento e artefatos de alinhamento.
Conceitos-Chave
A maioria dos callers de variantes segue um fluxo de trabalho comum: as leituras de sequenciamento são primeiro alinhadas a um genoma de referência usando ferramentas como BWA ou Bowtie2, então os dados alinhados são processados para identificar posições onde a sequência do indivíduo difere da referência. O pipeline de melhores práticas do genome analysis toolkit (GATK) é amplamente adotado, usando uma abordagem bayesiana para calcular verossimilhanças de genótipo. Considerações-chave incluem profundidade de cobertura (maior profundidade melhora a confiança), escores de qualidade de base e qualidade de mapeamento. A filtragem de variantes usando limites fixos ou aprendizado de máquina (por exemplo, VQSR) remove falsos positivos. A detecção de variantes estruturais requer ferramentas especializadas como DELLY ou Manta que analisam pares de leitura discordantes e leituras divididas.
Aplicações
A chamada de variantes impulsiona a genômica clínica e de pesquisa. Ela identifica mutações subjacentes a distúrbios genéticos raros e informa a genômica do câncer ao revelar mutações somáticas em comparações tumor-normal. Projetos em escala populacional, como o Projeto 1000 Genomas, catalogaram milhões de variantes para mapear a diversidade humana. Em doenças infecciosas, a chamada de variantes rastreia a evolução de patógenos e a resistência a medicamentos. A precisão das chamadas de variantes depende fundamentalmente da qualidade dos dados de sequenciamento de próxima geração e da plataforma de sequenciamento de DNA utilizada.