Visão Geral
A descoberta de motivos é a identificação computacional de padrões de sequência curtos e recorrentes em sequências de DNA, RNA ou proteínas que correspondem a elementos funcionais, como sítios de ligação de fatores de transcrição, junções de splicing, sítios de reconhecimento de proteínas de ligação a RNA ou domínios de interação proteica. Diferentemente do alinhamento global, a descoberta de motivos foca em pequenas janelas — tipicamente 6–20 nucleotídeos ou 3–15 aminoácidos — onde a conservação posicional é alta mesmo quando a sequência circundante diverge. Estes motivos são frequentemente representados como matrizes de peso posicional (PWMs) que capturam a frequência de cada nucleotídeo ou aminoácido em cada posição.
Métodos
Uma variedade de algoritmos aborda a descoberta de motivos. Métodos baseados em consenso enumeram todas as palavras possíveis e relatam aquelas que ocorrem com mais frequência que o esperado ao acaso. Abordagens probabilísticas como MEME usam maximização de expectativa para ajustar um modelo de mistura que separa sequências contendo motivos do fundo. Métodos de amostragem de Gibbs, implementados em ferramentas como BioProspector, buscam estocasticamente o espaço de sequências para encontrar padrões super-representados. O footprinting filogenético explora a conservação entre espécies relacionadas para identificar elementos reguladores sob seleção purificadora. A imunoprecipitação da cromatina seguida de sequenciamento (ChIP-seq) fornece regiões de pico derivadas experimentalmente que orientam a descoberta de motivos para loci genômicos relevantes.
Aplicações
A descoberta de motivos é central para a compreensão da regulação gênica e epigenética. Identifica os sítios de ligação para fatores de transcrição que controlam a transcrição e processamento de RNA. Em biologia sintética, motivos descobertos são usados para projetar promotores sintéticos com forças de expressão previsíveis. A análise da estrutura e topologia do DNA revela que certos motivos formam preferencialmente estruturas secundárias como G-quadruplexes que regulam a transcrição e replicação.