Visão Geral
O alinhamento de sequências é a operação fundamental da bioinformática, colocando duas ou mais sequências biológicas lado a lado para identificar regiões de similaridade que podem refletir relações funcionais, estruturais ou evolutivas. O alinhamento pareado compara exatamente duas sequências e forma a base para busca em bancos de dados, desenho de primers e inferência filogenética. O problema do alinhamento é resolvido por algoritmos de programação dinâmica — Needleman-Wunsch para alinhamento global e Smith-Waterman para alinhamento local — que encontram o caminho de pontuação ideal através de uma matriz de correspondências, incompatibilidades e penalidades de gap.
Conceitos-Chave
Os alinhamentos são classificados como globais ou locais. O alinhamento global força o alinhamento em todo o comprimento de ambas as sequências e é mais apropriado para sequências intimamente relacionadas de comprimento similar. O alinhamento local identifica regiões curtas e conservadas e é ideal para detectar domínios compartilhados entre sequências divergentes. Matrizes de substituição como BLOSUM62 e PAM250 fornecem escores log-odds para cada substituição possível de aminoácido, enquanto alinhamentos de DNA tipicamente usam escores simples de correspondência/incompatibilidade. Penalidades de gap — frequentemente uma combinação de penalidade de abertura e extensão de gap — desencoragam inserções ou deleções excessivas. Ferramentas heurísticas como BLAST trocam a otimalidade garantida por velocidade ao iniciar alinhamentos com correspondências exatas de palavras.
Aplicações
O alinhamento pareado é usado diariamente em biologia molecular. Ele sustenta o desenho de primers para reação em cadeia da polimerase verificando a complementaridade primer-molde, valida resultados de sequenciamento de DNA alinhando leituras a genomas de referência e identifica resíduos conservados na predição de estrutura de proteínas. A genômica comparativa depende de alinhamento para detectar transferência horizontal de genes em genética bacteriana, e o mapeamento de sítios de restrição usa alinhamento para prever padrões de digestão por enzimas de restrição.