Busca em Bancos de Dados de Sequências com BLAST

Visão Geral

BLAST (Basic Local Alignment Search Tool) é o algoritmo mais amplamente usado para comparar uma sequência de consulta contra um banco de dados de sequências conhecidas. Ele rapidamente identifica alinhamentos locais estatisticamente significativos, fornecendo anotação funcional para novos genes, detectando homologia entre espécies distantes e revelando relações evolutivas. BLAST sacrifica a otimalidade garantida da programação dinâmica completa por uma heurística rápida o suficiente para pesquisar bancos de dados contendo bilhões de resíduos. A significância estatística de cada correspondência é relatada como um valor E — o número esperado de alinhamentos ao acaso com uma dada pontuação em um banco de dados daquele tamanho.

Conceitos-Chave

BLAST funciona primeiro quebrando a consulta em palavras curtas (tipicamente 3 para proteínas, 11 para nucleotídeos), escaneando o banco de dados em busca de correspondências exatas a estas palavras e então estendendo correspondências promissoras em ambas as direções para construir alinhamentos mais longos. Variantes abordam casos de uso específicos: BLASTP compara consultas de proteínas contra bancos de dados de proteínas, BLASTN compara consultas de nucleotídeos contra bancos de dados de nucleotídeos, BLASTX traduz uma consulta de nucleotídeos em todas as seis fases de leitura para comparação em nível de proteína, e PSI-BLAST constrói iterativamente uma matriz de pontuação específica de posição para detectar homólogos distantes. MegaBLAST é otimizado para sequências altamente similares, enquanto MegaBLAST descontíguo lida com comparações entre espécies.

Aplicações

BLAST é o primeiro passo na anotação de desconhecidos a partir de projetos de sequenciamento de DNA. Atribui função putativa a novas proteínas ao detectar homologia com estruturas de proteínas caracterizadas. Em genética bacteriana, BLAST identifica fatores de virulência e genes de resistência a antibióticos. A tecnologia do DNA recombinante usa BLAST para verificar a integridade de construções alinhando leituras de sequenciamento contra sequências vetoriais esperadas.