Transformadores em Biologia

Visão Geral

Transformadores são arquiteturas de redes neurais que processam dados sequenciais usando mecanismos de autoatenção em vez de conectividade recorrente ou convolucional. Ao contrário de RNNs que processam tokens um por um, transformadores processam sequências inteiras em paralelo, com cada token atendendo a todos os outros tokens para aprender dependências contextuais. Esta arquitetura se mostrou revolucionária para dados biológicos: sequências de proteínas se alinham naturalmente com a autoatenção, e o AlphaFold demonstrou que transformadores podem prever estruturas de proteínas com precisão atômica a partir de sequências de aminoácidos. Modelos de linguagem biológica construídos sobre transformadores agora impulsionam a genômica e a descoberta de fármacos.

Métodos

A arquitetura Transformer consiste em codificadores empilhados com autoatenção multicabeça e redes feed-forward, usando codificação posicional para representar a ordem das sequências. BERT (Representações de Codificador Bidirecional de Transformadores) mascara tokens aleatoriamente e aprende a prevê-los a partir do contexto circundante. Modelos de linguagem autorregressivos como GPT geram tokens sequência por sequência condicionados a tokens anteriores. Em biologia, AlphaFold adaptou transformadores para prever distâncias entre pares de resíduos e ângulos de torção. DNABERT e SpliceBERT aplicam BERT ao DNA, aprendendo representações funcionais de fragmentos genômicos. ESM (Evolutionary Scale Modeling) treina transformadores em sequências de proteínas para prever estrutura e função. Avanços recentes incluem transformadores de grafos para química e modelos de difusão para geração de moléculas.

Protocolo Prático

Um fluxo de trabalho prático para análise genômica com transformadores começa com a preparação de dados genômicos. Para uma tarefa de predição de elementos reguladores, o pesquisador coleta sequências genômicas de 1.000 pares de bases (pb) ao redor de sítios de início de transcrição conhecidos do ENSEMBL. As sequências são tokenizadas em fragmentos de 6 pb (hexâmeros) com um vocabulário de 4.096 tokens possíveis. O DNABERT pré-treinado é carregado do Hugging Face e ajustado em 50.000 regiões promotoras anotadas, usando sobreposição de janelas deslizantes de 200 pb para aumentar os dados. O treinamento usa o otimizador AdamW com taxa de aprendizado de 2e-5 por 10 épocas com tamanho de lote de 16 em uma GPU com 24 GB de memória. O ajuste fino leva aproximadamente 4 horas. O modelo ajustado atinge 91% de acurácia na classificação de promotores versus regiões não promotoras em um conjunto de teste retido. A visualização dos pesos de atenção revela que o modelo aprende motivos de ligação de fatores de transcrição conhecidos sem treinamento explícito neles. O modelo é aplicado a regiões não anotadas do genoma, prevendo 5.000 novos promotores putativos, dos quais 30% são validados experimentalmente por ChIP-seq. Um caso de uso marcante: o modelo ESM-2 com 15 bilhões de parâmetros previu a estrutura de uma proteína bacteriana não caracterizada, revelando um dobramento anteriormente desconhecido que foi posteriormente confirmado por cristalografia de raios-X, demonstrando que transformadores podem descobrir novos padrões de dobramento de proteínas apenas a partir de dados de sequência.

Aplicações

Transformadores preveem a estrutura de proteínas a partir de sequências de aminoácidos, anotam elementos funcionais em genomas a partir de dados de sequenciamento de DNA e modelam a expressão gênica a partir de dados de cromatina. Também projetam novas proteínas para aplicações biotecnológicas, geram moléculas com propriedades desejadas na descoberta de fármacos e classificam variantes patogênicas de benignas na genômica clínica.