Transformadores en Biología

Visión General

Los transformadores son arquitecturas de redes neuronales que procesan datos secuenciales utilizando mecanismos de autoatención en lugar de conectividad recurrente o convolucional. A diferencia de las RNN que procesan tokens uno por uno, los transformadores procesan secuencias completas en paralelo, con cada token atendiendo a todos los demás tokens para aprender dependencias contextuales. Esta arquitectura ha demostrado ser revolucionaria para datos biológicos: las secuencias de proteínas se alinean naturalmente con la autoatención, y AlphaFold demostró que los transformadores pueden predecir estructuras de proteínas con precisión atómica a partir de secuencias de aminoácidos. Los modelos de lenguaje biológico construidos sobre transformadores ahora impulsan el descubrimiento genómico y de fármacos.

Métodos

La arquitectura Transformer consta de codificadores apilados con autoatención multicabezal y redes feed-forward, utilizando codificación posicional para representar el orden de las secuencias. BERT (Representaciones de Codificador Bidireccional de Transformadores) enmascara tokens al azar y aprende a predecirlos a partir del contexto circundante. Los modelos de lenguaje autorregresivos como GPT generan tokens secuencia por secuencia condicionados a tokens anteriores. En biología, AlphaFold adaptó los transformadores para predecir distancias entre pares de residuos y torsionar ángulos. DNABERT y SpliceBERT aplican BERT al ADN, aprendiendo representaciones funcionales de fragmentos genómicos. ESM (Evolutionary Scale Modeling) entrena transformadores en secuencias de proteínas para predecir estructura y función. Los avances recientes incluyen transformadores de gráficos para química y modelos de difusión para generación de moléculas.

Protocolo Práctico

Un flujo de trabajo práctico para el análisis genómico con transformadores comienza con la preparación de datos genómicos. Para una tarea de predicción de elementos reguladores, el investigador recopila secuencias genómicas de 1,000 pares de bases (pb) alrededor de sitios de inicio de transcripción conocidos de ENSEMBL. Las secuencias se tokenizan en fragmentos de 6 pb (hexámeros) con un vocabulario de 4,096 tokens posibles. Se carga DNABERT preentrenado desde Hugging Face y se ajusta en 50,000 regiones promotoras anotadas, usando superposición de ventanas deslizantes de 200 pb para aumentar los datos. El entrenamiento utiliza el optimizador AdamW con una tasa de aprendizaje de 2e-5 durante 10 épocas con un tamaño de lote de 16 en una GPU con 24 GB de memoria. El ajuste fino toma aproximadamente 4 horas. El modelo ajustado alcanza una precisión del 91% en la clasificación de promotores versus regiones no promotoras en un conjunto de prueba retenido. La visualización de los pesos de atención revela que el modelo aprende motivos de unión de factores de transcripción conocidos sin entrenamiento explícito en ellos. El modelo se aplica a regiones no anotadas del genoma, prediciendo 5,000 nuevos promotores putativos, de los cuales una muestra del 30% se valida experimentalmente mediante ChIP-seq. Un caso de uso destacado: el modelo ESM-2 con 15 mil millones de parámetros predijo la estructura de una proteína bacteriana no caracterizada, revelando un pliegue previamente desconocido que luego se confirmó mediante cristalografía de rayos X, demostrando que los transformadores pueden descubrir nuevos patrones de plegamiento de proteínas a partir de datos de secuencia solamente.

Aplicaciones

Los transformadores predicen la estructura de proteínas a partir de secuencias de aminoácidos, anotan elementos funcionales en genomas a partir de datos de secuenciación de ADN y modelan la expresión génica a partir de datos de cromatina. También diseñan nuevas proteínas para aplicaciones biotecnológicas, generan moléculas con propiedades deseadas en el descubrimiento de fármacos y clasifican variantes patogénicas de benignas en la genómica clínica.