Procesamiento del Lenguaje Natural en Bioinformática

Visión General

El procesamiento del lenguaje natural (PLN) desarrolla métodos computacionales para comprender, interpretar y generar lenguaje humano. En bioinformática, el PLN aborda la abrumadora cantidad de literatura biomédica, donde más de un millón de nuevos artículos se publican anualmente. Más allá de la minería de texto, las técnicas de PLN ahora se aplican directamente a secuencias biológicas tratando el ADN, el ARN y las proteínas como un lenguaje con su propia sintaxis y semántica, lo que permite modelos de lenguaje biológico que aprenden propiedades funcionales directamente de datos de secuencia no etiquetados.

Métodos

La minería de literatura emplea el reconocimiento de entidades nombradas (NER) para extraer genes, enfermedades, fármacos y sus relaciones de resúmenes y artículos de texto completo. Los modelos de incrustación como word2vec, GloVe y BioBERT convierten palabras y frases en vectores densos que capturan la similitud semántica. Los modelos de lenguaje grandes (LLM) como GPT y BioMedLM generan texto similar al humano y responden preguntas sobre conocimiento biológico. Los modelos de lenguaje biológico como DNABERT y SpliceBERT tratan las secuencias de ADN como lenguaje, aprendiendo representaciones contextuales de fragmentos de ADN mediante enmascaramiento y predicción de tokens, de forma análoga a BERT para el lenguaje natural. Las aplicaciones incluyen la clasificación de documentos para la revisión sistemática de literatura, la extracción de relaciones de interacciones proteína-proteína a partir de texto y la respuesta a preguntas para apoyar el diagnóstico clínico.

Protocolo Práctico

Un flujo de trabajo de minería de literatura comienza con una colección de 10,000 resúmenes de PubMed recuperados usando la consulta de la API de Entrez con términos específicos como “expresión génica del cáncer de mama”. El corpus se preprocesa mediante tokenización, eliminación de stopwords y stemming. Se aplica un modelo NER preentrenado, típicamente BioBERT ajustado en el conjunto de datos BioCreative, para identificar entidades: genes, enfermedades y fármacos. Para la extracción de relaciones, se utiliza un enfoque basado en dependencias: las oraciones que contienen dos entidades de interés se analizan en busca de árboles de dependencia, y los caminos entre entidades que incluyen verbos como “activa”, “inhibe” o “regula” se clasifican como relaciones funcionales utilizando un clasificador SVM entrenado en el corpus BioCreative. El proceso logra una tasa de precisión del 85% para interacciones conocidas. Las relaciones extraídas alimentan una base de conocimiento que se actualiza trimestralmente. Por ejemplo, este método descubrió 2,000 nuevas asociaciones gen-enfermedad no capturadas en bases de datos curadas como DisGeNet, de las cuales 150 fueron posteriormente validadas por estudios independientes. El uso del incrustado de palabras del contexto circundante mejoró el rendimiento en un 12% en comparación con la NER estándar. En una aplicación de anotación genómica, DNABERT preentrenado en el genoma humano se ajustó para la predicción de sitios de empalme, logrando una precisión del 96% en la identificación de límites exón-intrón en todo el genoma.

Aplicaciones

El PLN acelera la revisión sistemática mediante la clasificación de artículos de biología molecular, extrae las relaciones de proteínas con fármacos de la literatura biomédica, y potencia los chatbots para la interpretación de datos biológicos. Los modelos de lenguaje biológico predicen elementos funcionales del genoma y anotan secuencias de proteínas sin necesidad de alineamiento.