Processamento de Linguagem Natural em Bioinformática

Visão Geral

O processamento de linguagem natural (PLN) desenvolve métodos computacionais para compreender, interpretar e gerar linguagem humana. Em bioinformática, o PLN lida com a quantidade avassaladora de literatura biomédica, onde mais de um milhão de novos artigos são publicados anualmente. Além da mineração de texto, as técnicas de PLN agora são aplicadas diretamente a sequências biológicas tratando DNA, RNA e proteínas como uma linguagem com sua própria sintaxe e semântica, permitindo modelos de linguagem biológica que aprendem propriedades funcionais diretamente de dados de sequência não rotulados.

Métodos

Mineração de literatura emprega reconhecimento de entidades nomeadas (NER) para extrair genes, doenças, fármacos e suas relações de resumos e artigos completos. Modelos de incorporação como word2vec, GloVe e BioBERT convertem palavras e frases em vetores densos que capturam similaridade semântica. Grandes modelos de linguagem (LLM) como GPT e BioMedLM geram texto semelhante ao humano e respondem perguntas sobre conhecimento biológico. Modelos de linguagem biológica como DNABERT e SpliceBERT tratam sequências de DNA como linguagem, aprendendo representações contextuais de fragmentos de DNA através de mascaramento e predição de tokens, de forma análoga ao BERT para linguagem natural. As aplicações incluem classificação de documentos para revisão sistemática de literatura, extração de relações de interações proteína-proteína a partir de texto e resposta a perguntas para apoiar o diagnóstico clínico.

Protocolo Prático

Um fluxo de trabalho de mineração de literatura começa com uma coleção de 10.000 resumos do PubMed recuperados usando a consulta da API Entrez com termos específicos como “expressão gênica do câncer de mama”. O corpus é pré-processado por tokenização, remoção de stopwords e stemming. Um modelo NER pré-treinado, tipicamente BioBERT ajustado no conjunto de dados BioCreative, é aplicado para identificar entidades: genes, doenças e fármacos. Para extração de relações, uma abordagem baseada em dependências é usada: sentenças contendo duas entidades de interesse são analisadas em busca de árvores de dependência, e caminhos entre entidades que incluem verbos como “ativa”, “inibe” ou “regula” são classificados como relações funcionais usando um classificador SVM treinado no corpus BioCreative. O processo atinge uma taxa de precisão de 85% para interações conhecidas. As relações extraídas alimentam uma base de conhecimento que é atualizada trimestralmente. Por exemplo, este método descobriu 2.000 novas associações gene-doença não capturadas em bancos de dados curados como DisGeNet, das quais 150 foram posteriormente validadas por estudos independentes. O uso da incorporação de palavras do contexto circundante melhorou o desempenho em 12% em comparação com o NER padrão. Em uma aplicação de anotação genômica, o DNABERT pré-treinado no genoma humano foi ajustado para predição de sítios de splicing, alcançando 96% de precisão na identificação de limites éxon-íntron em todo o genoma.

Aplicações

O PLN acelera a revisão sistemática através da classificação de artigos de biologia molecular, extrai relações proteína-fármaco da literatura biomédica e potencializa chatbots para interpretação de dados biológicos. Modelos de linguagem biológica preveem elementos funcionais do genoma e anotam sequências de proteínas sem necessidade de alinhamento.