Traitement du Langage Naturel en Bioinformatique

Aperçu Général

Le traitement du langage naturel (TLN) développe des méthodes computationnelles pour comprendre, interpréter et générer le langage humain. En bioinformatique, le TLN fait face à la masse écrasante de la littérature biomédicale, où plus d’un million de nouveaux articles sont publiés chaque année. Au-delà de la fouille de texte, les techniques de TLN sont désormais appliquées directement aux séquences biologiques en traitant l’ADN, l’ARN et les protéines comme un langage avec leur propre syntaxe et sémantique, permettant des modèles de langage biologique qui apprennent des propriétés fonctionnelles directement à partir de données de séquences non étiquetées.

Méthodes

La fouille de littérature utilise la reconnaissance d’entités nommées (NER) pour extraire les gènes, maladies, médicaments et leurs relations à partir de résumés et d’articles en texte intégral. Les modèles de plongement comme word2vec, GloVe et BioBERT convertissent les mots et phrases en vecteurs denses qui capturent la similarité sémantique. Les grands modèles de langage (LLM) comme GPT et BioMedLM génèrent du texte semblable à celui d’un humain et répondent à des questions sur les connaissances biologiques. Les modèles de langage biologique comme DNABERT et SpliceBERT traitent les séquences d’ADN comme un langage, apprenant des représentations contextuelles de fragments d’ADN par masquage et prédiction de jetons, de manière analogue à BERT pour le langage naturel. Les applications incluent la classification de documents pour la revue systématique de la littérature, l’extraction de relations à partir de texte pour les interactions protéine-protéine et le question-réponse pour soutenir le diagnostic clinique.

Protocole Pratique

Un flux de travail de fouille de littérature commence par une collection de 10 000 résumés PubMed récupérés en utilisant la requête API Entrez avec des termes spécifiques comme “expression génique du cancer du sein”. Le corpus est prétraité par tokenisation, suppression des mots vides et racinisation. Un modèle NER pré-entraîné, typiquement BioBERT affiné sur l’ensemble de données BioCreative, est appliqué pour identifier les entités : gènes, maladies et médicaments. Pour l’extraction de relations, une approche basée sur les dépendances est utilisée : les phrases contenant deux entités d’intérêt sont analysées pour leurs arbres de dépendance, et les chemins entre entités incluant des verbes comme “active”, “inhibe” ou “régule” sont classifiés comme relations fonctionnelles en utilisant un classifieur SVM entraîné sur le corpus BioCreative. Le processus atteint un taux de précision de 85 % pour les interactions connues. Les relations extraites alimentent une base de connaissances qui est mise à jour trimestriellement. Par exemple, cette méthode a découvert 2 000 nouvelles associations gène-maladie non capturées dans des bases de données curées comme DisGeNet, dont 150 ont ensuite été validées par des études indépendantes. L’utilisation du plongement de mots du contexte environnant a amélioré les performances de 12 % par rapport à la NER standard. Dans une application d’annotation génomique, DNABERT pré-entraîné sur le génome humain a été affiné pour la prédiction de sites d’épissage, atteignant 96 % de précision dans l’identification des limites exon-intron à l’échelle du génome.

Applications

Le TLN accélère la revue systématique en classifiant les articles de biologie moléculaire, extrait les relations protéine-médicament de la littérature biomédicale, et alimente les chatbots pour l’interprétation de données biologiques. Les modèles de langage biologique prédisent des éléments fonctionnels à partir du génome et annotent les séquences protéiques sans nécessiter d’alignement.