Natürliche Sprachverarbeitung in der Bioinformatik

Überblick

Die natürliche Sprachverarbeitung (NLP) entwickelt computergestützte Methoden zum Verstehen, Interpretieren und Generieren menschlicher Sprache. In der Bioinformatik bewältigt die NLP die überwältigende Menge biomedizinischer Literatur, in der jährlich über eine Million neuer Artikel veröffentlicht werden. Über das Text-Mining hinaus werden NLP-Techniken jetzt direkt auf biologische Sequenzen angewendet, indem DNA, RNA und Proteine als Sprache mit eigener Syntax und Semantik behandelt werden, was biologische Sprachmodelle ermöglicht, die funktionale Eigenschaften direkt aus nicht gekennzeichneten Sequenzdaten lernen.

Methoden

Literatur-Mining verwendet die Erkennung benannter Entitäten (NER), um Gene, Krankheiten, Medikamente und ihre Beziehungen aus Zusammenfassungen und Volltextartikeln zu extrahieren. Einbettungsmodelle wie word2vec, GloVe und BioBERT wandeln Wörter und Phrasen in dichte Vektoren um, die semantische Ähnlichkeit erfassen. Große Sprachmodelle (LLM) wie GPT und BioMedLM erzeugen menschenähnlichen Text und beantworten Fragen zu biologischem Wissen. Biologische Sprachmodelle wie DNABERT und SpliceBERT behandeln DNA-Sequenzen als Sprache und lernen kontextuelle Repräsentationen von DNA-Fragmenten durch Maskierung und Token-Vorhersage, analog zu BERT für natürliche Sprache. Zu den Anwendungen gehören die Dokumentenklassifizierung für systematische Literaturrecherchen, die Extraktion von Protein-Protein-Interaktionsbeziehungen aus Text und die Beantwortung von Fragen zur Unterstützung der klinischen Diagnose.

Praktisches Protokoll

Ein Literatur-Mining-Workflow beginnt mit einer Sammlung von 10.000 PubMed-Abstracts, die über die Entrez-API-Abfrage mit spezifischen Begriffen wie “Brustkrebs-Genexpression” abgerufen wurden. Das Korpus wird durch Tokenisierung, Stoppwortentfernung und Stemming vorverarbeitet. Ein vortrainiertes NER-Modell, typischerweise auf dem BioCreative-Datensatz feinabgestimmtes BioBERT, wird angewendet, um Entitäten zu identifizieren: Gene, Krankheiten und Medikamente. Für die Relationsextraktion wird ein dependenzbasierter Ansatz verwendet: Sätze, die zwei interessierende Entitäten enthalten, werden auf Dependenzbäume analysiert, und Pfade zwischen Entitäten, die Verben wie “aktiviert”, “hemmt” oder “reguliert” enthalten, werden mit einem auf dem BioCreative-Korpus trainierten SVM-Klassifikator als funktionale Beziehungen klassifiziert. Der Prozess erreicht eine Präzisionsrate von 85 % für bekannte Interaktionen. Die extrahierten Beziehungen fließen in eine Wissensdatenbank ein, die vierteljährlich aktualisiert wird. Beispielsweise entdeckte diese Methode 2.000 neue Gen-Krankheits-Assoziationen, die nicht in kuratierten Datenbanken wie DisGeNet erfasst waren, von denen 150 später durch unabhängige Studien validiert wurden. Die Verwendung von Worteinbettungen aus dem umgebenden Kontext verbesserte die Leistung um 12 % im Vergleich zu standardmäßiger NER. In einer Genomannotationsanwendung wurde auf dem menschlichen Genom vortrainiertes DNABERT für die Spleißstellenvorhersage feinabgestimmt und erreichte eine Genauigkeit von 96 % bei der Identifizierung von Exon-Intron-Grenzen im gesamten Genom.

Anwendungen

NLP beschleunigt die systematische Literaturrecherche durch Klassifizierung von Artikeln der Molekularbiologie, extrahiert Protein-Wirkstoff-Beziehungen aus der biomedizinischen Literatur und betreibt Chatbots für die Interpretation biologischer Daten. Biologische Sprachmodelle sagen funktionale Elemente aus dem Genom voraus und annotieren Proteinsequenzen ohne Alignierung.