生物信息学中的自然语言处理

概述

自然语言处理 (NLP) 开发用于理解、解释和生成人类语言的计算机辅助方法。在生物信息学领域，NLP 处理大量的生物医学文献，每年发表超过一百万篇新文章。除了文本挖掘之外，NLP 技术现在还直接应用于生物序列，将 DNA、RNA 和蛋白质视为具有自己的语法和语义的语言，从而使生物语言模型能够直接从未标记的序列数据中学习功能属性。

方法

文献挖掘使用命名实体识别 (NER) 从摘要和全文文章中提取基因、疾病、药物及其关系。 嵌入模型（例如 word2vec、GloVe 和 BioBERT）将单词和短语转换为捕获语义相似性的密集向量。 大型语言模型 (LLM)，例如 GPT 和 BioMedLM，可生成类似人类的文本并回答有关生物知识的问题。 DNABERT 和 SpliceBERT 等 生物语言模型 将 DNA 序列视为一种语言，并通过掩蔽和标记预测来学习 DNA 片段的上下文表示，类似于自然语言的 BERT。应用包括系统文献综述的文档分类、从文本中提取蛋白质-蛋白质相互作用关系以及回答问题以支持临床诊断。

实用协议

文献挖掘工作流程首先收集通过 Entrez API 查询检索的 10,000 份 PubMed 摘要，其中包含“乳腺癌基因表达”等特定术语。通过标记化、停用词删除和词干提取对语料库进行预处理。预训练的 NER 模型（通常是在 BioCreative 数据集上微调的 BioBERT）用于识别实体：基因、疾病和药物。基于依赖关系的方法用于关系提取：对包含两个感兴趣实体的句子进行依赖树分析，并使用在 BioCreative 语料库上训练的 SVM 分类器将包含“激活”、“抑制”或“调节”等动词的实体之间的路径分类为功能关系。该过程对于已知的相互作用达到了 85% 的准确率。提取的关系流入知识数据库，该数据库每季度更新一次。例如，该方法发现了 2,000 个新的基因与疾病关联，这些关联并未在 DisGeNet 等精选数据库中捕获，其中 150 个后来由独立研究验证。与标准 NER 相比，使用周围上下文中的词嵌入可将性能提高 12%。在基因组注释应用中，DNABERT 在人类基因组上进行了预训练，并针对剪接位点预测进行了微调，在识别整个基因组的外显子-内含子边界方面实现了 96% 的准确度。

应用程序

NLP 通过对分子生物学文章进行分类、从生物医学文献中提取蛋白质与药物的关系以及运行聊天机器人来解释生物数据来加速系统文献研究。生物语言模型预测基因组中的功能元素并注释[蛋白质序列](/guides/ Protein-sequence.html)而无需对齐。