生物学中的变形金刚

概述

Transformer 是神经网络架构，它使用自注意力机制而不是循环或卷积连接来处理顺序数据。与每次处理一个标记的 RNN 不同，Transformer 并行处理整个序列，每个标记都会关注所有其他标记以学习上下文依赖性。事实证明，这种架构对于生物数据来说是革命性的：蛋白质序列自然地适合自注意力，并且 AlphaFold 已经表明 Transformer 可以根据氨基酸序列以原子精度预测蛋白质结构。基于 Transformer 的生物语言模型现在正在推动基因组学和药物发现。

方法

Transformer 架构 由具有多头自注意力的堆叠编码器和使用位置编码来表示序列顺序的前馈网络组成。 BERT（变形金刚的双向编码器表示）随机屏蔽标记并学习从周围上下文中预测它们。 自回归语言模型（例如 GPT）会以先前的标记为条件，按顺序生成标记。在生物学中，AlphaFold 采用了变压器来预测残基对距离和二面角。 DNABERT 和 SpliceBERT 将 BERT 应用于 DNA 并学习基因组片段的功能表示。 ESM（进化规模模型） 在蛋白质序列上训练 Transformer 以预测结构和功能。最近的进展包括用于化学的图形转换器和用于分子创建的扩散模型。

实用协议

使用 Transformer 进行基因组分析的实用工作流程从准备基因组数据开始。对于调控元件预测任务，研究人员从 ENSEMBL 中收集了已知转录起始位点周围的 1,000 个碱基对 (bp) 基因组序列。这些序列被标记为 6 bp 片段（六聚体），词汇表包含 4,096 个可能的标记。预训练的 DNABERT 由 Hugging Face 加载，并使用 200 bp 滑动窗口重叠对 50,000 个带注释的启动子区域进行微调以进行数据增强。训练使用 AdamW 优化器，在具有 24 GB 内存的 GPU 上，在 10 个时期内学习率为 2e-5，批处理大小为 16。微调大约需要4个小时。经过微调的模型在保留测试集上对启动子区域和非启动子区域进行分类的准确率达到 91%。注意力权重的可视化表明，该模型可以学习已知的转录因子结合基序，而无需对其进行明确的训练。该模型应用于基因组的未注释区域，并预测 5,000 个新的推定启动子，其中 30% 通过 ChIP-seq 进行了实验验证。一个突出的应用示例：150 亿参数的 ESM-2 模型预测了一种未表征的细菌蛋白质的结构，并揭示了以前未知的折叠，后来通过 X 射线晶体学证实了这一折叠，证明 Transformer 可以仅从序列数据中发现新的蛋白质折叠模式。

应用程序

Transformer 根据氨基酸序列预测[蛋白质结构](/guides/ Protein-struct.html)，根据DNA 测序数据注释基因组中的功能元件，并根据染色质数据建立基因表达模型。他们还为生物技术应用设计新的蛋白质，生成在药物发现中具有所需特性的分子，并在临床基因组学中对致病性和良性变异进行分类。