概述
差异表达(DE)分析是转录组学的统计核心,确定哪些基因在不同实验条件下显示出有意义的表达变化。无论是比较处理组与未处理组细胞、肿瘤与正常组织,还是时间序列样本,DE 分析都将原始计数数据转化为生物学洞见。挑战在于区分真正的生物信号与技术噪声,同时考虑全基因组测量固有的多重检验负担。现代 DE 方法使用复杂的统计模型,这些模型已在真实和模拟数据集上经过广泛验证。
方法
DE 分析通常从每个基因在每个样本中的读段计数矩阵开始。标准化方法(TMM、RLE 或分位数标准化)调整文库大小和组成偏差。流行工具包括 DESeq2,它使用负二项分布对计数建模,并采用收缩估计处理离散度;edgeR,它使用经验贝叶斯方法;以及 limma-voom,它对带有精度权重的对数转换计数应用线性建模。对于无参考基因组的非模式生物或实验,Salmon 或 Kallisto 等工具执行无需比对的定量。结果以 log2 倍数变化和校正后的 p 值(Benjamini-Hochberg 校正)汇总。主成分分析(PCA)和热图提供表达模式的全局视图。
应用
DE 分析几乎是每个转录组学研究的核心。它识别用于疾病诊断和预后的生物标志物,揭示药物的作用机制,并表征细胞对环境刺激的反应。在临床环境中,对患者活检样本的 DE 分析可以对癌症进行分层以指导靶向治疗。该方法与 RT-PCR 验证实验密切相关,后者用于确认候选基因,并建立在 DNA 微阵列与基因表达技术之上。DE 结果还为基因集富集分析(GSEA)提供动力,以识别受影响的通路和功能类别。