DNA微阵列可以同时测量数千个基因的表达水平,提供细胞转录活性的全基因组视图。它们通过使研究人员能够比较不同条件、组织或疾病状态之间的基因表达,彻底改变了功能基因组学。
微阵列原理
DNA微阵列由数千个 microscopic 斑点组成,每个斑点包含特定DNA序列的探针,附着在固体表面如玻璃片或硅芯片上。每个探针设计为与特定的靶mRNA或cDNA序列杂交。整个探针集合代表被分析的基因集。
基本实验包括从感兴趣样本中提取RNA,用逆转录酶将其转化为互补DNA,用荧光染料标记cDNA,并将标记的cDNA杂交到微阵列上。洗去非特异性结合的物质后,测量每个斑点的荧光强度,指示原始样本中每种mRNA的量。
双色阵列
在双色微阵列实验中,来自两种条件的RNA用不同的荧光染料(通常为Cy3和Cy5)标记。标记的cDNA混合并杂交到单个阵列上。每个斑点处Cy5与Cy3荧光的比率反映了两种条件之间每个基因的相对表达水平。双色设计控制了斑点间变异,但引入了需要染料交换实验的染料偏差。
单通道阵列
单通道阵列如Affymetrix GeneChips使用单个荧光标记。每个样本杂交到单独的阵列。基因表达以绝对强度测量,归一化后在各阵列之间进行比较。单通道阵列对于多重比较具有更高的通量,但需要稳健的归一化方法来减少阵列间变异。Affymetrix阵列对每个基因使用多个探针,包括完全匹配和错配探针,以区分特异性杂交和背景。
数据归一化
微阵列数据需要广泛的预处理。背景校正去除非特异性杂交的信号。归一化调整阵列之间的技术变异。分位数归一化使探针强度的分布在阵列间相同,假设大多数基因没有差异表达。稳健多阵列平均结合了背景校正、归一化和每个基因多个探针的汇总。
差异表达分析
归一化后,统计检验识别在不同条件之间具有显著表达变化的基因。limma包中实现的 moderated t-test 借用跨基因的信息以稳定方差估计。使用Benjamini-Hochberg方法的多重检验校正控制假发现率。结果通常报告为倍数变化和调整后的p值。倍数变化超过阈值且调整后p值低于0.05的基因被认为是差异表达的。
聚类和分类
无监督聚类根据表达相似性在没有先验知识的情况下对基因或样本进行分组。层次聚类产生树状图,具有相似表达谱的基因被分组在一起。K均值聚类将基因划分为指定数量的簇。这些方法可以揭示共调节基因组和新的样本亚型。
有监督分类使用已知样本标签构建可以分类未知样本的预测器。支持向量机、随机森林和最近邻分类器被应用。基因表达特征可以分类癌症亚型、预测预后和指导治疗选择。PAM50特征将乳腺癌分类为具有不同预后的分子亚型。
应用
微阵列已应用于几乎每个生物学领域。癌症研究使用微阵列分类肿瘤、识别预后特征和发现药物靶点。MammaPrint和Oncotype DX乳腺癌检测使用基因表达特征预测复发风险。发育生物学研究驱动分化的转录程序。毒理学使用微阵列进行毒物基因组学分析。微阵列在用于比较基因组杂交时也检测拷贝数变异。
局限性和向RNA-Seq的过渡
微阵列具有局限性,包括依赖预定义的探针序列、有限的动态范围和无法检测新转录本或剪接变体。RNA测序(下一代测序的关键应用)已在很大程度上取代了用于基因表达分析的微阵列。RNA-seq提供具有更高灵敏度和动态范围的数字计数数据,检测新转录本和异构体,并且不需要预定义探针。然而,微阵列对于特征明确的生物体和标准化平台有利的临床应用仍然有用。