概述
变异识别是识别个体基因组与参考基因组之间差异的计算过程。这些差异从单核苷酸多态性(SNPs)和小插入缺失(indels)到大的结构变异(如拷贝数变化和染色体重排)不等。准确的变异检测是人类遗传学、精准医学和进化生物学的基石。该过程需要仔细的统计建模,以区分真正的生物变异与测序错误和比对伪影。
关键概念
大多数变异识别程序遵循一个通用工作流程:测序读段首先使用 BWA 或 Bowtie2 等工具比对到参考基因组,然后处理比对数据以识别个体序列与参考序列不同的位置。基因组分析工具包(GATK) 最佳实践流程被广泛采用,使用贝叶斯方法计算基因型似然。关键考虑因素包括覆盖深度(深度越高置信度越高)、碱基质量分数和比对质量。使用硬阈值或机器学习(如 VQSR)进行变异过滤可去除假阳性。结构变异检测需要专门工具如 DELLY 或 Manta,它们分析不协调的读段对和分裂读段。
应用
变异识别驱动着临床和研究基因组学。它识别罕见遗传病背后的突变,并通过揭示肿瘤-正常比较中的体细胞突变为癌症基因组学提供信息。1000 基因组计划等群体规模项目已编录了数百万个变异以绘制人类多样性图谱。在传染病中,变异识别追踪病原体进化和耐药性。变异识别的准确性从根本上取决于下一代测序数据的质量和所使用的 DNA 测序平台。