跳至主要內容
4 · 第1學期生物資訊學基因體分析

變異偵測

Variant Calling

難度 4 · 專業bioinformaticsgenetics

變異偵測是基因體學資料分析的核心步驟,從高通量定序數據中系統性辨識個體基因體相對於參考基因體的遺傳變異,包括單核苷酸變異(SNV)、小段插入與刪除(indel)及結構變異(SV)。

標準分析流程(GATK Best Practices)
Broad Institute 的 GATK Best Practices pipeline(Van der Auwera & O'Connor, 2020)為目前最廣泛採用的胚系變異偵測流程:FASTQ → BWA-MEM2 比對 → MarkDuplicates(Picard)→ BQSR(Base Quality Score Recalibration)→ HaplotypeCaller → GenotypeGVCFs → VQSR。HaplotypeCaller 採用局部 de novo 組裝策略,在活性區域(active region)重建單倍型(haplotype),再以 pair-HMM 計算每條讀序對各單倍型的似然值,最終以貝氏定理計算基因型後驗概率。

深度學習方法
DeepVariant(Poplin et al., 2018)將讀序堆疊(pileup)編碼為多通道圖像(reference、read base、mapping quality 等),以 Inception v2 CNN 進行分類。在 PrecisionFDA Truth Challenge 中,DeepVariant 在 SNP 和 indel 偵測的 F1 分數均優於傳統方法。NVIDIA 的 Parabricks 提供 GPU 加速版本,將 30× WGS 分析時間從數小時縮短至約 30 分鐘。

體細胞變異偵測
腫瘤基因體分析需在高度異質性(intratumoral heterogeneity)和低等位基因頻率(VAF < 5%)條件下偵測體細胞突變。Mutect2(Benjamin et al., 2019)使用腫瘤-正常配對模型和 artifact filter 以降低假陽性。Strelka2(Kim et al., 2018)以混合模型同時偵測 SNV 和 indel,速度更快。PCAWG 計畫(Campbell et al., 2020)整合多個 caller 的一致結果以提高可靠性。

結構變異偵測
大於 50 bp 的 SV(刪除、複製、倒位、轉位)需要不同策略:Manta(Chen et al., 2016)利用 discordant pairs 和 split reads;長讀序技術(PacBio HiFi、Oxford Nanopore)顯著提升 SV 偵測的靈敏度和解析度(Sedlazeck et al., 2018)。T2T 完整人類參考基因體(Nurk et al., 2022)解決了著絲粒和端粒區域的變異偵測盲區。

臨床應用
ACMG/AMP 變異分類指引(Richards et al., 2015)將變異分為五級(致病 → 良性),是臨床遺傳學報告的基石。ClinVar 和 gnomAD 資料庫提供群體頻率和致病性註釋,輔助臨床判讀。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關