NGS 數據分析的計算框架不斷演進,從經典的 BWA-GATK 最佳實踐到深度學習驅動的端到端分析,反映了計算基因體學的方法學轉變。
比對演算法的技術架構
BWA-MEM(Li, 2013)使用 FM-index(基於 BWT)進行種子搜尋,再用 Smith-Waterman 延伸。FM-index 將基因體壓縮至 ~1.5 GB(人類基因體),支持 O(|pattern|) 的精確匹配搜尋。BWA-MEM2 利用 AVX-512 指令集加速,在 x86 架構上速度提升 2-3 倍。
Minimap2(Li, 2018, Bioinformatics)使用 minimizer-based 索引替代 FM-index,適合長讀段比對。Minimizer 是每個滑動視窗中最小的 k-mer,索引大小 ~O(n/w)(w 為視窗大小)。鏈接(chaining)演算法將 seed hits 組織成一致的比對骨架。
GATK Best Practices 的統計原理
GATK HaplotypeCaller 使用 pair-HMM 計算每個候選單倍型的讀段似然 P(read|haplotype),再用 Bayesian 框架推斷基因型:P(genotype|data) ∝ P(data|genotype) × P(genotype)。先驗 P(genotype) 來自族群等位基因頻率。VQSR(Variant Quality Score Recalibration)使用 Gaussian mixture model 從已知變異位點的特徵分布(如 QD、FS、MQ)學習真陽性的統計模型。
深度學習方法
DeepVariant(Poplin et al., 2018, Nat Biotechnol)將變異偵測重新框架為影像分類問題:在每個候選位點產生 pileup image(x 軸 = 基因體位置,y 軸 = 讀段,像素 = 鹼基和品質),用 CNN 分類為 hom-ref、het 或 hom-alt。在 Genome in a Bottle benchmark 中,DeepVariant 的 F1 score 超越 GATK HC,特別是在 indel 偵測上。
DRAGEN(Illumina)將整個分析管線硬體加速,使用 FPGA 實現比對和變異偵測。在臨床基因體學中(如 24 小時內從樣本到報告),硬體加速的分析管線越來越重要。
工作流程管理
Nextflow、Snakemake 和 WDL 是三大工作流程語言。nf-core 社群提供了標準化的 NGS 分析管線(如 nf-core/sarek 用於 WGS/WES variant calling),支援容器化部署(Docker/Singularity)和雲端執行。可重現性和版本控制是 GLP/GCLP 臨床基因體學認證的基本要求。
