大4 · 第1學期生物資訊學基因體分析

次世代定序分析

NGS Data Analysis

難度 4 · 專業bioinformaticstechniques想做成互動版

NGS 數據分析的計算框架不斷演進，從經典的 BWA-GATK 最佳實踐到深度學習驅動的端到端分析，反映了計算基因體學的方法學轉變。

比對演算法的技術架構

BWA-MEM（Li, 2013）使用 FM-index（基於 BWT）進行種子搜尋，再用 Smith-Waterman 延伸。FM-index 將基因體壓縮至 ~1.5 GB（人類基因體），支持 O(|pattern|) 的精確匹配搜尋。BWA-MEM2 利用 AVX-512 指令集加速，在 x86 架構上速度提升 2-3 倍。

Minimap2（Li, 2018, Bioinformatics）使用 minimizer-based 索引替代 FM-index，適合長讀段比對。Minimizer 是每個滑動視窗中最小的 k-mer，索引大小 ~O(n/w)（w 為視窗大小）。鏈接（chaining）演算法將 seed hits 組織成一致的比對骨架。

GATK Best Practices 的統計原理

GATK HaplotypeCaller 使用 pair-HMM 計算每個候選單倍型的讀段似然 P(read|haplotype)，再用 Bayesian 框架推斷基因型：P(genotype|data) ∝ P(data|genotype) × P(genotype)。先驗 P(genotype) 來自族群等位基因頻率。VQSR（Variant Quality Score Recalibration）使用 Gaussian mixture model 從已知變異位點的特徵分布（如 QD、FS、MQ）學習真陽性的統計模型。

深度學習方法

DeepVariant（Poplin et al., 2018, Nat Biotechnol）將變異偵測重新框架為影像分類問題：在每個候選位點產生 pileup image（x 軸 = 基因體位置，y 軸 = 讀段，像素 = 鹼基和品質），用 CNN 分類為 hom-ref、het 或 hom-alt。在 Genome in a Bottle benchmark 中，DeepVariant 的 F1 score 超越 GATK HC，特別是在 indel 偵測上。

DRAGEN（Illumina）將整個分析管線硬體加速，使用 FPGA 實現比對和變異偵測。在臨床基因體學中（如 24 小時內從樣本到報告），硬體加速的分析管線越來越重要。

工作流程管理

Nextflow、Snakemake 和 WDL 是三大工作流程語言。nf-core 社群提供了標準化的 NGS 分析管線（如 nf-core/sarek 用於 WGS/WES variant calling），支援容器化部署（Docker/Singularity）和雲端執行。可重現性和版本控制是 GLP/GCLP 臨床基因體學認證的基本要求。

互動工具