DNA 甲基化分析的計算框架需要處理亞硫酸氫鹽轉換的序列偏差、位點間的空間相關性、以及組織異質性的去卷積。
BS-seq 比對的計算挑戰
亞硫酸氫鹽處理後 DNA 序列的複雜度降低(C→T 轉換使 4-letter alphabet 有效退化為 3 letters),導致比對模糊度增加。Bismark(Krueger & Andrews, 2011)的策略是對參考基因體進行 in silico C→T 和 G→A 轉換,建立兩個轉換索引,再用 Bowtie2 比對。bwa-meth 直接在原始參考上比對但使用修改的 scoring matrix。bisulfite conversion rate(>99% 理想)需用 lambda DNA spike-in 或未甲基化的 mitochondrial DNA 來評估。
差異甲基化的統計模型
- DSS(Park & Wu, 2016):Bayesian hierarchical model,將每個 CpG 的 methylation count 建模為 Beta-binomial distribution,使用 Wald test 檢驗差異,再用 HMM 或 sliding window 合併相鄰的 DML 為 DMR
- dmrseq(Korthauer et al., 2019):two-stage approach——先用 bump-hunting 識別候選 DMR,再用 permutation test 評估統計顯著性,控制 genome-wide FWER
Cell-type deconvolution
組織樣本的甲基化是各細胞類型甲基化模式的加權平均。Houseman et al.(2012)的 reference-based 方法:Y = Xβ + ε,其中 Y 是觀測甲基化、X 是 reference methylation profiles、β 是細胞類型比例。EpiDISH 和 MethylResolver 提供 robust 的反卷積實現。Reference-free methods(如 RefFreeEWAS)使用 SVD 估計隱藏的細胞類型混淆因子。
Epigenetic clocks
Horvath multi-tissue clock(2013):elastic net regression 訓練於 8,000+ 樣本,選出 353 CpG sites,DNAm age = inverse of calibration function applied to weighted sum。GrimAge(Lu et al., 2019)整合 DNAm-based surrogate markers(吸菸 pack-years、血漿蛋白水平)和 chronological age,是 mortality prediction 最強的 clock。DunedinPACE(Belsky et al., 2022)測量 aging rate 而非 age。
Nanopore methylation calling
ONT 的 basecalling model(如 Dorado)直接從 raw signal 中偵測 modified bases,不需要 bisulfite 轉換。Megalodon 和 modkit 提供 per-read methylation probability。優勢:(1) 同時偵測多種修飾(5mC, 5hmC, 6mA);(2) 保留長 read 的 single-molecule phasing 資訊;(3) 無 PCR bias。但 accuracy(~95% per-read)低於 BS-seq。
