大4 · 第1學期生物資訊學表觀基因體學

甲基化分析

Methylation Analysis

難度 4 · 專業bioinformaticsgenetics

DNA 甲基化分析的計算框架需要處理亞硫酸氫鹽轉換的序列偏差、位點間的空間相關性、以及組織異質性的去卷積。

BS-seq 比對的計算挑戰
亞硫酸氫鹽處理後 DNA 序列的複雜度降低（C→T 轉換使 4-letter alphabet 有效退化為 3 letters），導致比對模糊度增加。Bismark（Krueger & Andrews, 2011）的策略是對參考基因體進行 in silico C→T 和 G→A 轉換，建立兩個轉換索引，再用 Bowtie2 比對。bwa-meth 直接在原始參考上比對但使用修改的 scoring matrix。bisulfite conversion rate（>99% 理想）需用 lambda DNA spike-in 或未甲基化的 mitochondrial DNA 來評估。

差異甲基化的統計模型

DSS（Park & Wu, 2016）：Bayesian hierarchical model，將每個 CpG 的 methylation count 建模為 Beta-binomial distribution，使用 Wald test 檢驗差異，再用 HMM 或 sliding window 合併相鄰的 DML 為 DMR
dmrseq（Korthauer et al., 2019）：two-stage approach——先用 bump-hunting 識別候選 DMR，再用 permutation test 評估統計顯著性，控制 genome-wide FWER

Cell-type deconvolution
組織樣本的甲基化是各細胞類型甲基化模式的加權平均。Houseman et al.（2012）的 reference-based 方法：Y = Xβ + ε，其中 Y 是觀測甲基化、X 是 reference methylation profiles、β 是細胞類型比例。EpiDISH 和 MethylResolver 提供 robust 的反卷積實現。Reference-free methods（如 RefFreeEWAS）使用 SVD 估計隱藏的細胞類型混淆因子。

Epigenetic clocks
Horvath multi-tissue clock（2013）：elastic net regression 訓練於 8,000+ 樣本，選出 353 CpG sites，DNAm age = inverse of calibration function applied to weighted sum。GrimAge（Lu et al., 2019）整合 DNAm-based surrogate markers（吸菸 pack-years、血漿蛋白水平）和 chronological age，是 mortality prediction 最強的 clock。DunedinPACE（Belsky et al., 2022）測量 aging rate 而非 age。

Nanopore methylation calling
ONT 的 basecalling model（如 Dorado）直接從 raw signal 中偵測 modified bases，不需要 bisulfite 轉換。Megalodon 和 modkit 提供 per-read methylation probability。優勢：(1) 同時偵測多種修飾（5mC, 5hmC, 6mA）；(2) 保留長 read 的 single-molecule phasing 資訊；(3) 無 PCR bias。但 accuracy（~95% per-read）低於 BS-seq。

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

表觀遺傳學

遺傳學 · 基因體學

難度 4 · 專業

次世代定序分析

生物資訊學 · 基因體分析

難度 4 · 專業