跳至主要內容
4 · 第1學期生物資訊學表觀基因體學

ChIP-Seq分析

ChIP-Seq Analysis

難度 3 · 進階epigenomicsngs

ChIP-Seq 的分析框架需要處理抗體效率差異、信噪比變異、以及從峰值模式推斷功能意義的統計方法。

MACS2 的統計模型
MACS2(Zhang et al., 2008)使用 shifting model 估計 fragment size d:計算 Watson 和 Crick strands 的 read 起始位置分布的交叉相關(cross-correlation),峰值距離即為 d。reads 向 3' 端移動 d/2 後計算 coverage。背景模型使用 local Poisson lambda(取 1k、5k、10k window 和全域的最大值),對每個候選 peak 計算 p-value,再經 BH 校正。

ChIP-seq 品質指標
ENCODE 定義的品質標準:

  • FRiP(Fraction of Reads in Peaks):good experiment >1% for TF, >5% for histone marks
  • NSC/RSC(Normalized/Relative Strand Coefficient):cross-correlation 分析的品質指標
  • IDR(Irreproducible Discovery Rate, Li et al., 2011):在兩個生物重複中評估 peak 的可重現性,IDR < 0.05 的 peaks 被保留

差異結合分析
DiffBind(Ross-Innes et al., 2012)將 peak regions 的 read counts 量化後,用 DESeq2 或 edgeR 進行差異分析。csaw(Lun & Smyth, 2016)使用 sliding window approach,不依賴 peak calling 結果——在固定窗口中計算 counts,用 NB GLM 檢驗差異,再將顯著窗口合併為 differentially bound regions。

CUT&Tag / CUT&RUN
CUT&Tag(Kaya-Okur et al., 2019)和 CUT&RUN(Skene & Henikoff, 2017)是 ChIP-seq 的低細胞量替代方案。CUT&Tag 使用 protein A-Tn5 fusion,在抗體靶向的位置進行 tagmentation,大幅降低背景噪聲。優勢:只需 ~1,000-100,000 細胞、背景更乾淨、不需要超音波片段化。分析流程與 ATAC-Seq 類似,但 peak calling 需要不同的參數設定(如 SEACR 作為 CUT&Tag 專用的 peak caller)。

染色質狀態的系統建模
ChromHMM(Ernst & Kellis, 2012)使用 multivariate HMM 在多個組蛋白標記的二值化信號上學習染色質狀態。18-state model 常用於 ENCODE/Roadmap,包含 active TSS、flanking TSS、active enhancer、genic enhancer、bivalent TSS、Polycomb repressed、quiescent 等狀態。Segway 使用 dynamic Bayesian network 在連續信號上操作,解析度更高。ENCODE 的 SCREEN registry 基於 ChromHMM + DNase/ATAC 信號定義了 ~120 萬個 candidate cis-regulatory elements (cCREs)。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關