跳至主要內容
1 · 第2學期生物統計數據視覺化

火山圖

Volcano Plots

難度 2 · 基礎visualizationgenomics

火山圖的統計學考量涉及 shrinkage estimators、閾值選擇策略和整合視覺化。

Log₂FC 的 Shrinkage

DESeq2 提供 shrunken log₂FC 估計(apeglm, ashr, normal 三種方法)。未 shrink 的 log₂FC 在低表達基因中方差極大(少量 reads 的 FC 可能非常極端但不可靠)。apeglm(Zhu et al., 2019)以 approximate posterior estimation 縮小低資訊基因的 FC,使火山圖更「乾淨」——高 FC 的點更可能是真正的生物訊號。

S-value 替代 p-value

Greenland(2019)提出 S-value = −log₂(p),以「最大驚奇量」(bits of information against H₀)取代 p 值。S = 4.3 bits 等價 p = 0.05。在火山圖中用 −log₂(padj) 替代 −log₁₀ 可提供更直覺的證據度量解讀。

MA Plot vs Volcano Plot

MA plot(Bland-Altman for genomics):X = average expression(A = log₂(mean)),Y = log₂FC(M)。MA plot 揭示效應量與表達量的關係(低表達基因的 FC 方差大),火山圖揭示效應量與顯著性的關係。兩者互補,DESeq2 和 edgeR 都提供 plotMA() 函數。

整合型火山圖

MultiVolcanoPlot:同時比較多個 contrast(如 Tumor vs Normal, Metastasis vs Primary, Resistant vs Sensitive)。方法:(1) 多面板(facet),(2) 重疊標記不同 contrast 的顯著基因(交集和差集以顏色編碼),(3) 搭配 UpSet plot 呈現交集。

閾值選擇的統計考量

固定 FC 門檻(如 |log₂FC| > 1)是任意的。TREAT(Testing Relative to a Threshold, McCarthy & Smyth, 2009)提供 FC 超過某閾值的正式統計檢定:H₀: |log₂FC| ≤ θ,而非傳統的 H₀: log₂FC = 0。在 limma 中以 treat() 函數實作,得到更有生物意義的顯著基因清單。

文獻參考:Zhu, A. et al. (2019). Bioinformatics, 35, 2084-2092. / McCarthy, D.J. & Smyth, G.K. (2009). Bioinformatics, 25, 765-771. / Greenland, S. (2019). Am Stat, 73, 106-114.

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關