大4 · 第1學期生物資訊學轉錄體學

差異基因表現

Differential Gene Expression

難度 4 · 專業bioinformaticsmolecular-biology

差異表現分析的統計推論建立在計數數據的廣義線性模型框架之上，核心挑戰是在有限的生物重複數下獲得穩定的離散估計。

DESeq2 的統計模型
DESeq2（Love et al., 2014, Genome Biology）的模型：K_ij ~ NB(μ_ij, α_i)，其中 μ_ij = s_j × q_ij，s_j 是 sample-specific size factor（由 median-of-ratios 估計），q_ij = exp(x_j^T β_i)，x_j 是設計矩陣的第 j 列，β_i 是基因 i 的迴歸係數。離散參數 α_i 的估計使用 Cox-Reid adjusted profile likelihood 加上 parametric empirical Bayes shrinkage：先擬合 α ~ f(mean expression) 的趨勢線，再將每個基因的 MLE 估計向趨勢收縮。log₂ fold change 也可選擇性地使用 apeglm（adaptive t prior, Zhu et al., 2019）進行 shrinkage，改善低表達基因的 LFC 估計穩定性。

edgeR 的 quasi-likelihood 框架
edgeR（Robinson et al., 2010; McCarthy et al., 2012）引入 quasi-likelihood 方法：在 NB 模型上疊加一個 quasi-dispersion parameter σ²_g，使 Var(Y) = σ²_g × (μ + αμ²)。這提供了額外的靈活性來吸收 NB 模型未能捕捉的超額變異，並使用 F-test（而非 χ² test）獲得更保守的 p-values。

limma-voom 的轉換策略
voom（Law et al., 2014）將 counts 轉換為 log₂-CPM，並根據 mean-variance 關係計算精度權重（precision weights），之後套用 limma 的 empirical Bayes moderated t-test。此方法的優勢在於繼承了 limma 成熟的線性模型框架，方便處理複雜實驗設計（blocking、interaction terms、random effects via duplicateCorrelation）。

Power analysis 與實驗設計
RNASeqPower 和 ssizeRNA 可以在給定效果量（fold change）、離散參數和 FDR 門檻下，估計達到目標 power（如 80%）所需的重複數。Hart et al.（2013）的經驗法則：偵測 2-fold change、FDR < 0.05、power 80% 需要至少 5-6 個重複，但臨床樣本的高變異可能需要更多。

多重檢驗理論
BH 步驟控制的是 FDR = E[V/R]（V = false positives, R = total rejections）。Independent Hypothesis Weighting（IHW, Ignatiadis et al., 2016）利用輔助變量（如平均表現量）進行 covariate-adjusted multiple testing，提升偵測力。p-value histogram 的形狀提供診斷資訊：均勻分布加上靠近零的尖峰表示有真正的信號；非均勻分布可能暗示模型假設被違反。

互動工具