差異表現分析的統計推論建立在計數數據的廣義線性模型框架之上,核心挑戰是在有限的生物重複數下獲得穩定的離散估計。
DESeq2 的統計模型
DESeq2(Love et al., 2014, Genome Biology)的模型:K_ij ~ NB(μ_ij, α_i),其中 μ_ij = s_j × q_ij,s_j 是 sample-specific size factor(由 median-of-ratios 估計),q_ij = exp(x_j^T β_i),x_j 是設計矩陣的第 j 列,β_i 是基因 i 的迴歸係數。離散參數 α_i 的估計使用 Cox-Reid adjusted profile likelihood 加上 parametric empirical Bayes shrinkage:先擬合 α ~ f(mean expression) 的趨勢線,再將每個基因的 MLE 估計向趨勢收縮。log₂ fold change 也可選擇性地使用 apeglm(adaptive t prior, Zhu et al., 2019)進行 shrinkage,改善低表達基因的 LFC 估計穩定性。
edgeR 的 quasi-likelihood 框架
edgeR(Robinson et al., 2010; McCarthy et al., 2012)引入 quasi-likelihood 方法:在 NB 模型上疊加一個 quasi-dispersion parameter σ²_g,使 Var(Y) = σ²_g × (μ + αμ²)。這提供了額外的靈活性來吸收 NB 模型未能捕捉的超額變異,並使用 F-test(而非 χ² test)獲得更保守的 p-values。
limma-voom 的轉換策略
voom(Law et al., 2014)將 counts 轉換為 log₂-CPM,並根據 mean-variance 關係計算精度權重(precision weights),之後套用 limma 的 empirical Bayes moderated t-test。此方法的優勢在於繼承了 limma 成熟的線性模型框架,方便處理複雜實驗設計(blocking、interaction terms、random effects via duplicateCorrelation)。
Power analysis 與實驗設計
RNASeqPower 和 ssizeRNA 可以在給定效果量(fold change)、離散參數和 FDR 門檻下,估計達到目標 power(如 80%)所需的重複數。Hart et al.(2013)的經驗法則:偵測 2-fold change、FDR < 0.05、power 80% 需要至少 5-6 個重複,但臨床樣本的高變異可能需要更多。
多重檢驗理論
BH 步驟控制的是 FDR = E[V/R](V = false positives, R = total rejections)。Independent Hypothesis Weighting(IHW, Ignatiadis et al., 2016)利用輔助變量(如平均表現量)進行 covariate-adjusted multiple testing,提升偵測力。p-value histogram 的形狀提供診斷資訊:均勻分布加上靠近零的尖峰表示有真正的信號;非均勻分布可能暗示模型假設被違反。
