跳至主要內容
1 · 第2學期生物統計回歸分析

邏輯回歸

Logistic Regression

難度 3 · 進階statisticsbioinformatics

邏輯回歸的理論深度涵蓋 GLM 框架、正規化和現代擴展。

GLM 框架中的位置

Logistic regression = GLM with binomial family + logit link。指數族表示:f(y|p) = exp(y·ln(p/(1−p)) + ln(1−p))。canonical link = logit。Score function U(β) = Xᵀ(Y−p̂),Fisher information I(β) = XᵀWX(W = diag(p̂ᵢ(1−p̂ᵢ))),β̂ 的漸近分布 N(β, I⁻¹)。

完全分離與正規化

當某個 X 完美預測 Y 時,MLE 不存在(β → ±∞)。Firth 偏差校正(Firth, 1993, Biometrika):penalized likelihood 加 Jeffreys prior(|I(β)|^{1/2}),解決小樣本和完全分離問題。Heinze & Schemper(2002)將 Firth logistic regression 推廣為標準實作(R: logistf 套件)。

正規化邏輯回歸

L1(LASSO logistic)和 L2(Ridge logistic)以 glmnet(Friedman et al., 2010)高效實作。Elastic net logistic regression 是高維生物標記篩選(如 GWAS polygenic risk score, PRS)的標準方法。

Calibration 與 Discrimination

  • Discrimination(區辨力):AUC/C-statistic。Harrell's concordance index C 推廣到存活分析
  • Calibration(校準度):預測機率與觀察比例的一致性。Calibration plot(predicted vs observed probability)+ Hosmer-Lemeshow 或 calibration slope/intercept。
  • Net Reclassification Improvement(NRI, Pencina et al., 2008)和 IDI(Integrated Discrimination Improvement)量化新標記加入後模型改善程度。

多類別擴展

  • Multinomial logistic regression:K > 2 個類別,以一個參考類別為基線。softmax 函數 P(Y=k) = exp(Xβₖ)/Σexp(Xβⱼ)。
  • Ordinal logistic regression(proportional odds model):累積 logit link,假設所有類別共用相同的 β(proportional odds assumption, Brant test 檢驗)。

條件邏輯回歸(Conditional Logistic Regression)

匹配的 case-control 研究中,以 stratum-specific likelihood 消除 nuisance parameters。McFadden 的條件 MLE = Σ log(exp(Xᵢβ)/Σⱼ∈stratum exp(Xⱼβ))。等價於 Cox partial likelihood 的離散時間版本。

文獻參考:Hosmer, D.W. & Lemeshow, S. (2000). Applied Logistic Regression, 2nd ed. / Firth, D. (1993). Biometrika, 80, 27-38. / Friedman, J. et al. (2010). J Stat Softw, 33, 1-22.

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關