跳至主要內容
1 · 第2學期生物統計描述統計

數據類型

Data Types

難度 1 · 入門statistics

數據類型的深入理解涉及測量理論、資訊損失與現代統計框架。

Stevens 分類的批判與延伸

Stevens(1946, Science)的四級尺度雖經典,但 Velleman & Wilkinson(1993)指出其過度簡化:實際數據常存在混合型態。例如「存活時間」是比率尺度,但含設限值(censored)時需特殊處理(Kaplan-Meier, Cox regression)。Compositional data(如基因表現比例、微生物相對豐度)總和受限(sum-to-one),需 log-ratio 轉換(Aitchison, 1986)後方可進行標準統計分析。

資訊損失與最佳分組

將連續變數離散化(dichotomize / categorize)會損失統計檢定力。Royston et al.(2006, Stat Med)以模擬證明,將連續預測變數以中位數切為兩組,會損失約 1/3 的資訊量(equivalent to 丟掉 1/3 的樣本)。替代方案:restricted cubic splines(RCS)或 fractional polynomials(FP)保留連續性同時允許非線性關係。

遺漏值機制

Rubin(1976)三分類:

  • MCAR(Missing Completely at Random):遺漏與任何變數無關。
  • MAR(Missing at Random):遺漏可由觀察到的變數解釋。
  • MNAR(Missing Not at Random):遺漏與未觀察到的值本身相關(如重症患者退出追蹤)。
    多重插補(Multiple Imputation, MI;Rubin 1987)在 MAR 假設下是標準方法,MICE(van Buuren, 2011)套件提供靈活實作。

高維度數據特殊考量

Omics 數據(genomics, proteomics, metabolomics)的特徵:

  • p >> n(變數數遠大於樣本數),需正規化(LASSO, elastic net)或降維(PCA, t-SNE, UMAP)。
  • 零膨脹(zero-inflation):scRNA-seq 數據中大量零值,需 ZINB 模型(Risso et al., 2018)或 imputation 方法(MAGIC, scVI)。
  • 批次效應(batch effect):ComBat(Johnson et al., 2007)或 Harmony(Korsunsky et al., 2019)校正不同實驗批次的系統性偏差。

函數型數據(Functional Data)

當觀測值是曲線而非單點時(如時序基因表現、連續血糖監測、生長曲線),需函數型數據分析(Functional Data Analysis, FDA;Ramsay & Silverman, 2005)。將離散觀測以 B-spline 或 Fourier basis 平滑為連續函數,再進行函數型 PCA、函數型 ANOVA 等分析。

文獻參考:Stevens, S.S. (1946). Science, 103, 677-680. / Royston, P. et al. (2006). Stat Med, 25, 127-141. / van Buuren, S. (2011). J Stat Softw, 45, 1-67.

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

有寫過的文章