大1 · 第2學期生物統計描述統計

數據類型

Data Types

難度 1 · 入門statistics

數據類型的深入理解涉及測量理論、資訊損失與現代統計框架。

Stevens 分類的批判與延伸

Stevens（1946, Science）的四級尺度雖經典，但 Velleman & Wilkinson（1993）指出其過度簡化：實際數據常存在混合型態。例如「存活時間」是比率尺度，但含設限值（censored）時需特殊處理（Kaplan-Meier, Cox regression）。Compositional data（如基因表現比例、微生物相對豐度）總和受限（sum-to-one），需 log-ratio 轉換（Aitchison, 1986）後方可進行標準統計分析。

資訊損失與最佳分組

將連續變數離散化（dichotomize / categorize）會損失統計檢定力。Royston et al.（2006, Stat Med）以模擬證明，將連續預測變數以中位數切為兩組，會損失約 1/3 的資訊量（equivalent to 丟掉 1/3 的樣本）。替代方案：restricted cubic splines（RCS）或 fractional polynomials（FP）保留連續性同時允許非線性關係。

遺漏值機制

Rubin（1976）三分類：

MCAR（Missing Completely at Random）：遺漏與任何變數無關。
MAR（Missing at Random）：遺漏可由觀察到的變數解釋。
MNAR（Missing Not at Random）：遺漏與未觀察到的值本身相關（如重症患者退出追蹤）。
多重插補（Multiple Imputation, MI；Rubin 1987）在 MAR 假設下是標準方法，MICE（van Buuren, 2011）套件提供靈活實作。

高維度數據特殊考量

Omics 數據（genomics, proteomics, metabolomics）的特徵：

p >> n（變數數遠大於樣本數），需正規化（LASSO, elastic net）或降維（PCA, t-SNE, UMAP）。
零膨脹（zero-inflation）：scRNA-seq 數據中大量零值，需 ZINB 模型（Risso et al., 2018）或 imputation 方法（MAGIC, scVI）。
批次效應（batch effect）：ComBat（Johnson et al., 2007）或 Harmony（Korsunsky et al., 2019）校正不同實驗批次的系統性偏差。

函數型數據（Functional Data）

當觀測值是曲線而非單點時（如時序基因表現、連續血糖監測、生長曲線），需函數型數據分析（Functional Data Analysis, FDA；Ramsay & Silverman, 2005）。將離散觀測以 B-spline 或 Fourier basis 平滑為連續函數，再進行函數型 PCA、函數型 ANOVA 等分析。

文獻參考：Stevens, S.S. (1946). Science, 103, 677-680. / Royston, P. et al. (2006). Stat Med, 25, 127-141. / van Buuren, S. (2011). J Stat Softw, 45, 1-67.

互動工具