數據類型的深入理解涉及測量理論、資訊損失與現代統計框架。
Stevens 分類的批判與延伸
Stevens(1946, Science)的四級尺度雖經典,但 Velleman & Wilkinson(1993)指出其過度簡化:實際數據常存在混合型態。例如「存活時間」是比率尺度,但含設限值(censored)時需特殊處理(Kaplan-Meier, Cox regression)。Compositional data(如基因表現比例、微生物相對豐度)總和受限(sum-to-one),需 log-ratio 轉換(Aitchison, 1986)後方可進行標準統計分析。
資訊損失與最佳分組
將連續變數離散化(dichotomize / categorize)會損失統計檢定力。Royston et al.(2006, Stat Med)以模擬證明,將連續預測變數以中位數切為兩組,會損失約 1/3 的資訊量(equivalent to 丟掉 1/3 的樣本)。替代方案:restricted cubic splines(RCS)或 fractional polynomials(FP)保留連續性同時允許非線性關係。
遺漏值機制
Rubin(1976)三分類:
- MCAR(Missing Completely at Random):遺漏與任何變數無關。
- MAR(Missing at Random):遺漏可由觀察到的變數解釋。
- MNAR(Missing Not at Random):遺漏與未觀察到的值本身相關(如重症患者退出追蹤)。
多重插補(Multiple Imputation, MI;Rubin 1987)在 MAR 假設下是標準方法,MICE(van Buuren, 2011)套件提供靈活實作。
高維度數據特殊考量
Omics 數據(genomics, proteomics, metabolomics)的特徵:
- p >> n(變數數遠大於樣本數),需正規化(LASSO, elastic net)或降維(PCA, t-SNE, UMAP)。
- 零膨脹(zero-inflation):scRNA-seq 數據中大量零值,需 ZINB 模型(Risso et al., 2018)或 imputation 方法(MAGIC, scVI)。
- 批次效應(batch effect):ComBat(Johnson et al., 2007)或 Harmony(Korsunsky et al., 2019)校正不同實驗批次的系統性偏差。
函數型數據(Functional Data)
當觀測值是曲線而非單點時(如時序基因表現、連續血糖監測、生長曲線),需函數型數據分析(Functional Data Analysis, FDA;Ramsay & Silverman, 2005)。將離散觀測以 B-spline 或 Fourier basis 平滑為連續函數,再進行函數型 PCA、函數型 ANOVA 等分析。
文獻參考:Stevens, S.S. (1946). Science, 103, 677-680. / Royston, P. et al. (2006). Stat Med, 25, 127-141. / van Buuren, S. (2011). J Stat Softw, 45, 1-67.
