單細胞組學的分析框架建立在處理高維稀疏數據的統計方法之上,核心挑戰包括技術噪聲(dropout events)、批次效應、以及生物學信號的多尺度結構。
數據建模與標準化
scRNA-seq 的 count matrix 高度稀疏(通常 >90% 為零),零值來自兩個來源:真正的生物學零表達(structural zeros)和技術性丟失(dropout)。早期方法如 ZIFA 和 ZINB-WaVE 使用 zero-inflated models 區分兩者,但 Lun et al.(2020)和 Svensson(2020)的分析表明,現代 UMI 數據中的零值分布與 negative binomial distribution 一致,不需要額外的 zero-inflation 成分。scran 的 pooling-based size factor estimation 和 sctransform 的 regularized negative binomial regression 是兩種主流標準化方法。
降維的數學基礎
PCA 在 scRNA-seq 中需要特別處理:Irlba 的截斷 SVD 提供近似但高效的前 50 個主成分。UMAP 的理論基礎是 Riemannian geometry 和 fuzzy simplicial sets——在高維空間中建構 weighted k-nearest neighbor graph(用局部距離做適應性權重),在低維空間中最小化交叉熵。McInnes et al.(2018)的 UMAP 比 t-SNE 更好地保持全域結構,但兩者都不適合做定量距離推論。
整合分析
多批次和多模態數據的整合是當前核心挑戰。Harmony(Korsunsky et al., 2019)在 PCA 空間中迭代軟分群和線性校正,計算效率高且保留生物學變異。scVI(Lopez et al., 2018)使用 variational autoencoder(VAE)在 latent space 中建模批次效應,假設 count data 服從 zero-inflated negative binomial 分布。STACAS 和 scANVI 提供半監督框架,利用已知細胞類型標籤引導整合。
多模態單細胞
CITE-seq 同時測量 mRNA 和表面蛋白;10x Multiome 同時測量 RNA 和 ATAC(染色質可及性)。WNN(weighted nearest neighbor, Hao et al., 2021)在 Seurat v4 中為不同模態學習自適應權重。MOFA+ 使用 group factor analysis 在多模態數據中推斷共享和模態特異的變異源。
空間轉錄體學整合
Visium、MERFISH 和 Slide-seq 提供空間分辨的轉錄資訊。Cell2location 和 RCTD 使用 scRNA-seq reference 對空間數據進行反卷積(deconvolution),推斷每個空間位點的細胞類型組成。Squidpy 提供空間統計分析(空間自相關、neighborhood enrichment)。
計算基礎設施
百萬細胞規模的數據需要 out-of-core 計算框架。AnnData(Python scanpy 生態系)使用 HDF5 後端支持 lazy loading;Bioconductor 的 SingleCellExperiment 使用 DelayedArray。Rapids singlecell 利用 GPU 加速降維和分群。
