大4 · 第1學期生物資訊學基因體分析

單細胞分析

Single-Cell Analysis

難度 5 · 研究bioinformaticsmolecular-biology想做成互動版

單細胞組學的分析框架建立在處理高維稀疏數據的統計方法之上，核心挑戰包括技術噪聲（dropout events）、批次效應、以及生物學信號的多尺度結構。

數據建模與標準化
scRNA-seq 的 count matrix 高度稀疏（通常 >90% 為零），零值來自兩個來源：真正的生物學零表達（structural zeros）和技術性丟失（dropout）。早期方法如 ZIFA 和 ZINB-WaVE 使用 zero-inflated models 區分兩者，但 Lun et al.（2020）和 Svensson（2020）的分析表明，現代 UMI 數據中的零值分布與 negative binomial distribution 一致，不需要額外的 zero-inflation 成分。scran 的 pooling-based size factor estimation 和 sctransform 的 regularized negative binomial regression 是兩種主流標準化方法。

降維的數學基礎
PCA 在 scRNA-seq 中需要特別處理：Irlba 的截斷 SVD 提供近似但高效的前 50 個主成分。UMAP 的理論基礎是 Riemannian geometry 和 fuzzy simplicial sets——在高維空間中建構 weighted k-nearest neighbor graph（用局部距離做適應性權重），在低維空間中最小化交叉熵。McInnes et al.（2018）的 UMAP 比 t-SNE 更好地保持全域結構，但兩者都不適合做定量距離推論。

整合分析
多批次和多模態數據的整合是當前核心挑戰。Harmony（Korsunsky et al., 2019）在 PCA 空間中迭代軟分群和線性校正，計算效率高且保留生物學變異。scVI（Lopez et al., 2018）使用 variational autoencoder（VAE）在 latent space 中建模批次效應，假設 count data 服從 zero-inflated negative binomial 分布。STACAS 和 scANVI 提供半監督框架，利用已知細胞類型標籤引導整合。

多模態單細胞
CITE-seq 同時測量 mRNA 和表面蛋白；10x Multiome 同時測量 RNA 和 ATAC（染色質可及性）。WNN（weighted nearest neighbor, Hao et al., 2021）在 Seurat v4 中為不同模態學習自適應權重。MOFA+ 使用 group factor analysis 在多模態數據中推斷共享和模態特異的變異源。

空間轉錄體學整合
Visium、MERFISH 和 Slide-seq 提供空間分辨的轉錄資訊。Cell2location 和 RCTD 使用 scRNA-seq reference 對空間數據進行反卷積（deconvolution），推斷每個空間位點的細胞類型組成。Squidpy 提供空間統計分析（空間自相關、neighborhood enrichment）。

計算基礎設施
百萬細胞規模的數據需要 out-of-core 計算框架。AnnData（Python scanpy 生態系）使用 HDF5 後端支持 lazy loading；Bioconductor 的 SingleCellExperiment 使用 DelayedArray。Rapids singlecell 利用 GPU 加速降維和分群。

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

次世代定序分析

生物資訊學 · 基因體分析

難度 4 · 專業