大1 · 第2學期生物統計回歸分析

聚類分析

Cluster Analysis

難度 3 · 進階statisticsbioinformatics想做成互動版

聚類分析的理論基礎涉及最佳化、概率模型和高維挑戰。

K-Means 的理論與改良

K-Means 等價於最小化 WCSS 的 NP-hard 組合最佳化。Lloyd (1982) 演算法只保證局部最優。Arthur & Vassilvitskii (2007) 的 k-means++ 初始化保證期望 WCSS ≤ 8(ln k + 2) × OPT。Mini-batch K-Means（Sculley, 2010）以隨機子集更新中心，適合大數據。

高斯混合模型（GMM）

軟分配的概率版 K-Means：假設數據來自 K 個高斯分布的混合。EM 演算法：E-step 計算後驗隸屬機率 γₖᵢ = πₖN(xᵢ|μₖ,Σₖ)/Σⱼ πⱼN(xᵢ|μⱼ,Σⱼ)，M-step 更新 μₖ、Σₖ、πₖ。BIC 選擇成分數 K 和共變異結構（spherical, diagonal, full）。mclust R package（Scrucca et al., 2016）自動化此流程。

譜聚類（Spectral Clustering）

建構相似度圖的 Laplacian L = D − W，以 L 的前 K 個特徵向量進行 K-Means。能處理非凸群組（如同心圓），理論基於 Normalized Cut（Shi & Malik, 2000）。適合單細胞轉錄組的細胞類型發現。

共識聚類（Consensus Clustering）

Monti et al.（2003）：反覆子採樣 + 聚類，以共識矩陣（Consensus Matrix）衡量兩個樣本被分到同一群的比例。CDF（Cumulative Distribution Function）曲線的穩定性指導 K 的選擇。GenePattern 和 ConsensusClusterPlus R package 是常用工具。在癌症分子亞型發現（如 TCGA 計畫）中廣泛使用。

scRNA-seq 的聚類工作流程

標準流程：quality control → normalization → HVG selection → PCA → batch correction (Harmony/scVI) → KNN graph → community detection（Louvain / Leiden algorithm）→ UMAP visualization。Leiden algorithm（Traag et al., 2019）以 modularity optimization 進行圖切割，比 Louvain 更穩定。resolution 參數控制群數的精細度。

文獻參考：Arthur, D. & Vassilvitskii, S. (2007). SODA, 1027-1035. / Monti, S. et al. (2003). Machine Learning, 52, 91-118. / Traag, V.A. et al. (2019). Sci Rep, 9, 5233.

互動工具