聚類分析的理論基礎涉及最佳化、概率模型和高維挑戰。
K-Means 的理論與改良
K-Means 等價於最小化 WCSS 的 NP-hard 組合最佳化。Lloyd (1982) 演算法只保證局部最優。Arthur & Vassilvitskii (2007) 的 k-means++ 初始化保證期望 WCSS ≤ 8(ln k + 2) × OPT。Mini-batch K-Means(Sculley, 2010)以隨機子集更新中心,適合大數據。
高斯混合模型(GMM)
軟分配的概率版 K-Means:假設數據來自 K 個高斯分布的混合。EM 演算法:E-step 計算後驗隸屬機率 γₖᵢ = πₖN(xᵢ|μₖ,Σₖ)/Σⱼ πⱼN(xᵢ|μⱼ,Σⱼ),M-step 更新 μₖ、Σₖ、πₖ。BIC 選擇成分數 K 和共變異結構(spherical, diagonal, full)。mclust R package(Scrucca et al., 2016)自動化此流程。
譜聚類(Spectral Clustering)
建構相似度圖的 Laplacian L = D − W,以 L 的前 K 個特徵向量進行 K-Means。能處理非凸群組(如同心圓),理論基於 Normalized Cut(Shi & Malik, 2000)。適合單細胞轉錄組的細胞類型發現。
共識聚類(Consensus Clustering)
Monti et al.(2003):反覆子採樣 + 聚類,以共識矩陣(Consensus Matrix)衡量兩個樣本被分到同一群的比例。CDF(Cumulative Distribution Function)曲線的穩定性指導 K 的選擇。GenePattern 和 ConsensusClusterPlus R package 是常用工具。在癌症分子亞型發現(如 TCGA 計畫)中廣泛使用。
scRNA-seq 的聚類工作流程
標準流程:quality control → normalization → HVG selection → PCA → batch correction (Harmony/scVI) → KNN graph → community detection(Louvain / Leiden algorithm)→ UMAP visualization。Leiden algorithm(Traag et al., 2019)以 modularity optimization 進行圖切割,比 Louvain 更穩定。resolution 參數控制群數的精細度。
文獻參考:Arthur, D. & Vassilvitskii, S. (2007). SODA, 1027-1035. / Monti, S. et al. (2003). Machine Learning, 52, 91-118. / Traag, V.A. et al. (2019). Sci Rep, 9, 5233.
