熱力圖的統計基礎涉及聚類演算法的數學性質、最佳排序問題和高維視覺化理論。
階層式聚類的數學性質
Agglomerative clustering 以 Lance-Williams recurrence 統一所有 linkage methods:d(A∪B, C) = αₐd(AC) + α_bd(BC) + βd(AB) + γ|d(AC)−d(BC)|。Ward's method 最小化合併後的 total within-cluster variance:Δ(A,B) = nₐnᵦ/(nₐ+nᵦ) · ‖x̄ₐ−x̄ᵦ‖²。Ultrametric property:任何三點 d(A,C) ≤ max(d(A,B), d(B,C)) 保證 dendrogram 的唯一性(Johnson, 1967, Psychometrika)。
最佳葉序排列(Optimal Leaf Ordering)
dendrogram 的 n 個葉片有 2^(n−1) 種排列保持結構不變。Bar-Joseph et al.(2001, Bioinformatics)提出 O(n³) 動態規劃演算法,使相鄰葉片的距離和最小。此排列顯著提升視覺可讀性。
色彩映射的感知理論
均勻感知色階(perceptually uniform):CIE Lab 色彩空間中等距色彩在人眼感知中也等距。Rainbow/jet 色階因非均勻感知而被批評(Borland & Taylor, 2007, IEEE CG&A)。viridis(Smith & van der Walt, 2015)在 luminance 上單調遞增。發散色階以白色中心對應零值,利用 opponent color theory。
Biclustering 演算法
Cheng & Church(2000, ISMB):找到最大子矩陣使 mean squared residue ≤ δ。Spectral biclustering(Kluger et al., 2003, Genome Res)以 SVD 分解 normalized data matrix 找 checkerboard 結構。Bayesian biclustering(Caldas & Kaski, 2008)估計模塊數和結構。在 cancer genomics 中以 NMF(Non-negative Matrix Factorization, Brunet et al., 2004, PNAS)分解表現矩陣為 metagenes × coefficients。
ComplexHeatmap 的統計框架
Gu, Eils & Schlesner(2016, Bioinformatics):支持任意組合多個 heatmap 和 annotation tracks。OncoPrint 視覺化 mutation landscape。以 R/Bioconductor 整合 EnrichedHeatmap(ChIP-seq signal at genomic features)。
大規模資料的挑戰
n > 10,000 行時,pixel resolution 限制可辨識的模式。解決方案:k-medoids 先群集再以代表行繪製;interactive heatmap(如 plotly/d3-heatmap)支持 zoom。Seriation package(Hahsler et al., 2008, J Stat Softw)提供多種矩陣重排方法。
文獻參考:Bar-Joseph, Z. et al. (2001). Bioinformatics, 17 Suppl 1, S22-29. / Brunet, J.-P. et al. (2004). PNAS, 101, 4164-4169. / Gu, Z. et al. (2016). Bioinformatics, 32, 2847-2849.
