相關的理論深度涵蓋分布理論、高維推論與因果推論方法。
分布理論
在 bivariate normal 下,r 的精確分布涉及超幾何函數(Fisher, 1915, Biometrika)。Fisher z-transform z = tanh⁻¹(r) 使其近似 N(tanh⁻¹(ρ), 1/(n−3)),是 variance-stabilizing transform。Olkin & Pratt(1958)給出 E[r] = ρ − ρ(1−ρ²)/(2(n−1)) 的偏差修正。
相關矩陣的估計
p 變數間有 p(p−1)/2 個相關係數。高維時(p >> n),sample correlation matrix 退化。Shrinkage estimator(Ledoit & Wolf, 2004, J Multivariate Anal):Σ̂* = δF + (1−δ)S,S = sample covariance, F = structured target。Graphical LASSO(Friedman et al., 2008)估計 sparse precision matrix Ω = Σ⁻¹,非零元素對應 conditional dependencies。
多重相關與典型相關
Multiple R² = 1 − SSE/SST(回歸的決定係數)。Canonical Correlation Analysis(CCA, Hotelling, 1936):找兩組變數的線性組合使相關最大。Sparse CCA(Witten, Tibshirani & Hastie, 2009, Biostatistics)用於 multi-omics 整合(如 gene expression vs metabolomics)。
距離相關(Distance Correlation)
Székely, Rizzo & Bakirov(2007, Ann Stat):dCor(X,Y) ≥ 0,且 = 0 iff X⊥Y(任何維度、任何關聯型態)。計算為 centered distance matrices 的內積。Power 分析:dCor 可偵測非線性關聯但計算量 O(n²)。
因果推論中的相關
Reichenbach's common cause principle:X 與 Y 相關 → X→Y 或 Y→X 或存在 Z→X, Z→Y。Mendelian Randomization 以遺傳變異作為 instrument variable 推論因果方向(Davey Smith & Ebrahim, 2003, Int J Epidemiol)。Partial correlation 在 Gaussian graphical model 中等同 conditional independence。
Intraclass Correlation (ICC)
衡量同一群組內觀測值的一致性。ICC(1,1)、ICC(2,1)、ICC(3,1) 對應不同 ANOVA 模型(Shrout & Fleiss, 1979, Psychol Bull)。在 reliability 研究和多層次模型中:ICC = σ²_between / (σ²_between + σ²_within)。
文獻參考:Fisher, R.A. (1915). Biometrika, 10, 507-521. / Székely, G.J. et al. (2007). Ann Stat, 35, 2769-2794. / Shrout, P.E. & Fleiss, J.L. (1979). Psychol Bull, 86, 420-428.
