進階族群遺傳學以隨機過程、統計推論、分子層級資料為三大支柱,近 15 年因全基因組資料爆發而急速演進。
擴散方程與穩態分布
Wright(1937)求得突變-選擇-漂變穩態的等位頻率分布:
φ(p) ∝ p^(4Nₑu − 1)·(1 − p)^(4Nₑv − 1)·e^(4Nₑsp)
提供從頻率分布反推 Nₑs、Nₑu 的理論基礎。Site Frequency Spectrum(SFS)是此分布在樣本中的直接表徵,∂a∂i(Gutenkunst et al., 2009)與 fastsimcoal2(Excoffier et al., 2013)從 SFS 最大似然推估人口參數。
合併理論延伸
- 結構合併(structured coalescent):子族群、遷移率併入追溯過程。
- 選擇合併(ancestral selection graph, ASG):Krone & Neuhauser(1997)以 branching-coalescing 雙事件描述選擇下合併。
- Sequential Markovian Coalescent(SMC, SMC', MSMC):跨基因組位點的合併樹馬可夫近似,用於從單套全基因組推估過去數十萬年 Nₑ 軌跡(Li & Durbin, 2011, Nature)。
選擇偵測的統計武器
| 工具 | 原理 | 偵測訊號 |
|---|---|---|
| Tajima's D | π − θ_W | 擴張/掃除 (D<0)、瓶頸/平衡 (D>0) |
| Fay-Wu's H | 高頻衍生等位 | Hard sweep |
| iHS | 延伸單倍型 | 不完全 sweep |
| XP-EHH | 跨族群 EHH | 局部 sweep |
| F_ST outliers | 極端分化 | 局部適應 |
| PBS | 三族群樹枝長度 | 近期定向選擇 |
| SDS | 單倍型時間 | 千年內 polygenic selection |
群體混合(admixture)的量化
- F-statistics(Patterson et al., 2012, Genetics):F3(X; A, B) 檢測 X 是否為 A, B 混合;F4 測試拓撲與混合。
- ADMIXTURE(Alexander et al., 2009, Genome Res)以 K 個祖源成分估計每個體混合比例。
- Globetrotter / DATES 用 LD 衰減估計混合時間。
古 DNA 時代後,這些方法揭示:印歐語族擴散伴隨 Yamnaya 基因流入歐洲(Haak et al., 2015, Nature)、美洲原住民單一主入口論被 Population Y 訊號挑戰(Skoglund et al., 2015, Nature)。
Polygenic Adaptation 與數量性狀
身高、膚色等為 polygenic,適應常以微小頻率變化分布於數百位點呈現,不產生 hard sweep。工具:
- Singleton Density Score(SDS, Field et al., 2016, Science):從稀有等位單倍型長度估計近千年選擇。
- Polygenic Risk Score × 族群對照:檢驗 GWAS SNPs 的方向性偏差。
- Haller 警示:LD block structure、族群分層未校正可能產生偽訊號(Berg et al., 2019;Sohail et al., 2019 同期撤銷英國身高選擇訊號)。
近交族群與 ROH
Runs of Homozygosity(ROH)長度分布區分近期近交(長 ROH)vs. 古代小 Nₑ(短 ROH)。人類平均 ROH 總長約 50–200 Mb,醫學相關(McQuillan et al., 2008, AJHG)。
理論前沿
- spatial coalescent 與地景遺傳學整合。
- ancient DNA time-series 直接估計選擇係數(Mathieson 2020)。
- ARG reconstruction(Relate, Speidel et al., 2019;tsinfer/tsdate, Kelleher et al., 2019)以 Ancestral Recombination Graph 統一所有族群遺傳推論。
- deep learning(diploS/HIC, SIA)直接從原始序列張量辨識選擇。
族群遺傳學已從 1970 年代允許 sample size 10 的統計框架,演化成處理百萬個體、全基因組、跨時間尺度的計算生物學——仍以 Hardy、Fisher、Wright、Kimura 的基本方程為骨幹。
