跳至主要內容
4 · 第1學期生物資訊學網路分析

親緣分析

Phylogenetic Analysis

難度 3 · 進階bioinformaticsevolution想做成互動版

系統發育推論是演化基因體學的計算核心,涉及組合最優化(tree space 搜索)和連續最優化(branch length 和模型參數估計)的交織問題。

樹空間的拓撲學
n 個物種的有根二叉樹數量為 (2n-3)!!,n=20 時已超過 10^21。啟發式搜索策略包括:NNI(nearest neighbor interchange,最快但搜索範圍最小)、SPR(subtree pruning and regrafting)和 TBR(tree bisection and reconnection,最廣但最慢)。RAxML-NG 使用 SPR + lazy subtree evaluation 實現高效搜索。IQ-TREE 2(Minh et al., 2020)使用 stochastic perturbation + NNI hill-climbing,在 benchmark 中表現優異。

似然計算的 Felsenstein 剪枝演算法
ML 建樹的核心是 Felsenstein(1981)的 pruning algorithm:在樹的每個葉節點上觀察序列數據,自底向上計算每個內部節點在每個位點的條件似然向量(conditional likelihood vector),最終在根節點匯總。時間複雜度 O(n × k × s²)(n:位點數,k:物種數,s:狀態數(DNA=4, protein=20))。BEAGLE library 使用 SIMD 和 GPU 加速此計算。

分子鐘與分歧時間估計
BEAST(Bayesian Evolutionary Analysis Sampling Trees, Drummond et al., 2012)整合序列數據、化石校準點和取樣時間,在 MCMC 框架中同時估計系統發育、分歧時間和人口動態。鬆弛分子鐘模型(relaxed clock)允許不同枝幹有不同的演化速率——uncorrelated lognormal(UCLN)或 autocorrelated models。Skyline plot 模型可以估計有效族群大小(Ne)隨時間的變化,廣泛用於流行病學(如追蹤 HIV 或 SARS-CoV-2 的傳播動態)。

基因體尺度的系統發育
全基因體系統發育面臨 gene tree / species tree discordance——由不完全譜系分選(ILS)、水平基因轉移(HGT)和雜交引起。Coalescent-based 方法(ASTRAL, Zhang et al., 2018)從多個基因樹推斷物種樹,理論基礎是 multispecies coalescent model。ASTRAL 在輸入 gene trees 正確時是統計一致的(statistically consistent)。

系統發育基因體學
Phylogenomics(Delsuc et al., 2005)使用數百到數千個基因的信息量進行系統發育推斷。正交基因(orthologs)的篩選用 OrthoFinder 或 BUSCO。Compositional heterogeneity(不同 taxa 的序列組成偏差)和模型誤規範(model misspecification)是系統發育基因體學的主要偏差來源,site-heterogeneous models(如 CAT + Poisson Boltzmann)可以部分緩解。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關