大4 · 第1學期生物資訊學基因體分析

基因體組裝

Genome Assembly

難度 3 · 進階bioinformatics

基因體組裝是計算基因體學的核心問題，其理論根基涉及圖論、統計學和演算法設計。

de Bruijn 圖的理論基礎

Pevzner et al.（2001, J Comp Biol）將基因體組裝形式化為歐拉路徑問題。在 de Bruijn 圖 DB(k) 中，節點是所有觀測到的 (k-1)-mers，有向邊對應 k-mers。理想情況下，基因體序列是圖中的歐拉路徑（經過每條邊恰好一次），可在 O(E) 時間內找到。

實務上，定序錯誤產生假 k-mers（需修剪低覆蓋度節點/邊）、重複序列產生圖中的「泡泡」和「纏結」（需解開）、測序覆蓋度不均勻產生斷裂。SPAdes（Bankevich et al., 2012, J Comp Biol）使用多個 k 值建構 multisized de Bruijn graph，小 k 保連續性、大 k 解重複，再透過路徑延伸合併結果。

String Graph 和 OLC

Myers（2005, Bioinformatics）提出 string graph 形式化 OLC 方法。節點代表讀段，邊代表不可約重疊（irreducible overlap），基因體重建對應圖中的 Hamilton 路徑。雖然 Hamilton 路徑問題是 NP-hard，但在高覆蓋度長讀段場景中，string graph 通常足夠稀疏而可解。

Hifiasm（Cheng et al., 2021, Nat Methods）利用 PacBio HiFi 讀段（>99% 準確率、~15 kb 長度）建構 phased string graph，同時解析單倍型。這是實現 T2T（telomere-to-telomere）組裝的關鍵工具。

T2T 組裝的里程碑

T2T Consortium（Nurk et al., 2022, Science）完成人類基因體的第一個無缺口組裝（CHM13），填補了 GRCh38 中 ~8% 的缺口，包括所有著絲粒和短臂區域。關鍵技術組合：(1) HiFi 讀段提供準確的 string graph (2) Oxford Nanopore 超長讀段（>100 kb）跨過大型重複 (3) HiC 數據驗證染色體結構。

單倍型解析組裝（Phased Assembly）

二倍體組裝的目標是分離父母源序列。trio binning（Koren et al., 2018）利用父母短讀段中的 k-mer 差異將子代長讀段分為父源和母源，各自獨立組裝。Hi-C assisted phasing 利用同一條染色體上的 DNA 近距離接觸資訊進行 haplotype scaffolding。Verkko（Rautiainen et al., 2023, Nat Biotechnol）是最新的 T2T 級 phased assembler。

品質評估的定量框架

BUSCO（Simão et al., 2015）和 Merqury（Rhie et al., 2020）是兩個互補的評估工具：BUSCO 以基因完整性為指標，Merqury 使用 k-mer 頻譜比較（組裝 vs. 讀段）估計 QV（quality value）和完整性，不需要參考基因體。

互動工具