基因體組裝是計算基因體學的核心問題,其理論根基涉及圖論、統計學和演算法設計。
de Bruijn 圖的理論基礎
Pevzner et al.(2001, J Comp Biol)將基因體組裝形式化為歐拉路徑問題。在 de Bruijn 圖 DB(k) 中,節點是所有觀測到的 (k-1)-mers,有向邊對應 k-mers。理想情況下,基因體序列是圖中的歐拉路徑(經過每條邊恰好一次),可在 O(E) 時間內找到。
實務上,定序錯誤產生假 k-mers(需修剪低覆蓋度節點/邊)、重複序列產生圖中的「泡泡」和「纏結」(需解開)、測序覆蓋度不均勻產生斷裂。SPAdes(Bankevich et al., 2012, J Comp Biol)使用多個 k 值建構 multisized de Bruijn graph,小 k 保連續性、大 k 解重複,再透過路徑延伸合併結果。
String Graph 和 OLC
Myers(2005, Bioinformatics)提出 string graph 形式化 OLC 方法。節點代表讀段,邊代表不可約重疊(irreducible overlap),基因體重建對應圖中的 Hamilton 路徑。雖然 Hamilton 路徑問題是 NP-hard,但在高覆蓋度長讀段場景中,string graph 通常足夠稀疏而可解。
Hifiasm(Cheng et al., 2021, Nat Methods)利用 PacBio HiFi 讀段(>99% 準確率、~15 kb 長度)建構 phased string graph,同時解析單倍型。這是實現 T2T(telomere-to-telomere)組裝的關鍵工具。
T2T 組裝的里程碑
T2T Consortium(Nurk et al., 2022, Science)完成人類基因體的第一個無缺口組裝(CHM13),填補了 GRCh38 中 ~8% 的缺口,包括所有著絲粒和短臂區域。關鍵技術組合:(1) HiFi 讀段提供準確的 string graph (2) Oxford Nanopore 超長讀段(>100 kb)跨過大型重複 (3) HiC 數據驗證染色體結構。
單倍型解析組裝(Phased Assembly)
二倍體組裝的目標是分離父母源序列。trio binning(Koren et al., 2018)利用父母短讀段中的 k-mer 差異將子代長讀段分為父源和母源,各自獨立組裝。Hi-C assisted phasing 利用同一條染色體上的 DNA 近距離接觸資訊進行 haplotype scaffolding。Verkko(Rautiainen et al., 2023, Nat Biotechnol)是最新的 T2T 級 phased assembler。
品質評估的定量框架
BUSCO(Simão et al., 2015)和 Merqury(Rhie et al., 2020)是兩個互補的評估工具:BUSCO 以基因完整性為指標,Merqury 使用 k-mer 頻譜比較(組裝 vs. 讀段)估計 QV(quality value)和完整性,不需要參考基因體。
