同源建模(Homology Modeling / Comparative Modeling)基於蛋白質演化的核心觀察:三維結構在演化中比序列更為保守(Chothia & Lesk, 1986)。當目標序列與模板序列一致度 > 30% 時,主鏈 RMSD 通常 < 2 Å,提供足以進行功能推論和藥物設計的結構資訊。
方法論框架
- 模板辨識與選擇:PSI-BLAST(Altschul et al., 1997)和 profile-profile 比對法(HHpred, Söding, 2005)可偵測遠緣同源性。模板選擇考慮序列一致度、解析度、覆蓋率和實驗方法。
- 目標-模板比對:比對品質是建模精度的最大瓶頸,尤其在 twilight zone(20–30% 一致度)。多模板比對和疊代比對策略(如 HHblits)可提高準確度。
- 骨架生成:以滿足空間限制(spatial restraints)的方式建構模型——MODELLER(Šali & Blundell, 1993)從比對中提取距離和二面角限制,以共軛梯度法和模擬退火優化目標函數。
- 環區建模:缺乏模板的環區(loop region)以 ab initio 方法或片段組裝法建構,通常是同源模型中誤差最大的區域。
- 側鏈建模:SCWRL4(Krivov et al., 2009)以旋轉異構體圖求解最優側鏈構象。
品質驗證
統計勢能評分(DOPE, Shen & Šali, 2006)、全原子接觸分析(MolProbity, Chen et al., 2010)和 Ramachandran outlier 比例是標準驗證指標。CAMEO(Continuous Automated Model EvaluatiOn)提供持續性的盲測評估。
與深度學習方法的關係
AlphaFold2(Jumper et al., 2021)在 CASP14 的自由建模目標上達到前所未有的精度,使傳統同源建模在高同源性區間的優勢縮減。然而,同源建模在以下場景仍有價值:(1)需要特定配體結合構象時(AlphaFold 預測的是 apo 構象);(2)計算資源受限的高通量建模;(3)模型可解釋性需求——限制式建模的每一步都可追溯。SWISS-MODEL(Waterhouse et al., 2018)已整合 AlphaFold 結構作為備選模板,形成混合式工作流。
