AlphaFold 的技術細節和後續發展對結構生物學的工作流程產生了深遠影響。
AlphaFold2 的訓練與架構細節
訓練數據:PDB 結構 + BFD/Uniclust30 MSA + PDB70 模板。損失函數包含:FAPE(Frame Aligned Point Error,SE(3) 不變的座標損失)、pLDDT 輔助損失、masked MSA 預測損失和 distogram 損失。Evoformer 的 pair representation 有效地學習了殘基對之間的空間約束——這等效於傳統方法中的距離約束和接觸圖,但以 end-to-end learning 取代了手工特徵工程。Recycling 機制使模型可以在推斷時反覆精化,不需要大幅增加參數量。
AlphaFold-Multimer 和 AlphaFold3
AlphaFold-Multimer(Evans et al., 2022)擴展到蛋白質複合體的結構預測,以 chain pairing(配對不同物種的亞基序列)和 inter-chain 接觸約束為關鍵。準確度因複合體類型而異(同源寡聚體 > 異源寡聚體 > 瞬態交互作用)。
AlphaFold3(Abramson et al., 2024, Nature)統一了蛋白質、核酸、小分子配體、離子和翻譯後修飾的結構預測。以 diffusion module 取代 structure module,直接在全原子坐標空間進行去噪。AF3 在蛋白質-核酸和蛋白質-小分子複合體上的準確度顯著優於 AF2。
對實驗結構生物學的影響
- Cryo-EM 建模:AlphaFold 預測模型常作為 Cryo-EM 密度圖的初始模型(molecular replacement 的 AI 版本)。但需謹慎:AlphaFold 模型可能引入偏差(model bias),尤其在中等解析度(3-4 Å)的 map 中。
- X 射線晶體學:AlphaFold 模型用於分子置換(MR),解決了許多以前因缺乏同源結構模型而無法解析的結構。McCoy et al.(2022)報導 AlphaFold-MR 的成功率顯著高於傳統 homology model。
- 功能預測:AlphaFold 的 pLDDT 和 PAE(Predicted Aligned Error)可用於預測域界、蛋白質-蛋白質交互介面和無序區域。低 PAE 區域暗示確定的相對位置。
ColabFold 和生態系統
ColabFold(Mirdita et al., 2022)大幅降低了使用門檻——MSA 搜尋以 MMseqs2 加速 40-60x,免費 Google Colab 即可運行。ESMFold(Meta)以蛋白質語言模型(ESM-2)取代 MSA,犧牲少量精度換取極速推斷(秒級 vs 分鐘級)。OpenFold 是 AlphaFold2 的可訓練開源重實作。
局限性和未解問題
AF 預測的是「PDB 結構的平均態」而非真實的構象集合。對構象多態(如 kinase 的 active/inactive 態)、配體誘導的構象變化、以及孤兒蛋白(無 MSA 深度)的預測仍不理想。af2_conformations(del Alamo et al., 2022)和 AlphaFlow(Jing et al., 2024)嘗試以 AF 架構採樣構象集合,但尚未達到 MD 的精度。
文獻參考:Jumper, J. et al. (2021). Nature, 596, 583-589. / Abramson, J. et al. (2024). Nature, 630, 493-500. / Mirdita, M. et al. (2022). Nat. Methods, 19, 679-682.
