大4 · 第2學期結構生物學蛋白質結構

AlphaFold

難度 4 · 專業structural-biologybioinformatics想做成互動版

AlphaFold 的技術細節和後續發展對結構生物學的工作流程產生了深遠影響。

AlphaFold2 的訓練與架構細節
訓練數據：PDB 結構 + BFD/Uniclust30 MSA + PDB70 模板。損失函數包含：FAPE（Frame Aligned Point Error，SE(3) 不變的座標損失）、pLDDT 輔助損失、masked MSA 預測損失和 distogram 損失。Evoformer 的 pair representation 有效地學習了殘基對之間的空間約束——這等效於傳統方法中的距離約束和接觸圖，但以 end-to-end learning 取代了手工特徵工程。Recycling 機制使模型可以在推斷時反覆精化，不需要大幅增加參數量。

AlphaFold-Multimer 和 AlphaFold3
AlphaFold-Multimer（Evans et al., 2022）擴展到蛋白質複合體的結構預測，以 chain pairing（配對不同物種的亞基序列）和 inter-chain 接觸約束為關鍵。準確度因複合體類型而異（同源寡聚體 > 異源寡聚體 > 瞬態交互作用）。

AlphaFold3（Abramson et al., 2024, Nature）統一了蛋白質、核酸、小分子配體、離子和翻譯後修飾的結構預測。以 diffusion module 取代 structure module，直接在全原子坐標空間進行去噪。AF3 在蛋白質-核酸和蛋白質-小分子複合體上的準確度顯著優於 AF2。

對實驗結構生物學的影響

Cryo-EM 建模：AlphaFold 預測模型常作為 Cryo-EM 密度圖的初始模型（molecular replacement 的 AI 版本）。但需謹慎：AlphaFold 模型可能引入偏差（model bias），尤其在中等解析度（3-4 Å）的 map 中。
X 射線晶體學：AlphaFold 模型用於分子置換（MR），解決了許多以前因缺乏同源結構模型而無法解析的結構。McCoy et al.（2022）報導 AlphaFold-MR 的成功率顯著高於傳統 homology model。
功能預測：AlphaFold 的 pLDDT 和 PAE（Predicted Aligned Error）可用於預測域界、蛋白質-蛋白質交互介面和無序區域。低 PAE 區域暗示確定的相對位置。

ColabFold 和生態系統
ColabFold（Mirdita et al., 2022）大幅降低了使用門檻——MSA 搜尋以 MMseqs2 加速 40-60x，免費 Google Colab 即可運行。ESMFold（Meta）以蛋白質語言模型（ESM-2）取代 MSA，犧牲少量精度換取極速推斷（秒級 vs 分鐘級）。OpenFold 是 AlphaFold2 的可訓練開源重實作。

局限性和未解問題
AF 預測的是「PDB 結構的平均態」而非真實的構象集合。對構象多態（如 kinase 的 active/inactive 態）、配體誘導的構象變化、以及孤兒蛋白（無 MSA 深度）的預測仍不理想。af2_conformations（del Alamo et al., 2022）和 AlphaFlow（Jing et al., 2024）嘗試以 AF 架構採樣構象集合，但尚未達到 MD 的精度。

文獻參考：Jumper, J. et al. (2021). Nature, 596, 583-589. / Abramson, J. et al. (2024). Nature, 630, 493-500. / Mirdita, M. et al. (2022). Nat. Methods, 19, 679-682.

互動工具