機器學習在生物資訊學中的應用已從輔助分析工具演變為驅動發現的核心方法論。以下從演算法選擇、生物學特有的方法學挑戰和前沿應用三個維度進行深入討論。
演算法選擇的考量
不同的生物資訊學問題需要不同的 ML 策略。Greener et al.(2022, Nature Reviews Molecular Cell Biology)系統綜述了生物學中 ML 的最佳實踐:
表格數據(tabular data):基因表現矩陣、臨床特徵等結構化數據。梯度提升樹(XGBoost, LightGBM)在中小規模表格數據上通常優於深度學習(Grinsztajn et al., 2022, NeurIPS)。隨機森林提供直觀的特徵重要性排序,在基因篩選中廣泛使用。
序列數據:DNA/RNA/蛋白質序列。一維卷積神經網路(1D-CNN)擅長偵測序列 motif。Transformer 架構(self-attention 機制)可捕捉長距離依賴關係——蛋白質語言模型(ESM-2, ProtTrans)和基因組模型(Enformer, Nucleotide Transformer)已成為序列分析的 foundation model。
圖結構數據:分子圖(原子為節點、鍵為邊)、蛋白質互動網路、基因調控網路。圖神經網路(GNN, 包括 GCN、GAT、MPNN)可直接在圖結構上運算。Gilmer et al.(2017, ICML, Message Passing Neural Networks)建立了分子性質預測的 GNN 框架。
影像數據:醫學影像、顯微鏡影像、蛋白質結構的密度圖。CNN(ResNet、U-Net)是標準選擇;Vision Transformer(ViT)在大數據集上表現強勁。
生物資訊學特有的方法學挑戰
小樣本問題(Small Sample Size):
基因組研究常面臨「維度詛咒」——特徵數(>20,000 genes)遠超樣本數(通常 <1,000)。緩解策略:特徵選擇(LASSO、elastic net)、transfer learning(在大規模數據上預訓練,在目標任務上微調)和 few-shot learning。類別不平衡(Class Imbalance):
致病變異遠少於正常變異,疾病樣本少於正常樣本。處理方法:SMOTE(合成少數類過採樣)、class weighting、focal loss 和 anomaly detection 框架。數據洩漏(Data Leakage):
生物序列間的同源性導致訓練集和測試集不獨立。Jaeger et al.(2024, Nature Methods)系統分析了蛋白質 ML 基準測試中的同源性洩漏問題——如果訓練集中包含測試集序列的同源蛋白,表現會被嚴重高估。正確的做法是基於序列相似度進行數據拆分(如 <30% sequence identity cutoff)。可解釋性(Interpretability):
生物學家不只需要預測結果,更需要理解機制。- 注意力權重(Attention Weights):可視化 Transformer 模型「關注」的序列位置,但 Jain & Wallace(2019, NAACL)指出 attention 不等於解釋。
- SHAP(SHapley Additive exPlanations):Lundberg & Lee(2017, NeurIPS)基於 Shapley 值的統一解釋框架,為每個特徵分配貢獻分數。
- Integrated Gradients:Sundararajan et al.(2017, ICML)的梯度路徑積分方法,為輸入特徵的貢獻提供公理化的歸因。
前沿應用
基礎模型(Foundation Models)在生物學中的興起:
- scGPT(Cui et al., 2024, Nature Methods):在超過 3,300 萬個單細胞轉錄組上預訓練的基礎模型,透過自監督學習捕捉基因-基因互動和細胞狀態,可微調用於細胞類型註釋、基因擾動預測和多批次整合。
- Geneformer(Theodoris et al., 2023, Nature):在約 3,000 萬個單細胞上預訓練的 Transformer 模型,學習到基因的「上下文」表達模式,用於預測心臟病的治療靶點和基因調控網路。
- AlphaFold 2/3 和 ESM-2/ESMFold:蛋白質的基礎模型,已深刻影響結構生物學和藥物發現工作流程。
因果機器學習(Causal ML):
傳統 ML 學習相關性,但生物學家更關心因果關係。結合 Pearl 的 SCM 框架和 ML 的因果推斷方法正在發展:Conditional Average Treatment Effect(CATE)估計、instrumental variable 方法和 causal discovery 演算法(PC, GES, NOTEARS)在基因調控網路推斷中展現潛力。
主動學習(Active Learning):
在藥物發現中,實驗成本高昂。Active learning 策略選擇最有資訊價值的實驗進行,最大化每次實驗的學習效率。Bayesian optimization 是最常用的框架,已被 Evo Design 和 directed evolution 工作流程採用。
