Profile HMM 由 Krogh et al.(1994, J Mol Biol)和 Eddy(1998, Bioinformatics)奠基,是生物序列分析中 generative probabilistic model 的典範。
模型建構的技術細節
從 MSA 建構 Profile HMM 的關鍵決策是選擇哪些 MSA 欄位作為 Match 狀態。HMMER 使用 entropy-based 方法:保留 occupancy > 50% 的欄位(即超過半數序列在該位置沒有缺口)。
發射機率的估計需要 pseudocount 處理避免零頻率。HMMER3 使用 mixture Dirichlet priors(Sjölander et al., 1996)——結合多種演化模式的 Dirichlet 分布作為先驗,比簡單的 Laplace 平滑更能反映蛋白質演化的實際模式。
轉移機率從 MSA 中 match/insert/delete 事件的計數估計。Position-specific gap penalties 是 Profile HMM 優於固定缺口罰分 PSSM 的核心優勢——蛋白質中 loop 區域容易有 indel,α-helix 和 β-sheet 內部則極少。
HMMER3 的加速架構
HMMER3 使用多階段過濾管線(pipeline):
- MSV filter:SSE 向量化的 ungapped Viterbi,只評估 Match 狀態,報告 P-value < 0.02 的序列(~2% 通過)
- Viterbi filter:完整 Viterbi(含 Insert/Delete),P-value < 0.001(~0.1%)
- Forward filter:Forward 演算法計算全機率 P(O|λ),P-value < 1e-7
- Full domain annotation:Forward-Backward + domain detection
Eddy(2011, PLoS Comp Biol)的關鍵洞見:前向演算法的 P(O|λ) 是對所有可能路徑的求和(不只最優路徑),理論上比 Viterbi 更靈敏,但計算量也更大。透過前面的快速過濾,使得最後階段的 Forward-Backward 只需處理極少數候選序列。
HMM-HMM 比對
HHsearch/HHblits(Söding, 2005; Remmert et al., 2012, Nat Methods)將搜尋擴展到 Profile HMM vs. Profile HMM 比對,靈敏度進一步提升,特別是在 twilight zone(< 20% 序列一致性)中偵測遠距同源。HHblits 預先計算資料庫中所有序列的 HMM 並建立索引,使 HMM-HMM 搜尋速度接近 BLAST。
在結構預測中的角色
AlphaFold2 的 Evoformer 模組以 MSA 為核心輸入,而深度 MSA 的建構依賴 JackHMMER 和 HHblits 的迭代搜尋。Profile HMM 搜尋的靈敏度直接影響 MSA 的深度和多樣性,進而影響共演化信號的品質和結構預測的準確度。ColabFold 使用 MMseqs2 替代 JackHMMER 以加速 MSA 建構,但犧牲了部分靈敏度。
