大4 · 第1學期生物資訊學序列分析

輪廓HMM

Profile HMM

難度 4 · 專業sequence-analysismachine-learning

Profile HMM 由 Krogh et al.（1994, J Mol Biol）和 Eddy（1998, Bioinformatics）奠基，是生物序列分析中 generative probabilistic model 的典範。

模型建構的技術細節

從 MSA 建構 Profile HMM 的關鍵決策是選擇哪些 MSA 欄位作為 Match 狀態。HMMER 使用 entropy-based 方法：保留 occupancy > 50% 的欄位（即超過半數序列在該位置沒有缺口）。

發射機率的估計需要 pseudocount 處理避免零頻率。HMMER3 使用 mixture Dirichlet priors（Sjölander et al., 1996）——結合多種演化模式的 Dirichlet 分布作為先驗，比簡單的 Laplace 平滑更能反映蛋白質演化的實際模式。

轉移機率從 MSA 中 match/insert/delete 事件的計數估計。Position-specific gap penalties 是 Profile HMM 優於固定缺口罰分 PSSM 的核心優勢——蛋白質中 loop 區域容易有 indel，α-helix 和 β-sheet 內部則極少。

HMMER3 的加速架構

HMMER3 使用多階段過濾管線（pipeline）：

MSV filter：SSE 向量化的 ungapped Viterbi，只評估 Match 狀態，報告 P-value < 0.02 的序列（~2% 通過）
Viterbi filter：完整 Viterbi（含 Insert/Delete），P-value < 0.001（~0.1%）
Forward filter：Forward 演算法計算全機率 P(O|λ)，P-value < 1e-7
Full domain annotation：Forward-Backward + domain detection

Eddy（2011, PLoS Comp Biol）的關鍵洞見：前向演算法的 P(O|λ) 是對所有可能路徑的求和（不只最優路徑），理論上比 Viterbi 更靈敏，但計算量也更大。透過前面的快速過濾，使得最後階段的 Forward-Backward 只需處理極少數候選序列。

HMM-HMM 比對

HHsearch/HHblits（Söding, 2005; Remmert et al., 2012, Nat Methods）將搜尋擴展到 Profile HMM vs. Profile HMM 比對，靈敏度進一步提升，特別是在 twilight zone（< 20% 序列一致性）中偵測遠距同源。HHblits 預先計算資料庫中所有序列的 HMM 並建立索引，使 HMM-HMM 搜尋速度接近 BLAST。

在結構預測中的角色

AlphaFold2 的 Evoformer 模組以 MSA 為核心輸入，而深度 MSA 的建構依賴 JackHMMER 和 HHblits 的迭代搜尋。Profile HMM 搜尋的靈敏度直接影響 MSA 的深度和多樣性，進而影響共演化信號的品質和結構預測的準確度。ColabFold 使用 MMseqs2 替代 JackHMMER 以加速 MSA 建構，但犧牲了部分靈敏度。

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

隱馬可夫模型

生物資訊學 · 序列分析

難度 4 · 專業

多序列比對

生物資訊學 · 序列分析

難度 3 · 進階