大4 · 第1學期生物資訊學序列分析

基序搜尋

Motif Finding

難度 3 · 進階bioinformaticsmolecular-biology

基序搜尋問題（motif discovery problem）的形式化定義：給定 n 條長度為 L 的序列 S = {s1,...,sn}，找到寬度為 w 的基序模型 θ 及每條序列中基序的起始位置 a = {a1,...,an}，使得似然函數 P(S|θ,a) 最大化。

EM 演算法在 MEME 中的實作

MEME 使用兩組分混合模型（two-component mixture model）：每個位置 j 在序列 i 中的字母 xi,j 要麼來自基序模型 θ（機率為 λ），要麼來自背景模型 θ0（機率為 1-λ）。

E-step：計算後驗機率 Z(i,j) = P(motif starts at j in si | θ_current)，使用 Bayes 定理結合基序和背景的似然比。
M-step：根據 Z(i,j) 加權更新 θ 的每個位置每個字母的頻率。

MEME 處理多種基序出現模式：OOPS（每條序列恰好一個）、ZOOPS（零個或一個）和 ANR（任意數量）。不同模式的 Z 計算方式不同。收斂後透過 log-likelihood ratio 或 E-value 評估基序的統計顯著性。

Gibbs Sampling 的理論基礎

Lawrence et al.（1993）的 Gibbs sampler 是 MCMC 方法的具體應用。每次迭代隨機選擇一條序列 si，保持其他序列的基序位置不變，根據條件後驗分布 P(ai=j | a_{-i}, S) 重新取樣 ai。條件後驗正比於 ∏{k=1}^{w} θ{k,x_{i,j+k-1}} / θ_{0,x_{i,j+k-1}}。理論上在足夠迭代後收斂到真實的後驗分布，但存在多模態問題（multiple local optima），需要多次隨機起始。

深度學習方法的興起

卷積神經網路（CNN）已在基序偵測中展現優勢。DeepBind（Alipanahi et al., 2015, Nat Biotechnol）將 DNA 序列視為四通道的一維信號，卷積核自動學習基序特徵。學到的濾波器可轉換為 PWM 進行解讀。

後續模型如 DeepSEA（Zhou & Troyanskaya, 2015）、BPNet（Avsec et al., 2021, Nat Genet）進一步整合染色質可及性和組蛋白修飾資訊，直接從序列預測轉錄因子結合、DNase 敏感性等多種表觀基因體特徵。BPNet 使用反卷積（deconvolution）和 TF-MoDISco 演算法從模型中提取可解讀的基序，代表了「從數據驅動到機制理解」的方法學轉變。

基序資料庫

JASPAR（開源）、TRANSFAC（商業）、CIS-BP 是主要的轉錄因子結合基序資料庫。HOCOMOCO v11 整合了多來源的人類和小鼠 TF 基序。UniPROBE 提供蛋白質結合微陣列（PBM）實驗測定的基序。這些資源與搜尋工具互補，支持基序富集分析和調控網路推論。

互動工具