基序搜尋問題(motif discovery problem)的形式化定義:給定 n 條長度為 L 的序列 S = {s1,...,sn},找到寬度為 w 的基序模型 θ 及每條序列中基序的起始位置 a = {a1,...,an},使得似然函數 P(S|θ,a) 最大化。
EM 演算法在 MEME 中的實作
MEME 使用兩組分混合模型(two-component mixture model):每個位置 j 在序列 i 中的字母 xi,j 要麼來自基序模型 θ(機率為 λ),要麼來自背景模型 θ0(機率為 1-λ)。
E-step:計算後驗機率 Z(i,j) = P(motif starts at j in si | θ_current),使用 Bayes 定理結合基序和背景的似然比。
M-step:根據 Z(i,j) 加權更新 θ 的每個位置每個字母的頻率。
MEME 處理多種基序出現模式:OOPS(每條序列恰好一個)、ZOOPS(零個或一個)和 ANR(任意數量)。不同模式的 Z 計算方式不同。收斂後透過 log-likelihood ratio 或 E-value 評估基序的統計顯著性。
Gibbs Sampling 的理論基礎
Lawrence et al.(1993)的 Gibbs sampler 是 MCMC 方法的具體應用。每次迭代隨機選擇一條序列 si,保持其他序列的基序位置不變,根據條件後驗分布 P(ai=j | a_{-i}, S) 重新取樣 ai。條件後驗正比於 ∏{k=1}^{w} θ{k,x_{i,j+k-1}} / θ_{0,x_{i,j+k-1}}。理論上在足夠迭代後收斂到真實的後驗分布,但存在多模態問題(multiple local optima),需要多次隨機起始。
深度學習方法的興起
卷積神經網路(CNN)已在基序偵測中展現優勢。DeepBind(Alipanahi et al., 2015, Nat Biotechnol)將 DNA 序列視為四通道的一維信號,卷積核自動學習基序特徵。學到的濾波器可轉換為 PWM 進行解讀。
後續模型如 DeepSEA(Zhou & Troyanskaya, 2015)、BPNet(Avsec et al., 2021, Nat Genet)進一步整合染色質可及性和組蛋白修飾資訊,直接從序列預測轉錄因子結合、DNase 敏感性等多種表觀基因體特徵。BPNet 使用反卷積(deconvolution)和 TF-MoDISco 演算法從模型中提取可解讀的基序,代表了「從數據驅動到機制理解」的方法學轉變。
基序資料庫
JASPAR(開源)、TRANSFAC(商業)、CIS-BP 是主要的轉錄因子結合基序資料庫。HOCOMOCO v11 整合了多來源的人類和小鼠 TF 基序。UniPROBE 提供蛋白質結合微陣列(PBM)實驗測定的基序。這些資源與搜尋工具互補,支持基序富集分析和調控網路推論。
