Pocketen
任務
以下是 PocketGen 論文描述的總結翻譯:
?? 輸入
-
配體分子:
- 以三維結構(坐標和原子類型)提供。
-
蛋白質支架:
- 除去口袋區域的蛋白質的其余部分。
- 同樣表示為三維點云。
?? 模型架構
1. 等變雙層圖變換器
- 目標:對完整原子結構進行編碼和更新。
- 結構:
- 建模 殘基/配體級別 和 原子級別 的相互作用。
- 每個殘基/配體是一個具有特征的原子塊,特征表示為 (H_i \in \mathbb{R}^{n_i \times d}),坐標表示為 (X_i \in \mathbb{R}^{n_i \times 3})。
- 關鍵組件:
- 雙層注意力模塊:
- 原子級別注意力 (\alpha_{ij}) 用于塊內/塊間原子相互作用。
- 殘基/配體級別注意力 (\beta_{ij}) 用于全局塊相互作用。
- 等變前饋網絡(FFN):
- 使用幾何中心更新原子特征和坐標。
- 雙層注意力模塊:
- 更新:
- 僅迭代更新 口袋殘基 和 配體原子 的坐標和特征。
2. 序列優化模塊
- 目標:生成口袋殘基的氨基酸類型。
- 機制:
- 將 結構適配器 融入預訓練的 蛋白質語言模型(pLM)(例如 ESM-2)。
- 適配器是結構特征和序列特征之間的輕量級交叉注意力模塊。
- 僅對適配器進行訓練,pLM 保持凍結。
- 確保 序列-結構一致性。
?? 輸出
- 口袋殘基序列:通過 pLM 適配器預測的氨基酸類型。
- 完整原子口袋結構:優化后的背骨和側鏈原子坐標。
- 更新的配體位姿(可選):對配體坐標進行小幅調整以匹配口袋。
?? 訓練目標
- 條件生成:
[
P(\text{口袋序列和結構} \mid \text{配體 + 支架})
] - 使用幾何損失、氨基酸恢復和結構親和力指標進行優化。
?? 評估指標
- 親和力:Vina 分數、MM-GBSA、GlideSP。
- 結構有效性:RMSD、scTM、pLDDT。
- 序列準確性:氨基酸恢復率(AAR)。
- 成功率:生成的口袋在親和力方面超越參考的比例。
如果您需要圖表風格的總結(例如示意圖)或實現細節,請告訴我。
數據集的描述
以下是 PocketGen 論文中使用的兩個主要基準數據集的總結翻譯:
?? 使用的數據集
1. CrossDocked 數據集
-
描述:通過 交叉對接 生成的蛋白質-配體對,即將配體對接到非天然蛋白質構象中。
-
分割方式:基于 30% 序列同一性 閾值:
- 創建 訓練集、驗證集 和 測試集,其序列同一性重疊不超過 30%。
-
用途:
- 用于評估生成口袋的 結合親和力、序列恢復 和 結構有效性。
-
口袋定義:
- 與任何配體原子距離在 3.5 ? 以內的殘基(平均每個口袋 ≈ 8 個殘基)。
- 更大的口袋評估還使用 4.5 ? 和 5.5 ? 閾值。
? 論文 未明確說明 訓練集中確切的 蛋白質數量 或 配體數量,但 CrossDocked 總共包含 超過 22,000 個蛋白質-配體復合物。
2. Binding MOAD 數據集(萬能數據庫)
-
描述:從晶體學數據中整理出的實驗確定的 蛋白質-配體復合物 數據庫。
-
分割方式:
- 基于 酶委員會(EC)編號,以確保訓練集/測試集之間的功能多樣性。
-
用途:
- 用于 預訓練 和 泛化測試(例如,類藥物配體:皮質醇、阿哌沙班、芬太尼)。
-
評估:
- 同樣使用 3.5/4.5/5.5 ? 閾值定義口袋區域。
同樣,未給出確切數量,但 Binding MOAD 包含 約 9,000+ 個獨特的蛋白質-配體復合物。
?? 配體-蛋白質關聯
- 每個 蛋白質復合物 包含 一個配體。
- 模型 以該配體 和周圍蛋白質支架為條件,為每個蛋白質-配體對生成一個口袋。
- 在評估中,每個配體-蛋白質對生成 100 個口袋,以評估多樣性和親和力分布。
總結表
| 數據集 | 來源類型 | 訓練/測試集劃分依據 | 復合物數量 | 每個蛋白質的配體數量 | 平均口袋大小 |
|---|---|---|---|---|---|
| CrossDocked | 對接復合物 | 30% 序列同一性 | 約 22,000 | 1 | 約 8 個殘基 |
| Binding MOAD | 晶體結構 | EC 編號(功能) | 約 9,000 | 1 | 約 8-15 個殘基 |
如果您需要這些數據集的預處理流程或示例數據格式,請告訴我。
用到的蛋白質
在 PocketGen 中使用的兩個數據集(CrossDocked 和 Binding MOAD)確實提供了或基于實際的蛋白質 PDB 結構,這意味著每個蛋白質-配體復合物對應一個特定的 PDB 文件:
?? 1. CrossDocked 數據集
- ? 源自真實的 PDB 條目。
- ?? CrossDocked 是基于 跨對接模擬 構建的,這些模擬基于來自 Pocketome 和其他來源的晶體結構。
- ?? 對于每個配體,將其對接到多個 非天然蛋白質構象(即多個原本未與該配體結合的 PDB 文件)中。
- ?? 是的,CrossDocked 中的每個蛋白質-配體對都與一個 PDB 結構 相關聯(從中提取背骨和口袋坐標)。
注意:這些 PDB 文件可能不是該配體的天然結合物,但蛋白質結構來自真實的 PDB 文件。
?? 2. Binding MOAD(萬能數據庫)
- ? 100% 基于 蛋白質數據銀行(PDB) 中的 實驗結構 構建。
- ?? 每個蛋白質-配體復合物對應一個特定的 PDB ID。
- ?? 該數據集包括 共結晶配體,因此配體位姿已通過實驗驗證。
例如,論文中提到使用了:
- 皮質醇 對應 PDB: 8CBY
- 阿哌沙班 對應 PDB: 2P16
- 芬太尼 對應 PDB: 7V7
這些是來自蛋白質數據銀行的 實際 PDB 結構。
? 結論:
是的,用于 PocketGen 訓練和評估的每個復合物都有一個對應的 PDB 結構。 這些 PDB 結構要么是:
- 天然配體結合物(在 Binding MOAD 中),要么是
- 來自已知蛋白質的 跨對接結構(在 CrossDocked 中)。
如果您需要幫助檢索或可視化這些數據集中的 PDB 文件,請告訴我。
任務
以下是關于 PocketGen 任務的總結翻譯:
?? 任務目標
PocketGen 預測配體結合口袋的完整原子 3D 結構和殘基序列,其條件基于:
- 配體結構
- 蛋白質支架(即除去口袋區域的蛋白質其余部分)
?? 掩蔽策略
?? 輸入時掩蔽口袋區域
-
口袋殘基(例如,距離配體原子 3.5 ? 以內的殘基):
- 從輸入蛋白質支架中 移除
- 隱藏其 坐標和殘基類型
-
模型的任務是 生成缺失的口袋。
形式上,PocketGen 學習分布:
其中:
- 配體 和 非口袋殘基 是已知的
- 口袋(序列 + 結構) 是生成目標
?? 如何利用相互作用
-
等變雙層圖變換器:
- 構建 配體 + 支架的幾何圖。
- 預測原子級別和殘基級別的特征,并根據與配體和支架的相互作用更新口袋原子的 坐標。
-
序列優化模塊:
- 在 凍結的預訓練蛋白質語言模型(例如 ESM-2)中添加 結構感知適配器。
- 使用結構嵌入的 交叉注意力 學習為口袋位置分配氨基酸。
?? 迭代過程
-
PocketGen 執行 迭代優化:
- 使用虛擬位置初始化口袋原子(例如,最大原子模板)。
- 使用雙層圖變換器細化坐標。
- 使用結構-序列交叉注意力預測氨基酸類型。
- 如有需要,輕微更新配體構象。
- 重復直到收斂。
?? 總結:掩蔽 + 條件預測
| 方面 | 描述 |
| ---------------- |----- ---------------------------------------------------------------------------------------- |
| 輸入掩蔽 | 掏口的序列和坐標被 掩蔽。 |
| 條件基于 | 配體 + 蛋白質支架(非口袋殘基)。 |
| 預測目標 | 掏口的 殘基類型 和 原子坐標。 |
| 引導方式 | 配體-殘基相互作用,包括原子級別和殘基級別。 |
| 訓練 | 在具有真實 PDB 掏口結構的數據集上端到端訓練(例如,Binding MOAD、CrossDocked)。 |
如果您需要偽代碼或數據掩蔽 + 推理管道的示意圖,請告訴我。

浙公網安備 33010602011771號