Pocketen

任務

以下是 PocketGen 論文描述的總結翻譯：

?? 輸入

配體分子：
- 以三維結構（坐標和原子類型）提供。
蛋白質支架：
- 除去口袋區域的蛋白質的其余部分。
- 同樣表示為三維點云。

?? 模型架構

1. 等變雙層圖變換器

目標：對完整原子結構進行編碼和更新。
結構：
- 建模 殘基/配體級別 和 原子級別 的相互作用。
- 每個殘基/配體是一個具有特征的原子塊，特征表示為 (H_i \in \mathbb{R}^{n_i \times d})，坐標表示為 (X_i \in \mathbb{R}^{n_i \times 3})。
關鍵組件：
- 雙層注意力模塊：
  - 原子級別注意力 (\alpha_{ij}) 用于塊內/塊間原子相互作用。
  - 殘基/配體級別注意力 (\beta_{ij}) 用于全局塊相互作用。
- 等變前饋網絡（FFN）：
  - 使用幾何中心更新原子特征和坐標。
更新：
- 僅迭代更新 口袋殘基 和 配體原子 的坐標和特征。

2. 序列優化模塊

目標：生成口袋殘基的氨基酸類型。
機制：
- 將 結構適配器 融入預訓練的 蛋白質語言模型（pLM）（例如 ESM-2）。
- 適配器是結構特征和序列特征之間的輕量級交叉注意力模塊。
- 僅對適配器進行訓練，pLM 保持凍結。
- 確保 序列-結構一致性。

?? 輸出

口袋殘基序列：通過 pLM 適配器預測的氨基酸類型。
完整原子口袋結構：優化后的背骨和側鏈原子坐標。
更新的配體位姿（可選）：對配體坐標進行小幅調整以匹配口袋。

?? 訓練目標

條件生成：
[
P(\text{口袋序列和結構} \mid \text{配體 + 支架})
]
使用幾何損失、氨基酸恢復和結構親和力指標進行優化。

?? 評估指標

親和力：Vina 分數、MM-GBSA、GlideSP。
結構有效性：RMSD、scTM、pLDDT。
序列準確性：氨基酸恢復率（AAR）。
成功率：生成的口袋在親和力方面超越參考的比例。

如果您需要圖表風格的總結（例如示意圖）或實現細節，請告訴我。

數據集的描述

以下是 PocketGen 論文中使用的兩個主要基準數據集的總結翻譯：

?? 使用的數據集

1. CrossDocked 數據集

描述：通過 交叉對接 生成的蛋白質-配體對，即將配體對接到非天然蛋白質構象中。
分割方式：基于 30% 序列同一性 閾值：
- 創建 訓練集、驗證集 和 測試集，其序列同一性重疊不超過 30%。
用途：
- 用于評估生成口袋的 結合親和力、序列恢復 和 結構有效性。
口袋定義：
- 與任何配體原子距離在 3.5 ? 以內的殘基（平均每個口袋 ≈ 8 個殘基）。
- 更大的口袋評估還使用 4.5 ? 和 5.5 ? 閾值。

? 論文 未明確說明 訓練集中確切的 蛋白質數量 或 配體數量，但 CrossDocked 總共包含 超過 22,000 個蛋白質-配體復合物。

2. Binding MOAD 數據集（萬能數據庫）

描述：從晶體學數據中整理出的實驗確定的 蛋白質-配體復合物 數據庫。
分割方式：
- 基于 酶委員會（EC）編號，以確保訓練集/測試集之間的功能多樣性。
用途：
- 用于 預訓練 和 泛化測試（例如，類藥物配體：皮質醇、阿哌沙班、芬太尼）。
評估：
- 同樣使用 3.5/4.5/5.5 ? 閾值定義口袋區域。

同樣，未給出確切數量，但 Binding MOAD 包含 約 9,000+ 個獨特的蛋白質-配體復合物。

?? 配體-蛋白質關聯

每個 蛋白質復合物 包含 一個配體。
模型 以該配體 和周圍蛋白質支架為條件，為每個蛋白質-配體對生成一個口袋。
在評估中，每個配體-蛋白質對生成 100 個口袋，以評估多樣性和親和力分布。

總結表

數據集	來源類型	訓練/測試集劃分依據	復合物數量	每個蛋白質的配體數量	平均口袋大小
CrossDocked	對接復合物	30% 序列同一性	約 22,000	1	約 8 個殘基
Binding MOAD	晶體結構	EC 編號（功能）	約 9,000	1	約 8-15 個殘基

如果您需要這些數據集的預處理流程或示例數據格式，請告訴我。

用到的蛋白質

在 PocketGen 中使用的兩個數據集（CrossDocked 和 Binding MOAD）確實提供了或基于實際的蛋白質 PDB 結構，這意味著每個蛋白質-配體復合物對應一個特定的 PDB 文件：

?? 1. CrossDocked 數據集

? 源自真實的 PDB 條目。
?? CrossDocked 是基于 跨對接模擬 構建的，這些模擬基于來自 Pocketome 和其他來源的晶體結構。
?? 對于每個配體，將其對接到多個 非天然蛋白質構象（即多個原本未與該配體結合的 PDB 文件）中。
?? 是的，CrossDocked 中的每個蛋白質-配體對都與一個 PDB 結構 相關聯（從中提取背骨和口袋坐標）。

注意：這些 PDB 文件可能不是該配體的天然結合物，但蛋白質結構來自真實的 PDB 文件。

?? 2. Binding MOAD（萬能數據庫）

? 100% 基于 蛋白質數據銀行（PDB） 中的 實驗結構 構建。
?? 每個蛋白質-配體復合物對應一個特定的 PDB ID。
?? 該數據集包括 共結晶配體，因此配體位姿已通過實驗驗證。

例如，論文中提到使用了：

皮質醇 對應 PDB: 8CBY
阿哌沙班 對應 PDB: 2P16
芬太尼 對應 PDB: 7V7

這些是來自蛋白質數據銀行的 實際 PDB 結構。

? 結論：

是的，用于 PocketGen 訓練和評估的每個復合物都有一個對應的 PDB 結構。 這些 PDB 結構要么是：

天然配體結合物（在 Binding MOAD 中），要么是
來自已知蛋白質的 跨對接結構（在 CrossDocked 中）。

如果您需要幫助檢索或可視化這些數據集中的 PDB 文件，請告訴我。

任務

以下是關于 PocketGen 任務的總結翻譯：

?? 任務目標

PocketGen 預測配體結合口袋的完整原子 3D 結構和殘基序列，其條件基于：

配體結構
蛋白質支架（即除去口袋區域的蛋白質其余部分）

?? 掩蔽策略

?? 輸入時掩蔽口袋區域

口袋殘基（例如，距離配體原子 3.5 ? 以內的殘基）：
- 從輸入蛋白質支架中移除
- 隱藏其 坐標和殘基類型
模型的任務是 生成缺失的口袋。

形式上，PocketGen 學習分布：

\[P(\text{口袋序列和結構} \mid \text{配體}, \text{支架}) \]

其中：

配體和 非口袋殘基 是已知的
口袋（序列 + 結構） 是生成目標

?? 如何利用相互作用

等變雙層圖變換器：
- 構建 配體 + 支架的幾何圖。
- 預測原子級別和殘基級別的特征，并根據與配體和支架的相互作用更新口袋原子的坐標。
序列優化模塊：
- 在 凍結的預訓練蛋白質語言模型（例如 ESM-2）中添加 結構感知適配器。
- 使用結構嵌入的 交叉注意力 學習為口袋位置分配氨基酸。

?? 迭代過程

PocketGen 執行 迭代優化：
1. 使用虛擬位置初始化口袋原子（例如，最大原子模板）。
2. 使用雙層圖變換器細化坐標。
3. 使用結構-序列交叉注意力預測氨基酸類型。
4. 如有需要，輕微更新配體構象。
5. 重復直到收斂。

?? 總結：掩蔽 + 條件預測

| 方面 | 描述 |
| ---------------- |----- ---------------------------------------------------------------------------------------- |
| 輸入掩蔽 | 掏口的序列和坐標被掩蔽。 |
| 條件基于 | 配體 + 蛋白質支架（非口袋殘基）。 |
| 預測目標 | 掏口的 殘基類型 和 原子坐標。 |
| 引導方式 | 配體-殘基相互作用，包括原子級別和殘基級別。 |
| 訓練 | 在具有真實 PDB 掏口結構的數據集上端到端訓練（例如，Binding MOAD、CrossDocked）。 |

如果您需要偽代碼或數據掩蔽 + 推理管道的示意圖，請告訴我。

posted @ 2025-05-23 13:41 GraphL 閱讀(52) 評論(0) 收藏舉報

刷新頁面返回頂部

csjywu01