<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      Docker 容器化部署 verl 手冊

      一、關于 verl:它是什么?能做什么?

      基于 verl 官方文檔(https://verl.readthedocs.io),verl 是一款聚焦大模型“訓練+推理”全流程的工具集,核心定位是降低大模型強化學習(RL)訓練與高效推理的門檻,尤其適配企業(yè)級大模型落地場景。其本質是通過封裝主流深度學習框架(如 PyTorch、Megatron-LM)和推理引擎(如 vLLM),讓開發(fā)者無需手動解決復雜的環(huán)境依賴、分布式配置問題,專注于模型優(yōu)化與業(yè)務邏輯。

      1.1 verl 的核心功能

      verl 的能力覆蓋“訓練”和“推理”兩大核心場景,且支持靈活擴展:

      • 大模型訓練:主打強化學習與分布式能力

        • 支持多訓練后端:適配 FSDP(PyTorch 原生分布式框架,適合快速驗證原型)、Megatron-LM(NVIDIA 高性能分布式框架,支持萬卡級大模型訓練,適合大規(guī)模落地)。
        • 強化學習(RL)優(yōu)化:內置 RL 訓練流程封裝,可直接用于大模型 RLHF(基于人類反饋的強化學習)、RLHF 變種任務,無需從零搭建訓練 pipeline。
        • 依賴自動兼容:自動適配 PyTorch、CUDA、FlashAttention 等核心依賴版本,避免“版本沖突導致訓練崩潰”。
      • 大模型推理:高效生成 rollout 結果

        • 支持多推理引擎:集成 vLLM(業(yè)界領先的高吞吐推理框架,支持動態(tài)批處理)、TGI(Hugging Face Text Generation Inference,適合標準 Hugging Face 模型),未來將支持 SGLang
        • 聚焦“rollout 生成”:專為強化學習場景設計——快速生成模型輸出樣本(如 RLHF 中的“模型回答候選”),推理速度比原生 Hugging Face pipeline 提升 5-10 倍。
      • 高擴展性與定制化

        • 支持自定義訓練配置:可通過 YAML 配置文件修改訓練參數(shù)(如學習率、 batch size、分布式策略)。
        • 源碼級可定制:若使用掛載目錄部署,可直接修改 verl 源碼(如適配新的 RL 算法、自定義數(shù)據(jù)集),無需重新構建鏡像。

      1.2 verl 的適用場景

      用戶類型 適用場景
      算法工程師 快速驗證大模型 RL 算法、搭建 RLHF 訓練流程、測試不同推理引擎的 rollout 效率。
      企業(yè)運維/DevOps 為團隊快速部署統(tǒng)一的大模型訓練/推理環(huán)境,避免“一人一環(huán)境”的運維混亂。
      初學者 零門檻體驗大模型分布式訓練與高效推理,無需手動配置 CUDA、PyTorch 等復雜環(huán)境。
      大型團隊 基于 Megatron-LM 后端搭建大規(guī)模分布式訓練集群,支撐百億/千億參數(shù)模型訓練。

      二、為什么用 Docker 部署 verl?

      verl 依賴的組件(如 CUDA 12.1+、PyTorch 2.4.0+、Megatron-LM、vLLM)版本關聯(lián)性極強,傳統(tǒng)“本地手動安裝”常面臨 “CUDA 版本不兼容”“FlashAttention 編譯失敗”“Megatron-LM 路徑配置錯誤” 等問題。而 Docker 部署能完美解決這些痛點,核心優(yōu)勢如下:

      1. 環(huán)境“開箱即用”verlai/verl 鏡像已預裝所有核心依賴(CUDA、PyTorch、vLLM、Megatron-LM),無需手動編譯或配置環(huán)境變量,新手也能 5 分鐘啟動訓練。
      2. GPU 環(huán)境免配置:鏡像內置 GPU 驅動適配邏輯,只需在啟動時指定 --gpus all,即可自動啟用 GPU 加速,避免“本地 GPU 驅動與 CUDA 版本不匹配”。
      3. 快速版本切換:若需測試不同 verl 版本(如兼容 Megatron-LM v0.4.0 的舊版本),只需拉取對應標簽的鏡像,無需卸載重裝依賴。
      4. 服務隔離安全verl 容器與主機、其他服務(如 MySQL、Redis)完全隔離,即使訓練任務崩潰,也不會影響其他應用。
      5. 企業(yè)級可管理:支持通過 docker-compose 統(tǒng)一管理訓練任務、日志、數(shù)據(jù)掛載,便于團隊協(xié)作與運維。

      三、準備工作:搭建 Docker 與 GPU 環(huán)境

      verl 依賴 GPU 加速(CPU 模式僅支持極小模型測試,不推薦),因此需先完成 Docker 安裝NVIDIA GPU 環(huán)境配置

      3.1 一鍵安裝 Docker & Docker Compose(Linux 系統(tǒng))

      若你的服務器未安裝 Docker,直接執(zhí)行以下一鍵腳本(支持 Ubuntu、CentOS、Debian 等主流 Linux 發(fā)行版),腳本會自動安裝 Docker、Docker Compose,并配置 軒轅鏡像加速源(解決“鏡像拉取慢”問題):

      # 一鍵安裝 Docker、Docker Compose 并配置軒轅加速
      bash <(wget -qO- https://xuanyuan.cloud/docker.sh)
      

      驗證 Docker 安裝成功

      執(zhí)行以下命令,若輸出版本信息,則說明 Docker 安裝正常:

      # 驗證 Docker 版本
      docker --version
      # 驗證 Docker Compose 版本
      docker compose version
      

      3.2 安裝 NVIDIA Container Toolkit(關鍵:啟用 GPU 支持)

      verl 依賴 GPU 運行,需安裝 NVIDIA Container Toolkit 讓 Docker 容器識別主機 GPU。步驟如下(以 Ubuntu 為例,其他系統(tǒng)可參考 NVIDIA 官方文檔):

      1. 添加 NVIDIA 官方源:

        distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
        curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
        curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
        
      2. 安裝 NVIDIA Container Toolkit:

        sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
        
      3. 重啟 Docker 服務使配置生效:

        sudo systemctl restart docker
        
      4. 驗證 GPU 支持:
        運行 NVIDIA 測試鏡像,若輸出 GPU 信息(如型號、CUDA 版本),則 GPU 配置正常:

        docker run --rm --gpus all nvidia/cuda:12.4.0-base-ubuntu22.04 nvidia-smi
        

      四、查看 verl 鏡像:國內鏡像倉庫地址

      本次部署使用 軒轅鏡像倉庫verlai/verl 鏡像(地址:https://xuanyuan.cloud/r/verlai/verl),該倉庫提供:

      • 加速拉取:國內網(wǎng)絡拉取速度比 Docker Hub 快 5-10 倍。

      五、下載 verl 鏡像:4 種拉取方式

      根據(jù)你的權限與使用場景,選擇以下任意一種方式拉取 verlai/verl 鏡像,推薦初學者優(yōu)先選擇 “專屬域名拉取”(步驟最簡單)。

      5.1 方式 1:專屬域名拉取

      直接拉取最新穩(wěn)定版鏡像,命令如下:

      # 從軒轅鏡像專屬域名拉取 verlai/verl 對應版本。注意,這里的版本需要按照你的配置選擇,這里只是示例。
      
      docker pull xxx.xuanyuan.run/verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2
      

      5.2 方式 2:拉取后改名(簡化后續(xù)命令)

      若覺得 xuanyuan.cloud/r/verlai/verl 鏡像名過長,可拉取后重命名為 verlai/verl(與 Docker Hub 官方命名一致),后續(xù)啟動命令更簡潔:

      # 拉取鏡像 → 重命名 → 刪除原標簽(避免占用空間)
      docker pull xxx.xuanyuan.run/verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2 \
      && docker tag xxx.xuanyuan.run/verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2 verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2 \
      && docker rmi xxx.xuanyuan.run/verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2
      

      5.3 方式 3:登錄驗證拉取(適合需要權限的鏡像)

      1. 登錄軒轅鏡像(按提示輸入軒轅鏡像用戶名和密碼):
        docker login docker.xuanyuan.run
        
      2. 拉取鏡像:
        docker pull docker.xuanyuan.run/verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2
        

      5.4 方式 4:Docker Hub 官方拉取(備用)

      若你的網(wǎng)絡可直連 Docker Hub,也可直接拉取官方鏡像(速度可能較慢,建議優(yōu)先用軒轅鏡像):

      docker pull verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2
      

      5.5 驗證鏡像拉取成功

      執(zhí)行以下命令,若輸出 verlai/verl 鏡像信息(如 REPOSITORYTAGSIZE),則拉取成功:

      docker images | grep verlai/verl
      

      示例輸出(成功狀態(tài)):

      REPOSITORY          TAG       IMAGE ID       CREATED        SIZE
      verlai/verl         latest    a1b2c3d4e5f6   1 week ago     15.2GB
      

      六、部署 verl:3 種場景方案

      根據(jù)你的使用需求(測試、實際項目、企業(yè)級管理),選擇以下部署方案。每種方案均包含 完整命令、參數(shù)說明、驗證步驟,確保不同水平的用戶都能操作。

      6.1 方案 1:快速部署(測試用,適合初學者)

      適合快速驗證 verl 功能(如查看版本、測試基礎命令),無需持久化數(shù)據(jù),命令極簡:

      # 啟動 verl 容器(命名為 verl-test,啟用所有 GPU,后臺運行)
      docker run -d \
        --name verl-test \
        --gpus all \  # 啟用主機所有 GPU(關鍵:verl 依賴 GPU 運行)
        --shm-size="16g" \  # 共享內存設置為 16GB(避免多進程訓練內存不足)
        verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2
      

      核心參數(shù)說明:

      參數(shù) 作用
      -d 后臺運行容器,避免終端退出后容器停止。
      --name verl-test 為容器指定名稱,便于后續(xù)管理(如停止、重啟)。
      --gpus all 讓容器使用主機所有 GPU(若需指定單個 GPU,可改為 --gpus "device=0")。
      --shm-size="16g" 增大容器共享內存(大模型訓練需高頻數(shù)據(jù)交換,默認 64MB 會導致內存溢出)。

      驗證部署成功:

      1. 查看容器是否正常運行:

        docker ps | grep verl-test
        

        STATUS 列顯示 Up(如 Up 5 minutes),則容器啟動正常。

      2. 進入容器測試 verl 功能:

        # 進入 verl-test 容器的命令行
        docker exec -it verl-test /bin/bash
        

        進入容器后,執(zhí)行以下命令驗證 verl 是否可用:

        # 查看 verl 版本(驗證安裝)
        pip list | grep verl
        # 查看 PyTorch 與 CUDA 兼容性(驗證 GPU 可用)
        python -c "import torch; print('PyTorch 版本:', torch.__version__); print('CUDA 是否可用:', torch.cuda.is_available())"
        

        預期輸出(成功狀態(tài)):

        # verl 版本輸出
        verl                    0.0.6
        # PyTorch 與 CUDA 輸出
        PyTorch 版本: 2.4.0+cu124
        CUDA 是否可用: True
        
      3. 退出容器:

        exit
        
      4. 停止/刪除測試容器(若需):

        # 停止容器
        docker stop verl-test
        # 刪除容器(測試完成后可刪除,釋放資源)
        docker rm verl-test
        

      6.2 方案 2:掛載目錄部署(實際項目用,推薦)

      適合實際訓練/推理任務——通過掛載宿主機目錄,實現(xiàn) 配置持久化、數(shù)據(jù)共享、日志留存(避免容器刪除后數(shù)據(jù)丟失)。核心思路:將宿主機的“配置目錄”“數(shù)據(jù)目錄”“日志目錄”“模型目錄”掛載到容器內,方便本地修改配置、管理數(shù)據(jù)。

      第一步:創(chuàng)建宿主機掛載目錄

      在宿主機創(chuàng)建 4 個核心目錄(路徑可自定義,此處以 /data/verl 為例),用于存儲配置、數(shù)據(jù)、日志、模型:

      # 一次性創(chuàng)建 4 個目錄(-p 確保父目錄不存在時自動創(chuàng)建)
      mkdir -p /data/verl/{config,data,logs,models}
      

      目錄用途說明:

      宿主機目錄 容器內掛載路徑 用途
      /data/verl/config /root/verl/config 存放 verl 訓練/推理配置文件(如 YAML 配置)。
      /data/verl/data /root/verl/data 存放數(shù)據(jù)集(如 RLHF 訓練數(shù)據(jù)、推理輸入數(shù)據(jù))。
      /data/verl/logs /root/verl/logs 存放訓練日志、推理日志(容器內日志會實時同步到宿主機,便于查看)。
      /data/verl/models /root/verl/models 存放預訓練模型(如 LLaMA-7B、ChatGLM-6B),避免每次啟動容器重新下載。

      第二步:準備測試配置與數(shù)據(jù)(可選)

      為驗證掛載功能,可在宿主機目錄中添加測試文件(如訓練配置 YAML、簡單數(shù)據(jù)集):

      1. 創(chuàng)建測試訓練配置文件 /data/verl/config/test_train.yml

        # 測試用 RL 訓練基礎配置(簡化版)
        train:
          backend: "fsdp"  # 使用 FSDP 分布式后端(適合快速驗證)
          model:
            name: "llama-7b"  # 模型名稱(需確保 /data/verl/models 中有該模型)
            path: "/root/verl/models/llama-7b"  # 容器內模型路徑(對應宿主機 /data/verl/models/llama-7b)
          data:
            path: "/root/verl/data/train_data.json"  # 容器內數(shù)據(jù)集路徑(對應宿主機 /data/verl/data/train_data.json)
          log:
            path: "/root/verl/logs/train.log"  # 容器內日志路徑(對應宿主機 /data/verl/logs/train.log)
        
      2. 創(chuàng)建測試數(shù)據(jù)集 /data/verl/data/train_data.json(簡單 JSON 格式):

        [
          {"input": "What is AI?", "target": "AI is the simulation of human intelligence processes by machines."},
          {"input": "What is verl?", "target": "verl is a tool for large model training and inference."}
        ]
        

      第三步:啟動容器并掛載目錄

      執(zhí)行以下命令,啟動容器并掛載 4 個目錄,同時配置時區(qū)(避免日志時區(qū)混亂):

      docker run -d \
        --name verl-prod \  # 容器名(prod 表示生產用)
        --gpus all \
        --shm-size="32g" \  # 共享內存設為 32GB(比測試版更大,適配實際訓練)
        -e TZ=Asia/Shanghai \  # 設置時區(qū)為上海(避免日志時區(qū)與本地不一致)
        # 目錄掛載:宿主機目錄:容器內目錄
        -v /data/verl/config:/root/verl/config \
        -v /data/verl/data:/root/verl/data \
        -v /data/verl/logs:/root/verl/logs \
        -v /data/verl/models:/root/verl/models \
        verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2
      

      驗證掛載功能:

      1. 進入容器,查看掛載目錄是否同步宿主機文件:

        docker exec -it verl-prod /bin/bash
        # 查看容器內配置文件(應與宿主機 /data/verl/config/test_train.yml 內容一致)
        cat /root/verl/config/test_train.yml
        # 查看容器內數(shù)據(jù)集(應與宿主機 /data/verl/data/train_data.json 內容一致)
        cat /root/verl/data/train_data.json
        
      2. 在容器內創(chuàng)建日志文件,驗證宿主機是否同步:

        # 容器內創(chuàng)建測試日志
        echo "Test log from container" > /root/verl/logs/test.log
        # 退出容器
        exit
        # 宿主機查看日志文件(應能看到容器內創(chuàng)建的內容)
        cat /data/verl/logs/test.log
        

        若宿主機能看到 Test log from container,則掛載功能正常。

      更新配置后重啟容器:

      若修改了宿主機 /data/verl/config 中的配置文件,需重啟容器使配置生效:

      docker restart verl-prod
      

      6.3 方案 3:docker-compose 部署(企業(yè)級,適合團隊協(xié)作)

      適合多容器管理、長期運行的企業(yè)級場景——通過 docker-compose.yml 文件統(tǒng)一配置容器參數(shù)(如鏡像、掛載、GPU、重啟策略),支持一鍵啟動/停止/查看狀態(tài),便于團隊共享配置。

      第一步:創(chuàng)建 docker-compose.yml 文件

      在宿主機創(chuàng)建目錄(如 /data/verl-compose),并在該目錄下創(chuàng)建 docker-compose.yml 文件:

      # 創(chuàng)建目錄并進入
      mkdir -p /data/verl-compose && cd /data/verl-compose
      # 創(chuàng)建 docker-compose.yml 文件(用 vim 編輯,新手也可直接復制內容)
      vim docker-compose.yml
      

      將以下內容粘貼到 docker-compose.yml 中(按 i 進入編輯模式,粘貼后按 Esc,輸入 :wq 保存退出):

      version: '3.8'  # 兼容 Docker Compose V2 的語法版本
      
      services:
        verl-service:  # 服務名(可自定義)
          image: xxx.xuanyuan.run/verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2  # 使用的鏡像
          container_name: verl-service  # 容器名
          restart: always  # 容器退出后自動重啟(保障服務可用性,企業(yè)級必備)
          deploy:
            resources:
              reservations:
                devices:
                  - driver: nvidia  # 啟用 NVIDIA GPU
                    count: all  # 使用所有 GPU(也可指定數(shù)量,如 count: 2)
                    capabilities: [gpu]  # 聲明 GPU 能力
          shm_size: "32g"  # 共享內存大小
          environment:
            - TZ=Asia/Shanghai  # 時區(qū)配置
          volumes:  # 目錄掛載(與方案 2 一致)
            - /data/verl/config:/root/verl/config
            - /data/verl/data:/root/verl/data
            - /data/verl/logs:/root/verl/logs
            - /data/verl/models:/root/verl/models
          # 可選:若需暴露端口(如推理服務端口),添加 ports 配置
          # ports:
          #   - "8000:8000"  # 宿主機 8000 端口映射到容器 8000 端口(用于推理服務)
      

      第二步:啟動服務

      docker-compose.yml 所在目錄(/data/verl-compose)執(zhí)行以下命令,一鍵啟動 verl 服務:

      # 后臺啟動服務(-d 表示 detached 模式)
      docker compose up -d
      

      常用 docker-compose 命令(企業(yè)級運維必備)

      命令 作用
      docker compose up -d 后臺啟動服務(首次啟動或重啟)。
      docker compose ps 查看服務狀態(tài)(如容器是否運行、端口映射)。
      docker compose logs 查看服務日志(默認輸出所有日志,按 Ctrl+C 退出)。
      docker compose logs -f 實時查看日志(動態(tài)刷新,適合排查問題)。
      docker compose restart 重啟服務(修改配置后執(zhí)行)。
      docker compose stop 停止服務(容器保留,可重新啟動)。
      docker compose down 停止并刪除服務(容器、網(wǎng)絡會被刪除,掛載數(shù)據(jù)不會丟失)。

      驗證服務啟動成功:

      # 查看服務狀態(tài)
      docker compose ps
      # 查看實時日志(確認無報錯)
      docker compose logs -f
      

      State 列顯示 Up,且日志無 CUDA errorNo GPU found 等報錯,則服務啟動正常。

      七、常見問題與解決方案

      即使按照教程操作,也可能遇到一些細節(jié)問題。以下是 verl Docker 部署中高頻問題的排查步驟,初學者可按流程逐一驗證。

      7.1 問題 1:容器啟動失敗,日志顯示“CUDA error: no CUDA-capable device is detected”

      原因:Docker 容器未識別到 GPU,可能是 NVIDIA Container Toolkit 未安裝或未重啟 Docker。
      解決方案

      1. 驗證主機 GPU 是否正常:
        nvidia-smi  # 若輸出 GPU 信息,說明主機 GPU 正常;否則需先解決主機 GPU 驅動問題
        
      2. 重新安裝并重啟 NVIDIA Container Toolkit(參考步驟 3.2):
        sudo apt-get reinstall nvidia-container-toolkit
        sudo systemctl restart docker
        
      3. 重新啟動容器,確保添加 --gpus all 參數(shù)。

      7.2 問題 2:訓練時內存溢出,日志顯示“Bus error (core dumped)”

      原因:容器共享內存不足(大模型訓練需高頻數(shù)據(jù)交換,默認共享內存僅 64MB)。
      解決方案

      • 啟動容器時增大 --shm-size 參數(shù),如改為 --shm-size="64g"(根據(jù)主機內存調整,建議不超過主機內存的 50%)。
      • 示例命令(修改共享內存):
        docker run -d \
          --name verl-prod \
          --gpus all \
          --shm-size="64g" \  # 增大共享內存到 64GB
          -v /data/verl/config:/root/verl/config \
          verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2
        

      7.3 問題 3:宿主機修改配置文件后,容器內不生效

      原因

      1. 未重啟容器(配置修改后需重啟容器加載新配置);
      2. 掛載路徑錯誤(宿主機目錄與容器內目錄映射不匹配)。
        解決方案
      3. 驗證掛載路徑是否正確(參考步驟 6.2 中的目錄映射):
        # 查看容器掛載信息
        docker inspect verl-prod | grep Mounts -A 50
        
        確認 Source(宿主機目錄)與 Destination(容器內目錄)對應正確。
      4. 重啟容器:
        docker restart verl-prod
        

      7.4 問題 4:鏡像拉取慢或超時

      原因:未使用軒轅鏡像加速,或網(wǎng)絡不穩(wěn)定。
      解決方案

      1. 優(yōu)先使用軒轅鏡像拉取(參考步驟 5.1):
        docker pull xxx.xuanyuan.run/verlai/verl:app-verl0.6-transformers4.56.1-sglang0.5.2-mcore0.13.0-te2.2
        
      2. 若已安裝 Docker,可手動配置軒轅鏡像加速(腳本已自動配置,若失效可重新執(zhí)行步驟 3.1 的一鍵腳本)。

      7.5 問題 5:如何查看 verl 訓練日志?

      解決方案

      • 若使用掛載目錄部署(方案 2/3),直接查看宿主機 /data/verl/logs 目錄下的日志文件:
        # 查看訓練日志(按實際日志文件名修改)
        cat /data/verl/logs/train.log
        # 實時查看日志
        tail -f /data/verl/logs/train.log
        
      • 若未掛載目錄,通過 Docker 日志命令查看:
        docker logs -f verl-prod
        

      八、結尾:不同用戶的下一步建議

      本教程覆蓋了 verlai/verl Docker 部署的全流程,從工具認知到企業(yè)級落地。根據(jù)你的角色,可參考以下建議進一步實踐:

      • 初學者:先從「方案 1 快速部署」熟悉 verl 基礎命令,再嘗試「方案 2 掛載目錄」,修改 /data/verl/config 中的配置文件,體驗“配置-重啟-訓練”的完整流程。
      • 算法工程師:基于「方案 3 docker-compose」部署,在 /data/verl/models 中放入預訓練模型(如 LLaMA-7B),修改配置文件使用 Megatron-LM 后端,測試大規(guī)模分布式訓練。
      • 運維工程師:在 docker-compose.yml 中添加監(jiān)控配置(如集成 Prometheus、Grafana),監(jiān)控容器 GPU 使用率、內存占用,確保訓練任務穩(wěn)定運行。

      若需深入學習 verl 的訓練/推理功能,可參考官方文檔:https://verl.readthedocs.io。遇到教程未覆蓋的問題,可通過 docker logs 容器名 查看詳細日志,或在 verl 官方社區(qū)提問。

      posted @ 2025-11-03 09:54  源碼舞動  閱讀(61)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 久久综合色之久久综合色| 欧美综合婷婷欧美综合五月| 国产成AV人片久青草影院| 亚洲色大成网站WWW久久| 国产成人免费午夜在线观看| 50岁熟妇的呻吟声对白| 日韩亚洲国产激情一区二区| 日本欧美大码a在线观看| 久久99九九精品久久久久蜜桃 | 九九热在线这里只有精品| 亚欧美闷骚院| 久久www免费人成看片中文| 邵东县| 免费A级毛片樱桃视频| 亚洲欧美综合人成在线| 人妻精品久久无码专区精东影业| 激情综合色综合啪啪五月| 成人精品一区日本无码网| 国产高清在线精品一区二区三区| 色婷婷综合久久久久中文一区二区| 亚洲夂夂婷婷色拍ww47| 久久精品国产亚洲AⅤ无码| 亚洲欧美在线观看一区二区| 国产熟女精品一区二区三区 | 麻豆亚州无矿码专区视频| 亚洲无码a∨在线视频| 好男人社区影视在线WWW| 撕开奶罩揉吮奶头视频| 亚洲综合一区二区三区在线| 国产又黄又湿又刺激网站| 日韩av日韩av在线| 中文字幕久久六月色综合| 在线无码av一区二区三区| 亚洲av永久无码精品网站| 国产视频一区二区在线看| 白嫩少妇bbw撒尿视频| 色悠悠国产精品免费观看| 青青草原国产精品啪啪视频| 国产一区二区三区黄网| 国内精品久久毛片一区二区| 少妇宾馆粉嫩10p|