歡迎 GPT OSS —— 來自 OpenAI 的全新開放模型家族！

GPT OSS 是 OpenAI 推出的 重量級開放模型，面向強推理、智能體任務以及多樣化開發場景。該系列包含兩款模型：擁有 117B 參數的 gpt?oss?120b 和擁有 21B 參數的 gpt?oss?20b。二者皆采用 Mixture?of?Experts（MoE）架構，并在 MoE 權重上使用 4?bit 量化方案 MXFP4。由于 active 參數更少，它們在保持資源占用低的同時實現了快速推理：120B 版本可部署于單張 H100 GPU，20B 版本則能在 16?GB 顯存內運行，適合消費級硬件和端側應用。

為了讓社區受益更大，模型采用 Apache 2.0 許可證，并附帶精簡使用政策：

我們希望工具能被安全、負責且民主地使用，同時最大化您對使用方式的控制權。使用 gpt?oss 即表示您同意遵守所有適用法律。

OpenAI 表示，這一發布是其長期承諾開源生態、實現“讓人工智能惠及全人類”使命的重要一步。許多場景需要私有或本地部署，Hugging Face 對 OpenAI 的加入深感振奮，并相信 GPT OSS 將成為長期且富有啟發性的旗艦模型。

能力與架構概覽

共計 21B 與 117B 參數，對應 3.6B 與 5.1B 活躍參數。
4?bit MXFP4 量化僅應用于 MoE 權重：120B 版可容納于單張 80?GB GPU，20B 版可容納于單張 16?GB GPU。
純文本推理模型，內置鏈式思維（Chain?of?Thought）并可調節推理強度。
支持指令跟隨與工具調用，適配生成式 AI 和 AI 智能體工作流。
提供基于 transformers、vLLM、llama.cpp、ollama 的多種推理實現。
建議使用 Responses API 進行推理。
許可證：Apache 2.0，并附帶簡易使用政策。

架構細節

Token?choice MoE，激活函數采用 SwiGLU。
在選出 Top?k 專家后對其權重執行 softmax（softmax?after?topk）。
注意力層使用 RoPE，相對位置編碼最長支持 128K Token。
注意力層交替采用“全局上下文”與“滑動 128 Token 窗口”機制。
每個注意力頭引入 learned attention sink：在 softmax 分母中加入可學習偏置，增強長上下文穩定性。
與 GPT?4o 等 OpenAI API 模型共用分詞器，并新增 Token 以兼容 Responses API。

通過推理提供商調用 API

GPT OSS 已接入 Hugging Face 的 Inference Providers 服務。您可使用統一的 JavaScript 或 Python SDK，通過多家推理提供商（如 AWS、Cerebras 等）快速調用模型。這正是官方演示站點 gpt?oss.com 的底層基礎設施，亦可直接復用于個人或企業項目。

下面以 Python + Cerebras 為例：

from openai import OpenAI
client = OpenAI(
    inference_provider="cerebras",
    api_key="YOUR_HF_API_KEY"
)

response = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[{"role": "user", "content": "用中文解釋 MXFP4 量化是什么？"}],
)
print(response.choices[0].message.content)

更多代碼示例和性能對比，參見模型卡中的 Inference Providers 小節以及我們專門撰寫的指南。

下面示例展示了使用 Python 調用超高速 Cerebras 提供商。如需更多代碼片段，請查閱模型卡中的 Inference Providers 部分以及我們專門撰寫的指南。

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://router.huggingface.co/v1",
    api_key=os.environ["HF_TOKEN"],
)

completion = client.chat.completions.create(
    model="openai/gpt-oss-120b:cerebras",
    messages=[
        {
            "role": "user",
            "content": "How many rs are in the word 'strawberry'?",
        }
    ],
)

print(completion.choices[0].message)

Inference Providers 還實現了兼容 OpenAI 的 Responses API——這是目前針對聊天模型最先進、最靈活、最直觀的接口。
下面示例展示了如何在 Fireworks AI 提供商上使用 Responses API。更多細節參見開源項目 responses.js。

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://router.huggingface.co/v1",
    api_key=os.getenv("HF_TOKEN"),
)

response = client.responses.create(
    model="openai/gpt-oss-20b:fireworks-ai",
    input="How many rs are in the word 'strawberry'?",
)

print(response)

本地推理

使用 Transformers

請確保安裝最新版 transformers（≥ v4.55），以及 accelerate 與 kernels：

pip install --upgrade accelerate transformers kernels

模型權重采用 mxfp4 量化格式，可在 Hopper 或 Blackwell 系列 GPU 上運行，包括數據中心卡（H100、H200、GB200）以及最新消費級 50xx 系列顯卡。若您擁有此類顯卡，mxfp4 能在速度與顯存占用上提供最佳表現。要啟用該格式，需要安裝 triton 3.4 與 triton_kernels。若未安裝這些庫（或顯卡不兼容），加載模型時將自動退回至 bfloat16（從量化權重解包）。

我們的測試表明，Triton 3.4 與最新版 PyTorch?2.7.x 兼容。您也可以選擇安裝 PyTorch?2.8（撰寫本文時為預發布版本，正式發布在即），它與 triton?3.4 搭配更加穩定。以下命令可安裝自帶 triton?3.4 的 PyTorch?2.8 及 triton kernels：

# Optional step if you want PyTorch 2.8, otherwise just `pip install torch`
pip install torch==2.8.0 --index-url https://download.pytorch.org/whl/test/cu128

# Install triton kernels for mxfp4 support
pip install git+https://github.com/triton-lang/triton.git@main#subdirectory=python/triton_kernels

下面示例演示了如何使用 20B 模型進行簡單推理。在 mxfp4 下運行時，占用 16?GB 顯存；若使用 bfloat16，顯存約為 48?GB。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "openai/gpt-oss-20b"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype="auto",
)

messages = [
    {"role": "user", "content": "How many rs are in the word 'strawberry'?"},
]

inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt",
    return_dict=True,
).to(model.device)

generated = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(generated[0][inputs["input_ids"].shape[-1]:]))

Flash Attention 3

模型引入 attention sink 技術，vLLM 團隊已將其與 Flash Attention 3 兼容。我們將他們的優化 kernel 打包至 kernels-community/vllm-flash-attn3。截至撰稿時，該超高速 kernel 已在 Hopper 卡 + PyTorch?2.7/2.8 上通過測試，未來將支持更多硬件。若您使用 H100、H200 等 Hopper GPU，請執行 pip install --upgrade kernels，并在代碼中添加：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "openai/gpt-oss-20b"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype="auto",
+    # Flash Attention with Sinks
+    attn_implementation="kernels-community/vllm-flash-attn3",
)

messages = [
    {"role": "user", "content": "How many rs are in the word 'strawberry'?"},
]

inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt",
    return_dict=True,
).to(model.device)

generated = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(generated[0][inputs["input_ids"].shape[-1]:]))

該行代碼會自動從 kernels-community 下載編譯好的優化 kernel，具體機制可參考我們此前博文。Transformers 團隊已對該代碼進行構建與測試，可放心使用。

其他優化

若顯卡為 Hopper 或更新架構，強烈建議使用 mxfp4；若可同時啟用 Flash Attention 3，則務必一起開啟！

[!TIP]
若顯卡不支持 mxfp4，可考慮使用 MegaBlocks MoE kernels 以獲得可觀的加速。只需在推理代碼中進行如下調整：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "openai/gpt-oss-20b"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype="auto",
+    # Optimize MoE layers with downloadable` MegaBlocksMoeMLP
+    use_kernels=True,
)

messages = [
    {"role": "user", "content": "How many rs are in the word 'strawberry'?"},
]

inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_tensors="pt",
    return_dict=True,
).to(model.device)

generated = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(generated[0][inputs["input_ids"].shape[-1]:]))

[!TIP]
MegaBlocks 優化 MoE kernel 需要模型運行于 bfloat16，因此相比 mxfp4 會占用更多顯存。若條件允許，我們建議優先使用 mxfp4；否則，可通過 use_kernels=True 啟用 MegaBlocks。

AMD?ROCm 支持

OpenAI?GPT?OSS 已在 AMD?Instinct 硬件上完成驗證，我們很高興地宣布內核庫初步支持 AMD?ROCm 平臺，為即將在?Transformers 中推出的 ROCm 優化 kernel 奠定基礎。針對 AMD?Instinct（如?MI300 系列）的 MegaBlocks?MoE kernel 加速 已經就緒，可顯著提升訓練與推理性能。您可直接使用前文相同的推理代碼進行測試。

AMD 還為用戶準備了一個 Hugging?Face Space，可以在 AMD 硬件上體驗該模型。

可用優化總結

截至撰稿時，下表根據 GPU 兼容性和我們的測試結果，給出了 推薦配置。我們預計 Flash?Attention?3（含 sink attention）將支持更多 GPU。

	mxfp4	Flash?Attention?3（含 sink attention）	MegaBlocks?MoE?kernels
Hopper?GPU（H100、H200）	?	?	?
Blackwell?GPU（GB200、50xx、RTX?Pro?6000）	?	?	?
其他?CUDA?GPU	?	?	?
AMD?Instinct（MI3XX）	?	?	?
啟用方式	安裝 triton?3.4 + triton?kernels	使用 kernels-community 的 vllm?flash?attn3	`use_kernels`

即便 120B 模型在單張?H100?GPU（使用 mxfp4）上即可運行，您仍可借助 accelerate 或 torchrun 輕松在多張 GPU 上部署。Transformers 提供默認的并行化方案，并可搭配優化后的注意力 kernel。以下腳本可在 4?GPU 系統上通過 torchrun --nproc_per_node=4 generate.py 運行：

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.distributed import DistributedConfig
import torch

model_path = "openai/gpt-oss-120b"
tokenizer = AutoTokenizer.from_pretrained(model_path, padding_side="left")

device_map = {
    "tp_plan": "auto",    # Enable Tensor Parallelism
}

model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    attn_implementation="kernels-community/vllm-flash-attn3",
    **device_map,
)

messages = [
     {"role": "user", "content": "Explain how expert parallelism works in large language models."}
]

inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt",
    return_dict=True,
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=1000)

# Decode and print
response = tokenizer.decode(outputs[0])
print("Model response:", response.split("<|channel|>final<|message|>")[-1].strip())

OpenAI?GPT?OSS 模型在訓練階段大量使用工具調用來輔助推理。我們為 transformers 設計的聊天模板靈活易用，詳情請參閱文末在 transformers 中使用工具小節。

Llama.cpp

Llama.cpp 原生支持 MXFP4 并集成 Flash?Attention，可在 Metal、CUDA、Vulkan 等多種后端上實現最佳性能，且從一開始就已支持。

安裝方法請參考 llama.cpp 官方倉庫：

# MacOS
brew install llama.cpp

# Windows
winget install llama.cpp

推薦通過 llama?server 啟動：

llama-server -hf ggml-org/gpt-oss-120b-GGUF -c 0 -fa --jinja --reasoning-format none

# 然后訪問 http://localhost:8080

目前同時支持 120B 與 20B 模型。更多信息請查看相關?PR 或 GGUF 模型合集。

vLLM

如前所述，vLLM 團隊開發了兼容 sink attention 的 Flash?Attention?3 優化 kernel，可在 Hopper?GPU 上實現最佳性能，且同時支持 Chat?Completion 與 Responses?API。假設您有 2?張?H100?GPU，可通過以下命令安裝并啟動服務器：

vllm serve openai/gpt-oss-120b --tensor-parallel-size 2

或者直接在 Python 中調用：

from vllm import LLM
llm = LLM("openai/gpt-oss-120b", tensor_parallel_size=2)
output = llm.generate("San Francisco is a")

`transformers serve`

您可以使用 transformers serve 在本地快速體驗模型，無需其他依賴。命令如下：

transformers serve

隨后可通過 Responses?API 發送請求：

# responses API
curl -X POST http://localhost:8000/v1/responses \
-H "Content-Type: application/json" \
-d '{"input": [{"role": "system", "content": "hello"}], "temperature": 1.0, "stream": true, "model": "openai/gpt-oss-120b"}'

或使用標準 Completions?API：

# completions API
curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "system", "content": "hello"}], "temperature": 1.0, "max_tokens": 1000, "stream": true, "model": "openai/gpt-oss-120b"}'

微調（Fine?Tuning）

GPT?OSS 全面集成 trl。我們提供了若干基于 SFTTrainer 的示例，助您快速上手：

LoRA 示例見 OpenAI?cookbook，展示模型如何微調以切換多語言推理。
可根據需求調整的基礎微調腳本。

部署至 Hugging?Face 合作伙伴

Azure

Hugging?Face 與 Azure 合作，將最受歡迎的開源開放模型（涵蓋文本、視覺、語音與多模態任務）直接引入 Azure AI Model Catalog，便于客戶在托管在線端點中安全部署，借助 Azure 的企業級基礎設施、自動擴縮與監控能力。

GPT?OSS 模型現已登入 Azure AI Model Catalog（GPT?OSS?20B，GPT?OSS?120B），可直接部署至在線端點進行實時推理。

Dell

Dell?Enterprise?Hub 是一款安全的在線門戶，簡化了在 Dell?平臺上本地訓練與部署最新開源開放?AI 模型的流程。由 Hugging?Face 與 Dell 共同開發，其特性包括優化容器、對 Dell?硬件的原生支持以及企業級安全。

GPT?OSS 模型已上線 Dell?Enterprise?Hub，可在 Dell 平臺上本地部署。

評測模型

GPT?OSS 屬于 推理模型：評測時需要設置非常大的生成長度（最大新?Token 數），因為模型會先輸出推理過程，再給出最終答案。若生成長度過小，可能在推理中途被截斷，導致假陰性。計算指標前應去除推理痕跡，尤其在數學或指令評測中，以免解析錯誤。

以下示例展示如何用 lighteval 評測模型（需從源碼安裝）。

git clone https://github.com/huggingface/lighteval
pip install -e .[dev] # make sure you have the correct transformers version installed!
lighteval accelerate \
    "model_name=openai/gpt-oss-20b,max_length=16384,skip_special_tokens=False,generation_parameters={temperature:1,top_p:1,top_k:40,min_p:0,max_new_tokens:16384}" \ 
    "extended|ifeval|0|0,lighteval|aime25|0|0" \
    --save-details --output-dir "openai_scores" \
    --remove-reasoning-tags --reasoning-tags="[('<|channel|>analysis<|message|>','<|end|><|start|>assistant<|channel|>final<|message|>')]"

對于 20B 模型，IFEval（嚴格提示詞）應得到 69.5?±?1.9，AIME25（pass@1）應得到 63.3?±?8.9——與同規模推理模型預期范圍一致。

若需自定義評測腳本，請注意要正確過濾推理標簽，需在 tokenizer 中設定 skip_special_tokens=False，以便獲得完整輸出并使用上述字符串對進行過濾。原因詳見下文。

聊天與聊天模板

OpenAI?GPT?OSS 在輸出中引入“channels”概念。常見的有 analysis（推理鏈）與 final（最終答案）兩個?channel。

若未調用工具，一條典型輸出如下：

<|start|>assistant<|channel|>analysis<|message|>CHAIN_OF_THOUGHT<|end|><|start|>assistant<|channel|>final<|message|>ACTUAL_MESSAGE

大多數場景下，您只需保留 <|channel|>final<|message|>. 之后的文本作為助手回復，或展現給用戶。
存在兩類例外：訓練階段 與 工具調用 時，可能需要保留 analysis。

訓練時：
若要在訓練樣本中保留推理鏈，可將其放入 thinking 字段：

chat = [
    {"role": "user", "content": "Hi there!"},
    {"role": "assistant", "content": "Hello!"},
    {"role": "user", "content": "Can you think about this one?"},
    {"role": "assistant", "thinking": "Thinking real hard...", "content": "Okay!"}
]

# add_generation_prompt=False is generally only used in training, not inference
inputs = tokenizer.apply_chat_template(chat, add_generation_prompt=False)

你可以在此前的對話輪次中自由加入 thinking 鍵，或在推理（inference）而非訓練（training）時加入；但它們通常會被忽略。聊天模板僅保留最新一段思維鏈（chain of thought，下文簡稱 “思維鏈”），并且只有在訓練階段（當 add_generation_prompt=False 且最后一條消息屬于 assistant 時）才會包含。

之所以采用此策略，原因頗為微妙：OpenAI 的 gpt?oss 模型是在多輪對話數據上訓練的，但其中除最后一段思維鏈外，其余均被丟棄。因此，當你想微調一個 OpenAI gpt?oss 模型時，也應遵循同樣做法：

讓聊天模板丟棄除了最后一段外的所有思維鏈。
在所有回合中對標簽進行掩碼（mask），僅保留最后一條 assistant 消息的標簽。
否則，模型將在沒有思維鏈的前幾輪上接受訓練，結果會讓模型習慣輸出不含思維鏈的回復。
因而，你無法將整段多輪對話作為單個樣本來訓練；必須將其拆分為多條樣本，每條僅含一次 assistant 回復，并且每次僅對該回復解除掩碼，讓模型既能從每輪學習，又始終只看到最后的思維鏈。

System 與 Developer 消息

OpenAI GPT OSS 很特殊，因為它在對話開頭區分 “system” 消息和 “developer” 消息，但大多數其他模型只有 “system”。在 GPT OSS 中，system 消息遵循嚴格格式，并包含當前日期、模型身份以及推理強度等級等信息，而 “developer” 消息則更為自由，這（令人困惑地）使它類似于其他模型的 “system” 消息。

為了讓 GPT OSS 更易于在標準 API 中使用，聊天模板會把角色為 “system” 或 “developer” 的消息都當作 developer 消息。如果你想修改真正的 system 消息，可以向聊天模板傳入參數 model_identity 或 reasoning_effort：

chat = [
    {"role": "system", "content": "This will actually become a developer message!"}
]

tokenizer.apply_chat_template(
    chat, 
    model_identity="You are OpenAI GPT OSS.",
    reasoning_effort="high"  # Defaults to "medium", but also accepts "high" and "low"
)

在 transformers 中使用工具（Tool）

GPT OSS 支持兩類工具：內置工具 browser 與 python，以及用戶自定義工具。若要啟用內置工具，只需把它們的名稱以列表形式傳遞給 builtin_tools 參數，如下所示。若要使用自定義工具，你可以將其以 JSON Schema 或帶類型注解與 docstring 的 Python 函數形式傳給 tools 參數。詳細說明參見 chat template 工具文檔，或者直接修改下方示例：

def get_current_weather(location: str):
"""
    返回指定地點的當前天氣狀況（字符串）。

    Args:
        location: 要查詢天氣的地點。
"""
    return "Terrestrial."  # 我們可沒說這是個靠譜的天氣工具

chat = [
    {"role": "user", "content": "What's the weather in Paris right now?"}
]

inputs = tokenizer.apply_chat_template(
    chat, 
    tools=[weather_tool], 
    builtin_tools=["browser", "python"],
    add_generation_prompt=True,
    return_tensors="pt"
)

如果模型決定調用工具（用 <|call|> 結尾表示），你需要把工具調用加入對話，執行工具，然后把結果再加入對話并重新生成：

tool_call_message = {
    "role": "assistant",
    "tool_calls": [
        {
            "type": "function",
            "function": {
                "name": "get_current_temperature", 
                "arguments": {"location": "Paris, France"}
            }
        }
    ]
}
chat.append(tool_call_message)

tool_output = get_current_weather("Paris, France")

tool_result_message = {
    # 因為 GPT OSS 一次只會調用一個工具，所以不需要額外元數據
    # 模板可推斷此結果來自最近一次工具調用
    "role": "tool",
    "content": tool_output
}
chat.append(tool_result_message)

# 現在再次 apply_chat_template() 并生成，模型即可利用工具結果繼續對話。

鳴謝

這次發布對社區意義重大。要在生態系統內全面支持新模型，離不開眾多團隊和公司的傾力合作。

本文作者從為文章貢獻內容的人中選出，并不代表對項目的投入程度。除作者列表外，其他人也提供了重要的內容審閱，包括 Merve 和 Sergio。感謝！

整合與支持工作涉及數十人，不分先后，特別感謝來自開源團隊的 Cyril、Lysandre、Arthur、Marc、Mohammed、Nouamane、Harry、Benjamin、Matt；TRL 團隊的 Ed、Lewis、Quentin；評估團隊的 Clémentine；Kernels 團隊的 David 與 Daniel。商業合作方面得到 Simon、Alvaro、Jeff、Akos、Alvaro、Ivar 的大力支持。Hub 與產品團隊提供了 Inference Providers 支持、llama.cpp 支持及其他改進，感謝 Simon、Célina、Pierric、Lucain、Xuan?Son、Chunte、Julien。法律團隊的 Magda 與 Anna 亦有參與。

Hugging Face 的使命是幫助社區高效使用這些模型。我們感謝 vLLM 等公司推動領域進步，并珍視與推理服務商的持續合作，讓構建流程日益簡化。

最后，誠摯感謝 OpenAI 將這些模型開放給社區共享。未來可期，敬請期待！

posted @ 2025-08-11 21:00 HuggingFace 閱讀(46) 評論(0) 收藏舉報

刷新頁面返回頂部

Hugging Face 博客

The AI community building the future.

歡迎 GPT OSS —— 來自 OpenAI 的全新開放模型家族！

歡迎 GPT OSS —— 來自 OpenAI 的全新開放模型家族！

目錄

能力與架構概覽

架構細節

通過推理提供商調用 API

本地推理

使用 Transformers

Flash Attention 3

其他優化

AMD?ROCm 支持

可用優化總結

Llama.cpp

vLLM

`transformers serve`

微調（Fine?Tuning）

部署至 Hugging?Face 合作伙伴

Azure

Dell

評測模型

聊天與聊天模板

System 與 Developer 消息

在 transformers 中使用工具（Tool）

鳴謝

公告