阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1嗎?

圖表圖片由阿里巴巴提供
本文作者的觀點:QwQ-32B 作為小型開源 AI 模型,在數(shù)學、編程等任務(wù)上表現(xiàn)接近甚至超越 DeepSeek-R1 671B模型,同時計算資源占用大幅降低,使其更易部署和使用。然而,在邏輯推理等方面仍存在推理不一致和語言混雜等問題,有待優(yōu)化。作者總體認可 QwQ-32B 的實力,并認為它代表了 AI 發(fā)展向“小而高效”方向演進的趨勢,可能沖擊 OpenAI 等收費模式的市場格局。
DeepSeek R-1 才剛剛發(fā)布兩個月,我當時真的很興奮,因為 AI 社區(qū)終于有了一個能與 OpenAI 的強大 o1 模型抗衡的開源模型。
然而就在昨天,阿里巴巴發(fā)布了另一個開源模型,功能與 DeepSeek R-1 相當,但體量卻小了 20 倍。
這家中國科技巨頭推出的新推理模型 QwQ-32B 僅使用 320 億參數(shù),而 DeepSeek 的參數(shù)量為 6710 億,在推理過程中有 370 億參數(shù)被實際調(diào)用。
自 2023 年推出首個大型語言模型以來,阿里巴巴大幅增加了對 AI 的投資。其云智能部門已成為主要增長動力,在 12 月季度對阿里巴巴的利潤增長貢獻顯著。

阿里巴巴集團控股有限公司 2025 年 3 月 5 日市值
“展望未來,由 AI 驅(qū)動的云智能集團收入增長將持續(xù)加速。” 阿里巴巴 CEO 吳泳銘最近表示。AI 發(fā)展?jié)摿淼臉酚^情緒得到了投資者的積極響應(yīng),QwQ-32B 發(fā)布后,阿里巴巴股價明顯上漲。
QwQ-32B 的關(guān)鍵特性
QwQ-32B 采用強化學習(RL),即通過試錯學習,而非傳統(tǒng)的監(jiān)督訓練方式。這樣做的主要優(yōu)勢是,它所需的資源遠遠少于 DeepSeek-R1(QwQ-32B 僅 320 億參數(shù),而 DeepSeek-R1 擁有 6710 億參數(shù),其中約 370 億實際參與推理)。
盡管體量更小,QwQ-32B 在某些任務(wù)上卻能達到甚至略微超越更大模型的表現(xiàn)。
以下是其關(guān)鍵特性概覽:
? 類型:因果語言模型
? 訓練階段:預訓練 & 后訓練(監(jiān)督微調(diào)和強化學習)
? 架構(gòu):采用 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 Transformer
? 參數(shù)數(shù)量:325 億
? 非嵌入?yún)?shù)數(shù)量:310 億
? 層數(shù):64
? 注意力頭數(shù)(GQA):Q 40,KV 8
? 上下文長度:完整 131,072 令牌
強化學習(RL)為何重要
阿里巴巴選擇 RL 訓練 QwQ-32B 的決定至關(guān)重要。RL 讓模型能直接從現(xiàn)實世界的反饋中學習,提高準確性和適應(yīng)性。阿里巴巴在兩個階段中實施了這一方法:
? 初期專注于數(shù)學和編程:第一階段,QwQ-32B 通過直接測試數(shù)學問題和編程任務(wù)學習,并通過實際計算和代碼執(zhí)行驗證結(jié)果。
? 擴展至通用能力:在掌握特定技能后,阿里巴巴擴大訓練范圍,使模型在遵循指令、優(yōu)化用戶交互等方面表現(xiàn)更好。
這種強化學習方法顯著提升了模型的效率,同時沒有犧牲性能。
性能測試結(jié)果
在多個基準測試中,QwQ-32B 取得了出色表現(xiàn):
? 數(shù)學任務(wù):在 AIME24 等高難度數(shù)學測試中表現(xiàn)與 DeepSeek-R1 持平。
? 編程任務(wù):在 LiveCodeBench 等代碼基準測試中,QwQ-32B 取得了與 DeepSeek-R1 相近的分數(shù)。
? 通用任務(wù):在指令跟隨和工具使用測試中,QwQ-32B 略微優(yōu)于 DeepSeek-R1。
下方是 QwQ-32B 與其他領(lǐng)先模型(包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原版 DeepSeek-R1)的對比表現(xiàn)。

QwQ-32B 與其他模型的對比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原版 DeepSeek-R1
這些基準測試顯示,該模型在實際應(yīng)用中的可行性,適用于多種真實場景。
但它在現(xiàn)實世界中表現(xiàn)如何?
人工智能與數(shù)據(jù)專家 Ana Rojo Echeburúa(應(yīng)用數(shù)學博士)對 QwQ-32B 進行了數(shù)學、編程和邏輯推理測試。
草莓測試
提示:“‘strawberry’ 這個單詞中字母 ‘r’ 出現(xiàn)了幾次?”

QwQ-32B 回答
盡管 QwQ-32B 準確計算出了字母的數(shù)量,但它錯誤地指出了字母的位置,盡管題目并未明確要求這一點。這突顯了該模型偶爾會提供不必要的細節(jié),并在推理上存在一定的不準確性。
數(shù)學推理測試
提示:“邊長為 3、4、5 的三角形面積是多少?”

QwQ-32B 回答
該模型正確回答出面積為 6,并清晰地解釋了多種求解方法,展現(xiàn)了清晰且直接的推理過程。然而,它在格式和公式呈現(xiàn)上存在一些不一致之處。
邏輯推理測試
經(jīng)典“狼、山羊和白菜”問題
提示:“一個人要帶著狼、山羊和白菜過河。船每次只能載一個物品。如果單獨留下,狼會吃山羊,山羊會吃白菜。請問他如何安全地把它們帶過河?”

QwQ-32B 回答
QwQ-32B 提供了一個大體正確的解決方案,但令人困惑的是,它聲稱需要六個步驟,而實際只列出了五個。其推理過程較為詳細,但也出現(xiàn)了一些問題,包括語言混雜——英文推理中夾雜了中文文本,使部分內(nèi)容難以理解。有趣的是,推理部分包含了一套完整且準確的逐步解決方案,但與最終總結(jié)的答案并不匹配。
對開發(fā)者和企業(yè)的實際影響
QwQ-32B 的高效性讓先進 AI 技術(shù)更容易普及。相比 DeepSeek-R1 需要高達 1600GB 的 GPU 顯存,QwQ-32B 僅需 24GB,使企業(yè)無需龐大的計算基礎(chǔ)設(shè)施即可部署強大 AI 工具。
此外,該模型采用 Apache 2.0 許可證開源,企業(yè)可以自由修改和使用,適用于自動化、軟件開發(fā)、數(shù)據(jù)分析等多個場景。
AI 社區(qū)對 QwQ-32B 的初步反應(yīng)總體積極,特別是開發(fā)者們稱贊其高效性和易部署性。例如,來自 Hugging Face 的 Vaibhav Srivastav 贊揚了 QwQ-32B 的速度和易用性。

如何訪問 QwQ-32B
目前有多種方式可訪問和測試 QwQ-32B:
? 專用演示應(yīng)用:Hugging Face Demo
? 直接下載模型:開發(fā)者和研究人員可從 Hugging Face 倉庫下載 QwQ-32B 進行深入研究。
? 在線界面:阿里巴巴通過官方 Qwen Chat 提供交互平臺。

Qwen 官方網(wǎng)站界面截圖
Hugging Face 界面截圖

此外,預計 OIlama 等工具很快也會支持 QwQ-32B,讓開發(fā)者能夠更方便地使用本地化部署方式。
最終感想
我真的對 QwQ-32B 這樣的開源 AI 模型出現(xiàn)的速度感到震撼——甚至有點不知所措。這一發(fā)展表明 OpenAI 采用的高價訂閱模式可能很快會過時,因為高質(zhì)量的開源替代方案正變得越來越普及。
像 QwQ-32B 這樣的模型展示了 AGI(通用人工智能)發(fā)展的包容性,使 AI 不再只是少數(shù)人能負擔得起的昂貴工具。
當然,仍有許多方面值得探索,特別是這些小型但強大的模型在實際環(huán)境中的表現(xiàn)如何。我計劃在搭載 M3 芯片的 MacBook 上測試 QwQ-32B,并在后續(xù)文章中分享詳細結(jié)果。
QwQ-32B 預覽版的優(yōu)勢令人印象深刻,但推理和最終答案的矛盾性仍有待改進??傮w而言,這可能預示著 AI 領(lǐng)域向更小、更高效模型轉(zhuǎn)型的新趨勢。
你試用過這個新模型了嗎?如果有,我很想聽聽你的想法。
浙公網(wǎng)安備 33010602011771號