阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1嗎？

                                                    圖表圖片由阿里巴巴提供

本文作者的觀點：QwQ-32B 作為小型開源 AI 模型，在數(shù)學、編程等任務(wù)上表現(xiàn)接近甚至超越 DeepSeek-R1 671B模型，同時計算資源占用大幅降低，使其更易部署和使用。然而，在邏輯推理等方面仍存在推理不一致和語言混雜等問題，有待優(yōu)化。作者總體認可 QwQ-32B 的實力，并認為它代表了 AI 發(fā)展向“小而高效”方向演進的趨勢，可能沖擊 OpenAI 等收費模式的市場格局。

DeepSeek R-1 才剛剛發(fā)布兩個月，我當時真的很興奮，因為 AI 社區(qū)終于有了一個能與 OpenAI 的強大 o1 模型抗衡的開源模型。

然而就在昨天，阿里巴巴發(fā)布了另一個開源模型，功能與 DeepSeek R-1 相當，但體量卻小了 20 倍。

這家中國科技巨頭推出的新推理模型 QwQ-32B 僅使用 320 億參數(shù)，而 DeepSeek 的參數(shù)量為 6710 億，在推理過程中有 370 億參數(shù)被實際調(diào)用。

自 2023 年推出首個大型語言模型以來，阿里巴巴大幅增加了對 AI 的投資。其云智能部門已成為主要增長動力，在 12 月季度對阿里巴巴的利潤增長貢獻顯著。

                                                阿里巴巴集團控股有限公司 2025 年 3 月 5 日市值

“展望未來，由 AI 驅(qū)動的云智能集團收入增長將持續(xù)加速。” 阿里巴巴 CEO 吳泳銘最近表示。AI 發(fā)展?jié)摿淼臉酚^情緒得到了投資者的積極響應(yīng)，QwQ-32B 發(fā)布后，阿里巴巴股價明顯上漲。

QwQ-32B 的關(guān)鍵特性

QwQ-32B 采用強化學習（RL），即通過試錯學習，而非傳統(tǒng)的監(jiān)督訓練方式。這樣做的主要優(yōu)勢是，它所需的資源遠遠少于 DeepSeek-R1（QwQ-32B 僅 320 億參數(shù)，而 DeepSeek-R1 擁有 6710 億參數(shù)，其中約 370 億實際參與推理）。

盡管體量更小，QwQ-32B 在某些任務(wù)上卻能達到甚至略微超越更大模型的表現(xiàn)。

以下是其關(guān)鍵特性概覽：

? 類型：因果語言模型

? 訓練階段：預訓練 & 后訓練（監(jiān)督微調(diào)和強化學習）

? 架構(gòu)：采用 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 Transformer

? 參數(shù)數(shù)量：325 億

? 非嵌入?yún)?shù)數(shù)量：310 億

? 層數(shù)：64

? 注意力頭數(shù)（GQA）：Q 40，KV 8

? 上下文長度：完整 131,072 令牌

強化學習（RL）為何重要

阿里巴巴選擇 RL 訓練 QwQ-32B 的決定至關(guān)重要。RL 讓模型能直接從現(xiàn)實世界的反饋中學習，提高準確性和適應(yīng)性。阿里巴巴在兩個階段中實施了這一方法：

? 初期專注于數(shù)學和編程：第一階段，QwQ-32B 通過直接測試數(shù)學問題和編程任務(wù)學習，并通過實際計算和代碼執(zhí)行驗證結(jié)果。

? 擴展至通用能力：在掌握特定技能后，阿里巴巴擴大訓練范圍，使模型在遵循指令、優(yōu)化用戶交互等方面表現(xiàn)更好。

這種強化學習方法顯著提升了模型的效率，同時沒有犧牲性能。

性能測試結(jié)果

在多個基準測試中，QwQ-32B 取得了出色表現(xiàn)：

? 數(shù)學任務(wù)：在 AIME24 等高難度數(shù)學測試中表現(xiàn)與 DeepSeek-R1 持平。

? 編程任務(wù)：在 LiveCodeBench 等代碼基準測試中，QwQ-32B 取得了與 DeepSeek-R1 相近的分數(shù)。

? 通用任務(wù)：在指令跟隨和工具使用測試中，QwQ-32B 略微優(yōu)于 DeepSeek-R1。

下方是 QwQ-32B 與其他領(lǐng)先模型（包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原版 DeepSeek-R1）的對比表現(xiàn)。

                       QwQ-32B 與其他模型的對比，包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原版 DeepSeek-R1

這些基準測試顯示，該模型在實際應(yīng)用中的可行性，適用于多種真實場景。

但它在現(xiàn)實世界中表現(xiàn)如何？

人工智能與數(shù)據(jù)專家 Ana Rojo Echeburúa（應(yīng)用數(shù)學博士）對 QwQ-32B 進行了數(shù)學、編程和邏輯推理測試。

草莓測試

提示：“‘strawberry’ 這個單詞中字母 ‘r’ 出現(xiàn)了幾次？”

                                                          QwQ-32B 回答

盡管 QwQ-32B 準確計算出了字母的數(shù)量，但它錯誤地指出了字母的位置，盡管題目并未明確要求這一點。這突顯了該模型偶爾會提供不必要的細節(jié)，并在推理上存在一定的不準確性。

數(shù)學推理測試

提示：“邊長為 3、4、5 的三角形面積是多少？”

                                                    QwQ-32B 回答

該模型正確回答出面積為 6，并清晰地解釋了多種求解方法，展現(xiàn)了清晰且直接的推理過程。然而，它在格式和公式呈現(xiàn)上存在一些不一致之處。

邏輯推理測試

經(jīng)典“狼、山羊和白菜”問題

提示：“一個人要帶著狼、山羊和白菜過河。船每次只能載一個物品。如果單獨留下，狼會吃山羊，山羊會吃白菜。請問他如何安全地把它們帶過河？”

                                                    QwQ-32B 回答

QwQ-32B 提供了一個大體正確的解決方案，但令人困惑的是，它聲稱需要六個步驟，而實際只列出了五個。其推理過程較為詳細，但也出現(xiàn)了一些問題，包括語言混雜——英文推理中夾雜了中文文本，使部分內(nèi)容難以理解。有趣的是，推理部分包含了一套完整且準確的逐步解決方案，但與最終總結(jié)的答案并不匹配。

對開發(fā)者和企業(yè)的實際影響

QwQ-32B 的高效性讓先進 AI 技術(shù)更容易普及。相比 DeepSeek-R1 需要高達 1600GB 的 GPU 顯存，QwQ-32B 僅需 24GB，使企業(yè)無需龐大的計算基礎(chǔ)設(shè)施即可部署強大 AI 工具。

此外，該模型采用 Apache 2.0 許可證開源，企業(yè)可以自由修改和使用，適用于自動化、軟件開發(fā)、數(shù)據(jù)分析等多個場景。

AI 社區(qū)對 QwQ-32B 的初步反應(yīng)總體積極，特別是開發(fā)者們稱贊其高效性和易部署性。例如，來自 Hugging Face 的 Vaibhav Srivastav 贊揚了 QwQ-32B 的速度和易用性。

如何訪問 QwQ-32B

目前有多種方式可訪問和測試 QwQ-32B：

? 專用演示應(yīng)用：Hugging Face Demo

? 直接下載模型：開發(fā)者和研究人員可從 Hugging Face 倉庫下載 QwQ-32B 進行深入研究。

? 在線界面：阿里巴巴通過官方 Qwen Chat 提供交互平臺。

                                            Qwen 官方網(wǎng)站界面截圖

Hugging Face 界面截圖

此外，預計 OIlama 等工具很快也會支持 QwQ-32B，讓開發(fā)者能夠更方便地使用本地化部署方式。

最終感想

我真的對 QwQ-32B 這樣的開源 AI 模型出現(xiàn)的速度感到震撼——甚至有點不知所措。這一發(fā)展表明 OpenAI 采用的高價訂閱模式可能很快會過時，因為高質(zhì)量的開源替代方案正變得越來越普及。

像 QwQ-32B 這樣的模型展示了 AGI（通用人工智能）發(fā)展的包容性，使 AI 不再只是少數(shù)人能負擔得起的昂貴工具。

當然，仍有許多方面值得探索，特別是這些小型但強大的模型在實際環(huán)境中的表現(xiàn)如何。我計劃在搭載 M3 芯片的 MacBook 上測試 QwQ-32B，并在后續(xù)文章中分享詳細結(jié)果。

QwQ-32B 預覽版的優(yōu)勢令人印象深刻，但推理和最終答案的矛盾性仍有待改進?？傮w而言，這可能預示著 AI 領(lǐng)域向更小、更高效模型轉(zhuǎn)型的新趨勢。

你試用過這個新模型了嗎？如果有，我很想聽聽你的想法。

posted @ 2025-03-12 10:57 果凍人工智能閱讀(2076) 評論(3) 收藏舉報

刷新頁面返回頂部

阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1嗎？

公告