<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1嗎?

                                                          圖表圖片由阿里巴巴提供
      

      本文作者的觀點:QwQ-32B 作為小型開源 AI 模型,在數(shù)學、編程等任務(wù)上表現(xiàn)接近甚至超越 DeepSeek-R1 671B模型,同時計算資源占用大幅降低,使其更易部署和使用。然而,在邏輯推理等方面仍存在推理不一致和語言混雜等問題,有待優(yōu)化。作者總體認可 QwQ-32B 的實力,并認為它代表了 AI 發(fā)展向“小而高效”方向演進的趨勢,可能沖擊 OpenAI 等收費模式的市場格局。

      DeepSeek R-1 才剛剛發(fā)布兩個月,我當時真的很興奮,因為 AI 社區(qū)終于有了一個能與 OpenAI 的強大 o1 模型抗衡的開源模型。

      然而就在昨天,阿里巴巴發(fā)布了另一個開源模型,功能與 DeepSeek R-1 相當,但體量卻小了 20 倍。

      這家中國科技巨頭推出的新推理模型 QwQ-32B 僅使用 320 億參數(shù),而 DeepSeek 的參數(shù)量為 6710 億,在推理過程中有 370 億參數(shù)被實際調(diào)用。

      自 2023 年推出首個大型語言模型以來,阿里巴巴大幅增加了對 AI 的投資。其云智能部門已成為主要增長動力,在 12 月季度對阿里巴巴的利潤增長貢獻顯著。

                                                      阿里巴巴集團控股有限公司 2025 年 3 月 5 日市值
      

      “展望未來,由 AI 驅(qū)動的云智能集團收入增長將持續(xù)加速。” 阿里巴巴 CEO 吳泳銘最近表示。AI 發(fā)展?jié)摿淼臉酚^情緒得到了投資者的積極響應(yīng),QwQ-32B 發(fā)布后,阿里巴巴股價明顯上漲。

      QwQ-32B 的關(guān)鍵特性

      QwQ-32B 采用強化學習(RL),即通過試錯學習,而非傳統(tǒng)的監(jiān)督訓練方式。這樣做的主要優(yōu)勢是,它所需的資源遠遠少于 DeepSeek-R1(QwQ-32B 僅 320 億參數(shù),而 DeepSeek-R1 擁有 6710 億參數(shù),其中約 370 億實際參與推理)。

      盡管體量更小,QwQ-32B 在某些任務(wù)上卻能達到甚至略微超越更大模型的表現(xiàn)。

      以下是其關(guān)鍵特性概覽:

      ? 類型:因果語言模型

      ? 訓練階段:預訓練 & 后訓練(監(jiān)督微調(diào)和強化學習)

      ? 架構(gòu):采用 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 Transformer

      ? 參數(shù)數(shù)量:325 億

      ? 非嵌入?yún)?shù)數(shù)量:310 億

      ? 層數(shù):64

      ? 注意力頭數(shù)(GQA):Q 40,KV 8

      ? 上下文長度:完整 131,072 令牌

      強化學習(RL)為何重要

      阿里巴巴選擇 RL 訓練 QwQ-32B 的決定至關(guān)重要。RL 讓模型能直接從現(xiàn)實世界的反饋中學習,提高準確性和適應(yīng)性。阿里巴巴在兩個階段中實施了這一方法:

      ? 初期專注于數(shù)學和編程:第一階段,QwQ-32B 通過直接測試數(shù)學問題和編程任務(wù)學習,并通過實際計算和代碼執(zhí)行驗證結(jié)果。

      ? 擴展至通用能力:在掌握特定技能后,阿里巴巴擴大訓練范圍,使模型在遵循指令、優(yōu)化用戶交互等方面表現(xiàn)更好。

      這種強化學習方法顯著提升了模型的效率,同時沒有犧牲性能。

      性能測試結(jié)果

      在多個基準測試中,QwQ-32B 取得了出色表現(xiàn):

      ? 數(shù)學任務(wù):在 AIME24 等高難度數(shù)學測試中表現(xiàn)與 DeepSeek-R1 持平。

      ? 編程任務(wù):在 LiveCodeBench 等代碼基準測試中,QwQ-32B 取得了與 DeepSeek-R1 相近的分數(shù)。

      ? 通用任務(wù):在指令跟隨和工具使用測試中,QwQ-32B 略微優(yōu)于 DeepSeek-R1。

      下方是 QwQ-32B 與其他領(lǐng)先模型(包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原版 DeepSeek-R1)的對比表現(xiàn)。

                             QwQ-32B 與其他模型的對比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原版 DeepSeek-R1
      

      這些基準測試顯示,該模型在實際應(yīng)用中的可行性,適用于多種真實場景。

      但它在現(xiàn)實世界中表現(xiàn)如何?

      人工智能與數(shù)據(jù)專家 Ana Rojo Echeburúa(應(yīng)用數(shù)學博士)對 QwQ-32B 進行了數(shù)學、編程和邏輯推理測試。

      草莓測試

      提示:“‘strawberry’ 這個單詞中字母 ‘r’ 出現(xiàn)了幾次?”

                                                                QwQ-32B 回答
      

      盡管 QwQ-32B 準確計算出了字母的數(shù)量,但它錯誤地指出了字母的位置,盡管題目并未明確要求這一點。這突顯了該模型偶爾會提供不必要的細節(jié),并在推理上存在一定的不準確性。

      數(shù)學推理測試

      提示:“邊長為 3、4、5 的三角形面積是多少?”

                                                          QwQ-32B 回答
      

      該模型正確回答出面積為 6,并清晰地解釋了多種求解方法,展現(xiàn)了清晰且直接的推理過程。然而,它在格式和公式呈現(xiàn)上存在一些不一致之處。

      邏輯推理測試

      經(jīng)典“狼、山羊和白菜”問題

      提示:“一個人要帶著狼、山羊和白菜過河。船每次只能載一個物品。如果單獨留下,狼會吃山羊,山羊會吃白菜。請問他如何安全地把它們帶過河?”

                                                          QwQ-32B 回答
      

      QwQ-32B 提供了一個大體正確的解決方案,但令人困惑的是,它聲稱需要六個步驟,而實際只列出了五個。其推理過程較為詳細,但也出現(xiàn)了一些問題,包括語言混雜——英文推理中夾雜了中文文本,使部分內(nèi)容難以理解。有趣的是,推理部分包含了一套完整且準確的逐步解決方案,但與最終總結(jié)的答案并不匹配。

      對開發(fā)者和企業(yè)的實際影響

      QwQ-32B 的高效性讓先進 AI 技術(shù)更容易普及。相比 DeepSeek-R1 需要高達 1600GB 的 GPU 顯存,QwQ-32B 僅需 24GB,使企業(yè)無需龐大的計算基礎(chǔ)設(shè)施即可部署強大 AI 工具。

      此外,該模型采用 Apache 2.0 許可證開源,企業(yè)可以自由修改和使用,適用于自動化、軟件開發(fā)、數(shù)據(jù)分析等多個場景。

      AI 社區(qū)對 QwQ-32B 的初步反應(yīng)總體積極,特別是開發(fā)者們稱贊其高效性和易部署性。例如,來自 Hugging Face 的 Vaibhav Srivastav 贊揚了 QwQ-32B 的速度和易用性。

      如何訪問 QwQ-32B

      目前有多種方式可訪問和測試 QwQ-32B:

      ? 專用演示應(yīng)用:Hugging Face Demo

      ? 直接下載模型:開發(fā)者和研究人員可從 Hugging Face 倉庫下載 QwQ-32B 進行深入研究。

      ? 在線界面:阿里巴巴通過官方 Qwen Chat 提供交互平臺。

                                                  Qwen 官方網(wǎng)站界面截圖
      

      Hugging Face 界面截圖

      此外,預計 OIlama 等工具很快也會支持 QwQ-32B,讓開發(fā)者能夠更方便地使用本地化部署方式。

      最終感想

      我真的對 QwQ-32B 這樣的開源 AI 模型出現(xiàn)的速度感到震撼——甚至有點不知所措。這一發(fā)展表明 OpenAI 采用的高價訂閱模式可能很快會過時,因為高質(zhì)量的開源替代方案正變得越來越普及。

      像 QwQ-32B 這樣的模型展示了 AGI(通用人工智能)發(fā)展的包容性,使 AI 不再只是少數(shù)人能負擔得起的昂貴工具。

      當然,仍有許多方面值得探索,特別是這些小型但強大的模型在實際環(huán)境中的表現(xiàn)如何。我計劃在搭載 M3 芯片的 MacBook 上測試 QwQ-32B,并在后續(xù)文章中分享詳細結(jié)果。

      QwQ-32B 預覽版的優(yōu)勢令人印象深刻,但推理和最終答案的矛盾性仍有待改進??傮w而言,這可能預示著 AI 領(lǐng)域向更小、更高效模型轉(zhuǎn)型的新趨勢。

      你試用過這個新模型了嗎?如果有,我很想聽聽你的想法。

      posted @ 2025-03-12 10:57  果凍人工智能  閱讀(2076)  評論(3)    收藏  舉報
      主站蜘蛛池模板: 99蜜桃在线观看免费视频网站| 久久精品中文字幕少妇| 九九热免费精品在线视频| 人妻蜜臀久久av不卡| 久久精品国产亚洲av麻豆软件| 日本一区二区三区有码视频| 疯狂做受xxxx高潮欧美日本 | 亚洲的天堂在线中文字幕| 97人人模人人爽人人少妇| 自拍偷拍第一区二区三区| 天堂va亚洲va欧美va国产| 中文字幕人妻中出制服诱惑 | 亚洲AV永久中文无码精品综合| av中文字幕在线二区| 无遮高潮国产免费观看| 亚洲精品日韩在线观看| 国产人成精品一区二区三| 中文字幕成人精品久久不卡| 狠狠亚洲色一日本高清色| 国产精品蜜臀av在线一区| 久久精品免视看国产成人| 欧美videos粗暴| 午夜大尺度福利视频一区| 日本高清不卡一区二区三 | 国产成人精品一区二区秒拍1o| 精品久久丝袜熟女一二三| 国产欧美一区二区日本加勒比| 亚欧洲乱码视频在线专区| 国产精品一区二区中文| 施甸县| 精品人妻免费看一区二区三区| 青青草一区二区免费精品| 中文字幕亚洲综合第一页| 国产日产亚洲系列av| 国产精品国产精品偷麻豆| 国产超碰无码最新上传| 国产精品三级在线观看无码| av午夜福利一片免费看久久| 国产亚洲欧美在线观看三区| 美女自卫慰黄网站| 一区二区三区精品偷拍|