摘要:
DeepSeek R1出來后業界都在爭相復現R1的效果,這一章我們介紹兩個復現項目SimpleRL和LogicRL,還有研究模型推理能力的Cognitive Behaviour,項目在復現R1的同時還針對R1訓練策略中的幾個關鍵點進行了討論和消融實驗,包括 閱讀全文
DeepSeek R1出來后業界都在爭相復現R1的效果,這一章我們介紹兩個復現項目SimpleRL和LogicRL,還有研究模型推理能力的Cognitive Behaviour,項目在復現R1的同時還針對R1訓練策略中的幾個關鍵點進行了討論和消融實驗,包括 閱讀全文
posted @ 2025-03-25 07:34
風雨中的小七
閱讀(740)
評論(0)
推薦(0)

浙公網安備 33010602011771號