摘要:
當大模型成為Agent,我們該如何教會它“行動”?我們將看到一條演進路線:從優(yōu)化單一動作(ReTool),到學習長程規(guī)劃(RAGEN),再到提升思考質(zhì)量本身(RStar2),最后到一種不依賴外部獎勵的、更底層的經(jīng)驗內(nèi)化方式(Early Experience)。 閱讀全文
當大模型成為Agent,我們該如何教會它“行動”?我們將看到一條演進路線:從優(yōu)化單一動作(ReTool),到學習長程規(guī)劃(RAGEN),再到提升思考質(zhì)量本身(RStar2),最后到一種不依賴外部獎勵的、更底層的經(jīng)驗內(nèi)化方式(Early Experience)。 閱讀全文
posted @ 2025-11-04 07:47
風雨中的小七
閱讀(100)
評論(0)
推薦(1)

浙公網(wǎng)安備 33010602011771號