国产精品免费看_97不卡在线视频_中文字幕综合在线观看_国产成人精品影视_欧美寡妇偷汉性猛交_青青国产在线_国产成人av电影在线观看_精品国产免费av_欧美日韩综合_欧美图片一区二区三区_久久综合精品一区_芒果视频成人app

首頁 >快訊 >

今日關注:X上63萬人圍觀的Traning-Free GRPO:把GRPO搬進上下文空間學習

年初的 DeepSeek-R1,帶來了大模型強化學習(RL)的火爆。無論是數學推理、工具調用,還是多智能體協作,GRPO(Group Relative Policy Optimization)都成了最常見的 RL 算法。


(資料圖片僅供參考)

GRPO 的核心思路很簡單卻強大:

  • 對同一個問題,同時生成多條解答路徑(rollout)
  • 給這些路徑打分,比較組內優劣
  • 再根據優勢信號來更新模型參數,讓模型越來越偏好高質量解法

這種「多路徑并行 + 組內優勢」的機制,雖然比傳統 PPO 等方法更加簡潔,但仍然需要優化模型參數, 太貴了!

  • 在 32B 量級的模型上訓練一次 RL,就可能要花掉上萬美元
  • 如果是 600B 級別的超大模型,成本和工程難度更是上天

這讓 GRPO 雖然強大,卻幾乎只能由巨頭來玩,中小團隊和個人開發者根本「玩不起」。

能不能不改模型參數,也來跑一遍 GRPO?

騰訊優圖的一篇最新論文就提出了一個非常有意思的答案:既然更新參數這么貴,那就不更新參數,直接把 GRPO 的「學習過程」搬進上下文空間!

  • 論文標題:Training-Free Group Relative Policy Optimization
  • arXiv 鏈接:
  • https://arxiv.org/abs/2510.08191
  • GitHub 地址:
  • https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

Training-Free GRPO 是把 GRPO 訓練的整個范式遷移到了上下文學習之中:

  • 訓練集上多輪迭代學習,然后在獨立的測試集上驗證
  • 每輪中,對同一道題目并行生成多條解答(Rollout)
  • 對比組內不同解法的差異,提取文本型組內優勢(Semantic Group Advantage),對齊 GRPO 里的數值型組內優勢
  • 根據這些文本優勢優化一個文本型 LoRA,對齊 GRPO 里的參數型 LoRA

舉個例子,對于訓練集里這道數學幾何題,模型會生成多個不同的解答路徑(Rollout),可能會出現不同的解題路徑,有的做對了有的做錯了。

隨后,模型總結不同解法的過程與正確性,從而比較同一組內的不同解答。這個過程自然提煉出文本型組內優勢:總結出有的做法為什么對,有的做法為什么錯。比如例子里:

  • 錯誤的解法不僅設錯方向,還沒有做條件約束檢查
  • 成功的解法則正確了設定坐標方向,也系統化驗證了所有條件

在一個迭代里,得到每道題的文本型組內優勢后,模型就把當前批次的優勢都更新文本型 LoRA 里,也就是對經驗庫進行增刪改,沉淀學習到的經驗。

實驗效果

在數學推理上,僅用100 個訓練樣本,花費約 8-18 美元,就能在已經足夠強大的 671B 模型上繼續提升性能。

無論是否采用代碼工具(CI,code interpreter)幫助解題,在 AIME 榜單上的 Mean@32 指標都能實現提升。

令人驚喜的是,在三個輪次中,訓練集和測試集的平均工具調用次數均有所減少。這表明 Training-Free GRPO 不僅能夠鼓勵正確的推理和行動,還能教會代理找捷徑,更高效明智地使用工具。

而在網頁搜索場景中,Training-Free GRPO 同樣無需更新模型參數,即可在 DeepSeek-V3.1-Terminus 強悍水平之上,實現了 4.6% 的 Pass@1 顯著提升。

為什么需要 Training-Free GRPO?

  • 保留 GRPO 的強化學習優勢

多路徑探索、group advantage、多輪迭代、完全獨立的訓練與測試集……這些 GRPO 的精華一項不少,全部在上下文層面重現了出來。

  • 成本暴降

不用訓練模型參數,僅需少量數據,并且全程只靠 API 隨用隨付!

只需 8~18 美元以及 100 條訓練數據,就能在 671B LLM 上跑完多輪的強化學習訓練!遠遠低于 32B 模型的訓練成本。

  • 泛化更好

與 Self-Refine 這類就地改寫不同,Training-Free GRPO 是在獨立數據集上多輪迭代訓練的,對測試集里的 Out-of-Domain (OOD) 數據都有顯著提升。

并且,參數微調后的 32B 級別模型往往只能勝任特定窄域任務,可能需要多個專用模型來覆蓋完整業務需求,顯著增加了系統復雜度和維護成本。而 Training-Free GRPO 只需要一個統一的模型和 API 就可以泛化到不同的場景!

小結:RL 不一定非得有梯度

過去我們默認,強化學習就意味著參數更新。雖然前期有一些上下文空間優化的探索如 Self-Refine、Reflexion、TextGrad 等,但 Training-Free GRPO 與他們不同,完全對齊了參數空間 RL 訓練的流程和細節:

  • 把 GRPO 的「獨立訓練集 + 多輪迭代 + 并行 Rollout + 組內優勢」這套 RL 訓練范式,整體遷移到上下文空間,在不訓練模型的情況下,也能獲得強化學習效果。
  • 這讓超大模型的 RL 優化變得廉價、靈活、可持續,也給每個開發者的小業務提供了用得起的新方案。

本文方法已開源,歡迎 Star 和試用!

預告:Training-Free GRPO 將作為一個新功能集成到 Youtu-Agent 框架中,幫助開發者們進一步提升各種自定義場景的效果。

注:成本計算基于 DeepSeek API 官方定價,實際可能因使用情況而有所波動。

關鍵詞: 調用 算法 上下文 空間學習 深度思考模

責任編輯:Rex_22

成人av中文| 日韩 欧美 视频| 欧美专区视频| 精品久久久久久久久国产字幕| 制服国产精品| 亚洲国产一区二区三区高清| 日韩av免费在线观看| 日韩中文字幕在线一区 | 中文字幕成人一区| 国产欧美不卡| 久久精品国产99精品国产亚洲性色| 中文字幕一区二区三区欧美日韩 | 一区二区三区精品视频| 麻豆一区二区三区视频| 久久午夜老司机| 日韩精品一区二区三区不卡| 91麻豆精东视频| 欧美视频第三页| 国产欧美日韩麻豆91| 性猛交ⅹ×××乱大交| 亚洲日本护士毛茸茸| 久久久久久久久久久久久久久久久久久| 国产精品伦理在线| 裸体免费网站| 精品女同一区二区三区在线播放| 色就是色亚洲色图| 91福利资源站| 激情小视频在线| 欧美绝品在线观看成人午夜影视| 成人在线观看网站| 精品国产人成亚洲区| 色是在线视频| 久久综合电影一区| 在线成人动漫av| 国产精品xxxx| 精品一二线国产| 国产精品乱码久久久久| 亚洲综合视频在线| 在线看的av网站| 日韩精品在线私人| 日韩高清一区| 成人免费福利在线| 男人的天堂亚洲在线| 300部国产真实乱| 日韩美女啊v在线免费观看| 久艹在线视频| 日韩亚洲国产中文字幕欧美| 亚洲不卡系列| 午夜精品一区二区三区视频免费看| 成人6969www免费视频| 好吊色欧美一区二区三区| 国产精品系列在线播放| 中文字幕免费中文| 欧美性做爰猛烈叫床潮| 老司机2019福利精品视频导航| 欧美日韩成人免费| 亚洲精品一区二区妖精| 一区二区成人国产精品 | 色噜噜偷拍精品综合在线| 在线三级中文| 久久精品国产一区二区电影| 欧洲激情视频| 一区二区三区四区五区精品| 国产精品久久久久久久久免费樱桃 | 成人激情在线| 日韩av大全| 中文字幕一区二区三区精华液 | 成人h在线观看| 国产精品久久久久久久天堂| 久久这里只有| 亚洲第一中文av| 欧美日韩免费在线视频| 色成人综合网| 国产女人水真多18毛片18精品| a亚洲天堂av| 91视频在线观看| 欧美疯狂性受xxxxx另类| 亚洲作爱视频| 国产日韩在线| 亚洲色图第三页| 欧美久久成人| 性刺激的欧美三级视频| 日韩视频在线永久播放| 日韩成人一级| 男人的天堂视频在线| 欧美性猛交xxxx黑人| 91国产一区| 日本一区二区在线视频| 一区二区三区加勒比av| 国产亚洲人成a在线v网站| 九九九九精品九九九九| 国产精品毛片久久久久久| 欧美大胆a人体大胆做受| 91福利视频导航| 国产精品每日更新在线播放网址| 福利小视频在线| 91香蕉嫩草影院入口| 国产精品国产精品国产专区不蜜| sm久久捆绑调教精品一区| 成人国内精品久久久久一区| 久久久久久久久久久黄色| av成人影院在线| 国产中文一区二区| 午夜精品福利视频网站| 白白在线精品| 精品国产一区三区| 亚洲精品国产suv| 亚洲国产美女| 欧美扣逼视频| 国产精品欧美日韩一区二区| 国产日韩欧美电影| 久久天堂影院| 国产精品一二三在线观看| 欧美一区二区视频在线观看2022| 欧美a级片视频| 2018av男人天堂| 九九精品在线视频| 成人免费看的视频| 电影天堂国产精品| 国产又粗又猛又爽又黄的网站| 精品日韩一区二区| 久久精品一本| 啪啪免费视频一区| 欧美专区一二三| 欧美日韩mp4| 一本色道久久综合亚洲精品不卡| 嫩草研究院在线| 91pron在线| 91极品美女在线| 激情欧美一区二区三区| 国产精品久久久久一区二区国产| 亚洲一区免费网站| 欧美日韩国产在线看| 91精品国产视频| 国产玉足榨精视频在线观看| 亚洲影院在线看| 在线观看亚洲精品视频| 亚洲经典自拍| 中文字幕在线观看播放| 亚洲激情电影在线| 亚洲免费av片| 9l国产精品久久久久麻豆| 国产成人福利夜色影视| 久久久久狠狠高潮亚洲精品| 97精品一区二区三区| 亚洲欧美乱综合| 欧美电影免费播放| 日韩私人影院| 九九九久久久| 亚洲精品日韩在线| av资源站一区| 婷婷成人在线| 男男激情在线| 日韩精品无码一区二区三区| 亚洲午夜性刺激影院| 亚洲国产精品成人综合色在线婷婷 | 99久热在线精品视频观看| 91淫黄看大片| 国产一区二区丝袜| 欧美一区二区三区电影| 丰满白嫩尤物一区二区| 欧美久久电影| 婷婷成人综合网| 9色精品在线| 三级成人黄色影院| 天天干天天干天天干天天干天天干| 日韩av日韩在线观看| 欧美在线不卡一区| 国产一区二区三区免费| 波多野结衣欧美| 国产私人尤物无码不卡| 中文字幕第50页| 午夜精品久久久99热福利| 欧美日韩国产中文字幕| 日韩二区三区在线观看| 精品日产乱码久久久久久仙踪林| 春暖花开成人亚洲区| 成人免费毛片在线观看| 国产精品白嫩美女在线观看| 日韩一区二区精品在线观看| 久久精品综合网| 99精品国产一区二区青青牛奶| 亚洲欧洲一二区| 黄色av网址在线免费观看| 国产精品va在线观看无码| 国产欧美在线视频| 在线观看精品国产视频| 色综合久久久久网| 91免费国产在线| 亚洲黄色大片| 国产精品毛片av| zzzwww在线看片免费| 精品女厕厕露p撒尿| 免费极品av一视觉盛宴| 91精品中文在线| 色偷偷噜噜噜亚洲男人的天堂| 在线看一区二区| 国产精品不卡一区| 国产成人激情av| 黄色成人在线网址|