GRPO：零依赖版

安爸 • 1 年前 • 16 阅读

GRPO 训练实现的极简依赖版本。几乎从零开始构建所有组件，仅依赖 tokenizers 进行分词处理，以及 pytorch 完成训练。

参考文献：
[1] http://github.com/policy-gradient/GRPO-Zero

（文：NLP工程化）

GRPO：零依赖版最先出现在每时AI。

分享到：

扫描二维码，在手机上阅读

🤞 分享

上一篇 Chonky：一个完全基于神经网络的文本分块工具下一篇 Skywork-OR1：释放强化学习的力量，打造强大的数学和代码推理Agent