nanoAhaMoment:单文件强化学习库,专为LLM设计,不到700行代码即可实现高效训练
安爸
发布于
nanoAhaMoment:单文件强化学习库,专为LLM设计,不到700行代码即可实现高效训练。亮点:
- 单GPU即可训练3B参数模型;
- 从零开始的详细视频教程,快速上手;
- 高效训练,10小时内完成R1-zero倒计时任务。


参考文献:
[1] http://github.com/McGill-NLP/nano-aha-moment
[2] https://huggingface.co/McGill-NLP/nano-aha-moment-3b
(文:NLP工程化)
扫描二维码,在手机上阅读