安爸-超级家庭

nanoAhaMoment:单文件强化学习库,专为LLM设计,不到700行代码即可实现高效训练

安爸 发布于

nanoAhaMoment:单文件强化学习库,专为LLM设计,不到700行代码即可实现高效训练。亮点:

  1. 单GPU即可训练3B参数模型;
  2. 从零开始的详细视频教程,快速上手;
  3. 高效训练,10小时内完成R1-zero倒计时任务。

参考文献:
[1] http://github.com/McGill-NLP/nano-aha-moment
[2] https://huggingface.co/McGill-NLP/nano-aha-moment-3b


(文:NLP工程化)

nanoAhaMoment:单文件强化学习库,专为LLM设计,不到700行代码即可实现高效训练最先出现在每时AI


扫描二维码,在手机上阅读