LLM360团队推出全球最大数学数据集
安爸
发布于
LLM360 推出了 MegaMath:全球目前最大的开源数学推理预训练数据集,共计 3710 亿(371B)tokens,覆盖网页、代码和高质量合成数据三大领域。


参考文献:
[1] 报告标题:MegaMath: Pushing the Limits of Open Math Corpora
[2] 技术报告:https://arxiv.org/abs/2504.02807
[3] 数据集地址:https://hf.co/datasets/LLM360/MegaMath
[4] GitHub 代码:https://github.com/LLM360/MegaMath
(文:NLP工程化)
LLM360团队推出全球最大数学数据集最先出现在每时AI。
扫描二维码,在手机上阅读