OpenMusic:前沿的文本到音乐生成项目,让音乐创作变得轻而易举。亮点:1. 零样本长音乐生成,无需额外训练即可创作无限时长音乐;2. 支持多种训练策略,满足不同需求;3. 提供详细的训练和推理教程,新手也能快速上手。 参考文献: [1] http://github.com/ivcylc/OpenMusic 知识星球:Dify源码剖析及答疑,Di...
egressLM:让文本回归分析变得简单高效。它能从文本中直接预测数值,比如从系统状态文本预测性能指标。亮点:1. 支持预训练和微调,适配多种回归任务;2. 可处理长文本输入,最大长度达2048;3. 基于PyTorch,易于扩展和集成。 参考文献: [1] http://github.com/google-deepmind/regress-lm ...
Embodied-World-Models-Survey:一份关于如何通过物理模拟器和世界模型学习具身智能的全面调研。亮点:1. 提出从IR-L0到IR-L4的智能机器人分级模型;2. 涵盖机器人运动、灵巧性与交互的多种技术;3. 对比主流模拟器和世界模型的架构与应用场景。 参考文献: [1] http://github.com/NJU3DV-Loon...
ml-diffucoder:探索和改进用于代码生成的掩码扩散模型。亮点:1. 提出耦合采样方案,提升扩散模型的训练效率;2. 引入自回归性评分,量化生成过程中的因果模式;3. 通过实验发现扩散模型在代码任务中的独特表现。 参考文献: [1] http://github.com/apple/ml-diffucoder 知识星球:Dify源码剖析及答疑...
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 德国知名技术咨询公司TNG开源了DeepSeek R1的增强版DeepSeek-TNG-R1T2-Chimera。 Chimera是基于DeepSeek的R1-0528、R1和V3...
机器之心原创 作者:闻菲 当整个人工智能行业都在为「如何给程序员打造更快的马」而疯狂投入时,一支特立独行的团队选择「直接去造汽车」。 「大模型的发展,更像一场篮球比赛才刚刚打完第一节。所有人都在用第一节的比分去判断整场比赛的胜负,但我们认为,还有第二、三、四节要打。」蔻町智能(AIGCode)创始人兼 CEO 宿文用这样一个比喻,为当前略显拥挤的 AI ...
流量获客举步维艰、组织效能难以提升、工作效率不尽如人意、沟通效率低下阻碍发展 —— 这些企业普遍面临的四大痛点,正制约着企业的前行脚步。而智能体 Agent 的出现,正以革命性突破重塑企业运营模式。7月5日晚8点的《1 小时 AI 公开课》,聚焦《AI 智能体,2025 企业生存必修课》,本次课程特邀 AIGC 开放社区首席讲师、TEDx 演讲者、双语培训师...
机器之心报道 编辑:+0 最近「上下文工程」有多火?Andrej Karpathy 为其打 Call,Phil Schmid 介绍上下文工程的文章成为 Hacker News 榜首,还登上了知乎热搜榜。 之前我们介绍了上下文工程的基本概念,今天我们来聊聊实操。 为什么关注「上下文工程」 我们很容易将 LLM 拟人化——把它们当作能够「思考」、「理解」或「感...
FOT团队 投稿 量子位 | 公众号 QbitAI 大模型越来越大,通用能力越来越强,但一遇到数学、科学、逻辑这类复杂问题,还是常“翻车”。 为破解这一痛点,华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林(Forest-of-Thought,FoT)。 该方法借鉴人类“多角度思考、反复验证”的认知方式,打破传统LLM的线性推理范式,通过构建多棵并行推理...
GenieBlue团队 投稿 量子位 | 公众号 QbitAI 在AI迈入多模态时代的当下,“让大模型上手机”成为产业落地的焦点。 现有MLLM在手机端部署时常面临两大难题: 1、纯语言任务性能下降:现有的端侧MLLM在纯文本的任务上表现不尽人意; 2、手机NPU不支持MoE架构:而MoE架构恰恰是多模态训练中保持语言能力的常用手段(比如CogVLM,Win...