miniDiffusion,一个用PyTorch重新实现的Stable Diffusion 3.5模型的项目。它以最少的代码(约2800行)从头开始复现Stable Diffusion 3.5,包括从VAE到DiT以及训练和数据集脚本。项目包含核心图像生成模块、文本编码器、字节对和单体分词器等组件,还提供训练和推理脚本。该项目用于教育和实验目的。 参考文献...
新智元报道 编辑:Aeneas 【新智元导读】奥特曼和Jony Ive要搞的全新AI硬件,从产品到名字竟然全是剽窃?刚刚,谷歌X孵化公司IYO一纸诉状把OpenAI告上法庭,撕开65亿美元天价收购背后的真相,马斯克也赶来前排吃瓜。 就在刚刚,奥特曼被告了! 一个月前,OpenAI官宣了史上最大笔收购——斥资65亿美元,全股权收购前苹果传奇设计师Jo...
之前给大家推荐过OmniGen v1,最近几天刚升级了OmniGen2。 OmniGen2针对文本和图像模态分别构建了独立的解码路径,运用未共享参数,搭配解耦的图像分词器。 说人话, OmniGen2的架构升级让文本与图像在生成过程中能更高效、精准地被处理,文本解码路径可依据文本提示,精细把控图像内容走向,图像解码路径则专注于图像特征,保障生成图像的质量与...
在多模态大模型的性能竞赛中,Post-training 正逐渐成为真正拉开差距的关键阶段。架构趋同之下,MiMo-VL 与 Seed-VL 两大系统在后训练链条上的策略博弈,展现了当前业界对指令对齐、强化学习与奖励建模的多种探索路径。 本文围绕 SFT、RLHF、奖励模型范式等核心模块,系统对比两者在数据构造、训练目标、优化技巧等方面的具体实现,梳理其在构...
近日,中山大学计算机学院与腾讯微信搜索团队联合提出 Q-RM(Q-function Reward Model),在 ICML 2025 正式发表。 这一方法专注于构建更精确的 token-level 奖励信号,是对齐训练中一个关键突破,显著提升了大语言模型的训练效率和效果。该研究由中山大学计算机学院与腾讯微信搜索团队共同完成。 论文标题: Discrim...
多模态检索是信息理解与获取的关键技术,但跨模态干扰制约着统一多模态表示这一美好愿景的实现。 为此,快手与东北大学联合研发了多模态统一嵌入框架——UNITE。 论文标题: Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieva...
AI正成为直接生产力,“硅基战队”改变企业运营。 文 | 国仁 在近日举行的2025年世界移动通信大会(MWC)上海展上,联想集团携其最新的AI成果高规格参展。现场,联想展区重点展示了其在个人智能与企业智能领域的全栈AI布局,特别是以“超级智能体”为核心的战略落地成果。 展会期间,智东西有机会与少数国内媒体一同对联想集团执行副总裁兼中国区总裁刘军带...
本文根据极客公园创始人&总裁张鹏在 Founder Park AGI Playground 2025 上的演讲整理而成。 今天团队给我的任务是「你这几年聊了所有 AI 领域的先锋创业者,能不能分享一下你的观察和收获」。 我先说说自己的感受吧,过去三年真的很「酸爽」。技术的进步和产品的创新,一开始是赏心悦目,转眼就成了应接不暇。跟上时代不被「拉...
西风 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI AI大牛梅涛坐镇,全新多模态AI问世! 用法上堪称:全能。 不仅支持图片、视频生成: 奇幻场景、多样视角都能驾驭: 而且唇形同步功能上线,社恐大“i”人也能玩转播客: 划重点: 官方还提供了上百种可直接套用的趣味特效模板,让用户实现“躺平创作”。 像下面这种炫酷转换,操作简单到只需上传一张图...
不圆 发自 凹非寺 量子位 | 公众号 QbitAI Thinking模式当道,教师模型也该学会“启发式”教学了—— 由Transformer作者之一Llion Jones创立的明星AI公司Sakana AI,带着他们的新方法来了! 这个方法要求教师模型像优秀的人类教师一样,根据已知解决方案输出清晰的逐步解释,而不再是从头开始自己解决。 用Sanaka A...