明敏 克雷西 发自 凹非寺 量子位 | 公众号 CVPR 2025奖项出炉!谢赛宁苏昊齐获青年学者奖。 该奖项面向获得博士学位不超过7年的早期研究工作者,表彰他们在计算机视觉领域的杰出研究贡献。 其中,苏昊是李飞飞的博士生,他参与了对计算机视觉领域鼎鼎有名的ImageNet。 谢赛宁以一作身份和何恺明合作完成ResNeXt,同时也参与了MAE,都是计算机视...
2025 年的 AI 科技圈,喧嚣依旧,但一个新的风暴眼正悄然形成。当多数人对 Agent 分类还停留在通用和垂类这种按领域适用性划分方式时,一个以技术载体为出发点的新兴 Agent 物种正在悄然形成行业共识——Agentic Browser(智能体浏览器)。 从海外备受瞩目的Comet、Dia,到国内Fellou、豆包,以及传统浏览器厂商Chrome、夸克...
新智元报道 编辑:犀牛 英智 【新智元导读】AI芯片战争进入白热化! AMD在Advancing AI大会发布了3nm工艺的MI355X以1850亿晶体管、288GB HBM3e显存实现最高2.2倍于英伟达B200的推理性能;明年推出的MI400系列更将搭载423GB HBM4显存。 就在昨天,AMD Advancing AI大会上,AMD董事长兼...
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚的CVPR上,鹅厂3D生成模型混元3D 2.1正式宣布开源! 它可以紧跟潮流,细腻地呈现出当红炸子鸡Labubu。 也可以走复古路线,生成纹理精致的青铜器。 总之相比于前一代2.0,混元3D 2.1主打的是几何与纹理的双重优化。 特别在纹理贴面上有比较大的优化,可达到当前开源3D模型中的S...
在 AI 语音模型领域,不论开源还是闭源模型,能在全球排上前十的屈指可数,而 FishAudio 团队语音模型就在其列,每每有新模型上线,总能排进TTS-Arena TOP3之内。 近期,Fish Audio 推出了新一代的 TTS 语音模型:OpenAudio S1,距上一次 Fish Speech 1.5 语音模型升级已有半年。 而这次全新的语音生成模...
Cosmos-Predict2:NVIDIA开源的物理AI世界模型,可生成高质量图像和未来视觉世界。亮点:1. 提供2B和14B两种模型规模,满足不同需求;2. 支持文本到图像、视频到世界等多种生成方式;3. 提供详细的安装、使用和训练指南。 参考文献: [1] http://github.com/nvidia-cosmos/cosmos-predi...
OpenAI联合创始人Ilya精选的AI论文清单来了。Ilya称,读懂这30篇论文,就掌握了当今世界的90%重要知识。 22篇基础篇(经典神经网 & 结构):RNN/LSTM、CNN、Transformer、记忆模型、VAE 等 3篇优化篇(正则化、规模、推理):dropout、残差、MDL、GPipe、Scaling Laws、关系网络等 5篇应...
每年全球顶级的 CVPR 会议都有上万篇论文投稿,想从中找到真正有价值的研究很难,一篇篇翻看更加耗时耗力。好在 GitHub 上 top CVPR 2025 papers 这个开源项目,帮我们精选了最值得关注的顶级论文。该项目作者从今年共 13008 篇投稿中筛选精华,按领域分类整理,还贴心提供论文、代码和演示链接。涵盖了 3D 视觉、距离感知、目标检测与跟...