阶跃星辰携手光影焕像发布并开源 3D 大模型 ——Step1X-3D。Step1X-3D 模型总参数量达 4.8B(几何模块 1.3B,纹理模块 3.5B),凭借坚实的数据基础与先进的 3D 原生架构,可生成高保真、可控的 3D 内容。 Step1X-3D 不止于视觉「好看」,更追求实现「好用」与「可控」,旨在为 3D 内容创作提供强大而可靠的技术引擎。这...
昨天,全球著名开源大模型平台DeepSeek在huggingface发布了,超强开源模型V3的论文。 主要从硬件架构和模型设计的双视角探讨如何在不牺牲性能的前提下实现更高效的大规模训练和推理以突破硬件瓶颈。 其中,DeepSeek-MoE和多头潜在注意力、FP8混合精度训练以及多标记预测等成为关键创新技术。 论文地址:https://huggingface...
昨天,CNBC消息,特朗普已告诉苹果CEO库克,不希望这家科技巨头在印度生产产品。 特朗普说:“我昨天和库克有点小矛盾,我不想让他在印度生产。” 苹果一直在加大在印度的生产力度,计划未来几年在该国生产全球约25%的iPhone,以减少对中国的依赖。目前,该公司旗舰智能手机约90%在中国制造。 特朗普称印度是世界上关税最高的国家之一,并补充说,印度已向美国提...
本文由清华大学和快手可灵团队共同完成。第一作者是清华大学智能视觉实验室在读本科生史明磊。 在生成式 AI 领域,扩散模型(Diffusion Models)已成为图像生成任务的主流架构。然而,传统扩散模型在处理不同噪声水平和条件输入时采用统一处理方式,未能充分利用扩散过程的异构特性,导致计算效率低下,近期,可灵团队推出 DiffMoE(Dynamic To...
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 超越OpenAI! 国产大模型突袭,AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一! 而且还是榜单前十名中唯一的国产玩家。 要知道...
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT新版记忆功能居然被民间大佬逆向工程了! 能引用历史记录,甚至还能悄悄藏个人资料? 最近OpenAI推出了一项名为聊天历史记录的额外记忆功能,允许ChatGPT引用历史对话以进行个性化交互。 相较于原有的保存记忆功能,新功能更私人、更懂你。 相关功能默认关闭,需要用户自行在“设置->...
General-Level团队 投稿 量子位 | 公众号 QbitAI 多模态大模型(Multimodal Large Language Models, MLLM)正迅速崛起,从只能理解单一模态,到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。 在“如何全面客观地评测多模态大模型”这一问题的回答上,过去常用的多模态大模型评测方法是堆砌多个任务的成...
Terminator 🤖 终结者机器人 Terminator 是最快的AI优先计算机操作SDK。它采用类似Playwright的API与Windows原生GUI应用交互,如同解析网页一般。通过操作系统级无障碍API,相比基于视觉的方案,Terminator为AI智能体提供了显著更快、更可靠的交互能力,并能操作后台应用程序。 ⚠️ 实验性警告 ⚠️:Term...
随着语音助手、有声交互、AI 角色配音等场景的普及,语音大模型也正在面临一个核心瓶颈:响应速度太慢,难以实时交互。 今天为大家介绍一款由 VITA 团队开源的端到端语音模型:VITA-Audio,可以带来前所未有的超低延迟体验,让语音生成进入毫秒级响应时代! 一个7B参数的端到端语音模型,首次生成音频仅需53毫秒,速度比同级别模型快3-5倍! 它完全开源,...