安爸-超级家庭
bg

AI信息差

CVPR 2025 Oral 多模态交互新基准OpenING,新版GPT-4o杀疯了?

文生图 or 图生文?不必纠结了! 人类大脑天然具备同时理解和创造视觉与语言信息的能力。一个通用的多模态大语言模型(MLLM)理应复刻人类的理解和生成能力,即能够自如地同时处理与生成各种模态内容,实现多模态交互,这也是向通用人工智能(AGI)迈进的关键挑战之一。最近爆火的新版 GPT4o 与 Gemini-2.0 在图文交互这方向上也带来了令人振奋的效果。...

阅读:10 评论:0

Midjourney V7重磅上线,硬刚GPT-4o强强对决!AI生图王者争霸实测来袭

新智元报道 编辑:犀牛 定慧 【新智元导读】Midjourney V7 Alpha来了,带着「最聪明、最美丽」的承诺和让人惊叹的「草稿模式」。本文将通过未编辑的图片并排对比V7、V6和GPT-4o,深入剖析V7的个性化设置和语音控制功能。 终于,Midjourney带着V7 Alpha回来了!兑现了周一放出的一些图片预热。 但GPT4o生图的「余威...

阅读:10 评论:0

刚刚,特朗普扼杀全美GPU供应链?科技大厂核心AI算力告急,硅谷陷巨大恐慌

新智元报道 编辑:Aeneas 犀牛 【新智元导读】全美AI行业的GPU供应链,都要被特朗普扼杀了?目前,GPU是否能被全面关税豁免,还是一个谜,整个硅谷都陷入了恐慌!大科技公司CEO们的身家,更是一夜缩水上百亿。 关税大棒一出,连全美的GPU供应链也危在旦夕了? 昨夜,美股经历了5年未遇的史诗级暴跌,更可怕的是,AI界已经被特朗普的关税政策,搞得...

阅读:11 评论:0

“AI张雪峰”背后的野心:中国AI教育创业公司高考纸鸢完成数百万融资,能否引领志愿填报新未来?

在全球AI教育竞赛中,硅谷的节奏正在不断提速,OpenAI 支持的AI原生英语学习软件Speak 连融三轮,跻身独角兽。而中国,也悄然迎来本土化的破局者。根据硅谷科技评论(SVTR)AI创投库,教育被视为最有可能被AI大模型彻底重塑的领域之一。从OpenAI联手Khan Academy推出“AI教练Khanmigo”,到Duolingo借助GPT打造沉浸式...

阅读:10 评论:0

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

金磊 发自 凹非寺 量子位 | 公众号 QbitAI 有点意思。 这不DeepSeek前脚刚刚上新了一篇关于推理时Scaling Law的论文嘛,引得大家纷纷联想是不是R2马上要来了。 然鹅……奥特曼这边却发了一条“变卦”的消息: 计划改变:我们可能在几周之后先发布o3和o4-mini。 至于大家翘首以盼的GPT-5,奥特曼表示: 将在几个月之后,而...

阅读:10 评论:0

他们把宇树的网红机器狗「剥皮拆骨」,发现了它倒立行走的秘密

这,是蛇年春晚的顶流机器人 H1,凭借一手丢手绢的绝活,火遍了大江南北。 这,是一款能侧空翻、会鲤鱼打挺的人形机器人 G1,十八般武艺无一不精。 这,是能载人、空翻、越野,爬山穿水,到处撒欢的升级版工业机器狗 B2-W。 而这些刷屏全网的机器人/狗其实都来自同一家公司——宇树科技(Unitree),但在它们声名鹊起之前,宇树便早已靠着四足机器狗在业内打...

阅读:11 评论:0

微软50 周年庆典,员工当众怒斥历任CEO!纳德拉也要让每个人都能成为开发者

整理 | 褚杏娟、核子可乐 当地时间 4 月 4 日,微软迎来了自己成立 50 周年的日子。 微软是目前全球市值第二大的上市公司,其 50 年的历史上只有三任首席执行官,他们都出席了庆祝活动。其中一位是现任首席执行官萨蒂亚·纳德拉 (Satya Nadella)。另外两位是比尔・盖茨 (Bill Gates) 和史蒂夫·鲍尔默 (Steve Ballme...

阅读:11 评论:0

7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?

机器之心报道 编辑:张倩 语言是离散的,所以适合用自回归模型来生成;而图像是连续的,所以适合用扩散模型来生成。在生成模型发展早期,这种刻板印象广泛存在于很多研究者的脑海中。 但最近,这种印象正被打破。更多的研究者开始探索在图像生成中引入自回归(如 GPT-4o),在语言生成中引入扩散。 香港大学和华为诺亚方舟实验室的一项研究就是其中之一。他们刚刚发布的扩散推...

阅读:10 评论:0

CVPR 2025 GaussianCity: 60倍加速,让3D城市瞬间生成

想象一下,一座生机勃勃的 3D 城市在你眼前瞬间成型 —— 没有漫长的计算,没有庞大的存储需求,只有极速的生成和惊人的细节。 然而,现实却远非如此。现有的 3D 城市生成方法,如基于 NeRF 的 CityDreamer [1],虽然能够生成逼真的城市场景,但渲染速度较慢,难以满足游戏、虚拟现实和自动驾驶模拟对实时性的需求。而自动驾驶的 World Mod...

阅读:10 评论:0

三思而后行,让大模型推理更强的秘密是「THINK TWICE」?

近年来,大语言模型(LLM)的性能提升逐渐从训练时规模扩展转向推理阶段的优化,这一趋势催生了「测试时扩展(test-time scaling)」的研究热潮。OpenAI 的 o1 系列与 DeepSeek 的 R1 模型已展示出显著的推理能力提升。然而,在实现高性能的同时,复杂的训练策略、冗长的提示工程和对外部评分系统的依赖仍是现实挑战。 近日,由 a-m...

阅读:11 评论:0