安爸-超级家庭
bg

AI进家庭

ICML 2025 Spotlight|南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架,准确率提高20%

该工作由南洋理工大学陶大程教授团队与武汉大学罗勇教授、杜博教授团队等合作完成。 近些年,多模态大语言模型(MLLMs)在视觉问答、推理以及 OCR 等任务上取得了显著的成功。然而,早期的 MLLMs 通常采用固定的分辨率(例如 LLaVA-v1.5 将输入图像缩放为),对于输入图像为高分辨率图像(例如 8K 分辨率)会导致图像变得模糊,损失大量有效的视觉信...

阅读:10 评论:0

编程革命彻底爆发!刚刚,OpenAI最强智能体上线ChatGPT

新智元报道 编辑:编辑部 YXH 【新智元导读】OpenAI最强AI编程智能体真的来了!Codex震撼上线,由o3优化版codex-1加持,多任务并行,半小时干完数天软件工程任务。 从今天起,AI编程正式开启新时代! 刚刚,Greg Brockman带队与OpenAI六人团队开启线上直播,震撼发布了一款云端AI编程智能体——Codex。 用奥特曼的...

阅读:11 评论:0

苦研10年无果,千万经费打水漂!AI黑箱依然无解,谷歌撕破脸

新智元报道 编辑:KingHZ 【新智元导读】ChatGPT「舔狗化」事件背后,暴漏目前AI仍是「黑箱」。 一场关于「机制可解释性」的路线分歧,正撕裂AI研究最核心的价值共识。谷歌认怂,Anthropic死磕——AI还能被「看懂」吗? OpenAI只是微微升级了一下ChatGPT-4o,却一夜让AI性格大变,化身「赛博舔狗」。 然而,没有人知道这到...

阅读:13 评论:0

AI实力榜大洗牌!OpenAI谷歌强势领跑,Anthropic节节败退

新智元报道 编辑:英智 【新智元导读】AI市场风起云涌!Poe最新报告揭晓:OpenAI的GPT-4o称霸文本生成,谷歌的Gemini 2.5 Pro领跑推理,Kling在视频领域异军突起,企业如何在这场AI竞赛中抢占先机? 最近,Poe发布了最新的使用报告,报告显示,OpenAI和谷歌的地位越来越稳,势头很猛。 Anthropic就没那么好运,有...

阅读:11 评论:0

刚刚,OpenAI最强编程智能体上线ChatGPT!AI的「终极外挂」来了

Altman 昨天早上还在 X 上卖关子,说有个研究预览版本快上线,要给它起个「如果它成了会很好记」的名字。 就在刚刚,OpenAI 正式发布 Codex。 这是一款基于云端运行的软件工程智能 Agent,能够并行处理多个开发任务,协助开发者高效完成编程工作。 UI 设计没整花活,Codex 提供一个输入框和两个按钮——「Ask」(提问)和 「Code」(...

阅读:13 评论:0

新的AlphaGo时刻要来?谷歌推出“进化式”编程智能体,AI已学会设计高级算法!

文丨谭梓鑫 谷歌AI模型进化如此之快的秘密终于揭开了。 日前,谷歌DeepMind公布了内部运行的AlphaEvolve,这是一个基于Gemini的独特编码代理,可用于设计高级算法,改进AI芯片设计以及用来解决数学和计算机科学领域中的其他重大问题。 用DeepMind首席执行官Demis Hassabis的话说:“AlphaEvolve可以让知识产生...

阅读:11 评论:0

腾讯混元发布首个毫秒级响应的实时生图大模型,主体一致度超高!!!

腾讯混元今天发布了Hunyuan Image 2.0。 官方宣称是首个毫秒级响应的实时生图大模型。 大概一年前,也给大家推荐过一个速度超快的模型,跟混元这个比速度还差了点。 Hunyuan Image 2.0 最牛的点还是在于主体的一致性,提示词慢慢输入的同时,图片也越来越完善,也可以画线稿,边画边出图。 这也有个好处,可以频繁修改提示词,几乎瞬间就能看到修...

阅读:10 评论:0

谢赛宁SFR等新作,统一多模态BLIP3-o登场!先理解后生成,端掉VAE刷新SOTA

新智元报道 编辑:定慧 【新智元导读】BLIP3-o是一个全开源统一多模态模型,结合自回归与扩散架构,采用「先理解后生成」策略,创新地使用CLIP特征与Flow Matching训练,显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先,也正拓展至图像编辑和视觉对话等多模态任务。 多模态模型卷到头了?不,真正的革新才刚开始。 就在最...

阅读:12 评论:0

独家对话Lovart创始人陈冕:我们没有产品经理,只有设计师

Lovart 值得关注,它是 AI 应用层团队产品创新能力的印证和延续,这是 Manus 之后最火的 Agent,从通用领域,成功地向垂直赛道落地了 Agent 产品形态。 据了解,Lovart 发布后,推特上出现近 5000 条讨论帖,官方视频播放近百万,获得马斯克点赞、Grok 官方发帖讨论。24 小时内,waitlist 申请人数超过 2 万。 (一...

阅读:11 评论:0

Manus 终于能生图了,实测后我发现把它当 GPT-4o 用有点浪费 附体验地址

Manus,终于也能生图了。 凌晨,Manus 正式上线图像生成功能。不同于普通的图像生成工具,Manus 主打的是「理解意图 + 制定方案 + 多工具协同」的执行能力,生图只是其中一个环节。 几天前,Manus 刚宣布全面开放注册。 所有用户每天都能免费使用一个任务,系统自动提供 300 积分支持,另外还一次性发放 1000 积分奖励,算是诚意拉满。 要...

阅读:10 评论:0