MMSI-Bench团队 投稿 量子位 | 公众号 QbitAI AI能看图,也能讲故事,但能理解“物体在哪”“怎么动”吗? 空间智能,正是大模型走向具身智能的关键拼图。 面对1000道多图推理题,开源大模型集体失守——准确率不到30%,甚至不如瞎猜!就连最强的OpenAI o3,也只答对了41%。 这一专为多图像空间智能设计的MMSI-Bench由上海人工...
作者_|骆轶航 邮箱|_tluo@pingwest.com 我不是一个“懂代码”的人。 作为一家日益专注AI的科技内容社区的CEO,我的团队与AI 创业者和研究人员进行访谈,发布文章,举办各种各样的AI 论坛、黑客马拉松和workshop;我还在硅谷成立了一个 叫GenAI Assembling的AI 开发者社区,定期举办线下活动和闭门讨论。 我们不仅有读...
CreatiDesign团队 投稿 量子位 | 公众号 QbitAI 平面设计师有救了! 复旦大学和字节跳动团队联合提出CreatiDesign新模型,可实现高精度、多模态、可编辑的AI图形设计生成。 △CreatiDesign能生成各种类型的平面设计图,如电影海报、品牌促销、产品广告和社交媒体图。 AI虽然在文生图领域已取得了很大的突破,但以往方法在处理...
欢迎阅览由李榜主发起的:AI产品榜。 第 24 期 AI产品榜·网站榜(Web)(2025 年 05 月)由 AI产品榜、36kr、硅星人|沃垠AI 联名发布。 1 AI产品榜·网站榜(Web) 2025 年 05 月 本文里包含 18 个 AI 榜单,更多/更全 AI产品榜单 可在文末点击 “阅读原文” 免费访问 或 直接访问官网 AI产品榜 aicpb...
MeWM团队 投稿 量子位 | 公众号 QbitAI 医学领域,也有自己的世界模型了。 来自香港科技大学(广州)、约翰霍普金斯大学等机构的学者联合提出了提出医学世界模型(Medical World Model, MeWM),赋予了AI“预演”疾病发展的能力。 MeWM可以基于临床治疗决策,模拟未来肿瘤演化过程,可以为个性化治疗提供可视化、可评估、可优化的辅助...
文章转载于字母榜 作者:张琳 争当年轻人的“AI婆婆”,如今成了科技大厂攒APP月活跃度的固定操作。 BAT们纷纷下场,并在“AI婆婆”争夺战中花开两朵:一类在AI助手应用中嵌入各类角色智能体,腾讯元宝、字节豆包和阿里通义都为AI角色开了专属入口,豆包里历史名人如鲁迅教你辞职,荧屏老公“相柳”单日曾带动元宝下载排名跃升到了21位。 另一类则是借用独立APP...
喜马拉雅称,于腾讯音乐的收并购,源于公司对正在发生的行业和技术深刻变革的回应,未来将拥抱AI。 文|张洋洋 在公开腾讯音乐收购消息后,喜马拉雅联合创始人陈小雨、余建军发布全员内部信,发布内部信阐述这起交易的由来和对公司的战略思考。 内部信称,这一决定,是在双方经过多轮深入探讨、达成共识后的慎重抉择,是公司发展历程中关键的里程碑,这次并购,并非偶然发生,...
在人工智能领域,语音识别和处理一直是研究热点。然而,传统的语音识别系统在复杂环境下的表现往往不尽如人意,尤其是在高噪声或多人说话的场景中。近年来,多模态学习逐渐成为解决这一问题的关键。通义联合深圳技术大学推出的CoGenAV模型,通过融合音频和视觉信息,为语音识别和处理带来了新的突破。 一、项目概述 CoGenAV(Contrastive-Generat...
OpenAI 终于发布新模型了。 但不是 GPT-5。 而是,o3-pro。 严格来说,o3-pro 不是完全“新”的模型,更像是 o3 的高阶形态。 一个专为 ChatGPT Pro 用户准备的高算力版本,也正式接替了上一代的 o1-pro。 与此同时,OpenAI 还宣布:o3 模型的 API 定价,直接下调了 80%。 而这,只是 OpenAI 一...
“ 智能体的运作流程非常复杂和不可控,因此需要其它解决方案来解决这些问题。” 从结构上来看智能体的实现非常简单,就是大模型LLM+工具Tools;而构建工具主要有两种方式,Function call和MCP协议。但由于智能体是由大模型自己决定怎么使用工具,以及怎么处理工具需要的参数和返回值。 而这个过程对技术人员是完全不可控的,因此这一点也是智能体执行过...