图像描述(Image Captioning)是多模态学习中基础且重要的任务,随着 LLM 时代模型的发展,现代的视觉语言模型可以生成详细而全面的描述。然而,由于评测的主观性和困难,当前的视觉语言评测往往只关注 VQA、推理等任务,忽略了对模型 Detailed Image Captioning 能力的评估。 为了促进大模型时代图像描述的研究,本文主要做了以...
视频理解是通往 AGI 的必要路径。当前视频理解的探索主要集中于视频事件内容,人物动作,关系等。然而,嵌入视频中的可视文字却往往被忽略。从视频字幕到场景文字(街头招牌,道路指示牌),这些视频文本对于推理视频的内容,人物行为等提供了重要线索。 针对于此,来自哈工大,特伦托大学,北大,中科院,北航,南理工和南开大学的研究者们联合提出了 VidText,旨在提供...
图片来源:a16z Z Highlights 搜索行为从传统浏览器向大型语言模型(LLM)平台迁移,价值超800亿美元的SEO市场根基已现裂痕,搜索迈入由语言模型主导的“生成式引擎优化(GEO)”全新范式。 曝光定义从“搜索结果页排名”转变为“直接出现在模型生成的答案中”,LLM具备记忆、推理能力并提供个性化响应,彻底改变内容发现与优化逻辑。 竞争焦点从...
本文第一作者杜恒辉为中国人民大学二年级硕士生,主要研究方向为多模态大模型视听场景理解与推理,长视频理解等,师从胡迪副教授。作者来自于中国人民大学,清华大学和北京腾讯 PCG AI 技术中心。 我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的任务,它们分别要求模型具备...
图片来源:Unsplash 据知情人士透露,OpenAI 已与沙特公共投资基金、印度信实工业集团及现有股东阿联酋 MGX,就参与由软银主导的 400 亿美元新一轮融资进行商谈。这些投资者每家可能至少投入数亿美元。 • 本轮融资总额400亿美元,分两期执行——首期100亿美元已到位,二期300亿正在推进,沙特PIF、印度信实、阿联酋MGX为主要谈判对象 ...
Llama 4 的折戟沉沙没有让 Meta 知难而退,反而坚定了 All In AI 的决心。 最近,创始人扎克伯格亲自操刀组建「超级智能」团队,重金投资 Scale AI、以及砸 9 位数挖角 Google、OpenAI 的顶级科学家,也因此抢占了这几天的国际头版头条。 就在今天凌晨,Meta 也开源了最新的重量级模型——V-JEPA 2。 不同于市面上...
图片来源:火山引擎发布会 字节跳动旗下火山引擎,于6月11日举办Force原动力大会,本次大会正式发布了豆包大模型1.6、视频生成模型Seedance 1.0 Pro等新模型,同时升级了AI Agent开发平台等云原生服务。 Z Highlight: 技术性能突破:豆包1.6在多模态能力整合,视觉理解/深度思考/基础语言模型三合一(1.6-thinkin...
整理 | 华卫 昨日,Meta 推出了其新的“世界模型”V-JEPA 2,旨在实现物理世界中顶尖的视觉理解与预测能力,以提升 AI 主体的物理推理能力。对于构建能在物理世界中运作的 AI 智能体和实现高级机器智能(AMI)的工作而言,物理推理能力至关重要。 在一段发布的 V-JEPA 2 视频演示中,图灵奖获得者、Meta 首席 AI 科学家 Yann L...
整理 | 华卫 近日,新一代“面壁小钢炮” MiniCPM4.0 端侧模型发布,拥有 8B 、0.5B 两种参数规模 。 一款 8B 稀疏闪电版,带来端侧性能大跃升;一款 0.5B “以小博大”,适配广泛终端场景。 模型相关链接 Github 链接:https://github.com/openbmb/minicpm Huggingface 链接:ht...
6月11日,字节跳动旗下云业务平台火山引擎发布豆包大模型1.6,依据模型调用的上下文长度(即模型能处理的对话记忆范围),首度推行区间梯度定价策略。其中,最低价格区间的模型调用综合成本,相较4月中旬推出的豆包1.5深度思考模型下降63%,公司称这主要得益于技术层面的工程优化。 火山引擎总裁谭待解释说,一些模型厂商会根据是否启用深度思考或多模态功能来差异化定价...