RISEBench团队 投稿 量子位 | 公众号 QbitAI GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了! 360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。 最近,上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员,针对图像编辑AI提出了三个问...
FVG团队 投稿 量子位 | 公众号 QbitAI LLMs为什么总是灾难性遗忘?原来是功能激活在搞怪。 最近来自中国科学技术大学、香港城市大学和浙江大学的联合研究团队,通过对多个语言模型、任务序列和评估指标的系统分析,终于破解了LLMs的灾难性遗忘之谜—— 遗忘行为具有高度的模型依赖性,而导致遗忘发生的本质却是功能激活的变化。 对此,团队基于函数向量构建...
TON团队 投稿 量子位 | 公众号 QbitAI 人类在面对简单提问时常常不假思索直接回答,只有遇到复杂难题才会认真推理。 如果AI模型也能像人一样决定“要不要思考”,效率是否会大大提升? 近日,香港中文大学联合新加坡国立大学Show Lab的研究者提出了一种名为TON(Think Or Not)的新颖选择性推理框架,让视觉语言模型(VLM)可以自主判断是...
在人工智能技术飞速发展的今天,AI数字分身逐渐成为研究和应用的热点。WeClone作为一个开源项目,为用户提供了从聊天记录创造数字分身的完整解决方案,满足了个性化智能助手的需求,同时也为AI技术的探索者提供了宝贵的实践机会。 一、项目概述 WeClone是一个开源的AI数字分身一站式解决方案,致力于通过用户的聊天记录对大语言模型(LLM)进行微调,生成具...
话接上文:测完新版 DeepSeek R1,我发现它越来越像 ChatGPT 了。 昨天刚吐槽完 DeepSeek 没有更新日志,结果今天官方就正式发布了“思考更深,推理更强”的 DeepSeek R1 升级说明。 同样是开源,同样是节假日前夕(端午节),DeepSeek,总能给我们惊喜。 升级后的新模型有了正式的名字:DeepSeek-R1-0528。 ...
“ 工具调用是大模型智能体的核心理念,没有工具就没有智能体的存在。” 智能体开发是大模型应用中一个重要的概念,也是大模型应用的未来;而关于智能体的开发有各种各样的概念,但核心无非有两个一个是函数调用,另一个就是工具的实现。 关于函数调用有两种方式,其一是之前的function call,其二是现在比较火的MCP协议;不管是fc还是MCP目的都是让大模型能...
刚刚,腾讯官宣接入最新大模型 DeepSeek-R100528,并宣布开放免费使用! 与此同时,端午节的钟声已经敲响,六一儿童节紧随其后,618年中大促蓄势待发……这一连串节日的“连珠爆炸”,让无数自媒体人、电商卖家、线下门店主们头大如斗。 朋友圈、公众号、抖音封面、直播间背景……你是不是也在焦头烂额地想着:又该整节日海报了? 一张、两张不算多,可当你...
DeepSeek-R1“小版本试升级”,已上Hugging Face开源。这不是普通的升级,这是“猛虎下山”! DeepSeek-R1-0528——低调发布、高能炸场,实测结果直接封神!不夸张地说,这是目前唯一能正面刚Claude 4和Gemini 2.5 Pro的国产开源大模型! 相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在 A...
今天是2025年5月29日,星期四,北京,晴 我们来看两个事情,一个是看看大模型推理及语音模型评估进展,包括大模型推理prompt策略及DeepSeek-R1更新以及语音大模型评估。 另外一个事情,还是回到数据合成的事情,看看强化学习数据合成框架SynLogic,代码也开源了,可以用起来。 一、大模型推理及语音模型评估进展 1、大模型推理prompt策略及D...
作者|IT桔子 图片|公众号AI生成 2025年5月24日,由 IT桔子主办、创世伙伴创投与昆仑巢协办的「破局者,AI的商业化之路」主题沙龙在北京成功举办。 本次活动汇集到了来自IT桔子、创世伙伴创投、红松集团、势能资本、TsingtaoAI等机构的高管出席分享,共同探讨AI的商业化之路。 IT桔子内容总监刘晓庆:AI应用层成为资本新焦点 中国 AI 领...