安爸-超级家庭
bg

AI信息差

大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降 ICML’25

新智元报道 编辑:LRST 【新智元导读】大模型有苦恼,记性太好,无法忘记旧记忆,也区分不出新记忆!基于工作记忆的认知测试显示,LLM的上下文检索存在局限。在一项人类稳定保持高正确率的简单检索任务中,模型几乎一定会混淆无效信息与正确答案。 人们越来越意识到,大语言模型(LLM)里「找信息」这件事,并不是简单地翻字典,而和「写信息」的能力紧紧绑在一起...

阅读:9 评论:0

从 n8n 到 Claude Code:我试了 10 类爆火 AI 工具,发现不用融资也能干正事

作者 | Tina “月入 5 万美元的 AI 副业,真的只是堆几个工具就能跑起来?” 随着 AI 工具日益普及,很多人开始关注如何利用这些工具快速实现商业变现。知名全栈开发者和 AI 工具重度使用者 Ras Mic 在最新一期播客中,对市面上的十类热门的 AI 工具进行了深入剖析。从 n8n、Lindy、Claude Code、Devin、Code R...

阅读:8 评论:0

Redis MCP Server:用自然语言驱动Redis的AI原生存储引擎

mcp-redis是由Redis Labs官方开发的自然语言接口服务器,旨在为AI代理应用提供高效的数据管理和搜索功能。它基于Model Content Protocol(MCP)协议,支持Redis的全数据类型,包括字符串、哈希、列表、集合、有序集合、流、JSON和向量索引等。通过自然语言查询,mcp-redis能够无缝与任何MCP客户端集成,实现高性能...

阅读:8 评论:0

Manus 创始人长文复盘,ChatGPT Agent 上线,GPT-5 封测曝光! AI Weekly 7.14-20

本周AI快讯 | 1分钟速览 1⃣ Manus 创始人长文复盘 :季逸超发文反思从爆火到裁员历程,团队从 Claude 3.5 Sonnet v1 和 Qwen 起步,升级至 Claude 3.7 后虽降低故障率但运行时长上升,稳定性与效率难平衡。 2⃣ OpenAI 发布 ChatGPT Agent :首款通用智能体正式上线,融合 Operator 和...

阅读:7 评论:0

合肥,阿里云AI势能峰会来啦!

(文:AI先锋官) 合肥,阿里云AI势能峰会来啦!最先出现在每时AI。

阅读:8 评论:0

AIGC 产品使用时长榜:美国人爱玩虚拟角色,国内设计工具粘性最高 |榜单

IT 桔子最新产品「AIGC 全球榜单」重磅升级! 一键追踪全球 AIGC 产品最新流量榜,还可以查看「增速榜」「降速榜」「产品时长榜」 看全球趋势,看国内趋势,均可选择。 收藏 https://www.itjuzi.com/aigc\_top\_view/pv 网页不迷路 数据来源:slimilarweb 制图:IT 桔子 文字解读:腾讯元宝 6 月...

阅读:6 评论:0

12306购票查询 MCP 服务

项目地址 基于 Model Context Protocol (MCP) 的12306购票搜索服务器。提供了简单的API接口,允许大模型利用接口搜索12306购票信息。 Features 功能描述 状态 查询12306购票信息 已完成 过滤列车信息 已完成 过站查询 已完成 中转查询 已完成 其余接口,欢迎提featu...

阅读:8 评论:0

造梦师手记,群山深处的巨人:Colossus Project

群山深处沉睡着一位巨人,它既能庇佑人类亦可带来毁灭…… 巨像苏醒了…… 继SDXL系列后,现推出该项目的FLUX系列…本次我从零开始训练模型。训练所用素材全部源自我的原创图像——这些图像由我的快速Flux模型”DemonFlux/Colossus Project schnell”生成,并经过SDXL Colossus Project 12精炼器优化。 这款...

阅读:8 评论:0

深度|OpenAI 多智能体负责人:许多人正在构建的产品并未真正遵循Scaling Law,最终都会被所取代

图片来源:Latent Space Noam Brown 是 OpenAI 的多智能体研究负责人,也是 AI 战略谈判系统 Cicero 的开发者,通过 AI 反哺自身训练,成为《Diplomacy》世界冠军,并推动“测试时计算”成为下一代 AI 能力的核心范式。本次访谈中,Alessio和SWYX与Noam深入讨论了很多有关多智能体、强化学习和游戏AI ...

阅读:7 评论:0

任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

Mobile-R1团队 投稿 量子位 | 公众号 QbitAI 现有Mobile/APP Agent的工作可以适应实时环境,并执行动作,但由于它们大部分都仅依赖于动作级奖励(SFT或RL)。 而这些奖励只能引导代理预测每一步中最佳的单一动作,因此难以应对不断变化的移动环境。 比如一句指令:“打开飞猪,进入酒店套餐,进入热门直播,找到飞猪超级VIP,并关注主播...

阅读:7 评论:0