安爸-超级家庭
bg
avatar

安爸

【Agent专题】通用Agent篇:自规划、多智能体协作、图像生成全都要,这才是下一代Agent的天花板!

如果说2023年是AI Agent觉醒之年,2024年是工具整合之年,那么2025年,则是“多智能体协作+任务自主规划”真正落地的关键转折点。 Manus,正是这个新时代的先锋。它不仅继承了ReAct、AutoGPT、OpenAgents等框架的优势,更将“多智能体设计”“自然语言规划”“图像功能集成”玩出了新高度。 它不是一款产品,而是一套完整的智能体...

阅读:9 评论:0

Agent做多模态RAG方案-MDocAgent及文档解析中的图像前处理问题

今天是2025年7月3日,星期四,北京,雨 先来看多模态RAG进展,关于这块,已经在多模态RAG专题中介绍过很多了。 其中提到最多的,就是ColBERT、ColPali这两类embedding模型,不过,从技术角度上讲,两者存在一定局限性。 例如: ColBERT和ColPali可以检索到了包含相关信息的页面,但仅检索到页面是不够的,还需要进一步分析页面中的...

阅读:9 评论:0

微信公众号订阅神器

项目简介 微信公众号订阅神器,一键生成RSS,轻松管理公众号内容!亮点:1. 支持微信公众号内容抓取与RSS生成;2. 提供用户友好的Web管理界面,操作简单;3. 定时自动更新,不错过任何新文章 功能特性 微信公众号内容抓取和解析 RSS订阅生成 用户友好的Web管理界面 定时自动更新内容 支持多种数据库(默认SQLite,可选MySQL) 支持多种抓...

阅读:8 评论:0

完美身材:Pony Realism上新

昨天刚刚发布了最受欢迎的Pony真人模型CyberRealistic Pony上新,结果另一个备受欢迎的Pony真人模型几乎同步更新了:Pony Realism。 今天特别推荐v2.3 ULTRA 版本。 ✨v2.3 ULTRA 是标准 v2.3 的一个独特变体。 从技术层面而言,它提升了整体输出效果,但我计划将此版本视为实验性版本,旨在探索未来更新的潜在...

阅读:9 评论:0

曾拿Adobe十亿美元分手费!设计界“水电煤”千亿估值冲IPO

90后创业估值1100亿!这家明星AI云巨头要IPO了。 作者 | 李水青 编辑 | 云鹏 智东西7月3日报道,近日,全球云端协作设计软件巨头Figma向纽交所提交招股书,冲刺上市。 这家曾被软件巨头Adobe豪掷200亿美元求购未果的SaaS龙头,其平台早已渗透进全球数十亿人每天使用的应用程序,包括谷歌地图、优步打车、多邻国学习软件、Claud...

阅读:9 评论:0

Grok 4意外提前曝光,xAI巨额融资700亿,马斯克宣布“重写人类知识库”

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克旗下xAI的重磅炸弹Grok 4提前泄露了! 有开发者在xAI控制台的源代码中意外发现了两个全新模型Grok 4和Grok 4 Code。 与此同时,xAI刚刚完成了一轮100亿美元(约716亿人民币)的巨额融资。 更有意思的是,xAI选择跳过原计划5月上线的Grok 3.5版本,直接推出Grok...

阅读:6 评论:0

ChatGPT诞生内幕大曝光!发布前一晚还在纠结

一水 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT诞生内幕最新大曝光: 纳尼??原来“ChatGPT”这个名字,直到发布前一晚才确定下来。 而且当时OpenAI非常犹豫要不要发这个模型,因为据称Ilya十次测试该模型,但仅有约一半的回答被团队认可。 不过发布后,ChatGPT简直一炮而红—— 第1天数据出来后,团队开始怀疑“是不是搞错...

阅读:7 评论:0

老黄预言成真!全球首个AI原生游戏引擎,一句话秒出GTA级神作

新智元报道 编辑:桃子 定慧 【新智元导读】谁曾想,AI竟能实时生成GTA级大作。刚刚,谷歌、英伟达等机构联手,震撼发布全球首款AI原生UGC游戏引擎——Mirage,没有预设关卡,一句话即生游戏,超长十分钟沉浸式体验。 全球首款AI原生UGC游戏引擎诞生了! 今天,谷歌、英伟达、微软等八大机构联手,一同祭出了这款实时AI游戏引擎——Mirage。...

阅读:9 评论:0

差点被Ilya摁掉,胎死腹中!ChatGPT爆红内幕首次公开

新智元报道 编辑:KingHZ 【新智元导读】从「与GPT-3.5畅聊」到「ChatGPT」,OpenAI团队如何在混乱中拍板上线、又怎样被用户「点赞」调教成「赛博舔狗」?从产品发布、命名内幕、团队文化到AI时代核心竞争力,深度访谈揭开幕后全过程! 自2022年11月30日上线以来,ChatGPT迅速爆红。 连OpenAI自己都没料到会这么火。 在...

阅读:9 评论:0

超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

新智元报道 编辑:LRST 【新智元导读】多模态对齐模型借助对比学习在检索与生成任务中大放异彩。最新趋势是用冻结的大语言模型替换自训文本编码器,从而在长文本与大数据场景中降低算力成本。LIFT首次系统性地剖析了此范式的优势来源、数据适配性、以及关键设计选择,在组合语义理解与长文本任务上观察到大幅提升。 多模态对齐模型近年来凭借对比学习范式在图像检索...

阅读:9 评论:0