安爸-超级家庭
bg

AI进家庭

关于Agent智能体的开发心得——从人的角度去理解智能体

“ 智能体中,大模型就是人,工具就是人使用的工具,提示词就是你想让大模型做什么,以及怎么做。” 智能体作为AI领域潜力无限的一个应用方向,很多技术从业者都扑在了智能体上,同时也有更多的人想入行智能体开发;但面对智能体领域各种乱七八糟的新概念,新名词很多人都不知道该从哪下手,以及怎么下手。 特别是智能体是结合大模型LLM+Prompt+Tools组成的一个...

阅读:8 评论:0

刚刚,国产AI又炸了!

最近AI应用爆款频出 Manus的问世又加速了通用Agent在各行业的崛起 让大模型更广泛渗透到各垂类应用市场 这也导致AI人才缺口大、价格贵 腾讯、阿里等一线大厂纷纷开出60- 100W 挖掘能用AI 驱动业务、高效落地更多应用场景的 “大模型应用开发人才”!! 不懂AI的普通开发真的没机会了吗? 如何不被时代淘汰、享受AI技术带来的就业红利? 📢诚邀您加...

阅读:8 评论:0

Agent做PPT的开源实践:代码端看MultiAgentPPT实现思路

今天是2025年6月25日,星期四,北京,晴 我们回答文档智能进展,来看一个自动生成PPT 的项目,其中流程的设计,以及用到的爬虫代码以及Agent的prompt都可借鉴。 代码层面看MultiAgentPPT实现思路 关于PPT自动生成,看一个项目,MultiAgentPPT(https://github.com/johnson7788/MultiAgen...

阅读:7 评论:0

OCR推理大模型全军覆没?OCR-Reasoning基准揭示多模态大模型推理短板

近年多模态推理模型在数学题、学科题上表现出色(MathVista, MMMU等),但 OCR 相关 的复杂任务——比如看促销海报算计算最便宜买法、分析财务报表、规划最优路线、处理票据信息——它们的“真本事”到底如何? 长期以来,竟然没有一个系统性的评测标准来检验这些核心 OCR 推理能力!现在,填补这一巨大空白的基准——OCR-Reasoning——终于发...

阅读:11 评论:0

ACL 2025 告别Prompt玄学!新理论揭示大模型Prompt设计的奥秘与效能

近年来,大型语言模型(LLM)在自然语言处理领域取得了革命性进展。然而,其底层的 Transformer 架构在处理复杂推理任务时仍有不足。尽管「思维链」(CoT)提示技术提供了一条实用路径,但多数方法依赖通用指令,导致提示工程高度依赖反复试验,缺乏理论指导。 ▲ 图1:Prompt 模板深刻影响着答案空间的配置和导航方式。左侧展示了不同的 Prompt...

阅读:8 评论:0

谷歌发布音乐模型!

Magenta RealTime 是由 Google 开发的一个开源音乐生成模型,基于用于创建 MusicFX DJ 和 Lyria RealTime 的相同研究和技术。Magenta RealTime 允许通过文本提示、音频示例或多个文本提示和/或音频示例的加权组合来持续生成音乐音频。其相对较小的体积使其能够在资源有限的环境中部署,包括现场表演环境或免费可...

阅读:10 评论:0

MIT终身教授何恺明,入职谷歌了

一水 发自 凹非寺 量子位 | 公众号 QbitAI AI大牛何恺明最新动向来了! 才刚拿下MIT终身教职没多久,这转眼又加盟谷歌DeepMind任杰出科学家。 目前这一消息已在个人主页同步更新: 也是在最近,MIT官网发布公告称: 今年MIT工程学院一共有11位教职人员获得终身教职,而何恺明也在名单中。 要知道他去年3月才正式在MIT开讲,这中间几乎只隔...

阅读:12 评论:0

首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了

第一作者孙秋实是香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。主要研究方向为 Computer-using agents 和 Code intelligence,在 NLP 和 ML 顶会 ACL,EMNLP,ICLR,COLM 等发表多篇论文。本文的 OS-Copilot 团队此前已发布了 OS-Atlas、OS-Genesis ...

阅读:9 评论:0

鸿蒙生态的“中国速度”:技术破局与生态共创的胜利

作者_|陆 邮箱|_xiaoyu@pingwest.com 当华为常务董事、终端 BG 董事长余承东在 2025 年华为开发者大会(HDC 2025)上宣布 HarmonyOS 6 开发者 Beta 正式启动时,台下热烈的掌声回应着鸿蒙生态的又一次进化。令人惊喜的是,就在一周前,华为 Pura 80 系列才刚刚向用户展示了 HarmonyOS 5.1 的新...

阅读:9 评论:0

谷歌太壕了!编程Agent大招至简:开源且免费,百万上下文、多模态、MCP全支持

鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 开源且免费!谷歌对编程Agent出手了。 推出Gemini CLI,让你在终端里就能访问Gemini,并且提供“业界最高免费限额”: 100万上下文窗口的Gemini 2.5 Pro,每分钟允许60次模型请求,每天的上限则是1000次。 官方还着重提醒: Gemini CLI写码很强,但不只能拿来编程哦...

阅读:11 评论:0