在机器人技术快速发展的当下,如何让机器人理解视觉场景并执行动作,是操控领域的关键挑战。现有视觉 – 语言 – 动作(VLA)模型在基础任务上虽有进展,但在复杂任务中仍存在推理能力有限、计算成本高的问题。 一、项目概述 北京大学的研究团队重磅推出 RoboMamba,这是一款专为机器人量身定制的高效多模态大模型,旨在大幅提升机器人在复杂任务中的推理与决策水...
天下人苦“降智”久矣。 OpenAI 在 ChatGPT 上施加的“降智”魔咒又升级了。 并且这一次,变得让人越来越看不懂,且难以捉摸。 最早期 ChatGPT 的“降智”是有迹可循的,带有明显的特征。 我在之前的文章里详细介绍过: 再谈ChatGPT降智:已蔓延到全端,附解决方案! 分享4个快速检测ChatGPT降智的方法! ChatGPT迎来大面...
学生党们怕是很久没有打过如此富裕的仗了。 论福利,尤其是 AI 这一块,谷歌从来没输过。 继 AI Studio 面向所有用户免费开放顶级模型的使用后,谷歌又来放大招了。 谷歌今天上线了一个学生专属的教育优惠,力度大到我看了一眼以为是假的: 15个月免费用 Google One AI Premium 套餐,包括最新的 Gemini 高阶模型 + 2TB...
“ 提示词是大模型与外界交互的唯一通道,因此提示词的重要性远比我们想象中的要重要。” 提示词或者说提示词工程,说起来可能大家多多少少都知道是怎么回事;但可能很多人并没有意识到提示词工程对大模型的重要性。 提示词是人与大模型沟通的桥梁,就像我们要想使用电脑就离不开鼠标键盘一样;不管你是做AIGC也好,做RAG、Agent也罢,或者其它任何与大模型相关的技术...
DeepSeek,这个听起来高大上的名字,其实是每个打工人都能轻松上手的AI工具。它集AI报告生成与PPT一键制作为一体,彻底颠覆了传统的工作模式。 以前,你可能需要花一整天收集数据、整理思路,再用半天时间排版PPT;现在,只需输入几个关键词,DeepSeek就能自动生成专业报告,并一键转换成精美的PPT,效率提升何止十倍! 下面介绍关于DeepSeek的A...
Pytorch是目前常用的深度学习框架之一,它凭借着对初学者的友好性、灵活性,发展迅猛,它深受学生党的喜爱,我本人也是使用的Pytorch框架。 比起 TF 的框架环境配置不兼容,和 Keras 由于高度封装造成的不灵活,PyTorch 无论是在学术圈还是工业界,都相当占优势。不夸张地说,掌握了 PyTorch ,就相当于走上了深度学习、机器学习的快车道。 ...
今天是2025年4月18日,星期五,北京,雨。 关于大模型数学推理数据集已经有很多了,也是一个论文研究方向,这里,我们来看最近的代表工作,DeepMath-103K。 此外,来看看关于推理模型以及GraphRAG相关的一些进展,有些观点可以看看,供批评指正。 抓住根本问题,做根因,专题化,体系化,会有更多深度思考。大家一起加油。 一、推理大模型以及KAG的进...
作者 | 晓雅 编辑 | 石濑 博主们的起号方式越来越抽象了,甚至连AI都不放过。 最近,抖音博主“克里西”就凭借和豆包语音通话时的“相爱相杀”出圈了。 “豆包,李(你)现在改名叫‘邓超’!” 直播时,“克里西”无厘头地非要豆包改名叫“邓超”,还得在他叫“邓超”时喊“到”,再唱跑男的主题曲“go go go出发喽~黑咖啡品味有多浓,我只要汽水的轻松……” ...
作者|子川 来源|AI先锋官 卷,还得是AI圈! 昨天,OpenAI前脚放出自家最强推理大模型o3和o4-mini,字节后脚就召开发布会发布了豆包1.5·深度思考模型、文生图3.0、新版豆包 1.5 视觉理解模型等一系列产品。 下面我们就来重点聊一聊今天的主人公——豆包1.5深度思考模型。 豆包 1.5深度思考模型包含两个版本,分别是Doubao-1.5...
大家好,我是每天给推荐优秀开源项目的小G,今天推荐的是一款能控制安卓机器的 Agent。 可以用LLM通过自然语言命令控制你的Android手机你可以用它帮你社交媒体自动化,比如,打开X,并发布“Hello World”;或者“打开微信,给张三发消息说晚上一起吃饭”;或做自动化测试等 废话不多说,先看下视频,来直观感受它的强大! 下面开始正式介绍该项目 项...