今天是2025年6月19日,星期四,北京,晴 我们来看一个多模态RAG方案,双线索机制,搞文本和图像embedding,然后套上Agent,讲个了不错的故事,看看具体思路。 三看SimpleDoc双线索多模态RAG方案 来看多模态RAG进展,之前的典型做法是基于视觉语言模型 (VLM) 的嵌入模型将相关页面嵌入并检索为图像,并使用可接受图像作为输入的VLM生...
作者 | 石濑 编辑 | 张洁 它来了,AI图像领域的绝对王者带着它的首个视频模型来了。 就在今天凌晨,Midjourney正式推出了其首个AI视频生成模型V1,用户可以上传一张图片,或基于Midjourney图像模型生成4段5秒视频。 从官方演示来看,V1在人物运动、画面一致性上表现都相当亮眼,甚至延续了Midjourney在图像领域积累的审美优势,生...
**关注我,记得标星⭐️不迷路哦~ ✨ 1: watercrawl WaterCrawl: 强大的自托管网络爬虫与数据提取工具 WaterCrawl是一个基于Python、Django、Scrapy和Celery构建的Web应用程序,主要用于网页抓取和数据提取。它具有高度可定制的抓取选项,支持多语言搜索和抓取,并提供强大的搜索引擎和REST API。该项...
Andrej Karpathy 昨天在 YC 的旧金山创业大会上发表了一场 40 分钟的演讲。Andrej Karpathy就不必要介绍了,它的每一次演讲都是满满的干货,是AI信徒和创业者必看的演讲,本文是对其演讲的总结,可以直接看以下视频,视频较长,但看完一定过瘾。立刻放下你正在做的事情,观看 Andrej Karpathy 在 YC 创业学校上的演讲。...
这是一个非常真实朴素的Flux大模型,另外,作者不允许使用它发布NSFW。 作者在C站称: 禁止发布NSFW内容!!! 一经发现,我将删除此类内容。 REAL1SM_V3_FP8/FP16 这很可能是我们与合作伙伴https://civitai.com/user/Triple_Headed_Monkey 共同开发的最新版模型。此版本优化了风格表现与细节处理...
新智元报道 编辑:定慧 好困 【新智元导读】短短3天时间,字节技术副总裁就借助AI原生IDE——TRAE,打造并开源了一款英语学习应用「积流成江」。其中,约85%代码都是通过自然语言生成的。 创造一个AI Coding的产品,再用这个产品来做AI Coding是什么体验? 未来的AI开发范式究竟是什么样子的,开发者+AI能够迸发出多大的创造力? 也...
AI 迭代的太快了,不可复制的静态「护城河」时代已经不存在了。而To C AI产品根本就没有「护城河」,速度决定一切:产品发布速度、获取关注速度、抢占用户心智的速度。 a16z 的合伙人 Bryan Kim 近期发布了一篇文章《In Consumer AI, Momentum Is the Moat》,探讨了在没有「护城河」的To C AI 产品竞争中,如何...
作者_|summer 邮箱|_huangxiaoyi@pingwest.com 外卖大战,战事正酣。 一场战事在水面之上。当数以亿计的真金白银被投入市场,这场关乎数亿人一日三餐的竞争,被彻底渲染成了一场价格肉搏,声势浩大,引人注目。 但当多数人的目光都聚焦于红包与优惠券时,很少有人意识到,在这场喧嚣之下,一场真正决定胜负的“看不见的战争”——关于技术的较量...
作者_|陆 邮箱|_xiaoyu@pingwest.com 随着移动影像的发展,好像拍照已经成为了手机除去性能之外最重要的一个功能,厂商为了抢占市场,纷纷推出自家的 Ultra“影像旗舰”,很多用户在选择手机时也会优先考虑手机的影像能力。 作为 P 系列的继任者,Pura 系列是华为目前的影像担当,这一系列自诞生之日起,便将探索移动影像的边界刻入了品牌基因...
作者 | 华卫 这几天,即将在鸟巢和国家速滑馆举办的世界人形机器人运动会开启了报名通道。其规格之高迅速引发热议,不少人直呼期待。 2024 年,人形机器人刚会走。今年才过半,各类机器人相关赛事已“出圈”了好几场。4 月,各地举办的机器人马拉松赛吸引了无数目光。几天前,央视主办的一场人形机器人格斗赛,再次点燃大众对机器人的好奇与热情。 机器人领域的热度,自...