安爸-超级家庭
bg

AI进家庭

Runway上新Gen-4,角色、场景一致性顶尖,我们小测了下可灵1.6

作者|沐风 来源|AI先锋官 今年以来,从深度推理模型DeepSeek R1到混合推理模型Claude3.7、到AI Agent产品Manus、到谷歌最强模型Gemini 2.5 Pro,再到GPT-4o的生图功能等等,可以说是王炸不断。 就在昨天,AI初创公司Runway也放出了大招,发布了其最新研发的AI视频生成模型Gen-4,让AI视频更靠近电影级。...

阅读:7 评论:0

谷歌 53% 的 AI 投资砸向这个领域,正在悄悄重塑行业未来

作者|英贤 来源|IT桔子 封面|公众号AI生成 Alphabet(谷歌)作为互联网时代的科技巨头之一,在 AI 技术重塑世界的浪潮中勇立潮头,不仅通过自有的产品和服务推动 AI 发展,也通过风险投资,赋能初创企业,积极参与全球 AI 创业生态的构建。 作者根据 IT 桔子和 Crunchbase 的公开数据统计,2014 年以来,Alphabet(谷歌)...

阅读:10 评论:0

从视觉问答到多语言翻译:InternVL的多模态“全能”应用图鉴

在人工智能领域,多模态大模型的发展正以前所未有的速度改变着我们与技术的交互方式。从视觉到语言,从图像到文本,多模态模型正逐渐成为连接人类感知与机器理解的桥梁。今天,我们将深入探讨一个备受瞩目的开源多模态大模型——InternVL。由OpenGVLab推出,InternVL凭借其强大的技术架构和广泛的应用场景,正在成为多模态领域的重要力量。 一、项目概述 I...

阅读:9 评论:0

OpenAI 你真是个戏精。。。

OpenAI 你真是个戏精。 昨天被 “OpenAI 即将开源一个推理模型” 的消息刷屏了。 看到这消息的第一眼,我的第一反应是:呦,这是太阳打西边出来了。 仔细调查一番,OpenAI 果然没有“令人失望”。 这是 OpenAI CEO Sam Altman 的原帖,我添加了中文翻译。 开源模型本是好事,但很明显,OpenAI 宣传和“作秀” 的成分远大...

阅读:8 评论:0

Manus工作原理大揭秘:下一代AI Agent的多智能体架构究竟是怎么设计的?

在AI技术不断刷新边界的今天,一款名为Manus的全能AI助手突然杀入科技圈,引发了一场前所未有的热潮。 各路AI爱好者、开发者、研究人员乃至职场人士,都在议论这位新晋“智能管家”究竟有何过人之处。 今天,就让我们用最轻松幽默的方式,带你全面了解Manus背后的多智能体系统是如何实现从“思考”到“行动”无缝衔接的,以及这项技术如何可能颠覆你我未来的工作与生...

阅读:8 评论:0

R1–Zero强化学习路线新发现及R1思路用于GUI Agent动作预测方案

今天是2025年4月1日,星期二,北京,天气晴。 今天我们来继续回到R1进展,两个工作,一个是基于多种基础模型以了解预训练特性如何影响RL性能的工作,有些新发现。 另一个是将GRPO–RL强化用于Agent的UI动作预测,数据跟奖励函数设计有意思,可借鉴。 抓住根本问题,做根因,专题化,体系化,会有更多深度思考。大家一起加油。 一、R1–Zero路线的组合实...

阅读:9 评论:0

从USB到MCP:AI 工具生态接口的革新

上周,OpenAI 正式支持 MCP 协议的消息,无疑成为 AI 基础设施演进的重要里程碑。短短几个月内,从 Anthropic 首次提出到微软、OpenAI 等巨头先后加入,这一标准正在以惊人的速度完成从提出、验证到主流采纳的跃迁。MCP(Model Context Protocol)不仅是一个技术协议,更是新一代 AI 架构范式革新的信号——在硅谷科技...

阅读:8 评论:0

教育从业者年度必读,这本书藏着“教育+AI”的未来

新书《 (文:多知) 教育从业者年度必读,这本书藏着“教育+AI”的未来最先出现在每时AI。

阅读:8 评论:0

梁文锋急招CFO,要融资了?

来源 | 融中财经(ID:thecapital) 作者 | 阿布 “给你们投了这么多钱,为什么没有给我们投出梁文锋?” 自从年初DeepSeek火了之后,各地开展了一轮又一轮自省会,拿着政府引导基金的VC们,少不得被LP们问上一句。 “好在梁文锋目前没有开放融资,所有机构都没投进去,要不然真的很难向上交代。”某华南机构合伙人告诉融中记者。 不过,就在最近...

阅读:8 评论:0

字节开源MegaTTS3-轻量高效语音合成模型,Wan 团队开源 All-in-One 视频编辑框架 VACE

**关注我,记得标星不迷路哦~ 1: MegaTTS3 MegaTTS3是由字节跳动开发的轻量高效语音合成模型,支持中英双语,具有高音质克隆和口音控制等功能。 MegaTTS3 是字节跳动开源的一个轻量级、高效的文本到语音(TTS)合成系统。主要特点包括: 轻量级且高效: TTS Diffusion Transformer 的主干网络仅有 0.45B...

阅读:9 评论:0