安爸-超级家庭
bg

AI进家庭

新型开源端到端 AI 语音模型!Voila:195ms 超低延迟引领全双工对话!

语音交互技术的进步正在改变人机对话的方式,但传统语音助手受限于高延迟、单向交互和缺乏情感表达。 Maitrix 团队最新发布的开源 AI 端到端语音模型:Voila,其以 195ms 超低延迟及全双工对话得到众多开发者及企业的关注。 它是一款真正端到端、全双工、低延迟、可调角色的 AI 语音模型,可实现像人类一样“边听边说”的自然对话,并支持中英等多语言识...

阅读:8 评论:0

阶跃开源了一个 Suno 级别的音乐生成模型

阶跃开源了一个 Suno 级别的音乐生成模型。 A100 GPU 上,可在 20 秒内生成长达 4 分钟的音乐 支持声音克隆、歌词编辑、混音、分轨等控制功能 模型已支持 19 种语言,其中有中文 在旋律、和声、节奏方面有出更好的长程连贯性 参考文献: [1] 体验地址:https://huggingface.co/spaces/ACE-Step/A...

阅读:9 评论:0

斯坦福大学官方AI课程:NLP+深度神经网络+Transformer

斯坦福大学官方AI课程:NLP+深度神经网络+Transformer。 参考文献: [1] https://www.youtube.com/playlist?list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4 知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微...

阅读:8 评论:0

Lightricks 发布了他们的开源视频生成模型 LTXV -Video-13B

Lightricks 刚发布了他们的开源视频生成模型 LTXV -Video-13B。这个模型的亮点非常多,并且可以完全商业使用: 多尺度渲染:首先生成低分辨率的布局,然后逐步将其细化到高分辨率,从而实现超高效的渲染和增强的物理真实性 高级控制:支持关键帧条件、摄像机运动控制、角色和场景运动调整以及多帧序列,生成视频更可控 参考文献: [1] repo...

阅读:9 评论:0

一款可作为 Loom 开源平替的跨平台视频录制工具:Cap

提供桌面客户端和网页版,可以让我们在几秒钟内完成视频的录制、编辑和分享,而且所有数据都可以自托管,完全掌控在自己手中。主要功能: 快速录制屏幕内容并立即分享,节省沟通时间; 支持视频编辑功能,让内容更专业有条理; 完全开源,可自由定制和扩展功能; 提供 Dockerfile 和 Railway 一键部署选项; 基于 Rust 开发,性能优越且资源占用低。 ...

阅读:9 评论:0

突发!特朗普准备取消AI芯片出口限制

今天凌晨3点40,彭博消息,特朗普计划撤销拜登时代对人工智能芯片的限制,这是其全面修订半导体贸易限制措施的一部分。 该消息放出后,英伟达股票上涨。 之前这些限制措施遭到了英伟达、AMD、英特尔等主要半导体公司和外国政府的强烈反对。 据知情人士透露,这项撤销决定尚未最终确定,旨在重塑拜登执政期间推出的一项政策,该政策将国家分为三大类,以监管英伟达等公司AI芯...

阅读:8 评论:0

王炸!微软AI Agent支持A2A、MCP协议,智能体黄金时代降临

今天凌晨,微软在官网宣布Azure AI Foundry和Microsoft Copilot Studio两大开发平台,支持最新的Agent开发协议A2A。 这也是微软支持MCP后又一关键动作,并且会与谷歌合作一起开发扩大A2A协议,这对于智能体赛道来说意义重大。因为智能体在使用A2A、MCP协议之后,可以打破数据、开发模式、通信交互、操作环境等诸多壁垒,轻...

阅读:9 评论:0

Anthropic首次启动员工股票回购,估值615亿美元

Theinformation消息,著名大模型平台Anthropic 推出了其首个员工股票回购计划。此次回购计划面向在公司工作至少两年的现任和前任员工,他们最多可出售持有的公司 20% 股权,且每人上限为 200 万美元,每股价格定为 56.09美元。 这一价格与今年 3 月份由 Lightspeed Venture 领投的 35 亿美元融资轮定价相同,公司估...

阅读:8 评论:0

OpenAI野心爆棚!启动全球版“星际之门”,首批10个国家

今天凌晨,OpenAI在官网宣布一个全新的AI发展计划——OpenAI for Countries。 大家还记得今年1月21日,特朗普在白宫宣布由OpenAI、软银、甲骨文等一起投资5000亿美元的“星际之门”( Stargate project)项目吧,当时是相当的轰动。 现在,OpenAI希望为全球每一个国家都建立一个类似的项目,与他们一起合作开发AI基...

阅读:9 评论:0

AI编码王者之战打响!谷歌新模型超越Claude 3.7 Sonnet,OpenAI豪掷30亿美元布局

文丨谭梓馨 顶尖大模型PK日新月异,AI编码模型王座又易主了。 今天,谷歌DeepMind研究部门推出了Gemini 2.5 Pro Preview(I/O版),这是其3月份发布的Gemini 2.5 Pro多模态大型语言模型的最新迭代版本。 DeepMind首席执行官Demis Hassabis发帖称该模型为“迄今构建的最好的编码模型!”这次升级...

阅读:10 评论:0