安爸 - 安爸-超级家庭

AI信息差 2026-01-23

FlashLabs 研究人员发布 Chroma 1.0：一个具有个性化语音克隆的 4B 实时语音对话模型

Chroma 1.0是一种实时语音到语音对话模型，它将音频作为输入并返回音频作为输出，在多轮对话中保留说话人的身份。它被呈现为首个开源的端到端说话人对话系统，该系统结合了低延迟交互和仅从几秒钟的参考音频中实现的碩效个性化声音克隆。该模型直...

安爸

44 0

AI信息差 2026-01-21

微软研究发布OptiMind：一款将自然语言转换为求解器就绪优化模型的20B参数模型

微软研究所以及什么样的输出？ OptiMind-SFT 是 gpt oss transformer 系列中的一种面向专家的 20B 参数混合专家模型。每个标记大约有 3.6B 个参数是活跃的，因此推理成本接近中等模型，同时保持高容量。上下文...

安爸

36 0

AI信息差 2026-01-19

我们研究发布了 NousCoder-14B：一个经过Qwen3-14B强化学习预训练的竞技类编程模型。

Nous Research推出了 NousCoder-14B，这是一个经过强化的奥运编程模型，使用验证性奖励进行强化学习（RL）后训练。在2024年8月1日至2025年5月1日的LiveCodeBench v6基准测试中，该模型实现了67....

安爸

37 0

AI信息差 2026-01-19

NVIDIA发布PersonaPlex-7B-v1：一款专为自然和对偶式对话设计的实时语音转语音模型

NVIDIA研究人员发布了PersonaPlex-7B-v1，这是一款面向完整全双工语音到语音对话模型，旨在实现具有精确角色控制的自然录音交互。从ASR→LLM→TTS到一个单一的完整双工模型传统的语音助手通常采用级联模式。自动语音识别...

安爸

41 0

AI信息差 2026-01-19

Vercel发布代理商技能：一款针对AI编码代理商的包管理器，包含10年React和Next.js优化规则。

Vercel发布了agent-skills，这是一套将最佳实践玩本转换为可重复使用的AI编码代理技能的技能集合。该项目遵循Agent Skills规范，并首先关注React和Next.js的性能、网页设计审查，以及Vercel上的可声明部署...

安爸

38 0

AI信息差 2026-01-17

谷歌AI发布 TranslateGemma：基于Gemma 3打造的新一代开源翻译模型，支持55种语言。

谷歌AI发布了TranslateGemma，这是一套基于Gemma 3构建的开源机器翻译模型，针对55种语言。该系列包括4B、12B和27B参数大小的模型。它旨在在从移动和边缘硬件到笔记本电脑，再到云中的单个H100 GPU或TPU实例的各...

安爸

37 0

AI信息差 2026-01-17

黑森林实验室发布FLUX.2 [klein]：紧凑型流动模型用于交互式视觉智能

黑森林实验室发布了FLUX.2 ，这是一系列紧凑型图像模型，旨在针对消费级硬件上的交互式视觉智能。FLUX.2 在FLUX.2系列的基础上，加入了亚秒级生成和编辑功能、统一架构以支持文本到图像和图像到图像的转换，以及本地GPU到云API的部...

安爸

39 0

AI信息差 2026-01-16

NVIDIA人工智能开源KVzap：一种带来准无损2x-4x压缩的SOTA（当今最高水平）KV缓存剪枝方法。

随着上下文长度达到数十万甚至数百万个标记，变压器解码器中的键值缓存成为主要的部署瓶颈。该缓存存储每个层次和每个头的键和值，形状为（2，L，H，T，D）。对于Llama1-65B这样的标准变压器，在128k个标记和bfloat16的情况下，缓...

安爸

37 0

AI信息差 2026-01-15

谷歌AI发布MedGemma-1.5：开发者开放式医疗AI模型的最新更新

谷歌研究通过发布MedGemma-1.5对其健康人工智能开发者基础计划（HAI-DEF）进行了扩展。该模型作为开源起点，旨在帮助开发者构建医学影像、文本和语音系统，并可根据当地工作流程和法规进行适配。 MedGemma是建立在Gemma之上...

安爸

36 0

AI信息差 2026-01-14

谷歌AI发布通用商业协议（UCP）：一个开源标准，旨在推动下一代代理商业的发展

人工智能购物代理能否超越发送产品链接，实际上在聊天中完成全过程的可靠购买？通用商业协议，或称UCP，是谷歌为代理商商业推出的新开放标准。它为人工智能代理和商家系统提供了一种共享语言，以便购物查询可以从产品发现转移到经认证的订单，而无需为每个...

安爸

40 0

安爸 的文章

安爸的文章