Nous Research推出了 NousCoder-14B,这是一个经过强化的奥运编程模型,使用验证性奖励进行强化学习(RL)后训练。在2024年8月1日至2025年5月1日的LiveCodeBench v6基准测试中,该模型实现了67.87%的Pass@1准确率。这比在相同基准上Qwen3-14B的基础模型60.79%的基准提高了7.08个百分点。研究团...
NVIDIA研究人员发布了PersonaPlex-7B-v1,这是一款面向完整全双工语音到语音对话模型,旨在实现具有精确角色控制的自然录音交互。 从ASR→LLM→TTS到一个单一的完整双工模型 传统的语音助手通常采用级联模式。自动语音识别(ASR)将语音转换为文本,语言模型生成文本答案,文本到语音(TTS)再次将其转换回音频。每个阶段都会增加延迟,且该管道...
Vercel发布了agent-skills,这是一套将最佳实践玩本转换为可重复使用的AI编码代理技能的技能集合。该项目遵循Agent Skills规范,并首先关注React和Next.js的性能、网页设计审查,以及Vercel上的可声明部署。技能可以通过类似npm的命令安装,然后在常规编码流程中由兼容的代理发现。 Agent Skills格式 Agent S...
谷歌AI发布了TranslateGemma,这是一套基于Gemma 3构建的开源机器翻译模型,针对55种语言。该系列包括4B、12B和27B参数大小的模型。它旨在在从移动和边缘硬件到笔记本电脑,再到云中的单个H100 GPU或TPU实例的各种设备上运行。 TranslateGemma不是一个单独的架构。它是通过一个两阶段的后期训练流程专门设计用于翻译的Gem...
黑森林实验室发布了FLUX.2 [klein],这是一系列紧凑型图像模型,旨在针对消费级硬件上的交互式视觉智能。FLUX.2 [klein]在FLUX.2系列的基础上,加入了亚秒级生成和编辑功能、统一架构以支持文本到图像和图像到图像的转换,以及本地GPU到云API的部署选项,同时保持了最先进的图像质量。 从FLUX.2 [dev]到交互式视觉智能 FLUX....
随着上下文长度达到数十万甚至数百万个标记,变压器解码器中的键值缓存成为主要的部署瓶颈。该缓存存储每个层次和每个头的键和值,形状为(2,L,H,T,D)。对于Llama1-65B这样的标准变压器,在128k个标记和bfloat16的情况下,缓存高达约335GB,这直接限制了批量大小并增加了从第一个标记到完成所需的时间。 https://arxiv.org/p...
谷歌研究通过发布MedGemma-1.5对其健康人工智能开发者基础计划(HAI-DEF)进行了扩展。该模型作为开源起点,旨在帮助开发者构建医学影像、文本和语音系统,并可根据当地工作流程和法规进行适配。 MedGemma是建立在Gemma之上的医疗生成模型系列。MedGemma-1.5-4B的新版本针对需要紧凑型模型但仍然能够处理真实临床数据的开发者。之前的M...
人工智能购物代理能否超越发送产品链接,实际上在聊天中完成全过程的可靠购买?通用商业协议,或称UCP,是谷歌为代理商商业推出的新开放标准。它为人工智能代理和商家系统提供了一种共享语言,以便购物查询可以从产品发现转移到经认证的订单,而无需为每个零售商和每个平台进行自定义集成。 https://developers.googleblog.com/under-th...
终端代理的端到端堆栈看起来像是什么样子,当您结合结构化工具组、合成强化学习环境以及基准对齐的评估时?来自CAMEL AI、Eigent AI和其他合作伙伴的研究团队发布了SETA,这是一个专注于终端代理的强化学习的工具包和环境堆栈。该项目针对在Unix风格壳中运行的代理,必须在一个基准体系结构(如Terminal Bench)下完成可验证任务。 三大主要贡献...
NVIDIA刚刚发布了其专为低延迟语音代理和实时字幕设计的全新流式英语转录模型(Nemotron Speech ASR)。Hugging Face上的检查点nvidia/nemotron-speech-streaming-en-0.6b结合了一个缓存感知的FastConformer编码器和RNNT解码器,并针对现代NVIDIA GPU上的流式和批量任务进行了...