NVIDIA 研究团队发布了 NitroGen,这是一个用于通用游戏代理的开放视觉动作基础模型,它可以通过 Play动pİebolt感じ到的副農官府动作从像素和学习在线游戏。NitroGen 在 40,000 小时的游戏体验中进行了训练,涵盖 1,000 多款游戏,并附带一个开放数据集、一个通用模拟器和预先训练的策略。 https://nitrogen.m...
基因组预测和设计现在需要连接局部基序与百万碱基尺度调控语境,并且能够在多种生物体上运行的模型。Nucleotide Transformer v3,简称NTv3,是InstaDeep为此设置推出的新多物种基因组基础模型。它将表示学习、功能轨迹和基因组注释预测以及可控序列生成统一在一次主骨架上,该骨架在1 Mb语境中按单核苷酸分辨率运行。 早期的Nucleoti...
谷歌开源了A2UI,这是一个表示和一组库,允许代理以声明性JSON格式描述丰富的本机界面,而客户端应用程序则用它们自己的组件来渲染它们。该项目旨在解决一个清晰的问题:如何让远程代理在没有发送可执行代码的情况下,在信任边界之外展示安全和交互式的界面。 什么是A2UI? A2UI是一个开放的规范和实现,允许代理能够说话界面。代理不会输出HTML或JavaScri...
Meta研究人员推出了感知编码器音频视觉(PEAV),作为用于联合音频和视频理解的新一代编码器家族。该模型通过在约1000万个带文本标题的音频视频对上进行大规模对比训练,在单个嵌入空间中学习了对齐的音频、视频和文本表示。 从感知编码器到PEAV 感知编码器(PE)是Meta感知模型项目中核心的视觉栈。它是一系列针对图像、视频和音频的编码器,通过统一的对比性预...
Anthropic发布了一个名为Bloom的开源代理框架,用于自动化前沿AI模型的行为评估。该系统根据研究人员指定的行为构建针对性的评估,以衡量该行为在现实场景中出现的频率和强度。 为什么是Bloom? 安全性和对齐行为评估的设计和维护成本高昂。团队必须手工创建创造性场景,进行多次交互,阅读长篇文本并汇总分数。随着模型的演变,旧基准可能会过时或泄漏到训练数据...
NVIDIA已发布了Nemotron 3系列开源模型,作为全面堆栈的一部分以支持代理人工智能,包括模型权重、数据集和强化学习工具。该系列有三种大小,分别是Nano、Super和Ultra,旨在针对需要长期上下文推理并对推理成本有严格控制的多元智能系统。Nano大约有300亿个参数,每个标记大约有30亿个活动参数,Super大约有1000亿个参数,每个标记最多...
OpenAI团队已将他们的openai/circuit-sparsity模型发布至Hugging Face,并将openai/circuit_sparsity工具包发布至GitHub。该发布包含了论文《权重稀疏Transformer具有可解释电路》中的模型和电路。 https://arxiv.org/pdf/2511.13653 什么是权重稀疏Transf...
纳贝格3B模型能否通过调整训练方法而非放大参数来实现30B级别的推理?Boss Zhipin的Nanbeige LLM实验室发布了纳贝格4-3B,这是一个3B参数的小型语言模型家族。该模型在数据质量、课时安排、蒸馏和强化学习等方面给予了特殊关注。 研究小组提供了两个主要检查点,纳贝格4-3B-Base和纳贝格4-3B-Thinking,并将调整后的推理模型与...
智能框架现在擅长推理和工具,但大多数团队仍需编写自定义代码,将智能体图转变为具有共享状态、流式输人和中断的健壮用户界面。 CopilotKit 针对最后这个环节。它是一个开源框架,可在您的应用中直接构建 AI 伴飞者以及应用内智能体,具备实时上下文和 UI 控制。( 查看 CopilotKit GitHub) CopilotKit 的 v1.50 版本在 A...
智谱AI开源了GLM-4.6V系列,作为一对视觉语言模型,将图像、视频和工具视为智能体的第一级输入,而不是作为附加在文本之上的额外考虑。 模型阵容和上下文长度 该系列包含2个模型。GLM-4.6V是一个面向云和高性能集群工作负载的,具有106B参数的基础模型。GLM-4.6V-Flash是一个经过调整的9B参数版本,适用于本地部署和低延迟使用。 GLM-4....