AI信息差 - 安爸-超级家庭

AI信息差 2025-04-29

把 DeepSeek-V3-0324 变成推理模型

DeepSeek-R1T-Chimera，它基于DeepSeek-R1构建，并使用DeepSeek-V3-0324 数据进行微调。模型作者的测试结果是水平与 DeepSeek-R1 一样好，但是思考时间显著变短了，可以当作 DeepSeek...

安爸

17 0

AI信息差 2025-04-29

PipelineRL：大规模异步强化学习框架

PipelineRL：大规模异步强化学习框架，助力高效GPU利用与实时权重更新。亮点：1. 支持多GPU异步训练，最大化硬件利用率；2. 实时权重更新，保持策略始终“在线”；3. 支持Redis流式数据传输，提升分布式训练效率。参考文...

安爸

18 0

AI信息差 2025-04-29

自回归模型的新突破：首次生成2048×2048分辨率图像

来自Meta、西北大学、新加坡国立大学等机构的研究人员，提出了TokenShuffle，为多模态大语言模型（MLLMs）设计的即插即用操作，显著减少了计算中的视觉token数量，提高效率并促进高分辨率图像合成。除了实现超高分辨率图像生成外，...

安爸

17 0

AI信息差 2025-04-29

突发！OpenAI 为 ChatGPT 添加购物功能

新动态#ChatGPT购物功能 OpenAI 刚刚宣布了 ChatGPT 的一系列改进，特别是在搜索和购物体验方面，同时还拓展了新的交互方式从今天开始，当用户搜索产品时，ChatGPT会提供一些推荐，展示这些产品的图片和评论，并提供指向...

安爸

18 0

AI信息差 2025-04-29

语音领域ISCA Fellow 2025公布：上海交大俞凯、台大李宏毅等三位华人入选

机器之心报道机器之心编辑部近日，ISCA Fellow 2025 入选结果揭晓！ ISCA Fellow 是由国际语音通讯协会（International Speech Communication Association，ISCA）设...

安爸

19 0

AI信息差 2025-04-29

上交大等探索键值压缩的边界：MILLION开源框架定义模型量化推理新范式，入选顶会DAC 2025

本篇工作已被电子设计自动化领域顶级会议 DAC 2025 接收，由上海交大计算机学院蒋力教授与刘方鑫助理教授带领的 IMPACT 课题组完成，同时也获得了华为 2012 实验室和上海期智研究院的支持。第一作者是博士生汪宗武与硕士生许鹏。 ...

安爸

18 0

AI信息差 2025-04-29

阿里Qwen3深夜开源！8款模型、集成MCP，性能超DeepSeek-R1，2小时狂揽16.9k星

开源大模型新王！Qwen3连发8种规格支持119种语言。作者 | 程茜编辑 | 心缘阿里通义大模型新成员Qwen3系列模型终于亮相！智东西4月29日报道，今日凌晨4点，阿里云正式开源Qwen3系列模型，包含2个MoE模型...

安爸

17 0

AI信息差 2025-04-29

深夜突袭，阿里Qwen3登顶全球开源王座！暴击DeepSeek-R1，2小时狂揽17k星

新智元报道编辑：编辑部 YZH 【新智元导读】阿里Qwen3凌晨开源，正式登顶全球开源大模型王座！它的性能全面超越DeepSeek-R1和OpenAI o1，采用MoE架构，总参数235B，横扫各大基准。这次开源的Qwen3家族...

安爸

19 0

AI信息差 2025-04-29

RAG性能暴增20%！清华等推出“以笔记为中心”的深度检索增强生成框架，复杂问答效果飙升

DeepNote团队投稿量子位 | 公众号 QbitAI 在当前大语言模型（LLMs）广泛应用于问答、对话等任务的背景下，如何更有效地结合外部知识、提升模型对复杂问题的理解与解答能力，成为 RAG（Retrieval-Augmented...

安爸

19 0

AI信息差 2025-04-29

刚刚，Qwen3 终于发布！混合推理模式、支持MCP，成本仅DeepSeek R1三分之一，网友喊话小扎：工程师要赶紧加班了

整理 | 褚杏娟 4 月 29 日凌晨，在一众预告和期待中，阿里巴巴终于发布并开源了新一代通义千问模型 Qwen3。 Qwen3 采用混合专家（MoE）架构，总参数量 235B，激活仅需 22B。其中参数量仅为 DeepSeek-R1 ...

安爸

19 0