安爸-超级家庭
bg
avatar

安爸

字节跳动刚发布 Seed-Thinking-v1.5 的技术细节报告

字节跳动发布了 Seed-Thinking-v1.5 的技术细节报告,也是一个基于强化学习训练的推理模型,从分数上来看比 DeepSeek-R1 高,处于接近 Gemini-2.5-Pro 和 O3-mini-high 的水平。 参考文献: [1] https://github.com/ByteDance-Seed/Seed-Thinking-v1.5 ...

阅读:12 评论:0

阿里巴巴发布FantasyTalking,它可以对角色进行口型同步,并具有逼真的面部和全身动作

阿里巴巴刚刚发布 FantasyTalking,它可以对角色进行口型同步,并具有逼真的面部和全身动作,它的表现优于当前的 SOTA 方法,如 OmniHuman-1、Sonic 和 Hallo 3。 参考文献: [1] https://fantasy-amap.github.io/fantasy-talking/ [2] https://github.c...

阅读:10 评论:0

2025年全球AI指数报告

斯坦福大学HAI研究中心发布了《2025年AI指数报告》。 该报告涵盖了从AI硬件、技术性能到负责任的AI应用、发展、政策治理等多个方面的综合分析,也是全球分析AI最有深度、权威的报告之一。 原版报告:https://hai-production.s3.amazonaws.com/files/hai\_ai\_index\_report\_2025.pdf...

阅读:13 评论:0

字节开源声音克隆TTS,只有0.45B参数,速度超快,效果超好!

最近在做的一个应用要用到TTS,看到字节新开源的TTS,实测玩了玩。 你们有没有发现,在国内找个声音克隆做得好的应用还不太容易,可能在合规上比较难。 难也有可能是机会。 字节开源的MegaTTS3,参数只有0.45B,速度快到快到飞起! 但是有优点就有缺点,目前只支持中英两种语言。 如果要求小语种的话,这个TTS肯定不是你的菜。 实测下来效果还是很好的,远超...

阅读:11 评论:0

SIGGRAPH 2025 即插即用!港中文、腾讯等提出首个双分支视频修复框架VideoPainter

本文介绍了 VideoPainter,一种用于视频修复的双分支框架,旨在实现高质量的视频内容恢复和编辑能力。 通过构建大规模(390K 视频片段)视频修复数据集,结合轻量级上下文编码器(仅占骨干网络参数的 6%)和掩码选择性融合和修复区域 ID 重采样等模型架构来增强可扩展性和长视频 ID 一致性。这些创新显著提升了模型在背景保留和前景生成的平衡能力和时间...

阅读:14 评论:0

Token刺客来袭!AgentPrune一键屏蔽废话智能体,成本暴降60%性能翻盘

独木不成林,但“人多嘴杂”也未必是好事!随着基于大型语言模型(LLM)的多智能体系统逐渐成为解决复杂问题的主流方案,一个令人头疼的问题也随之而来:多智能体之间的通信冗余。想象一下,一个团队里每个人都想发言,但大部分内容其实毫无意义,不仅浪费时间,还增加了沟通成本。 好消息是,这个问题终于有了解决方案! 由同济大学、香港中文大学、北卡罗来纳大学等机构联合提...

阅读:13 评论:0

ChatGPT重大更新,能翻出所有历史对话,网友被AI聊破防了

机器之心报道 编辑:泽南 终极个人 AI 助理初现雏形。 今天凌晨,OpenAI 的 CEO 山姆・奥特曼突然发推说自己睡不着了,因为有重要新功能要推出。 很快,OpenAI 就正式发布了一个令人期待的新功能。 从今天开始,ChatGPT 在每次开启对话中都可以参考你过去的所有聊天记录,提供更加个性化的回复,并在建议中能够根据你的喜好和兴趣进行优化。有...

阅读:10 评论:0

原生多模态大模型也能强化学习,思维链长达几万字,商汤日日新V6来了

机器之心报道 机器之心编辑部 拥有行业最强多模态推理与交互能力的商汤「日日新 SenseNova V6」来了。 如果让大模型像人一样聪明,应该是什么样的? 你可能会回答,我们生活的世界纷繁复杂,常常涉及多模态信息(如声音、文字、视觉、时间、空间等等),对大模型提出了极为复杂和严苛的挑战。 这要求大模型必须拥有极强的推理和交互能力。 GPT-4o 的出现让...

阅读:12 评论:0

DeepSeek“胡编乱造”,背刺了谁?

第一批受害者已出现。 作者 | 黎炫岐 编辑 | 陈邓新 用AI搜集资料、做PPT、改论文……虽然AI暂时还不能“替代”人类,但不可否认的是,AI正以前所未有的速度,渗透进普通人的日常工作和生活中。 然而,已经有越来越多人发现,AI或许并不能取代自己的工作,但或许能让自己丢掉工作。漏洞百出的数据、胡编乱造的资料和引用来源、禁不住考究的文史解读……当...

阅读:12 评论:0

200B参数击败满血DeepSeek-R1,字节豆包推理模型Seed-Thinking-v1.5要来了

机器之心报道 编辑:Panda、+0 字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B 总参数的 DeepSeek-R1。有人猜测,这就是字节豆包目前正在使用...

阅读:14 评论:0